Компания Google выпустила T5Gemma 2 — семейство открытых моделей Transformer с архитектурой кодировщик-декодер, созданных путём адаптации предварительно обученных весов Gemma 3 к схеме кодировщик-декодер и последующего продолжения предварительного обучения с целью UL2.
Что на самом деле выпустила Google?
В релиз включены три предварительно обученных размера: 270M-270M, 1B-1B и 4B-4B, где обозначение означает, что кодировщик и декодер имеют одинаковый размер. Исследовательская группа сообщает о приблизительном общем количестве параметров, исключая кодировщик зрения: около 370M, 1.7B и 7B параметров.
Адаптация: кодировщик-декодер без обучения с нуля
T5Gemma 2 следует той же идее адаптации, которая была представлена в T5Gemma: инициализация модели кодировщик-декодер из контрольной точки только с декодером, затем адаптация с помощью UL2.
Исследовательская группа показывает параметры кодировщика и декодера, инициализированные из предварительно обученной модели только с декодером, затем предварительно обученные с помощью UL2, причём изображения сначала преобразуются с помощью SigLIP в 256 токенов.
Это важно, поскольку разделение кодировщика и декодера распределяет рабочую нагрузку: кодировщик может считывать весь ввод двунаправленно, в то время как декодер фокусируется на авторегрессивной генерации. Исследовательская группа утверждает, что такое разделение может помочь в задачах с длинным контекстом, где модель должна извлечь соответствующие доказательства из большого ввода перед генерацией.
Два изменения, повышающие эффективность небольших моделей
1. T5Gemma 2 использует связанные словесные вложения в кодировщике входных вложений, декодере входных вложений и декодере выходных или softmax вложений. Это уменьшает избыточность параметров.
2. В декодере вводится объединённое внимание. Вместо отдельных подслоёв самовнимания и кросс-внимания декодер выполняет одну операцию внимания, где K и V формируются путём конкатенации выходов кодировщика и состояний декодера, а маскирование сохраняет причинную видимость для токенов декодера.
Мультимодальность: понимание изображений на стороне кодировщика, а не декодера
T5Gemma 2 является мультимодальной, поскольку повторно использует кодировщик зрения Gemma 3 и сохраняет его замороженным во время обучения. Токены зрения всегда подаются на кодировщик, и токены кодировщика имеют полную видимость друг для друга в самовнимании.
Длинный контекст до 128K: что это позволяет
Исследователи Google связывают окно контекста в 128K с механизмом чередующегося локального и глобального внимания Gemma 3. Команда Gemma 3 описывает повторяющийся шаблон 5 к 1: 5 слоёв локального скользящего оконного внимания, за которыми следует 1 слой глобального внимания, с размером локального окна 1024.
Настройка обучения и что означает «только предварительно обученный» для пользователей
Исследовательская группа сообщает, что модели предварительно обучены на 2T токенах, и описывает настройку обучения, которая включает размер пакета в 4.2M токенов, косинусный спад скорости обучения с 100 шагами прогрева, глобальное отсечение градиента на уровне 1.0 и усреднение контрольных точек за последние 5 контрольных точек.
Ключевые выводы
* T5Gemma 2 — это семейство кодировщиков-декодеров, адаптированное из Gemma 3 и продолженное с помощью UL2.
* Google выпустила только предварительно обученные контрольные точки, а не пост-обученные или настроенные под инструкции варианты.
* Мультимодальный ввод обрабатывается с помощью кодировщика зрения SigLIP, который выводит 256 токенов изображения и остаётся замороженным.
* Два изменения, повышающие эффективность параметров: связанные словесные вложения и объединённое внимание.
* Длинный контекст до 128K обеспечивается конструкцией внимания Gemma 3 с чередованием локального и глобального внимания.
1. Какие основные характеристики модели T5Gemma 2?
Ответ: T5Gemma 2 — это семейство открытых моделей Transformer с архитектурой кодировщик-декодер, созданных путём адаптации предварительно обученных весов Gemma 3 к схеме кодировщик-декодер и последующего продолжения предварительного обучения с целью UL2. Модель включает три предварительно обученных размера: 270M-270M, 1B-1B и 4B-4B.
2. Какие изменения в архитектуре T5Gemma 2 повышают эффективность небольших моделей?
Ответ: Два изменения, повышающие эффективность небольших моделей T5Gemma 2:
* использование связанных словесных вложений в кодировщике входных вложений, декодере входных вложений и декодере выходных или softmax вложений, что уменьшает избыточность параметров;
* введение объединённого внимания в декодере, где вместо отдельных подслоёв самовнимания и кросс-внимания декодер выполняет одну операцию внимания.
3. Как работает мультимодальность в T5Gemma 2?
Ответ: T5Gemma 2 является мультимодальной, поскольку повторно использует кодировщик зрения Gemma 3 и сохраняет его замороженным во время обучения. Токены зрения всегда подаются на кодировщик, и токены кодировщика имеют полную видимость друг для друга в самовнимании.
4. Какой размер контекста у модели T5Gemma 2 и как это влияет на её возможности?
Ответ: Размер контекста у модели T5Gemma 2 составляет до 128K. Это позволяет модели извлекать соответствующие доказательства из большого ввода перед генерацией, что может быть полезно в задачах с длинным контекстом.
5. Что означает «только предварительно обученный» для пользователей T5Gemma 2?
Ответ: Исследовательская группа сообщает, что модели T5Gemma 2 предварительно обучены на 2T токенах. Это означает, что Google выпустила только предварительно обученные контрольные точки, а не пост-обученные или настроенные под инструкции варианты. Пользователи могут адаптировать модель под свои задачи, но не получат модель, настроенную под конкретные инструкции или задачи.