Компания Google выпустила T5Gemma 2 — семейство открытых моделей Transformer с архитектурой кодировщик-декодер, созданных путём адаптации предварительно обученных весов Gemma 3 к структуре кодировщик-декодер и последующего продолжения предварительного обучения с целью UL2.
Что представляет собой T5Gemma 2?
T5Gemma 2 позиционируется как аналог Gemma 3 для кодировщика-декодера, сохраняющий те же базовые блоки низкого уровня, но с двумя структурными изменениями, направленными на повышение эффективности небольших моделей.
Модели наследуют особенности Gemma 3, важные для развёртывания, в частности:
* мультимодальность;
* длинный контекст — до 128 тысяч токенов;
* широкий многоязычный охват (более 140 языков).
Что включено в релиз?
Релиз включает три предварительно обученных размера: 270M-270M, 1B-1B и 4B-4B, где обозначение означает, что кодировщик и декодер имеют одинаковый размер. Исследовательская группа сообщает о приблизительном общем количестве параметров без учёта кодировщика изображений: около 370 миллионов, 1,7 миллиарда и 7 миллиардов.
Адаптация: кодировщик-декодер без обучения с нуля
T5Gemma 2 следует той же идее адаптации, которая была представлена в T5Gemma: инициализация модели кодировщик-декодер из контрольной точки только с декодером, затем адаптация с помощью UL2.
Исследовательская группа показывает параметры кодировщика и декодера, инициализированные из предварительно обученной модели только с декодером, затем предварительно обученные с помощью UL2, при этом изображения сначала преобразуются с помощью SigLIP в 256 токенов.
Это важно, поскольку разделение на кодировщик и декодер распределяет рабочую нагрузку: кодировщик может читать весь ввод двунаправленно, а декодер фокусируется на авторегрессивной генерации. Исследовательская группа утверждает, что такое разделение может помочь в задачах с длинным контекстом, где модель должна извлечь соответствующие доказательства из большого ввода перед генерацией.
Два изменения, повышающие эффективность небольших моделей
1. T5Gemma 2 использует связанные словесные вложения в кодировщике входных вложений, декодере входных вложений и декодере выходных или softmax вложений. Это уменьшает избыточность параметров.
2. В декодере вводится объединённое внимание. Вместо отдельных подслоёв самовнимания и кросс-внимания декодер выполняет одну операцию внимания, где K и V формируются путём конкатенации выходов кодировщика и состояний декодера, а маскирование сохраняет причинную видимость для токенов декодера.
Мультимодальность: понимание изображений на стороне кодировщика, а не декодера
T5Gemma 2 является мультимодальной благодаря использованию визуального кодировщика Gemma 3 и его замораживанию во время обучения. Токены изображений всегда подаются на вход кодировщику, и токены кодировщика имеют полную видимость друг друга в самовнимании.
Это прагматичный дизайн кодировщик-декодер: кодировщик объединяет токены изображений с текстовыми токенами в контекстуальные представления, а декодер может затем обращаться к этим представлениям при генерации текста.
Длинный контекст до 128K: что это позволяет
Исследователи Google связывают окно контекста в 128K с чередованием локального и глобального механизмов внимания в Gemma 3. Команда Gemma 3 описывает повторяющийся шаблон 5 к 1: 5 слоёв локального скользящего оконного внимания, за которыми следует 1 слой глобального внимания, с размером локального окна в 1024.
Такая конструкция снижает рост кэша KV по сравнению с тем, чтобы делать каждый слой глобальным, что является одной из причин, по которой длинный контекст становится возможным при меньших размерах.
В T5Gemma 2 исследовательская группа также упоминает использование методов позиционной интерполяции для длинного контекста и предварительно обучает на последовательностях длиной до 16K входных данных в паре с 16K целевыми выходами, а затем оценивает производительность длинного контекста до 128K на контрольных примерах, включая RULER и MRCR.
Настройка обучения и что означает «только предварительно обученный» для пользователей
Исследовательская группа сообщает, что модели предварительно обучены на 2 триллионах токенов, и описывает настройку обучения, которая включает размер пакета в 4,2 миллиона токенов, косинусное затухание скорости обучения с 100 шагами прогрева, глобальное отсечение градиента на уровне 1,0 и усреднение контрольных точек за последние 5 контрольных точек.
Ключевые выводы
* T5Gemma 2 — это семейство моделей кодировщик-декодер, адаптированное из Gemma 3 и продолженное с помощью UL2.
* Google выпустила только предварительно обученные контрольные точки, а не пост-обученные или настроенные варианты инструкций.
* Мультимодальный ввод обрабатывается с помощью визуального кодировщика SigLIP, который выводит 256 токенов изображения и остаётся замороженным.
* Два центральных изменения, повышающих эффективность параметров: связанные словесные вложения и объединённое внимание.
* Длинный контекст до 128K обеспечивается конструкцией внимания Gemma 3 с чередованием локального и глобального внимания.
1. Какие основные характеристики и особенности модели T5Gemma 2?
Основные характеристики и особенности модели T5Gemma 2 включают:
* мультимодальность;
* длинный контекст — до 128 тысяч токенов;
* широкий многоязычный охват (более 140 языков);
* адаптация из контрольной точки модели с декодером и последующее предварительное обучение с помощью UL2;
* использование связанных словесных вложений в кодировщике входных вложений, декодере входных вложений и декодере выходных или softmax вложений для уменьшения избыточности параметров;
* объединённое внимание в декодере вместо отдельных подслоёв самовнимания и кросс-внимания.
2. Какие структурные изменения были внесены в T5Gemma 2 для повышения эффективности небольших моделей?
В T5Gemma 2 были внесены два структурных изменения для повышения эффективности небольших моделей:
* использование связанных словесных вложений в кодировщике входных вложений, декодере входных вложений и декодере выходных или softmax вложений;
* введение объединённого внимания в декодере, где K и V формируются путём конкатенации выходов кодировщика и состояний декодера.
3. Как обеспечивается длинный контекст до 128K в T5Gemma 2?
Длинный контекст до 128K в T5Gemma 2 обеспечивается конструкцией внимания Gemma 3 с чередованием локального и глобального внимания. Команда Gemma 3 описывает повторяющийся шаблон 5 к 1: 5 слоёв локального скользящего оконного внимания, за которыми следует 1 слой глобального внимания, с размером локального окна в 1024. Такая конструкция снижает рост кэша KV по сравнению с тем, чтобы делать каждый слой глобальным, что является одной из причин, по которой длинный контекст становится возможным при меньших размерах.
4. Какие параметры были использованы при предварительном обучении T5Gemma 2?
При предварительном обучении T5Gemma 2 были использованы следующие параметры:
* размер пакета в 4,2 миллиона токенов;
* косинусное затухание скорости обучения с 100 шагами прогрева;
* глобальное отсечение градиента на уровне 1,0;
* усреднение контрольных точек за последние 5 контрольных точек.
5. Что означает «только предварительно обученный» для пользователей T5Gemma 2?
«Только предварительно обученный» означает, что Google выпустила только предварительно обученные контрольные точки, а не пост-обученные или настроенные варианты инструкций. Это означает, что пользователи могут адаптировать и настраивать модель под свои задачи, но не получили готовую к использованию модель для конкретных инструкций или приложений.