Исследователи Meta представили масштабируемую байтово-уровневую авторегрессионную модель U-Net, превосходящую трансформаторы на основе токенов в задачах языкового моделирования

Языковое моделирование играет основополагающую роль в обработке естественного языка, позволяя машинам предсказывать и генерировать текст, напоминающий человеческий. Эти модели значительно эволюционировали, начиная со статистических методов и проходя через нейронные архитектуры к современным крупномасштабным системам на основе трансформаторов.

В центре многих приложений, таких как чат-боты, инструменты перевода и механизмы завершения текста, находятся языковые модели, интерпретирующие и генерирующие последовательности слов или байтов. Их эффективность во многом зависит от базовой архитектуры и используемых представлений данных.

Проблемы с токенизацией и языковыми моделями на основе трансформаторов

Одной из основных проблем языкового моделирования является чрезмерное использование моделей на основе токенов и трансформаторов, которые требуют значительных вычислительных ресурсов и в целом неэффективны для обработки на уровне байтов или даже в разных языках.

Методы, такие как кодирование пар байтов, контролируют длину последовательностей, но создают несоответствия между языками и доменами. Трансформеры, хотя и точны, не обладают масштабируемостью из-за их квадратичной сложности. Хотя конкурирующие подходы, такие как разрешённое внимание, пытаются решить эту проблему, они обычно делают это за счёт простоты или производительности.

Моделирование на уровне байтов с плоскими трансформерами продемонстрировало лишь частичный успех, подчёркивая необходимость новых архитектур, которые могут обрабатывать необработанные байтовые входные данные без токенизации, достигая при этом отличной производительности.

Введение в AU-Net: языковая модель без токенов на уровне байтов

Исследователи из FAIR в Meta, TAU, INRIA, LISN, CNRS & Université Paris-Saclay, INSA Rouen Normandy, LITIS, Rouen, France представили новую авторегрессионную модель U-Net (AU-Net). Эта модель объединяет идеи свёрточных конструкций U-Net с процессами авторегрессионного декодирования.

В отличие от систем на основе трансформаторов, AU-Net не требует токенизации и работает непосредственно с байтами. Архитектура разработана для обеспечения параллельной и эффективной генерации с автономией для включения авторегрессионных возможностей. Это достигается за счёт иерархического кодирования с пониженной дискретизацией свёрток и последующих этапов повышения дискретизации, которые восстанавливают исходный размер последовательности.

Примечательно, что AU-Net представляет механизм разделения, который позволяет выполнять прогнозы по подсегментам последовательности, повышая масштабируемость. Такая смена дизайна также обеспечивает линейное увеличение сложности модели с увеличением длины последовательности, а не квадратичное.

Исследователи развернули эту модель в нескольких тестах языкового моделирования и многоязычных задачах, чтобы проверить её эффективность как в условиях ограниченных ресурсов, так и в крупномасштабных настройках.

Архитектура AU-Net: многоуровневое кодирование и параллельный вывод

Архитектура AU-Net реализована с несколькими этапами масштабирования, которые уменьшают и затем реконструируют входные последовательности с помощью свёрток с шагами. Во время обучения каждый сегмент входной последовательности прогнозируется в замаскированном виде для сохранения авторегрессионного свойства.

Модель использует изученную функцию разделения для разделения входных последовательностей на неперекрывающиеся группы, которые затем прогнозируются одновременно и объединяются в полный вывод. Она поддерживает как неглубокие, так и глубокие конфигурации, с моделями, занимающими от 3 % до 75 % вычислительного бюджета на обучение по сравнению со стандартными базовыми показателями.

Например, одна конфигурация, обученная на 200 миллиардах токенов с 8 миллиардами параметров, достигла высококонкурентных результатов. Другая версия, обученная на 60 миллиардах токенов с моделью на миллиард параметров, достигла показателя BLEU 35,7 в стандартных задачах перевода, превзойдя базовые модели, обученные на тех же данных.

Кроме того, AU-Net продемонстрировала более высокую скорость генерации благодаря параллельному декодированию, что является значительным преимуществом для приложений, чувствительных к задержкам.

Результаты тестов показывают конкурентное преимущество над трансформаторами

Экспериментальные результаты показали высокую производительность в широком спектре задач. В Enwik8, тесте сжатия на уровне байтов, AU-Net достигла 1,01 бит на байт, превзойдя базовый уровень трансформатора, который достиг только 1,02 бит на байт. В задаче языкового моделирования с длинным контекстом PG-19 модель достигла 2,61 бит на байт по сравнению с 2,75 у стандартных трансформаторов.

AU-Net также эффективно масштабировалась в рамках вычислительных бюджетов, достигнув показателя BLEU 43,3 в FLORES-200 при переводе с помощью модели размером 8 миллиардов параметров, обученной на 200 миллиардах токенов. В многоязычной оценке с использованием FLORES-200 модель превзошла трансформаторы на основе токенов в парах языков с ограниченными ресурсами.

Она также продемонстрировала лучшее межъязыковое обобщение в рамках языковых семейств, достигнув показателя BLEU до 33,0 в нескольких конфигурациях. При оценке в равных условиях по вычислительным ресурсам и бюджетам данных AU-Net либо соответствовала, либо превосходила трансформаторы, при этом скорость генерации улучшилась на 20–30 % в определённых условиях.

Ключевые вклады и аналитические выводы из AU-Net

* AU-Net устраняет необходимость в токенизации, работая непосредственно с необработанными байтовыми входными данными.
* В Enwik8 AU-Net набрала 1,01 bpb, превзойдя базовые показатели трансформатора с 1,02 bpb.
* В PG-19 она достигла 2,61 bpb, улучшив показатель 2,75 bpb стандартных трансформаторов.
* Многоязычная оценка FLORES-200 показала до 33,0 BLEU, превзойдя системы на основе токенов.
* Модели байтового уровня, обученные с помощью AU-Net, сохраняли высокую производительность в условиях с ограниченными и неограниченными ресурсами.
* Скорость генерации улучшилась на 20–30 %, что способствует быстрому параллельному выводу.
* Законы масштабирования соблюдались; производительность улучшалась с увеличением размера модели и объёма данных.
* Модель показала лучшее межъязыковое обобщение и устойчивость к шуму.
* Эффективное использование вычислительных ресурсов; AU-Net соответствовала или превосходила производительность трансформаторов при меньших вычислительных бюджетах.

AU-Net — это жизнеспособная альтернатива для крупномасштабных задач языкового моделирования, включая многоязычные и байтово-уровневые приложения.

Заключение: практические преимущества и потенциал масштабируемости AU-Net

В заключение исследователи представили подробный анализ масштабирования, показывающий, что AU-Net придерживается предсказуемым законам масштабирования гиперпараметров. Она выигрывает от увеличения размера модели и количества обучающих токенов в соответствии с практиками, наблюдаемыми в моделях трансформаторов.

AU-Net способна масштабироваться до моделей с 8 миллиардами параметров, демонстрируя эффективное обучение и показывая, что архитектура способна поддерживать системы с высокой пропускной способностью. В расширенных оценках модель сохраняла свою эффективность при применении к последующим задачам, демонстрируя высокую производительность в языковом моделировании, переводе и тестах прогнозирования на уровне байтов.

AU-Net также оказалась более простой в обучении и более устойчивой к входным шумам по сравнению с моделями на основе токенов.

Почему это исследование важно?

Это исследование важно, поскольку оно бросает вызов давней зависимости от языковых моделей на основе токенов, представляя AU-Net, байтово-уровневую авторегрессионную архитектуру, которая устраняет накладные расходы на токенизацию, достигая при этом конкурентоспособной или превосходной производительности.

Обрабатывая необработанные байты напрямую и эффективно масштабируясь с линейной сложностью, AU-Net устраняет ключевые ограничения моделей на основе трансформаторов, а именно их квадратичное масштабирование и зависимость от фиксированных словарей.

Её высокие результаты в многоязычных и задачах с длинным контекстом, особенно в условиях ограниченных ресурсов, подчёркивают её потенциал для создания более эффективных, инклюзивных и обобщаемых систем НЛП. Это позиционирует AU-Net как многообещающую альтернативу для будущих крупномасштабных усилий по языковому моделированию.

Источник