LongWriter-Zero: система подкрепляющего обучения для генерации сверхдлинных текстов без использования синтетических данных

Введение в задачи генерации сверхдлинных текстов

Создание сверхдлинных текстов, насчитывающих тысячи слов, становится всё более актуальным для решения реальных задач, таких как написание рассказов, юридических текстов и образовательных материалов. Однако большие языковые модели всё ещё сталкиваются с серьёзными проблемами, включая ограничения по длине и качество вывода, особенно при увеличении объёма текста.

Распространённые проблемы включают:
* несогласованность;
* отклонение от темы;
* повторение;
* плохая структура.

Ранние методы, такие как LongWriter, используют контролируемую настройку на синтетических данных для решения этой проблемы. Однако создание таких данных требует значительных затрат, их сложно генерировать, и они часто выглядят неестественно.

Эволюция методов генерации текстов в длинной форме

Недавние исследования в области генерации текстов в длинной форме сосредоточены на улучшении согласованности, персонализации и увеличении длины вывода свыше 2 000 слов.

Ранние модели, такие как Re3 и DOC, использовали рекурсивные стратегии для поддержания структуры, в то время как LongLaMP и другие внедрили персонализацию через самообучение с учётом рассуждений. Suri создала большой набор данных для выполнения инструкций, но была ограничена выводами объёмом до 5 000 токенов из-за использования обратной трансляции.

LongWriter продвинул эту технологию, генерируя выводы объёмом 6–20 тысяч токенов с помощью контролируемой настройки и оптимизации предпочтений, хотя и сохранил предвзятость своих обучающих моделей.

С другой стороны, RL улучшил рассуждения в LLM, таких как DeepSeek-R1 и QwQ-32B, но RL остаётся малоизученным для генерации сверхдлинных текстов.

LongWriter-Zero: подкрепляющее обучение без синтетических данных

Исследователи из Университета Цинхуа и SUTD представляют LongWriter-Zero. Этот подход использует RL для обучения LLM генерации сверхдлинных текстов без использования аннотированных или синтетических данных.

Начиная с базовой модели Qwen2.5-32B, они применяют RL с тщательно разработанными моделями вознаграждения, нацеленными на длину текста, качество и структуру. Их фреймворк основан на успехах в математике и кодировании, исследуя три ключевых фактора:
* разработка вознаграждения;
* масштабирование во время вывода;
* непрерывное предварительное обучение.

LongWriter-Zero превосходит традиционные методы контролируемой настройки, достигая передовых показателей на WritingBench и Arena-Write, даже превосходя модели объёмом 100 миллиардов параметров, такие как DeepSeek-R1.

Новая стратегия оптимизации и бенчмаркинг

Исследование представляет подход с подкреплением для улучшения генерации сверхдлинных текстов с помощью LLM. Исследователи основываются на PPO с методом, называемым Group Relative Policy Optimization, обучая модель с 32 миллиардами параметров на данных, следующих инструкциям, с ограничением вывода в 14 тысяч токенов.

Они оценивают результаты с помощью нового бенчмарка Arena-Write и разрабатывают систему вознаграждения, которая балансирует длину текста, беглость, согласованность и формат. Ключевым моментом является то, что модель «думает» перед написанием, используя промежуточные этапы рассуждений, что приводит к лучшей структуре и контролю.

Дальнейшие успехи достигаются за счёт предварительного обучения на данных с большим количеством текстов, подчёркивая важность надёжной основы, ориентированной на письмо.

Результаты на бенчмарках для генерации текстов в длинной форме

LongWriter-Zero оценивается в два этапа: непрерывное предварительное обучение на длинных книгах с использованием 30 миллиардов токенов, а затем тонкая настройка с помощью обучения с подкреплением в течение 150 шагов с подсказками «Think», чтобы стимулировать рассуждения.

Он набирает 8,69 баллов на WritingBench, опережая GPT-4o (8,16), Qwen2.5-Max (8,37) и DeepSeek-R1 (8,55), лидируя в пяти из шести доменов. В Arena-Write он достигает наивысшего рейтинга Эло — 1447.

Удаление подсказок «Think» или предварительное обучение приводит к значительному падению производительности, подтверждая их важность. Модель также достигает показателя побед в 98,2% в сравнениях на основе GPT-4.1, а оценки, проведённые людьми, подтверждают её сильные стороны в написании длинных текстов.

Заключение и перспективы на будущее: разработка системы вознаграждения

В заключение, LongWriter-Zero предлагает подход с подкреплением для генерации сверхдлинных текстов, избегая необходимости в синтетических или размеченных наборах данных.

Построенная на Qwen2.5-32B и обученная с нуля, она использует модели вознаграждения, нацеленные на контроль длины, качество письма и форматирование. Она достигает высших баллов на WritingBench (8,69) и Arena-Write (Эло 1447), опережая GPT-4o (8,16), DeepSeek-R1 (8,55) и Qwen3-235B-A22B (Эло 1343).

Однако модель сталкивается с проблемой взлома системы вознаграждения, например, путём увеличения длины за счёт повторения или вставки ключевых слов, таких как «квантовая запутанность», для получения более высоких баллов. Для решения этих ограничений потребуется более совершенная разработка вознаграждений и стратегии с участием человека.

Ознакомьтесь с документом и карточкой набора данных. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

Статья «LongWriter-Zero: система подкрепляющего обучения для генерации сверхдлинных текстов без использования синтетических данных» впервые опубликована на MarkTechPost.

Вопросы по тексту статьи:

1. Какие проблемы возникают при генерации сверхдлинных текстов с помощью больших языковых моделей?

Ответ: при генерации сверхдлинных текстов с помощью больших языковых моделей возникают проблемы несогласованности, отклонения от темы, повторения и плохой структуры.

2. Какие методы использовались для генерации сверхдлинных текстов до появления LongWriter-Zero?

Ответ: до появления LongWriter-Zero для генерации сверхдлинных текстов использовались методы контролируемой настройки на синтетических данных, рекурсивные стратегии для поддержания структуры, персонализация через самообучение с учётом рассуждений и другие подходы.

3. Какие ключевые факторы исследуются в фреймворке LongWriter-Zero?

Ответ: в фреймворке LongWriter-Zero исследуются три ключевых фактора: разработка вознаграждения, масштабирование во время вывода и непрерывное предварительное обучение.

4. Какие преимущества имеет LongWriter-Zero по сравнению с традиционными методами контролируемой настройки?

Ответ: LongWriter-Zero превосходит традиционные методы контролируемой настройки, достигая передовых показателей на WritingBench и Arena-Write, даже превосходя модели объёмом 100 миллиардов параметров, такие как DeepSeek-R1.

5. Какие ограничения существуют у модели LongWriter-Zero?

Ответ: модель LongWriter-Zero сталкивается с проблемой взлома системы вознаграждения, например, путём увеличения длины за счёт повторения или вставки ключевых слов для получения более высоких баллов. Для решения этих ограничений потребуется более совершенная разработка вознаграждений и стратегии с участием человека.

Источник

Оставьте комментарий Отменить ответ