Забудьте об имитации ключевых слов: ByteDance AI отображает молекулярные связи в рассуждениях ИИ для стабилизации производительности Long Chain-of-Thought и обучения с подкреплением (RL)

Компания ByteDance опубликовала исследование, которое может изменить подход к созданию рассуждающих ИИ. Разработчики и исследователи ИИ уже много лет пытаются «холодно запустить» большие языковые модели (LLM) в модели с длинными цепочками рассуждений (Long CoT). Большинство моделей теряют направление или не могут перенести закономерности при многошаговом рассуждении.

Три «химические связи» мышления

Команда ByteDance обнаружила проблему: мы смотрели на рассуждения неправильно. Вместо простых слов или узлов, эффективные рассуждения ИИ имеют стабильную, молекулярно-подобную структуру.

Исследователи утверждают, что качественные траектории рассуждений удерживаются вместе тремя типами взаимодействий. Они напоминают силы, встречающиеся в органической химии:

* Глубокое рассуждение как ковалентные связи. Это формирует первичную «основу» мыслительного процесса. Оно кодирует сильные логические зависимости, где шаг A должен обосновывать шаг B. Нарушение этой связи дестабилизирует весь ответ.
* Саморефлексия как водородные связи. Это действует как стабилизатор. Подобно тому как белки приобретают стабильность, когда цепи сворачиваются, рассуждения стабилизируются, когда более поздние шаги (например, шаг 100) пересматривают или усиливают более ранние предпосылки (например, шаг 10). В их тестах 81,72% шагов саморефлексии успешно соединились с ранее сформированными кластерами.
* Самоисследование как силы Ван-дер-Ваальса. Это слабые мостики между отдалёнными кластерами логики. Они позволяют модели исследовать новые возможности или альтернативные гипотезы перед введением более жёстких логических ограничений.

Почему «Подожди, дай мне подумать» недостаточно

Большинство разработчиков ИИ пытаются исправить рассуждения, обучая модели имитировать ключевые слова, такие как «подожди» или «может быть». Команда ByteDance доказала, что модели на самом деле усваивают лежащее в основе поведение рассуждений, а не поверхностные слова.

Почему имитация не работает

Ключевые выводы включают:

* Имитация не работает. Точная настройка на аннотированных человеком данных или использование обучения в контексте (ICL) от слабых моделей не позволяет построить стабильные структуры Long CoT.
* Структурный конфликт. Смешивание данных рассуждений от разных сильных «учителей» (таких как DeepSeek-R1 и OpenAI-OSS) фактически дестабилизирует модель. Даже если данные похожи, разные «молекулярные» структуры вызывают структурный хаос и снижают производительность.
* Поток информации. В отличие от людей, которые имеют равномерный прирост информации, сильные модели рассуждений демонстрируют метакогнитивные колебания. Они чередуются между высокоэнтропийным исследованием и стабильной конвергентной проверкой.

MOLE-SYN: метод синтеза

Чтобы решить эти проблемы, команда ByteDance представила MOLE-SYN. Это метод «распределения-переноса-графа». Вместо того чтобы напрямую копировать текст учителя, он передаёт поведенческую структуру в модель-ученик.

Он работает путём оценки графа перехода поведения от сильных моделей и управления более дешёвой моделью для синтеза её собственных эффективных структур Long CoT. Такое отделение структуры от поверхностного текста обеспечивает последовательный выигрыш по 6 основным бенчмаркам, включая GSM8K, MATH-500 и OlymBench.

Защита «молекулы мысли»

Это исследование также проливает свет на то, как частные компании в сфере ИИ защищают свои модели. Раскрытие полных следов рассуждений позволяет другим клонировать внутренние процедуры модели.

Команда ByteDance обнаружила, что суммирование и сжатие рассуждений являются эффективными защитными мерами. Сокращая количество токенов (часто более чем на 45%), компании нарушают распределение логических связей. Это создаёт разрыв между тем, что модель выдаёт, и её внутренними «ограниченными ошибками переходами», что значительно усложняет выделение возможностей модели.

Ключевые выводы

* Рассуждение как «молекулярные» связи. Эффективное Long Chain-of-Thought определяется тремя специфическими «химическими» связями: глубокое рассуждение (ковалентно-подобное) формирует логическую основу, саморефлексия (подобная водородным связям) обеспечивает глобальную стабильность через логическое сворачивание, а самоисследование (подобное силам Ван-дер-Ваальса) соединяет отдалённые семантические концепции.
* Поведение важнее ключевых слов. Модели усваивают лежащие в основе структуры рассуждений и распределения переходов, а не просто лексические сигналы на поверхностном уровне, такие как «подожди» или «может быть». Замена ключевых слов синонимами существенно не влияет на производительность, доказывая, что истинная глубина рассуждений исходит из усвоенных поведенческих мотивов.
* Конфликт «семантических изомеров». Объединение разнородных данных рассуждений от разных сильных моделей (например, DeepSeek-R1 и OpenAI-OSS) может вызвать «структурный хаос». Даже если источники данных статистически похожи, несовместимые поведенческие распределения могут нарушить логическую согласованность и снизить производительность модели.
* Методология MOLE-SYN. Этот фреймворк «распределения-переноса-графа» позволяет моделям синтезировать эффективные структуры Long CoT с нуля, используя более дешёвые обучающие LLM. Передавая граф поведенческого перехода вместо прямого текста, MOLE-SYN обеспечивает производительность, близкую к дорогостоящей дистилляции, стабилизируя при этом обучение с подкреплением (RL).
* Защита через структурное нарушение. Частные LLM могут защитить свои внутренние процессы рассуждений посредством суммирования и сжатия. Сокращение количества токенов примерно на 45% или более эффективно «ломает» распределение связей, что значительно усложняет клонирование внутренних процедур рассуждений неавторизованным моделям посредством дистилляции.

Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2601.06002). Подписывайтесь на нас в [Twitter](https://twitter.com), присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) (более 100 тысяч участников) и подписывайтесь на [наш Newsletter](https://marktechpost.com/category/newsletter-updates/). А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие проблемы в создании рассуждающих ИИ обнаружила команда ByteDance?

Команда ByteDance обнаружила, что большинство моделей теряют направление или не могут перенести закономерности при многошаговом рассуждении. Они также выяснили, что имитация ключевых слов не работает для исправления рассуждений, а смешивание данных рассуждений от разных сильных «учителей» дестабилизирует модель.

2. Какие три типа взаимодействий, напоминающие силы в органической химии, формируют качественные траектории рассуждений ИИ?

Качественные траектории рассуждений ИИ удерживаются вместе тремя типами взаимодействий:
* глубокое рассуждение как ковалентные связи — формирует первичную «основу» мыслительного процесса;
* саморефлексия как водородные связи — действует как стабилизатор;
* самоисследование как силы Ван-дер-Ваальса — позволяет модели исследовать новые возможности или альтернативные гипотезы перед введением более жёстких логических ограничений.

3. Что такое MOLE-SYN и как он работает?

MOLE-SYN — это метод «распределения-переноса-графа», представленный командой ByteDance для решения проблем в создании рассуждающих ИИ. Он работает путём оценки графа перехода поведения от сильных моделей и управления более дешёвой моделью для синтеза её собственных эффективных структур Long CoT.

4. Какие меры защиты своих моделей предлагают авторы исследования?

Авторы исследования предлагают суммирование и сжатие рассуждений как эффективные защитные меры. Сокращая количество токенов, компании нарушают распределение логических связей, что создаёт разрыв между тем, что модель выдаёт, и её внутренними «ограниченными ошибками переходами». Это значительно усложняет выделение возможностей модели.

5. Почему имитация ключевых слов не работает для исправления рассуждений?

Имитация ключевых слов не работает, потому что модели усваивают лежащее в основе поведение рассуждений, а не поверхностные слова. Точная настройка на аннотированных человеком данных или использование обучения в контексте (ICL) от слабых моделей не позволяет построить стабильные структуры Long CoT.

Источник