Активация малых языковых моделей для решения сложных задач логического мышления

Языковые модели (ЯМ) значительно продвинулись в таких задачах, как генерация изображений, ответы на вопросы и простые математические вычисления. Однако они всё ещё далеки от человеческого уровня в решении сложных задач. Например, попробуйте поиграть в судоку с языковой моделью — она либо не сможет заполнить ячейки самостоятельно, либо будет делать это неэффективно, хотя и сможет проверить правильность вашего решения.

ЯМ, будь то решение сложных головоломок, проектирование молекул или написание математических доказательств, с трудом справляются с открытыми запросами, требующими соблюдения строгих правил. Модель лучше объясняет пользователям, как подойти к решению этих задач, чем пытается решить их самостоятельно.

Для решения этой проблемы исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT CSAIL) разработали совместный подход, в котором большая ЯМ (БЯМ) занимается планированием, а затем распределяет работу между меньшими моделями. Их метод помогает малым ЯМ (МЯМ) предоставлять более точные ответы, чем ведущие БЯМ, такие как OpenAI GPT-4o, и приближаться по точности к топовым системам логического вывода, таким как o1, при этом будучи более эффективными.

Их фреймворк, названный «Distributional Constraints by Inference Programming with Language Models» (DisCIPL), позволяет большой модели направлять меньшие «последовательные» модели к точным ответам при написании текстов, списков покупок с бюджетом и маршрутов путешествий.

Как работает DisCIPL

Внутренние механизмы DisCIPL во многом похожи на заключение договора с компанией для выполнения конкретной работы. Вы предоставляете БЯМ запрос, и она тщательно продумывает, как выполнить этот проект. Затем БЯМ чётко формулирует эти инструкции и рекомендации для более мелких моделей. Она корректирует выходные данные МЯМ там, где это необходимо — например, заменяет формулировку одной модели, которая не подходит для стихотворения, на более подходящий вариант от другой.

БЯМ взаимодействует со своими последователями, используя язык, понятный им всем — язык программирования для управления ЯМ под названием LLaMPPL. Разработанный в рамках проекта MIT Probabilistic Computing Project в 2023 году, этот язык позволяет пользователям кодировать конкретные правила, которые направляют модель к желаемому результату. Например, LLaMPPL может использоваться для создания безошибочного кода путём включения правил конкретного языка в его инструкции.

Преимущества DisCIPL

Аспирант MIT Габриэль Гранд, являющийся ведущим автором статьи, представляющей эту работу, говорит, что DisCIPL позволяет ЯМ направлять друг друга к лучшим ответам, что повышает их общую эффективность. «Мы работаем над повышением эффективности логического вывода ЯМ, особенно в современных приложениях этих моделей, которые включают генерацию выходных данных с учётом ограничений», — добавляет Гранд.

Профессор Калифорнийского университета в Беркли Алан Сухр, не участвовавший в исследовании, отмечает: «Эта работа предлагает новые подходы к языковому моделированию и большим языковым моделям (БЯМ), которые значительно сокращают задержки при выводе за счёт распараллеливания, требуют значительно меньше параметров, чем текущие БЯМ, и даже улучшают производительность задач по сравнению со стандартным последовательным выводом».

Быстрее, дешевле, лучше

Эксперименты показали, что ключевые компоненты DisCIPL значительно дешевле, чем современные системы. Например, в то время как существующие модели логического вывода, такие как OpenAI o1, выполняют рассуждения в тексте, DisCIPL «рассуждает», написав код на Python, который более компактен. На практике исследователи обнаружили, что DisCIPL привёл к сокращению рассуждений на 40,1% и экономии средств на 80,2% по сравнению с o1.

Эффективность DisCIPL частично обусловлена использованием малых моделей Llama в качестве последователей, которые в 1000–10 000 раз дешевле на токен, чем сопоставимые модели логического вывода. Это означает, что DisCIPL более «масштабируем» — исследователи смогли запустить десятки моделей Llama параллельно за небольшую часть стоимости.

Исследователи планируют расширить этот фреймворк до более полнорекурсивного подхода, в котором можно будет использовать одну и ту же модель как в качестве лидера, так и в качестве последователя. Гранд добавляет, что DisCIPL может быть расширен для задач математического рассуждения, где ответы сложнее проверить. Они также намерены протестировать систему на её способности соответствовать нечётким предпочтениям пользователей, а не следовать жёстким ограничениям, которые невозможно сформулировать в коде так явно.

1. Какие проблемы существуют у языковых моделей при решении сложных задач логического мышления?

В тексте указано, что языковые модели (ЯМ) с трудом справляются с открытыми запросами, требующими соблюдения строгих правил. Например, они могут не справиться с решением головоломок, проектированием молекул или написанием математических доказательств.

2. Как работает фреймворк DisCIPL и какие преимущества он предлагает?

Фреймворк DisCIPL позволяет большой языковой модели (БЯМ) направлять меньшие модели к точным ответам. БЯМ формулирует инструкции и рекомендации для более мелких моделей, корректируя их выходные данные. Это повышает общую эффективность ЯМ и сокращает задержки при выводе.

3. Какие результаты показали эксперименты с DisCIPL по сравнению с другими системами логического вывода?

Эксперименты показали, что DisCIPL значительно дешевле и эффективнее, чем современные системы. Например, DisCIPL сократил рассуждения на 40,1% и сэкономил средства на 80,2% по сравнению с системой OpenAI o1.

4. Какие планы у исследователей по дальнейшему развитию фреймворка DisCIPL?

Исследователи планируют расширить фреймворк до более полнорекурсивного подхода, в котором можно будет использовать одну и ту же модель как в качестве лидера, так и в качестве последователя. Также они намерены протестировать систему на её способности соответствовать нечётким предпочтениям пользователей.

5. Какие языковые модели используются в качестве последователей в DisCIPL и почему это важно?

В качестве последователей в DisCIPL используются малые модели Llama. Они в 1000–10 000 раз дешевле на токен, чем сопоставимые модели логического вывода. Это делает DisCIPL более «масштабируемым», позволяя запускать десятки моделей параллельно за небольшую часть стоимости.

Источник