Обучение больших языковых моделей абстрактному мышлению с помощью подкрепления для повышения надёжности на тестах GSM

Недавние исследования показывают, что большие языковые модели (LLM), особенно меньшего размера, часто испытывают трудности с обоснованным рассуждением. Они хорошо справляются со знакомыми вопросами, но допускают ошибки, когда те же задачи немного изменяются, например, меняются имена или числа, или добавляется нерелевантная, но связанная информация.

Эта слабость, известная как плохое обобщение вне распределения (OOD), приводит к заметному снижению точности даже в простых математических задачах. Одно из перспективных решений — создание синтетических вариаций задач на рассуждение, помогающих моделям научиться сосредотачиваться на основной логике, а не на поверхностных деталях. Укрепление рассуждений таким образом имеет решающее значение для разработки более универсальных и надёжных систем искусственного интеллекта.

Абстрагирование основной логики сбоев в рассуждениях LLM

Большие языковые модели продемонстрировали впечатляющие способности к рассуждению, но они часто терпят неудачу, когда сталкиваются со сдвигами в распределении, такими как изменения в формулировках, числовых значениях или введение отвлекающих факторов. Эта уязвимость очевидна в тестах по логике, математике и здравому смыслу.

Предыдущие решения основывались на дополнении данных, чтобы модели сталкивались с более разнообразными входными данными, что улучшало надёжность, но увеличивало вычислительные требования. Исследователи также изучали такие форматы, как абстракция мышления и цепочка абстракций, чтобы научить абстрактному мышлению, а такие методы планирования, как цепочка мыслей и дерево мыслей, помогают пошагово решать задачи. Обучение с подкреплением и методы, основанные на предпочтениях, обеспечивают дополнительную поддержку для развития навыков рассуждения, помимо запоминания шаблонов.

Метод символического обучения AbstRaL для повышения согласованности рассуждений

Исследователи из Apple и Федеральной политехнической школы Лозанны (EPFL) предлагают AbstRaL — метод, который учит большие языковые модели понимать абстрактные шаблоны рассуждений, а не запоминать поверхностные детали. Вместо того чтобы генерировать множество разнообразных обучающих примеров, что требует больших вычислительных затрат, AbstRaL помогает большим языковым моделям изучить основную структуру задач на рассуждение с помощью обучения с подкреплением. Этот метод связывает абстрактные шаблоны с символическими инструментами, обеспечивая более надёжное решение задач.

При тестировании на тестах GSM AbstRaL значительно улучшает производительность больших языковых моделей, особенно когда они сталкиваются с изменениями входных данных или отвлекающей информацией. Он превосходит модели, обученные только с помощью обучения с учителем, способствуя более последовательному и независимому от контекста мышлению.

Четыре шага к абстрактному символическому мышлению с помощью AbstRaL

AbstRaL — это четырёхшаговый фреймворк, разработанный для обучения больших языковых моделей абстрактному мышлению, а не полагаться на поверхностные шаблоны.

1. Он определяет ключевые переменные в вопросе и заменяет их символическими заполнителями.
2. Затем, используя специально подготовленные данные (GranulAR), модель учится рассуждать шаг за шагом с этими абстрактными символами.
3. Далее он извлекает общую структуру рассуждений (абстракцию) из символического ответа.
4. Наконец, он использует эту абстракцию с исходными значениями для вычисления правильного ответа.

Обучение с подкреплением с двумя вознаграждениями, одно за правильность и другое за символическое сходство, дополнительно улучшает способность модели генерировать точные, независимые от контекста шаблоны рассуждений.

Вариации GSM8K демонстрируют надёжность AbstRaL в разных размерах LLM

Исследователи оценивают AbstRaL на задачах математического рассуждения, используя такие модели, как Llama-3 и Qwen2, обучая их на наборе данных под названием GranulAR, который переписывает математические задачи в абстрактной символической форме. Это помогает моделям сосредоточиться на структуре, а не на поверхностных деталях. Они проверяют надёжность, используя изменённые версии задач GSM8K, меняя числа, имена и формулировки.

По сравнению с базовыми показателями, такими как стандартное побуждение «цепочка мыслей», AbstRaL демонстрирует более высокую согласованность и меньшее снижение точности при таких вариациях. Особенно для небольших моделей он повышает надёжность при изменении входных данных. Результаты показывают, что обучение моделей абстрактному мышлению делает их более адаптируемыми и менее зависимыми от заученных шаблонов.

Вывод

AbstRaL — это метод, разработанный для улучшения абстрактного мышления в больших языковых моделях, делая их более устойчивыми к поверхностным изменениям в задачах. В отличие от традиционного точного настройки или дополнения данных, AbstRaL использует обучение с подкреплением для обучения моделей на рациональных основаниях GranulAR, которые сочетают в себе сократовскую цепочку мыслей с детальной абстракцией. Этот подход помогает моделям избавиться от отвлекающих факторов на поверхностном уровне и лучше взаимодействовать с символическими инструментами.

При тестировании на сложных тестах на возмущения GSM8K AbstRaL заметно снижает падение производительности при сдвигах в распределении, особенно в небольших моделях. Исследование показывает, что обучение абстракции улучшает надёжность рассуждений более эффективно, чем полагаться исключительно на прямое обучение.

Ознакомьтесь с [документом](ссылка на документ). Вся заслуга в проведении этого исследования принадлежит исследователям этого проекта. Также подписывайтесь на нас в [Twitter](ссылка на Twitter), [YouTube](ссылка на YouTube) и [Spotify](ссылка на Spotify) и не забудьте присоединиться к нашему [ML SubReddit](ссылка на SubReddit) с более чем 100 тысячами участников и подпишитесь на наш [Newsletter](ссылка на Newsletter).

Статья «AbstRaL: Teaching LLMs Abstract Reasoning via Reinforcement to Boost Robustness on GSM Benchmarks» впервые появилась на [MarkTechPost](ссылка на MarkTechPost).

1. Какие проблемы больших языковых моделей решает метод AbstRaL?

Метод AbstRaL решает проблему плохого обобщения вне распределения (OOD) у больших языковых моделей (LLM). Это позволяет моделям лучше справляться с задачами, которые немного отличаются от тех, на которых они были обучены, например, когда меняются имена, числа или добавляется нерелевантная информация.

2. Какие шаги включает в себя метод AbstRaL для обучения больших языковых моделей абстрактному мышлению?

Метод AbstRaL включает в себя четыре шага:
1. Определение ключевых переменных в вопросе и замена их символическими заполнителями.
2. Обучение модели рассуждать шаг за шагом с этими абстрактными символами на специально подготовленных данных (GranulAR).
3. Извлечение общей структуры рассуждений (абстракции) из символического ответа.
4. Использование этой абстракции с исходными значениями для вычисления правильного ответа.

3. Как метод AbstRaL влияет на производительность больших языковых моделей при изменении входных данных?

При тестировании на задачах математического рассуждения метод AbstRaL значительно улучшает производительность больших языковых моделей, особенно когда они сталкиваются с изменениями входных данных или отвлекающей информацией. Он превосходит модели, обученные только с помощью обучения с учителем, способствуя более последовательному и независимому от контекста мышлению.

4. Какие модели были использованы для тестирования метода AbstRaL?

Для тестирования метода AbstRaL были использованы модели Llama-3 и Qwen2. Они были обучены на наборе данных под названием GranulAR, который переписывает математические задачи в абстрактной символической форме.

5. В чём преимущество метода AbstRaL перед традиционным точным настройкой или дополнением данных?

Преимущество метода AbstRaL заключается в том, что он использует обучение с подкреплением для обучения моделей на рациональных основаниях GranulAR, которые сочетают в себе сократовскую цепочку мыслей с детальной абстракцией. Это помогает моделям избавиться от отвлекающих факторов на поверхностном уровне и лучше взаимодействовать с символическими инструментами, что делает их более устойчивыми к поверхностным изменениям в задачах.

Источник

Абстрагирование основной логики сбоев в рассуждениях LLM

Метод символического обучения AbstRaL для повышения согласованности рассуждений

Четыре шага к абстрактному символическому мышлению с помощью AbstRaL

Вариации GSM8K демонстрируют надёжность AbstRaL в разных размерах LLM

Вывод

Оставьте комментарий Отменить ответ