«Байесовское» обновление: почему новый метод обучения от Google AI — ключ к рассуждениям больших языковых моделей

Большие языковые модели (LLM) — лучшие в мире имитаторы, но когда дело доходит до холодной, жёсткой логики обновления убеждений на основе новых данных, они оказываются на удивление упрямыми. Команда исследователей из Google утверждает, что современные агенты искусственного интеллекта далеки от «вероятностных рассуждений» — способности поддерживать и обновлять «модель мира» по мере поступления новой информации.

Проблема: плато «один и готово»

Хотя такие LLM, как Gemini-1.5 Pro и GPT-4.1 Mini, могут писать код или кратко излагать содержание электронных писем, они испытывают трудности в качестве интерактивных агентов. Представьте себе помощника по бронированию авиабилетов: он должен определить ваши предпочтения (цена или продолжительность), наблюдая, какие рейсы вы выбираете в течение нескольких раундов.

Исследовательская группа обнаружила, что готовые LLM, включая таких тяжеловесов, как Llama-3-70B и Qwen-2.5-32B, показали «незначительное улучшение» или его отсутствие после первого раунда взаимодействия. В то время как «байесовский помощник» (символьная модель, использующая правило Байеса) становится более точной с каждой точкой данных, стандартные LLM практически сразу достигают плато, не адаптируя свои внутренние «убеждения» к конкретной функции вознаграждения пользователя.

Знакомство с байесовским обучением

Исследовательская группа представила метод, называемый байесовским обучением. Вместо того чтобы настраивать модель на «правильных» данных (то, что они называют учителем-оракулом), они настроили её так, чтобы она имитировала байесовского помощника — модель, которая явно использует правило Байеса для обновления распределения вероятностей возможных предпочтений пользователя.

Техническое описание

Задача: взаимодействие по рекомендации рейсов в пять раундов. Рейсы определяются такими характеристиками, как цена, продолжительность и количество остановок.

Функция вознаграждения: вектор, представляющий предпочтения пользователя (например, сильное предпочтение низких цен).

Обновление апостериорной вероятности: после каждого раунда байесовский помощник обновляет своё апостериорное распределение на основе априорного (начальных предположений) и правдоподобия (вероятности того, что пользователь выберет определённый рейс при заданной функции вознаграждения).

Используя контролируемую тонкую настройку (SFT) на основе этих байесовских взаимодействий, исследовательская группа заставила LLM принять процесс рассуждения в условиях неопределённости, а не только конечный результат.

Почему «научные догадки» лучше правильных ответов

Самый неинтуитивный вывод исследования заключается в том, что байесовское обучение последовательно превосходит обучение у учителя-оракула.

В «обучении у учителя-оракула» модель обучается на учителе, который уже точно знает, чего хочет пользователь. В «байесовском обучении» учитель часто ошибается в первых раундах, потому что всё ещё учится. Однако эти «научные догадки» дают гораздо более сильный обучающий сигнал. Наблюдая, как байесовский помощник борется с неопределённостью, а затем обновляет свои убеждения после получения обратной связи, LLM обучается «навыку» обновления убеждений.

Результаты были поразительными: байесовски настроенные модели (например, Gemma-2-9B или Llama-3-8B) были не только более точными, но и согласовывались со «золотым стандартом» байесовской стратегии примерно в 80% случаев — значительно выше, чем у их исходных версий.

Обобщение: за пределами полётов — к покупкам в интернете

Для разработчиков «священный грааль» — это обобщение. Модель, обученная на данных о рейсах, должна не только хорошо справляться с рейсами; она должна понимать концепцию обучения у пользователя.

Исследовательская группа протестировала свои тонко настроенные модели на:

* Повышенной сложности: переход от четырёх характеристик рейса к восьми.
* Новых доменах: рекомендации отелей.
* Реальных сценариях: задача покупок в интернете с использованием реальных товаров (названий и описаний) из смоделированной среды.

Даже несмотря на то, что модели были настроены только на синтетических данных о рейсах, они успешно перенесли свои навыки вероятностного рассуждения на бронирование отелей и покупки в интернете. Фактически байесовские LLM даже превзошли участников-людей в некоторых раундах, поскольку люди часто отклоняются от нормативных стандартов рассуждения из-за предвзятости или невнимательности.

Нейросимволический мост

Это исследование подчёркивает уникальную силу глубокого обучения: способность преобразовать классическую символьную модель (байесовского помощника) в нейронную сеть (LLM).

Хотя символьные модели отлично подходят для простых, кодифицированных задач, их сложно построить для «грязных» реальных областей, таких как покупки в интернете. Обучая LLM имитировать стратегию символьной модели, можно получить лучшее из обоих миров: строгие рассуждения байесовского и гибкое понимание естественного языка трансформера.

Ключевые выводы

* LLM с трудом обновляют свои убеждения: готовые LLM, включая самые современные модели, такие как Gemini-1.5 Pro и GPT-4.1 Mini, не могут эффективно обновлять свои убеждения по мере получения новой информации, причём их производительность часто достигает плато после одного взаимодействия.
* Байесовское обучение превосходит прямое обучение: обучение LLM имитации «научных догадок» и неопределённости нормативной байесовской модели более эффективно, чем обучение её напрямую на правильных ответах (обучение у учителя-оракула).
* Вероятностные навыки обобщаются на разные домены: LLM, настроенные на простых синтетических задачах (например, рекомендации рейсов), могут успешно перенести свои навыки обновления убеждений на более сложные, реальные сценарии, такие как покупки в интернете и бронирование отелей.
* Нейронные модели более устойчивы к «шуму» человека: в то время как чисто символическая байесовская модель оптимальна для последовательных пользователей в симуляции, тонко настроенные LLM демонстрируют большую устойчивость при взаимодействии с людьми, чьи выборы часто отклоняются от заявленных предпочтений из-за «шума» или предвзятости.
* Эффективная дистилляция символьных стратегий: исследование доказывает, что LLM могут научиться аппроксимировать сложные стратегии символьного рассуждения посредством контролируемой тонкой настройки, что позволяет им применять эти стратегии в областях, слишком запутанных или сложных для явного кодирования в классической символьной модели.

1. В чём заключается основная проблема больших языковых моделей (LLM) с точки зрения их способности к обучению?

Основная проблема больших языковых моделей (LLM) заключается в их трудности с обновлением убеждений на основе новых данных. Они достигают плато после первого взаимодействия и не адаптируют свои внутренние «убеждения» к конкретной функции вознаграждения пользователя.

2. Что такое байесовское обучение и как оно отличается от традиционного обучения у учителя-оракула?

Байесовское обучение — это метод, при котором модель обучается имитировать байесовского помощника, который использует правило Байеса для обновления распределения вероятностей возможных предпочтений пользователя. В отличие от традиционного обучения у учителя-оракула, где модель обучается на учителе, который уже точно знает, чего хочет пользователь, байесовское обучение позволяет модели учиться на «научных догадках» учителя, который всё ещё учится.

3. Какие результаты были получены при использовании байесовского обучения для настройки LLM?

Результаты были поразительными: байесовски настроенные модели были не только более точными, но и согласовывались со «золотым стандартом» байесовской стратегии примерно в 80% случаев — значительно выше, чем у их исходных версий.

4. Какие домены были использованы для тестирования тонко настроенных моделей?

Тонко настроенные модели были протестированы на повышенной сложности (переход от четырёх характеристик рейса к восьми), новых доменах (рекомендации отелей) и реальных сценариях (задача покупок в интернете с использованием реальных товаров из смоделированной среды).

5. Какие выводы можно сделать из исследования о способности LLM к обобщению?

Из исследования можно сделать вывод, что LLM, настроенные на простых синтетических задачах, могут успешно перенести свои навыки обновления убеждений на более сложные, реальные сценарии. Это подчёркивает потенциал LLM для обобщения и применения в различных доменах.

Источник