Исследования в области искусственного интеллекта стремительно развиваются, выходя за рамки распознавания закономерностей и двигаясь к созданию систем, способных к сложным, подобным человеческим рассуждениям.
От сопоставления шаблонов к обдуманным рассуждениям
Когнитивные способности человека часто описывают с помощью двух систем: системы 1 (быстрая, интуитивная, автоматическая) и системы 2 (медленная, аналитическая, требующая усилий).
Сегодняшние основные модели искусственного интеллекта превосходно справляются с мышлением системы 1 — быстро делают прогнозы, основанные на опыте. Однако большинство из них не справляются с обдуманными, многошаговыми рассуждениями, необходимыми для сложных или нестандартных задач.
Текущие усилия, такие как обучение с подкреплением с проверяемыми вознаграждениями, в основном ограничены областями, где правильность легко проверить, например, в математике или коде, и им трудно обобщить полученные знания за пределы этих областей.
Энергетические трансформеры: основа для независимого мышления системы 2
Ключевое новшество энергетических трансформеров (ЭBT) заключается в их архитектурном дизайне и процедуре обучения. Вместо того чтобы напрямую выдавать выходные данные за один проход, ЭBT обучают энергетической функции, которая присваивает скалярное значение каждой паре «вход-прогноз», представляя их совместимость или «ненормированную вероятность».
Рассуждения, в свою очередь, становятся процессом оптимизации: начиная со случайного первоначального предположения, модель итеративно уточняет свой прогноз путём минимизации энергии — подобно тому, как люди исследуют и проверяют решения, прежде чем принять их.
Этот подход позволяет ЭBT демонстрировать три критически важных способности для продвинутых рассуждений, отсутствующих в большинстве современных моделей:
* Динамическое распределение вычислений. ЭBT могут посвящать больше вычислительных усилий — больше «шагов мышления» — более сложным задачам или неопределённым прогнозам по мере необходимости, вместо того чтобы одинаково относиться ко всем задачам или токенам.
* Естественное моделирование неопределённости. Отслеживая уровни энергии на протяжении всего процесса мышления, ЭBT могут моделировать свою уверенность (или её отсутствие), особенно в сложных непрерывных областях, таких как зрение, где традиционные модели испытывают трудности.
* Явная проверка. Каждое предлагаемое предсказание сопровождается оценкой энергии, указывающей, насколько хорошо оно соответствует контексту, что позволяет модели самопроверяться и отдавать предпочтение ответам, которые, как она «знает», являются правдоподобными.
Преимущества перед существующими подходами
В отличие от обучения с подкреплением или внешней контролируемой проверки, ЭBT не требуют специально разработанных вознаграждений или дополнительного контроля; их возможности системы 2 возникают непосредственно из целей обучения без контроля.
Кроме того, ЭBT по своей сути модальны — они масштабируются как в дискретных областях (таких как текст и язык), так и в непрерывных (например, изображения или видео), что не под силу большинству специализированных архитектур.
Экспериментальные данные показывают, что ЭBT не только улучшают конечную производительность в задачах обработки языка и зрения, когда им разрешено «думать дольше», но и более эффективно масштабируются во время обучения — с точки зрения данных, вычислений и размера модели — по сравнению с современными базовыми моделями трансформеров.
Примечательно, что их способность к обобщению улучшается по мере усложнения задачи или выхода за рамки распределения, что перекликается с выводами когнитивных наук о человеческом мышлении в условиях неопределённости.
Платформа для масштабируемого мышления и обобщения
Парадигма энергетических трансформеров сигнализирует о пути к более мощным и гибким системам искусственного интеллекта, способным адаптировать глубину своего рассуждения к требованиям задачи.
Поскольку данные становятся узким местом для дальнейшего масштабирования, эффективность и надёжное обобщение ЭBT могут открыть двери для достижений в моделировании, планировании и принятии решений в широком спектре областей.
Хотя текущие ограничения сохраняются — такие как увеличение вычислительных затрат во время обучения и проблемы с высокомультимодальным распределением данных — будущие исследования, вероятно, будут опираться на фундамент, заложенный ЭBT.
Потенциальные направления включают в себя:
* объединение ЭBT с другими нейронными парадигмами;
* разработку более эффективных стратегий оптимизации;
* расширение их применения для решения новых мультимодальных и последовательных задач рассуждения.
Резюме
Энергетические трансформеры представляют собой значительный шаг к созданию машин, которые могут «думать» более человечно — не просто рефлекторно реагировать, а останавливаться, чтобы проанализировать, проверить и адаптировать свои рассуждения для открытых, сложных задач в любой модальности.
1. Какие ключевые отличия энергетических трансформеров (ЭBT) от традиционных моделей искусственного интеллекта?
Ответ: в отличие от традиционных моделей, ЭBT способны к многошаговым рассуждениям и динамическому распределению вычислений. Они также могут моделировать неопределённость и проводить явную проверку своих предсказаний, что позволяет им более эффективно адаптироваться к сложным задачам.
2. Какие три критически важные способности для продвинутых рассуждений демонстрируют ЭBT?
Ответ: ЭBT демонстрируют три критически важные способности:
* динамическое распределение вычислений, позволяя модели адаптировать количество «шагов мышления» к сложности задачи;
* естественное моделирование неопределённости, отслеживая уровни энергии и моделируя уверенность модели;
* явная проверка, оценивая энергию каждого предсказания и самопроверяя свои ответы.
3. В чём заключается преимущество ЭBT перед обучением с подкреплением и внешней контролируемой проверкой?
Ответ: преимущество ЭBT заключается в том, что они не требуют специально разработанных вознаграждений или дополнительного контроля для развития системы 2. Их возможности возникают непосредственно из целей обучения без контроля, что делает их более гибкими и масштабируемыми по сравнению с другими подходами.
4. Какие экспериментальные данные подтверждают эффективность ЭBT?
Ответ: экспериментальные данные показывают, что ЭBT улучшают производительность в задачах обработки языка и зрения, когда им разрешено «думать дольше». Они также более эффективно масштабируются во время обучения по сравнению с современными базовыми моделями трансформеров. Их способность к обобщению улучшается по мере усложнения задачи или выхода за рамки распределения.
5. Какие потенциальные направления для будущих исследований, связанных с ЭBT, можно выделить?
Ответ: потенциальные направления включают в себя:
* объединение ЭBT с другими нейронными парадигмами;
* разработку более эффективных стратегий оптимизации;
* расширение их применения для решения новых мультимодальных и последовательных задач рассуждения.