Рецепт многоэтапного и смешанного обучения с подкреплением Enigmata обеспечивает прорывную производительность в решении головоломок большими языковыми моделями
Большие модели рассуждений (LRMs), обученные на больших языковых моделях (LLMs) с помощью обучения с подкреплением (RL), демонстрируют высокие результаты в сложных задачах, включая математику, STEM и кодирование. Однако существующие LRMs сталкиваются с трудностями при выполнении различных задач, требующих чисто логических навыков, которые легко даются людям. Текущие методы работы с головоломками сосредоточены только на разработке эталонных … Читать далее