DualDistill и Agentic-R1: как ИИ сочетает использование естественного языка и инструментов для решения математических задач на высоком уровне
Введение в проблему Существующие модели рассуждений с длинными цепочками (long-CoT) достигли передовых результатов в математическом мышлении, генерируя траектории рассуждений с помощью итеративной самопроверки и уточнения. Однако модели с открытым исходным кодом зависят только от следов рассуждений на естественном языке, что делает их ресурсоёмкими и склонными к ошибкам без механизмов проверки. Хотя рассуждения с использованием инструментов … Читать далее