Google AI представляет обучение с подкреплением под контролем (SRL): пошаговая система с экспертными траекториями для обучения небольших языковых моделей решению сложных задач
Команда исследователей из Google Cloud AI Research и UCLA разработала систему обучения с подкреплением под контролем (Supervised Reinforcement Learning, SRL). Она позволяет небольшим моделям на самом деле учиться решать сложные математические задачи и задачи для агентов, с которыми не справляются обычные методы тонкой настройки под контролем и обучения с подкреплением, ориентированного на результат. Как небольшая … Читать далее