От коллапса исследования к предсказуемым пределам: лаборатория искусственного интеллекта Шанхая предлагает законы масштабирования на основе энтропии для обучения с подкреплением в больших языковых моделях
Недавние достижения в области больших языковых моделей (LLM), ориентированных на рассуждения, расширили возможности обучения с подкреплением (RL) за пределы узких, специфичных для задач приложений, обеспечивая более широкие возможности обобщения и рассуждения. Однако этот сдвиг создаёт значительные проблемы, особенно в масштабировании вычислительных ресурсов, необходимых для обучения на основе опыта. В отличие от обучения имитации посредством предварительного … Читать далее