Метка: evaluation methods
-
Рефлексивное мышление в больших языковых моделях: как формируется и измеряется способность к самоанализу
Что отличает большие языковые модели (LLMs) от традиционных методов, так это их зарождающаяся способность к рефлексии — распознаванию ситуаций, когда что-то в их ответе не соответствует логике или фактам, и попытке это исправить. Эта способность, называемая рефлексией, отражает форму метапознания на машинном уровне. Её наличие свидетельствует о переходе от поверхностной обработки к более глубокому оценочному…
-
VAPO: инновационный фреймворк для обучения с подкреплением в задачах длинного логического вывода
В обучении с подкреплением (Reinforcement Learning, RL) больших языковых моделей (Large Language Models, LLM) методы, не основанные на оценке ценности, такие как GRPO и DAPO, продемонстрировали высокую эффективность. Однако настоящий потенциал заключается в методах, основанных на оценке ценности, которые позволяют более точно распределять «заслуги», корректно отслеживая влияние каждого действия на последующие результаты. Такая точность имеет…