Как OpenAI оценивает способность ИИ искать информацию в интернете: знакомство с набором данных BrowseComp

Несмотря на достижения в области больших языковых моделей (LLMs), агенты искусственного интеллекта по-прежнему сталкиваются с заметными ограничениями при поиске сложной информации в открытом интернете. Хотя многие модели демонстрируют высокие результаты на тестах статических знаний, они часто показывают низкие результаты, когда им нужно найти нюансы и контекстно-зависимые факты из нескольких источников. Большинство существующих тестов оценивают способность … Читать далее

VAPO: инновационный фреймворк для обучения с подкреплением в задачах длинного логического вывода

В обучении с подкреплением (Reinforcement Learning, RL) больших языковых моделей (Large Language Models, LLM) методы, не основанные на оценке ценности, такие как GRPO и DAPO, продемонстрировали высокую эффективность. Однако настоящий потенциал заключается в методах, основанных на оценке ценности, которые позволяют более точно распределять «заслуги», корректно отслеживая влияние каждого действия на последующие результаты. Такая точность имеет … Читать далее