Как OpenAI оценивает способность ИИ искать информацию в интернете: знакомство с набором данных BrowseComp

Несмотря на достижения в области больших языковых моделей (LLMs), агенты искусственного интеллекта по-прежнему сталкиваются с заметными ограничениями при поиске сложной информации в открытом интернете. Хотя многие модели демонстрируют высокие результаты на тестах статических знаний, они часто показывают низкие результаты, когда им нужно найти нюансы и контекстно-зависимые факты из нескольких источников. Большинство существующих тестов оценивают способность … Читать далее