Как OpenAI оценивает способность ИИ искать информацию в интернете: знакомство с набором данных BrowseComp

Несмотря на достижения в области больших языковых моделей (LLMs), агенты искусственного интеллекта по-прежнему сталкиваются с заметными ограничениями при поиске сложной информации в открытом интернете. Хотя многие модели демонстрируют высокие результаты на тестах статических знаний, они часто показывают низкие результаты, когда им нужно найти нюансы и контекстно-зависимые факты из нескольких источников. Большинство существующих тестов оценивают способность модели воспроизводить легкодоступные знания, что не отражает сложности реальных задач поиска в интернете. В отличие от этого, агенты, работающие в прикладных условиях — будь то помощь в исследованиях, обобщение политики или проверка фактов — требуют настойчивости, структурированного мышления и способности динамически адаптировать свои стратегии поиска. Эти возможности пока недостаточно развиты в современных системах искусственного интеллекта.

OpenAI открыла доступ к BrowseComp: набору данных для оценки способности агентов искать информацию в интернете

Чтобы лучше оценить эти возможности, OpenAI выпустила BrowseComp — набор данных, предназначенный для оценки способности агентов настойчиво искать информацию в интернете и находить труднодоступные сведения. Набор данных включает 1 266 задач на поиск фактов, каждая из которых имеет короткий и однозначный ответ. Решение этих задач часто требует перехода по нескольким веб-страницам, согласования разнообразной информации и фильтрации релевантных сигналов из потока данных.

Набор данных вдохновлён идеей, что, как и соревнования по программированию служат целенаправленными тестами для агентов-программистов, BrowseComp предлагает аналогичную ограниченную, но информативную оценку агентов, работающих с интернетом. Он намеренно избегает задач с неоднозначными целями пользователя или длинными ответами, сосредотачиваясь вместо этого на основных компетенциях: точности, рассуждении и выносливости.

BrowseComp создан с использованием методологии проектирования вопросов в обратном порядке: начиная с конкретного, проверяемого факта, разработчики составили вопрос, призванный скрыть ответ за счёт сложности и ограничений. Тренеры-люди убедились, что вопросы не могут быть решены с помощью поверхностного поиска и будут проверять способности как к поиску, так и к рассуждению. Кроме того, вопросы были проверены, чтобы убедиться, что они не будут легко решаемы с помощью GPT-4, OpenAI o1 или более ранних моделей с поддержкой поиска в интернете.

Набор данных охватывает широкий спектр областей, включая науку, историю, искусство, спорт и развлечения, и сбалансирован для обеспечения разнообразия тем. Каждая задача сформулирована так, что правильный ответ представляет собой короткую строку, что упрощает оценку и уменьшает неоднозначность. Также была оценена производительность человека: тренерам-людям было дано два часа на выполнение каждой задачи; большинству не удалось решить большинство задач, что отражает их сложность.

Оценка моделей и результаты

OpenAI оценила несколько моделей на BrowseComp, включая GPT-4o (с поддержкой поиска в интернете и без неё), GPT-4.5, OpenAI o1 и Deep Research — модель, специально обученную для выполнения задач с постоянным поиском в интернете. Результаты показывают, что модели без продвинутых стратегий поиска или рассуждений показывают низкие результаты: GPT-4o без поддержки поиска в интернете достиг точности 0,6%, а с поддержкой поиска — только 1,9%. GPT-4.5 показал схожий низкий результат. OpenAI o1 с улучшенными способностями к рассуждению, но без поддержки поиска, показал умеренно лучший результат — 9,9%.

Deep Research превзошла все другие модели, достигнув точности 51,5%. Её архитектура и обучение делают упор на итеративный поиск, синтез доказательств и адаптивную навигацию. Производительность улучшилась при многократном выполнении попыток для каждого вопроса и использовании таких стратегий агрегации, как выбор лучшего из N и голосование на основе уверенности. Хотя Deep Research продемонстрировала более высокую ошибку калибровки — часто была слишком уверена в неверных ответах — она часто выявляла свои собственные правильные ответы с внутренней согласованностью, что указывает на наличие полезного сигнала уверенности.

Производительность человека и сложность задач

Тренеры-люди пытались решить задачи набора данных без помощи инструментов искусственного интеллекта. Из 1 255 попыток 71% были отмечены как невыполнимые в течение двухчасового окна, и только 29% были успешно завершены. Среди успешно выполненных задач уровень соответствия эталонному ответу составил 86,4%. Эти результаты подчёркивают сложность набора данных и предполагают, что современные модели искусственного интеллекта всё ещё не достигают необходимой адаптивности и навыков фонового рассуждения для выполнения таких задач.

Заключение

BrowseComp представляет собой целенаправленный, проверяемый и технически сложный набор данных для оценки основных способностей агентов, работающих с интернетом. Перемещая акцент с статического воспроизведения на динамический поиск и многоходовое рассуждение, он представляет собой реалистичный вызов, который тесно связан с новыми реальными приложениями. Хотя современные модели, включая те, что поддерживают поиск в интернете, показывают неравномерные результаты, агент Deep Research иллюстрирует потенциал специализированных архитектур для преодоления этого разрыва.

BrowseComp доступен публично через GitHub и подробно описан в официальном блоге OpenAI.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *