OpenAI представляет IndQA: бенчмарк, учитывающий культурные особенности индийских языков

Как можно достоверно проверить, понимают ли большие языковые модели индийские языки и культуру в реальных условиях? OpenAI выпустила IndQA — бенчмарк, который оценивает, насколько хорошо модели ИИ понимают вопросы и рассуждают о них на индийских языках в различных культурных областях.

Зачем нужен IndQA?

OpenAI заявляет, что около 80% людей в мире не говорят на английском как на родном языке. Однако большинство тестов, измеряющих возможности не на английском языке, всё ещё ограничены и часто полагаются на перевод или форматы с выбором нескольких ответов.

Бенчмарки, такие как MMMLU и MGSM, достигли насыщения на верхнем уровне, где сильные модели имеют схожие результаты. Это затрудняет отслеживание значимого прогресса и не проверяет, понимают ли модели местный контекст, историю и повседневную жизнь.

Индия — отправная точка OpenAI для создания бенчмарков, ориентированных на регионы. В Индии около 1 миллиарда человек не используют английский в качестве основного языка, 22 официальных языка, по крайней мере 7 из которых говорят более чем 50 миллионов человек, и это второй по величине рынок для ChatGPT.

Набор данных, языки и домены

IndQA оценивает знания и рассуждения о индийской культуре и повседневной жизни на индийских языках. Бенчмарк охватывает 2278 вопросов на 12 языках и в 10 культурных областях, созданных с участием 261 эксперта из Индии.

Культурные области:
* Архитектура и дизайн;
* Искусство и культура;
* Повседневная жизнь;
* Еда и кухня;
* История;
* Право и этика;
* Литература и лингвистика;
* СМИ и развлечения;
* Религия и духовность;
* Спорт и отдых.

Вопросы написаны на бенгальском, английском, хинди, хинглише, каннада, маратхи, одия, телугу, гуджарати, малаялам, панджаби и тамильском языках. Хинглиш включён для отражения распространённого переключения кодов в индийских разговорах.

Каждый элемент данных содержит четыре компонента:
* Культурно обоснованный запрос на индийском языке;
* Перевод на английский для проверки;
* Критерии оценки для выставления баллов;
* Идеальный ответ, который кодирует ожидания экспертов.

Система оценки на основе рубрик

IndQA использует процедуру оценки на основе рубрик вместо точности точного соответствия. Для каждого вопроса эксперты определяют несколько критериев, которые описывают, что должен включать в себя сильный ответ или чего следует избегать, и присваивают вес каждому критерию.

Модель-оценщик проверяет ответ кандидата по этим критериям и отмечает, какие из них выполнены. Окончательный балл — это сумма весов за выполненные критерии, делённая на максимально возможный балл. Это работает как оценка короткого ответа на экзамене, поддерживает частичный кредит и учитывает нюансы и культурную корректность, а не только поверхностное совпадение токенов.

Процесс создания и состязательная фильтрация

OpenAI описывает четырёхэтапный процесс создания:

1. Партнёрство с организациями в Индии для набора экспертов по 10 направлениям. Эти эксперты — носители целевого языка и английского, имеющие глубокие знания в предметной области. Они написали сложные вопросы, основанные на региональном контексте, такие как литература, история еды, право или СМИ.

2. Применение состязательной фильтрации. Каждый проект вопроса оценивался с использованием самых мощных моделей OpenAI во время создания: GPT-4o, OpenAI o3, GPT-4.5 и частично после публичного запуска — GPT-5. Оставлялись только те вопросы, на которые большинство этих моделей не смогли дать приемлемые ответы. Это сохраняет пространство для будущих улучшений моделей в IndQA.

3. Эксперты предоставили подробные критерии оценки каждого вопроса, аналогичные экзаменационной шкале. Эти критерии используются при оценке любой модели в IndQA.

4. Эксперты написали идеальные ответы и переводы на английский, а затем провели экспертную оценку и итеративные правки, пока не подписали документ о качестве.

Измерение прогресса в изучении индийских языков

OpenAI использует IndQA для оценки последних передовых моделей и отслеживания прогресса за последние несколько лет в изучении индийских языков. Сообщается, что производительность моделей значительно улучшилась по сравнению с IndQA, но всё ещё есть значительный потенциал для улучшений. Результаты разделены по языкам и областям и включают сравнения GPT-5 Thinking High с другими передовыми системами.

Ключевые выводы

* IndQA — это культурно обоснованный бенчмаркинг для индийских языков: IndQA оценивает, насколько хорошо модели ИИ понимают вопросы, имеющие значение на индийских языках, в культурно специфических областях, а не только тестирует перевод или точность выбора нескольких ответов.
* Набор данных создан экспертами и достаточно велик: бенчмарк содержит 2278 вопросов на 12 языках и в 10 культурных областях, разработанных в сотрудничестве с 261 экспертом из Индии, охватывающих такие области, как архитектура, повседневная жизнь, еда, история и религия.
* Оценка основана на рубриках, а не на точном соответствии: каждый элемент данных объединяет запрос на родном языке, перевод на английский, подробную оценочную рубрику и идеальный ответ, а выходные данные модели оцениваются системой на основе модели, которая проверяет взвешенные критерии, определённые экспертами, что позволяет учитывать частичный кредит и нюансы культурной оценки.
* Вопросы проходят состязательную фильтрацию против самых мощных моделей OpenAI: черновые вопросы были отфильтрованы путём запуска GPT-4o, OpenAI o3, GPT-4.5 и частично GPT-5, и оставлены только те элементы, где большинство этих моделей потерпели неудачу, что сохраняет пространство для будущих моделей в IndQA.

Редакционные комментарии

IndQA — это своевременный шаг, поскольку он нацелен на реальный пробел: большинство существующих многоязычных бенчмарков ориентированы на английский контент и задачи по переводу, в то время как в Индии есть разнообразные языки с большими и ограниченными ресурсами. IndQA предлагает экспертно подобранную оценку на основе рубрик для вопросов, имеющих значение в индийских культурных контекстах, и использует состязательную фильтрацию против GPT-4o, OpenAI o3, GPT-4.5 и GPT-5, чтобы сохранить пространство для передовых моделей. Этот запуск делает IndQA практической ориентиром для оценки рассуждений на индийских языках в современных системах ИИ.

1. Какие цели преследует OpenAI, выпуская бенчмарк IndQA, и почему это важно для продвижения ИИ в Индии?

OpenAI выпускает бенчмарк IndQA с целью оценки того, насколько хорошо модели ИИ понимают вопросы и рассуждают о них на индийских языках в различных культурных областях. Это важно для продвижения ИИ в Индии, поскольку около 80% людей в мире не говорят на английском как на родном языке, а большинство тестов, измеряющих возможности не на английском языке, всё ещё ограничены и часто полагаются на перевод или форматы с выбором нескольких ответов.

2. Какие особенности и преимущества имеет система оценки IndQA по сравнению с другими бенчмарками?

Система оценки IndQA имеет несколько особенностей и преимуществ по сравнению с другими бенчмарками. Во-первых, она использует процедуру оценки на основе рубрик вместо точности точного соответствия. Это позволяет учитывать нюансы и культурную корректность, а не только поверхностное совпадение токенов. Во-вторых, каждый элемент данных содержит четыре компонента: культурно обоснованный запрос на индийском языке, перевод на английский для проверки, критерии оценки для выставления баллов и идеальный ответ, который кодирует ожидания экспертов.

3. Какие этапы включает в себя процесс создания IndQA и как обеспечивается качество вопросов и ответов?

Процесс создания IndQA включает в себя четыре этапа:
1. Партнёрство с организациями в Индии для набора экспертов по 10 направлениям. Эти эксперты — носители целевого языка и английского, имеющие глубокие знания в предметной области. Они написали сложные вопросы, основанные на региональном контексте.
2. Применение состязательной фильтрации. Каждый проект вопроса оценивался с использованием самых мощных моделей OpenAI во время создания: GPT-4o, OpenAI o3, GPT-4.5 и частично после публичного запуска — GPT-5. Оставлялись только те вопросы, на которые большинство этих моделей не смогли дать приемлемые ответы.
3. Эксперты предоставили подробные критерии оценки каждого вопроса, аналогичные экзаменационной шкале. Эти критерии используются при оценке любой модели в IndQA.
4. Эксперты написали идеальные ответы и переводы на английский, а затем провели экспертную оценку и итеративные правки, пока не подписали документ о качестве.

4. Какие выводы можно сделать из запуска IndQA и как это повлияет на развитие ИИ в Индии?

Из запуска IndQA можно сделать несколько выводов. Во-первых, IndQA — это культурно обоснованный бенчмаркинг для индийских языков, который оценивает, насколько хорошо модели ИИ понимают вопросы, имеющие значение на индийских языках, в культурно специфических областях. Во-вторых, набор данных создан экспертами и достаточно велик, что обеспечивает его качество и репрезентативность. В-третьих, оценка основана на рубриках, а не на точном соответствии, что позволяет учитывать частичный кредит и нюансы культурной оценки. В-четвёртых, вопросы проходят состязательную фильтрацию против самых мощных моделей OpenAI, что сохраняет пространство для будущих моделей в IndQA. Это повлияет на развитие ИИ в Индии, поскольку предоставит более точную и объективную оценку возможностей моделей на индийских языках.

5. Какие перспективы открывает IndQA для разработчиков и исследователей в области ИИ?

IndQA открывает несколько перспектив для разработчиков и исследователей в области ИИ. Во-первых, он предоставляет возможность оценить производительность моделей на индийских языках в культурно специфических областях. Во-вторых, он позволяет отслеживать прогресс в изучении индийских языков и выявлять области, требующие улучшения. В-третьих, он способствует развитию более точных и культурно обоснованных моделей ИИ, которые могут лучше понимать и генерировать текст на индийских языках.

Источник