Важность контекста: трансформация оценки моделей искусственного интеллекта с помощью контекстуализированных запросов

Пользователи языковых моделей часто задают вопросы, в которых не хватает деталей, из-за чего сложно понять, чего они хотят. Например, вопрос «Какую книгу мне прочитать следующей?» сильно зависит от личных предпочтений. В то же время на вопрос «Как работают антибиотики?» нужно отвечать по-разному в зависимости от уровня знаний пользователя.

Существующие методы оценки не учитывают контекст

Текущие методы оценки часто не учитывают отсутствующий контекст, что приводит к противоречивым суждениям. Например, ответ, восхваляющий кофе, может быть нормальным, но может быть бесполезным или даже вредным для человека с проблемами со здоровьем. Без знания намерений пользователя или его потребностей сложно справедливо оценить качество ответа модели.

Предыдущие исследования

Предыдущие исследования были сосредоточены на генерации уточняющих вопросов для устранения неоднозначности или отсутствия информации в таких задачах, как ответы на вопросы, диалоговые системы и поиск информации. Эти методы направлены на улучшение понимания намерений пользователя.

Аналогично, исследования, посвящённые следованию инструкциям и персонализации, подчёркивают важность адаптации ответов к атрибутам пользователя, таким как опыт, возраст или стилевые предпочтения. Некоторые работы также изучали, насколько хорошо модели адаптируются к различным контекстам, и предлагали методы обучения для повышения этой адаптивности.

Контекстуализированные оценки

Исследователи из Университета Пенсильвании, Института искусственного интеллекта Аллена и Университета Мэриленда, Колледж-Парк предложили контекстуализированные оценки. Этот метод добавляет синтетический контекст (в виде пар вопросов и ответов) для уточнения недостаточно определённых запросов во время оценки языковой модели.

Их исследование показывает, что включение контекста может существенно повлиять на результаты оценки, иногда даже меняя рейтинги моделей, а также улучшает согласованность между оценщиками. Это снижает зависимость от поверхностных характеристик, таких как стиль, и выявляет потенциальные предубеждения в ответах моделей по умолчанию, особенно в отношении контекста WEIRD (западный, образованный, индустриальный, богатый, демократический).

Методика исследования

Исследователи разработали простую систему для оценки того, как языковые модели работают с более чёткими, контекстуализированными запросами. Сначала они выбрали недостаточно определённые запросы из популярных эталонных наборов данных и обогатили их, добавив дополнительные вопросы и ответы, которые имитируют контекст, специфичный для пользователя. Затем они собрали ответы от разных языковых моделей.

Они попросили как людей, так и оценщиков на основе моделей сравнить ответы в двух условиях: только с исходным запросом и с добавленным контекстом. Это позволило им измерить, как контекст влияет на рейтинги моделей, согласованность между оценщиками и критерии, используемые для оценки. Их система предлагает практический способ проверить, как модели справляются с неоднозначностью в реальных условиях.

Добавление контекста, такого как намерение пользователя или аудитория, значительно улучшает оценку модели, повышая согласованность между оценщиками на 3–10% и даже меняя рейтинги моделей в некоторых случаях. Например, GPT-4 превзошёл Gemini-1.5-Flash только при наличии контекста. Без него оценка сосредоточена на тоне или беглости речи, в то время как контекст смещает внимание на точность и полезность.

Заключение

Многие запросы пользователей к языковым моделям расплывчаты и не содержат ключевого контекста, такого как намерения пользователя или его знания. Это делает оценки субъективными и ненадёжными. Чтобы решить эту проблему, в исследовании предлагается использовать контекстуализированные оценки, при которых запросы обогащаются соответствующими дополнительными вопросами и ответами.

Этот добавленный контекст помогает сместить акцент с поверхностных характеристик на значимые критерии, такие как полезность, и может даже изменить рейтинги моделей. Он также выявляет скрытые предубеждения; модели часто по умолчанию используют предположения WEIRD. Хотя в исследовании используется ограниченный набор типов контекста и частично автоматизированная оценка, оно убедительно обосновывает необходимость более контекстно-ориентированных оценок в будущих работах.

1. Какие проблемы возникают при оценке языковых моделей из-за отсутствия контекста в запросах пользователей?

В статье говорится, что из-за отсутствия контекста в запросах пользователей сложно понять, чего они хотят, и оценить качество ответа модели. Например, вопрос «Какую книгу мне прочитать следующей?» сильно зависит от личных предпочтений. Без знания намерений пользователя или его потребностей сложно справедливо оценить качество ответа модели.

2. Какие методы оценки языковых моделей существуют и почему они не всегда эффективны?

В статье отмечается, что текущие методы оценки часто не учитывают отсутствующий контекст, что приводит к противоречивым суждениям. Например, ответ, восхваляющий кофе, может быть нормальным, но может быть бесполезным или даже вредным для человека с проблемами со здоровьем.

3. Какие преимущества даёт использование контекстуализированных оценок при оценке языковых моделей?

В статье утверждается, что использование контекстуализированных оценок может существенно повлиять на результаты оценки, иногда даже меняя рейтинги моделей, а также улучшает согласованность между оценщиками. Это снижает зависимость от поверхностных характеристик, таких как стиль, и выявляет потенциальные предубеждения в ответах моделей по умолчанию.

4. Какие шаги предпринимаются для проведения контекстуализированных оценок языковых моделей?

В статье описывается методика исследования, в которой сначала выбираются недостаточно определённые запросы из популярных эталонных наборов данных и обогащаются их дополнительными вопросами и ответами, имитирующими контекст, специфичный для пользователя. Затем собираются ответы от разных языковых моделей, и оценщики сравнивают ответы в двух условиях: только с исходным запросом и с добавленным контекстом.

5. Какие результаты были получены при использовании контекстуализированных оценок?

В статье указывается, что добавление контекста значительно улучшает оценку модели, повышая согласованность между оценщиками на 3–10% и даже меняя рейтинги моделей в некоторых случаях. Например, GPT-4 превзошёл Gemini-1.5-Flash только при наличии контекста.

Источник

Оставьте комментарий