Новое исследование в области ИИ: стресс-тестирование спецификаций моделей и выявление различий в поведении языковых моделей

Компании, занимающиеся разработкой ИИ, используют спецификации моделей для определения целевых моделей поведения во время обучения и оценки. Достаточно ли точно спецификации описывают целевое поведение, и демонстрируют ли передовые модели различные поведенческие профили при одинаковых спецификациях?

Команда исследователей из Anthropic, Thinking Machines Lab и Constellation представила систематический метод, который стресс-тестирует спецификации моделей, используя сценарии компромисса между ценностями, а затем количественно оценивает разногласия между моделями как сигнал пробелов или противоречий в спецификации.

Исследование

Исследовательская группа проанализировала 12 передовых языковых моделей от Anthropic, OpenAI, Google и xAI и обнаружила, что высокое несогласие связано с нарушениями спецификаций, отсутствием рекомендаций по качеству ответов и неоднозначностью оценки.

Команда также выпустила общедоступный набор данных.

Спецификации моделей — это письменные правила, которые пытаются внедрить системы выравнивания. Если спецификация полная и точная, модели, обученные следовать ей, не должны сильно расходиться при одинаковых входных данных.

Исследовательская группа разработала более 300 000 сценариев, которые заставляют выбирать между двумя легитимными ценностями, такими как социальная справедливость и эффективность бизнеса. Затем ответы оцениваются по шкале от 0 до 6 с использованием рубрик спектра ценностей, а разногласия измеряются как стандартное отклонение между моделями.

Масштаб и выпуски

Набор данных на Hugging Face показывает три подмножества. В исходном разделении около 132 000 строк, в полном — около 411 000 строк, а в разделе с оценками экспертов — около 24 600 строк.

Понимание результатов

* Несогласие предсказывает нарушения спецификаций. Тестирование пяти моделей OpenAI на соответствие общедоступной спецификации модели OpenAI показало, что сценарии с высоким несогласием в 5–13 раз чаще не соответствуют требованиям.
* Спецификации не содержат подробной информации о качестве в безопасной зоне. Некоторые сценарии дают ответы, которые проходят проверку, но различаются по полезности.
* Модели-оценщики расходятся во мнениях относительно соответствия. Три модели LLM, Claude 4 Sonnet, o3 и Gemini 2.5 Pro, демонстрируют лишь умеренное согласие с коэффициентом Флейсса Каппа около 0,42.

Ключевые выводы

* Метод и масштаб. Исследование стресс-тестирует спецификации моделей, используя сценарии компромисса между ценностями, генерируемые на основе таксономии из 3 307 значений, и оценивает 12 передовых языковых моделей от Anthropic, OpenAI, Google и xAI.
* Несогласие ⇒ проблемы со спецификациями. Высокое межмодельное несогласие сильно предсказывает проблемы в спецификациях, включая противоречия и пробелы в охвате.
* Публичный выпуск. Команда выпустила набор данных для независимого аудита и воспроизведения.
* Поведение на уровне поставщиков. Агрегированные результаты выявляют систематические ценностные предпочтения: Claude отдаёт приоритет этической ответственности, Gemini подчёркивает эмоциональную глубину, а OpenAI и Grok оптимизируют эффективность.
* Отказы и выбросы. Срезы с высоким несогласием выявляют как ложноположительные отказы по безобидным темам, так и разрешительные ответы по рискованным.

Комментарий редакции

Это исследование превращает несогласие в измеримый диагностический инструмент для оценки качества спецификаций. Исследовательская группа генерирует более 300 000 сценариев компромисса между ценностями, оценивает ответы по шкале от 0 до 6, а затем использует стандартное отклонение между моделями для выявления пробелов в спецификациях. Высокое несогласие в 5–13 раз чаще предсказывает частые несоответствия требованиям в соответствии со спецификацией модели OpenAI. Модели-оценщики демонстрируют лишь умеренное согласие, что выявляет неоднозначность интерпретации.

1. Какие проблемы в спецификациях моделей были выявлены в ходе исследования?

Ответ: в ходе исследования были выявлены такие проблемы в спецификациях моделей, как нарушения спецификаций, отсутствие рекомендаций по качеству ответов и неоднозначность оценки.

2. Какие методы использовали исследователи для стресс-тестирования спецификаций моделей?

Ответ: исследователи разработали более 300 000 сценариев, которые заставляют модели выбирать между двумя легитимными ценностями, такими как социальная справедливость и эффективность бизнеса. Затем ответы оценивались по шкале от 0 до 6 с использованием рубрик спектра ценностей, а разногласия измерялись как стандартное отклонение между моделями.

3. Какие выводы можно сделать на основе результатов исследования?

Ответ: на основе результатов исследования можно сделать следующие выводы:
* несогласие предсказывает нарушения спецификаций;
* спецификации не содержат подробной информации о качестве в безопасной зоне;
* модели-оценщики расходятся во мнениях относительно соответствия;
* метод и масштаб исследования позволяют стресс-тестировать спецификации моделей и выявлять проблемы в них;
* команда выпустила набор данных для независимого аудита и воспроизведения.

4. Какие модели были проанализированы в исследовании?

Ответ: в исследовании были проанализированы 12 передовых языковых моделей от Anthropic, OpenAI, Google и xAI.

5. Какие систематические ценностные предпочтения были выявлены у разных поставщиков?

Ответ: исследование выявило систематические ценностные предпочтения у разных поставщиков. Например, Claude отдаёт приоритет этической ответственности, Gemini подчёркивает эмоциональную глубину, а OpenAI и Grok оптимизируют эффективность.

Источник