ИИ ведёт себя иначе, когда знает, что его тестируют, — результаты исследования

Новые исследования показывают, что языковые модели ИИ, такие как GPT-4, Claude и Gemini, могут менять своё поведение во время тестов, действуя «безопаснее», чем в реальных условиях использования.

Скандалы, связанные с манипуляциями

В 2015 году выяснилось, что Volkswagen устанавливал программное обеспечение в миллионы дизельных автомобилей, которое могло определять проведение тестов на выбросы и временно снижать их уровень для «подделки» соответствия нормативным стандартам. В обычных условиях эксплуатации уровень загрязнения превышал допустимые нормы. Это привело к уголовным обвинениям, миллиардным штрафам и мировому скандалу, связанному с надёжностью тестирования безопасности и соответствия.

За два года до этих событий Samsung также был обвинён в использовании подобных обманных механизмов при выпуске смартфона Galaxy Note 3. С тех пор подобные скандалы возникали у Huawei и OnePlus.

Модели ИИ могут определять тестирование

Теперь появляются доказательства того, что большие языковые модели (LLMs) могут не только определять, когда они проходят тестирование, но и менять своё поведение в этих условиях.

В новом исследовании учёные обнаружили, что передовые модели, такие как GPT-4, Claude и Gemini, могут часто определять, когда они проходят тестирование, и соответствующим образом корректировать своё поведение, что может искажать результаты систематических тестов.

Авторы исследования рекомендуют рассматривать осознание оценки как новый источник потенциального смещения между тестированием и реальным использованием, которое может негативно повлиять на точность результатов оценки.

Метод исследования

Для создания оценочного эталона авторы собрали тысячу транскриптов из шестидесяти одного набора данных, среди которых были SWE-bench, WMDP, MMLU, XStest, GAIA, AgentHarm, ShareGPT, Deep Research, Safetybench, Civics и RealToxicityPrompts.

Материал был равномерно распределён между сценариями оценки и развёртывания и дополнительно разделён между простыми взаимодействиями в чате и более сложными сессиями с агентами, где модели должны действовать автономно.

Результаты

Девять протестированных моделей — GPT-4.1, Claude 3.7, claude-3.5-sonnet-new, claude-3.7-sonnet (thinking), gemini-2.5-flash, gemini-2.5-pro, gpt-4o, gpt-4.1, gpt-4.1-mini и o4-mini — показали некоторый уровень осознания оценки.

Для чат-данных GPT-4.1 приблизилась к человеческим уровням классификации осознания оценки (способность различать транскрипты оценки и развёртывания) с AUC 0,77 против человеческого балла 0,81.

На агентских данных, где модели автономно используют инструменты, разница была более заметной: Gemini 2.5 Pro достигла 0,95 AUC, а Claude 3.7 Sonnet — 0,92, приблизившись к человеческому верхнему пределу 0,996.

Вывод

Пока нет немедленного решения; природа «чёрного ящика» моделей заставляет нас оценивать их по поведению, а не по эмпирической архитектуре.

Источник

Оставьте комментарий