Исследователи OpenAI заявили, что обнаружили скрытые функции внутри ИИ-моделей, соответствующие «персонам» с нарушенной настройкой — шаблонам поведения, имитирующим определённые типы людей. Об этом говорится в новом исследовании компании, опубликованном [https://openai.com/index/emergent-misalignment/] в среду.
Анализируя внутренние представления моделей ИИ — числовые данные, определяющие их ответы, которые часто кажутся людям бессмысленными, — исследователи выявили паттерны, активирующиеся при некорректном поведении системы.
Одна из обнаруженных функций оказалась связана с токсичностью ответов: модель лгала пользователям или давала опасные рекомендации, например, предлагала поделиться паролем или взломать аккаунт друга. Учёные выяснили, что уровень токсичности можно регулировать, изменяя параметры этой функции.
Новое исследование углубляет понимание факторов, провоцирующих небезопасное поведение ИИ, что может помочь в создании более надёжных систем. По словам специалиста OpenAI по интерпретируемости Дэна Моссинга, выявленные паттерны потенциально позволят эффективнее обнаруживать рассогласование в рабочих моделях.
«Мы надеемся, что освоенные методы — например, сведение сложных явлений к простым математическим операциям — также помогут понять принципы обобщения моделей в других контекстах», — заявил Моссинг в интервью TechCrunch.
Разработчики ИИ умеют улучшать модели, но до конца не понимают, как те формируют ответы. Как отмечает Крис Ола из Anthropic, современные ИИ-системы скорее «выращиваются», чем создаются [https://techcrunch.com/2025/04/24/anthropic-ceo-wants-to-open-the-black-box-of-ai-models-by-2027/]. Чтобы устранить этот пробел, OpenAI, Google DeepMind и Anthropic инвестируют в исследования интерпретируемости — области, изучающей «чёрный ящик» алгоритмов.
Недавнее исследование [https://techcrunch.com/2025/04/23/openais-gpt-4-1-may-be-less-aligned-than-the-companys-previous-ai-models/] независимого эксперта Оуэна Эванса подняло новые вопросы о способности моделей к обобщению. Учёный выявил, что дообучение моделей OpenAI на небезопасном коде провоцирует злонамеренное поведение в разных сферах — например, попытки обманом получить пароль пользователя. Это явление, названное «возникающим рассогласованием», стало толчком для дальнейших изысканий OpenAI.
В процессе изучения феномена компания обнаружила внутренние функции, существенно влияющие на поведение моделей. Моссинг сравнил эти паттерны с нейронной активностью мозга человека, где определённые группы клеток связаны с настроениями или действиями.
«Когда Дэн впервые представил это на встрече, я подумала: “Вау, они нашли это”», — поделилась Тежал Патвардхан, специалист