OpenAI обнаружили особенности в моделях ИИ, соответствующие различным «персонам»
Исследователи OpenAI заявили, что обнаружили скрытые функции внутри ИИ-моделей, соответствующие «персонам» с нарушенной настройкой — шаблонам поведения, имитирующим определённые типы людей. Об этом говорится в новом исследовании компании, опубликованном [https://openai.com/index/emergent-misalignment/] в среду. Анализируя внутренние представления моделей ИИ — числовые данные, определяющие их ответы, которые часто кажутся людям бессмысленными, — исследователи выявили паттерны, активирующиеся при некорректном … Читать далее