Одна из последних AI-моделей Google Gemini показала худшие результаты в тестах на безопасность.

Согласно внутреннему тестированию Google, новая ИИ-модель компании демонстрирует более низкие показатели безопасности по сравнению с предыдущей версией. Технический отчет, опубликованный на этой неделе, показывает, что Gemini 2.5 Flash чаще генерирует текст, нарушающий правила безопасности, чем Gemini 2.0 Flash. По метрикам text-to-text safety и image-to-text safety новая модель ухудшила результаты на 4,1% и 9,6% соответственно.

Метрика text-to-text safety оценивает частоту нарушений правил компании при обработке текстовых запросов, а image-to-text safety измеряет соответствие рекомендациям при работе с изображениями. Оба теста проводятся автоматически без участия человека. Представитель Google подтвердил, что Gemini 2.5 Flash «показывает худшие результаты по безопасности в text-to-text и image-to-text».

Эти неожиданные результаты появились на фоне тенденции среди разработчиков ИИ делать модели более «разрешительными» — то есть менее склонными отказываться отвечать на спорные или чувствительные запросы. Meta заявила, что её последние модели Llama были настроены так, чтобы не поддерживать «одни взгляды в ущерб другим» и отвечать на политически заряженные вопросы. OpenAI ранее сообщала о планах модифицировать будущие модели для предоставления множества точек зрения на противоречивые темы без выраженной редакционной позиции.

Однако подобные изменения иногда приводят к обратным результатам. На этой неделе TechCrunch сообщил, что базовая модель ChatGPT временно позволяла несовершеннолетним генерировать эротические диалоги, что OpenAI объяснила «техническим сбоем».

Согласно отчету Google, Gemini 2.5 Flash, находящаяся в стадии превью, точнее следует инструкциям — включая потенциально проблемные — чем предыдущая версия. Компания утверждает, что часть ухудшений связана с ложными срабатываниями, но признаёт, что модель иногда создаёт «запрещенный контент» при прямых запросах. «Естественно, существует противоречие между точным выполнением инструкций на чувствительные темы и соблюдением политик безопасности», — говорится в документе.

Тестирование с использованием бенчмарка SpeechMap показало, что Gemini 2.5 Flash втрое реже отказывается отвечать на спорные вопросы по сравнению с предшественницей. Эксперименты TechCrunch через платформу OpenRouter выявили, что модель охотно пишет эссе в поддержку замены судей на ИИ, ослабления гарантий надлежащей правовой процедуры в США и внедрения массовой слежки без судебного разрешения.

Томас Вудсайд, сооснователь проекта Secure AI, отмечает, что скудность деталей в отчёте Google подчёркивает необходимость большей прозрачности в тестировании моделей: «Без конкретных примеров нарушений сложно оценить, насколько серьёзна проблема». Ранее компания уже критиковалась за задержки с публикацией отчётов по безопасности — техническая документация для Gemini 2.5 Pro появилась спустя недели после релиза, а первый вариант содержал пробелы в данных.

В понедельник Google опубликовала обновлённый отчёт с расширенной информацией о мерах безопасности, однако эксперты продолжают призывать к более детальному раскрытию методологии тестирования.

Оставьте комментарий Отменить ответ