Google DeepMind представляет SIMA 2 — универсального агента на базе Gemini для сложных 3D виртуальных миров

Google DeepMind выпустила SIMA 2, чтобы проверить, как далеко могут зайти универсальные агенты в сложных 3D игровых мирах.

Новая версия SIMA (Scalable Instructable Multiworld Agent)

Первая SIMA, выпущенная в 2024 году, научилась более чем 600 навыкам следования инструкциям, таким как «повернуть налево», «подняться по лестнице» и «открыть карту». Она управляла коммерческими играми только с помощью визуализированных пикселей, виртуальной клавиатуры и мыши, без доступа к внутренним компонентам игр.

В сложных задачах уровень успеха SIMA 1 составлял около 31%, в то время как игроки-люди достигали около 71% на том же тесте.

SIMA 2 сохраняет тот же воплощённый интерфейс, но заменяет основную политику моделью Gemini. Согласно статье в TechCrunch, система использует Gemini 2.5 Flash Lite в качестве механизма рассуждений. Это превращает SIMA из прямого сопоставления между пикселями и действиями в агента, который формирует внутренний план, рассуждает на языке и затем выполняет необходимую последовательность действий в игре.

DeepMind описывает это как переход от следования инструкциям к интерактивному игровому компаньону, который сотрудничает с игроком.

Архитектура, Gemini в цикле управления

Архитектура SIMA 2 интегрирует Gemini в качестве ядра агента. Модель получает визуальные наблюдения и инструкции пользователя, выводит цель высокого уровня и производит действия, которые отправляются через интерфейс виртуальной клавиатуры и мыши.

Обучение использует сочетание демонстрационных видеороликов с языковыми метками и метками, сгенерированными самим Gemini. Этот контроль позволяет агенту согласовать свои внутренние рассуждения как с намерениями человека, так и с описаниями поведения, сгенерированными моделью.

Благодаря такой схеме обучения SIMA 2 может объяснить, что она намерена сделать, и перечислить шаги, которые она предпримет. На практике это означает, что агент может отвечать на вопросы о своей текущей цели, обосновывать свои решения и раскрывать интерпретируемую цепочку мыслей об окружающей среде.

Уязвимости протокола Model Context (MCP) в сфере безопасности

В этой части серии интервью мы рассмотрим некоторые общие уязвимости в сфере безопасности в протоколе Model Context (MCP) — фреймворке, разработанном для безопасного взаимодействия LLM с внешними инструментами и источниками данных.

Хотя MCP обеспечивает структуру и прозрачность того, как модели получают доступ к контексту, он также создаёт новые риски для безопасности, если ими не управлять должным образом. В этой статье мы рассмотрим три ключевые угрозы — отравление инструментов (Tool Poisoning), «ковровые тяги» (Rug Pulls) и атаки с захватом инструментов (Tool Hijacking Attacks).

Отравление инструментов (Tool Poisoning)

Атака с отравлением инструмента происходит, когда злоумышленник вставляет скрытые вредоносные инструкции в метаданные или описание инструмента MCP.

Пользователи видят только чистое, упрощённое описание инструмента в пользовательском интерфейсе. Однако LLM видят полное определение инструмента, включая скрытые подсказки, команды для бэкдора или манипулируемые инструкции.

Это несоответствие позволяет злоумышленникам незаметно влиять на ИИ, заставляя его совершать вредные или несанкционированные действия.

Захват инструментов (Tool Hijacking)

Атака с захватом инструмента происходит, когда вы подключаете несколько серверов MCP к одному клиенту, и один из них является вредоносным. Вредоносный сервер внедряет скрытые инструкции в свои собственные описания инструментов, которые пытаются перенаправить, переопределить или манипулировать поведением инструментов, предоставляемых доверенным сервером.

Rug Pulls в MCP

Rug Pull в MCP происходит, когда сервер изменяет определения своих инструментов после того, как пользователь уже их утвердил. Это похоже на установку доверенного приложения, которое позже обновляется до вредоносного — клиент считает, что инструмент безопасен, но его поведение незаметно изменилось за кулисами.

Поскольку пользователи редко пересматривают спецификации инструментов, эту атаку крайне сложно обнаружить.

1. Какие ключевые улучшения были внесены в SIMA 2 по сравнению с первой версией SIMA?

Ответ: SIMA 2 сохраняет тот же воплощённый интерфейс, но заменяет основную политику моделью Gemini. Это превращает SIMA из прямого сопоставления между пикселями и действиями в агента, который формирует внутренний план, рассуждает на языке и затем выполняет необходимую последовательность действий в игре.

2. Какие методы обучения используются для SIMA 2?

Ответ: обучение SIMA 2 использует сочетание демонстрационных видеороликов с языковыми метками и метками, сгенерированными самим Gemini. Этот контроль позволяет агенту согласовать свои внутренние рассуждения как с намерениями человека, так и с описаниями поведения, сгенерированными моделью.

3. Какие уязвимости в сфере безопасности существуют в протоколе Model Context (MCP)?

Ответ: в протоколе Model Context (MCP) существуют три ключевые угрозы: отравление инструментов (Tool Poisoning), «ковровые тяги» (Rug Pulls) и атаки с захватом инструментов (Tool Hijacking Attacks). Атака с отравлением инструмента происходит, когда злоумышленник вставляет скрытые вредоносные инструкции в метаданные или описание инструмента MCP. Атака с захватом инструмента происходит, когда вы подключаете несколько серверов MCP к одному клиенту, и один из них является вредоносным. Rug Pull в MCP происходит, когда сервер изменяет определения своих инструментов после того, как пользователь уже их утвердил.

4. Какие последствия может иметь атака с отравлением инструмента для пользователей и системы?

Ответ: атака с отравлением инструмента позволяет злоумышленникам незаметно влиять на ИИ, заставляя его совершать вредные или несанкционированные действия. Это может привести к нарушению работы системы и потенциальному ущербу для пользователей.

5. Какие меры предосторожности можно предпринять для защиты от атак с захватом инструментов в MCP?

Ответ: для защиты от атак с захватом инструментов в MCP необходимо тщательно проверять и контролировать подключение серверов MCP к клиентам, чтобы предотвратить внедрение скрытых инструкций и манипулирование поведением инструментов.

Источник