Google DeepMind представляет SIMA 2 — универсального агента на базе Gemini для сложных 3D виртуальных миров

Google DeepMind выпустил SIMA 2, чтобы проверить, как далеко могут зайти универсальные воплощённые агенты внутри сложных 3D игровых миров.

Новая версия SIMA (Scalable Instructable Multiworld Agent)

Первая SIMA, выпущенная в 2024 году, научилась более чем 600 навыкам следования инструкциям, таким как «повернуть налево», «подняться по лестнице» и «открыть карту». Она управляла коммерческими играми только с помощью визуализированных пикселей и виртуальной клавиатуры и мыши, без доступа к внутренним компонентам игры.

SIMA 2 сохраняет тот же воплощённый интерфейс, но заменяет основную политику моделью Gemini. Согласно статье TechCrunch, система использует Gemini 2.5 Flash Lite в качестве механизма рассуждений. Это превращает SIMA из прямого сопоставления между пикселями и действиями в агента, который формирует внутренний план, рассуждает на языке и затем выполняет необходимую последовательность действий в игре.

DeepMind описывает это как переход от следования инструкциям к интерактивному игровому компаньону, который сотрудничает с игроком.

Архитектура, Gemini в цикле управления

Архитектура SIMA 2 интегрирует Gemini в качестве ядра агента. Модель получает визуальные наблюдения и инструкции пользователя, выводит цель высокого уровня и производит действия, которые отправляются через интерфейс виртуальной клавиатуры и мыши.

Обучение использует сочетание демонстрационных видеороликов с языковыми метками и метками, сгенерированными самим Gemini. Этот надзор позволяет агенту согласовать свои внутренние рассуждения как с намерениями человека, так и с описаниями поведения, сгенерированными моделью.

Благодаря такой схеме обучения SIMA 2 может объяснить, что он намерен делать, и перечислить шаги, которые он предпримет. На практике это означает, что агент может отвечать на вопросы о своей текущей цели, обосновывать свои решения и раскрывать интерпретируемую цепочку мыслей об окружающей среде.

Уязвимости протокола Model Context (MCP)

В этой части серии интервью мы рассмотрим некоторые распространённые уязвимости безопасности в протоколе Model Context (MCP) — фреймворке, разработанном для безопасного взаимодействия LLM с внешними инструментами и источниками данных.

Хотя MCP обеспечивает структуру и прозрачность того, как модели получают доступ к контексту, он также вводит новые риски безопасности, если ими не управлять должным образом. В этой статье мы рассмотрим три ключевые угрозы:

* Отравление инструмента (Tool Poisoning). Атака происходит, когда злоумышленник вставляет скрытые вредоносные инструкции в метаданные или описание инструмента MCP.
* Угон инструмента (Tool Hijacking). Атака происходит, когда вы подключаете несколько серверов MCP к одному клиенту, и один из них является вредоносным. Злоумышленник внедряет скрытые инструкции в свои описания инструментов, которые пытаются перенаправить, переопределить или манипулировать поведением инструментов, предоставляемых доверенным сервером.
* Rug Pulls в MCP. Атака происходит, когда сервер изменяет определения своих инструментов после того, как пользователь уже их утвердил. Это похоже на установку доверенного приложения, которое позже обновляется до вредоносного — клиент считает, что инструмент безопасен, но его поведение незаметно изменилось за кулисами.

AI Interview Series #1: объясните некоторые стратегии генерации текста LLM, используемые в LLM

Подписывайтесь на нас в [Telegram](https://t.me/), чтобы не пропустить новые публикации!

1. Какие ключевые улучшения были внесены в SIMA 2 по сравнению с первоначальной версией SIMA?

Ответ: SIMA 2 сохраняет тот же воплощённый интерфейс, но заменяет основную политику моделью Gemini. Система использует Gemini 2.5 Flash Lite в качестве механизма рассуждений. Это превращает SIMA из прямого сопоставления между пикселями и действиями в агента, который формирует внутренний план, рассуждает на языке и затем выполняет необходимую последовательность действий в игре.

2. Какие методы обучения используются для SIMA 2?

Ответ: обучение SIMA 2 использует сочетание демонстрационных видеороликов с языковыми метками и метками, сгенерированными самим Gemini. Этот надзор позволяет агенту согласовать свои внутренние рассуждения как с намерениями человека, так и с описаниями поведения, сгенерированными моделью.

3. Какие уязвимости безопасности существуют в протоколе Model Context (MCP)?

Ответ: в протоколе Model Context (MCP) существуют три ключевые угрозы:
* Отравление инструмента (Tool Poisoning). Атака происходит, когда злоумышленник вставляет скрытые вредоносные инструкции в метаданные или описание инструмента MCP.
* Угон инструмента (Tool Hijacking). Атака происходит, когда вы подключаете несколько серверов MCP к одному клиенту, и один из них является вредоносным. Злоумышленник внедряет скрытые инструкции в свои описания инструментов, которые пытаются перенаправить, переопределить или манипулировать поведением инструментов, предоставляемых доверенным сервером.
* Rug Pulls в MCP. Атака происходит, когда сервер изменяет определения своих инструментов после того, как пользователь уже их утвердил. Это похоже на установку доверенного приложения, которое позже обновляется до вредоносного — клиент считает, что инструмент безопасен, но его поведение незаметно изменилось за кулисами.

4. Какие функции SIMA 2 позволяют ему взаимодействовать с пользователем на более высоком уровне, чем первоначальная версия SIMA?

Ответ: SIMA 2 может объяснить, что он намерен делать, и перечислить шаги, которые он предпримет. На практике это означает, что агент может отвечать на вопросы о своей текущей цели, обосновывать свои решения и раскрывать интерпретируемую цепочку мыслей об окружающей среде.

Источник