Gemini от Google обыграла Pokémon Blue (с небольшой помощью)

Самый дорогой ИИ-модели Google, судя по всему, удалось преодолеть важный рубеж: пройти видеоигру 29-летней давности.
Прошлой ночью генеральный директор Google Сундар Пичаи triumфантно написал в X: «Какой финал! Gemini 2.5 Pro только что завершил Pokémon Blue!» [https://x.com/sundarpichai/status/1918455766542930004?t=8NLgn42y3kAqUbZVhg4zLw&s=19].

Стоит уточнить, что стрим Gemini Plays Pokemon [https://www.twitch.tv/gemini_plays_pokemon] был создан (по его собственным словам) «30-летним инженером-программистом, не связанным с Google», известным как Джоэл З [https://bsky.app/profile/jcz.dev]. Однако руководители Google активно поддерживали эту инициативу.

Например, Логан Килпатрик, руководитель продукта Google AI Studio, ещё в прошлом месяце сообщил [https://x.com/OfficialLoganK/status/1913365614397182096], что Gemini «демонстрирует значительный прогресс в прохождении Pokémon» и «получил пятый значок (предыдущая лучшая модель имела только три, хотя с другой системой управления агентом)». Это побудило Пичаи пошутить [https://x.com/sundarpichai/status/1913464625393524967]: «Мы работаем над API — Artificial Pokémon Intelligence :)».

Почему именно Pokémon? В феврале Anthropic отметила успехи [https://www.anthropic.com/research/visible-extended-thinking] своей модели Claude в «Pokémon Red», заявив, что «расширенное мышление и обучение агента» дают Claude «серьёзное преимущество» в решении «более неожиданных» задач, таких как игра в классическую игру. («Pokémon Red» и «Blue» — разные версии игры для GameBoy [https://en.wikipedia.org/wiki/Pok%C3%A9mon_Red,_Blue,_and_Yellow], выпущенные в 1996 году в рамках долгоиграющей франшизы). Даже существует Twitch-канал Claude Plays Pokemon [https://www.twitch.tv/claudeplayspokemon], который Джоэл З назвал источником вдохновения.

Несмотря на прогресс, Claude, похоже, ещё не прошёл «Pokémon Red». Означает ли это, что Gemini объективно лучше справляется с игрой? На своей странице в Twitch Джоэл З предупредил зрителей: «Пожалуйста, не рассматривайте это как эталон способности ИИ играть в Pokémon. Прямые сравнения некорректны — у Gemini и Claude разные инструменты, и они получают разную информацию».

Обеим моделям ИИ требуется помощь для игры — здесь вступают в действие упомянутые системы управления агентами [https://www.lesswrong.com/posts/7mqp8uRnnPdbBzJZE/is-gemini-now-better-than-claude-at-pokemon]. Они предоставляют моделям скриншоты игры с дополнительной информацией, позволяя ИИ принимать решения (включая вызов специализированных агентов), после чего нажимается кнопка, соответствующая инструкции модели.

Джоэл З признал, что для завершения игры потребовались «вмешательства разработчика», но настаивает, что это не читерство: «Мои правки улучшают общие способности Gemini к принятию решений и анализу. Я не даю конкретных подсказок — никаких гайдов или прямых инструкций для преодоления сложных участков вроде Mt. Moon. Единственное исключение — уведомление Gemini о необходимости дважды поговорить с Rocket Grunt для получения Lift Key, что было исправлено в Pokémon Yellow».

Кроме того, он добавил: «Проект Gemini Plays Pokémon всё ещё развивается, и его архитектура продолжает совершенствоваться».

Оставьте комментарий Отменить ответ