Вечером 22 июня 2010 года американская звезда тенниса Джон Изнер начал изнурительный матч на Уимблдоне против француза Николя Маю, который стал самым продолжительным в истории этого вида спорта. Схватка длилась 11 часов и растянулась на три дня. Хотя в итоге Изнер победил со счётом 70–68 в пятом сете, некоторые присутствующие полушутя задавались вопросом, не застряли ли два игрока на корте навечно.
Сейчас, в часе езды к югу от Всеанглийского клуба, в Google DeepMind происходит нечто похожее на бесконечную партию в настольный теннис между двумя роботизированными руками. Компания, известная разработкой моделей искусственного интеллекта, которые превзошли лучших игроков в шахматы и го, теперь использует пару роботизированных манипуляторов для непрерывной игры в настольный теннис. Цель этого исследовательского проекта, начатого в 2022 году, — чтобы роботы постоянно учились друг у друга через соревнование.
Как и Изнер, в конце концов адаптировавший свою игру, чтобы победить Маю, каждая роботизированная рука использует модели искусственного интеллекта для изменения стратегий и улучшения своих навыков. Но, в отличие от матча на Уимблдоне, у роботов нет финального счёта, которого они могли бы достичь, чтобы завершить свою «битву». Они продолжают соревноваться бесконечно, стремясь к улучшению с каждым ударом. И хотя роботизированные манипуляторы легко проигрывают продвинутым игрокам-людям, они доминируют над новичками. Против игроков среднего уровня у роботов примерно равные шансы — 50/50, что ставит их, по словам исследователей, на уровень «солидно выступающих любителей».
Робот на базе искусственного интеллекта готов играть в настольный теннис
Это первый агент, достигший уровня любительского человека в этом виде спорта. Вот как это работает.
Два исследователя, участвовавшие в проекте, отметили на этой неделе в блоге IEEE Spectrum, что всё это делается в надежде создать передовую модель искусственного интеллекта общего назначения, которая могла бы служить «мозгами» для человекоподобных роботов, которые однажды могут взаимодействовать с людьми на реальных фабриках, в домах и за их пределами. Исследователи из DeepMind и других организаций надеются, что этот метод обучения, если его расширить, может стать «моментом ChatGPT» для робототехники — ускоряя переход от неуклюжих, неловких кусков металла к действительно полезным помощникам.
«Мы оптимистично настроены, что продолжение исследований в этом направлении приведёт к созданию более способных и адаптируемых машин, которые смогут освоить разнообразные навыки, необходимые для эффективной и безопасной работы в нашем неструктурированном мире», — пишут старший инженер DeepMind Паннаг Санкети и профессор Университета штата Аризона Хени Бен Амор в IEEE Spectrum.
##### Как DeepMind обучил робота игре в настольный теннис
Первоначальное вдохновение для создания роботов, размахивающих ракетками, пришло из желания найти более эффективные и масштабируемые способы обучения роботов выполнению различных задач. Хотя такие роботы, как Boston Dynamics Atlas, уже несколько лет демонстрируют впечатляющие акробатические трюки, многие из этих достижений были запрограммированы и стали результатом тщательной работы инженеров. Такой подход работает для демонстрации технологий или ограниченных случаев использования, но не подходит для проектирования робота, предназначенного для работы рядом с людьми в динамичных средах, таких как склады. В таких условиях роботу недостаточно просто знать, как загрузить коробку на ящик — он также должен адаптироваться к людям и к среде, которая постоянно вводит новые и непредсказуемые переменные.
Настольный теннис, как оказалось, является довольно эффективным способом проверки этой непредсказуемости. Этот вид спорта используется в качестве эталона для исследований в области робототехники с 1980-х годов, поскольку сочетает в себе скорость, оперативность и стратегию одновременно. Чтобы добиться успеха в этом виде спорта, игрок должен овладеть целым рядом навыков. Ему нужен точный контроль моторики и способности восприятия, чтобы отслеживать мяч и перехватывать его, даже когда он летит с разной скоростью и вращением. В то же время игрок должен принимать стратегические решения о том, как обыграть соперника и когда пойти на расчётливый риск. Исследователи DeepMind описывают игру как «ограниченную, но очень динамичную среду».
DeepMind начала проект, используя обучение с подкреплением (где искусственный интеллект получает вознаграждение за принятие правильного решения), чтобы научить роботизированную руку основам этого вида спорта. Сначала двух манипуляторов обучали просто участвовать в совместных розыгрышах, поэтому у них не было причин пытаться выиграть очки. В конце концов, после некоторой настройки со стороны инженеров, команда разработала двух роботизированных агентов, способных автономно поддерживать длительные розыгрыши.
Обучение у людей на пути к бесконечной игре
Затем исследователи скорректировали параметры и поручили манипуляторам попытаться выиграть очки. Процесс, как они писали, быстро ошеломил всё ещё неопытных роботов. Манипуляторы получали новую информацию во время розыгрыша и изучали новые тактики, но забывали некоторые из предыдущих ходов, которые делали. В результате получался непрерывный поток коротких розыгрышей, часто заканчивающихся тем, что один робот забивал невозвращаемый победителем мяч.
Интересно, что у роботов заметно улучшились показатели, когда им поручили играть очки против людей. В начале люди с разным уровнем подготовки лучше удерживали мяч в игре. Это оказалось решающим для улучшения производительности роботов, поскольку они столкнулись с более широким спектром ударов и стилей игры, которые нужно было изучить. Со временем роботы стали лучше, повысив не только свою последовательность, но и способность играть более сложные очки — сочетая защиту, нападение и большую непредсказуемость. В общей сложности роботы выиграли 45% из 29 игр, сыгранных ими против людей, в том числе обыграв игроков среднего уровня в 55% случаев.
С тех пор ставшие уже ветеранами роботы-ИИ снова сразились друг с другом. Исследователи говорят, что они постоянно совершенствуются. Частично этот прогресс стал возможен благодаря новому виду обучения с помощью ИИ. DeepMind использует модель Google Gemini для анализа видеозаписей игр роботов и генерации обратной связи о том, как лучше выигрывать очки. Видеозаписи «тренера Gemini» в действии показывают, как роботизированная рука корректирует свою игру в ответ на команды ИИ, такие как «ударьте мяч как можно дальше вправо» и «ударьте по мячу низко, близко к сетке».
Более длительные розыгрыши однажды могут привести к появлению полезных роботов
В DeepMind и других компаниях надеются, что агенты, соревнующиеся друг с другом, помогут улучшить программное обеспечение искусственного интеллекта общего назначения таким образом, чтобы оно больше напоминало то, как люди учатся ориентироваться в окружающем мире. Хотя искусственный интеллект может легко превзойти большинство людей в таких задачах, как базовое кодирование или шахматы, даже самые продвинутые роботы с поддержкой ИИ с трудом ходят так же стабильно, как младенец. Задачи, которые по своей сути просты для людей, например, завязать шнурок или напечатать письмо на клавиатуре, остаются для роботов грандиозными задачами. Эта дилемма, известная в сообществе робототехники как парадокс Моравека, остаётся одним из самых больших препятствий на пути создания робота в стиле «Джетсонов» по имени Рози, который мог бы реально пригодиться в хозяйстве.
Но есть некоторые ранние признаки того, что эти препятствия могут начать исчезать. В прошлом году DeepMind наконец-то научила робота завязывать шнурки, что считалось достижимым лишь через несколько лет. (Хорошо ли робот зашнуровал обувь — это другой вопрос.) В этом году Boston Dynamics выпустила видео, демонстрирующее, как её новый, более лёгкий автономный робот Atlas в реальном времени корректирует ошибки, допущенные при погрузке материалов в макетном производственном помещении.
Это могут показаться маленькими шагами, и так оно и есть, но исследователи надеются, что обобщённые многоцелевые системы искусственного интеллекта, подобные той, которую тренируют роботы для игры в настольный теннис, могут способствовать более частым достижениям такого рода. А пока роботы DeepMind будут продолжать играть, не подозревая о своём нескончаемом одиссее в пятом сете.