Мы вывели 100 автомобилей, управляемых с помощью обучения с подкреплением (RL), на шоссе в час пик. Нашей целью была **оптимизация трафика с помощью обучения с подкреплением** для сглаживания заторов и снижения расхода топлива для всех участников движения. Мы стремились побороть “фантомные пробки” — эти раздражающие замедления и ускорения, у которых часто нет явной причины, но которые приводят к заторам и значительным потерям энергии. Для обучения эффективных контроллеров сглаживания потока мы создали быстрые симуляции на основе реальных данных. В этих симуляциях RL-агенты учились максимизировать энергоэффективность, сохраняя при этом пропускную способность и безопасность движения рядом с водителями-людьми.
В целом, даже небольшая доля хорошо управляемых автономных транспортных средств (АТС) достаточна для значительного улучшения транспортного потока и топливной экономичности для всех водителей на дороге. Более того, обученные контроллеры разработаны так, чтобы их можно было развернуть на большинстве современных автомобилей. Они работают децентрализованно и полагаются на стандартные радарные датчики. В нашей последней работе мы исследуем проблемы развертывания RL-контроллеров в больших масштабах, от симуляции до реальных условий, в ходе этого эксперимента со 100 автомобилями.
Проблема фантомных пробок
Волна замедления движется назад по потоку на шоссе.
Если вы водите машину, вы наверняка сталкивались с фантомными пробками. Это те самые необъяснимые замедления движения, которые возникают из ниоткуда, а затем внезапно исчезают. Такие волны часто вызваны небольшими колебаниями в нашем стиле вождения, которые усиливаются в транспортном потоке. Мы естественно регулируем скорость в зависимости от впереди идущего автомобиля. Если разрыв увеличивается, мы ускоряемся. Если впереди тормозят, мы тоже замедляемся. Однако из-за нашего ненулевого времени реакции мы можем тормозить чуть сильнее, чем автомобиль впереди. Следующий за нами водитель делает то же самое, и это усиление продолжается. Со временем незначительное замедление превращается в полную остановку дальше по потоку. Эти волны движутся назад, приводя к значительному падению энергоэффективности из-за частых ускорений. Это также сопровождается увеличением выбросов CO2 и риском аварий.
И это не единичное явление! Такие волны повсеместны на загруженных дорогах, когда плотность движения превышает критический порог. Как же решить эту проблему? Традиционные подходы, такие как регулирование въезда на магистраль (ramp metering) и переменные скоростные ограничения, пытаются управлять транспортным потоком. Но они часто требуют дорогостоящей инфраструктуры и централизованной координации. Более масштабируемый подход — использовать АТС, которые могут динамически адаптировать свое поведение в реальном времени. Однако просто добавить АТС в поток недостаточно: они должны водить умнее, улучшая трафик для всех. Именно здесь на помощь приходит обучение с подкреплением (RL).
Фундаментальная диаграмма транспортного потока показывает, как количество машин на дороге (плотность) влияет на пропускную способность (поток). При низкой плотности добавление машин увеличивает поток. Но за критическим порогом машины начинают мешать друг другу, вызывая заторы. В итоге добавление машин замедляет общее движение.
Оптимизация трафика с помощью обучения с подкреплением для сглаживания волн
RL — это мощный подход к управлению. В нем агент учится максимизировать сигнал вознаграждения через взаимодействие со средой. Агент набирает опыт методом проб и ошибок, учится на своих ошибках и со временем совершенствуется. В нашем случае среда — это сценарий смешанного движения, где АТС учатся стратегиям вождения. Цель – гасить волны “старт-стоп” и снижать расход топлива как для себя, так и для окружающих автомобилей, управляемых людьми.
Как здесь работает обучение с подкреплением
Обучение этих RL-агентов требует быстрых симуляций с реалистичной динамикой трафика. Эти симуляции должны воспроизводить поведение “старт-стоп” на шоссе. Для этого мы использовали экспериментальные данные, собранные на шоссе I-24 около Нэшвилла, штат Теннесси. На основе данных мы создали симуляции, где автомобили воспроизводят траектории с шоссе. Это создает нестабильный трафик, который АТС, двигаясь позади, учатся сглаживать.
Мы проектировали АТС с учетом будущего развертывания. Они должны работать, используя только базовую сенсорную информацию о себе и впереди идущем автомобиле. Наблюдения включают скорость АТС, скорость ведущего автомобиля и дистанцию между ними. На основе этих входных данных RL-агент предписывает либо мгновенное ускорение, либо желаемую скорость для АТС. Ключевое преимущество использования только локальных измерений в том, что RL-контроллеры можно развернуть на большинстве современных автомобилей децентрализованно, без дополнительной инфраструктуры.
Разработка функции вознаграждения
Самая сложная часть — разработка функции вознаграждения. При её максимизации поведение АТС должно соответствовать нескольким целям:
Сбалансировать эти цели сложно, нужно найти подходящие весовые коэффициенты для каждого компонента. Например, если минимизация расхода топлива доминирует в вознаграждении, RL АТС учатся останавливаться посреди шоссе, потому что это энергетически оптимально. Чтобы предотвратить это, мы ввели динамические минимальные и максимальные пороги дистанции. Это обеспечивает безопасное и разумное поведение при оптимизации топливной экономичности. Мы также штрафовали за расход топлива автомобилей, управляемых людьми и следующих за АТС. Это препятствовало обучению эгоистичному поведению, когда АТС оптимизирует экономию энергии для себя за счет окружающего трафика. В целом, мы стремимся найти баланс между экономией энергии и разумным, безопасным стилем вождения.
Результаты моделирования
Иллюстрация динамических минимальных и максимальных порогов дистанции. В этих пределах АТС может свободно действовать для максимально эффективного сглаживания трафика.
Типичное поведение, которому научились АТС, — поддерживать немного большую дистанцию, чем водители-люди. Это позволяет им эффективнее поглощать предстоящие, возможно резкие, замедления трафика. В симуляции такой подход привел к значительной экономии топлива — до 20% для всех участников дорожного движения в самых загруженных сценариях. И это при доле АТС менее 5% на дороге! Причем эти АТС не должны быть какими-то особенными. Это могут быть обычные потребительские автомобили, оснащенные умным адаптивным круиз-контролем (ACC). Именно это мы и протестировали в больших масштабах.
Сглаживающее поведение RL АТС. Красный: траектория человека из набора данных. Синий: последовательные АТС в колонне, где АТС 1 находится ближе всего к траектории человека. Обычно между АТС находится от 20 до 25 автомобилей, управляемых людьми. Каждый АТС замедляется не так сильно и ускоряется не так быстро, как его лидер. Это приводит к уменьшению амплитуды волны со временем и, следовательно, к экономии энергии.
Полевые испытания 100 беспилотников: Масштабное внедрение RL
Наши 100 автомобилей припаркованы в операционном центре в течение недели эксперимента.
Учитывая многообещающие результаты моделирования, естественным следующим шагом было преодоление разрыва между симуляцией и реальным шоссе. Мы взяли обученные RL-контроллеры и развернули их на 100 автомобилях на шоссе I-24 в часы пик в течение нескольких дней. Этот крупномасштабный эксперимент, который мы назвали MegaVanderTest, является крупнейшим когда-либо проведенным экспериментом по сглаживанию трафика в смешанном потоке.
Перед развертыванием RL-контроллеров в полевых условиях мы тщательно обучили и оценили их в симуляциях, а также проверили на реальном оборудовании. В целом, шаги к развертыванию включали:
- Обучение в симуляциях на основе данных: Мы использовали данные о трафике с шоссе I-24 для создания обучающей среды с реалистичной динамикой волн. Затем проверили производительность и устойчивость обученного агента в различных новых сценариях трафика.
- Развертывание на оборудовании: После проверки в программном обеспечении для робототехники обученный контроллер загружается в автомобиль и может управлять заданной скоростью автомобиля. Мы работаем через бортовой круиз-контроль автомобиля, который действует как низкоуровневый контроллер безопасности.
- Модульная структура управления: Одной из ключевых проблем во время теста было отсутствие доступа к датчикам информации о впереди идущем автомобиле. Чтобы преодолеть это, RL-контроллер был интегрирован в иерархическую систему MegaController. Она сочетает планировщик скорости, учитывающий условия движения дальше по потоку, с RL-контроллером в качестве конечного лица, принимающего решения.
- Проверка на оборудовании: RL-агенты были разработаны для работы в среде, где большинство транспортных средств управляются людьми. Это требовало надежных стратегий, адаптирующихся к непредсказуемому поведению. Мы проверяем это, управляя автомобилями с RL-контроллерами на дороге под тщательным наблюдением человека, внося изменения в управление на основе обратной связи.
Интеграция с оборудованием
Каждый из 100 автомобилей подключен к Raspberry Pi, на котором развернут RL-контроллер (небольшая нейронная сеть). RL-контроллер напрямую управляет бортовой системой адаптивного круиз-контроля (ACC), устанавливая её скорость и желаемую дистанцию следования.
Результаты полевых испытаний
После проверки RL-контроллеры были развернуты на 100 автомобилях и выведены на шоссе I-24 во время утреннего часа пик. Окружающий трафик не знал об эксперименте, что обеспечивало непредвзятое поведение водителей. Данные собирались во время эксперимента с десятков камер, установленных над шоссе. Это позволило извлечь миллионы индивидуальных траекторий транспортных средств с помощью конвейера компьютерного зрения. Метрики, рассчитанные по этим траекториям, указывают на тенденцию к снижению расхода топлива вблизи АТС, что соответствует результатам моделирования и предыдущих, менее масштабных проверочных развертываний. Например, мы можем наблюдать, что чем ближе люди едут за нашими АТС, тем меньше топлива они в среднем потребляют (рассчитывается с использованием калиброванной энергетической модели):
Средний расход топлива в зависимости от расстояния позади ближайшего АТС с активным RL-контроллером в потоке. По мере удаления водителей-людей от АТС их средний расход топлива увеличивается.
Другой способ измерить влияние — измерить дисперсию скоростей и ускорений: чем ниже дисперсия, тем меньше должна быть амплитуда волн. Именно это мы и наблюдаем по данным полевых испытаний. Хотя получение точных измерений из большого объема данных с камер является сложной задачей, мы наблюдаем тенденцию к экономии энергии на 15–20% вокруг наших управляемых автомобилей. Этот успех демонстрирует потенциал подхода “**оптимизация трафика с помощью обучения с подкреплением**”.
Точки данных со всех транспортных средств на шоссе за один день эксперимента, отображенные в пространстве скорость-ускорение. Кластер слева от красной линии представляет затор, а справа — свободное движение. Мы наблюдаем, что кластер заторов меньше при наличии АТС, что измеряется путем вычисления площади мягкой выпуклой оболочки или подгонкой гауссовского ядра.
Заключение и перспективы
Полевые эксплуатационные испытания со 100 автомобилями были децентрализованными, без явного сотрудничества или связи между АТС. Это отражает текущее состояние развертывания автономии и приближает нас на один шаг к более плавным и энергоэффективным магистралям. Тем не менее, существует огромный потенциал для улучшений.
Важно отметить, что наши контроллеры легко интегрируются с существующими системами адаптивного круиз-контроля (ACC), делая полевое развертывание возможным в больших масштабах. Чем больше транспортных средств будет оснащено интеллектуальным управлением для сглаживания трафика, тем меньше волн мы увидим на наших дорогах. А это означает меньше загрязнения и экономию топлива для всех!
Многие участники внесли свой вклад в реализацию MegaVanderTest! Полный список доступен на странице проекта CIRCLES, вместе с дополнительной информацией о проекте.
Добавить комментарий