Генеративный искусственный интеллект улучшает беспроводную систему видения, позволяющую «видеть» сквозь преграды

Исследователи из MIT более десяти лет изучали методы, позволяющие роботам находить скрытые объекты и манипулировать ими, «видя» сквозь препятствия. Их методы используют проникающие сквозь поверхность беспроводные сигналы, отражающиеся от скрытых предметов.

Теперь исследователи используют генеративные модели искусственного интеллекта, чтобы преодолеть давнее узкое место, ограничивавшее точность предыдущих подходов. В результате появился новый метод, который позволяет получать более точные реконструкции формы, что может улучшить способность роботов надёжно захватывать и манипулировать объектами, которые закрыты от взгляда.

Новая техника

Новая техника создаёт частичную реконструкцию скрытого объекта из отражённых беспроводных сигналов и заполняет недостающие части его формы с помощью специально обученной генеративной модели искусственного интеллекта.

Исследователи также представили расширенную систему, которая использует генеративный искусственный интеллект для точной реконструкции всей комнаты, включая всю мебель. Система использует беспроводные сигналы, посылаемые одним стационарным радаром, которые отражаются от движущихся в пространстве людей.

Это преодолевает одну из ключевых проблем многих существующих методов, которые требуют установки беспроводного датчика на мобильного робота для сканирования окружающей среды. И в отличие от некоторых популярных методов, основанных на использовании камер, их метод сохраняет конфиденциальность людей в окружающей среде.

Эти инновации могут позволить складским роботам проверять упакованные товары перед отправкой, исключая отходы, связанные с возвратом продукции. Они также могут позволить роботам с искусственным интеллектом понимать местоположение человека в комнате, повышая безопасность и эффективность взаимодействия человека и робота.

«То, что мы сделали сейчас, — это разработка генеративных моделей искусственного интеллекта, которые помогают нам понять беспроводные отражения. Это открывает множество интересных новых приложений, но технически это также качественный скачок в возможностях: от заполнения пробелов, которые мы не могли видеть раньше, до интерпретации отражений и реконструкции целых сцен», — говорит Фадель Адиб, доцент кафедры электротехники и информатики, директор группы Signal Kinetics в MIT Media Lab и старший автор двух статей об этих методах.

Преодоление зеркального отражения

Группа Адиба ранее продемонстрировала использование миллиметровых волн (mmWave) для создания точных реконструкций трёхмерных объектов, скрытых от взгляда, таких как потерянный кошелёк, зарытый под кучей.

Эти волны, которые являются тем же типом сигналов, что и используемые в Wi-Fi, могут проходить через обычные препятствия, такие как гипсокартон, пластик и картон, и отражаться от скрытых объектов.

Но mmWaves обычно отражаются зеркально, что означает, что волна отражается в одном направлении после удара о поверхность. Таким образом, большие участки поверхности будут отражать сигналы в сторону от датчика mmWave, делая эти области фактически невидимыми.

«Когда мы хотим реконструировать объект, мы можем видеть только его верхнюю поверхность и не можем видеть ни дна, ни боков», — объясняет Додд.

Исследователи ранее использовали принципы физики для интерпретации отражённых сигналов, но это ограничивает точность реконструированной трёхмерной формы.

В новых статьях они преодолели это ограничение, используя генеративную модель искусственного интеллекта для заполнения частей, отсутствующих в частичной реконструкции.

«Но проблема заключается в следующем: как вы обучаете эти модели заполнять пробелы?» — говорит Адиб.

Обычно исследователи используют чрезвычайно большие наборы данных для обучения генеративной модели искусственного интеллекта, что является одной из причин, по которой такие модели, как Claude и Llama, демонстрируют такие впечатляющие результаты. Но наборов данных mmWave недостаточно для обучения.

Вместо этого исследователи адаптировали изображения в больших наборах данных компьютерного зрения, чтобы имитировать свойства отражений mmWave.

«Мы имитировали свойство зеркальности и шум, который мы получаем от этих отражений, чтобы мы могли применить существующие наборы данных к нашей области. Нам потребовались бы годы, чтобы собрать достаточно новых данных для этого», — говорит Лам.

Исследователи встраивают физику отражений mmWave непосредственно в эти адаптированные данные, создавая синтетический набор данных, который они используют для обучения генеративной модели искусственного интеллекта для выполнения правдоподобной реконструкции формы.

Видение «призраков»

Команда использовала тот же подход для создания расширенной системы, которая полностью реконструирует целые внутренние сцены, используя отражения mmWave от движущихся в комнате людей.

Движение человека генерирует многолучевые отражения. Некоторые mmWaves отражаются от человека, затем снова отражаются от стены или объекта и затем возвращаются к датчику, объясняет Додд.

Эти вторичные отражения создают так называемые «сигналы-призраки», которые являются отражёнными копиями исходного сигнала, меняющими местоположение по мере движения человека. Эти сигналы-призраки обычно отбрасываются как шум, но они также содержат информацию о планировке комнаты.

«Анализируя, как эти отражения меняются со временем, мы можем начать получать общее представление об окружающей нас среде. Но попытка напрямую интерпретировать эти сигналы будет ограничена по точности и разрешению», — говорит Додд.

Они использовали аналогичный метод обучения, чтобы научить генеративную модель искусственного интеллекта интерпретировать эти грубые реконструкции сцен и понимать поведение многолучевых отражений mmWave. Эта модель заполняет пробелы, уточняя начальную реконструкцию, пока не завершит сцену.

Они протестировали свою систему реконструкции сцен, названную RISE, используя более чем 100 траекторий движения человека, зафиксированных с помощью одного mmWave радара. В среднем RISE генерировал реконструкции, которые были примерно в два раза точнее, чем существующие методы.

В будущем исследователи хотят улучшить детализацию и детализацию своих реконструкций. Они также хотят создать крупные базовые модели для беспроводных сигналов, подобные моделям GPT, Claude и Gemini для языка и зрения, которые могут открыть новые приложения.

Эта работа частично поддержана Национальным научным фондом (NSF), MIT Media Lab и Amazon.

Большой языковой модели (LLM) не всегда можно доверять

Большие языковые модели (LLMs) могут генерировать достоверные, но неточные ответы, поэтому исследователи разработали методы количественной оценки неопределённости, чтобы проверить надёжность прогнозов. Один из популярных методов включает отправку одного и того же запроса несколько раз, чтобы увидеть, будет ли модель генерировать один и тот же ответ.

Но этот метод измеряет самоуверенность, и даже самая впечатляющая LLM может быть уверенно неправа. Чрезмерная уверенность может ввести пользователей в заблуждение относительно точности прогноза, что может привести к разрушительным последствиям в таких важных сферах, как здравоохранение или финансы.

Чтобы устранить этот недостаток, исследователи из MIT представили новый метод измерения другого типа неопределённости, который более надёжно идентифицирует уверенные, но неверные ответы LLM.

Их метод включает сравнение ответа целевой модели с ответами группы похожих LLM. Они обнаружили, что измерение межмодельного несогласия более точно фиксирует этот тип неопределённости, чем традиционные подходы.

Они объединили свой подход с мерой самосогласованности LLM, чтобы создать общий показатель неопределённости, и оценили его на 10 реалистичных задачах, таких как ответы на вопросы и математические рассуждения. Этот общий показатель неопределённости последовательно превосходил другие показатели и лучше выявлял ненадёжные прогнозы.

«Самосогласованность используется во многих различных подходах для количественной оценки неопределённости, но если ваша оценка неопределённости основана только на результате одной модели, она не обязательно заслуживает доверия. Мы вернулись к началу, чтобы понять ограничения существующих подходов, и использовали их в качестве отправной точки для разработки дополнительного метода, который может эмпирически улучшить результаты», — говорит Кимия Хамидие, студентка магистратуры в области электротехники и информатики (EECS) в MIT и ведущий автор статьи об этом методе.

Она работает над статьёй вместе с Вероникой Тост, научным сотрудником в лаборатории MIT-IBM Watson AI Lab; Уолтером Герихом, бывшим постдоком в MIT, который сейчас является доцентом в Политехническом институте Уорчестера; Михаилом Юрочкиным, научным сотрудником в лаборатории MIT-IBM Watson AI Lab; и старшим автором Марзие Гассеми, доцентом в EECS и членом Института медицинских инженерных наук и Лаборатории информационных и системных решений.

Понимание чрезмерной уверенности

Многие популярные методы количественной оценки неопределённости включают запрос у модели оценки уверенности или проверку согласованности её ответов на один и тот же запрос. Эти методы оценивают алеаторную неопределённость, или то, насколько модель внутренне уверена в своём прогнозе.

Однако LLM могут быть уверены, когда они полностью неправы. Исследования показали, что эпистемическая неопределённость, или неуверенность в том, используется ли правильная модель, может быть лучшим способом оценки истинной неопределённости, когда модель чрезмерно уверена.

Исследователи из MIT оценивают эпистемическую неопределённость, измеряя разногласия в группе похожих LLM.

«Если я задам ChatGPT один и тот же вопрос несколько раз, и он будет давать мне один и тот же ответ снова и снова, это не значит, что ответ обязательно правильный. Если я переключусь на Claude или Gemini и задам им тот же вопрос, и получу другой ответ, это даст мне представление об эпистемической неопределённости», — объясняет Хамидие.

Эпистемическая неопределённость пытается отразить, насколько целевая модель отличается от идеальной модели для этой задачи. Но поскольку невозможно построить идеальную модель, исследователи используют суррогаты или приближения, которые часто основаны на ошибочных предположениях.

Чтобы улучшить количественную оценку неопределённости, исследователи из MIT разработали более точный способ оценки эпистемической неопределённости.

Ансамблевый подход

Метод, который они разработали, включает измерение расхождения между целевой моделью и небольшим ансамблем моделей аналогичного размера и архитектуры. Они обнаружили, что сравнение семантического сходства, или того, насколько близко совпадают значения ответов, может дать более точную оценку эпистемической неопределённости.

Чтобы получить наиболее точную оценку, исследователям нужен был набор LLM, которые охватывали бы разнообразные ответы, не были бы слишком похожи на целевую модель и были бы взвешены на основе достоверности.

«Мы обнаружили, что самый простой способ удовлетворить всем этим свойствам — это взять модели, обученные разными компаниями. Мы пробовали множество различных подходов, которые были более сложными, но этот простой подход оказался лучшим», — говорит Хамидие.

Как только они разработали этот метод оценки эпистемической неопределённости, они объединили его со стандартным подходом, который измеряет алеаторную неопределённость. Этот общий показатель неопределённости (TU) предложил наиболее точную оценку того, насколько уровень уверенности модели заслуживает доверия.

«Неопределённость зависит от неопределённости данного запроса, а также от того, насколько близка наша модель к оптимальной модели. Поэтому суммирование этих двух показателей неопределённости даст нам наилучшую оценку», — говорит Хамидие.

TU может более эффективно выявлять ситуации, когда LLM выдаёт галлюцинации, поскольку эпистемическая неопределённость может отмечать уверенно неверные выходные данные, которые алеаторная неопределённость может пропустить. Это также может позволить исследователям подкреплять уверенно правильные ответы LLM во время обучения, что может повысить производительность.

Они протестировали TU, используя несколько LLM для 10 общих задач, таких как ответы на вопросы, обобщение, перевод и математические рассуждения. Их метод более эффективно выявлял ненадёжные прогнозы, чем любой показатель по отдельности.

Измерение общей неопределённости часто требовало меньшего количества запросов, чем расчёт алеаторной неопределённости, что могло снизить вычислительные затраты и сэкономить энергию.

Их эксперименты также показали, что эпистемическая неопределённость наиболее эффективна в задачах с уникальным правильным ответом, таких как фактические ответы на вопросы, но может работать неэффективно в более открытых задачах.

В будущем исследователи могут адаптировать свою технику, чтобы улучшить её производительность в открытых запросах. Они также могут развить эту работу, исследуя другие формы алеаторной неопределённости.

Эта работа частично финансируется лабораторией MIT-IBM Watson AI Lab.

1. Какие проблемы решает использование генеративных моделей искусственного интеллекта в контексте беспроводной системы видения?

Ответ: использование генеративных моделей искусственного интеллекта позволяет преодолеть узкое место, ограничивавшее точность предыдущих подходов, и получить более точные реконструкции формы скрытых объектов. Это улучшает способность роботов надёжно захватывать и манипулировать объектами, которые закрыты от взгляда.

2. Каким образом исследователи адаптировали изображения в больших наборах данных компьютерного зрения для обучения генеративной модели искусственного интеллекта?

Ответ: исследователи адаптировали изображения в больших наборах данных компьютерного зрения, чтобы имитировать свойства отражений mmWave. Они встраивают физику отражений mmWave непосредственно в эти адаптированные данные, создавая синтетический набор данных, который они используют для обучения генеративной модели искусственного интеллекта для выполнения правдоподобной реконструкции формы.

3. Какие методы количественной оценки неопределённости были разработаны исследователями из MIT для проверки надёжности прогнозов больших языковых моделей (LLMs)?

Ответ: исследователи из MIT разработали методы количественной оценки неопределённости, которые включают сравнение ответа целевой модели с ответами группы похожих LLM. Они обнаружили, что измерение межмодельного несогласия более точно фиксирует этот тип неопределённости, чем традиционные подходы. Они также объединили свой подход с мерой самосогласованности LLM, чтобы создать общий показатель неопределённости.

4. Какие преимущества предлагает общий показатель неопределённости (TU) по сравнению с другими показателями?

Ответ: общий показатель неопределённости (TU) предлагает более точную оценку того, насколько уровень уверенности модели заслуживает доверия. Он может более эффективно выявлять ситуации, когда LLM выдаёт галлюцинации, поскольку эпистемическая неопределённость может отмечать уверенно неверные выходные данные, которые алеаторная неопределённость может пропустить.

5. Какие задачи были использованы для тестирования TU и какие результаты были получены?

Ответ: TU был протестирован, используя несколько LLM для 10 общих задач, таких как ответы на вопросы, обобщение, перевод и математические рассуждения. Их метод более эффективно выявлял ненадёжные прогнозы, чем любой показатель по отдельности.

Источник