Внедрение новых инструментов и технологий происходит, когда пользователи в значительной степени воспринимают их как надёжные, доступные и более совершенные по сравнению с имеющимися методами и рабочими процессами при данной стоимости.
Пять аспирантов из первого набора летней программы MIT-IBM Watson AI Lab используют современные ресурсы, устраняя болевые точки искусственного интеллекта (ИИ) и создавая новые функции и возможности для повышения полезности ИИ и его внедрения. Они работают над тем, чтобы научиться доверять моделям, которые предсказывают точность других, и более эффективно работать с базами знаний.
Обучение доверию
Выпускник математического факультета MIT Андрей Брюткин в своих исследованиях уделяет особое внимание надёжности моделей. Он ищет внутренние структуры в задачах, такие как уравнения, управляющие системой, и законы сохранения, чтобы понять, как использовать их для получения более надёжных и устойчивых решений.
Вместе с Вероникой Тост из IBM Research и Марзие Гасеми — доцентом и профессором развития карьеры в Массачусетском технологическом институте (MIT) на факультете электротехники и информатики (EECS) и членом Института медицинских инженерных наук и Лаборатории информационных систем и принятия решений — Брюткин исследовал «неопределённость неопределённости» больших обучающих моделей (LLM).
Классически для этого используются небольшие нейронные сети с прямой связью глубиной от двух до трёх слоёв, называемые зондами. Они обучаются вместе с LLM и используются для оповещения разработчиков о ненадёжных ответах от более крупной модели. Однако эти классификаторы также могут выдавать ложные отрицательные результаты и предоставляют только точечные оценки, которые не дают много информации о том, когда LLM терпит неудачу.
Исследуя безопасные/ненадёжные запросы и задачи с вопросами и ответами, команда MIT-IBM использовала пары меток запросов, а также скрытые состояния, такие как векторы активации и последние токены из LLM, для измерения градиентных оценок, чувствительности к запросам и данных вне распределения, чтобы определить, насколько надёжен зонд, и изучить области данных, которые трудно предсказать. Их метод также помогает выявить потенциальный шум при маркировке. Это критически важная функция, поскольку надёжность систем ИИ полностью зависит от качества и точности размеченных данных, на которых они основаны.
Более точные и согласованные зонды особенно важны для областей с критически важными данными в таких приложениях, как семейство моделей IBM Granite Guardian.
Ещё один способ обеспечить надёжные ответы на запросы от LLM — дополнить их внешними доверенными базами знаний, чтобы устранить галлюцинации. Для структурированных данных, таких как связи в социальных сетях, финансовые транзакции или корпоративные базы данных, естественным решением являются графы знаний (KG). Однако взаимодействие между LLM и KG часто использует фиксированные многоагентные конвейеры, которые вычислительно неэффективны и дороги.
Эффективное использование вычислений
Своевременность и полнота ответа модели имеют такое же значение, как и важность её точности. Это особенно актуально для обработки длинных входных текстов, где элементы, такие как субъект истории, развиваются со временем. Поэтому аспирант EECS Сонглин Ян перестраивает то, что модели могут обрабатывать на каждом этапе логического вывода.
Сосредоточившись на ограничениях трансформеров, таких как в LLM, исследователи лаборатории Рамешвар Панда из IBM Research и Юн Ким, профессор NBX и доцент EECS, присоединились к Яну для разработки языковых моделей нового поколения за пределами трансформеров.
Трансформеры сталкиваются с двумя ключевыми ограничениями: высокой вычислительной сложностью при моделировании длинных последовательностей из-за механизма мягкого внимания и ограниченной выразительностью из-за слабого индуктивного смещения RoPE (вращающееся позиционное кодирование). Это означает, что при удвоении длины входных данных вычислительные затраты увеличиваются в четыре раза.
Чтобы решить эту проблему, команда MIT-IBM исследовала теоретически обоснованные, но аппаратно-эффективные алгоритмы. В качестве альтернативы мягкому вниманию они использовали линейное внимание, снижая квадратичную сложность, ограничивающую допустимую длину последовательности. Они также исследовали гибридные архитектуры, сочетающие мягкое и линейное внимание, чтобы найти лучший баланс между вычислительной эффективностью и производительностью.
Новые горизонты
Визуальные данные содержат множество элементов, которые человеческий мозг может быстро анализировать, усваивать и затем имитировать. Используя модели зрения и языка (VLM), два аспиранта исследуют способы сделать это с помощью кода.
За последние два лета под руководством Оды Олива, директора MIT-IBM Watson AI Lab и старшего научного сотрудника лаборатории компьютерных наук и искусственного интеллекта; и исследователей IBM Research Рожерио Фериса, Дана Гутфрунда и Леонида Карлинского (ныне в Xero), Йована Кондич из EECS исследовала понимание визуальных документов, особенно диаграмм.
Вместо диаграмм аспирант EECS Леонардо Эрнандес Кано занимается цифровым дизайном, в частности генерацией визуальных текстур для приложений CAD. Его цель — найти эффективные способы реализации этих возможностей в VLM.
Объединив эти проекты и людей, стоящих за ними, мы делаем согласованный шаг к более надёжному и практическому искусственному интеллекту. Решая основные задачи надёжности, эффективности и мультимодального мышления, работа прокладывает путь для систем ИИ, которые не только более мощные, но и более надёжные и экономически эффективные для реальных предприятий и научных приложений.
1. Какие методы используются для повышения надёжности ответов больших обучающих моделей (LLM)?
В статье упоминается использование небольших нейронных сетей с прямой связью глубиной от двух до трёх слоёв, называемых зондами. Они обучаются вместе с LLM и используются для оповещения разработчиков о ненадёжных ответах от более крупной модели. Однако эти классификаторы также могут выдавать ложные отрицательные результаты и предоставляют только точечные оценки.
Также для измерения надёжности зонда и изучения областей данных, которые трудно предсказать, команда MIT-IBM использовала пары меток запросов, скрытые состояния, такие как векторы активации и последние токены из LLM, для измерения градиентных оценок, чувствительности к запросам и данных вне распределения.
2. Какие ограничения трансформеров рассматриваются в статье и как они влияют на вычислительную сложность моделей?
Трансформеры сталкиваются с двумя ключевыми ограничениями: высокой вычислительной сложностью при моделировании длинных последовательностей из-за механизма мягкого внимания и ограниченной выразительностью из-за слабого индуктивного смещения RoPE (вращающееся позиционное кодирование). Это означает, что при удвоении длины входных данных вычислительные затраты увеличиваются в четыре раза.
3. Какие новые подходы к обработке визуальных данных исследуются в статье?
В статье упоминается, что два аспиранта исследуют способы анализа визуальных данных с помощью кода. За последние два лета под руководством Оды Олива, директора MIT-IBM Watson AI Lab и старшего научного сотрудника лаборатории компьютерных наук и искусственного интеллекта, и исследователей IBM Research Рожерио Фериса, Дана Гутфрунда и Леонида Карлинского (ныне в Xero), Йован Кондич из EECS исследовала понимание визуальных документов, особенно диаграмм.
Вместо диаграмм аспирант EECS Леонардо Эрнандес Кано занимается цифровым дизайном, в частности генерацией визуальных текстур для приложений CAD. Его цель — найти эффективные способы реализации этих возможностей в VLM (моделях зрения и языка).
4. Какие цели преследуют исследователи при разработке новых языковых моделей за пределами трансформеров?
Исследователи лаборатории Рамешвар Панда из IBM Research и Юн Ким, профессор NBX и доцент EECS, присоединились к аспиранту EECS Сонглину Яну для разработки языковых моделей нового поколения за пределами трансформеров. Целью является преодоление ограничений трансформеров, таких как высокая вычислительная сложность при моделировании длинных последовательностей и ограниченная выразительность из-за слабого индуктивного смещения RoPE.
5. Какие проблемы решает работа над надёжностью, эффективностью и мультимодальным мышлением в контексте искусственного интеллекта?
Работа над надёжностью, эффективностью и мультимодальным мышлением решает основные задачи для систем ИИ, которые не только более мощные, но и более надёжные и экономически эффективные для реальных предприятий и научных приложений. Это включает в себя устранение галлюцинаций при использовании внешних доверенных баз знаний, снижение вычислительной сложности при обработке длинных последовательностей и разработку новых подходов к обработке визуальных данных.