Google DeepMind выпускает процессоры GenAI: лёгкая библиотека Python для эффективной и параллельной обработки контента

Компания Google DeepMind недавно выпустила процессоры GenAI — лёгкую библиотеку Python с открытым исходным кодом. Она упрощает организацию рабочих процессов генеративного искусственного интеллекта, особенно тех, которые связаны с обработкой мультимедийного контента в режиме реального времени. Библиотека доступна с прошлой недели под лицензией Apache 2.0. Она предоставляет высокопроизводительную асинхронную потоковую структуру для создания сложных конвейеров искусственного интеллекта.

Потоковая архитектура

В основе GenAI Processors лежит концепция обработки асинхронных потоков объектов ProcessorPart. Эти части представляют собой отдельные фрагменты данных — текст, аудио, изображения или JSON, — каждый из которых содержит метаданные. Стандартизация входов и выходов в согласованный поток частей позволяет легко объединять, комбинировать или разветвлять компоненты обработки, сохраняя двунаправленный поток.

Внутренне использование Python’s asyncio позволяет каждому элементу конвейера работать одновременно, что значительно снижает задержки и повышает общую производительность.

Эффективный параллелизм

GenAI Processors оптимизирует задержки, минимизируя «время до первого токена» (TTFT). Как только компоненты, расположенные выше по потоку, создают фрагменты потока, компоненты, расположенные ниже по потоку, начинают работу. Такое конвейерное выполнение гарантирует, что операции, включая вывод модели, перекрываются и выполняются параллельно, обеспечивая эффективное использование системных и сетевых ресурсов.

Интеграция Gemini Plug-and-Play

Библиотека поставляется с готовыми коннекторами для API Google Gemini, включая синхронные текстовые вызовы и Gemini Live API для потоковых приложений. Эти «процессоры моделей» абстрагируют сложность пакетной обработки, управления контекстом и потоковой передачи ввода-вывода, что позволяет быстро создавать прототипы интерактивных систем — таких как агенты для живых комментариев, мультимодальные помощники или исследовательские инструменты с дополнениями.

Модульные компоненты и расширения

GenAI Processors отдаёт приоритет модульности. Разработчики создают повторно используемые блоки — процессоры, — каждый из которых инкапсулирует определённую операцию, от преобразования MIME-типов до условной маршрутизации. Каталог contrib/ поощряет расширение сообщества для добавления пользовательских функций, что способствует дальнейшему обогащению экосистемы.

Блокноты и примеры использования в реальных условиях

В репозиторий включены практические примеры, демонстрирующие ключевые варианты использования:
* Агент в реальном времени: соединяет аудиовход с Gemini и (при необходимости) с таким инструментом, как веб-поиск, потоковая передача аудиовыхода — всё в режиме реального времени.
* Агент по исследованию: организует сбор данных, запросы к LLM и динамическое обобщение последовательно.
* Агент для живых комментариев: сочетает обнаружение событий с созданием повествований, демонстрируя, как разные процессоры синхронизируются для создания потоковых комментариев.

Эти примеры, представленные в виде блокнотов Jupyter, служат в качестве шаблонов для инженеров, создающих отзывчивые системы искусственного интеллекта.

Сравнение и роль в экосистеме

GenAI Processors дополняет такие инструменты, как google-genai SDK (клиент Python для GenAI) и Vertex AI, но повышает эффективность разработки, предлагая структурированный уровень оркестровки, ориентированный на потоковые возможности. В отличие от LangChain, который ориентирован в первую очередь на объединение LLM, или NeMo, который создаёт нейронные компоненты, GenAI Processors превосходно справляется с управлением потоковыми данными и эффективной координацией асинхронного взаимодействия моделей.

Более широкий контекст: возможности Gemini

GenAI Processors использует сильные стороны Gemini. Gemini, мультимодальная большая языковая модель DeepMind, поддерживает обработку текста, изображений, аудио и видео. GenAI Processors позволяет разработчикам создавать конвейеры, соответствующие мультимодальным навыкам Gemini, обеспечивая низкую задержку и интерактивность искусственного интеллекта.

Meta AI представляет UMA (Universal Models for Atoms): семейство универсальных моделей для атомов

Density Functional Theory (DFT) служит основой современной вычислительной химии и материаловедения. Однако высокая вычислительная стоимость серьёзно ограничивает её использование. Machine Learning Interatomic Potentials (MLIPs) могут приблизиться к точности DFT, значительно улучшая производительность, сокращая время вычислений с часов до менее чем секунды с O(n) по сравнению с O(n³) масштабированием.

Однако обучение MLIPs, которые обобщаются для различных химических задач, остаётся сложной задачей, поскольку традиционные методы основаны на меньших наборах данных, специфичных для конкретной задачи, вместо использования преимуществ масштабирования, которые привели к значительным достижениям в языковых и визуальных моделях.

Существующие попытки решения этих проблем

Существующие попытки решения этих проблем сосредоточены на разработке универсальных MLIPs, обученных на больших наборах данных, таких как Alexandria и OMat24, что привело к повышению производительности в рейтинге Matbench-Discovery.

Исследователи изучили масштабные зависимости для понимания взаимосвязей между вычислениями, данными и размером модели, взяв за основу эмпирические масштабные законы в LLM, которые мотивировали обучение на большем количестве токенов с более крупными моделями для предсказуемого повышения производительности. Эти масштабные зависимости помогают определить оптимальное распределение ресурсов между набором данных и размером модели. Однако их применение к MLIPs остаётся ограниченным по сравнению с преобразующим воздействием, наблюдаемым в языковом моделировании.

Семейство универсальных моделей для атомов (UMA)

Исследователи из FAIR в Meta и Университета Карнеги-Меллона предложили семейство универсальных моделей для атомов (UMA), предназначенных для проверки пределов точности, скорости и обобщения для единой модели в химии и материаловедении.

Архитектура UMA основана на eSEN, эквивариантной графовой нейронной сети, с важными модификациями для обеспечения эффективного масштабирования и обработки дополнительных входных данных, включая общий заряд, спин и настройки DFT для эмуляции. Она также включает новое встраивание, которое позволяет моделям UMA интегрировать задачи, связанные с зарядом, спином и DFT.

Каждый из этих входов генерирует встраивание той же размерности, что и используемые сферические каналы. Обучение проводится в два этапа: на первом этапе напрямую прогнозируются силы для более быстрого обучения, а на втором этапе удаляется силовая головка и производится точная настройка модели для прогнозирования сохранения сил и напряжений с помощью auto-grad, обеспечивая сохранение энергии и плавные потенциальные энергетические ландшафты.

Результаты показывают, что модели UMA демонстрируют логарифмически-линейное масштабирование в протестированных диапазонах FLOP. Это указывает на то, что для соответствия набору данных UMA требуется большая ёмкость модели. Эти масштабные зависимости используются для выбора точных размеров моделей и демонстрируют преимущества MoLE перед плотными архитектурами.

В многозадачном обучении наблюдается значительное улучшение потерь при переходе от 1 эксперта к 8 экспертам, меньшие выигрыши при 32 экспертах и незначительные улучшения при 128 экспертах. Модели UMA демонстрируют исключительную эффективность вывода, несмотря на большое количество параметров.

В заключение исследователи представили семейство универсальных моделей для атомов (UMA), которое демонстрирует высокие результаты по широкому спектру тестов, включая материалы, молекулы, катализаторы, молекулярные кристаллы и металлоорганические каркасы. Оно достигает новых передовых результатов на установленных тестах, таких как AdsorbML и Matbench Discovery. Однако оно не справляется с дальнодействующими взаимодействиями из-за стандартного расстояния отсечки 6Å.

Модели UMA используют отдельные встраивания для дискретных значений заряда или спина, что ограничивает обобщение для невидимых зарядов или спинов. Будущие исследования направлены на продвижение к универсальным MLIPs и открытию новых возможностей в атомном моделировании, подчёркивая необходимость более сложных тестов для стимулирования будущего прогресса.

1. Какие преимущества предлагает библиотека GenAI Processors разработчикам, работающим с генеративным искусственным интеллектом?

Ответ: GenAI Processors упрощает организацию рабочих процессов генеративного искусственного интеллекта, особенно тех, которые связаны с обработкой мультимедийного контента в режиме реального времени. Она предоставляет высокопроизводительную асинхронную потоковую структуру для создания сложных конвейеров искусственного интеллекта.

2. Какие особенности потоковой архитектуры GenAI Processors способствуют повышению производительности?

Ответ: В основе GenAI Processors лежит концепция обработки асинхронных потоков объектов ProcessorPart. Внутренне использование Python’s asyncio позволяет каждому элементу конвейера работать одновременно, что значительно снижает задержки и повышает общую производительность.

3. Как библиотека GenAI Processors интегрируется с API Google Gemini и какие возможности это предоставляет разработчикам?

Ответ: Библиотека поставляется с готовыми коннекторами для API Google Gemini, включая синхронные текстовые вызовы и Gemini Live API для потоковых приложений. Эти «процессоры моделей» абстрагируют сложность пакетной обработки, управления контекстом и потоковой передачи ввода-вывода, что позволяет быстро создавать прототипы интерактивных систем.

4. Какие примеры использования GenAI Processors приведены в статье и как они демонстрируют возможности библиотеки?

Ответ: В репозиторий включены практические примеры, демонстрирующие ключевые варианты использования: агент в реальном времени, агент по исследованию, агент для живых комментариев. Эти примеры, представленные в виде блокнотов Jupyter, служат в качестве шаблонов для инженеров, создающих отзывчивые системы искусственного интеллекта.

5. Какие проблемы решает семейство универсальных моделей для атомов (UMA) и как оно работает?

Ответ: Семейство универсальных моделей для атомов (UMA) предназначено для проверки пределов точности, скорости и обобщения для единой модели в химии и материаловедении. Архитектура UMA основана на eSEN, эквивариантной графовой нейронной сети, с важными модификациями для обеспечения эффективного масштабирования и обработки дополнительных входных данных. Обучение проводится в два этапа: на первом этапе напрямую прогнозируются силы для более быстрого обучения, а на втором этапе удаляется силовая головка и производится точная настройка модели для прогнозирования сохранения сил и напряжений. Результаты показывают, что модели UMA демонстрируют логарифмически-линейное масштабирование в протестированных диапазонах FLOP.

Источник