Компания Zhipu AI открыла исходный код серии GLM-4.6V — это языковые модели для работы с изображениями, которые обрабатывают изображения, видео и инструменты как входные данные первого уровня для агентов, а не как дополнительные элементы, добавленные поверх текста.
Линейка моделей и длина контекста
Серия включает 2 модели:
* GLM-4.6V — базовая модель с 106 миллиардами параметров для облачных и высокопроизводительных кластерных рабочих нагрузок.
* GLM-4.6V-Flash — вариант с 9 миллиардами параметров, настроенный для локального развёртывания и использования с низкой задержкой.
GLM-4.6V расширяет окно обучения до 128 тысяч токенов. На практике это поддерживает примерно 150 страниц плотных документов, 200 слайдов или один час видео за один проход, поскольку страницы кодируются как изображения и обрабатываются визуальным кодировщиком.
Нативное мультимодальное использование инструментов
Основное техническое изменение — нативное мультимодальное использование функций. Традиционное использование инструментов в системах LLM направляет всё через текст. Изображения или страницы сначала преобразуются в описания, модель вызывает инструменты, используя текстовые аргументы, а затем считывает текстовые ответы. Это приводит к потере информации и увеличению задержки.
GLM-4.6V вводит нативное мультимодальное использование функций. Изображения, скриншоты и страницы документов передаются напрямую в качестве параметров инструмента. Инструменты могут возвращать таблицы результатов поиска, диаграммы, визуализированные веб-страницы или изображения продуктов. Модель использует эти визуальные данные и объединяет их с текстом в одной цепочке рассуждений. Это замыкает цикл от восприятия к пониманию и выполнению и позиционируется как мост между визуальным восприятием и исполняемыми действиями для мультимодальных агентов.
Для поддержки этого Zhipu AI расширяет протокол контекста модели с помощью обработки мультимедиа на основе URL. Инструменты получают и возвращают URL-адреса, которые идентифицируют конкретные изображения или кадры, что позволяет избежать ограничений по размеру файлов и обеспечивает точный выбор в контексте с несколькими изображениями.
Богатое текстовое содержимое, веб-поиск и репликация интерфейса
Исследовательская группа Zhipu AI описывает 4 канонических сценария:
1. Понимание и создание богатого текстового содержимого. GLM-4.6V считывает смешанные входные данные, такие как документы, отчёты или слайд-деки, и создаёт структурированные выходные данные с чередованием текста и изображений. Он понимает текст, диаграммы, рисунки, таблицы и формулы в одном документе. Во время генерации он может обрезать соответствующие визуальные элементы или извлекать внешние изображения с помощью инструментов, а затем выполнять визуальный аудит, который фильтрует изображения низкого качества и составляет окончательную статью с встроенными рисунками.
2. Визуальный веб-поиск. Модель может определять намерения пользователя, планировать, какие инструменты поиска вызывать, и комбинировать поиск по тексту и изображениям. Затем она сопоставляет извлечённые изображения и текст, выбирает соответствующие доказательства и выводит структурированный ответ, например, визуальное сравнение продуктов или мест.
3. Репликация интерфейса и визуальное взаимодействие. GLM-4.6V настроен для разработки рабочих процессов. По скриншоту пользовательского интерфейса он воссоздаёт HTML, CSS и JavaScript с точностью до пикселя. Разработчики могут отметить область на скриншоте и дать инструкции на естественном языке, например, переместить кнопку влево или изменить фон карточки. Модель сопоставляет эти инструкции с кодом и возвращает обновлённый фрагмент.
4. Мультимодальное понимание документов в длинном контексте. GLM-4.6V может считывать входные данные из нескольких документов до предела контекста в 128 тысяч токенов, обрабатывая страницы как изображения. Исследовательская группа сообщает о случае, когда модель обрабатывает финансовые отчёты четырёх публичных компаний, извлекает основные показатели и составляет сравнительную таблицу, а также о случае, когда она суммирует полный футбольный матч, сохраняя при этом возможность отвечать на вопросы о конкретных голах и временных метках.
Архитектура, данные и обучение с подкреплением
Модели GLM-4.6V принадлежат к семейству GLM-V и основаны на техническом отчёте по GLM-4.5V и GLM-4.1V-Thinking. Исследовательская группа выделяет три основных технических компонента:
1. Моделирование длинных последовательностей. GLM-4.6V расширяет окно обучения до 128 тысяч токенов и проводит непрерывное предварительное обучение на массивах данных с длинными контекстами. Он использует идеи выравнивания сжатия из Glyph, чтобы визуальные токены могли нести плотную информацию, которая согласуется с языковыми токенами.
2. Улучшение мировых знаний. Команда Zhipu AI добавляет набор данных о мультимодальном восприятии и мировых знаниях в миллиардном масштабе на этапе предварительного обучения. Это охватывает многоуровневые энциклопедические концепции и повседневные визуальные объекты. Заявленная цель — улучшить как базовое восприятие, так и полноту ответов на межмодальные вопросы, а не только тесты.
3. Агентский синтез данных и расширенный MCP. Исследовательская группа генерирует большие синтетические трассировки, в которых модель вызывает инструменты, обрабатывает визуальные выходные данные и выполняет итерации по планам. Они расширяют MCP с помощью обработки мультимедиа на основе URL и механизма чередования выходных данных. Стек генерации следует последовательности «Черновик, выбор изображения, окончательная полировка». Модель может автономно вызывать инструменты обрезки или поиска между этими этапами, чтобы размещать изображения в нужных позициях в выходных данных.
Вызов инструмента является частью цели обучения с подкреплением. GLM-4.6V использует RL для согласования планирования, следования инструкциям и соблюдения формата в сложных цепочках инструментов.
Производительность
https://z.ai/blog/glm-4.6v
Ключевые выводы:
* GLM-4.6V — это мультимодальная базовая модель с 106 миллиардами параметров и контекстом обучения 128 тысяч токенов, а GLM-4.6V-Flash — это вариант с 9 миллиардами параметров, оптимизированный для локального использования и использования с низкой задержкой.
* Обе модели поддерживают нативное мультимодальное использование функций, поэтому инструменты могут напрямую использовать и возвращать изображения, видеокадры и страницы документов, что связывает визуальное восприятие с исполняемыми действиями для агентов.
* GLM-4.6V обучен для мультимодального понимания в длинном контексте и чередующейся генерации, поэтому он может читать большие наборы смешанных документов и выдавать структурированный текст со встроенными рисунками и изображениями, выбранными с помощью инструментов, за один проход.
Серия достигает передовых показателей на основных мультимодальных бенчмарках при аналогичных масштабах параметров и выпущена в виде открытого исходного кода с лицензией MIT на Hugging Face и ModelScope.
Ознакомьтесь с карточкой модели на HF и техническими деталями. Не стесняйтесь проверить нашу страницу GitHub для руководств, кодов и ноутбуков. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку. Подождите! Вы в Telegram? Теперь вы можете присоединиться к нам и там.
Статья «Zhipu AI выпускает GLM-4.6V: языковая модель для работы с изображениями и инструментами с контекстом 128K» впервые опубликована на MarkTechPost.
1. Какие основные технические изменения были внесены в модель GLM-4.6V по сравнению с традиционными системами LLM?
В традиционных системах LLM всё направляется через текст: изображения или страницы сначала преобразуются в описания, модель вызывает инструменты, используя текстовые аргументы, а затем считывает текстовые ответы. Это приводит к потере информации и увеличению задержки. GLM-4.6V вводит нативное мультимодальное использование функций. Изображения, скриншоты и страницы документов передаются напрямую в качестве параметров инструмента.
2. Какие сценарии использования описывает исследовательская группа Zhipu AI для GLM-4.6V?
Исследовательская группа Zhipu AI описывает 4 канонических сценария:
* Понимание и создание богатого текстового содержимого.
* Визуальный веб-поиск.
* Репликация интерфейса и визуальное взаимодействие.
* Мультимодальное понимание документов в длинном контексте.
3. Какие параметры отличают модели GLM-4.6V и GLM-4.6V-Flash?
GLM-4.6V — это базовая модель с 106 миллиардами параметров для облачных и высокопроизводительных кластерных рабочих нагрузок. GLM-4.6V-Flash — это вариант с 9 миллиардами параметров, настроенный для локального развёртывания и использования с низкой задержкой.
4. Какие технические компоненты выделяют исследователи для GLM-4.6V?
Исследовательская группа выделяет три основных технических компонента:
* Моделирование длинных последовательностей.
* Улучшение мировых знаний.
* Агентский синтез данных и расширенный MCP.
5. Какие цели преследует обучение с подкреплением для GLM-4.6V?
GLM-4.6V использует RL для согласования планирования, следования инструкциям и соблюдения формата в сложных цепочках инструментов. Это помогает модели согласовывать планирование, следовать инструкциям и соблюдать формат в сложных цепочках инструментов.