Институт Аллена для искусственного интеллекта (AI2) представляет Olmo 3: семейство больших языковых моделей с 7 и 32 миллиардами параметров

Институт Аллена для искусственного интеллекта (AI2) выпускает Olmo 3 в качестве полностью открытой модели, которая раскрывает весь «поток модели» — от необработанных данных и кода до промежуточных контрольных точек и вариантов, готовых к развёртыванию.

Olmo 3 — это набор плотных трансформеров с моделями на 7 миллиардов и 32 миллиарда параметров. В семейство входят Olmo 3-Base, Olmo 3-Think, Olmo 3-Instruct и Olmo 3-RL Zero. Оба варианта (7 миллиардов и 32 миллиарда параметров) имеют одинаковую длину контекста — 65 536 токенов и используют один и тот же поэтапный рецепт обучения.

Как устроено обучение Olmo 3

В основе конвейера обучения лежит Dolma 3 — новый набор данных, разработанный для Olmo 3. Dolma 3 состоит из Dolma 3 Mix, Dolma 3 Dolmino Mix и Dolma 3 Longmino Mix. Dolma 3 Mix — это набор данных для предварительного обучения объёмом 5,9 триллиона токенов, включающий веб-тексты, научные PDF-файлы, репозитории кода и другие естественные данные. Наборы Dolmino и Longmino созданы на основе отфильтрованных фрагментов этого пула более высокого качества.

Dolma 3 Mix поддерживает основной этап предварительного обучения для Olmo 3-Base. Затем исследовательская группа AI2 применяет Dolma 3 Dolmino Mix, набор данных для среднего обучения объёмом 100 миллиардов токенов, в котором особое внимание уделяется математике, коду, выполнению инструкций, пониманию прочитанного и задачам, ориентированным на мышление. Наконец, Dolma 3 Longmino Mix добавляет 50 миллиардов токенов для модели на 7 миллиардов параметров и 100 миллиардов токенов для модели на 32 миллиарда параметров, уделяя особое внимание длинным документам и научным PDF-файлам, обработанным с помощью конвейера olmOCR.

Обучение на крупных кластерах

Olmo 3-Base 7B обучается на Dolma 3 Mix с использованием 1024 устройств H100, достигая примерно 7700 токенов в секунду на устройство. На последующих этапах используются 128 H100 для среднего обучения Dolmino и 256 H100 для расширения длинного контекста Longmino.

Сравнение с открытыми семействами моделей

По стандартным бенчмаркам возможностей Olmo 3-Base 32B позиционируется как ведущая полностью открытая базовая модель. Исследовательская группа AI2 сообщает, что она конкурентоспособна с такими известными открытыми семействами весов, как Qwen 2.5 и Gemma 3, при аналогичных размерах.

Meta AI выпускает модель сегментации «всё что угодно» 3 (SAM 3) для сегментации концепций по запросам в изображениях и видео

Команда Meta AI только что выпустила Meta Segment Anything Model 3 (SAM 3) — унифицированную модель фундамента для сегментации по запросам в изображениях и видео, работающую напрямую с визуальными концепциями, а не только с пикселями. Она обнаруживает, сегментирует и отслеживает объекты как по текстовым запросам, так и по визуальным запросам, таким как точки, рамки и маски.

От визуальных запросов к сегментации по запросам концепций

Более ранние модели SAM были ориентированы на интерактивную сегментацию. Пользователь щёлкал или рисовал рамку, и модель создавала одну маску. Такой рабочий процесс не подходил для задач, где система должна найти все экземпляры концепции в больших коллекциях изображений или видео.

SAM 3 формализует сегментацию по запросам концепций (PCS), которая принимает текстовые запросы и возвращает маски экземпляров и стабильные идентификаторы для каждого соответствующего объекта на изображениях и видео.

Архитектура, токен присутствия и дизайн отслеживания

Модель SAM 3 имеет 848 миллионов параметров и состоит из детектора и трекера, которые используют один и тот же визуальный кодировщик. Детектор основан на архитектуре DETR и обусловлен тремя входами: текстовыми запросами, геометрическими запросами и изображениями-экземплярами.

Ключевое изменение в SAM 3 — это токен присутствия. Этот компонент предсказывает, соответствует ли каждый кандидат (коробка или маска) запрашиваемой концепции. Это особенно важно, когда текстовые запросы описывают связанные сущности, например «игрок в белом» и «игрок в красном». Токен присутствия уменьшает путаницу между такими запросами и повышает точность открытого словаря.

Набор данных и набор тестов SA-Co

Для обучения и оценки сегментации по запросам концепций (PCS) Meta представляет семейство наборов данных и тестов SA-Co. Набор тестов SA-Co содержит 270 тысяч уникальных концепций, что более чем в 50 раз превышает количество концепций в предыдущих тестах сегментации с открытым словарём.

Производительность в изображениях и видео

На тестах изображений SA-Co SAM 3 достигает от 75 до 80 процентов производительности человека, измеренной с помощью метрики cgF1. Конкурирующие системы, такие как OWLv2, DINO-X и Gemini 2.5, значительно отстают.

В видео SAM 3 оценивается на SA-V, YT-Temporal 1B, SmartGlasses, LVVIS и BURST. На тесте SA-V он достигает 30,3 cgF1 и 58,0 pHOTA. На YT-Temporal 1B — 50,8 cgF1 и 69,9 pHOTA. На SmartGlasses — 36,4 cgF1 и 63,6 pHOTA, а на LVVIS и BURST — 36,3 mAP и 44,5 HOTA соответственно.

SAM 3 как возможность для платформ аннотаций данных

Для платформ, ориентированных на данные, таких как Encord, SAM 3 является естественным следующим шагом после их существующей интеграции SAM и SAM 2 для автоматической маркировки и отслеживания видео.

1. Какие особенности и параметры отличают модели Olmo 3 от других открытых семейств моделей?

В статье указано, что Olmo 3-Base 32B позиционируется как ведущая полностью открытая базовая модель. Исследовательская группа AI2 сообщает, что она конкурентоспособна с такими известными открытыми семействами весов, как Qwen 2.5 и Gemma 3, при аналогичных размерах.

2. Какие данные используются для обучения модели Olmo 3 и как это влияет на её производительность?

Для обучения Olmo 3 используется набор данных Dolma 3, который состоит из Dolma 3 Mix, Dolma 3 Dolmino Mix и Dolma 3 Longmino Mix. Dolma 3 Mix — это набор данных для предварительного обучения объёмом 5,9 триллиона токенов, включающий веб-тексты, научные PDF-файлы, репозитории кода и другие естественные данные. Это позволяет модели обучаться на разнообразных данных и повышает её производительность.

3. Какие преимущества предоставляет модель SAM 3 для сегментации концепций в изображениях и видео по сравнению с предыдущими моделями?

SAM 3 формализует сегментацию по запросам концепций (PCS), которая принимает текстовые запросы и возвращает маски экземпляров и стабильные идентификаторы для каждого соответствующего объекта на изображениях и видео. Ключевое изменение в SAM 3 — это токен присутствия. Этот компонент предсказывает, соответствует ли каждый кандидат (коробка или маска) запрашиваемой концепции. Это особенно важно, когда текстовые запросы описывают связанные сущности, например «игрок в белом» и «игрок в красном». Токен присутствия уменьшает путаницу между такими запросами и повышает точность открытого словаря.

4. Какие метрики используются для оценки производительности модели SAM 3 на тестах изображений и видео?

На тестах изображений SA-Co SAM 3 достигает от 75 до 80 процентов производительности человека, измеренной с помощью метрики cgF1. В видео SAM 3 оценивается на SA-V, YT-Temporal 1B, SmartGlasses, LVVIS и BURST. На тесте SA-V он достигает 30,3 cgF1 и 58,0 pHOTA. На YT-Temporal 1B — 50,8 cgF1 и 69,9 pHOTA. На SmartGlasses — 36,4 cgF1 и 63,6 pHOTA, а на LVVIS и BURST — 36,3 mAP и 44,5 HOTA соответственно.

5. Какие возможности предоставляет модель SAM 3 для платформ аннотаций данных?

Для платформ, ориентированных на данные, таких как Encord, SAM 3 является естественным следующим шагом после их существующей интеграции SAM и SAM 2 для автоматической маркировки и отслеживания видео. Это позволяет платформам аннотаций данных использовать SAM 3 для улучшения своих инструментов и повышения эффективности работы с визуальными данными.

Источник