Microsoft выпустила модель Phi-4-Reasoning-Vision-15B

Microsoft выпустила Phi-4-Reasoning-Vision-15B — мультимодальную модель с 15 миллиардами параметров, предназначенную для решения математических, научных и интерфейсных задач. Модель сочетает в себе языковые и визуальные возможности для обработки изображений и текста.

На чём основана модель?

Phi-4-Reasoning-Vision-15B объединяет языковую основу Phi-4-Reasoning с визуальным кодировщиком SigLIP-2, используя архитектуру среднего слияния. Визуальный кодировщик сначала преобразует изображения в визуальные токены, затем эти токены проецируются в пространство встраивания языковой модели и обрабатываются предварительно обученной языковой моделью.

Почему Microsoft выбрала путь создания компактной модели?

Многие современные модели визуального языка отличаются большим количеством параметров и использованием токенов, что увеличивает задержки и стоимость развёртывания. Phi-4-Reasoning-Vision-15B была создана как более компактная альтернатива, которая справляется с общими мультимодальными рабочими нагрузками без использования чрезвычайно больших обучающих наборов данных или чрезмерной генерации токенов во время логического вывода.

Восприятие высокого разрешения — ключевой выбор дизайна

Команда Microsoft объясняет, что одна из наиболее полезных технических особенностей — это то, что мультимодальные рассуждения часто терпят неудачу из-за проблем с восприятием. Модель использует динамический кодировщик визуального восприятия с разрешением до 3600 визуальных токенов, что предназначено для поддержки понимания высокого разрешения для таких задач, как анализ документов и взаимодействие с пользовательским интерфейсом.

Смешанные рассуждения вместо принуждения к рассуждениям

Второе важное решение — стратегия смешанных рассуждений и нерассуждений. Вместо того чтобы заставлять модель рассуждать по всем задачам, Microsoft обучила её переключаться между двумя режимами. Рассуждения включают в себя образцы `…`, в то время как нерассуждающие образцы начинаются с `` и используются для задач, ориентированных на восприятие, таких как создание подписей, определение местоположения и простой VQA.

В каких областях модель наиболее сильна?

Microsoft выделяет две основные области применения. Первая — это научные и математические рассуждения над визуальными данными, включая рукописные уравнения, диаграммы, таблицы и количественные документы. Вторая — задачи, связанные с использованием компьютера, где модель интерпретирует содержимое экрана, локализует элементы графического интерфейса и поддерживает взаимодействие с настольными, веб- или мобильными интерфейсами.

Результаты тестирования

Команда Microsoft сообщает о следующих результатах тестирования для Phi-4-Reasoning-Vision-15B: 84,8 на AI2DTEST, 83,3 на ChartQATEST, 44,9 на MathVerseMINI, 36,2 на MathVisionMINI, 75,2 на MathVistaMINI, 54,3 на MMMUVAL, 64,5 на MMStar, 76,0 на OCRBench и 88,2 на ScreenSpotv2.

NetworKit 11.2.1: руководство по созданию производственной среды для крупномасштабной аналитики графов

В этом руководстве мы реализуем крупномасштабный конвейер аналитики графов в NetworKit, сосредоточив внимание на скорости, эффективности использования памяти и API-совместимости в NetworKit 11.2.1. Мы генерируем крупномасштабную бесплатную сеть, извлекаем самый большой связный компонент, а затем вычисляем структурные сигналы остовной сети через k-core декомпозицию и ранжирование центральности. Мы также обнаруживаем сообщества с помощью PLM и количественно оцениваем качество с помощью модульности; оцениваем дистанционную структуру с помощью эффективного и оценочного диаметров; и, наконец, разрежаем граф, чтобы снизить стоимость, сохранив при этом ключевые свойства.

Код

«`python
import gc, time, os
import numpy as np
import pandas as pd
import psutil
import networkit as nk

print(«NetworKit:», nk.version)
nk.setNumberOfThreads(min(2, nk.getMaxNumberOfThreads()))
nk.setSeed(7, False)

def ram_gb():
p = psutil.Process(os.getpid())
return p.memory_info().rss / (10243)

def tic():
return time.perf_counter()

def toc(t0, msg):
print(f»{msg}: {time.perfcounter()-t0:.3f}s | RAM~{ramgb():.2f} GB»)

def report(G, name):
print(f»\n[{name}] nodes={G.numberOfNodes():,} edges={G.numberOfEdges():,} directed={G.isDirected()} weighted={G.isWeighted()}»)

def force_cleanup():
gc.collect()

PRESET = «LARGE»

if PRESET == «LARGE»:
N = 120_000
M_ATTACH = 6
AB_EPS = 0.12
ED_RATIO = 0.9
elif PRESET == «XL»:
N = 250_000
M_ATTACH = 6
AB_EPS = 0.15
ED_RATIO = 0.9
else:
N = 80_000
M_ATTACH = 6
AB_EPS = 0.10
ED_RATIO = 0.9

print(f»\nPreset={PRESET} | N={N:,} | m={MATTACH} | approx-betweenness epsilon={ABEPS}»)

t0 = tic()
G = nk.generators.BarabasiAlbertGenerator(M_ATTACH, N).generate()
toc(t0, «Generated BA graph»)
report(G, «G»)

t0 = tic()
cc = nk.components.ConnectedComponents(G)
cc.run()
toc(t0, «ConnectedComponents»)
print(«components:», cc.numberOfComponents())

if cc.numberOfComponents() > 1:
t0 = tic()
G = nk.graphtools.extractLargestConnectedComponent(G, compactGraph=True)
toc(t0, «Extracted LCC (compactGraph=True)»)
report(G, «LCC»)

force_cleanup()
«`

В этом коде мы генерируем большой граф Барабаши-Альберта и сразу регистрируем его размер и временные характеристики. Мы вычисляем связные компоненты, чтобы понять фрагментацию и быстро диагностировать топологию. Мы извлекаем самый большой связный компонент и сжимаем его, чтобы улучшить производительность и надёжность остальной части конвейера.

1. Какие уникальные особенности модели Phi-4-Reasoning-Vision-15B делают её конкурентоспособной на рынке ИИ-решений?

Ответ: модель Phi-4-Reasoning-Vision-15B отличается компактностью и способностью решать математические, научные и интерфейсные задачи. Она сочетает в себе языковые и визуальные возможности для обработки изображений и текста, что делает её универсальной и эффективной для различных приложений.

2. Какие технические решения позволили Microsoft создать компактную модель, способную справляться с общими мультимодальными рабочими нагрузками?

Ответ: Microsoft создала компактную модель Phi-4-Reasoning-Vision-15B, используя архитектуру среднего слияния и обучив её переключаться между режимами рассуждений и нерассуждений. Это позволяет модели эффективно обрабатывать различные задачи без необходимости использования чрезвычайно больших обучающих наборов данных или чрезмерной генерации токенов во время логического вывода.

3. Какие результаты тестирования были получены для модели Phi-4-Reasoning-Vision-15B и какие выводы можно сделать на основе этих результатов?

Ответ: для модели Phi-4-Reasoning-Vision-15B были получены следующие результаты тестирования: 84,8 на AI2DTEST, 83,3 на ChartQATEST, 44,9 на MathVerseMINI, 36,2 на MathVisionMINI, 75,2 на MathVistaMINI, 54,3 на MMMUVAL, 64,5 на MMStar, 76,0 на OCRBench и 88,2 на ScreenSpotv2. Эти результаты свидетельствуют о том, что модель способна эффективно решать различные задачи, связанные с научными и математическими рассуждениями над визуальными данными, а также задачи, связанные с использованием компьютера.

4. Какие основные области применения выделяет Microsoft для модели Phi-4-Reasoning-Vision-15B?

Ответ: Microsoft выделяет две основные области применения для модели Phi-4-Reasoning-Vision-15B: научные и математические рассуждения над визуальными данными, включая рукописные уравнения, диаграммы, таблицы и количественные документы; задачи, связанные с использованием компьютера, где модель интерпретирует содержимое экрана, локализует элементы графического интерфейса и поддерживает взаимодействие с настольными, веб- или мобильными интерфейсами.

5. Какие преимущества предоставляет использование NetworKit для анализа графов по сравнению с другими инструментами?

Ответ: использование NetworKit для анализа графов предоставляет следующие преимущества: скорость, эффективность использования памяти и API-совместимость. NetworKit позволяет генерировать крупномасштабные бесплатные сети, извлекать самый большой связный компонент, вычислять структурные сигналы остовной сети через k-core декомпозицию и ранжирование центральности, обнаруживать сообщества с помощью PLM и количественно оценивать качество с помощью модульности, оценивать дистанционную структуру с помощью эффективного и оценочного диаметров, а также разрежать граф для снижения стоимости при сохранении ключевых свойств.

Источник