Meta выпускает TRIBE v2: модель кодирования мозга, которая предсказывает ответы фМРТ на видео-, аудио- и текстовые стимулы

Нейронаука: от разделения к объединению

В нейронауке традиционно применяется подход «разделяй и властвуй». Исследователи обычно сопоставляют конкретные когнитивные функции с изолированными областями мозга — например, движение с областью V5 или лица с веретенообразной извилиной — используя модели, адаптированные для узких экспериментальных парадигм. Хотя это позволило получить глубокие insights, в результате сложилась фрагментированная картина, не хватает единой системы, объясняющей, как человеческий мозг объединяет мультисенсорную информацию.

Команда FAIR компании Meta представила TRIBE v2 — трёхмодальную базовую модель, призванную преодолеть этот разрыв. Согласовывая латентные представления современных архитектур ИИ с активностью человеческого мозга, TRIBE v2 предсказывает ответы фМРТ высокого разрешения в различных естественных и экспериментальных условиях.

Архитектура: мультимодальная интеграция

TRIBE v2 не учится «видеть» или «слышать» с нуля. Вместо этого он использует репрезентативное согласование между глубокими нейронными сетями и мозгом приматов. Архитектура состоит из трёх замороженных базовых моделей, выполняющих функции экстракторов признаков, временного трансформера и блока прогнозирования для конкретного субъекта.

Извлечение признаков

Модель обрабатывает стимулы через три специализированных кодировщика:

* Текст: контекстуализированные встраивания извлекаются из LLaMA 3.2-3B. Для каждого слова модель добавляет предшествующие 1 024 слова, чтобы обеспечить временной контекст, который затем отображается на сетку с частотой 2 Гц.
* Видео: модель использует V-JEPA2-Giant для обработки сегментов из 64 кадров, охватывающих предшествующие 4 секунды для каждого временного интервала.
* Аудио: звук обрабатывается через Wav2Vec-BERT 2.0, с представлениями, передискретизированными до 2 Гц, чтобы соответствовать частоте стимула (fstim).

Временная агрегация

Полученные встраивания сжимаются в общее измерение (D=384) и объединяются в мультимодальный временной ряд с размерностью модели Dmodel=3×384=1152. Эта последовательность подаётся в кодировщик Transformer (8 слоёв, 8 блоков внимания), который обменивается информацией в течение 100-секундного окна.

Прогнозирование для конкретного субъекта

Чтобы предсказать активность мозга, выходные данные Transformer преобразуются в частоту фМРТ 1 Гц (ffMRI) и передаются в блок Subject Block. Этот блок проецирует латентные представления на 20 484 кортикальных вершины (fsaverage5surface) и 8 802 подкорковых вокселя.

Данные и законы масштабирования

Значительным препятствием при кодировании мозга является нехватка данных. TRIBE v2 решает эту проблему, используя «глубокие» наборы данных для обучения — когда несколько субъектов записываются в течение многих часов — и «широкие» наборы данных для оценки.

Обучение: модель была обучена на 451,6 часах данных фМРТ от 25 субъектов в четырёх натуралистических исследованиях (фильмы, подкасты и бесшумные видео).

Оценка: она была оценена на более широком наборе данных, насчитывающем в общей сложности 1 117,7 часов от 720 субъектов.

Исследовательская группа наблюдала логарифмически линейное увеличение точности кодирования по мере увеличения объёма обучающих данных, без признаков плато. Это говорит о том, что по мере расширения репозиториев нейровизуализации предсказательная сила таких моделей, как TRIBE v2, будет продолжать расти.

Результаты: преодоление базовых показателей

TRIBE v2 значительно превосходит традиционные модели с конечной импульсной характеристикой (FIR), которые долгое время считались золотым стандартом для кодирования на уровне вокселей.

Zero-Shot и групповая производительность

Одной из наиболее ярких возможностей модели является обобщение Zero-Shot для новых субъектов. Используя слой «невидимого субъекта», TRIBE v2 может более точно предсказывать усреднённую по группе реакцию нового когорта, чем фактическая запись многих отдельных субъектов в этом когорте. В наборе данных Human Connectome Project (HCP) 7T модель TRIBE v2 достигла групповой корреляции (Rgroup) около 0,4, что в два раза превышает групповую предсказуемость медианного субъекта.

Тонкая настройка

Когда предоставляется небольшой объём данных (не более одного часа) для нового участника, тонкая настройка TRIBE v2 в течение всего одной эпохи приводит к двукратному–четырёхкратному улучшению по сравнению с линейными моделями, обученными с нуля.

Эксперименты in-silico

Исследовательская группа утверждает, что TRIBE v2 может быть полезен для пилотирования или предварительного скрининга исследований нейровизуализации. Проводя виртуальные эксперименты на наборе данных Individual Brain Charting (IBC), модель восстановила классические функциональные ориентиры:

* Зрение: она точно локализовала веретенообразную лицевую область (FFA) и парагиппокампальную область места (PPA).
* Язык: она успешно восстановила височно-теменное соединение (TPJ) для обработки эмоций и область Брока для синтаксиса.

Кроме того, применение независимого компонентного анализа (ICA) к конечному слою модели показало, что TRIBE v2 естественным образом изучает пять хорошо известных функциональных сетей: первичную слуховую, языковую, двигательную, режим по умолчанию и зрительную.

Ключевые выводы

* Мощная трёхмодальная архитектура: TRIBE v2 — это базовая модель, которая объединяет видео, аудио и текст, используя современные кодировщики, такие как LLaMA 3.2 для текста, V-JEPA2 для видео и Wav2Vec-BERT для аудио.
* Логарифмически линейные законы масштабирования: подобно большим языковым моделям, которые мы используем каждый день, TRIBE v2 следует логарифмически линейному закону масштабирования; его способность точно предсказывать активность мозга неуклонно возрастает по мере того, как в него поступает больше данных фМРТ, без видимого плато производительности.
* Превосходное обобщение Zero-Shot: модель может предсказывать реакции мозга невидимых субъектов в новых экспериментальных условиях без дополнительного обучения.
* Начало эры in-silico нейронауки: TRIBE v2 позволяет проводить «in-silico» эксперименты, позволяя исследователям проводить виртуальные нейронаучные тесты на компьютере.
* Появление биологической интерпретируемости: хотя это и «чёрный ящик» глубокого обучения, внутренние представления модели естественным образом организовались в пять хорошо известных функциональных сетей: первичную слуховую, языковую, двигательную, режим по умолчанию и зрительную.

1. Какие проблемы в нейронауке решает модель TRIBE v2?

Модель TRIBE v2 решает проблему фрагментированности в нейронауке, объединяя мультимодальные данные (видео, аудио и текст) для более глубокого понимания того, как человеческий мозг обрабатывает информацию. Она позволяет преодолеть разрыв между изолированными исследованиями когнитивных функций и областями мозга, предоставляя единую систему для анализа мультисенсорной информации.

2. Какие методы и технологии используются в архитектуре TRIBE v2 для обработки различных типов стимулов?

Для обработки различных типов стимулов в архитектуре TRIBE v2 используются специализированные кодировщики:
* Текст: контекстуализированные встраивания извлекаются из LLaMA 3.2-3B.
* Видео: модель использует V-JEPA2-Giant для обработки сегментов из 64 кадров.
* Аудио: звук обрабатывается через Wav2Vec-BERT 2.0.

3. Какие результаты были получены при использовании модели TRIBE v2 в экспериментах?

В экспериментах модель TRIBE v2 показала значительное улучшение по сравнению с традиционными моделями с конечной импульсной характеристикой (FIR). Она достигла групповой корреляции (Rgroup) около 0,4 в наборе данных Human Connectome Project (HCP), что в два раза превышает групповую предсказуемость медианного субъекта. Кроме того, модель успешно восстановила классические функциональные ориентиры, такие как веретенообразная лицевая область (FFA) и парагиппокампальная область места (PPA), а также другие важные области мозга.

4. Какие возможности предоставляет модель TRIBE v2 для нейронаучных исследований?

Модель TRIBE v2 предоставляет исследователям возможность проводить виртуальные эксперименты на наборе данных Individual Brain Charting (IBC), позволяя им восстанавливать классические функциональные ориентиры и изучать функциональные сети мозга. Это открывает новые горизонты для пилотирования и предварительного скрининга исследований нейровизуализации.

5. Какие выводы можно сделать о потенциале модели TRIBE v2 для будущих исследований в области нейронауки?

Потенциал модели TRIBE v2 для будущих исследований в области нейронауки заключается в её способности точно предсказывать активность мозга на основе мультимодальных данных. Она следует логарифмически линейному закону масштабирования, что означает её производительность будет продолжать расти по мере увеличения объёма обучающих данных. Это делает её мощным инструментом для будущих исследований в области нейронауки.

Источник