Введение
Понимание того, как мозг создаёт внутренние представления об окружающем мире, — одна из самых увлекательных задач в нейронауке. За последнее десятилетие глубокое обучение изменило компьютерное зрение, создав нейронные сети, которые не только работают с точностью, сравнимой с человеческой, в задачах распознавания, но и, похоже, обрабатывают информацию так же, как наш мозг.
Это неожиданное совпадение поднимает интригующий вопрос: может ли изучение моделей ИИ помочь нам лучше понять, как мозг учится видеть?
Исследователи из Meta AI и École Normale Supérieure решили изучить этот вопрос, сосредоточив внимание на DINOv3 — модели-трансформере для компьютерного зрения, обученной на миллиардах естественных изображений. Они сравнили внутренние активации DINOv3 с реакциями мозга человека на те же изображения, используя два взаимодополняющих метода нейровизуализации.
* фМРТ предоставила пространственные карты активности коры головного мозга с высоким разрешением;
* МЭГ зафиксировала точное время реакции мозга.
Вместе эти данные позволили получить полное представление о том, как мозг обрабатывает визуальную информацию.
Технические детали
Исследовательская группа изучает три фактора, которые могут влиять на сходство между мозгом и моделью:
* размер модели;
* объём обучающих данных;
* тип изображений, используемых для обучения.
Для этого команда обучила несколько версий DINOv3, варьируя эти факторы независимо.
Сходство между мозгом и моделью
Исследовательская группа обнаружила убедительные доказательства сходства, сравнивая, насколько хорошо DINOv3 соответствует реакциям мозга. Активации модели предсказывали сигналы фМРТ как в ранних зрительных областях, так и в более высоких областях коры.
* Пиковые корреляции вокселей достигли R = 0,45.
* Результаты МЭГ показали, что согласование началось уже через 70 миллисекунд после появления изображения и продолжалось до трёх секунд.
Важно отметить, что ранние слои DINOv3 соответствовали таким областям, как V1 и V2, а более глубокие слои соответствовали активности в более высоких областях, включая части префронтальной коры.
Траектории обучения
Отслеживание этих сходств в процессе обучения выявило траекторию развития. Низкоуровневые визуальные выравнивания появились очень рано, после лишь небольшой доли обучения, в то время как более высокие выравнивания требовали миллиардов изображений. Это отражает то, как развивается человеческий мозг: сенсорные области созревают раньше, чем ассоциативные коры.
Роль факторов модели
Роль факторов модели также была очевидна. Более крупные модели последовательно достигали более высоких показателей сходства, особенно в более высоких областях коры. Более длительное обучение улучшало согласование по всем направлениям, причём наиболее высокие представления выигрывали от длительного воздействия.
Тип изображений также имел значение: модели, обученные на антропоцентрических изображениях, обеспечивали наилучшее согласование. Те, которые обучались на спутниковых или клеточных изображениях, показали частичное совпадение в ранних зрительных областях, но гораздо более слабое сходство в более высоких областях мозга. Это говорит о том, что экологически значимые данные имеют решающее значение для захвата всего спектра человекоподобных представлений.
Связь с кортикальными свойствами
Интересно, что время появления представлений DINOv3 также соответствовало структурным и функциональным свойствам коры. Области с большим развитием, более толстой корой или более медленными внутренними временными масштабами согласовывались позже в процессе обучения. Напротив, высокомиелинизированные области согласовывались раньше, отражая их роль в быстрой обработке информации.
Эти корреляции предполагают, что модели ИИ могут дать ключ к пониманию биологических принципов, лежащих в основе организации коры.
Нативизм против эмпиризма
Исследование подчёркивает баланс между врождённой структурой и обучением. Архитектура DINOv3 даёт ей иерархический конвейер обработки, но полное сходство с мозгом появилось только после длительного обучения на экологически значимых данных. Это взаимодействие между архитектурными априорными значениями и опытом перекликается с дебатами в когнитивной науке о нативизме и эмпиризме.
Параллели в развитии
Параллели с человеческим развитием поразительны. Так же, как сенсорные коры в мозге созревают быстро, а ассоциативные области развиваются медленнее, DINOv3 согласовывался с сенсорными областями на ранних этапах обучения и с префронтальными областями гораздо позже. Это говорит о том, что траектории обучения в крупномасштабных моделях ИИ могут служить вычислительными аналогами для поэтапного созревания функций человеческого мозга.
За пределами зрительного пути
Результаты также вышли за рамки традиционных зрительных путей. DINOv3 показал согласование в префронтальных и мультимодальных областях, что поднимает вопросы о том, могут ли такие модели улавливать более высокие особенности, важные для рассуждений и принятия решений.
Хотя это исследование сосредоточено только на DINOv3, оно указывает на захватывающие возможности использования ИИ в качестве инструмента для проверки гипотез об организации и развитии мозга.
Заключение
В заключение это исследование показывает, что модели компьютерного зрения, такие как DINOv3, — это больше, чем просто мощные системы компьютерного зрения. Они также приближают аспекты обработки зрительной информации у человека, показывая, как размер, обучение и данные формируют сходство между мозгом и машинами. Изучая, как модели учатся «видеть», мы получаем ценную информацию о том, как человеческий мозг развивает способность воспринимать и интерпретировать мир.
1. Какие методы нейровизуализации использовались для сравнения внутренних активаций модели DINOv3 с реакциями мозга человека?
В статье упоминаются два метода нейровизуализации: фМРТ (функциональная магнитно-резонансная томография) и МЭГ (магнитоэнцефалография). фМРТ предоставила пространственные карты активности коры головного мозга с высоким разрешением, а МЭГ зафиксировала точное время реакции мозга.
2. Какие факторы исследовались для определения их влияния на сходство между мозгом и моделью DINOv3?
Исследовательская группа изучала три фактора: размер модели, объём обучающих данных и тип изображений, используемых для обучения. Для этого команда обучила несколько версий DINOv3, варьируя эти факторы независимо.
3. Какие результаты были получены при сравнении активаций модели DINOv3 с реакциями мозга на изображения?
Исследователи обнаружили убедительные доказательства сходства между активациями модели и реакциями мозга. Пиковые корреляции вокселей достигли R = 0,45. Результаты МЭГ показали, что согласование началось уже через 70 миллисекунд после появления изображения и продолжалось до трёх секунд.
4. Какие выводы можно сделать о роли факторов модели в достижении сходства с мозгом?
Более крупные модели последовательно достигали более высоких показателей сходства, особенно в более высоких областях коры. Более длительное обучение улучшало согласование по всем направлениям, причём наиболее высокие представления выигрывали от длительного воздействия. Тип изображений также имел значение: модели, обученные на антропоцентрических изображениях, обеспечивали наилучшее согласование.
5. Какие параллели можно провести между развитием модели DINOv3 и развитием человеческого мозга?
Параллели с человеческим развитием поразительны. Так же, как сенсорные коры в мозге созревают быстро, а ассоциативные области развиваются медленнее, DINOv3 согласовывался с сенсорными областями на ранних этапах обучения и с префронтальными областями гораздо позже. Это говорит о том, что траектории обучения в крупномасштабных моделях ИИ могут служить вычислительными аналогами для поэтапного созревания функций человеческого мозга.