Многомодальный искусственный интеллект сталкивается с фундаментальными проблемами при эффективной одновременной интеграции и обработке различных типов данных. Современные методологии в основном опираются на стратегии позднего объединения (late-fusion), при которых отдельно предварительно обученные унимодальные модели объединяются, например, к языковым моделям добавляются кодировщики зрения. Этот подход, хотя и удобен, поднимает критические вопросы об оптимальности для истинного многомодального понимания.
Присущие предвзятости унимодального предварительного обучения потенциально ограничивают способность модели улавливать существенные межмодальные зависимости. Кроме того, масштабирование этих составных систем вносит значительную сложность, поскольку каждый компонент приносит свои гиперпараметры, требования к предварительному обучению и отличительные свойства масштабирования. Распределение вычислительных ресурсов по модальностям становится всё более сложным в рамках этой жёсткой архитектурной парадигмы, что препятствует эффективному масштабированию и потенциально ограничивает производительность в задачах, требующих глубокого многомодального рассуждения и обучения представлениям.
Исследователи из Сорбоннского университета и Apple изучили свойства масштабирования нативных многомодальных моделей, обученных с нуля на многомодальных данных, поставив под сомнение общепринятые представления об архитектурных решениях. Сравнивая модели раннего объединения, которые напрямую обрабатывают необработанные многомодальные входные данные, с традиционными подходами позднего объединения, исследователи продемонстрировали, что позднее объединение не даёт никаких неотъемлемых преимуществ, когда обе архитектуры обучаются с нуля.
Вопреки текущим практикам, модели раннего объединения оказываются более эффективными и простыми в масштабировании, следуя законам масштабирования, аналогичным языковым моделям, со небольшими вариациями коэффициентов масштабирования для разных модальностей и наборов данных. Анализ показывает, что оптимальная производительность достигается, когда параметры модели и обучающие токены масштабируются примерно в равной пропорции, а результаты обобщаются для различных смесей многомодального обучения.
Исследование расширяет возможности архитектур Mixture of Experts (MoE), позволяя динамически специализировать параметры по модальностям симметрично и параллельно. Этот подход обеспечивает значительное улучшение производительности и более быструю сходимость по сравнению со стандартными архитектурами, причём законы масштабирования указывают на то, что обучающие токены следует отдавать предпочтение активным параметрам, что отличает их от плотных моделей из-за более высокого общего количества параметров в разреженных моделях.
Архитектурные исследования выявляют несколько ключевых выводов о масштабировании и проектировании многомодальных моделей. Нативные архитектуры раннего и позднего объединения демонстрируют сопоставимые результаты при обучении с нуля, причём модели раннего объединения показывают небольшие преимущества при меньших вычислительных бюджетах. Анализ законов масштабирования подтверждает, что вычислительно оптимальные модели для обеих архитектур работают одинаково по мере увеличения вычислительных бюджетов. Важно отметить, что нативные многомодальные модели (NMM) демонстрируют свойства масштабирования, напоминающие модели, работающие только с текстом, причём показатели масштабирования незначительно различаются в зависимости от целевых типов данных и смесей обучения.
Вычислительно оптимальные модели позднего объединения требуют более высокого соотношения параметров к данным по сравнению с их аналогами раннего объединения, что указывает на различные схемы распределения ресурсов. Разреженные архитектуры, использующие Mixture of Experts, значительно выигрывают от NMM раннего объединения, демонстрируя существенные улучшения по сравнению с плотными моделями при эквивалентных затратах на логический вывод, при этом неявно изучая веса, специфичные для модальности. Кроме того, вычислительно оптимальные разреженные модели всё больше отдают предпочтение масштабированию обучающих токенов по сравнению с активными параметрами по мере роста вычислительных бюджетов. Примечательно, что маршрутизация, не зависящая от модальности, в разреженных смесях неизменно превосходит подходы с учётом модальности, ставя под сомнение интуицию об явной специализации модальности.