Объяснение обучения признакам в глубоких нейронных сетях с помощью геометрии и физики

Глубокие нейронные сети (ГНС), алгоритмы машинного обучения, лежащие в основе функционирования больших языковых моделей (БЯМ) и других моделей искусственного интеллекта (ИИ), учатся делать точные прогнозы, анализируя большие объёмы данных. Эти сети имеют многоуровневую структуру, каждый слой которой преобразует входные данные в «признаки», которые направляют анализ следующего слоя.

Процесс обучения признакам ГНС стал темой многочисленных исследований и, в конечном счёте, является ключом к высокой производительности этих моделей в различных задачах. Недавно некоторые учёные-компьютерщики начали изучать возможность моделирования обучения признакам в ГНС с использованием фреймворков и подходов, основанных на физике.

Исследователи из Базельского университета и Университета науки и технологий Китая обнаружили фазовую диаграмму

Исследователи из Базельского университета и Университета науки и технологий Китая обнаружили фазовую диаграмму — график, напоминающий те, что используются в термодинамике для разграничения жидкой, газообразной и твёрдой фаз воды. Эта диаграмма показывает, как ГНС обучаются признакам в различных условиях. Их статья, опубликованная в журнале Physical Review Letters, моделирует ГНС как пружинно-блочную цепь — простую механическую систему, которая часто используется для изучения взаимодействий между линейными (пружина) и нелинейными (трение) силами.

«Чэн и я были на семинаре, где был вдохновляющий доклад о «законе разделения данных», — рассказал Иван Докманич, исследователь, возглавлявший исследование. — «Слои глубокой нейронной сети (как и биологических нейронных сетей, таких как зрительная кора человека) обрабатывают входные данные, постепенно очищая и упрощая их. Чем глубже вы находитесь в сети, тем более регулярными, более геометрическими становятся эти представления, что означает, что представления различных классов объектов (например, кошек и собак) становятся более раздельными и их легче различить. Существует способ измерить это разделение».

«В хорошо обученных нейронных сетях часто случается, что эти «суммарные статистики» разделения данных ведут себя просто, даже для очень сложных глубоких нейронных сетей, обученных на сложных данных: каждый слой улучшает разделение на одинаковую величину», — добавил он.

Команда обнаружила, что «закон разделения данных» справедлив для сетей с часто используемыми «гиперпараметрами», такими как скорость обучения и шум, но не для разных вариантов гиперпараметров. Они поняли, что понимание того, почему это происходит, может пролить свет на то, как ГНС обучаются хорошим признакам в разных моделях. Поэтому они решили найти подходящее теоретическое описание этих интригующих результатов.

«В то же время мы были вовлечены в некоторые проекты в области геофизики, где люди используют пружинно-блочные модели в качестве феноменологических моделей динамики разломов и землетрясений», — сказал Докманич. — «Феноменология разделения данных напомнила нам об этом. Мы думали о многих других аналогиях. Например, Чэн думал, что равное разделение данных — это что-то вроде выдвижной вешалки для одежды; я думал, что это немного похоже на складную линейку».

Исследователи решили сосредоточиться на пружинно-блочных моделях. Эти модели уже доказали свою ценность для изучения широкого спектра явлений реального мира, включая землетрясения и деформацию материалов.

«Мы показали, что поведение этого разделения данных eerily похоже на поведение блоков, соединённых пружинами, которые скользят по шероховатой поверхности (но также и на поведение других механических систем, таких как складные линейки)», — объяснил Докманич. — «Насколько сильно слой упрощает, соответствует тому, насколько пружина растягивается. Нелинейность в сети соответствует тому, насколько велико трение между блоками и поверхностью. В обеих системах мы можем добавить шум».

При рассмотрении двух систем в контексте закона разделения данных Докманич и его коллеги обнаружили, что поведение ГНС было сходно с поведением пружинно-блочных цепей. ГНС реагирует на потерю при обучении (то есть запрос объяснить наблюдаемые данные) путём разделения данных слой за слоем. Аналогично пружинно-блочная цепь реагирует на тянущее усилие, разделяя блоки слой за слоем.

«Чем больше нелинейности, тем больше расхождение между внешними (глубокими) и внутренними (поверхностными) слоями: глубокие слои учатся / разделяются больше; то же самое для пружин», — сказал Докманич. — «Однако, если мы добавим обучающий шум или начнём встряхивать / вибрировать пружинно-блочную систему, то блоки проведут некоторое время «в воздухе», не испытывая трения, и это позволит пружинам немного уравнять разделение. Это на самом деле похоже на «акустическую смазку» в технологическом процессе, а также на некоторые явления «прилипания-проскальзывания» в геофизике».

Это недавнее исследование представляет новый теоретический подход к изучению ГНС и того, как они обучаются признакам с течением времени. В будущем этот подход может помочь углубить нынешнее понимание алгоритмов глубокого обучения и процессов, посредством которых они учатся надёжно решать конкретные задачи.

«Большинство существующих результатов относятся к упрощённым сетям, в которых отсутствуют ключевые аспекты реальных глубоких сетей, используемых на практике — либо глубина, либо нелинейность, либо что-то ещё», — объяснил Докманич. — «Эти работы изучают единственный фактор воздействия на стилизованную модель, но успех глубоких сетей основан на накоплении факторов (глубина, нелинейность, шум, скорость обучения, нормализация и т. д.). В отличие от этого, мы использовали нисходящий подход, который является феноменологическим, а не основанным на первых принципах, но мы получаем общую теорию, понимание взаимодействия всех этих вещей».

Теоретическая модель, используемая исследователями, оказалась простой и эффективной для понимания способности ГНС обобщать в различных сценариях. В своей статье Докманич и его коллеги успешно использовали её для вычисления кривых разделения данных ГНС во время обучения и обнаружили, что форма этих кривых указывает на производительность обученной сети на невидимых данных.

«Поскольку мы также понимаем, как изменить форму кривой разделения данных в ту или иную сторону, варьируя шум и нелинейность, это даёт нам (потенциально) мощный инструмент для ускорения обучения очень больших сетей», — сказал Докманич. — «Большинство людей имеют сильное представление о пружинах и блоках, но не о глубоких нейронных сетях. Наша теория говорит, что мы можем делать интересные, полезные и правдивые утверждения о глубоких сетях, опираясь на нашу интуицию о простой механической системе. Это здорово, потому что в нейронных сетях миллиарды параметров, а в нашей пружинно-блочной системе — всего несколько».

Теоретическая модель, используемая этой группой исследователей, вскоре может быть использована как теоретиками, так и учёными-компьютерщиками для дальнейшего изучения основ алгоритмов, основанных на глубоком обучении. В рамках своих следующих исследований Докманич и его коллеги надеются также использовать свой теоретический подход для изучения обучения признакам с микроскопической точки зрения.

«Мы близки к тому, чтобы иметь объяснение первых принципов для феноменологии пружинно-блочной системы (или, возможно, феноменологии складной линейки) в глубоких нелинейных сетях с учётом нескольких приближений», — объяснил Докманич. — «Другое направление, которое мы преследуем, — это действительно удвоить усилия над тем, как внедрить это в практику для улучшения обучения глубоких сетей, особенно для очень больших сетей, основанных на трансформаторах, таких как большие языковые модели. Наличие прокси для обобщения, который можно дёшево вычислить во время обучения, и понимание того, как направить обучение для улучшения обобщения, является своего рода святым Граалем, альтернативным путём к ныне очень популярным законам масштабирования».

Понимая, как можно тщательно спроектировать обучение ГНС для улучшения их способности обобщать в других задачах, исследователи могли бы также разработать диагностический инструмент для больших нейронных сетей. Например, этот инструмент может помочь выявить области, которые необходимо улучшить для повышения производительности модели, аналогично тому, как карты напряжений используются в структурной механике для выявления областей концентрированного напряжения, которые могут поставить под угрозу безопасность конструкций.

«Анализируя распределение внутренней нагрузки в нейронной сети, мы можем найти слои / регионы, которые перегружены, что может указывать на переобучение и ухудшение обобщения, или слои, которые практически не используются, что указывает на избыточность», — добавил Докманич.

Источник