Исследователи из Токийского университета в сотрудничестве с Aisin Corporation продемонстрировали, что универсальные законы масштабирования, описывающие изменение свойств системы в зависимости от её размера и масштаба, применимы к глубоким нейронным сетям, которые демонстрируют поведение, характерное для поглощающего фазового перехода. Это явление обычно наблюдается в физических системах.
Открытие не только предоставляет основу для описания глубоких нейронных сетей, но и помогает прогнозировать их обучаемость или обобщающую способность. Результаты были опубликованы в журнале Physical Review Research.
В последние годы искусственный интеллект (ИИ)
Современная версия технологии основана на глубоких нейронных сетях: многочисленных слоях цифровых «нейронов» с взвешенными связями между ними. Сеть обучается путём модификации весов между «нейронами» до тех пор, пока не начнёт выдавать правильные результаты. Однако единая теория, описывающая распространение сигнала между слоями нейронов в системе, пока ускользала от учёных.
Киэйчи Тамаи, первый автор исследования, объясняет мотивацию своей работы
«Частично это было вызвано промышленными потребностями, поскольку настройка этих массивных моделей методом перебора наносит ущерб окружающей среде. Но была и вторая, более глубокая цель: научное понимание физики интеллекта».
Фон Тамаи в статистической физике фазовых переходов дал ему первый намёк. Поглощающие фазовые переходы относятся к резкому сдвигу в переломный момент от активной к поглощающей фазе, из которой система не может выйти без посторонней помощи. Примером такой физической системы может быть пожар, который выгорает.
Ключевой момент
Такие системы демонстрируют универсальное поведение вблизи переломного момента и могут быть описаны с помощью универсальных законов масштабирования, если сохраняются определённые свойства. Если глубокие нейронные сети демонстрируют поглощающие фазовые переходы, то универсальные законы масштабирования могут применяться, обеспечивая единую основу для описания их функционирования. Следовательно, исследователи смогут предсказывать, будет ли сигнал «выгорать» в определённой настройке глубокого обучения.
Для исследования учёные объединили теорию с моделированием. Они вывели показатели, которые являются универсальными для всех систем, и масштабные коэффициенты, которые различаются в разных системах, из теории, когда это было возможно, и использовали моделирование для подтверждения законов масштабирования в более сложных случаях.
«Какое совпадение, — подумал Тамаи, вспоминая, когда впервые заметил связь между глубокими нейронными сетями и поглощающими фазовыми переходами. — Я никогда не думал, что займусь исследованиями в области глубокого обучения, не говоря уже о том, чтобы найти эффективное применение концепции, над которой я работал в качестве докторанта по физике».
Научное понимание физики интеллекта
Это открытие также приближает нас к пониманию физики интеллекта, поскольку оно возрождает гипотезу критической важности мозга, которая утверждает, что некоторые биологические сети работают вблизи фазовых переходов. Тамаи в восторге от перспектив этого направления исследований.
«Алан Тьюринг намекнул на эту связь ещё в 1950 году, но тогда инструменты были не готовы. С быстрым накоплением доказательств в нейронауках и появлением ИИ, близкого к человеческому уровню, я считаю, что мы находимся в идеальном моменте, чтобы пересмотреть и углубить наше понимание этой фундаментальной взаимосвязи».
Предоставлено Токийским университетом.