Даже те сети, которые долгое время считались «необучаемыми», могут эффективно обучаться с небольшой помощью. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) показали, что короткий период согласования между нейронными сетями — метод, который они называют направляющим, — может значительно улучшить производительность архитектур, ранее считавшихся непригодными для современных задач.
Их выводы позволяют предположить, что многие так называемые «неэффективные» сети просто начинают с неидеальных стартовых позиций, и кратковременное руководство может поставить их в положение, в котором обучение для сети станет более лёгким.
Метод руководства команды работает путём поощрения целевой сети к соответствию внутренним представлениям направляющей сети во время обучения. В отличие от традиционных методов, таких как дистилляция знаний, которые фокусируются на имитации выходных данных учителя, руководство передаёт структурные знания напрямую от одной сети к другой. Это означает, что целевая сеть изучает, как направляющая сеть организует информацию в каждом слое, а не просто копирует её поведение.
Удивительно, но даже неподготовленные сети содержат архитектурные предубеждения, которые можно передать, а обученные направляющие сети дополнительно передают изученные шаблоны.
«Мы были удивлены этими результатами», — говорит Вигнеш Субраманиам, аспирант кафедры электротехники и компьютерных наук Массачусетского технологического института (EECS) и исследователь CSAIL, который является ведущим автором статьи, представляющей эти выводы. «Впечатляет, что мы смогли использовать репрезентативное сходство, чтобы заставить эти традиционно „хреновые“ сети работать».
Направляющий ангел
Центральный вопрос заключался в том, должно ли руководство продолжаться на протяжении всего обучения или его основное действие заключается в обеспечении лучшей инициализации. Чтобы выяснить это, исследователи провели эксперимент с глубокими полносвязными сетями (FCN). Перед обучением на реальной задаче сеть потратила несколько шагов, тренируясь с другой сетью, используя случайный шум, подобно разминке перед упражнениями. Результаты были поразительными: сети, которые обычно сразу переобучаются, оставались стабильными, достигали более низкого уровня потерь при обучении и избегали классической деградации производительности, наблюдаемой в стандартных FCN.
Это согласование действовало как полезная разминка для сети, показывая, что даже короткая практика может иметь долгосрочные преимущества без необходимости постоянного руководства.
Исследование также сравнило руководство с дистилляцией знаний — популярным подходом, при котором студенческая сеть пытается имитировать выходные данные учителя. Когда учительская сеть была неподготовленной, дистилляция полностью провалилась, поскольку выходные данные не содержали значимого сигнала. Руководство, напротив, всё равно привело к значительным улучшениям, поскольку оно использует внутренние представления, а не окончательные прогнозы.
Этот результат подчёркивает ключевую мысль: неподготовленные сети уже содержат ценные архитектурные предубеждения, которые могут направить другие сети к эффективному обучению.
Спасение безнадёжного
В конечном итоге работа показывает, что так называемые «необучаемые» сети не обречены по своей сути. С помощью руководства можно устранить режимы сбоев, избежать переобучения и привести ранее неэффективные архитектуры в соответствие с современными стандартами производительности. Команда CSAIL планирует изучить, какие архитектурные элементы в наибольшей степени ответственны за эти улучшения и как эти идеи могут повлиять на проектирование будущих сетей.
«Обычно предполагается, что у разных архитектур нейронных сетей есть определённые сильные и слабые стороны», — говорит Лейла Исик, доцент кафедры когнитивных наук Университета Джона Хопкинса, которая не участвовала в исследовании. «Это захватывающее исследование показывает, что один тип сети может унаследовать преимущества другой архитектуры, не теряя при этом своих первоначальных возможностей. Удивительно, но авторы показывают, что это можно сделать с помощью небольших неподготовленных „направляющих“ сетей. В этой статье представлен новый конкретный способ добавления различных индуктивных предубеждений в нейронные сети, что имеет решающее значение для разработки более эффективного и ориентированного на человека ИИ».
Субраманиам написал статью с коллегами из CSAIL: научным сотрудником Брайаном Чуном; аспирантом Дэвидом Мэйо; научным сотрудником Коллином Конвеллом; главными исследователями Борисом Кацем, главным научным сотрудником CSAIL, и Томасо Поггио, профессором Массачусетского технологического института в области наук о мозге и когнитивных наук; а также бывшим научным сотрудником CSAIL Андреем Барбу. Их работа была частично поддержана Центром изучения мозга, разума и машин, Национальным научным фондом, Инициативой Массачусетского технологического института по применению машинного обучения CSAIL, Лабораторией искусственного интеллекта MIT-IBM Watson, Агентством перспективных оборонных исследований Министерства обороны США (DARPA), Ускорителем искусственного интеллекта Министерства ВВС США и Управлением научных исследований Министерства ВВС США.
Их работа недавно была представлена на конференции и семинаре по системам обработки нейронной информации (NeurIPS).
1. Какие методы используются для улучшения производительности «необучаемых» нейронных сетей?
В статье описывается метод, который называется «направляющим». Он заключается в том, что целевая сеть поощряется к соответствию внутренним представлениям направляющей сети во время обучения. Это позволяет передать структурные знания напрямую от одной сети к другой.
2. В чём отличие метода руководства от традиционных методов, таких как дистилляция знаний?
Дистилляция знаний фокусируется на имитации выходных данных учителя, в то время как руководство передаёт структурные знания напрямую от одной сети к другой. Это означает, что целевая сеть изучает, как направляющая сеть организует информацию в каждом слое, а не просто копирует её поведение.
3. Какие результаты были получены в ходе эксперимента с глубокими полносвязными сетями (FCN)?
Результаты эксперимента показали, что сети, которые обычно сразу переобучаются, оставались стабильными, достигали более низкого уровня потерь при обучении и избегали классической деградации производительности, наблюдаемой в стандартных FCN. Это подчёркивает, что даже короткая практика может иметь долгосрочные преимущества без необходимости постоянного руководства.
4. Какие выводы можно сделать из работы исследователей CSAIL?
Работа показывает, что так называемые «необучаемые» сети не обречены по своей сути. С помощью руководства можно устранить режимы сбоев, избежать переобучения и привести ранее неэффективные архитектуры в соответствие с современными стандартами производительности.
5. Какие перспективы открывает работа исследователей CSAIL для разработки более эффективного и ориентированного на человека ИИ?
Исследование показывает, что один тип сети может унаследовать преимущества другой архитектуры, не теряя при этом своих первоначальных возможностей. Это открывает перспективы для добавления различных индуктивных предубеждений в нейронные сети, что имеет решающее значение для разработки более эффективного и ориентированного на человека ИИ.