Обучение с помощью направляющих помогает «необучаемым» нейронным сетям раскрыть свой потенциал

Даже те нейронные сети, которые долгое время считались «необучаемыми», могут эффективно обучаться с небольшой помощью. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) показали, что краткий период согласования между нейронными сетями — метод, который они называют направляющим, — может значительно улучшить производительность архитектур, ранее считавшихся непригодными для современных задач.

Их выводы позволяют предположить, что многие так называемые «неэффективные» сети просто начинают с менее идеальных стартовых позиций, и что кратковременное руководство может поставить их в положение, облегчающее обучение для сети.

Метод руководства команды работает путём поощрения целевой сети к соответствию внутренним представлениям направляющей сети во время обучения. В отличие от традиционных методов, таких как дистилляция знаний, которые фокусируются на имитации выходных данных учителя, руководство передаёт структурные знания напрямую от одной сети к другой. Это означает, что целевая сеть изучает, как направляющая организует информацию в каждом слое, а не просто копирует её поведение. Удивительно, но даже не обученные сети содержат архитектурные предубеждения, которые можно передать, а обученные направляющие сети дополнительно передают изученные шаблоны.

«Мы были удивлены этими результатами», — говорит Вигнеш Субраманиам, исследователь CSAIL и аспирант MIT. «Впечатляет, что мы смогли использовать репрезентативное сходство, чтобы заставить эти традиционно „хреновые“ сети работать».

Руководство как помощник

Центральный вопрос заключался в том, должно ли руководство продолжаться на протяжении всего обучения или его основное действие — обеспечить более качественную инициализацию. Чтобы исследовать это, исследователи провели эксперимент с глубокими полносвязными сетями (FCNs). Перед обучением на реальной задаче сеть потратила несколько шагов, тренируясь с другой сетью, используя случайный шум, как разминка перед упражнениями. Результаты были поразительными: сети, которые обычно сразу переобучались, оставались стабильными, достигали более низкого уровня потерь при обучении и избегали классического ухудшения производительности, наблюдаемого в стандартных FCNs.

Это согласование действовало как полезная разминка для сети, показывая, что даже короткая практика может иметь долгосрочные преимущества без необходимости постоянного руководства.

Исследование также сравнило руководство с дистилляцией знаний — популярным подходом, при котором студенческая сеть пытается имитировать выходные данные учителя. Когда учительская сеть была не обучена, дистилляция полностью провалилась, поскольку выходные данные не содержали значимого сигнала. Руководство, напротив, всё равно привело к значительным улучшениям, поскольку оно использует внутренние представления, а не окончательные прогнозы.

Этот результат подчёркивает ключевую мысль: не обученные сети уже содержат ценные архитектурные предубеждения, которые могут направить другие сети к эффективному обучению.

Спасение безнадёжного

В конечном счёте работа показывает, что так называемые «необучаемые» сети не обречены по своей сути. С помощью руководства можно устранить режимы сбоев, избежать переобучения и привести ранее неэффективные архитектуры в соответствие с современными стандартами производительности. Команда CSAIL планирует изучить, какие архитектурные элементы наиболее ответственны за эти улучшения и как эти идеи могут повлиять на проектирование будущих сетей.

«Обычно предполагается, что у разных архитектур нейронных сетей есть определённые сильные и слабые стороны», — говорит Лейла Исик, доцент кафедры когнитивных наук Университета Джона Хопкинса, которая не участвовала в исследовании. «Это захватывающее исследование показывает, что один тип сети может унаследовать преимущества другой архитектуры, не теряя при этом своих первоначальных возможностей. Удивительно, но авторы показывают, что это можно сделать с помощью небольших не обученных „направляющих“ сетей. В этой статье представлен новый и конкретный способ добавления различных индуктивных предубеждений в нейронные сети, что имеет решающее значение для разработки более эффективного и ориентированного на человека ИИ».

Субраманиам написал статью с коллегами из CSAIL: научным сотрудником Брайаном Чуном; аспирантом Дэвидом Мэйо; научным сотрудником Коллином Кануэллом; главными исследователями Борисом Кацем, главным научным сотрудником CSAIL, и Томасо Поггио, профессором MIT в области наук о мозге и когнитивных наук; а также бывшим научным сотрудником CSAIL Андреем Барбу. Их работа была частично поддержана Центром изучения мозга, разума и машин, Национальным научным фондом, Инициативой MIT CSAIL по применению машинного обучения, лабораторией MIT-IBM Watson AI Lab, Агентством перспективных оборонных исследовательских проектов США (DARPA), Ускорителем искусственного интеллекта Министерства ВВС США и Управлением научных исследований Министерства ВВС США.

Их работа недавно была представлена на конференции и семинаре по системам обработки нейронной информации (NeurIPS).

1. В чём заключается метод руководства в контексте обучения нейронных сетей?

Ответ: метод руководства заключается в поощрении целевой сети к соответствию внутренним представлениям направляющей сети во время обучения. Это позволяет передать структурные знания напрямую от одной сети к другой, а не просто имитировать выходные данные учителя.

2. Какие преимущества даёт метод руководства по сравнению с традиционными методами, такими как дистилляция знаний?

Ответ: в отличие от дистилляции знаний, которая фокусируется на имитации выходных данных учителя, руководство передаёт структурные знания напрямую. Это позволяет целевой сети изучить, как направляющая организует информацию в каждом слое, а не просто копировать её поведение. Кроме того, руководство может улучшить производительность архитектур, ранее считавшихся непригодными для современных задач.

3. Какие результаты были получены исследователями при использовании метода руководства с глубокими полносвязными сетями (FCNs)?

Ответ: исследователи провели эксперимент с глубокими полносвязными сетями (FCNs), в котором сеть потратила несколько шагов, тренируясь с другой сетью, используя случайный шум, как разминка перед упражнениями. Результаты были поразительными: сети, которые обычно сразу переобучались, оставались стабильными, достигали более низкого уровня потерь при обучении и избегали классического ухудшения производительности, наблюдаемого в стандартных FCNs.

4. Какие выводы можно сделать из исследования о потенциале «необучаемых» нейронных сетей?

Ответ: исследование показывает, что так называемые «необучаемые» сети не обречены по своей сути. С помощью руководства можно устранить режимы сбоев, избежать переобучения и привести ранее неэффективные архитектуры в соответствие с современными стандартами производительности.

5. Какие перспективы открывает метод руководства для разработки более эффективного и ориентированного на человека ИИ?

Ответ: метод руководства позволяет добавить различные индуктивные предубеждения в нейронные сети, что имеет решающее значение для разработки более эффективного и ориентированного на человека ИИ. Это может привести к созданию более совершенных архитектур, способных решать сложные задачи и работать в различных условиях.

Источник