Когда нейронные сети принимают решения в самых разных областях — от редакторов кода до систем безопасности, — как мы можем увидеть конкретные схемы, которые управляют каждым действием? Исследователи из OpenAI представили новое исследование в области механистической интерпретируемости, в котором обучают языковые модели использовать разреженные внутренние связи, чтобы поведение модели можно было объяснить с помощью небольших явных схем.
Обучение трансформеров с разреженными весами
Большинство языковых моделей-трансформеров являются плотными. Каждый нейрон считывает данные со многих остаточных каналов и записывает их, а признаки часто находятся в суперпозиции. Это затрудняет анализ на уровне схем.
Предыдущая работа OpenAI была направлена на изучение разреженных базисов признаков поверх плотных моделей с помощью разреженных автоэнкодеров. Новое исследование меняет базовую модель так, что сам трансформер становится разреженным по весам.
Команда OpenAI обучает только декодеры с архитектурой, аналогичной GPT-2. После каждого шага оптимизатора AdamW они устанавливают фиксированный уровень разреженности для каждой весовой матрицы и смещения, включая вложения токенов. Сохраняются только записи с наибольшей величиной в каждой матрице, остальные устанавливаются равными нулю.
В ходе обучения график постепенного снижения доли ненулевых параметров постепенно снижает долю ненулевых параметров до тех пор, пока модель не достигнет заданной разреженности. В наиболее экстремальных условиях примерно 1 из 1000 весов является ненулевым. Активация также несколько разрежена. Примерно 1 из 4 активаций является ненулевой в типичном месте расположения узла.
Измерение интерпретируемости через специфическую для задач обрезку
Чтобы определить, насколько эти модели проще для понимания, команда OpenAI не полагается только на качественные примеры. Исследовательская группа определяет набор простых алгоритмических задач, основанных на предсказании следующего токена в Python.
Для каждой задачи они ищут наименьшую подсеть, называемую схемой, которая всё ещё может выполнять задачу до заданного порога потерь. Обрезка основана на узлах. Узел — это нейрон MLP на определённом слое, заголовок внимания или канал остаточного потока на определённом слое. Когда узел удаляется, его активация заменяется средним значением по распределению предварительного обучения. Это средняя абляция.
Примеры схем в разреженных трансформерах
В задаче singledoublequote разреженные модели дают компактную и полностью интерпретируемую схему. В раннем слое MLP один нейрон ведёт себя как детектор кавычек, который активируется как по одинарным, так и по двойным кавычкам. Второй нейрон ведёт себя как классификатор типов кавычек, который различает два типа кавычек. Позже заголовок внимания использует эти сигналы, чтобы вернуться к позиции открывающей кавычки и скопировать её тип в закрывающую позицию.
В терминах графа схем механизм использует 5 остаточных каналов, 2 нейрона MLP в слое 0 и 1 заголовок внимания в более позднем слое с одним соответствующим каналом ключа запроса и одним каналом значения. Если остальная часть модели будет удалена, этот подграф всё ещё будет решать задачу. Если удалить эти несколько рёбер, модель не справится с задачей. Таким образом, схема является одновременно достаточной и необходимой в операционном смысле, определённом в статье.
Для более сложного поведения, такого как отслеживание типа переменной с именем current внутри тела функции, восстановленные схемы оказываются больше и только частично поняты. Исследовательская группа приводит пример, где одна операция внимания записывает имя переменной в набор токенов() при определении, а другая операция внимания позже копирует информацию о типе из этого токена обратно в более позднее использование current. Это всё ещё даёт относительно небольшой граф схемы.
Ключевые выводы
* Трансформеры с разреженными весами по своей конструкции: OpenAI обучает только декодеры в стиле GPT-2 так, чтобы почти все веса были равны нулю, примерно 1 из 1000 весов является ненулевым, устанавливая разреженность для всех весов и смещений, включая вложения токенов, что даёт тонкие графы связности, которые структурно проще анализировать.
* Интерпретируемость измеряется как минимальный размер схемы: работа определяет эталон простых задач следующего токена в Python и для каждой задачи ищет наименьшую подсеть с точки зрения активных рёбер между узлами, которая всё ещё достигает фиксированного уровня потерь, используя обрезку на уровне узлов со средней абляцией и оптимизацией маски в стиле прямого прохождения через суррогатный градиент.
* Возникают конкретные, полностью реконструированные схемы: в таких задачах, как предсказание соответствующих символов кавычек, разреженная модель даёт компактную схему с несколькими остаточными каналами, 2 ключевыми нейронами MLP и 1 заголовком внимания, которые авторы могут полностью реконструировать и проверить как достаточные и необходимые для поведения.
* Разреженность обеспечивает гораздо меньшие схемы при фиксированной возможности: при согласованных уровнях потерь при предварительном обучении модели с разреженными весами требуют схем, которые примерно в 16 раз меньше, чем схемы, восстановленные из плотных базовых моделей, определяя границу интерпретируемости возможностей, где повышенная разреженность улучшает интерпретируемость при незначительном снижении реальных возможностей.
Редакционные комментарии
Работа OpenAI над трансформерами с разреженными весами — это прагматичный шаг к тому, чтобы сделать механистическую интерпретируемость операционной. Устанавливая разреженность непосредственно в базовой модели, статья превращает абстрактные обсуждения схем в конкретные графы с измеримым количеством рёбер, чёткими тестами необходимости и достаточности, а также воспроизводимыми бенчмарками для задач следующего токена в Python. Модели небольшие и неэффективные, но методология актуальна для будущих проверок безопасности и рабочих процессов отладки.
Это исследование рассматривает интерпретируемость как основное ограничение проектирования, а не как диагностику после факта.
1. Какие методы используются для обучения трансформеров с разреженными весами в исследовании OpenAI?
В исследовании OpenAI используется метод обучения трансформеров с разреженными весами, при котором после каждого шага оптимизатора AdamW устанавливается фиксированный уровень разреженности для каждой весовой матрицы и смещения, включая вложения токенов. Сохраняются только записи с наибольшей величиной в каждой матрице, остальные устанавливаются равными нулю.
2. Как измеряется интерпретируемость трансформеров с разреженными весами?
Исследовательская группа OpenAI определяет набор простых алгоритмических задач, основанных на предсказании следующего токена в Python. Для каждой задачи они ищут наименьшую подсеть, называемую схемой, которая всё ещё может выполнять задачу до заданного порога потерь. Обрезка основана на узлах. Узел — это нейрон MLP на определённом слое, заголовок внимания или канал остаточного потока на определённом слое.
3. Какие примеры схем в разреженных трансформерах приведены в статье?
В статье приведены примеры схем в разреженных трансформерах для задачи singledoublequote. В раннем слое MLP один нейрон ведёт себя как детектор кавычек, который активируется как по одинарным, так и по двойным кавычкам. Второй нейрон ведёт себя как классификатор типов кавычек, который различает два типа кавычек. Позже заголовок внимания использует эти сигналы, чтобы вернуться к позиции открывающей кавычки и скопировать её тип в закрывающую позицию.
4. Какие ключевые выводы можно сделать из исследования OpenAI о трансформерах с разреженными весами?
Ключевые выводы исследования OpenAI о трансформерах с разреженными весами включают:
* Трансформеры с разреженными весами по своей конструкции проще анализировать.
* Интерпретируемость измеряется как минимальный размер схемы.
* Возникают конкретные, полностью реконструированные схемы.
* Разреженность обеспечивает гораздо меньшие схемы при фиксированной возможности.
5. В чём заключается редакционная оценка исследования OpenAI о трансформерах с разреженными весами?
Редакционная оценка исследования OpenAI заключается в том, что работа над трансформерами с разреженными весами — это прагматичный шаг к тому, чтобы сделать механистическую интерпретируемость операционной. Устанавливая разреженность непосредственно в базовой модели, статья превращает абстрактные обсуждения схем в конкретные графы с измеримым количеством рёбер, чёткими тестами необходимости и достаточности, а также воспроизводимыми бенчмарками для задач следующего токена в Python.