Понимание поведения сложных систем машинного обучения, особенно больших языковых моделей (LLM), является критически важной задачей в современном искусственном интеллекте. Исследования интерпретируемости направлены на то, чтобы сделать процесс принятия решений более прозрачным для разработчиков моделей и людей, на которых это влияет, — шаг к более безопасному и заслуживающему доверия ИИ.
Для всестороннего понимания мы можем анализировать эти системы с разных точек зрения:
* Атрибуция признаков, которая выделяет конкретные входные признаки, определяющие прогноз (Lundberg & Lee, 2017; Ribeiro et al., 2022);
* Атрибуция данных, которая связывает поведение модели с влиятельными обучающими примерами (Koh & Liang, 2017; Ilyas et al., 2022);
* Механистическая интерпретируемость, которая анализирует функции внутренних компонентов (Conmy et al., 2023; Sharkey et al., 2025).
Во всех этих перспективах сохраняется одно фундаментальное препятствие: сложность в масштабе. Поведение модели редко является результатом изолированных компонентов; оно возникает из сложных зависимостей и закономерностей.
Алгоритм SPEX и ProxySPEX
Чтобы обнаружить влиятельные взаимодействия с управляемым числом абляций, мы разработали SPEX (Spectral Explainer). Этот фреймворк основан на теории обработки сигналов и теории кодирования, чтобы продвинуть обнаружение взаимодействий до масштабов, на порядки превышающих предыдущие методы.
SPEX использует ключевое структурное наблюдение: хотя количество общих взаимодействий непомерно велико, количество влиятельных взаимодействий на самом деле довольно мало. Мы формализуем это через два наблюдения:
* Разреженность (относительно небольшое количество взаимодействий действительно определяет результат);
* Низкая степень (влиятельные взаимодействия обычно включают только небольшое подмножество признаков).
Эти свойства позволяют нам переформулировать сложную задачу поиска в разрешимую задачу разреженного восстановления. Используя стратегически выбранные абляции, SPEX объединяет множество потенциальных взаимодействий вместе. Затем, используя эффективные алгоритмы декодирования, мы разделяем эти объединённые сигналы, чтобы выделить конкретные взаимодействия, ответственные за поведение модели.
В последующем алгоритме ProxySPEX мы выявили ещё одно структурное свойство, общее для сложных моделей машинного обучения: иерархию. Это означает, что там, где важно взаимодействие высшего порядка, его подмножества нижнего порядка также могут быть важны. Это дополнительное структурное наблюдение приводит к значительному улучшению вычислительных затрат: оно соответствует производительности SPEX примерно с в 10 раз меньшим количеством абляций.
Атрибуция признаков
Методы атрибуции признаков присваивают значения важности входным признакам на основе их влияния на вывод модели. Например, если бы LLM использовалась для постановки медицинского диагноза, этот подход мог бы точно определить, какие симптомы привели модель к такому выводу.
Атрибуция данных
Атрибуция данных определяет, какие обучающие данные наиболее ответственны за прогноз модели по новому тестовому примеру. Выявление влиятельных взаимодействий между этими точками данных является ключом к объяснению неожиданного поведения модели.
Атрибуция внимания (механистическая интерпретируемость)
Цель атрибуции компонентов модели — определить, какие внутренние части модели, такие как конкретные слои или головы внимания, наиболее ответственны за определённое поведение. Здесь ProxySPEX также раскрывает ответственные взаимодействия между различными частями архитектуры.
Что дальше?
Фреймворк SPEX представляет собой значительный шаг вперёд для интерпретируемости, расширяя возможности обнаружения взаимодействий с десятков до тысяч компонентов. Мы продемонстрировали универсальность фреймворка на протяжении всего жизненного цикла модели: от изучения атрибуции признаков на входных данных большой длины до выявления синергии и избыточности среди обучающих данных и обнаружения взаимодействий между внутренними компонентами модели.
Оценка систем визуализации на основе информации
Традиционные метрики, такие как разрешение и отношение сигнал/шум, оценивают отдельные аспекты качества отдельно, что затрудняет сравнение систем, которые торгуют между этими факторами.
Мы разработали фреймворк, который позволяет напрямую оценивать и оптимизировать системы визуализации на основе их информационного содержания. В нашей статье на NeurIPS 2025 мы показываем, что этот информационный показатель предсказывает производительность системы в четырёх областях визуализации и что его оптимизация приводит к созданию конструкций, соответствующих современным методам сквозной оптимизации, требующим меньше памяти, меньше вычислений и не требующим проектирования декодера для конкретной задачи.
Почему взаимная информация?
Взаимная информация количественно определяет, насколько измерение снижает неопределённость относительно объекта, который его породил. Две системы с одинаковой взаимной информацией эквивалентны по своей способности различать объекты, даже если их измерения выглядят совершенно по-разному.
Это единственное число отражает совокупный эффект разрешения, шума, выборки и всех других факторов, влияющих на качество измерения. Размытое, зашумлённое изображение, сохраняющее функции, необходимые для различения объектов, может содержать больше информации, чем чёткое, чистое изображение, которое теряет эти функции.
Оценка информации из измерений
Оценка взаимной информации между высокоразмерными переменными является общеизвестной сложной задачей. Требования к выборке растут экспоненциально с размерностью, а оценки страдают от высокого смещения и дисперсии.
Однако системы визуализации обладают свойствами, которые позволяют разложить эту сложную задачу на более простые подзадачи. Взаимная информация может быть записана как:
$I(X; Y) = H(Y) — H(Y \mid X)$
Первый член, $H(Y)$, измеряет общую вариацию в измерениях как от различий объектов, так и от шума. Второй член, $H(Y \mid X)$, измеряет вариацию только от шума.
Взаимная информация равна разнице между общей вариацией измерений и вариацией, обусловленной только шумом.
Оценка информации из измерений
Оценка взаимной информации между высокоразмерными переменными является общеизвестной сложной задачей. Требования к выборке растут экспоненциально с размерностью, а оценки страдают от высокого смещения и дисперсии.
Однако системы визуализации обладают свойствами, которые позволяют разложить эту сложную задачу на более простые подзадачи. Взаимная информация может быть записана как:
$I(X; Y) = H(Y) — H(Y \mid X)$
Первый член, $H(Y)$, измеряет общую вариацию в измерениях как от различий объектов, так и от шума. Второй член, $H(Y \mid X)$, измеряет вариацию только от шума.
Взаимная информация равна разнице между общей вариацией измерений и вариацией, обусловленной только шумом.
Проектирование систем с помощью IDEAL
Метод Information-Driven Encoder Analysis Learning (IDEAL) использует градиентный подъём на информационных оценках для оптимизации параметров системы визуализации. IDEAL оптимизирует только кодировщик, избегая проблем, связанных с оптимизацией декодера.
Стандартный подход к проектированию вычислительных систем визуализации, сквозная оптимизация, совместно обучает аппаратное обеспечение визуализации и нейронную сеть декодера. Это требует обратного распространения через весь декодер, создавая ограничения по памяти и потенциальные трудности оптимизации.
IDEAL избегает этих проблем, оптимизируя только кодировщик. Мы протестировали его на дизайне цветных фильтров. Начиная со случайного расположения фильтров, IDEAL постепенно улучшал дизайн. Конечный результат соответствовал сквозной оптимизации как по информационному содержанию, так и по качеству реконструкции.
Последствия
Информационно-ориентированная оценка создаёт новые возможности для строгой оценки систем визуализации в реальных условиях. Текущие подходы требуют либо субъективной визуальной оценки, данных об истинном положении дел, которые недоступны при развёртывании, либо изолированных метрик, которые не учитывают общие возможности. Наш метод предоставляет объективный, унифицированный показатель на основе одних только измерений.
Вычислительная эффективность IDEAL предполагает возможности для проектирования систем визуализации, которые ранее были недоступны. Избегая обратного распространения декодера, подход снижает требования к памяти и сложность обучения. Мы более подробно рассмотрим эти возможности в последующих работах.
Фреймворк может выйти за рамки визуализации и распространиться на другие области сенсорного восприятия. Любая система, которую можно смоделировать как детерминированное кодирование с известными характеристиками шума, может извлечь выгоду из информационно-ориентированной оценки и проектирования, включая электронные, биологические и химические датчики.
1. Какие методы используются для анализа больших языковых моделей (LLM) и какие препятствия существуют при их интерпретации?
В статье упоминаются три метода анализа LLM: атрибуция признаков, атрибуция данных и механистическая интерпретируемость. Препятствием при интерпретации является сложность в масштабе, так как поведение модели редко является результатом изолированных компонентов, а возникает из сложных зависимостей и закономерностей.
2. Как фреймворк SPEX помогает преодолеть сложность при анализе LLM?
SPEX (Spectral Explainer) использует теорию обработки сигналов и теорию кодирования для обнаружения влиятельных взаимодействий с управляемым числом абляций. Он основан на двух наблюдениях: разреженности (небольшое количество взаимодействий определяет результат) и низкой степени (влиятельные взаимодействия включают небольшое подмножество признаков). Это позволяет переформулировать сложную задачу поиска в разрешимую задачу разреженного восстановления.
3. Какие преимущества предлагает алгоритм ProxySPEX по сравнению с другими методами анализа LLM?
ProxySPEX выявляет иерархию в сложных моделях машинного обучения, что означает, что взаимодействия высшего порядка могут быть важны, а их подмножества нижнего порядка также могут быть важны. Это приводит к значительному улучшению вычислительных затрат: производительность ProxySPEX соответствует производительности SPEX примерно с в 10 раз меньшим количеством абляций.
4. Какие методы используются для атрибуции признаков и данных в LLM?
Методы атрибуции признаков присваивают значения важности входным признакам на основе их влияния на вывод модели. Атрибуция данных определяет, какие обучающие данные наиболее ответственны за прогноз модели по новому тестовому примеру. Выявление влиятельных взаимодействий между этими точками данных является ключом к объяснению неожиданного поведения модели.
5. Какие перспективы открывает использование информационно-ориентированной оценки и проектирования систем визуализации?
Информационно-ориентированная оценка создаёт новые возможности для строгой оценки систем визуализации в реальных условиях. Вычислительная эффективность IDEAL предполагает возможности для проектирования систем визуализации, которые ранее были недоступны. Этот фреймворк может выйти за рамки визуализации и распространиться на другие области сенсорного восприятия, включая электронные, биологические и химические датчики.