Исследователи из Кембриджского университета предложили библиотеку SymTorch. Она предназначена для интеграции символьной регрессии (СР) в рабочие процессы глубокого обучения. Библиотека позволяет приближать компоненты нейронных сетей с помощью математических выражений в замкнутой форме, что облегчает функциональную интерпретируемость и потенциально ускоряет процесс логического вывода.
Основной механизм: рабочий процесс «обёртка-дистилляция-переключение»
SymTorch упрощает разработку, необходимую для извлечения символьных уравнений из обученных моделей, автоматизируя перемещение данных и управление хуками.
1. Обёртка (Wrap): пользователи применяют обёртку SymbolicModel к любому nn.Module или вызываемой функции.
2. Дистилляция (Distill): библиотека регистрирует прямые хуки для записи входных и выходных активаций во время прямого прохода. Они кэшируются и переносятся с GPU на CPU для символьной регрессии через PySR.
3. Переключение (Switch): после дистилляции исходные нейронные веса можно заменить обнаруженным уравнением в прямом проходе с помощью switchtosymbolic.
Библиотека взаимодействует с PySR, который использует многопопуляционный генетический алгоритм для поиска уравнений, балансирующих точность и сложность на парето-фронте. «Лучшее» уравнение выбирается путём максимизации дробного падения среднего логарифмического абсолютного значения ошибки относительно увеличения сложности.
Пример применения: ускорение логического вывода LLM
Одним из основных направлений исследования является замена слоёв многомерного перцептрона (MLP) в моделях-трансформерах символьными суррогатами для повышения пропускной способности.
Детали реализации
Из-за высокой размерности активаций LLM исследовательская группа применила анализ главных компонент (PCA) для сжатия входных и выходных данных перед выполнением СР. Для модели Qwen2.5-1.5B они выбрали 32 главные компоненты для входных данных и 8 для выходных по трём целевым слоям.
Компромиссы в производительности
Вмешательство привело к увеличению пропускной способности токенов на 8,3 %. Однако этот выигрыш сопровождался нетривиальным увеличением перплексии, в основном из-за уменьшения размерности PCA, а не из-за самой символьной аппроксимации.
| Метрика | Базовые значения (Qwen2.5-1.5B) | Символьный суррогат |
|————|———————————-|———————-|
| Перплексия (Wikitext-2) | 10,62 | 13,76 |
| Пропускная способность (токены/с) | 4878,82 | 5281,42 |
| Средняя задержка (мс) | 209,89 | 193,89 |
GNNs и PINNs
SymTorch была проверена на способности восстанавливать известные физические законы из скрытых представлений в научных моделях.
- Графические нейронные сети (GNNs): обучив GNN динамике частиц, исследовательская группа использовала SymTorch для восстановления эмпирических законов сил, таких как гравитация (1/r²) и силы пружины, непосредственно из сообщений рёбер.
- Нейронные сети с учётом физики (PINNs): библиотека успешно извлекла аналитическое решение одномерного уравнения теплопроводности из обученной PINN. Индуктивное смещение PINN позволило достичь средней квадратичной ошибки (MSE) в 7,40 × 10⁻⁶.
Анализ арифметики LLM
Символьная дистилляция была использована для проверки того, как модели вроде Llama-3.2-1B выполняют сложение и умножение трёхзначных чисел. Дистиллированные уравнения показали, что, хотя модели часто верны, они полагаются на внутренние эвристики, которые включают систематические числовые ошибки.
Ключевые выводы
- Автоматизированная символьная дистилляция: SymTorch — это библиотека, которая автоматизирует процесс замены сложных компонентов нейронных сетей интерпретируемыми математическими уравнениями в замкнутой форме путём обёртывания компонентов и сбора их поведения на входе и выходе.
- Преодоление инженерных барьеров: библиотека решает критически важные инженерные задачи, которые ранее препятствовали внедрению символьной регрессии, включая передачу данных между GPU и CPU, кэширование ввода-вывода и плавный переход между нейронными и символьными прямыми проходами.
- Ускорение логического вывода LLM: доказательство концепции продемонстрировало, что замена слоёв MLP в модели-трансформаторе символьными суррогатами позволила повысить пропускную способность на 8,3 %, хотя и с некоторым снижением перплексии.
- Открытие физических законов: SymTorch успешно использовалась для восстановления физических законов из графических нейронных сетей (GNNs) и аналитических решений одномерного уравнения теплопроводности из нейронных сетей с учётом физики (PINNs).
- Функциональная интерпретируемость LLM: путём дистилляции сквозного поведения LLM исследователи смогли изучить явные математические эвристики, используемые для таких задач, как арифметика, и выявить, где внутренняя логика отклоняется от точных операций.
Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2602.21307), [репозиторием](https://[repolink]) и [страницей проекта](https://[projectpage]). Подписывайтесь на нас в [Twitter](https://[twitterlink]) и присоединяйтесь к нашему [ML SubReddit](https://[subredditlink]) и [подпишитесь на рассылку](https://[newsletter_link]). А если вы в Telegram, присоединяйтесь к нам и там!
1. Какие основные механизмы лежат в основе работы библиотеки SymTorch?
Ответ: основной механизм работы библиотеки SymTorch включает в себя три этапа: обёртка (Wrap), дистилляция (Distill) и переключение (Switch). На этапе обёртки пользователи применяют обёртку SymbolicModel к любому nn.Module или вызываемой функции. На этапе дистилляции библиотека регистрирует прямые хуки для записи входных и выходных активаций во время прямого прохода, которые кэшируются и переносятся с GPU на CPU для символьной регрессии через PySR. На этапе переключения исходные нейронные веса можно заменить обнаруженным уравнением в прямом проходе с помощью switchtosymbolic.
2. Какие примеры применения SymTorch приведены в статье?
Ответ: в статье приведены примеры применения SymTorch для ускорения логического вывода LLM, восстановления известных физических законов из скрытых представлений в научных моделях, анализа арифметики LLM. В частности, SymTorch была использована для проверки того, как модели вроде Llama-3.2-1B выполняют сложение и умножение трёхзначных чисел. Также библиотека была проверена на способности восстанавливать эмпирические законы сил из динамики частиц и извлекать аналитическое решение одномерного уравнения теплопроводности из обученной PINN.
3. Какие ключевые выводы можно сделать из статьи о SymTorch?
Ответ: ключевые выводы из статьи о SymTorch включают:
* SymTorch — это библиотека, которая автоматизирует процесс замены сложных компонентов нейронных сетей интерпретируемыми математическими уравнениями в замкнутой форме.
* Библиотека решает критически важные инженерные задачи, которые ранее препятствовали внедрению символьной регрессии.
* SymTorch может быть использована для ускорения логического вывода LLM, восстановления физических законов и анализа арифметики LLM.
* Библиотека позволяет преодолеть инженерные барьеры, связанные с передачей данных между GPU и CPU, кэшированием ввода-вывода и плавным переходом между нейронными и символьными прямыми проходами.
* Функциональная интерпретируемость LLM может быть улучшена путём дистилляции сквозного поведения LLM.
4. Какие компромиссы в производительности были отмечены при использовании SymTorch для ускорения логического вывода LLM?
Ответ: при использовании SymTorch для ускорения логического вывода LLM было отмечено увеличение пропускной способности токенов на 8,3 %. Однако этот выигрыш сопровождался нетривиальным увеличением перплексии, в основном из-за уменьшения размерности PCA, а не из-за самой символьной аппроксимации.
5. Какие типы нейронных сетей были использованы для демонстрации возможностей SymTorch?
Ответ: в статье продемонстрированы возможности SymTorch на примере графических нейронных сетей (GNNs) и нейронных сетей с учётом физики (PINNs). Исследовательская группа использовала SymTorch для восстановления эмпирических законов сил, таких как гравитация (1/r²) и силы пружины, непосредственно из сообщений рёбер в GNN. Также библиотека успешно извлекла аналитическое решение одномерного уравнения теплопроводности из обученной PINN.