OLMoTrace: новый инструмент для повышения прозрачности больших языковых моделей

### Понимание пределов прозрачности больших языковых моделей

По мере того как большие языковые модели (LLM) становятся основой для всё большего числа приложений — от поддержки принятия решений в бизнесе до образования и научных исследований — возрастает необходимость понимания их внутреннего механизма принятия решений. Основная проблема остаётся прежней: как определить, откуда берётся ответ модели? Большинство LLM обучаются на огромных наборах данных, состоящих из триллионов токенов, однако до сих пор не существовало практического инструмента для сопоставления ответов модели с данными, на которых они были обучены. Эта непрозрачность усложняет оценку надёжности, отслеживание фактических источников и исследование потенциального запоминания или предвзятости.

#### OLMoTrace — инструмент для отслеживания вывода в реальном времени

Институт искусственного интеллекта Аллена (Ai2) недавно представил OLMoTrace — систему, предназначенную для отслеживания сегментов ответов, сгенерированных LLM, до их обучающих данных в реальном времени. Система построена на основе открытых моделей OLMo от Ai2 и предоставляет интерфейс для выявления дословных совпадений между сгенерированным текстом и документами, использованными при обучении модели. В отличие от подходов, дополняющих извлечение (RAG), которые вводят внешний контекст во время логического вывода, OLMoTrace предназначен для последующего толкования — он выявляет связи между поведением модели и предыдущим воздействием во время обучения.

OLMoTrace интегрирован в Playground от Ai2, где пользователи могут изучать определённые фрагменты в выводе LLM, просматривать соответствующие обучающие документы и просматривать эти документы в расширенном контексте. Система поддерживает модели OLMo, включая OLMo-2-32B-Instruct, и использует все их обучающие данные — более 4,6 триллионов токенов из 3,2 миллиардов документов.

### Техническая архитектура и проектные соображения

В основе OLMoTrace лежит infini-gram — поисковая система для текстовых корпусов экстремального масштаба. Система использует структуру на основе массива суффиксов для эффективного поиска точных фрагментов из выходных данных модели в обучающих данных. Основной конвейер логического вывода состоит из пяти этапов:

1. **Идентификация фрагментов**: извлекает все максимальные фрагменты из выходных данных модели, которые соответствуют дословным последовательностям в обучающих данных. Алгоритм избегает неполных, слишком распространённых или вложенных фрагментов.
2. **Фильтрация фрагментов**: ранжирует фрагменты на основе «вероятности однограммы фрагмента», отдавая предпочтение более длинным и менее частым фразам как индикатору информативности.
3. **Извлечение документов**: для каждого фрагмента система извлекает до 10 релевантных документов, содержащих фразу, балансируя точность и время выполнения.
4. **Объединение**: объединяет перекрывающиеся фрагменты и дубликаты, чтобы уменьшить избыточность в пользовательском интерфейсе.
5. **Ранжирование по релевантности**: применяет оценку BM25 для ранжирования извлечённых документов на основе их сходства с исходной подсказкой и ответом.

Такая конструкция обеспечивает не только точность результатов отслеживания, но и их отображение в среднем за 4,5 секунды для выходных данных модели объёмом 450 токенов. Вся обработка выполняется на узлах на базе CPU с использованием SSD для хранения больших индексных файлов с низким временем доступа.

### Оценка, выводы и варианты использования

Ai2 провёл бенчмаркинг OLMoTrace, используя 98 разговоров, сгенерированных LLM, из внутреннего использования. Релевантность документов оценивалась как людьми-аннотаторами, так и с помощью модели «LLM-as-a-Judge» (gpt-4o). Лучший извлечённый документ получил средний балл релевантности 1,82 (по шкале от 0 до 3), а топ-5 документов — средний балл 1,50, что указывает на разумное соответствие между выходом модели и извлечённым обучающим контекстом.

Три наглядных примера использования демонстрируют полезность системы:

* **Проверка фактов**: пользователи могут определить, был ли фактический утверждение, вероятно, запомнен из обучающих данных, проверив его исходные документы.
* **Анализ творческого выражения**: даже кажущиеся новыми или стилизованными языковые конструкции (например, фразы в стиле Толкина) иногда можно отследить до фанфиков или литературных образцов в обучающем корпусе.
* **Математическое мышление**: OLMoTrace может находить точные совпадения для символьных вычислений или структурированных примеров решения задач, проливая свет на то, как LLM обучаются математическим задачам.

Эти примеры использования подчёркивают практическую ценность отслеживания выходных данных модели до обучающих данных для понимания запоминания, происхождения данных и поведения обобщения.

### Последствия для открытых моделей и аудита моделей

OLMoTrace подчёркивает важность прозрачности при разработке LLM, особенно для моделей с открытым исходным кодом. Хотя инструмент отображает только лексические совпадения, а не причинно-следственные связи, он предоставляет конкретный механизм для исследования того, как и когда языковые модели повторно используют обучающий материал. Это особенно актуально в контексте соблюдения нормативных требований, аудита авторских прав или обеспечения качества.

Открытая основа системы, созданная под лицензией Apache 2.0, также приглашает к дальнейшим исследованиям. Исследователи могут расширить её до приблизительного сопоставления или методов, основанных на влиянии, а разработчики могут интегрировать её в более широкие конвейеры оценки LLM.

В условиях, когда поведение моделей часто непрозрачно, OLMoTrace задаёт пример для проверяемых языковых моделей, основанных на данных, — поднимая планку прозрачности в разработке и развёртывании моделей.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *