Исследователи Google DeepMind выпустили Gemma Scope 2 — комплексный инструмент для интерпретации моделей Gemma 3

Исследователи Google DeepMind представили Gemma Scope 2 — открытый набор инструментов для интерпретации, который демонстрирует, как языковые модели Gemma 3 обрабатывают и представляют информацию на всех уровнях — от 270 миллионов до 27 миллиардов параметров.

Основная цель Gemma Scope 2 — предоставить командам, занимающимся безопасностью и согласованием ИИ, практичный способ отслеживать поведение модели по внутренним признакам, а не полагаться только на анализ ввода-вывода. Когда модель Gemma 3 совершает «побег из тюрьмы», галлюцинирует или проявляет подхалимское поведение, Gemma Scope 2 позволяет исследователям проверить, какие внутренние признаки сработали и как эти активации распространялись по сети.

Что такое Gemma Scope 2?

Gemma Scope 2 — это комплексный открытый набор инструментов, включающий разреженные автоэнкодеры и другие инструменты, обученные на внутренних активациях семейства моделей Gemma 3. Разреженные автоэнкодеры (SAEs) действуют как микроскоп для модели. Они разлагают многомерные активации на разреженный набор доступных для человека признаков, которые соответствуют концепциям или поведению.

Для обучения Gemma Scope 2 потребовалось сохранить около 110 петабайт данных об активации и настроить более триллиона параметров во всех моделях интерпретации.

Набор инструментов нацелен на каждый вариант Gemma 3, включая модели с 270 миллионами, 1 миллиардом, 4 миллиардами, 12 миллиардами и 27 миллиардами параметров, и охватывает всю глубину сети. Это важно, поскольку многие важные для безопасности поведения проявляются только в более крупных масштабах.

Что нового по сравнению с оригинальным Gemma Scope?

Первый выпуск Gemma Scope был сосредоточен на Gemma 2 и уже позволил провести исследования галлюцинаций модели, выявления секретов, известных модели, и обучения более безопасным моделям.

Gemma Scope 2 расширяет эту работу в четырёх основных направлениях:
* Инструменты теперь охватывают всё семейство Gemma 3 до 27 миллиардов параметров, что необходимо для изучения эмерджентного поведения, наблюдаемого только в более крупных моделях, например, в модели C2S Scale размером 27 миллиардов для задач научного открытия.
* Gemma Scope 2 включает в себя SAE и транскодеры, обученные на каждом слое Gemma 3. Пропуск транскодеров и межслойные транскодеры помогают отслеживать многошаговые вычисления, распределённые по слоям.
* В наборе используется методика обучения «матрёшка», благодаря чему SAE обучаются более полезным и стабильным признакам и устраняются некоторые недостатки, выявленные в более раннем выпуске Gemma Scope.
* Существуют специальные инструменты для интерпретации моделей Gemma 3, настроенные для чата, которые позволяют анализировать многошаговое поведение, такое как «побег из тюрьмы», механизмы отказа и последовательность мысли.

Ключевые выводы

* Gemma Scope 2 — это открытый набор инструментов для интерпретации всех моделей Gemma 3, от 270 миллионов до 27 миллиардов параметров, с SAE и транскодерами на каждом слое как предварительно обученных, так и настроенных для выполнения инструкций вариантов.
* В наборе используются разреженные автоэнкодеры в качестве микроскопа, который разлагает внутренние активации на разреженные, похожие на концепции признаки, а также транскодеры, отслеживающие распространение этих признаков по слоям.
* Gemma Scope 2 специально предназначен для работы по обеспечению безопасности ИИ для изучения «побега из тюрьмы», галлюцинаций, подхалимства, механизмов отказа и расхождений между внутренним состоянием и сообщаемыми рассуждениями в Gemma 3.

Ознакомьтесь с [статьёй](), [техническими деталями](), [весами модели](). Также подписывайтесь на нас в [Twitter](), присоединяйтесь к нашему [ML SubReddit]() и подписывайтесь на [рассылку](). А если вы в Telegram, присоединяйтесь к нам и там!

1. Какова основная цель Gemma Scope 2?

Основная цель Gemma Scope 2 — предоставить командам, занимающимся безопасностью и согласованием ИИ, практичный способ отслеживать поведение модели по внутренним признакам, а не полагаться только на анализ ввода-вывода.

2. Какие новые возможности предоставляет Gemma Scope 2 по сравнению с оригинальным Gemma Scope?

Gemma Scope 2 расширяет работу в четырёх основных направлениях:
* Инструменты теперь охватывают всё семейство Gemma 3 до 27 миллиардов параметров.
* Gemma Scope 2 включает в себя SAE и транскодеры, обученные на каждом слое Gemma 3.
* В наборе используется методика обучения «матрёшка», благодаря чему SAE обучаются более полезным и стабильным признакам.
* Существуют специальные инструменты для интерпретации моделей Gemma 3, настроенные для чата, которые позволяют анализировать многошаговое поведение.

3. Какие проблемы решает использование Gemma Scope 2 в контексте обеспечения безопасности ИИ?

Gemma Scope 2 специально предназначен для работы по обеспечению безопасности ИИ для изучения «побега из тюрьмы», галлюцинаций, подхалимства, механизмов отказа и расхождений между внутренним состоянием и сообщаемыми рассуждениями в Gemma 3.

4. Какие инструменты включены в Gemma Scope 2 и для чего они используются?

В Gemma Scope 2 включены разреженные автоэнкодеры (SAEs) и транскодеры. SAE действуют как микроскоп для модели, разлагая многомерные активации на разреженный набор доступных для человека признаков. Транскодеры отслеживают распространение этих признаков по слоям.

5. Для каких моделей предназначен Gemma Scope 2?

Gemma Scope 2 предназначен для всех моделей Gemma 3, от 270 миллионов до 27 миллиардов параметров.

Источник