Zyphra, исследовательская лаборатория, специализирующаяся на масштабных моделях, недавно выпустила ZUNA — базовую модель на 380 миллионов параметров, специально предназначенную для работы с сигналами ЭЭГ.
Проблемы «хрупких» моделей ЭЭГ
На протяжении десятилетий исследователи сталкивались с трудностями при работе с данными ЭЭГ. Разные наборы данных используют разное количество каналов и непоследовательное расположение электродов. Большинство моделей глубокого обучения обучаются на фиксированных монтажных схемах каналов, что приводит к их сбоям при применении к новым наборам данных или условиям записи. Кроме того, измерения ЭЭГ часто сопровождаются шумом из-за смещения электродов или движений испытуемого.
4D-архитектура ZUNA: пространственный интеллект
ZUNA решает проблему обобщаемости, рассматривая мозговые сигналы как пространственно обоснованные данные. Вместо того чтобы предполагать наличие фиксированной сетки, ZUNA вводит пространственно-временную структуру через 4D-поворотное позиционное кодирование (4D RoPE).
Модель преобразует многоканальную ЭЭГ в короткие временные окна по 0,125 секунды или 32 выборки. Каждый токен сопоставляется с 4D-координатой: его 3D-расположением на коже головы (x, y, z) и индексом времени (t). Это позволяет модели обрабатывать произвольные подмножества каналов и позиции. Поскольку она опирается на позиционные вложения, а не на фиксированную схему, ZUNA может «представлять» данные сигнала в любой точке головы, где датчик может отсутствовать.
Диффузия как генеративный механизм
ZUNA использует диффузионный подход, поскольку сигналы ЭЭГ непрерывны и имеют действительные значения. Модель объединяет диффузионный декодер с энкодером, который хранит информацию о сигнале в скрытом узком месте.
Во время обучения Zyphra использовала тяжёлую цель с отбрасыванием каналов. Они случайным образом отбрасывали 90% каналов, заменяя их нулями во входных данных энкодера. Затем перед моделью ставилась задача реконструировать эти «замаскированные» сигналы на основе информации, содержащейся в оставшихся 10% каналов. Это заставило модель изучить глубокие межканальные корреляции и мощное внутреннее представление мозговой активности.
Массивный конвейер данных: 2 миллиона часов
Качество данных — это основа любой базовой модели. Zyphra объединила согласованный корпус, охватывающий 208 общедоступных наборов данных. Эта обширная коллекция включает:
* 2 миллиона часов записи ЭЭГ.
* Более 24 миллионов неперекрывающихся 5-секундных образцов.
* Широкий диапазон количества каналов от 2 до 256 на запись.
Конвейер предварительной обработки стандартизировал все сигналы до общей частоты дискретизации 256 Гц. Они использовали MNE-Python для применения высокочастотных фильтров на 0,5 Гц и адаптивного режекторного фильтра для удаления сетевых помех. Затем сигналы были нормализованы по z-оценке, чтобы обеспечить нулевое среднее значение и единичную дисперсию при сохранении пространственной структуры.
Бенчмарки: победа над сферическим сплайном
В течение многих лет отраслевым стандартом для заполнения отсутствующих данных ЭЭГ была интерполяция сферическим сплайном. Хотя сплайны полезны для захвата локальной гладкости, у них нет «обученного априори», и они терпят неудачу, когда промежутки между датчиками становятся слишком большими.
ZUNA последовательно превосходит интерполяцию сферическим сплайном по множеству бенчмарков, включая набор данных ANPHY-Sleep и набор данных BCI2000 для моторной визуализации. Разница в производительности значительно увеличивается при более высоких уровнях отбрасывания каналов. В экстремальных сценариях с отбрасыванием 90% — по сути, при 10-кратном увеличении разрешения — ZUNA сохраняет высокую точность реконструкции, в то время как методы сплайнов резко ухудшаются.
Ключевые выводы
* Универсальное обобщение. ZUNA — это модель на 380 миллионов параметров, которая работает с любой системой ЭЭГ, независимо от количества или расположения электродов. В отличие от предыдущих моделей ИИ, ограниченных фиксированными схемами, она обобщает данные различных наборов и новых положений каналов.
* 4D-пространственно-временной интеллект. Модель использует систему 4D-поворотного позиционного кодирования (4D RoPE) для сопоставления мозговых сигналов в трёхмерном пространстве (x, y, z) и времени (t). Это позволяет ей «понимать» физическую геометрию кожи головы и точно предсказывать отсутствующие данные.
* Превосходная реконструкция каналов. Обучаясь как замаскированный диффузионный автоэнкодер, ZUNA значительно превосходит традиционную интерполяцию сферическим сплайном. Она превосходно справляется с «суперразрешением», сохраняя высокую точность даже при наличии до 90% отсутствующих или повреждённых сигналов мозга.
* Масштабное обучение. Модель была обучена на согласованном корпусе из 208 наборов данных, общим объёмом примерно 2 миллиона часов работы каналов и 24 миллиона уникальных 5-секундных образцов. Такой масштаб позволяет ей изучать глубокие межканальные корреляции, которые упускаются более простыми геометрическими методами.
Ознакомьтесь с [документом](https://www.zyphra.com/post/zuna), техническими деталями, репозиторием и весами модели. Подписывайтесь на нас в [Twitter](https://www.zyphra.com/post/zuna) и присоединяйтесь к нашему [ML SubReddit](https://www.zyphra.com/post/zuna) (более 100 тысяч участников) и подписывайтесь на [наш новостной бюллетень](https://www.zyphra.com/post/zuna). А если вы в Telegram, присоединяйтесь к нам и там!
1. Какие проблемы существуют при работе с данными ЭЭГ и как модель ZUNA решает эти проблемы?
В тексте указано, что разные наборы данных используют разное количество каналов и непоследовательное расположение электродов. Модель ZUNA решает эту проблему, рассматривая мозговые сигналы как пространственно обоснованные данные и вводя пространственно-временную структуру через 4D-поворотное позиционное кодирование (4D RoPE).
2. Какие преимущества имеет модель ZUNA по сравнению с традиционными методами интерполяции, такими как сферический сплайн?
В тексте указано, что ZUNA последовательно превосходит интерполяцию сферическим сплайном по множеству бенчмарков. Это связано с тем, что ZUNA использует диффузионный подход и обучена на большом объёме данных, что позволяет ей изучать глубокие межканальные корреляции и мощное внутреннее представление мозговой активности.
3. Какие ключевые выводы можно сделать о модели ZUNA на основе представленного текста?
На основе текста можно сделать следующие ключевые выводы: ZUNA — это модель на 380 миллионов параметров, которая работает с любой системой ЭЭГ, независимо от количества или расположения электродов; ZUNA использует систему 4D-поворотного позиционного кодирования (4D RoPE) для сопоставления мозговых сигналов в трёхмерном пространстве (x, y, z) и времени (t); ZUNA значительно превосходит традиционную интерполяцию сферическим сплайном; модель была обучена на согласованном корпусе из 208 наборов данных, общим объёмом примерно 2 миллиона часов работы каналов и 24 миллиона уникальных 5-секундных образцов.
4. Какие технические детали и параметры используются при обучении модели ZUNA?
В тексте указано, что при обучении ZUNA используется тяжёлая цель с отбрасыванием каналов. Модель случайным образом отбрасывает 90% каналов, заменяя их нулями во входных данных энкодера, и затем ставит задачу реконструировать эти «замаскированные» сигналы на основе информации, содержащейся в оставшихся 10% каналов.
5. Какие возможности предоставляет модель ZUNA для работы с ЭЭГ-данными в различных условиях и при различных расположениях электродов?
В тексте указано, что ZUNA работает с любой системой ЭЭГ, независимо от количества или расположения электродов. Она обобщает данные различных наборов и новых положений каналов, что позволяет использовать её в различных условиях и при различных расположениях электродов.