Cisco выпустила модель временных рядов Cisco Time Series Model: первая модель с открытыми весами на основе архитектуры Transformer с одним декодером

Cisco и Splunk представили модель временных рядов Cisco Time Series Model — одномерную модель временных рядов с нулевым выстрелом, разработанную для показателей наблюдаемости и безопасности. Она выпущена в виде контрольной точки с открытыми весами на Hugging Face под лицензией Apache 2.0. Модель предназначена для прогнозирования рабочих нагрузок без тонкой настройки под конкретные задачи.

Почему для наблюдаемости нужен мультиразрешающий контекст?

Производственные показатели — это не просто сигналы с одним масштабом. Недельные закономерности, долгосрочный рост и насыщение видны только при грубом разрешении. События насыщения, всплески трафика и динамика инцидентов проявляются при разрешении в 1 минуту или 5 минут.

Общие модели временных рядов работают с одним разрешением с контекстными окнами от 512 до 4096 точек, в то время как TimesFM 2.5 расширяет это до 16384 точек. Для данных с разрешением в 1 минуту это всё равно охватывает максимум пару недель, а часто и меньше.

Это проблема наблюдаемости, когда платформы данных часто сохраняют только старые данные в агрегированном виде. Детальные образцы устаревают и сохраняются только в виде часовых сводок. Модель временных рядов Cisco разработана для такого шаблона хранения. Она рассматривает грубую историю как входные данные первого класса, которые улучшают прогнозы с высоким разрешением.

Архитектура работает напрямую с мультиразрешающим контекстом, а не притворяется, что все входные данные находятся в одной сетке.

Входные данные мультиразрешения и цель прогнозирования

Формально модель потребляет пару контекстов: (xc, xf). Грубый контекст (xc) и тонкий контекст (xf) имеют длину до 512. Расстояние между (xc) фиксировано в 60 раз больше расстояния между (xf).

Типичная настройка наблюдаемости использует 512 часов часовых агрегатов и 512 минут значений с разрешением в 1 минуту. Оба ряда заканчиваются в одной точке прогноза. Модель прогнозирует горизонт в 128 точек с высоким разрешением, со средним значением и набором квантилей от 0,1 до 0,9.

Архитектура: ядро TimesFM с встраиванием разрешений

Внутри модель временных рядов Cisco повторно использует стек декодеров на основе патчей TimesFM. Входные данные нормализуются, разбиваются на неперекрывающиеся фрагменты и пропускаются через блок встраивания с остаточным подключением.

Ядро трансформатора состоит из 50 слоёв, работающих только с декодером. Последний остаточный блок сопоставляет токены обратно с горизонтом. Исследовательская группа удаляет позиционные встраивания и вместо этого полагается на порядок патчей, мультиразрешающую структуру и новое встраивание разрешения для кодирования структуры.

Два дополнения делают архитектуру мультиразрешающей. Специальный токен, часто называемый ST в отчёте, вставляется между грубыми и тонкими потоками токенов. Он находится в пространстве последовательностей и отмечает границу между разрешениями. Встраивания разрешений, часто называемые RE, добавляются в пространстве модели. Один вектор встраивания используется для всех грубых токенов, а другой — для всех тонких токенов.

Обучение данных и рецепт

Модель временных рядов Cisco обучается путём непрерывного предварительного обучения на весах TimesFM. Окончательная модель имеет 500 миллионов параметров. Для обучения используется AdamW для смещений, норм и внедрений, а Muon — для скрытых слоёв, с косинусными графиками скорости обучения.

Набор данных большой и смещён в сторону наблюдаемости. Команда Splunk сообщает примерно о 400 миллионах временных рядов метрик из собственных развёртываний Splunk Observability Cloud, собранных с разрешением в 1 минуту в течение 13 месяцев и частично агрегированных до 5-минутного разрешения.

Результаты тестирования на наблюдаемости и GIFT Eval

Исследовательская группа оценивает модель по двум основным критериям. Первый — это набор данных для наблюдаемости, полученный из метрик Splunk с разрешением в 1 минуту и 5 минут. Второй — это отфильтрованная версия GIFT Eval, где наборы данных, которые сливают данные обучения TimesFM 2.0, удалены.

На данных для наблюдаемости с разрешением в 1 минуту и 512 тонкими шагами модель временных рядов Cisco, используя мультиразрешающий контекст с разрешением в 512, снижает среднюю абсолютную ошибку с 0,6265 для TimesFM 2.5 и 0,6315 для TimesFM 2.0 до 0,4788.

Основные выводы

Модель временных рядов Cisco — это одномерная модель временных рядов с нулевым выстрелом, которая расширяет базовую модель TimesFM 2.0 с помощью мультиразрешающей архитектуры для показателей наблюдаемости и безопасности. Модель потребляет мультиразрешающий контекст, с грубой серией и тонкой серией, каждая длиной до 512 шагов, где грубое разрешение в 60 раз больше тонкого, и прогнозирует 128 шагов с высоким разрешением со средним значением и квантильными выходами.

Модель временных рядов Cisco обучена на более чем 300 миллиардах точек данных, более половины из которых получены из наблюдаемости, с использованием данных машинного обучения Splunk, GIFT Eval, наборов данных Chronos и синтетических серий KernelSynth, и имеет около 0,5 миллиарда параметров.

На тестах наблюдаемости с разрешением в 1 минуту и 5 минут модель достигает более низкой ошибки, чем TimesFM 2.0, Chronos и другие базовые модели, сохраняя при этом конкурентную производительность на общем бенчмарке GIFT Eval.

1. Какие особенности модели временных рядов Cisco Time Series Model делают её подходящей для прогнозирования рабочих нагрузок без тонкой настройки под конкретные задачи?

Модель Cisco Time Series Model разработана для прогнозирования рабочих нагрузок без необходимости тонкой настройки под конкретные задачи. Она использует мультиразрешающий контекст, который позволяет ей работать с данными, имеющими разные масштабы и разрешения. Это делает модель более гибкой и универсальной, позволяя ей адаптироваться к различным условиям и задачам.

2. Какие данные использовались для обучения модели временных рядов Cisco?

Для обучения модели временных рядов Cisco использовался большой набор данных, смещённый в сторону наблюдаемости. Команда Splunk предоставила примерно 400 миллионов временных рядов метрик из собственных развёртываний Splunk Observability Cloud. Данные были собраны с разрешением в 1 минуту в течение 13 месяцев и частично агрегированы до 5-минутного разрешения.

3. Какие результаты показала модель временных рядов Cisco на данных для наблюдаемости с разрешением в 1 минуту и 512 тонкими шагами?

На данных для наблюдаемости с разрешением в 1 минуту и 512 тонкими шагами модель временных рядов Cisco, используя мультиразрешающий контекст с разрешением в 512, снизила среднюю абсолютную ошибку с 0,6265 для TimesFM 2.5 и 0,6315 для TimesFM 2.0 до 0,4788. Это свидетельствует о том, что модель временных рядов Cisco показала более высокую точность прогнозирования по сравнению с другими моделями.

4. Какие основные выводы можно сделать из статьи о модели временных рядов Cisco?

Основные выводы из статьи о модели временных рядов Cisco заключаются в том, что она является одномерной моделью временных рядов с нулевым выстрелом, которая расширяет базовую модель TimesFM 2.0 с помощью мультиразрешающей архитектуры для показателей наблюдаемости и безопасности. Модель обучена на более чем 300 миллиардах точек данных и имеет около 0,5 миллиарда параметров. На тестах наблюдаемости с разрешением в 1 минуту и 5 минут модель достигает более низкой ошибки, чем TimesFM 2.0, Chronos и другие базовые модели, сохраняя при этом конкурентную производительность на общем бенчмарке GIFT Eval.

5. Какие преимущества даёт использование мультиразрешающей архитектуры в модели временных рядов Cisco?

Использование мультиразрешающей архитектуры в модели временных рядов Cisco позволяет ей работать с данными, имеющими разные масштабы и разрешения. Это обеспечивает более точное прогнозирование рабочих нагрузок и улучшает производительность модели на различных наборах данных.

Источник