Google Research представляет новый подход к машинному обучению для прогнозирования временных рядов

Введение в контекстуальную тонкую настройку (ICF) для прогнозирования временных рядов

Google Research представляет TimesFM-ICF — метод продолжения предварительного обучения, который позволяет TimesFM использовать несколько связанных серий, предоставленных непосредственно в запросе во время вывода. В результате получается модель прогнозирования, которая работает с несколькими примерами и соответствует тонкой настройке под наблюдением, обеспечивая при этом точность на 6,8% выше, чем у базовой версии TimesFM, по данным внешнего бенчмарка. При этом не требуется отдельного цикла обучения для каждого набора данных.

Какие проблемы в прогнозировании устраняются?

Большинство производственных рабочих процессов всё ещё идут на компромисс между:
* одной моделью для каждого набора данных с помощью тонкой настройки под наблюдением (точность, но сложные MLOps);
* моделями без обучения на примерах (просто, но не адаптировано к домену).

Новый подход Google сохраняет одну предварительно обученную контрольную точку TimesFM, но позволяет ей адаптироваться на лету, используя несколько примеров из связанных серий во время вывода, избегая при этом обучения для каждого арендатора.

Как работает контекстуальная тонкая настройка?

* Начните с TimesFM — патченного трансформатора, который токенизирует входные патчи длиной 32 точки и де-токенизирует выходные данные длиной 128 точек через общий MLP, — и продолжите его предварительное обучение на последовательностях, которые чередуют целевую историю с несколькими «поддерживающими» сериями.
* Ключевое изменение — введение обучаемого общего разделительного токена, чтобы кросс-примеровые причинно-следственные связи могли находить структуру в примерах без смешения тенденций.
* Цель обучения остаётся прежней — предсказание следующего токена; новым является построение контекста, который учит модель рассуждать по нескольким связанным сериям во время вывода.

Что такое «несколько примеров» в данном случае?

Во время вывода пользователь объединяет целевую историю с kk дополнительными фрагментами временных рядов (например, аналогичными SKU, соседними датчиками), каждый из которых ограничен разделительным токеном. Слои внимания модели теперь специально обучены использовать эти примеры из контекста, аналогично LLM с несколькими примерами, но для числовых последовательностей, а не для текстовых токенов. Это смещает адаптацию с обновления параметров на разработку запросов по структурированным сериям.

Соответствует ли это тонкой настройке под наблюдением?

На наборе из 23 наборов данных вне домена TimesFM-ICF соответствует производительности TimesFM-FT для каждого набора данных, обеспечивая при этом точность на 6,8% выше, чем у TimesFM-Base (среднее геометрическое масштабированной MASE).

Чем это отличается от подходов в стиле Chronos?

Chronos токенизирует значения в дискретный словарь и демонстрирует высокую точность без обучения (zero-shot) и быстрые варианты (например, Chronos-Bolt). Вклад Google здесь заключается не в другом токенизаторе или запасе по zero-shot, а в том, чтобы заставить модель прогнозирования временных рядов вести себя как модель LLM с несколькими примерами — обучение на основе контекста между сериями во время вывода. Эта возможность сокращает разрыв между адаптацией во время обучения и адаптацией во время запроса для числового прогнозирования.

На какие архитектурные особенности следует обратить внимание?

Исследовательская группа подчёркивает:
* разделительные токены для обозначения границ;
* причинно-следственное внимание к смешанным историям и примерам;
* сохранение патчинга и общих голов MLP;
* продолжение предварительного обучения для формирования кросс-примерового поведения.

В совокупности это позволяет модели рассматривать поддерживающие серии как информативные примеры, а не как фоновый шум.

Краткое содержание

Контекстуальная тонкая настройка Google превращает TimesFM в практичный инструмент прогнозирования с несколькими примерами: одна предварительно обученная контрольная точка, которая адаптируется во время вывода с помощью тщательно подобранных поддерживающих серий, обеспечивая точность на уровне тонкой настройки без дополнительных затрат на обучение для каждого набора данных. Это полезно для многопользовательских развёртываний с ограниченными задержками, где выбор поддерживающих наборов становится основной контрольной поверхностью.

Часто задаваемые вопросы

1. Что такое контекстуальная тонкая настройка (ICF) для временных рядов от Google?

ICF — это продолжение предварительного обучения, которое позволяет TimesFM использовать несколько связанных серий, размещённых в запросе во время вывода, что позволяет адаптироваться с несколькими примерами без обновления градиентов для каждого набора данных.

2. Чем ICF отличается от стандартной тонкой настройки и использования без обучения на примерах?

Стандартная тонкая настройка обновляет веса для каждого набора данных; при использовании без обучения на примерах используется фиксированная модель только с целевой историей. ICF сохраняет веса фиксированными при развёртывании, но учится во время предварительного обучения использовать дополнительные примеры из контекста, соответствуя тонкой настройке для каждого набора данных по опубликованным бенчмаркам.

3. Какие архитектурные или обучающие изменения были введены?

TimesFM продолжает предварительное обучение с последовательностями, которые чередуют целевую историю и поддерживающие серии, разделённые специальными граничными токенами, чтобы причинно-следственное внимание могло использовать кросс-серийную структуру; остальная часть стека TimesFM с декодером остаётся неизменной.

4. Какие результаты были получены по сравнению с базовыми показателями?

На наборах данных вне домена ICF превосходит базовую версию TimesFM и достигает паритета с тонкой настройкой под наблюдением; она оценивается по сравнению с сильными базовыми показателями прогнозирования временных рядов (например, PatchTST) и предыдущими моделями прогнозирования временных рядов (например, Chronos).

1. Какие преимущества даёт использование TimesFM-ICF по сравнению с другими методами прогнозирования временных рядов?

Ответ: TimesFM-ICF позволяет модели адаптироваться к различным наборам данных без необходимости отдельного цикла обучения для каждого из них. Это обеспечивает точность на 6,8% выше, чем у базовой версии TimesFM, по данным внешнего бенчмарка.

2. Какие архитектурные особенности TimesFM-ICF позволяют ему эффективно работать с несколькими примерами временных рядов?

Ответ: Исследовательская группа подчёркивает несколько архитектурных особенностей:
* Разделительные токены для обозначения границ между примерами.
* Причинно-следственное внимание к смешанным историям и примерам.
* Сохранение патчинга и общих голов MLP.
* Продолжение предварительного обучения для формирования кросс-примерового поведения.

Эти особенности позволяют модели рассматривать поддерживающие серии как информативные примеры, а не как фоновый шум.

3. Какие результаты были получены при сравнении TimesFM-ICF с другими методами прогнозирования временных рядов на внешних бенчмарках?

Ответ: На наборе из 23 наборов данных вне домена TimesFM-ICF соответствует производительности TimesFM-FT для каждого набора данных, обеспечивая при этом точность на 6,8% выше, чем у TimesFM-Base (среднее геометрическое масштабированной MASE). Это свидетельствует о высокой эффективности TimesFM-ICF по сравнению с другими методами.

4. Какие практические преимущества даёт использование TimesFM-ICF в многопользовательских развёртываниях?

Ответ: TimesFM-ICF полезен для многопользовательских развёртываний с ограниченными задержками, где выбор поддерживающих наборов становится основной контрольной поверхностью. Это позволяет адаптировать модель к различным наборам данных без значительных затрат времени и ресурсов.

5. Какие основные принципы лежат в основе работы TimesFM-ICF?

Ответ: TimesFM-ICF основан на принципе контекстуальной тонкой настройки (ICF), которая позволяет модели использовать несколько связанных серий, размещённых в запросе во время вывода. Это позволяет модели адаптироваться к различным наборам данных с помощью нескольких примеров без обновления градиентов для каждого набора данных.

Источник