Мы возвращаемся к историям из журнала Cosmos Print. В марте 2025 года Марк Пезе объяснял универсальные трансформаторы временных рядов — двигатели прогнозирования будущего.
Сколько бы вы заплатили за возможность предсказывать будущее? Немало, если бы вы могли предсказать номер лотереи на завтра. А что, если бы вы могли предсказывать с меньшей точностью, достаточно, чтобы узнать, что что-то хорошее или плохое ждёт вас за углом? Сколько бы это стоило, чтобы иметь драгоценное время на подготовку?
Эта заманчивая возможность может прийти от «универсального трансформатора временных рядов». Он применяет передовые разработки в области искусственного интеллекта к физическому миру, обещая революцию в том, как мы думаем о процессах, и в том, как мы строим системы для управления этими процессами.
В масштабе универсальные трансформаторы временных рядов могут сделать нашу нынешнюю манию ко всему, что связано с чат-ботами, казаться скудным вступлением перед более удовлетворительным основным блюдом.
Что такое временной ряд?
Чтобы понять прорыв, представленный универсальными трансформаторами временных рядов, мы должны сначала определить, что мы подразумеваем под «временным рядом».
Набор показаний температуры в течение дня является знакомым примером временного ряда: температура в 7 утра может быть измерена на уровне 17 градусов, в 10 утра — 22 градуса, в 1 час дня — 28 градусов, в 4 часа дня — 29 градусов, а в 7 вечера — 23 градуса. Пять точек данных (17°, 22°, 28°, 29°, 23°) с уникальной временной меткой (7 утра, 10 утра, 1 час дня, 4 часа дня, 7 вечера).
Ничто не остаётся статичным, поскольку Вселенная меняется со временем, и по этой причине почти каждый физический процесс можно представить во временных рядах — снимках фундаментального динамизма существования. Временной ряд объединяет феноменальное и временное, делая процесс видимым и поддающимся математической обработке.
Люди всегда были учениками временных рядов. Наши предки, жившие до появления человека разумного, наблюдали за сезонами, могли предсказывать, что за зимой последует весна, и, возможно, даже были осведомлены об эволюционирующих фазах Луны.
Человек разумный научился прослеживать и предсказывать пути планет по небу задолго до того, как мы разработали письменность или математику. С их помощью мы могли расширить наши возможности прогнозирования, чтобы охватить затмения, даже (как высоко секретное и мистическое знание) прецессию равноденствий.
Вся наша астрономия — от дочеловеческой до современного космического телескопа Джеймса Уэбба — опирается на временные ряды. И хотя эти корни находятся в астрономии, мы знаем сегодня, что временные ряды позволяют нам делать прогнозы о любом наблюдаемом процессе. Они универсальны.
Улучшение прогнозов
Макс Мергенталер-Кансеко из стартапа Nixtla из Сан-Франциско.
«Мы всегда рассказываем эту историю, — начинает Макс Мергенталер-Кансеко. — От маленького киоска с хот-догами до крупнейшего банка в Китае. Им нужно прогнозировать, сколько сосисок, облигаций, ингредиентов я собираюсь использовать на следующей неделе? Сколько мне следует купить, если пойдёт дождь?»
Генеральный директор-соучредитель стартапа Nixtla из Сан-Франциско, Мергенталер-Кансеко, продолжает называть регрессионный анализ, наиболее распространённую классическую технику прогнозирования временных рядов. Это метод, который его стартап хочет разрушить.
«Владельцы киосков с хот-догами не думают о проведении регрессионного анализа для прогнозирования потребления хот-догов, но представьте, что они спрашивают в теории: „Эй, Siri, сколько хот-догов мне купить?“»
Регрессионный анализ использует статистическое моделирование исторических данных для определения следующего значения во временном ряду. Например: «Вот сколько хот-догов я продал. Сколько хот-догов я продам завтра?» На основе данных о продажах, собранных за многие месяцы, наряду с данными об осадках за тот же период, регрессионный анализ даёт достаточно точный прогноз того, сколько сосисок будет продано во время дождя.
Но измените любой из этих параметров — сделайте прогноз относительно количества банок безалкогольных напитков, которые продаст этот продавец хот-догов, в зависимости от дневной температуры — и вам понадобится совершенно другой набор обучающих данных, снова собранный за многие месяцы. Регрессионный анализ хорошо работает в определённых обстоятельствах, но данные временных рядов, собранные для одного набора параметров, не имеют прогностической ценности для другого набора параметров.
Трансформер
Nixtla — команда Мергенталера-Кансеко, Азула Гарзы и Кристиана Чаллу — считает, что нашла способ обойти эту специфику, используя трансформер. Разработанный в Google в 2017 году, трансформер быстро стал самым важным программным обеспечением со времён появления Всемирной паутины, сформировав ядро всех наших больших языковых моделей (LLM), таких как GPT-4 (на котором работает ChatGPT и Microsoft Copilot), LLaMA (Meta AI), Gemini от Google и так далее.
По сути, трансформер принимает строку входных данных — обычно это часть текста на английском языке, известная как подсказка, — затем вычисляет статистически наиболее вероятное завершение для этой подсказки. Разбивая подсказку на токены примерно длиной в слог, трансформер пропускает эти токены через массивный набор весовых коэффициентов, используя эти веса для определения следующих наиболее вероятных токенов, следующих за данной подсказкой.
Например, предоставление подсказки «Быть или не быть?» должно генерировать вывод «Вот в чём вопрос». Почему? Потому что весовые коэффициенты трансформера были обучены на триллионах слов, собранных из каждого доступного уголка Интернета, включая множество копий «Гамлета» Шекспира, переводов «Гамлета», комментариев к «Гамлету», постановок «Гамлета», пародий на «Гамлета» и так далее. Каждый из этих экземпляров добавляет к весам модели, эффективно создавая путь, который указывает непосредственно на один выход.
Но есть и другой способ подумать об этом — и здесь мы подходим к сути инновации, выраженной в статье 2023 года «TimeGPT-1», написанной в соавторстве с Гарзой, Чаллу и Мергенталер-Кансеко.
Весь текст, используемый для обучения LLM, представляет собой последовательные данные; одна буква, одно слово следует за другим. Некоторые расположения букв и слов имеют смысл — то есть они вероятны, — в то время как другие расположения букв и слов не имеют смысла и поэтому крайне маловероятны.
Существует сходство по форме между этим потоком языка и потоками, наблюдаемыми в физическом мире. При наличии соответствующих весовых коэффициентов трансформер должен быть в состоянии генерировать следующее значение во временном ряду, используя точно такой же механизм, который он использует для генерации следующего наиболее вероятного слова в ответе на подсказку. Это идентичные процессы.
На пути к универсальности
Обширный массив обучающих данных, подаваемых в LLM (тема многочисленных споров и более чем нескольких судебных исков), означает, что практически любая подсказка, адресованная чат-боту, даст достаточно разумный вывод. Хорошо обученная большая LLM может генерировать завершение для любой подсказки, не будучи специально обученной ни по одной теме. Будучи обученной на всех темах, которые могли найти её создатели, она использует всё это обучение для генерации выходных данных. LLM — это универсальные генераторы текста.
Nixtla использовала ту же возможность для генерации прогнозов временных рядов. Вместо того чтобы нуждаться в конкретных данных временных рядов для каждой мыслимой комбинации параметров (осадки по сравнению с количеством проданных банок безалкогольных напитков), TimeGPT-1 описал временной ряд с универсальной способностью генерировать «достаточно хорошие» прогнозы без высокоспецифичных обучающих данных.
TimeGPT-1 основывал свои прогнозы на огромном наборе данных временных рядов, снимках ряда физически наблюдаемых процессов. Возникает вопрос: какие наборы данных использовали авторы статьи при сборе своих ста миллиардов точек обучающих данных временных рядов?
«Мы поняли, что разнообразие данных было очень, очень важно, — отмечает Гарза, — потому что мы разрабатывали модель для работы практически в каждом случае использования».
Продажи сосисок, ставки по облигациям, потребление электроэнергии — универсальный временной ряд должен получать данные из самых разных источников, чтобы надёжно генерировать свои прогнозы для широкого спектра входных временных рядов.
«Точный список набора данных, который мы используем для обучения, является секретом, — отвечает Мергенталер-Кансеко. — Это часть секретного соуса Nixlta и основа для продукта их стартапа — инструмента „программное обеспечение как услуга“, который позволяет практически любому, кто может написать немного кода, получить доступ к их универсальному преобразователю временных рядов TimeGPT-1». Принесите свой временной ряд — любой временной ряд — подключите его и получите «достаточно хороший» прогноз на будущее.