Исследователи Amazon представили Mitra: новый этап в табличном машинном обучении с использованием синтетических априорных данных

Введение

Исследователи Amazon выпустили Mitra — передовую базовую модель, специально разработанную для работы с табличными данными. В отличие от традиционных подходов, которые адаптируют индивидуальную модель для каждого набора данных, Mitra использует возможности обучения в контексте (ICL) и предварительную подготовку на синтетических данных, достигая передовых показателей по табличным задачам машинного обучения.

Интегрированная в AutoGluon 1.4, Mitra предназначена для надёжной обобщаемости, предлагая трансформационный сдвиг для специалистов, работающих со структурированными данными в таких областях, как здравоохранение, финансы, электронная коммерция и наука.

Основа: обучение на синтетических априорных данных

Mitra отличается тем, что предварительно обучается исключительно на синтетических данных. Вместо того чтобы полагаться на ограниченные и неоднородные реальные табличные наборы данных, исследователи Amazon разработали принципиальную стратегию генерации и смешивания разнообразных синтетических априорных данных. Этот подход вдохновлён тем, как большие языковые модели предварительно обучаются на обширных и разнообразных текстовых корпусах.

Ключевые компоненты синтетического предварительного обучения Mitra:

* Смесь априорных данных: синтетические наборы данных генерируются из различных предварительных распределений, включая структурные причинные модели и алгоритмы на основе деревьев (например, случайные леса и градиентный бустинг).
* Обобщение: разнообразие и качество этих априорных данных гарантируют, что Mitra изучает закономерности, применимые к многочисленным непредвиденным наборам данных в реальном мире.
* Структура задачи: во время предварительного обучения каждая синтетическая задача включает в себя набор поддержки и набор запросов, что позволяет Mitra адаптироваться к новым задачам посредством обучения в контексте, не требуя обновления параметров для каждой новой таблицы.

Обучение в контексте и тонкая настройка: адаптация без новых моделей

Традиционные методы табличного машинного обучения, такие как XGBoost и случайные леса, требуют новой модели для каждой задачи или распределения данных. В отличие от них, Mitra использует обучение в контексте: при наличии небольшого количества размеченных примеров (набор поддержки) Mitra может делать точные прогнозы на новых, невидимых данных (набор запросов) для классификации или регрессии, адаптируясь к каждому сценарию без переобучения.

Для пользователей, которым требуется дальнейшая адаптация, также поддерживается тонкая настройка, позволяющая адаптировать модель к конкретным задачам при необходимости.

Архитектурные инновации

Mitra использует двумерный механизм внимания как по строкам, так и по признакам, отражая или расширяя архитектурные достижения, впервые использованные в трансформерах, но специализированные для табличных данных. Это позволяет модели:

* обрабатывать таблицы разного размера и типы признаков;
* улавливать сложные взаимодействия между столбцами таблиц и записями;
* нативно поддерживать гетерогенные данные, что является ключевой задачей в табличном машинном обучении.

Результаты и практические преимущества

Mitra достигает передовых результатов по множеству основных табличных бенчмарков:

* TabRepo;
* TabZilla;
* AutoML Benchmark (AMLB);
* TabArena.

Её сильные стороны особенно проявляются на небольших и средних наборах данных (до 5 000 образцов, менее 100 признаков), обеспечивая ведущие результаты как по задачам классификации, так и по регрессии. Примечательно, что Mitra превосходит такие сильные базовые модели, как TabPFNv2, TabICL, CatBoost и предыдущие версии AutoGluon.

Удобство использования

* Mitra доступна в AutoGluon 1.4: модель с открытым исходным кодом, готовая к бесшовной интеграции в существующие конвейеры машинного обучения.
* Работает на GPU и CPU: оптимизирована для универсальности в средах развёртывания.
* Веса модели размещены на Hugging Face: открытый исходный код как для задач классификации, так и для регрессии.

Выводы и направления на будущее

Обучаясь на тщательно подобранной смеси синтетических априорных данных, Mitra привносит возможность обобщения больших базовых моделей в табличную область. Она готова ускорить исследования и прикладную науку о данных за счёт:

* сокращения времени до решения: нет необходимости создавать и настраивать уникальные модели для каждой задачи;
* обеспечения междоменного переноса: уроки, извлечённые из синтетических задач, широко применяются;
* стимулирования дальнейших инноваций: методология синтетических априорных данных прокладывает путь для создания более богатых и адаптивных базовых моделей для табличных данных в будущем.

Начало работы

AutoGluon 1.4 скоро будет включать Mitra для использования «из коробки».

Предоставляются веса с открытым исходным кодом и документация как для задач классификации, так и для регрессии.

Исследователям и практикам предлагается экспериментировать и создавать на основе этой новой основы для табличных прогнозов.

1. Какие ключевые особенности отличают Mitra от традиционных методов табличного машинного обучения?

Mitra отличается от традиционных методов табличного машинного обучения, таких как XGBoost и случайные леса, тем, что использует обучение в контексте (ICL) и предварительно обучается на синтетических данных. Это позволяет модели адаптироваться к новым задачам без необходимости создания новой модели для каждой задачи или распределения данных.

2. Какие преимущества предоставляет использование синтетических априорных данных для обучения Mitra?

Использование синтетических априорных данных для обучения Mitra позволяет модели изучать закономерности, применимые к многочисленным непредвиденным наборам данных в реальном мире. Это обеспечивает обобщаемость модели и её способность адаптироваться к различным сценариям без переобучения.

3. Какие архитектурные инновации используются в Mitra для обработки табличных данных?

В Mitra используется двумерный механизм внимания как по строкам, так и по признакам. Это позволяет модели обрабатывать таблицы разного размера и типы признаков, улавливать сложные взаимодействия между столбцами таблиц и записями, а также нативно поддерживать гетерогенные данные.

4. Какие результаты демонстрирует Mitra на основных табличных бенчмарках?

Mitra достигает передовых результатов по множеству основных табличных бенчмарков, таких как TabRepo, TabZilla, AutoML Benchmark (AMLB) и TabArena. Её сильные стороны особенно проявляются на небольших и средних наборах данных (до 5 000 образцов, менее 100 признаков), обеспечивая ведущие результаты как по задачам классификации, так и по регрессии.

5. Какие практические преимущества предоставляет использование Mitra в реальных проектах?

Использование Mitra в реальных проектах предоставляет следующие практические преимущества:
* сокращение времени до решения за счёт отсутствия необходимости создавать и настраивать уникальные модели для каждой задачи;
* обеспечение междоменного переноса благодаря тому, что уроки, извлечённые из синтетических задач, широко применяются;
* стимулирование дальнейших инноваций благодаря тому, что методология синтетических априорных данных прокладывает путь для создания более богатых и адаптивных базовых моделей для табличных данных в будущем.

Источник

Оставьте комментарий