Prior Labs выпускает TabPFN-2.5: новейшую версию модели TabPFN, которая обеспечивает масштабируемость и скорость для табличных фундаментных моделей

Tabular data до сих пор является основой для многих важных моделей в производстве. Команды в области финансов, здравоохранения, энергетики и промышленности работают с таблицами из строк и столбцов, а не с изображениями или длинными текстами. Теперь Prior Labs расширяет это пространство с помощью TabPFN-2.5 — новой табличной фундаментной модели, которая масштабирует контекстное обучение до 50 000 образцов и 2 000 признаков, сохраняя при этом свободный от обучения рабочий процесс.

От TabPFN и TabPFNv2 к TabPFN-2.5

Первая версия TabPFN показала, что трансформер может изучить процедуру вывода, подобную байесовской, для решения синтетических табличных задач. Она обрабатывала примерно до 1 000 образцов и чистых числовых признаков. TabPFNv2 расширила это до реальных данных. Она добавила поддержку категориальных признаков, пропущенных значений и выбросов и была практична для данных объёмом до 10 000 образцов и 500 признаков.

TabPFN-2.5 — это следующее поколение в этой линейке. Prior Labs описывает его как наиболее подходящий для наборов данных с количеством образцов до 50 000 и 2 000 признаков, что в 5 раз больше строк и в 4 раза больше столбцов по сравнению с TabPFNv2. Это даёт примерно в 20 раз больше ячеек данных в поддерживаемом режиме. Модель представлена через пакет Python tabpfn, а также через API.

| Aspect | TabPFN (v1) | TabPFNv2 | TabPFN-2.5 |
| — | — | — | — |
| Max Rows (recommended) | 1 000 | 10 000 | 50 000 |
| Max Features (recommended) | 100 | 500 | 2 000 |
| Supported data types | Numeric only | Mixed | Mixed |

Обучение в контексте для таблиц

TabPFN-2.5 следует той же идее, что и предыдущие версии. Это трансформерная фундаментная модель, которая использует обучение в контексте для решения задач табличного прогнозирования в прямом проходе. Во время обучения модель мета-обучается на больших синтетических распределениях табличных задач. Во время вывода вы передаёте обучающие строки и метки, а также тестовые строки вместе. Модель выполняет один прямой проход и выводит прогнозы, поэтому нет градиентного спуска для конкретного набора данных или поиска гиперпараметров.

Результаты тестирования на TabArena и RealCause

Исследовательская группа использует бенчмарк TabArena Lite для измерения задач среднего размера объёмом до 10 000 образцов и 500 признаков. TabPFN-2.5 в прямом проходе превосходит любую другую модель в сравнении. Когда вариант Real-TabPFN-2.5 настроен на реальных наборах данных, преимущество увеличивается. AutoGluon 1.4 в экстремальном режиме является базовым ансамблем, настроенным в течение 4 часов и даже с учётом TabPFNv2.

В отраслевых стандартах для бенчмарков с объёмом данных до 50 000 точек и 2 000 признаков TabPFN-2.5 существенно превосходит настроенные модели на основе деревьев, такие как XGBoost и CatBoost. На тех же бенчмарках она соответствует точности AutoGluon 1.4, который запускает сложный четырёхчасовой настроенный ансамбль, включающий предыдущие методы.

Архитектура модели и настройка обучения

Архитектура модели соответствует TabPFNv2 с чередующимся вниманием и 18–24 слоями. Чередующееся внимание означает, что сеть работает по оси выборки и по оси признаков на отдельных этапах, что обеспечивает инвариантность перестановки строк и столбцов. Этот дизайн важен для табличных данных, где порядок строк и порядок столбцов не несут информации.

Настройка обучения сохраняет идею обучения на основе данных. TabPFN-2.5 использует синтетические табличные задачи с различными априорными функциями и распределениями данных в качестве источника мета-обучения. Real-TabPFN-2.5 использует непрерывное предварительное обучение на наборе реальных табличных данных из репозиториев, таких как OpenML и Kaggle, при этом команда тщательно избегает наложения на оценочные тесты.

Ключевые выводы

* TabPFN 2.5 масштабирует трансформеры, основанные на данных, до примерно 50 000 образцов и 2 000 признаков, сохраняя при этом рабочий процесс с одним прямым проходом без настройки.
* Модель обучена на синтетических табличных задачах и оценена на TabArena, внутренних отраслевых бенчмарках и RealCause, где она существенно превосходит настроенные базовые модели на основе деревьев и соответствует AutoGluon 1.4 на бенчмарках в этом диапазоне размеров.
* TabPFN 2.5 сохраняет трансформатор с чередующимся вниманием к строкам и признакам в стиле TabPFNv2, что обеспечивает инвариантность перестановки таблиц и обучение в контексте без специфической для задачи подготовки.
* Механизм дистилляции превращает TabPFN 2.5 в компактные MLP или ансамбли деревьев, которые сохраняют большую часть точности, обеспечивая при этом гораздо меньшую задержку и возможность развёртывания в существующих табличных стеках.

Anthropic превращает агентов MCP в системы первого уровня с помощью подхода «Code Execution With MCP»

Агенты, использующие протокол Model Context Protocol (MCP), сталкиваются с проблемой масштабирования. Каждое определение инструмента и каждый промежуточный результат передаются через окно контекста, что означает, что большие рабочие процессы быстро расходуют токены и достигают пределов задержки и стоимости.

Новый подход Anthropic «Code Execution With MCP» реструктурирует этот конвейер, превращая инструменты MCP в API на уровне кода и предлагая модели писать и запускать код вместо прямого вызова инструментов.

Проблема: инструменты MCP как прямые вызовы модели

MCP — это открытый стандарт, который позволяет приложениям ИИ подключаться к внешним системам через серверы MCP, предоставляющие инструменты. Эти инструменты позволяют модели запрашивать базы данных, вызывать API или работать с файлами через единый интерфейс.

В стандартном шаблоне агент загружает множество определений инструментов в контекст модели. Каждое определение инструмента содержит информацию о схеме и метаданные. Промежуточные результаты каждого вызова инструмента также передаются обратно в контекст, чтобы модель могла решить, какой вызов сделать следующим.

Anthropic описывает типичный случай, когда агент использует сервер MCP для Google Drive для извлечения длинного протокола встречи по продажам, а затем использует другой сервер MCP для Salesforce, чтобы обновить запись с помощью этого протокола. Полный протокол сначала возвращается через модель, а затем снова отправляется, когда вызывается инструмент Salesforce. Для длительной встречи это может добавить десятки тысяч дополнительных токенов, которые не меняют логику задачи.

Когда имеется много серверов MCP и множество инструментов, этот шаблон не масштабируется. Модель платит за чтение больших каталогов инструментов и за перемещение больших объёмов данных между инструментами. Задержка увеличивается, затраты растут, а ограничения контекста становятся жёстким ограничением поведения системы.

Сдвиг: представление серверов MCP в виде API кода

Предложение Anthropic заключается в размещении MCP внутри цикла выполнения кода. Вместо того чтобы позволять модели вызывать инструменты напрямую, клиент MCP представляет каждый сервер в виде набора модулей кода в файловой системе. Модель пишет код на TypeScript, который импортирует и объединяет эти модули, и этот код запускается в изолированной среде.

Шаги

1. Клиент MCP генерирует каталог, например, servers, который отражает доступные серверы MCP и инструменты.
2. Для каждого инструмента MCP он создаёт тонкую функцию-оболочку, реализованную в исходном файле, например servers/google-drive/getDocument.ts, которая внутренне вызывает инструмент MCP с типизированными параметрами.
3. Модели предлагается написать код на TypeScript, который импортирует эти функции, запускает их и обрабатывает поток управления и перемещение данных внутри среды выполнения.

Ранее описанный рабочий процесс Google Drive и Salesforce становится коротким скриптом. Скрипт вызывает оболочку Google Drive один раз, манипулирует или проверяет данные локально, затем вызывает оболочку Salesforce. Большой протокол не проходит через модель, только конечный статус и любые небольшие образцы или сводки.

Количественное влияние

Anthropic сообщает о конкретном примере. Рабочий процесс, который ранее потреблял около 150 000 токенов, когда инструменты и промежуточные данные передавались напрямую через модель, был перереализован с выполнением кода и файловыми API на основе MCP. Новый шаблон использовал около 2 000 токенов. Это сокращение на 98,7 % использования токенов для этого сценария, что также снижает затраты и задержку.

Преимущества для разработчиков агентов

* Прогрессивное обнаружение инструментов: агенту не нужны все определения инструментов в контексте. Он может исследовать сгенерированную файловую систему, перечислять доступные серверы и читать конкретные модули инструментов только при необходимости. Это сдвигает каталоги инструментов из контекста модели в код, поэтому токены тратятся только на релевантные интерфейсы.
* Эффективная обработка данных: большие наборы данных остаются внутри среды выполнения. Например, код на TypeScript может прочитать большую электронную таблицу через инструмент MCP, отфильтровать строки, вычислить агрегаты и записать только небольшие образцы и сводные статистические данные обратно в модель. Модель видит компактное представление данных, в то время как основная работа выполняется в коде.
* Операции по сохранению конфиденциальности: Anthropic описывает шаблон, в котором конфиденциальные поля, такие как электронная почта или телефон, токенизируются внутри среды выполнения. Модель видит заполнители, в то время как клиент MCP поддерживает безопасное сопоставление и восстанавливает реальные значения при вызове последующих инструментов. Это позволяет данным перемещаться между серверами MCP без раскрытия необработанных идентификаторов модели.
* Состояние и повторно используемые навыки: файловая система позволяет агентам сохранять промежуточные файлы и повторно используемые скрипты. Вспомогательный скрипт, который преобразует лист в отчёт, может быть сохранён в каталоге навыков и импортирован в последующих сеансах.

Редакционные комментарии

Подход Anthropic «Code Execution With MCP» является разумным следующим шагом для агентов, работающих на MCP. Он напрямую борется с затратами на токены при загрузке определений инструментов и маршрутизации больших промежуточных результатов через контекст, представляя серверы MCP в виде API кода и перенося работу в изолированную среду выполнения TypeScript. Это делает агентов более эффективными, одновременно заставляя команды серьёзно относиться к безопасности выполнения кода. Этот запуск превращает MCP из списка инструментов в исполняемую поверхность API.

1. Какие преимущества предлагает TabPFN-2.5 по сравнению с предыдущими версиями TabPFN?

TabPFN-2.5 предлагает масштабируемость до 50 000 образцов и 2 000 признаков, сохраняя при этом свободный от обучения рабочий процесс. Предыдущие версии TabPFN (v1) и TabPFNv2 обрабатывали меньшее количество образцов и признаков. TabPFNv2 добавила поддержку категориальных признаков, пропущенных значений и выбросов и была практична для данных объёмом до 10 000 образцов и 500 признаков.

2. Как TabPFN-2.5 использует обучение в контексте для решения задач табличного прогнозирования?

TabPFN-2.5 использует обучение в контексте для решения задач табличного прогнозирования в прямом проходе. Во время обучения модель мета-обучается на больших синтетических распределениях табличных задач. Во время вывода вы передаёте обучающие строки и метки, а также тестовые строки вместе. Модель выполняет один прямой проход и выводит прогнозы, поэтому нет градиентного спуска для конкретного набора данных или поиска гиперпараметров.

3. Какие результаты были получены при тестировании TabPFN-2.5 на TabArena и RealCause?

Исследовательская группа использовала бенчмарк TabArena Lite для измерения задач среднего размера объёмом до 10 000 образцов и 500 признаков. TabPFN-2.5 в прямом проходе превзошла любую другую модель в сравнении. Когда вариант Real-TabPFN-2.5 настроен на реальных наборах данных, преимущество увеличивается.

4. Как подход Anthropic «Code Execution With MCP» решает проблему масштабирования агентов MCP?

Подход Anthropic «Code Execution With MCP» реструктурирует конвейер, превращая инструменты MCP в API на уровне кода. Вместо того чтобы позволять модели вызывать инструменты напрямую, клиент MCP представляет каждый сервер в виде набора модулей кода в файловой системе. Модель пишет код на TypeScript, который импортирует и объединяет эти модули, и этот код запускается в изолированной среде. Это позволяет агентам MCP работать более эффективно, снижая затраты на токены и улучшая масштабируемость.

5. Какие преимущества предлагает подход Anthropic «Code Execution With MCP» для разработчиков агентов MCP?

Подход Anthropic «Code Execution With MCP» предлагает разработчикам агентов MCP следующие преимущества:
* Прогрессивное обнаружение инструментов: агенту не нужны все определения инструментов в контексте. Он может исследовать сгенерированную файловую систему, перечислять доступные серверы и читать конкретные модули инструментов только при необходимости.
* Эффективная обработка данных: большие наборы данных остаются внутри среды выполнения.
* Операции по сохранению конфиденциальности: конфиденциальные поля, такие как электронная почта или телефон, токенизируются внутри среды выполнения.
* Состояние и повторно используемые навыки: файловая система позволяет агентам сохранять промежуточные файлы и повторно используемые скрипты.

Источник