Лаборатория Thinking Machines сделала Tinker общедоступным: добавлена поддержка Kimi K2 Thinking и визуального ввода Qwen3-VL

Лаборатория Thinking Machines предоставила API-интерфейс Tinker для общего использования и добавила три основные функции:
* поддержку модели рассуждений Kimi K2 Thinking;
* совместимость с выборкой OpenAI;
* ввод изображений через языковые модели визуального восприятия Qwen3-VL.

Для инженеров по искусственному интеллекту Tinker становится практичным способом точной настройки передовых моделей без создания инфраструктуры распределённого обучения.

Что такое Tinker?

Tinker — это API для обучения, который фокусируется на тонкой настройке больших языковых моделей и скрывает сложность распределённого обучения. Вы пишете простой цикл Python, который выполняется на машине только с процессором. Вы определяете данные или среду RL, потери и логику обучения. Служба Tinker сопоставляет этот цикл с кластером графических процессоров и выполняет точные вычисления, которые вы указали.

API предоставляет небольшой набор примитивов, таких как forwardbackward для вычисления градиентов, optimstep для обновления весов, sample для генерации выходных данных, а также функции для сохранения и загрузки состояния. Это позволяет сохранить логику обучения явной для людей, которые хотят реализовать обучение с учителем, обучение с подкреплением или оптимизацию предпочтений, но не хотят управлять сбоями GPU и планированием.

Tinker использует адаптацию низкого ранга (LoRA), а не полную тонкую настройку для всех поддерживаемых моделей. LoRA обучает небольшие адаптивные матрицы поверх замороженных базовых весов, что снижает объём памяти и позволяет проводить повторные эксперименты с большими моделями смеси экспертов в одном кластере.

Общедоступность и Kimi K2 Thinking

Флагманским изменением в обновлении за декабрь 2025 года стало то, что Tinker больше не имеет листа ожидания. Любой желающий может зарегистрироваться, увидеть текущий модельный ряд и цены, а также запустить примеры из поваренной книги напрямую.

Теперь пользователи могут точно настраивать модель moonshotai/Kimi-K2-Thinking в Tinker. Kimi K2 Thinking — это модель рассуждений с примерно 1 триллионом общих параметров в архитектуре смеси экспертов. Она предназначена для длинных цепочек рассуждений и интенсивного использования инструментов и в настоящее время является крупнейшей моделью в каталоге Tinker.

В модельном ряду Tinker модель Kimi K2 Thinking представлена как модель Reasoning MoE наряду с плотными вариантами Qwen3 и вариантами смеси экспертов, моделями генерации Llama-3 и DeepSeek-V3.1. Модели рассуждений всегда создают внутренние цепочки мыслей перед видимым ответом, в то время как модели инструкций фокусируются на задержках и прямых ответах.

Совместимость с выборкой OpenAI во время обучения

У Tinker уже был собственный интерфейс выборки через SamplingClient. Типичный шаблон вывода создаёт ModelInput из идентификаторов токенов, передаёт SamplingParams и вызывает sample для получения результата, который преобразуется в выходные данные.

Новый выпуск добавляет второй путь, который отражает интерфейс завершения OpenAI. Контрольную точку модели в Tinker можно указать через URI, например:

«`
response = openai_client.completions.create(
model=»tinker://0034d8c9-0a88-52a9-b2b7-bce7cb1e6fef:train:0/sampler_weights/000080″,
prompt=»The capital of France is»,
max_tokens=20,
temperature=0.0,
stop=[«\n»],
)
«`

Визуальный ввод с помощью Qwen3-VL в Tinker

Второй важной функцией является ввод изображений. Теперь Tinker предоставляет две языковые модели визуального восприятия Qwen3-VL: Qwen/Qwen3-VL-30B-A3B-Instruct и Qwen/Qwen3-VL-235B-A22B-Instruct. Они перечислены в модельном ряду Tinker как модели Vision MoE и доступны для обучения и выборки через тот же интерфейс API.

Чтобы отправить изображение в модель, вы создаёте ModelInput, который перемежает ImageChunk с текстовыми фрагментами. В исследовательском блоге используется следующий минимальный пример:

«`
model_input = tinker.ModelInput(chunks=[
tinker.types.ImageChunk(data=image_data, format=»png»),
tinker.types.EncodedTextChunk(tokens=tokenizer.encode(«What is this?»)),
])
«`

Здесь image_data — это необработанные байты, а format определяет кодировку, например png или jpeg. Вы можете использовать то же представление для обучения с учителем и для тонкой настройки RL, что обеспечивает согласованность мультимодальных конвейеров на уровне API. Визуальные входные данные полностью поддерживаются в настройке обучения Tinker с помощью LoRA.

Qwen3-VL против DINOv2 в классификации изображений

Чтобы показать, на что способен новый визуальный путь, команда Tinker настроила Qwen3-VL-235B-A22B-Instruct в качестве классификатора изображений. Они использовали четыре стандартных набора данных:
* Caltech 101;
* Stanford Cars;
* Oxford Flowers;
* Oxford Pets.

Поскольку Qwen3-VL — это языковая модель с визуальным вводом, классификация оформлена как генерация текста. Модель получает изображение и генерирует название класса в виде текстовой последовательности.

В качестве базового уровня они настроили базовую модель DINOv2. DINOv2 — это самообучающийся визуальный трансформер, который кодирует изображения в эмбеддинги и часто используется в качестве основы для задач компьютерного зрения. Для этого эксперимента классификатор прикреплён поверх DINOv2 для прогнозирования распределения по N меткам в каждом наборе данных.

Обе модели Qwen3-VL-235B-A22B-Instruct и DINOv2 base обучены с использованием адаптеров LoRA в Tinker. Основное внимание уделяется эффективности использования данных. Эксперимент отслеживает количество помеченных примеров в классе, начиная всего с одного образца на класс и увеличивая их количество. Для каждого параметра команда измеряет точность классификации.

Ключевые выводы

* Tinker теперь общедоступен, поэтому любой желающий может зарегистрироваться и настроить открытые весовые LLM с помощью цикла обучения Python, в то время как Tinker обрабатывает серверную часть распределённого обучения.
* Платформа поддерживает Kimi K2 Thinking — модель рассуждений с 1 триллионом параметров от Moonshot AI, и представляет её в модельном ряду Tinker в качестве настраиваемой модели рассуждений.
* Tinker добавляет интерфейс вывода, совместимый с OpenAI, который позволяет выполнять выборку из контрольных точек обучения с помощью URI модели tinker://… через стандартные клиенты и инструменты в стиле OpenAI.
* Ввод изображений включён с помощью моделей Qwen3-VL, Qwen3-VL 30B и Qwen3-VL 235B, поэтому разработчики могут создавать мультимодальные конвейеры обучения, которые объединяют входные данные ImageChunk с текстом, используя тот же API на основе LoRA.

Лаборатория Thinking Machines демонстрирует, что Qwen3-VL 235B, настроенная в Tinker, достигает более высокой производительности при классификации изображений с несколькими кадрами по сравнению с базовой моделью DINOv2 на таких наборах данных, как Caltech 101, Stanford Cars, Oxford Flowers и Oxford Pets, подчёркивая эффективность использования данных больших языковых моделей визуального восприятия.

1. Какие новые функции добавлены в Tinker и как они могут быть полезны для инженеров по искусственному интеллекту?

В Tinker добавлена поддержка модели рассуждений Kimi K2 Thinking, совместимость с выборкой OpenAI и ввод изображений через языковые модели визуального восприятия Qwen3-VL. Это позволяет инженерам по искусственному интеллекту точно настраивать передовые модели без создания инфраструктуры распределённого обучения.

2. Что такое Kimi K2 Thinking и почему она важна для Tinker?

Kimi K2 Thinking — это модель рассуждений с примерно 1 триллионом общих параметров в архитектуре смеси экспертов. Она предназначена для длинных цепочек рассуждений и интенсивного использования инструментов. В настоящее время это крупнейшая модель в каталоге Tinker. Поддержка этой модели важна для Tinker, поскольку она позволяет пользователям точно настраивать её в Tinker.

3. Как Tinker обеспечивает эффективность использования данных при тонкой настройке моделей?

Tinker использует адаптацию низкого ранга (LoRA), которая обучает небольшие адаптивные матрицы поверх замороженных базовых весов. Это снижает объём памяти и позволяет проводить повторные эксперименты с большими моделями смеси экспертов в одном кластере.

4. Какие преимущества предоставляет Tinker при работе с визуальными данными?

Tinker предоставляет две языковые модели визуального восприятия Qwen3-VL: Qwen/Qwen3-VL-30B-A3B-Instruct и Qwen/Qwen3-VL-235B-A22B-Instruct. Они доступны для обучения и выборки через тот же интерфейс API. Это позволяет разработчикам создавать мультимодальные конвейеры обучения, которые объединяют входные данные ImageChunk с текстом, используя тот же API на основе LoRA.

5. Какие эксперименты были проведены для демонстрации возможностей Tinker в классификации изображений?

Команда Tinker настроила Qwen3-VL-235B-A22B-Instruct в качестве классификатора изображений и использовала четыре стандартных набора данных: Caltech 101, Stanford Cars, Oxford Flowers и Oxford Pets. Они сравнили производительность Qwen3-VL с базовой моделью DINOv2 и обнаружили, что Qwen3-VL достигает более высокой производительности при классификации изображений с несколькими кадрами.

Источник