Реализация кодирования для запуска моделей рассуждений Qwen3.5, дистиллированных с использованием стиля мышления Claude, с помощью GGUF и 4-битной квантизации

В этом руководстве мы работаем напрямую с моделями Qwen3.5, дистиллированными с использованием рассуждений в стиле Claude, и настраиваем конвейер Colab, который позволяет нам переключаться между вариантом GGUF объёмом 27 миллиардов параметров и лёгкой 2-битной версией с помощью одного флага.

Шаги настройки

1. Проверка доступности GPU:
— Сначала мы проверяем наличие GPU. Если GPU нет, выдаётся ошибка с рекомендацией использовать T4 GPU.
— Затем мы получаем имя GPU и объём VRAM.

2. Установка библиотек:
— В зависимости от выбранного пути (27B GGUF или 2B HF) мы устанавливаем соответствующие библиотеки: `llama.cpp` или `transformers` с `bitsandbytes`.

3. Загрузка моделей:
— Для пути 27B GGUF мы загружаем модель с помощью `llama.cpp`.
— Для пути 2B HF мы загружаем модель с помощью `AutoModelForCausalLM` и `AutoTokenizer` из `transformers`.

4. Определение функций:
— Мы определяем функции `generatefn` и `streamfn` для генерации ответов и потоковой передачи вывода.
— Также мы определяем класс `ChatSession` для многоэтапного взаимодействия.

Тестирование

Мы запускаем комплексный набор тестов, который оценивает модель по различным параметрам:

  • Рассуждения.

  • Потоковая передача.

  • Логические головоломки.

  • Генерация кода.

  • Многоэтапные беседы.

Очистка памяти

В конце мы очищаем память и освобождаем ресурсы GPU, чтобы ноутбук можно было использовать для дальнейших экспериментов.

Заключение

Мы получили компактную, но гибкую настройку для запуска моделей рассуждений на основе Qwen3.5, улучшенных с помощью дистилляции в стиле Claude, при различных ограничениях аппаратного обеспечения. Скрипт абстрагирует различия между бэкендами, обеспечивая согласованную генерацию, потоковую передачу и разговорные интерфейсы. Это упрощает эксперименты с поведением модели при рассуждении.

Проверьте полный блокнот и страницу с исходниками. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 120 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие шаги включает в себя настройка конвейера Colab для работы с моделями Qwen3.5?

Настройка конвейера Colab для работы с моделями Qwen3.5 включает в себя несколько шагов:
* Проверка доступности GPU.
* Установка необходимых библиотек в зависимости от выбранного пути (27B GGUF или 2B HF).
* Загрузка моделей с помощью соответствующих инструментов (`llama.cpp` для 27B GGUF и `AutoModelForCausalLM` и `AutoTokenizer` из `transformers` для 2B HF).
* Определение функций `generatefn` и `streamfn` для генерации ответов и потоковой передачи вывода.
* Определение класса `ChatSession` для многоэтапного взаимодействия.

2. Какие параметры оцениваются при тестировании модели?

При тестировании модели оцениваются следующие параметры:
* Рассуждения.
* Потоковая передача.
* Логические головоломки.
* Генерация кода.
* Многоэтапные беседы.

3. Какие библиотеки используются для установки в зависимости от выбранного пути (27B GGUF или 2B HF)?

В зависимости от выбранного пути используются следующие библиотеки:
* Для пути 27B GGUF используется `llama.cpp`.
* Для пути 2B HF используются `transformers` с `bitsandbytes`, а также `AutoModelForCausalLM` и `AutoTokenizer`.

4. Какие функции определяются для генерации ответов и потоковой передачи вывода?

Для генерации ответов и потоковой передачи вывода определяются функции `generatefn` и `streamfn`.

5. Какие ресурсы освобождаются после завершения работы с моделью?

После завершения работы с моделью очищается память и освобождаются ресурсы GPU, чтобы ноутбук можно было использовать для дальнейших экспериментов.

Источник