Qwen3-ASR-Toolkit: продвинутый Python-инструмент с открытым исходным кодом для работы с API Qwen-ASR за пределами ограничений в 3 минуты и 10 МБ

Qwen выпустила Qwen3-ASR-Toolkit — это Python CLI с лицензией MIT, который программно обходит ограничение Qwen3-ASR-Flash API в 3 минуты и 10 МБ на запрос. Для этого используются сегментация с учётом голосовой активности (VAD), параллельные вызовы API и автоматическая передискретизация/нормализация формата с помощью FFmpeg.

Что добавляет инструментарий поверх API

* Обработка длинных аудио. Инструментарий разделяет входные данные с помощью детектора голосовой активности (VAD) на естественные паузы, сохраняя каждый фрагмент в пределах жёстких ограничений по длительности/размеру API, а затем последовательно объединяет выходные данные.
* Параллельная пропускная способность. Пул потоков одновременно отправляет несколько фрагментов в конечные точки DashScope, сокращая время ожидания для часовых входов. Вы управляете параллелизмом с помощью -j/—num-threads.
* Нормализация формата и частоты дискретизации. Любой распространённый аудио/видеоконтейнер (MP4/MOV/MKV/MP3/WAV/M4A и т. д.) преобразуется в требуемый API моно 16 кГц перед отправкой. Для этого требуется, чтобы FFmpeg был установлен в PATH.
* Очистка текста и контекст. Инструмент включает постобработку для уменьшения повторений/галлюцинаций и поддерживает внедрение контекста для смещения распознавания в сторону доменных терминов; базовый API также предоставляет переключатели для обнаружения языка и обратной нормализации текста (ITN).

Краткое руководство

1. Установите предварительные требования:

* Система: FFmpeg должен быть доступен.
* macOS: `brew install ffmpeg`.
* Ubuntu/Debian: `sudo apt update && sudo apt install -y ffmpeg`.

2. Установите интерфейс командной строки:

`pip install qwen3-asr-toolkit`

3. Настройте учётные данные:

`# International endpoint key`
`export DASHSCOPEAPIKEY=»sk-…»`

4. Запустите:

`# Basic: локальное видео, по умолчанию 4 потока`
`qwen3-asr -i «/path/to/lecture.mp4″`

`# Faster: увеличьте параллелизм и передайте ключ явно (необязательно, если переменная env установлена)`
`qwen3-asr -i «/path/to/podcast.wav» -j 8 -key «sk-…»`

`# Улучшите точность домена с помощью контекста`
`qwen3-asr -i «/path/to/earnings_call.m4a» \`
`-c «tickers, CFO name, product names, Q3 revenue guidance»`

Аргументы, которые вы будете использовать:

* `-i/—input-file` (путь к файлу или URL-адрес http/https),
* `-j/—num-threads`,
* `-c/—context`,
* `-key/—dashscope-api-key`,
* `-t/—tmp-dir`,
* `-s/—silence`.

Вывод печатается и сохраняется как `.txt`.

Минимальная архитектура конвейера

1. Загрузите локальный файл или URL-адрес.
2. VAD для поиска границ тишины.
3. Разбейте на фрагменты под ограничения API.
4. Передискретизируйте до 16 кГц моно.
5. Параллельно отправьте в DashScope.
6. Объедините сегменты по порядку.
7. Пост-обработка текста (удаление дубликатов, повторений).
8. Выведите транскрипцию в формате .txt.

Резюме

Qwen3-ASR-Toolkit превращает Qwen3-ASR-Flash в практичный конвейер для работы с длинными аудио, сочетая сегментацию на основе VAD, нормализацию FFmpeg (моно/16 кГц) и параллельный API-диспетчер в рамках ограничений в 3 минуты/10 МБ. Команды получают детерминированный фрагментирование, настраиваемую пропускную способность и дополнительные возможности управления контекстом/LID/ITN без необходимости в индивидуальной оркестровке.

Для производства закрепите версию пакета, проверьте региональные конечные точки/ключи и настройте количество потоков в соответствии с вашей сетью и QPS — затем установите `pip install qwen3-asr-toolkit` и используйте.

Ознакомьтесь с кодами на странице GitHub. Не стесняйтесь посетить нашу страницу GitHub, чтобы посмотреть учебные пособия, коды и ноутбуки. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.

1. Какие технические проблемы решает Qwen3-ASR-Toolkit при работе с API Qwen-ASR?

Ответ: Qwen3-ASR-Toolkit решает проблему ограничения API Qwen3-ASR-Flash в 3 минуты и 10 МБ на запрос. Он использует сегментацию с учётом голосовой активности (VAD), параллельные вызовы API и автоматическую передискретизацию/нормализацию формата с помощью FFmpeg для обработки длинных аудио и повышения пропускной способности.

2. Какие функции Qwen3-ASR-Toolkit позволяют работать с длинными аудиофайлами?

Ответ: Qwen3-ASR-Toolkit позволяет работать с длинными аудиофайлами благодаря функции обработки длинных аудио. Инструментарий разделяет входные данные с помощью детектора голосовой активности (VAD) на естественные паузы, сохраняя каждый фрагмент в пределах жёстких ограничений по длительности/размеру API, а затем последовательно объединяет выходные данные.

3. Какие аргументы можно использовать при запуске Qwen3-ASR-Toolkit?

Ответ: При запуске Qwen3-ASR-Toolkit можно использовать следующие аргументы:
* `-i/—input-file` (путь к файлу или URL-адрес http/https),
* `-j/—num-threads`,
* `-c/—context`,
* `-key/—dashscope-api-key`,
* `-t/—tmp-dir`,
* `-s/—silence`.

4. Какие шаги включает минимальная архитектура конвейера при работе с Qwen3-ASR-Toolkit?

Ответ: Минимальная архитектура конвейера при работе с Qwen3-ASR-Toolkit включает следующие шаги:
1. Загрузка локального файла или URL-адреса.
2. Использование VAD для поиска границ тишины.
3. Разбиение на фрагменты под ограничения API.
4. Передискретизация до 16 кГц моно.
5. Параллельная отправка в DashScope.
6. Объединение сегментов по порядку.
7. Пост-обработка текста (удаление дубликатов, повторений).
8. Вывод транскрипции в формате .txt.

5. Какие предварительные требования необходимо установить перед использованием Qwen3-ASR-Toolkit?

Ответ: Перед использованием Qwen3-ASR-Toolkit необходимо установить предварительные требования, включая доступность FFmpeg. Для macOS используется команда `brew install ffmpeg`, а для Ubuntu/Debian — `sudo apt update && sudo apt install -y ffmpeg`.

Источник