Qwen выпустила Qwen3-ASR-Toolkit — это Python CLI с лицензией MIT, который программно обходит ограничение Qwen3-ASR-Flash API в 3 минуты и 10 МБ на запрос. Для этого используются сегментация с учётом голосовой активности (VAD), параллельные вызовы API и автоматическая передискретизация/нормализация формата с помощью FFmpeg.
Что добавляет инструментарий поверх API
* Обработка длинных аудио. Инструментарий разделяет входные данные с помощью детектора голосовой активности (VAD) на естественные паузы, сохраняя каждый фрагмент в пределах жёстких ограничений по длительности/размеру API, а затем последовательно объединяет выходные данные.
* Параллельная пропускная способность. Пул потоков одновременно отправляет несколько фрагментов в конечные точки DashScope, сокращая время ожидания для часовых входов. Вы управляете параллелизмом с помощью -j/–num-threads.
* Нормализация формата и частоты дискретизации. Любой распространённый аудио/видеоконтейнер (MP4/MOV/MKV/MP3/WAV/M4A и т. д.) преобразуется в требуемый API моно 16 кГц перед отправкой. Для этого требуется, чтобы FFmpeg был установлен в PATH.
* Очистка текста и контекст. Инструмент включает постобработку для уменьшения повторений/галлюцинаций и поддерживает внедрение контекста для смещения распознавания в сторону доменных терминов; базовый API также предоставляет переключатели для обнаружения языка и обратной нормализации текста (ITN).
Краткое руководство
1. Установите предварительные требования:
* Система: FFmpeg должен быть доступен.
* macOS: `brew install ffmpeg`.
* Ubuntu/Debian: `sudo apt update && sudo apt install -y ffmpeg`.
2. Установите интерфейс командной строки:
`pip install qwen3-asr-toolkit`
3. Настройте учётные данные:
`# International endpoint key`
`export DASHSCOPEAPIKEY=”sk-…”`
4. Запустите:
`# Basic: локальное видео, по умолчанию 4 потока`
`qwen3-asr -i “/path/to/lecture.mp4″`
`# Faster: увеличьте параллелизм и передайте ключ явно (необязательно, если переменная env установлена)`
`qwen3-asr -i “/path/to/podcast.wav” -j 8 -key “sk-…”`
`# Улучшите точность домена с помощью контекста`
`qwen3-asr -i “/path/to/earnings_call.m4a” \`
`-c “tickers, CFO name, product names, Q3 revenue guidance”`
Аргументы, которые вы будете использовать:
* `-i/–input-file` (путь к файлу или URL-адрес http/https),
* `-j/–num-threads`,
* `-c/–context`,
* `-key/–dashscope-api-key`,
* `-t/–tmp-dir`,
* `-s/–silence`.
Вывод печатается и сохраняется как `
Минимальная архитектура конвейера
1. Загрузите локальный файл или URL-адрес.
2. VAD для поиска границ тишины.
3. Разбейте на фрагменты под ограничения API.
4. Передискретизируйте до 16 кГц моно.
5. Параллельно отправьте в DashScope.
6. Объедините сегменты по порядку.
7. Пост-обработка текста (удаление дубликатов, повторений).
8. Выведите транскрипцию в формате .txt.
Резюме
Qwen3-ASR-Toolkit превращает Qwen3-ASR-Flash в практичный конвейер для работы с длинными аудио, сочетая сегментацию на основе VAD, нормализацию FFmpeg (моно/16 кГц) и параллельный API-диспетчер в рамках ограничений в 3 минуты/10 МБ. Команды получают детерминированный фрагментирование, настраиваемую пропускную способность и дополнительные возможности управления контекстом/LID/ITN без необходимости в индивидуальной оркестровке.
Для производства закрепите версию пакета, проверьте региональные конечные точки/ключи и настройте количество потоков в соответствии с вашей сетью и QPS — затем установите `pip install qwen3-asr-toolkit` и используйте.
Ознакомьтесь с кодами на странице GitHub. Не стесняйтесь посетить нашу страницу GitHub, чтобы посмотреть учебные пособия, коды и ноутбуки. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.
1. Какие технические проблемы решает Qwen3-ASR-Toolkit при работе с API Qwen-ASR?
Ответ: Qwen3-ASR-Toolkit решает проблему ограничения API Qwen3-ASR-Flash в 3 минуты и 10 МБ на запрос. Он использует сегментацию с учётом голосовой активности (VAD), параллельные вызовы API и автоматическую передискретизацию/нормализацию формата с помощью FFmpeg для обработки длинных аудио и повышения пропускной способности.
2. Какие функции Qwen3-ASR-Toolkit позволяют работать с длинными аудиофайлами?
Ответ: Qwen3-ASR-Toolkit позволяет работать с длинными аудиофайлами благодаря функции обработки длинных аудио. Инструментарий разделяет входные данные с помощью детектора голосовой активности (VAD) на естественные паузы, сохраняя каждый фрагмент в пределах жёстких ограничений по длительности/размеру API, а затем последовательно объединяет выходные данные.
3. Какие аргументы можно использовать при запуске Qwen3-ASR-Toolkit?
Ответ: При запуске Qwen3-ASR-Toolkit можно использовать следующие аргументы:
* `-i/–input-file` (путь к файлу или URL-адрес http/https),
* `-j/–num-threads`,
* `-c/–context`,
* `-key/–dashscope-api-key`,
* `-t/–tmp-dir`,
* `-s/–silence`.
4. Какие шаги включает минимальная архитектура конвейера при работе с Qwen3-ASR-Toolkit?
Ответ: Минимальная архитектура конвейера при работе с Qwen3-ASR-Toolkit включает следующие шаги:
1. Загрузка локального файла или URL-адреса.
2. Использование VAD для поиска границ тишины.
3. Разбиение на фрагменты под ограничения API.
4. Передискретизация до 16 кГц моно.
5. Параллельная отправка в DashScope.
6. Объединение сегментов по порядку.
7. Пост-обработка текста (удаление дубликатов, повторений).
8. Вывод транскрипции в формате .txt.
5. Какие предварительные требования необходимо установить перед использованием Qwen3-ASR-Toolkit?
Ответ: Перед использованием Qwen3-ASR-Toolkit необходимо установить предварительные требования, включая доступность FFmpeg. Для macOS используется команда `brew install ffmpeg`, а для Ubuntu/Debian — `sudo apt update && sudo apt install -y ffmpeg`.