DeepCoder-14B-Preview: революция в генерации кода с помощью искусственного интеллекта

Спрос на интеллектуальную генерацию кода и автоматизированные решения в программировании резко возрос из-за усложнения программного обеспечения и необходимости повышения продуктивности разработчиков. Хотя в области обработки естественного языка и моделей общего рассуждения произошли значительные прорывы, в сфере кодирования прогресс был более медленным. Это отставание в основном объясняется нехваткой высококачественных, проверяемых наборов данных, критически важных для эффективного обучения систем на основе RL (reinforcement learning — обучение с подкреплением).

В отличие от математических задач, которые выигрывают от наличия множества структурированных, проверяемых примеров в интернете, задачи по кодированию часто страдают от шума, недостаточного тестового покрытия и невозможности верификации выходных данных. Поэтому улучшение больших языковых моделей (LLM) для генерации кода до сих пор оставалось сложной задачей.

**DeepCoder-14B-Preview**

Together AI в сотрудничестве с командой Agentica выпустила модель DeepCoder-14B-Preview. Эта мощная модель была дообучена на основе DeepSeek-R1-Distilled-Qwen-14B с использованием распределённого обучения с подкреплением и демонстрирует значительный прогресс в рассуждении о коде. С точностью Pass@1 60,6% на LiveCodeBench (LCB) модель DeepCoder-14B-Preview не только сокращает разрыв с ведущими моделями, такими как o3-mini-2025, но и достигает их уровня производительности, используя всего 14 миллиардов параметров. Это заметное достижение в эффективности и возможностях.

**Результаты и сравнение**

– DeepSeek-R1-Distill-Qwen-14B показывает результат 53,0% на LCB.
– DeepCoder-14B-Preview демонстрирует повышение точности на 8% по сравнению с базовой моделью.
– Модель конкурирует с признанными моделями, такими как o3-mini (60,9%) и o1-2024-12-17 (59,5%) по точности и мастерству кодирования.
– По показателям соревновательного кодирования модель достигает рейтинга Codeforces 1936 и процентиля 95,3%, что является явным показателем её компетенции в реальном мире.

**Обучение модели**

Модель обучалась в течение 2,5 недель на 32 графических процессорах H100 с использованием тщательно подобранного набора данных из 24 000 проверяемых задач по кодированию. Этот набор данных был создан путём тщательного отбора существующих ресурсов для обеспечения качества и разнообразия. Он объединяет задачи из набора TACO Verified, SYNTHETIC-1 от PrimeIntellect и записи из LiveCodeBench, отправленные в период с мая 2023 года по июль 2024 года. Процесс отбора подчёркивал программную верификацию тестовых случаев, минимум пять модульных тестов на задачу и дедупликацию для избежания загрязнения данных. Это помогло сохранить целостность обучения и максимизировать эффективность RL.

Для облегчения такого уровня валидации обучение DeepCoder включало масштабируемую среду песочницы для кода, способную выполнять массовые параллельные оценки. Более 1000 задач по кодированию оценивались на каждом шаге RL с использованием двух надёжных песочниц: Together Code Interpreter и локальной песочницы. Эти среды гарантировали, что каждое решение, сгенерированное моделью, тщательно тестировалось на множестве модульных тестов, отсеивая хакерство с наградами и поощряя подлинное рассуждение, а не запоминание.

**Оптимизация системы**

Архитектура системы, поддерживающая DeepCoder, была оптимизирована с помощью «verl-pipe» — обновлённого расширения посттренировочного RL-пайплайна, которое удвоило скорость обучения за счёт системных улучшений. Это усовершенствование ускоряет циклы разработки и предоставляет модульную структуру для тех, кто хочет создавать или повторять подобные LLM в экосистемах с открытым исходным кодом.

**Основные выводы**

– DeepCoder-14B-Preview достигает точности Pass@1 60,6% на LiveCodeBench, сравнимой с производительностью o3-mini, используя меньше параметров.
– Обучение модели опиралось на 24 тысячи проверяемых задач по кодированию, тщательно отобранных для исключения шума и хакерства с наградами.
– Модель обучалась на 32 графических процессорах H100 в течение 2,5 недель, подчёркивая воспроизводимость и системную эффективность.
– Среда с двумя песочницами обеспечивала точную и масштабируемую верификацию кода во время обучения.
– Оптимизация системы через verl-pipe удвоила скорость обучения и предоставила повторно используемый пайплайн для будущих моделей.
– DeepCoder полностью имеет открытый исходный код, включая наборы данных, код и журналы обучения, что открывает путь для разработки сообществом.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *