Встречайте лидеров в области больших языковых моделей в Южной Корее: HyperClova, AX, Solar Pro и другие

Южная Корея стремительно закрепляет за собой статус ключевого инноватора в области больших языковых моделей (LLM), благодаря стратегическим государственным инвестициям, корпоративным исследованиям и сотрудничеству в области открытых источников для создания моделей, адаптированных для обработки корейского языка и применения внутри страны. Такой подход помогает снизить зависимость от иностранных технологий искусственного интеллекта, повышает конфиденциальность данных и поддерживает такие секторы, как здравоохранение, образование и телекоммуникации.

Государственная поддержка суверенного ИИ

В 2025 году Министерство науки и связи инициировало программу на 240 миллиардов вон, выбрав пять консорциумов — во главе с Naver Cloud, SK Telecom, Upstage, LG AI Research и NC AI — для разработки суверенных LLM, способных работать на местной инфраструктуре.

Регуляторные достижения включают в себя рекомендации Министерства безопасности пищевых продуктов и лекарств по утверждению медицинских ИИ, генерирующих текст, что стало первой подобной структурой в мире в начале 2025 года.

Корпоративные и академические инновации

SK Telecom представила AX 3.1 Lite — модель с 7 миллиардами параметров, обученную с нуля на 1,65 триллиона многоязычных токенов с сильным акцентом на корейский язык. Она достигает примерно 96% производительности на KMMLU2 для корейского языка и 102% на CLIcK3 для понимания культуры по сравнению с более крупными моделями. Модель доступна в открытом доступе на Hugging Face для мобильных устройств и для использования на устройствах.

Naver продвинула серию HyperClova с HyperClova X Think в июне 2025 года, улучшив возможности поиска и ведения диалогов на корейском языке.

Solar Pro 2 от Upstage занимает первое место среди корейских участников в рейтинге Frontier LM Intelligence, демонстрируя эффективность, сравнимую с более крупными международными моделями.

LG AI Research запустила Exaone 4.0 в июле 2025 года, которая показывает конкурентоспособность в мировых бенчмарках с дизайном на 30 миллиардов параметров.

Больница Сеульского национального университета разработала первую в Корее медицинскую LLM, обученную на 38 миллионах обезличенных клинических записей, набрав 86,2% на экзамене по медицинскому лицензированию в Корее по сравнению со средним показателем для человека в 79,7%.

Mathpresso и Upstage совместно разработали MATH GPT — небольшую LLM с 13 миллиардами параметров, которая превосходит GPT-4 в математических тестах с точностью 0,488 по сравнению с 0,425, используя значительно меньше вычислительных ресурсов.

Инициативы в области открытых исходников, такие как Polyglot-Ko (от 1,3 до 12,8 миллиардов параметров) и Gecko-7B, устраняют пробелы, постоянно обучаясь на корейских наборах данных для обработки лингвистических нюансов, таких как переключение кодов.

Технические тенденции

Корейские разработчики делают упор на эффективность, оптимизируя соотношение токенов и параметров, вдохновлённое масштабированием Chinchilla, чтобы модели с 7–30 миллиардами параметров могли конкурировать с более крупными западными аналогами, несмотря на ограниченные ресурсы.

Адаптация к конкретным областям даёт превосходные результаты в целевых областях, как это видно на примере медицинской LLM из больницы Сеульского национального университета и MATH GPT для математики.

Прогресс измеряется с помощью бенчмарков, включая KMMLU2, CLIcK3 для культурной релевантности и рейтинг лидеров Frontier LM, подтверждающий паритет с передовыми глобальными системами.

Перспективы рынка

Прогнозируется, что рынок LLM в Южной Корее расширится с 182,4 миллиона долларов США в 2024 году до 1 278,3 миллиона долларов США к 2030 году, что отражает среднегодовой темп роста в 39,4%, в основном за счёт чат-ботов, виртуальных помощников и инструментов для анализа настроений. Интеграция периферийных вычислений LLM телекоммуникационными компаниями поддерживает снижение задержки и повышение безопасности данных в рамках таких инициатив, как AI Infrastructure Superhighway.

Модели больших языковых моделей в Южной Корее

| Модель | Разработчик / Ведущее учреждение | Количество параметров | Примечательный фокус |
|——-|——-|——-|——-|
| AX 3.1 Lite | SK Telecom | 7 миллиардов | Мобильная обработка и применение на устройствах для корейской обработки |
| AX 4.0 Lite | SK Telecom | 72 миллиарда | Масштабируемые суверенные приложения |
| HyperClova X Think | Naver | ~204 миллиарда (оценка) | Корейский поиск и диалог |
| Solar Pro 2 | Upstage | ~30 миллиардов (оценка) | Общая эффективность на мировых рейтингах |
| MATH GPT | Mathpresso + Upstage | 13 миллиардов | Специализация в математике |
| Exaone 4.0 | LG AI Research | 30 миллиардов | Мультимодальные возможности ИИ |
| Polyglot-Ko | EleutherAI + KIFAI | 1,3–12,8 миллиарда | Корейский открытый исходный код |
| Gecko-7B | Beomi community | 7 миллиардов | Непрерывное предварительное обучение для корейского языка |
| SNUH Medical LLM | Сеульский национальный университет | Нераскрыто (~15 миллиардов) | Поддержка клинических и медицинских решений |

Эти разработки подчёркивают подход Южной Кореи к созданию эффективных, культурно релевантных моделей ИИ, которые укрепляют её позиции на мировом технологическом ландшафте.

Источники:
* https://www.cnbc.com/2025/08/08/south-korea-to-launch-national-ai-model-in-race-with-us-and-china.html
* https://www.forbes.com/sites/ronschmelzer/2025/07/16/sk-telecom-releases-a-korean-sovereign-llm-built-from-scratch/
* https://www.kjronline.org/pdf/10.3348/kjr.2025.0257
* https://www.rcrwireless.com/20250714/ai/sk-telecom-ai-3
* https://huggingface.co/skt/A.X-3.1-Light
* https://www.koreaherald.com/article/10554340
* http://www.mobihealthnews.com/news/asia/seoul-national-university-hospital-builds-korean-medical-llm
* https://www.chosun.com/english/industry-en/2024/05/03/67DRPIFMXND4NEYXNFJYA7QZRA/
* https://huggingface.co/blog/amphora/navigating-ko-llm-research-1
* https://www.grandviewresearch.com/horizon/outlook/large-language-model-market/south-korea

1. Какие государственные программы и инициативы способствуют развитию больших языковых моделей в Южной Корее?

В статье упоминается, что в 2025 году Министерство науки и связи инициировало программу на 240 миллиардов вон для разработки суверенных LLM. Пять консорциумов, включая Naver Cloud, SK Telecom, Upstage, LG AI Research и NC AI, были выбраны для разработки моделей, способных работать на местной инфраструктуре.

2. Какие компании и учреждения в Южной Корее занимаются разработкой больших языковых моделей?

В статье перечислены следующие компании и учреждения, занимающиеся разработкой больших языковых моделей: SK Telecom (AX 3.1 Lite), Naver (HyperClova X Think), Upstage (Solar Pro 2), LG AI Research (Exaone 4.0), Сеульский национальный университет (медицинская LLM), Mathpresso и Upstage (MATH GPT).

3. Какие технические тенденции наблюдаются в разработке больших языковых моделей в Южной Корее?

Корейские разработчики делают упор на эффективность, оптимизируя соотношение токенов и параметров. Они вдохновляются масштабированием Chinchilla, чтобы модели с 7–30 миллиардами параметров могли конкурировать с более крупными западными аналогами, несмотря на ограниченные ресурсы. Адаптация к конкретным областям даёт превосходные результаты в целевых областях.

4. Какие перспективы рынка больших языковых моделей в Южной Корее?

Прогнозируется, что рынок LLM в Южной Корее расширится с 182,4 миллиона долларов США в 2024 году до 1 278,3 миллиона долларов США к 2030 году. Среднегодовой темп роста составит 39,4%, в основном за счёт чат-ботов, виртуальных помощников и инструментов для анализа настроений.

5. Какие модели больших языковых моделей были разработаны в Южной Корее и какие у них особенности?

В статье перечислены следующие модели больших языковых моделей:
* AX 3.1 Lite от SK Telecom — модель с 7 миллиардами параметров, обученная с нуля на 1,65 триллиона многоязычных токенов с сильным акцентом на корейский язык.
* HyperClova X Think от Naver — улучшенные возможности поиска и ведения диалогов на корейском языке.
* Solar Pro 2 от Upstage — модель, занимающая первое место среди корейских участников в рейтинге Frontier LM Intelligence.
* Exaone 4.0 от LG AI Research — модель с дизайном на 30 миллиардов параметров, показывающая конкурентоспособность в мировых бенчмарках.
* MATH GPT от Mathpresso и Upstage — модель с 13 миллиардами параметров, превосходящая GPT-4 в математических тестах.
* SNUH Medical LLM от Сеульского национального университета — модель, обученная на 38 миллионах обезличенных клинических записей.

Источник