Латвийская технологическая компания Tilde выпустила TildeOpen LLM — большую языковую модель (LLM) с открытым исходным кодом, специально разработанную для европейских языков, с особым вниманием к недостаточно представленным национальным и региональным языкам. Это стратегический шаг к обеспечению языкового равенства и цифрового суверенитета в ЕС.
Архитектура, обучение и управление
Публичный релиз состоялся 3 сентября 2025 года, когда Tilde предоставила модель бесплатно пользователям через Hugging Face.
Модель построена как плотный декодер-трансформер с 30 миллиардами параметров. Она доступна под разрешительной лицензией (CC-BY-4.0) и включает широкую языковую поддержку — от латышского и литовского до украинского, турецкого и других.
Обучение проводилось на суперкомпьютерах ЕС: LUMI (Финляндия) и JUPITER, используя 2 миллиона часов GPU, предоставленных в рамках Европейского конкурса крупных проектов в области искусственного интеллекта (Large AI Grand Challenge).
* Технические подробности: обучение проводилось с помощью скриптов, вдохновлённых GPT-NeoX от EleutherAI, через 450 тысяч обновлений, потребляя около 2 триллионов токенов. Обучение включало трёхэтапную выборку: равномерное распределение по языкам, естественное распределение для повышения производительности языков с большим объёмом данных и окончательная равномерная выборка для баланса.
* Гиперпараметры: 60 слоёв, размер встраивания 6144, 48 блоков внимания, контекстное окно на 8192 токена, активации SwiGLU, позиционное кодирование RoPE, нормы слоя RMSNorm.
Языковое равенство и суверенитет данных
Основные модели искусственного интеллекта в значительной степени опираются на английский и другие основные языки, что приводит к снижению производительности при работе с балтийскими, славянскими и другими меньшими европейскими языками. Это недопредставление приводит к плохой грамматике, неуклюжим формулировкам и галлюцинациям.
TildeOpen решает эту проблему, встраивая «справедливый токенизатор», разработанный для представления текста одинаково независимо от языка, что сокращает количество токенов и повышает эффективность вывода для менее представленных языков.
Важно отметить, что организации могут размещать модель у себя — в локальных центрах обработки данных или в облаках, соответствующих требованиям ЕС, — обеспечивая соблюдение GDPR и других требований по защите данных. Это решает проблемы суверенитета, связанные с моделями, размещёнными в США или Азии.
Стратегический горизонт: от прототипа к европейской инфраструктуре искусственного интеллекта
TildeOpen — это фундаментальная «базовая» модель. Ожидается, что в будущих версиях будут более специализированные модели (например, настроенные на инструкции модели перевода), созданные на основе этого ядра.
Это также момент, когда Латвия, через Tilde, позиционирует себя как экспортёра технологий, стремясь масштабировать европейскую инфраструктуру искусственного интеллекта, сохраняя при этом языковое разнообразие.
Для исследований этот шаг отражает более широкие исследования поведения многоязычных моделей — пробелы всё ещё существуют. Оценки показывают, что даже сильные открытые LLM могут галлюцинировать или отставать в лексической точности для балтийских языков, что усиливает необходимость локализованной разработки.
Резюме
TildeOpen LLM переосмысливает ЕС в сфере искусственного интеллекта — не только как соблюдение нормативных требований, но и как техническое управление. Это обоснованная модель большой ёмкости с прозрачной архитектурой, масштабируемым развёртыванием и твёрдой приверженностью к языковому равенству. Она не поддаётся шумихе; она обеспечивает содержание.
Часто задаваемые вопросы
Q1: Что такое TildeOpen LLM?
TildeOpen — это большая языковая модель с открытым исходным кодом, обученная на суперкомпьютерах ЕС, оптимизированная для европейских языков, особенно для недостаточно представленных.
Q2: Чем она отличается от основных LLM?
В отличие от глобальных моделей, которые отдают приоритет английскому языку, TildeOpen использует справедливый токенизатор и сбалансированное обучение для обеспечения справедливого представления и точности для меньших европейских языков.
Q3: Могут ли организации размещать модель у себя?
Да. TildeOpen с открытым исходным кодом под CC-BY-4.0 может быть развёрнута в локальных центрах обработки данных или в облаках, соответствующих требованиям ЕС, для соответствия GDPR и требованиям суверенитета данных.
Q4: Каковы основные варианты использования?
Правительственные услуги, перевод, образование, ИИ-ассистенты, речевые технологии и многоязычная поддержка клиентов — любая область, требующая точной обработки европейских языков.
1. Какие технические характеристики отличают TildeOpen LLM от других языковых моделей?
TildeOpen LLM отличается от других языковых моделей своей архитектурой — это плотный декодер-трансформер с 30 миллиардами параметров. Она обучена на суперкомпьютерах ЕС с использованием 2 миллионов часов GPU и включает широкую языковую поддержку — от латышского и литовского до украинского, турецкого и других европейских языков.
2. Какие проблемы решает TildeOpen LLM в контексте языкового равенства и цифрового суверенитета в ЕС?
TildeOpen LLM решает проблему недопредставленности меньших европейских языков в основных моделях искусственного интеллекта. Она использует «справедливый токенизатор», разработанный для представления текста одинаково независимо от языка, что сокращает количество токенов и повышает эффективность вывода для менее представленных языков. Это обеспечивает языковое равенство и цифровой суверенитет в ЕС.
3. Какие возможности предоставляет TildeOpen LLM для организаций?
Организации могут размещать TildeOpen LLM у себя — в локальных центрах обработки данных или в облаках, соответствующих требованиям ЕС, — обеспечивая соблюдение GDPR и других требований по защите данных. Это решает проблемы суверенитета, связанные с моделями, размещёнными в США или Азии. Кроме того, TildeOpen LLM может быть использована в правительственных услугах, переводе, образовании, ИИ-ассистентах, речевых технологиях и многоязычной поддержке клиентов.
4. Какие перспективы развития у TildeOpen LLM?
Ожидается, что в будущих версиях TildeOpen LLM будут более специализированные модели, созданные на основе этого ядра. Это отражает стремление Латвии, через Tilde, масштабировать европейскую инфраструктуру искусственного интеллекта, сохраняя при этом языковое разнообразие.