BentoML выпустила llm-optimizer: инструмент с открытым исходным кодом для тестирования и оптимизации больших языковых моделей

BentoML недавно выпустила llm-optimizer — фреймворк с открытым исходным кодом, предназначенный для оптимизации тестирования и настройки производительности самостоятельно размещаемых больших языковых моделей (LLM). Инструмент решает распространённую проблему при развёртывании LLM: поиск оптимальных конфигураций для задержки, пропускной способности и затрат без необходимости ручного подбора методом проб и ошибок. Почему настройка производительности LLM сложна? Настройка вывода LLM … Читать далее

Deepdub представляет Lightning 2.5: модель голоса в реальном времени с увеличением производительности в 2,8 раза для масштабируемых ИИ-агентов и корпоративного ИИ

Израильский стартап Deepdub представил Lightning 2.5 — базовую модель голоса в реальном времени, предназначенную для масштабируемых приложений голосового взаимодействия производственного уровня. Производительность и эффективность Lightning 2.5 обеспечивает в 2,8 раза более высокую пропускную способность по сравнению с предыдущими версиями и в 5 раз эффективнее использует вычислительные ресурсы. Задержка составляет всего 200 миллисекунд — примерно на … Читать далее

TwinMind представляет модель Ear-3: новую модель голосового ИИ, которая устанавливает новые рекорды в отрасли по точности, определению говорящих, поддержке языков и цене

Компания TwinMind, стартап из Калифорнии, специализирующийся на голосовом ИИ, представила модель распознавания речи Ear-3. Компания заявляет о передовых показателях по нескольким ключевым метрикам и расширенной многоязычной поддержке. Выпуск позиционирует Ear-3 как конкурентоспособное предложение по сравнению с существующими решениями для автоматического распознавания речи (ASR) от таких провайдеров, как Deepgram, AssemblyAI, Eleven Labs, Otter, Speechmatics и OpenAI. … Читать далее

Заявление о некоммерческой организации и публичной компании с ограниченной ответственностью OpenAI. Совместное заявление OpenAI и Microsoft.

OpenAI вновь подтверждает лидерство своей некоммерческой организации с новой структурой, предоставляющей долю в её публичной компании с ограниченной ответственностью. Это позволит привлечь более 100 миллиардов долларов ресурсов для развития безопасного и полезного для человечества искусственного интеллекта. OpenAI и Microsoft подписывают новый меморандум о взаимопонимании, укрепляя своё партнёрство и общую приверженность безопасности и инновациям в сфере … Читать далее

Что такое модели оптического распознавания символов (OCR)? Лучшие модели OCR с открытым исходным кодом

Оптическое распознавание символов (OCR) — это процесс преобразования изображений, содержащих текст (например, отсканированных страниц, квитанций или фотографий), в машиночитаемый текст. То, что начиналось как хрупкие системы, основанные на правилах, превратилось в богатую экосистему нейронных архитектур и моделей, способных считывать сложные, многоязычные и рукописные документы. Как работает OCR? Каждая система OCR решает три основные задачи: 1. … Читать далее

OpenAI добавила полную поддержку инструментов MCP в режиме разработчика ChatGPT: включение действий по записи, автоматизация рабочих процессов и интеграция с корпоративными системами

Компания OpenAI только что представила значительное обновление режима разработчика ChatGPT, добавив полную поддержку инструментов Model Context Protocol (MCP). До настоящего времени интеграция MCP в ChatGPT ограничивалась операциями поиска и извлечения — по сути, только для чтения. С этим обновлением соединители MCP могут выполнять действия по записи, что означает, что разработчики теперь могут напрямую обновлять системы, … Читать далее

Знакомьтесь: mmBERT — языковая модель с единственным кодировщиком, предварительно обученная на 3 триллионах токенов многоязычного текста более чем на 1800 языках и работающая в 2–4 раза быстрее предыдущих моделей

Содержание 1. Зачем понадобился новый мультиязычный кодировщик?2. Понимание архитектуры mmBERT.3. Какие использовались данные и этапы обучения?4. Какие новые стратегии обучения были внедрены?5. Как mmBERT работает на бенчмарках?6. Как mmBERT справляется с языками с ограниченными ресурсами?7. Какой прирост эффективности обеспечивает mmBERT?8. Резюме. Зачем понадобился новый мультиязычный кодировщик? XLM-RoBERTa (XLM-R) более 5 лет доминировала в мультиязычном NLP … Читать далее

Создание продвинутых агентов MCP (Model Context Protocol) с мультиагентной координацией, учётом контекста и интеграцией Gemini

В этом руководстве мы рассмотрим процесс создания продвинутого агента MCP (Model Context Protocol), который будет работать в Jupyter или Google Colab. Мы разрабатываем систему с учётом практической применимости в реальных условиях, уделяя особое внимание мультиагентной координации, учёту контекста, управлению памятью и динамическому использованию инструментов. Импорт библиотек и настройка логгирования Мы начинаем с импорта основных библиотек … Читать далее

NVIDIA представляет Universal Deep Research (UDR): прототип фреймворка для масштабируемых и поддающихся аудиту агентов глубоких исследований

Почему существующие инструменты для глубоких исследований не соответствуют ожиданиям? Инструменты для глубоких исследований (DRT) вроде Gemini Deep Research, Perplexity, Deep Research от OpenAI и Grok DeepSearch используют жёсткие рабочие процессы, привязанные к фиксированной LLM. Хотя они эффективны, они накладывают строгие ограничения: пользователи не могут определять пользовательские стратегии, менять модели или применять протоколы, специфичные для предметной … Читать далее

Министерство энергетики США выбрало MIT для создания центра по моделированию высокоэнтальпийных взаимодействий жидкости и твёрдого тела в условиях эксаскейла

Национальное управление по ядерной безопасности Министерства энергетики США (DoE/NNSA) недавно объявило, что выбрало Массачусетский технологический институт (MIT) для создания нового исследовательского центра, посвящённого развитию прогнозного моделирования экстремальных условий, с которыми сталкиваются, например, при гиперзвуковом полёте и входе в атмосферу. Центр станет частью четвёртой фазы программы Predictive Science Academic Alliance Program (PSAAP-IV) NNSA, которая поддерживает передовые … Читать далее

Команда MCP выпускает предварительную версию «Реестра MCP»: федеративный уровень обнаружения для корпоративного ИИ

Оглавление Реестр как DNS для контекста ИИ Почему федеративная модель работает? Архитектура, модерация и основа открытого кода Резюме Часто задаваемые вопросы Команда Model Context Protocol (MCP) выпустила предварительную версию Реестра MCP — системы, которая может стать последним элементом головоломки для того, чтобы сделать корпоративный ИИ действительно готовым к промышленному использованию. Реестр как DNS для контекста … Читать далее

Создание конвейера для улучшения речи и автоматического распознавания речи (ASR) в Python с использованием SpeechBrain

В этом руководстве мы рассмотрим продвинутый, но практичный рабочий процесс с использованием SpeechBrain. Мы начнём с генерации собственных чистых образцов речи с помощью gTTS, намеренно добавим шум для имитации реальных сценариев, а затем применим модель SpeechBrain MetricGAN+ для улучшения аудио. После очистки аудио мы запустим автоматическое распознавание речи с помощью системы CRDNN с пересчётом языковой … Читать далее

Исследователи из MBZUAI выпустили K2 Think: открытую систему искусственного интеллекта для продвинутых рассуждений на 32 миллиарда параметров, превосходящую модели с в 20 раз большим количеством параметров

Команда исследователей из Института фундаментальных моделей MBZUAI и G42 выпустила K2 Think — открытую систему для продвинутых рассуждений в искусственном интеллекте с 32 миллиардами параметров. K2 Think объединяет:* долгосрочную тонкую настройку под наблюдением (long chain-of-thought supervised fine-tuning);* обучение с подкреплением на основе проверяемых вознаграждений (Reinforcement Learning with Verifiable Rewards, RLVR);* агентное планирование перед решением задачи;* … Читать далее

Доставка более умных агентов с каждой новой моделью.

Узнайте, как SafetyKit использует OpenAI GPT-5 для улучшения модерации контента, обеспечения соответствия стандартам и опережения устаревших систем безопасности с более высокой точностью. #GPT-5 1. Какие задачи решает SafetyKit с помощью OpenAI GPT-5? SafetyKit использует OpenAI GPT-5 для улучшения модерации контента, обеспечения соответствия стандартам и опережения устаревших систем безопасности. 2. В чём преимущество использования GPT-5 по … Читать далее

Команда Alibaba Qwen выпускает Qwen3-ASR: новая модель для распознавания речи

Команда Alibaba Cloud’s Qwen представила Qwen3-ASR Flash — универсальную модель для автоматического распознавания речи (ASR), построенную на основе сильного искусственного интеллекта Qwen3-Omni. Эта модель упрощает многоязычную, шумную и специализированную транскрипцию без необходимости использования нескольких систем. Основные возможности Многоязычное распознавание: поддерживает автоматическое определение и транскрипцию на 11 языках, включая английский и китайский, а также арабский, немецкий, … Читать далее

Топ-7 серверов Model Context Protocol (MCP) для Vibe Coding

Современная разработка программного обеспечения переходит от статичных рабочих процессов к динамичному программированию с участием агентов. В центре этого перехода — Model Context Protocol (MCP), стандарт для подключения агентов искусственного интеллекта к внешним инструментам, данным и сервисам. MCP предоставляет структурированный способ для больших языковых моделей (LLM) запрашивать, использовать и сохранять контекст. Это делает сессии кодирования более … Читать далее

ParaThinker: масштабирование вычислений LLM во время тестирования с помощью нативного параллельного мышления для преодоления туннельного зрения в последовательных рассуждениях

Почему последовательные LLM сталкиваются с узким местом? Масштабирование вычислений во время тестирования в LLM традиционно основывалось на расширении отдельных путей рассуждений. Хотя этот подход улучшает рассуждения в ограниченном диапазоне, производительность быстро достигает плато. Эксперименты на DeepSeek-R1-distill-Qwen-1.5B показывают, что увеличение бюджета токенов свыше 32 тыс. (до 128 тыс.) даёт незначительный прирост точности. Узкое место возникает из-за … Читать далее

Как создать полнофункционального мультидоменного веб-агента на базе искусственного интеллекта с помощью Notte и Gemini

В этом руководстве мы покажем, как создать продвинутую реализацию веб-агента Notte AI, интегрировав Gemini API для обеспечения рассуждений и автоматизации. Объединив возможности автоматизации браузера Notte со структурированными результатами через модели Pydantic, мы покажем, как веб-агент с искусственным интеллектом может исследовать продукты, отслеживать социальные сети, анализировать рынки, сканировать вакансии и многое другое. Установка зависимостей Для начала … Читать далее

Фонд OpenAI «ИИ для людей» — 50 миллионов долларов на поддержку некоммерческих организаций

Открыт приём заявок в фонд OpenAI «ИИ для людей». Инициатива предусматривает выделение 50 миллионов долларов некоммерческим организациям США, которые занимаются продвижением образования, инновациями на уровне сообществ и созданием экономических возможностей. Заявки принимаются до 8 октября 2025 года. Гранты не ограничены по условиям и помогут сообществам формировать искусственный интеллект на благо общества. 1. Какие цели преследует … Читать далее

GibsonAI выпускает Memori: SQL-ориентированный механизм памяти с открытым исходным кодом для агентов искусственного интеллекта

Когда мы думаем об интеллекте человека, память — это первое, что приходит на ум. Именно она позволяет нам учиться на опыте, адаптироваться к новым ситуациям и принимать более обоснованные решения с течением времени. Аналогично, агенты ИИ становятся умнее благодаря памяти. Например, агент может запоминать ваши прошлые покупки, бюджет, предпочтения и предлагать подарки друзьям на основе … Читать далее

Новое исследование MIT: обучение с подкреплением минимизирует катастрофическое забывание по сравнению с точной настройкой под контролем учителя

Что такое катастрофическое забывание в фундаментальных моделях? Фундаментальные модели отлично справляются с разнообразными задачами, но после развёртывания они в значительной степени статичны. Точная настройка под контролем учителя (SFT) на новых задачах часто приводит к катастрофическому забыванию — утрате ранее приобретённых способностей. Это ограничение препятствует созданию долгоживущих, постоянно совершенствующихся агентов искусственного интеллекта. Почему онлайн-обучение с подкреплением … Читать далее

Создание биоинформатического AI-агента с помощью Biopython для анализа ДНК и белков

В этом руководстве мы покажем, как создать продвинутого, но доступного AI-агента для биоинформатики, используя Biopython и популярные библиотеки Python, предназначенные для бесперебойной работы в Google Colab. Объединив извлечение последовательностей, молекулярный анализ, визуализацию, множественное выравнивание последовательностей, построение филогенетических деревьев и поиск мотивов в единый унифицированный класс, руководство предлагает практический подход для изучения всего спектра анализа биологических … Читать далее

Meta Superintelligence Labs представляет REFRAG: масштабирование RAG с увеличением контекста в 16 раз и ускорением декодирования в 31 раз

Meta Superintelligence Labs представила REFRAG (REpresentation For RAG) — фреймворк декодирования, который переосмысливает эффективность генерации с дополненным поиском (RAG). REFRAG расширяет окна контекста LLM в 16 раз и ускоряет время до первого токена (TTFT) до 30,85 раз без ущерба для точности. Почему длинный контекст является узким местом для LLM? Механизм внимания в больших языковых моделях … Читать далее

Tilde выпускает TildeOpen LLM: большая языковая модель с открытым исходным кодом с более чем 30 миллиардами параметров и поддержкой большинства европейских языков

Латвийская технологическая компания Tilde выпустила TildeOpen LLM — большую языковую модель (LLM) с открытым исходным кодом, специально разработанную для европейских языков, с особым вниманием к недостаточно представленным национальным и региональным языкам. Это стратегический шаг к обеспечению языкового равенства и цифрового суверенитета в ЕС. Архитектура, обучение и управление Публичный релиз состоялся 3 сентября 2025 года, когда … Читать далее

От предварительного обучения к пост-обучению: почему языковые модели галлюцинируют и как методы оценки усугубляют проблему

Языковые модели большого размера (LLM) очень часто генерируют «галлюцинации» — уверенные, но неверные результаты, которые кажутся правдоподобными. Несмотря на улучшения в методах обучения и архитектурах, галлюцинации сохраняются. Новое исследование от OpenAI даёт чёткое объяснение: галлюцинации возникают из-за статистических свойств обучения с учителем по сравнению с самообучением, а их сохранение усиливается из-за несогласованности оценочных критериев. Что … Читать далее

Искусственный интеллект и машинное обучение в инженерном проектировании

Оптимизация с помощью искусственного интеллекта предлагает множество преимуществ для инженеров-механиков, включая более быстрое и точное проектирование и моделирование, повышение эффективности, снижение затрат на разработку за счёт автоматизации процессов, а также улучшение прогнозного обслуживания и контроля качества. «Когда люди думают об инженерном деле, они представляют себе базовые механические инструменты, такие как молотки, и технику вроде автомобилей, … Читать далее

Реализация DeepSpeed для масштабируемых трансформеров: продвинутое обучение с использованием градиентной контрольной точки и параллелизма

В этом продвинутом руководстве по DeepSpeed мы предлагаем практическое ознакомление с передовыми методами оптимизации для эффективного обучения больших языковых моделей. Сочетая оптимизацию ZeRO, обучение со смешанной точностью, накопление градиента и продвинутые конфигурации DeepSpeed, руководство демонстрирует, как максимально использовать память GPU, сократить накладные расходы на обучение и обеспечить масштабирование моделей трансформеров в средах с ограниченными ресурсами, … Читать далее

Встречайте ARGUS: масштабируемая платформа искусственного интеллекта для обучения больших трансформеров-рекомендаторов до одного миллиарда параметров

Компания Яндекс представила ARGUS (AutoRegressive Generative User Sequential modeling) — крупномасштабную платформу на основе трансформеров для рекомендательных систем, которая масштабируется до одного миллиарда параметров. Этот прорыв ставит Яндекс в ряд немногих мировых технологических лидеров — наряду с Google, Netflix и Meta — которые успешно преодолели давние технические барьеры при масштабировании трансформеров-рекомендаторов. Преодоление технических барьеров в … Читать далее

Hugging Face представляет FineVision: новый открытый мультимодальный набор данных с 24 миллионами образцов для обучения Vision-Language моделей (VLM)

Компания Hugging Face выпустила FineVision — открытый мультимодальный набор данных, призванный установить новый стандарт для Vision-Language моделей (VLM). Основные характеристики FineVision:* 17,3 миллиона изображений;* 24,3 миллиона образцов;* 88,9 миллиона вопросно-ответных пар;* почти 10 миллиардов токенов ответов. FineVision объединяет более 200 источников в единый формат, тщательно отфильтрованный от дубликатов и загрязнений в бенчмарках. Почему FineVision важен … Читать далее

Alibaba представляет предварительный просмотр Qwen3-Max: модель Qwen с триллионом параметров, сверхбыстрой скоростью и качеством

Команда Qwen от Alibaba представила Qwen3-Max-Preview (Instruct) — новую флагманскую большую языковую модель с более чем триллионом параметров, крупнейшую на сегодняшний день. Она доступна через Qwen Chat, Alibaba Cloud API, OpenRouter и по умолчанию в инструменте Hugging Face AnyCoder. Как модель вписывается в сегодняшний ландшафт больших языковых моделей? Этот рубеж достигнут в то время, когда … Читать далее