Искусственный интеллект

Рубрика «Искусственный интеллект» на Neurosova.ru рассказывает о самых передовых алгоритмах и практических приложениях ИИ: от глубокого обучения до нейронных сетей и GPT-моделей. В разделе Искусственный интеллект вы найдёте обзоры современных исследовательских работ, кейсы внедрения ИИ в бизнесе и промышленности, а также интервью с ведущими разработчиками и учёными. Узнайте, как машинное зрение, обработка естественного языка и автономные системы меняют нашу жизнь уже сегодня.

BentoML выпустила llm-optimizer: инструмент с открытым исходным кодом для тестирования и оптимизации больших языковых моделей

12.09.2025 от Neuro Sova

BentoML недавно выпустила llm-optimizer — фреймворк с открытым исходным кодом, предназначенный для оптимизации тестирования и настройки производительности самостоятельно размещаемых больших языковых моделей (LLM). Инструмент решает распространённую проблему при развёртывании LLM: поиск оптимальных конфигураций для задержки, пропускной способности и затрат без необходимости ручного подбора методом проб и ошибок. Почему настройка производительности LLM сложна? Настройка вывода LLM … Читать далее

Deepdub представляет Lightning 2.5: модель голоса в реальном времени с увеличением производительности в 2,8 раза для масштабируемых ИИ-агентов и корпоративного ИИ

12.09.2025 от Neuro Sova

Израильский стартап Deepdub представил Lightning 2.5 — базовую модель голоса в реальном времени, предназначенную для масштабируемых приложений голосового взаимодействия производственного уровня. Производительность и эффективность Lightning 2.5 обеспечивает в 2,8 раза более высокую пропускную способность по сравнению с предыдущими версиями и в 5 раз эффективнее использует вычислительные ресурсы. Задержка составляет всего 200 миллисекунд — примерно на … Читать далее

TwinMind представляет модель Ear-3: новую модель голосового ИИ, которая устанавливает новые рекорды в отрасли по точности, определению говорящих, поддержке языков и цене

12.09.2025 от Neuro Sova

Компания TwinMind, стартап из Калифорнии, специализирующийся на голосовом ИИ, представила модель распознавания речи Ear-3. Компания заявляет о передовых показателях по нескольким ключевым метрикам и расширенной многоязычной поддержке. Выпуск позиционирует Ear-3 как конкурентоспособное предложение по сравнению с существующими решениями для автоматического распознавания речи (ASR) от таких провайдеров, как Deepgram, AssemblyAI, Eleven Labs, Otter, Speechmatics и OpenAI. … Читать далее

Заявление о некоммерческой организации и публичной компании с ограниченной ответственностью OpenAI. Совместное заявление OpenAI и Microsoft.

12.09.2025 от Neuro Sova

OpenAI вновь подтверждает лидерство своей некоммерческой организации с новой структурой, предоставляющей долю в её публичной компании с ограниченной ответственностью. Это позволит привлечь более 100 миллиардов долларов ресурсов для развития безопасного и полезного для человечества искусственного интеллекта. OpenAI и Microsoft подписывают новый меморандум о взаимопонимании, укрепляя своё партнёрство и общую приверженность безопасности и инновациям в сфере … Читать далее

Что такое модели оптического распознавания символов (OCR)? Лучшие модели OCR с открытым исходным кодом

11.09.2025 от Neuro Sova

Оптическое распознавание символов (OCR) — это процесс преобразования изображений, содержащих текст (например, отсканированных страниц, квитанций или фотографий), в машиночитаемый текст. То, что начиналось как хрупкие системы, основанные на правилах, превратилось в богатую экосистему нейронных архитектур и моделей, способных считывать сложные, многоязычные и рукописные документы. Как работает OCR? Каждая система OCR решает три основные задачи: 1. … Читать далее

OpenAI добавила полную поддержку инструментов MCP в режиме разработчика ChatGPT: включение действий по записи, автоматизация рабочих процессов и интеграция с корпоративными системами

11.09.2025 от Neuro Sova

Компания OpenAI только что представила значительное обновление режима разработчика ChatGPT, добавив полную поддержку инструментов Model Context Protocol (MCP). До настоящего времени интеграция MCP в ChatGPT ограничивалась операциями поиска и извлечения — по сути, только для чтения. С этим обновлением соединители MCP могут выполнять действия по записи, что означает, что разработчики теперь могут напрямую обновлять системы, … Читать далее

Знакомьтесь: mmBERT — языковая модель с единственным кодировщиком, предварительно обученная на 3 триллионах токенов многоязычного текста более чем на 1800 языках и работающая в 2–4 раза быстрее предыдущих моделей

11.09.2025 от Neuro Sova

Содержание 1. Зачем понадобился новый мультиязычный кодировщик?2. Понимание архитектуры mmBERT.3. Какие использовались данные и этапы обучения?4. Какие новые стратегии обучения были внедрены?5. Как mmBERT работает на бенчмарках?6. Как mmBERT справляется с языками с ограниченными ресурсами?7. Какой прирост эффективности обеспечивает mmBERT?8. Резюме. Зачем понадобился новый мультиязычный кодировщик? XLM-RoBERTa (XLM-R) более 5 лет доминировала в мультиязычном NLP … Читать далее

Создание продвинутых агентов MCP (Model Context Protocol) с мультиагентной координацией, учётом контекста и интеграцией Gemini

11.09.2025 от Neuro Sova

В этом руководстве мы рассмотрим процесс создания продвинутого агента MCP (Model Context Protocol), который будет работать в Jupyter или Google Colab. Мы разрабатываем систему с учётом практической применимости в реальных условиях, уделяя особое внимание мультиагентной координации, учёту контекста, управлению памятью и динамическому использованию инструментов. Импорт библиотек и настройка логгирования Мы начинаем с импорта основных библиотек … Читать далее

NVIDIA представляет Universal Deep Research (UDR): прототип фреймворка для масштабируемых и поддающихся аудиту агентов глубоких исследований

10.09.2025 от Neuro Sova

Почему существующие инструменты для глубоких исследований не соответствуют ожиданиям? Инструменты для глубоких исследований (DRT) вроде Gemini Deep Research, Perplexity, Deep Research от OpenAI и Grok DeepSearch используют жёсткие рабочие процессы, привязанные к фиксированной LLM. Хотя они эффективны, они накладывают строгие ограничения: пользователи не могут определять пользовательские стратегии, менять модели или применять протоколы, специфичные для предметной … Читать далее

Министерство энергетики США выбрало MIT для создания центра по моделированию высокоэнтальпийных взаимодействий жидкости и твёрдого тела в условиях эксаскейла

10.09.2025 от Neuro Sova

Национальное управление по ядерной безопасности Министерства энергетики США (DoE/NNSA) недавно объявило, что выбрало Массачусетский технологический институт (MIT) для создания нового исследовательского центра, посвящённого развитию прогнозного моделирования экстремальных условий, с которыми сталкиваются, например, при гиперзвуковом полёте и входе в атмосферу. Центр станет частью четвёртой фазы программы Predictive Science Academic Alliance Program (PSAAP-IV) NNSA, которая поддерживает передовые … Читать далее

Команда MCP выпускает предварительную версию «Реестра MCP»: федеративный уровень обнаружения для корпоративного ИИ

10.09.2025 от Neuro Sova

Оглавление Реестр как DNS для контекста ИИ Почему федеративная модель работает? Архитектура, модерация и основа открытого кода Резюме Часто задаваемые вопросы Команда Model Context Protocol (MCP) выпустила предварительную версию Реестра MCP — системы, которая может стать последним элементом головоломки для того, чтобы сделать корпоративный ИИ действительно готовым к промышленному использованию. Реестр как DNS для контекста … Читать далее

Создание конвейера для улучшения речи и автоматического распознавания речи (ASR) в Python с использованием SpeechBrain

10.09.2025 от Neuro Sova

В этом руководстве мы рассмотрим продвинутый, но практичный рабочий процесс с использованием SpeechBrain. Мы начнём с генерации собственных чистых образцов речи с помощью gTTS, намеренно добавим шум для имитации реальных сценариев, а затем применим модель SpeechBrain MetricGAN+ для улучшения аудио. После очистки аудио мы запустим автоматическое распознавание речи с помощью системы CRDNN с пересчётом языковой … Читать далее

Исследователи из MBZUAI выпустили K2 Think: открытую систему искусственного интеллекта для продвинутых рассуждений на 32 миллиарда параметров, превосходящую модели с в 20 раз большим количеством параметров

09.09.2025 от Neuro Sova

Команда исследователей из Института фундаментальных моделей MBZUAI и G42 выпустила K2 Think — открытую систему для продвинутых рассуждений в искусственном интеллекте с 32 миллиардами параметров. K2 Think объединяет:* долгосрочную тонкую настройку под наблюдением (long chain-of-thought supervised fine-tuning);* обучение с подкреплением на основе проверяемых вознаграждений (Reinforcement Learning with Verifiable Rewards, RLVR);* агентное планирование перед решением задачи;* … Читать далее

Доставка более умных агентов с каждой новой моделью.

09.09.2025 от Neuro Sova

Узнайте, как SafetyKit использует OpenAI GPT-5 для улучшения модерации контента, обеспечения соответствия стандартам и опережения устаревших систем безопасности с более высокой точностью. #GPT-5 1. Какие задачи решает SafetyKit с помощью OpenAI GPT-5? SafetyKit использует OpenAI GPT-5 для улучшения модерации контента, обеспечения соответствия стандартам и опережения устаревших систем безопасности. 2. В чём преимущество использования GPT-5 по … Читать далее

Команда Alibaba Qwen выпускает Qwen3-ASR: новая модель для распознавания речи

09.09.2025 от Neuro Sova

Команда Alibaba Cloud’s Qwen представила Qwen3-ASR Flash — универсальную модель для автоматического распознавания речи (ASR), построенную на основе сильного искусственного интеллекта Qwen3-Omni. Эта модель упрощает многоязычную, шумную и специализированную транскрипцию без необходимости использования нескольких систем. Основные возможности Многоязычное распознавание: поддерживает автоматическое определение и транскрипцию на 11 языках, включая английский и китайский, а также арабский, немецкий, … Читать далее

Топ-7 серверов Model Context Protocol (MCP) для Vibe Coding

09.09.2025 от Neuro Sova

Современная разработка программного обеспечения переходит от статичных рабочих процессов к динамичному программированию с участием агентов. В центре этого перехода — Model Context Protocol (MCP), стандарт для подключения агентов искусственного интеллекта к внешним инструментам, данным и сервисам. MCP предоставляет структурированный способ для больших языковых моделей (LLM) запрашивать, использовать и сохранять контекст. Это делает сессии кодирования более … Читать далее

ParaThinker: масштабирование вычислений LLM во время тестирования с помощью нативного параллельного мышления для преодоления туннельного зрения в последовательных рассуждениях

09.09.2025 от Neuro Sova

Почему последовательные LLM сталкиваются с узким местом? Масштабирование вычислений во время тестирования в LLM традиционно основывалось на расширении отдельных путей рассуждений. Хотя этот подход улучшает рассуждения в ограниченном диапазоне, производительность быстро достигает плато. Эксперименты на DeepSeek-R1-distill-Qwen-1.5B показывают, что увеличение бюджета токенов свыше 32 тыс. (до 128 тыс.) даёт незначительный прирост точности. Узкое место возникает из-за … Читать далее

Как создать полнофункционального мультидоменного веб-агента на базе искусственного интеллекта с помощью Notte и Gemini

09.09.2025 от Neuro Sova

В этом руководстве мы покажем, как создать продвинутую реализацию веб-агента Notte AI, интегрировав Gemini API для обеспечения рассуждений и автоматизации. Объединив возможности автоматизации браузера Notte со структурированными результатами через модели Pydantic, мы покажем, как веб-агент с искусственным интеллектом может исследовать продукты, отслеживать социальные сети, анализировать рынки, сканировать вакансии и многое другое. Установка зависимостей Для начала … Читать далее

Фонд OpenAI «ИИ для людей» — 50 миллионов долларов на поддержку некоммерческих организаций

09.09.2025 от Neuro Sova

Открыт приём заявок в фонд OpenAI «ИИ для людей». Инициатива предусматривает выделение 50 миллионов долларов некоммерческим организациям США, которые занимаются продвижением образования, инновациями на уровне сообществ и созданием экономических возможностей. Заявки принимаются до 8 октября 2025 года. Гранты не ограничены по условиям и помогут сообществам формировать искусственный интеллект на благо общества. 1. Какие цели преследует … Читать далее

GibsonAI выпускает Memori: SQL-ориентированный механизм памяти с открытым исходным кодом для агентов искусственного интеллекта

08.09.2025 от Neuro Sova

Когда мы думаем об интеллекте человека, память — это первое, что приходит на ум. Именно она позволяет нам учиться на опыте, адаптироваться к новым ситуациям и принимать более обоснованные решения с течением времени. Аналогично, агенты ИИ становятся умнее благодаря памяти. Например, агент может запоминать ваши прошлые покупки, бюджет, предпочтения и предлагать подарки друзьям на основе … Читать далее

Новое исследование MIT: обучение с подкреплением минимизирует катастрофическое забывание по сравнению с точной настройкой под контролем учителя

08.09.2025 от Neuro Sova

Что такое катастрофическое забывание в фундаментальных моделях? Фундаментальные модели отлично справляются с разнообразными задачами, но после развёртывания они в значительной степени статичны. Точная настройка под контролем учителя (SFT) на новых задачах часто приводит к катастрофическому забыванию — утрате ранее приобретённых способностей. Это ограничение препятствует созданию долгоживущих, постоянно совершенствующихся агентов искусственного интеллекта. Почему онлайн-обучение с подкреплением … Читать далее

Создание биоинформатического AI-агента с помощью Biopython для анализа ДНК и белков

08.09.2025 от Neuro Sova

В этом руководстве мы покажем, как создать продвинутого, но доступного AI-агента для биоинформатики, используя Biopython и популярные библиотеки Python, предназначенные для бесперебойной работы в Google Colab. Объединив извлечение последовательностей, молекулярный анализ, визуализацию, множественное выравнивание последовательностей, построение филогенетических деревьев и поиск мотивов в единый унифицированный класс, руководство предлагает практический подход для изучения всего спектра анализа биологических … Читать далее

Meta Superintelligence Labs представляет REFRAG: масштабирование RAG с увеличением контекста в 16 раз и ускорением декодирования в 31 раз

07.09.2025 от Neuro Sova

Meta Superintelligence Labs представила REFRAG (REpresentation For RAG) — фреймворк декодирования, который переосмысливает эффективность генерации с дополненным поиском (RAG). REFRAG расширяет окна контекста LLM в 16 раз и ускоряет время до первого токена (TTFT) до 30,85 раз без ущерба для точности. Почему длинный контекст является узким местом для LLM? Механизм внимания в больших языковых моделях … Читать далее

Tilde выпускает TildeOpen LLM: большая языковая модель с открытым исходным кодом с более чем 30 миллиардами параметров и поддержкой большинства европейских языков

07.09.2025 от Neuro Sova

Латвийская технологическая компания Tilde выпустила TildeOpen LLM — большую языковую модель (LLM) с открытым исходным кодом, специально разработанную для европейских языков, с особым вниманием к недостаточно представленным национальным и региональным языкам. Это стратегический шаг к обеспечению языкового равенства и цифрового суверенитета в ЕС. Архитектура, обучение и управление Публичный релиз состоялся 3 сентября 2025 года, когда … Читать далее

От предварительного обучения к пост-обучению: почему языковые модели галлюцинируют и как методы оценки усугубляют проблему

07.09.2025 от Neuro Sova

Языковые модели большого размера (LLM) очень часто генерируют «галлюцинации» — уверенные, но неверные результаты, которые кажутся правдоподобными. Несмотря на улучшения в методах обучения и архитектурах, галлюцинации сохраняются. Новое исследование от OpenAI даёт чёткое объяснение: галлюцинации возникают из-за статистических свойств обучения с учителем по сравнению с самообучением, а их сохранение усиливается из-за несогласованности оценочных критериев. Что … Читать далее

Искусственный интеллект и машинное обучение в инженерном проектировании

07.09.2025 от Neuro Sova

Оптимизация с помощью искусственного интеллекта предлагает множество преимуществ для инженеров-механиков, включая более быстрое и точное проектирование и моделирование, повышение эффективности, снижение затрат на разработку за счёт автоматизации процессов, а также улучшение прогнозного обслуживания и контроля качества. «Когда люди думают об инженерном деле, они представляют себе базовые механические инструменты, такие как молотки, и технику вроде автомобилей, … Читать далее

Реализация DeepSpeed для масштабируемых трансформеров: продвинутое обучение с использованием градиентной контрольной точки и параллелизма

07.09.2025 от Neuro Sova

В этом продвинутом руководстве по DeepSpeed мы предлагаем практическое ознакомление с передовыми методами оптимизации для эффективного обучения больших языковых моделей. Сочетая оптимизацию ZeRO, обучение со смешанной точностью, накопление градиента и продвинутые конфигурации DeepSpeed, руководство демонстрирует, как максимально использовать память GPU, сократить накладные расходы на обучение и обеспечить масштабирование моделей трансформеров в средах с ограниченными ресурсами, … Читать далее

Встречайте ARGUS: масштабируемая платформа искусственного интеллекта для обучения больших трансформеров-рекомендаторов до одного миллиарда параметров

06.09.2025 от Neuro Sova

Компания Яндекс представила ARGUS (AutoRegressive Generative User Sequential modeling) — крупномасштабную платформу на основе трансформеров для рекомендательных систем, которая масштабируется до одного миллиарда параметров. Этот прорыв ставит Яндекс в ряд немногих мировых технологических лидеров — наряду с Google, Netflix и Meta — которые успешно преодолели давние технические барьеры при масштабировании трансформеров-рекомендаторов. Преодоление технических барьеров в … Читать далее

Hugging Face представляет FineVision: новый открытый мультимодальный набор данных с 24 миллионами образцов для обучения Vision-Language моделей (VLM)

06.09.2025 от Neuro Sova

Компания Hugging Face выпустила FineVision — открытый мультимодальный набор данных, призванный установить новый стандарт для Vision-Language моделей (VLM). Основные характеристики FineVision:* 17,3 миллиона изображений;* 24,3 миллиона образцов;* 88,9 миллиона вопросно-ответных пар;* почти 10 миллиардов токенов ответов. FineVision объединяет более 200 источников в единый формат, тщательно отфильтрованный от дубликатов и загрязнений в бенчмарках. Почему FineVision важен … Читать далее

Alibaba представляет предварительный просмотр Qwen3-Max: модель Qwen с триллионом параметров, сверхбыстрой скоростью и качеством

06.09.2025 от Neuro Sova

Команда Qwen от Alibaba представила Qwen3-Max-Preview (Instruct) — новую флагманскую большую языковую модель с более чем триллионом параметров, крупнейшую на сегодняшний день. Она доступна через Qwen Chat, Alibaba Cloud API, OpenRouter и по умолчанию в инструменте Hugging Face AnyCoder. Как модель вписывается в сегодняшний ландшафт больших языковых моделей? Этот рубеж достигнут в то время, когда … Читать далее