Что такое модели оптического распознавания символов (OCR)? Лучшие модели OCR с открытым исходным кодом

Оптическое распознавание символов (OCR) — это процесс преобразования изображений, содержащих текст (например, отсканированных страниц, квитанций или фотографий), в машиночитаемый текст. То, что начиналось как хрупкие системы, основанные на правилах, превратилось в богатую экосистему нейронных архитектур и моделей, способных считывать сложные, многоязычные и рукописные документы. Как работает OCR? Каждая система OCR решает три основные задачи: 1. … Читать далее

OpenAI добавила полную поддержку инструментов MCP в режиме разработчика ChatGPT: включение действий по записи, автоматизация рабочих процессов и интеграция с корпоративными системами

Компания OpenAI только что представила значительное обновление режима разработчика ChatGPT, добавив полную поддержку инструментов Model Context Protocol (MCP). До настоящего времени интеграция MCP в ChatGPT ограничивалась операциями поиска и извлечения — по сути, только для чтения. С этим обновлением соединители MCP могут выполнять действия по записи, что означает, что разработчики теперь могут напрямую обновлять системы, … Читать далее

Знакомьтесь: mmBERT — языковая модель с единственным кодировщиком, предварительно обученная на 3 триллионах токенов многоязычного текста более чем на 1800 языках и работающая в 2–4 раза быстрее предыдущих моделей

Содержание 1. Зачем понадобился новый мультиязычный кодировщик?2. Понимание архитектуры mmBERT.3. Какие использовались данные и этапы обучения?4. Какие новые стратегии обучения были внедрены?5. Как mmBERT работает на бенчмарках?6. Как mmBERT справляется с языками с ограниченными ресурсами?7. Какой прирост эффективности обеспечивает mmBERT?8. Резюме. Зачем понадобился новый мультиязычный кодировщик? XLM-RoBERTa (XLM-R) более 5 лет доминировала в мультиязычном NLP … Читать далее

Создание продвинутых агентов MCP (Model Context Protocol) с мультиагентной координацией, учётом контекста и интеграцией Gemini

В этом руководстве мы рассмотрим процесс создания продвинутого агента MCP (Model Context Protocol), который будет работать в Jupyter или Google Colab. Мы разрабатываем систему с учётом практической применимости в реальных условиях, уделяя особое внимание мультиагентной координации, учёту контекста, управлению памятью и динамическому использованию инструментов. Импорт библиотек и настройка логгирования Мы начинаем с импорта основных библиотек … Читать далее

NVIDIA представляет Universal Deep Research (UDR): прототип фреймворка для масштабируемых и поддающихся аудиту агентов глубоких исследований

Почему существующие инструменты для глубоких исследований не соответствуют ожиданиям? Инструменты для глубоких исследований (DRT) вроде Gemini Deep Research, Perplexity, Deep Research от OpenAI и Grok DeepSearch используют жёсткие рабочие процессы, привязанные к фиксированной LLM. Хотя они эффективны, они накладывают строгие ограничения: пользователи не могут определять пользовательские стратегии, менять модели или применять протоколы, специфичные для предметной … Читать далее

Министерство энергетики США выбрало MIT для создания центра по моделированию высокоэнтальпийных взаимодействий жидкости и твёрдого тела в условиях эксаскейла

Национальное управление по ядерной безопасности Министерства энергетики США (DoE/NNSA) недавно объявило, что выбрало Массачусетский технологический институт (MIT) для создания нового исследовательского центра, посвящённого развитию прогнозного моделирования экстремальных условий, с которыми сталкиваются, например, при гиперзвуковом полёте и входе в атмосферу. Центр станет частью четвёртой фазы программы Predictive Science Academic Alliance Program (PSAAP-IV) NNSA, которая поддерживает передовые … Читать далее

Команда MCP выпускает предварительную версию «Реестра MCP»: федеративный уровень обнаружения для корпоративного ИИ

Оглавление Реестр как DNS для контекста ИИ Почему федеративная модель работает? Архитектура, модерация и основа открытого кода Резюме Часто задаваемые вопросы Команда Model Context Protocol (MCP) выпустила предварительную версию Реестра MCP — системы, которая может стать последним элементом головоломки для того, чтобы сделать корпоративный ИИ действительно готовым к промышленному использованию. Реестр как DNS для контекста … Читать далее

Создание конвейера для улучшения речи и автоматического распознавания речи (ASR) в Python с использованием SpeechBrain

В этом руководстве мы рассмотрим продвинутый, но практичный рабочий процесс с использованием SpeechBrain. Мы начнём с генерации собственных чистых образцов речи с помощью gTTS, намеренно добавим шум для имитации реальных сценариев, а затем применим модель SpeechBrain MetricGAN+ для улучшения аудио. После очистки аудио мы запустим автоматическое распознавание речи с помощью системы CRDNN с пересчётом языковой … Читать далее

Исследователи из MBZUAI выпустили K2 Think: открытую систему искусственного интеллекта для продвинутых рассуждений на 32 миллиарда параметров, превосходящую модели с в 20 раз большим количеством параметров

Команда исследователей из Института фундаментальных моделей MBZUAI и G42 выпустила K2 Think — открытую систему для продвинутых рассуждений в искусственном интеллекте с 32 миллиардами параметров. K2 Think объединяет:* долгосрочную тонкую настройку под наблюдением (long chain-of-thought supervised fine-tuning);* обучение с подкреплением на основе проверяемых вознаграждений (Reinforcement Learning with Verifiable Rewards, RLVR);* агентное планирование перед решением задачи;* … Читать далее

Доставка более умных агентов с каждой новой моделью.

Узнайте, как SafetyKit использует OpenAI GPT-5 для улучшения модерации контента, обеспечения соответствия стандартам и опережения устаревших систем безопасности с более высокой точностью. #GPT-5 1. Какие задачи решает SafetyKit с помощью OpenAI GPT-5? SafetyKit использует OpenAI GPT-5 для улучшения модерации контента, обеспечения соответствия стандартам и опережения устаревших систем безопасности. 2. В чём преимущество использования GPT-5 по … Читать далее

Команда Alibaba Qwen выпускает Qwen3-ASR: новая модель для распознавания речи

Команда Alibaba Cloud’s Qwen представила Qwen3-ASR Flash — универсальную модель для автоматического распознавания речи (ASR), построенную на основе сильного искусственного интеллекта Qwen3-Omni. Эта модель упрощает многоязычную, шумную и специализированную транскрипцию без необходимости использования нескольких систем. Основные возможности Многоязычное распознавание: поддерживает автоматическое определение и транскрипцию на 11 языках, включая английский и китайский, а также арабский, немецкий, … Читать далее

Топ-7 серверов Model Context Protocol (MCP) для Vibe Coding

Современная разработка программного обеспечения переходит от статичных рабочих процессов к динамичному программированию с участием агентов. В центре этого перехода — Model Context Protocol (MCP), стандарт для подключения агентов искусственного интеллекта к внешним инструментам, данным и сервисам. MCP предоставляет структурированный способ для больших языковых моделей (LLM) запрашивать, использовать и сохранять контекст. Это делает сессии кодирования более … Читать далее

ParaThinker: масштабирование вычислений LLM во время тестирования с помощью нативного параллельного мышления для преодоления туннельного зрения в последовательных рассуждениях

Почему последовательные LLM сталкиваются с узким местом? Масштабирование вычислений во время тестирования в LLM традиционно основывалось на расширении отдельных путей рассуждений. Хотя этот подход улучшает рассуждения в ограниченном диапазоне, производительность быстро достигает плато. Эксперименты на DeepSeek-R1-distill-Qwen-1.5B показывают, что увеличение бюджета токенов свыше 32 тыс. (до 128 тыс.) даёт незначительный прирост точности. Узкое место возникает из-за … Читать далее

Как создать полнофункционального мультидоменного веб-агента на базе искусственного интеллекта с помощью Notte и Gemini

В этом руководстве мы покажем, как создать продвинутую реализацию веб-агента Notte AI, интегрировав Gemini API для обеспечения рассуждений и автоматизации. Объединив возможности автоматизации браузера Notte со структурированными результатами через модели Pydantic, мы покажем, как веб-агент с искусственным интеллектом может исследовать продукты, отслеживать социальные сети, анализировать рынки, сканировать вакансии и многое другое. Установка зависимостей Для начала … Читать далее

Фонд OpenAI «ИИ для людей» — 50 миллионов долларов на поддержку некоммерческих организаций

Открыт приём заявок в фонд OpenAI «ИИ для людей». Инициатива предусматривает выделение 50 миллионов долларов некоммерческим организациям США, которые занимаются продвижением образования, инновациями на уровне сообществ и созданием экономических возможностей. Заявки принимаются до 8 октября 2025 года. Гранты не ограничены по условиям и помогут сообществам формировать искусственный интеллект на благо общества. 1. Какие цели преследует … Читать далее

GibsonAI выпускает Memori: SQL-ориентированный механизм памяти с открытым исходным кодом для агентов искусственного интеллекта

Когда мы думаем об интеллекте человека, память — это первое, что приходит на ум. Именно она позволяет нам учиться на опыте, адаптироваться к новым ситуациям и принимать более обоснованные решения с течением времени. Аналогично, агенты ИИ становятся умнее благодаря памяти. Например, агент может запоминать ваши прошлые покупки, бюджет, предпочтения и предлагать подарки друзьям на основе … Читать далее

Новое исследование MIT: обучение с подкреплением минимизирует катастрофическое забывание по сравнению с точной настройкой под контролем учителя

Что такое катастрофическое забывание в фундаментальных моделях? Фундаментальные модели отлично справляются с разнообразными задачами, но после развёртывания они в значительной степени статичны. Точная настройка под контролем учителя (SFT) на новых задачах часто приводит к катастрофическому забыванию — утрате ранее приобретённых способностей. Это ограничение препятствует созданию долгоживущих, постоянно совершенствующихся агентов искусственного интеллекта. Почему онлайн-обучение с подкреплением … Читать далее

Создание биоинформатического AI-агента с помощью Biopython для анализа ДНК и белков

В этом руководстве мы покажем, как создать продвинутого, но доступного AI-агента для биоинформатики, используя Biopython и популярные библиотеки Python, предназначенные для бесперебойной работы в Google Colab. Объединив извлечение последовательностей, молекулярный анализ, визуализацию, множественное выравнивание последовательностей, построение филогенетических деревьев и поиск мотивов в единый унифицированный класс, руководство предлагает практический подход для изучения всего спектра анализа биологических … Читать далее

Meta Superintelligence Labs представляет REFRAG: масштабирование RAG с увеличением контекста в 16 раз и ускорением декодирования в 31 раз

Meta Superintelligence Labs представила REFRAG (REpresentation For RAG) — фреймворк декодирования, который переосмысливает эффективность генерации с дополненным поиском (RAG). REFRAG расширяет окна контекста LLM в 16 раз и ускоряет время до первого токена (TTFT) до 30,85 раз без ущерба для точности. Почему длинный контекст является узким местом для LLM? Механизм внимания в больших языковых моделях … Читать далее

Tilde выпускает TildeOpen LLM: большая языковая модель с открытым исходным кодом с более чем 30 миллиардами параметров и поддержкой большинства европейских языков

Латвийская технологическая компания Tilde выпустила TildeOpen LLM — большую языковую модель (LLM) с открытым исходным кодом, специально разработанную для европейских языков, с особым вниманием к недостаточно представленным национальным и региональным языкам. Это стратегический шаг к обеспечению языкового равенства и цифрового суверенитета в ЕС. Архитектура, обучение и управление Публичный релиз состоялся 3 сентября 2025 года, когда … Читать далее

От предварительного обучения к пост-обучению: почему языковые модели галлюцинируют и как методы оценки усугубляют проблему

Языковые модели большого размера (LLM) очень часто генерируют «галлюцинации» — уверенные, но неверные результаты, которые кажутся правдоподобными. Несмотря на улучшения в методах обучения и архитектурах, галлюцинации сохраняются. Новое исследование от OpenAI даёт чёткое объяснение: галлюцинации возникают из-за статистических свойств обучения с учителем по сравнению с самообучением, а их сохранение усиливается из-за несогласованности оценочных критериев. Что … Читать далее

Искусственный интеллект и машинное обучение в инженерном проектировании

Оптимизация с помощью искусственного интеллекта предлагает множество преимуществ для инженеров-механиков, включая более быстрое и точное проектирование и моделирование, повышение эффективности, снижение затрат на разработку за счёт автоматизации процессов, а также улучшение прогнозного обслуживания и контроля качества. «Когда люди думают об инженерном деле, они представляют себе базовые механические инструменты, такие как молотки, и технику вроде автомобилей, … Читать далее

Реализация DeepSpeed для масштабируемых трансформеров: продвинутое обучение с использованием градиентной контрольной точки и параллелизма

В этом продвинутом руководстве по DeepSpeed мы предлагаем практическое ознакомление с передовыми методами оптимизации для эффективного обучения больших языковых моделей. Сочетая оптимизацию ZeRO, обучение со смешанной точностью, накопление градиента и продвинутые конфигурации DeepSpeed, руководство демонстрирует, как максимально использовать память GPU, сократить накладные расходы на обучение и обеспечить масштабирование моделей трансформеров в средах с ограниченными ресурсами, … Читать далее

Встречайте ARGUS: масштабируемая платформа искусственного интеллекта для обучения больших трансформеров-рекомендаторов до одного миллиарда параметров

Компания Яндекс представила ARGUS (AutoRegressive Generative User Sequential modeling) — крупномасштабную платформу на основе трансформеров для рекомендательных систем, которая масштабируется до одного миллиарда параметров. Этот прорыв ставит Яндекс в ряд немногих мировых технологических лидеров — наряду с Google, Netflix и Meta — которые успешно преодолели давние технические барьеры при масштабировании трансформеров-рекомендаторов. Преодоление технических барьеров в … Читать далее

Hugging Face представляет FineVision: новый открытый мультимодальный набор данных с 24 миллионами образцов для обучения Vision-Language моделей (VLM)

Компания Hugging Face выпустила FineVision — открытый мультимодальный набор данных, призванный установить новый стандарт для Vision-Language моделей (VLM). Основные характеристики FineVision:* 17,3 миллиона изображений;* 24,3 миллиона образцов;* 88,9 миллиона вопросно-ответных пар;* почти 10 миллиардов токенов ответов. FineVision объединяет более 200 источников в единый формат, тщательно отфильтрованный от дубликатов и загрязнений в бенчмарках. Почему FineVision важен … Читать далее

Alibaba представляет предварительный просмотр Qwen3-Max: модель Qwen с триллионом параметров, сверхбыстрой скоростью и качеством

Команда Qwen от Alibaba представила Qwen3-Max-Preview (Instruct) — новую флагманскую большую языковую модель с более чем триллионом параметров, крупнейшую на сегодняшний день. Она доступна через Qwen Chat, Alibaba Cloud API, OpenRouter и по умолчанию в инструменте Hugging Face AnyCoder. Как модель вписывается в сегодняшний ландшафт больших языковых моделей? Этот рубеж достигнут в то время, когда … Читать далее

Google представляет персонального помощника по здоровью (PHA): мультиагентная система для персонализированного взаимодействия и решения индивидуальных задач в области здоровья

Что такое персональный помощник по здоровью (PHA)? Большие языковые модели (LLMs) показали высокую производительность в различных областях, таких как клиническое мышление, поддержка принятия решений и приложения для здоровья потребителей. Однако большинство существующих платформ разработаны как инструменты специального назначения, например, для проверки симптомов, цифровых тренировок или в качестве помощников по поиску медицинской информации. Эти подходы часто … Читать далее

Создание комплексного конвейера обработки естественного языка (NLP) с использованием Gensim: тематическое моделирование, встраивание слов, семантический поиск и расширенный анализ текста

В этом руководстве мы представляем комплексный конвейер обработки естественного языка (NLP), созданный с использованием Gensim и поддерживающих библиотек, предназначенный для бесперебойной работы в Google Colab. Он объединяет несколько основных методов современной обработки естественного языка, включая предварительную обработку, тематическое моделирование с помощью алгоритма Латентного размещения Дирихле (LDA), встраивание слов с помощью Word2Vec, анализ сходства на основе … Читать далее

Почему языковые модели выдают ошибочные данные (галлюцинируют)

Новое исследование компании OpenAI объясняет, почему языковые модели выдают ошибочные данные (галлюцинируют). Результаты показывают, как улучшение методов оценки может повысить надёжность, честность и безопасность искусственного интеллекта. 🚀 Исследование компании OpenAI проливает свет на механизмы, приводящие к ошибкам в работе языковых моделей. 🔍 Улучшение методов оценки может сделать ИИ более надёжным и безопасным. 1. Какие проблемы … Читать далее

OpenAI приглашает исследователей принять участие в программе Bio Bug Bounty. Проверьте безопасность GPT-5 с помощью универсальной команды для взлома систем (jailbreak prompt) и выиграйте приз до 25 000 долларов.

1. Какова цель программы Bio Bug Bounty от OpenAI? Ответ: программа Bio Bug Bounty от OpenAI направлена на проверку безопасности GPT-5 с помощью исследователей, которые могут использовать универсальную команду для взлома систем (jailbreak prompt). 2. Какие призы предлагаются участникам программы Bio Bug Bounty? Ответ: участникам программы Bio Bug Bounty предлагаются призы до 25 000 долларов. … Читать далее