Создание продвинутого голосового ИИ-агента с помощью Hugging Face Pipelines

В этом руководстве мы создадим продвинутого голосового ИИ-агента, используя свободно доступные модели Hugging Face. Мы сделаем так, чтобы весь процесс был достаточно простым для бесперебойной работы в Google Colab. Мы объединим:* Whisper для распознавания речи;* FLAN-T5 для рассуждений на естественном языке;* Bark для синтеза речи. Всё это будет соединено через пайплайны трансформеров. Это позволит избежать … Читать далее

Исследователи из Ai2 меняют правила игры в области бенчмаркинга, внедряя гибкий бенчмаркинг для улучшения оценки по нескольким параметрам

Команда исследователей из Института искусственного интеллекта Аллена (Ai2), Вашингтонского университета и CMU представляет гибкий бенчмаркинг — адаптивный метод оценки больших языковых моделей (LLM), который заменяет статическую точность оценкой способностей на основе двухпараметрической модели IRT и выбором элементов на основе информационной функции Фишера. Как работает гибкий бенчмаркинг? 1. Оценка способностей, а не точности. Исследователи используют двухпараметрическую … Читать далее

Google AI представляет протокол Agent Payments Protocol (AP2): открытый протокол для совместимых платежей агентов ИИ у разных продавцов и в кошельках

Протокол Agent Payments Protocol (AP2) от Google — это открытая, нейтральная по отношению к поставщикам спецификация для выполнения платежей, инициированных агентами ИИ, с криптографическим, поддающимся проверке доказательством намерений пользователя. Проблема, которую решает AP2: Сегодняшние платёжные системы предполагают, что человек сам нажимает «купить». Когда автономный или полуавтономный агент инициирует оплату, продавцы и эмитенты сталкиваются с тремя … Читать далее

Руководство по кодированию для работы с Zarr при работе с большими объёмами данных: методы разбиения на блоки, сжатия, индексации и визуализации

В этом руководстве мы подробно рассмотрим возможности Zarr — библиотеки, предназначенной для эффективного хранения и обработки больших многомерных массивов. Основные операции с Zarr Мы начнём с изучения основ: создания массивов, настройки стратегий разбиения на блоки и изменения значений непосредственно на диске. Затем перейдём к более сложным операциям, таким как экспериментирование с размерами блоков для разных … Читать далее

Представляем Stargate UK.

Компании OpenAI, NVIDIA и Nscale запустили Stargate UK — суверенное партнёрство в сфере инфраструктуры искусственного интеллекта. Оно предоставит до 50 000 графических процессоров и станет крупнейшим суперкомпьютером в Великобритании. Это позволит внедрять инновации в сфере ИИ, совершенствовать государственные услуги и стимулировать экономический рост. 1. Какие компании запустили Stargate UK?* Ответ: суверенное партнёрство в сфере инфраструктуры … Читать далее

Google AI выпускает TimesFM-2.5: компактная модель для прогнозирования временных рядов с более длинным контекстом, которая теперь лидирует в GIFT-Eval (Zero-Shot Forecasting)

Компания Google Research выпустила TimesFM-2.5 — модель для прогнозирования временных рядов с 200 миллионами параметров, которая поддерживает только декодер, имеет длину контекста 16К и встроенную вероятностную поддержку прогнозирования. Новая контрольная точка доступна на Hugging Face. В GIFT-Eval TimesFM-2.5 занимает первое место в рейтинге по точности (MASE, CRPS) среди моделей нулевого выстрела. Что такое прогнозирование временных … Читать далее

Как разработать законы масштабирования для эффективного обучения больших языковых моделей и оптимизации бюджета

При разработке больших языковых моделей (LLM) исследователи стремятся максимизировать производительность в рамках определённого вычислительного и финансового бюджета. Поскольку обучение модели может стоить миллионы долларов, разработчики должны тщательно принимать решения, влияющие на затраты, например, о выборе архитектуры модели, оптимизаторов и обучающих наборов данных, прежде чем приступить к созданию модели. Чтобы предвидеть качество и точность прогнозов большой … Читать далее

Безопасность, свобода и конфиденциальность подростков. Движение к прогнозированию возраста

Изучите подход OpenAI к обеспечению безопасности подростков, их свободы и конфиденциальности при использовании искусственного интеллекта. Узнайте, как OpenAI разрабатывает функцию прогнозирования возраста и инструменты родительского контроля в ChatGPT. Это позволяет создавать более безопасную среду, соответствующую возрасту подростков, и одновременно поддерживать семьи с помощью новых инструментов. 1. Какие меры предпринимает OpenAI для обеспечения безопасности подростков при … Читать далее

Исследователи из Стэнфорда представили MedAgentBench: реальный эталон для агентов искусственного интеллекта в здравоохранении

Группа исследователей из Стэнфордского университета выпустила MedAgentBench — новый набор тестов для оценки агентов на основе больших языковых моделей (LLM) в контексте здравоохранения. В отличие от предыдущих наборов данных для ответов на вопросы, MedAgentBench предоставляет виртуальную среду электронных медицинских записей (EHR), где системы искусственного интеллекта должны взаимодействовать, планировать и выполнять многоэтапные клинические задачи. Это знаменует … Читать далее

MoonshotAI выпустил Checkpoint-Engine: простое промежуточное программное обеспечение для обновления весов моделей в системах логического вывода LLM, эффективное для обучения с подкреплением

Компания MoonshotAI предоставила промежуточное программное обеспечение Checkpoint-Engine в виде открытого исходного кода. Это лёгкое промежуточное ПО предназначено для решения одной из ключевых проблем при развёртывании больших языковых моделей (LLM): быстрого обновления весов моделей на тысячах GPU без прерывания логического вывода. Как быстро можно обновлять LLM? Checkpoint-engine обеспечивает значительный прорыв, обновляя модель с 1 триллионом параметров … Читать далее

Создание продвинутой свёрточной нейронной сети с механизмом внимания для классификации последовательностей ДНК и обеспечения интерпретируемости

В этом руководстве мы рассмотрим практический подход к созданию продвинутой свёрточной нейронной сети для классификации последовательностей ДНК. Основное внимание уделяется моделированию реальных биологических задач, таких как предсказание промоторов, обнаружение сайтов сплайсинга и идентификация регуляторных элементов. Мы комбинируем однократное кодирование (one-hot encoding), многоуровневые свёрточные слои и механизм внимания, чтобы разработать модель, которая не только изучает сложные … Читать далее

OpenAI представляет GPT-5-Codex: усовершенствованную версию GPT-5, оптимизированную для агентного кодирования в Codex

Компания OpenAI выпустила GPT-5-Codex — версию GPT-5, оптимизированную для задач «агентного кодирования» в экосистеме Codex. Цель — повысить надёжность, скорость и автономность поведения, чтобы Codex действовал скорее как коллега, а не просто выполнял команды. Основные возможности и улучшения Автономное поведениеGPT-5-Codex может более автономно выполнять длинные, сложные, многоэтапные задачи. Модель балансирует между «интерактивными» сессиями (с короткими … Читать далее

Представляем обновления Codex.

Codex стал быстрее, надёжнее, улучшились его возможности для совместной работы в реальном времени и выполнения задач независимо от того, где вы разрабатываете — через терминал, IDE, веб-интерфейс или даже с телефона. 1. Какие основные улучшения были внесены в Codex? Ответ:Codex стал быстрее и надёжнее, улучшились его возможности для совместной работы в реальном времени и выполнения … Читать далее

Инструмент машинного обучения даёт врачам более детальную трёхмерную картину здоровья плода

Для беременных женщин ультразвук — это информативная (и иногда необходимая) процедура. Обычно она позволяет получить двухмерные чёрно-белые снимки плодов, которые могут выявить ключевые данные, включая биологический пол, приблизительный размер и аномалии, такие как проблемы с сердцем или заячья губа. Если врач хочет рассмотреть подробнее, он может использовать магнитно-резонансную томографию (МРТ), которая использует магнитные поля для … Читать далее

NVIDIA открывает исходный код ViPE (Video Pose Engine): мощный и универсальный инструмент для аннотации 3D-видео в пространственном искусственном интеллекте

Как создать 3D-наборы данных для обучения ИИ в робототехнике без дорогостоящих традиционных подходов? Команда исследователей из NVIDIA выпустила «ViPE: Video Pose Engine for 3D Geometric Perception», внеся ключевое улучшение в пространственный ИИ. Это решает центральную и сложную проблему, которая десятилетиями сдерживала развитие компьютерного зрения в 3D. ViPE — это надёжный и универсальный механизм, предназначенный для … Читать далее

Как люди используют ChatGPT

Новое исследование, основанное на масштабном изучении использования ChatGPT, показывает, как этот инструмент создаёт экономическую ценность как в личной, так и в профессиональной сферах. Инструмент находит всё больше пользователей, сокращая разрыв и делая искусственный интеллект частью повседневной жизни. 🔍 Основные выводы: ChatGPT создаёт экономическую ценность в различных сферах. Использование инструмента расширяется за пределы первых пользователей. AI … Читать далее

Meta выпустила MobileLLM-R1: модель для рассуждений на граничных устройствах с менее чем 1 миллиардом параметров и повышением производительности в 2–5 раз по сравнению с другими полностью открытыми моделями ИИ

Архитектура MobileLLM-R1 Компания Meta выпустила семейство лёгких моделей для рассуждений на граничных устройствах под названием MobileLLM-R1. Они доступны на Hugging Face. Модели варьируются от 140 миллионов до 950 миллионов параметров и ориентированы на эффективное математическое, кодирование и научное рассуждение в суббиллионном масштабе. В отличие от моделей чата общего назначения, MobileLLM-R1 разработана для развёртывания на граничных … Читать далее

Оптимизация программных фреймворков для графических процессоров в искусственном интеллекте: CUDA, ROCm, Triton, TensorRT — пути компилятора и влияние на производительность

Оглавление Что определяет производительность на современных GPU? * CUDA: nvcc/ptxas, cuDNN, CUTLASS и CUDA Graphs.* ROCm: HIP/Clang toolchain, rocBLAS/MIOpen и серия 6.x.* Triton: DSL и компилятор для пользовательских ядер.* TensorRT (и TensorRT-LLM): оптимизация графа во время сборки для логического вывода. Практические рекомендации: выбор и настройка стека Производительность глубокого обучения зависит от того, насколько эффективно стек … Читать далее

Исследовательская группа UT Austin и ServiceNow выпускает AU-Harness: инструментарий с открытым исходным кодом для комплексной оценки аудио-LLM

Voice AI становится одним из наиболее важных направлений в мультимодальном искусственном интеллекте. От интеллектуальных помощников до интерактивных агентов — способность понимать аудио и делать на его основе выводы меняет способы взаимодействия машин с людьми. Однако, хотя возможности моделей стремительно растут, инструменты для их оценки не успевают за ними. Существующие тесты остаются фрагментированными, медленными и узкоспециализированными, … Читать далее

12 лучших блогов и новостных сайтов о робототехнике и искусственном интеллекте в 2025 году

Робототехника и искусственный интеллект развиваются беспрецедентными темпами, совершая прорывы в автоматизации, восприятии и взаимодействии человека с машиной. Чтобы быть в курсе этих достижений, необходимо следить за специализированными источниками, которые предоставляют техническую информацию, обновления исследований и аналитику отрасли. Вот список из 12 наиболее авторитетных блогов и сайтов, посвящённых робототехнике и искусственному интеллекту, за которыми стоит следить … Читать далее

Как создать надёжного продвинутого нейронного агента ИИ со стабильным обучением, адаптивным обучением и интеллектуальным принятием решений?

В этом руководстве мы рассмотрим проектирование и реализацию продвинутого нейронного агента, который сочетает классические методы нейронных сетей с современными улучшениями стабильности. Основные этапы 1. Инициализация сети: — Используем инициализацию Xavier для сбалансированного градиентного потока. — Добавляем стабильные активации, такие как leaky ReLU, sigmoid и tanh с клиппингом, чтобы избежать переполнения. 2. Стабилизация обучения: — Применяем … Читать далее

Google AI выпускает VaultGemma: крупнейшую и наиболее функциональную открытую модель (1B-параметров), обученную с нуля с использованием дифференциальной приватности

Компания Google AI Research and DeepMind выпустила VaultGemma 1B — крупнейшую открытую большую языковую модель с открытым весом, обученную полностью с использованием дифференциальной приватности (DP). Это достижение является важным шагом на пути к созданию мощных моделей искусственного интеллекта, обеспечивающих сохранение конфиденциальности. Зачем нужна дифференциальная приватность в больших языковых моделях? Большие языковые модели, обученные на обширных … Читать далее

IBM AI Research выпускает две модели встраивания для английского языка на основе архитектуры ModernBERT

Компания IBM представила две новые модели встраивания — granite-embedding-english-r2 и granite-embedding-small-english-r2, разработанные специально для высокопроизводительных систем поиска и RAG (retrieval-augmented generation). Эти модели компактны, эффективны и лицензированы под Apache 2.0, что делает их готовыми к коммерческому внедрению. Какие модели выпустила IBM? Обе модели ориентированы на разные вычислительные бюджеты. granite-embedding-english-r2 имеет 149 миллионов параметров и размер … Читать далее

Сотрудничество с US CAISI и UK AISI для создания более безопасных систем искусственного интеллекта.

OpenAI информирует о прогрессе в рамках партнёрства с US CAISI и UK AISI с целью повышения безопасности искусственного интеллекта. В рамках совместной работы устанавливаются новые стандарты ответственного внедрения передовых технологий искусственного интеллекта через совместную проверку (red-teaming), меры по обеспечению биобезопасности и тестирование агентских систем. 1. Какие цели стоят перед OpenAI в рамках сотрудничества с US … Читать далее

Как создать многоязычного агента искусственного интеллекта для оптического распознавания символов (OCR) на Python с помощью EasyOCR и OpenCV

В этом руководстве мы создадим продвинутого агента искусственного интеллекта для OCR в Google Colab, используя EasyOCR, OpenCV и Pillow. Агент будет работать полностью в автономном режиме с ускорением на GPU. Основные компоненты агента: * Предварительная обработка: включает улучшение контрастности (CLAHE), удаление шума, повышение резкости и адаптивное пороговое значение для повышения точности распознавания.* Распознавание текста: помимо … Читать далее

Объявлена программа OpenAI Grove.

Заявки принимаются на участие в 5-недельной программе для основателей OpenAI Grove. Программа предназначена для людей на любом этапе разработки — от идеи до готового продукта. Участники получают:* 50 тысяч долларов в виде кредитов API;* ранний доступ к инструментам искусственного интеллекта;* практическое наставничество от команды OpenAI. 1. Какова длительность программы OpenAI Grove? Ответ: программа OpenAI Grove … Читать далее

BentoML выпустила llm-optimizer: инструмент с открытым исходным кодом для тестирования и оптимизации больших языковых моделей

BentoML недавно выпустила llm-optimizer — фреймворк с открытым исходным кодом, предназначенный для оптимизации тестирования и настройки производительности самостоятельно размещаемых больших языковых моделей (LLM). Инструмент решает распространённую проблему при развёртывании LLM: поиск оптимальных конфигураций для задержки, пропускной способности и затрат без необходимости ручного подбора методом проб и ошибок. Почему настройка производительности LLM сложна? Настройка вывода LLM … Читать далее

Deepdub представляет Lightning 2.5: модель голоса в реальном времени с увеличением производительности в 2,8 раза для масштабируемых ИИ-агентов и корпоративного ИИ

Израильский стартап Deepdub представил Lightning 2.5 — базовую модель голоса в реальном времени, предназначенную для масштабируемых приложений голосового взаимодействия производственного уровня. Производительность и эффективность Lightning 2.5 обеспечивает в 2,8 раза более высокую пропускную способность по сравнению с предыдущими версиями и в 5 раз эффективнее использует вычислительные ресурсы. Задержка составляет всего 200 миллисекунд — примерно на … Читать далее

TwinMind представляет модель Ear-3: новую модель голосового ИИ, которая устанавливает новые рекорды в отрасли по точности, определению говорящих, поддержке языков и цене

Компания TwinMind, стартап из Калифорнии, специализирующийся на голосовом ИИ, представила модель распознавания речи Ear-3. Компания заявляет о передовых показателях по нескольким ключевым метрикам и расширенной многоязычной поддержке. Выпуск позиционирует Ear-3 как конкурентоспособное предложение по сравнению с существующими решениями для автоматического распознавания речи (ASR) от таких провайдеров, как Deepgram, AssemblyAI, Eleven Labs, Otter, Speechmatics и OpenAI. … Читать далее

Заявление о некоммерческой организации и публичной компании с ограниченной ответственностью OpenAI. Совместное заявление OpenAI и Microsoft.

OpenAI вновь подтверждает лидерство своей некоммерческой организации с новой структурой, предоставляющей долю в её публичной компании с ограниченной ответственностью. Это позволит привлечь более 100 миллиардов долларов ресурсов для развития безопасного и полезного для человечества искусственного интеллекта. OpenAI и Microsoft подписывают новый меморандум о взаимопонимании, укрепляя своё партнёрство и общую приверженность безопасности и инновациям в сфере … Читать далее