Как Толан создаёт голосового помощника на базе искусственного интеллекта с помощью GPT-5.1

Толан разработал голосового помощника на базе искусственного интеллекта, используя GPT-5.1. В основе разработки — ответы с низкой задержкой, восстановление контекста в реальном времени и персонализация на основе памяти для более естественного общения. #GPT-5.1 — название алгоритма, сохранено без перевода. 1. Какие ключевые особенности GPT-5.1 используются при создании голосового помощника? В статье указано, что при создании … Читать далее

Технологический инновационный институт Абу-Даби выпустил Falcon H1R-7B: новая модель рассуждений, превосходящая другие в математике и кодировании с 7 миллиардами параметров и контекстным окном в 256 тысяч токенов

Технология и особенности Technology Innovation Institute (TII), Абу-Даби, представил Falcon-H1R-7B — специализированную модель рассуждений с 7 миллиардами параметров, которая соответствует или превосходит многие модели с параметрами от 14 до 47 миллиардов в математике, кодировании и общих тестах, оставаясь при этом компактной и эффективной. Она основана на Falcon H1 7B Base и доступна на Hugging Face … Читать далее

Избегание ловушки числовой нестабильности при реализации Softmax с нуля

В глубоком обучении модели классификации должны не только делать прогнозы, но и выражать уверенность в них. Здесь на помощь приходит функция активации Softmax. Она берёт необработанные, неограниченные оценки, которые выдаёт нейронная сеть, и преобразует их в чётко определённое распределение вероятностей, позволяя интерпретировать каждый выход как вероятность принадлежности к определённому классу. Эта особенность делает Softmax краеугольным … Читать далее

Проектирование архитектуры агентского ИИ с помощью LangGraph и OpenAI: использование адаптивной аргументации, графов памяти и рефлексивных циклов

В этом руководстве мы создадим продвинутую систему агентского ИИ, используя модели LangGraph и OpenAI, выходя за рамки простых циклов планировщика и исполнителя. Мы реализуем адаптивную аргументацию, где агент динамически выбирает между быстрым и глубоким рассуждением; граф агентской памяти в стиле Zettelkasten, который хранит атомарные знания и автоматически связывает связанные опыты; и управляемый механизм использования инструментов, … Читать далее

Liquid AI выпускает LFM2.5: компактное семейство моделей искусственного интеллекта для реальных агентов на устройствах

Компания Liquid AI представила LFM2.5 — новое поколение небольших базовых моделей, созданных на основе архитектуры LFM2 и ориентированных на использование на устройствах и в периферийных системах. Семейство моделей включает:* LFM2.5-1.2B-Base;* LFM2.5-1.2B-Instruct;* варианты для японского языка, обработки визуального и аудио языка. Модели выпущены как открытые веса на Hugging Face и представлены через платформу LEAP. Архитектура и … Читать далее

Marktechpost выпустил «AI2025Dev»: структурированный уровень интеллекта для моделей ИИ, бенчмарков и сигналов экосистемы

Marktechpost представил «AI2025Dev» — платформу аналитики 2025 года (доступна разработчикам ИИ и исследователям без необходимости регистрации или входа в систему). Она предназначена для преобразования активности в сфере ИИ за год в набор данных, который можно запрашивать. Этот набор данных охватывает выпуски моделей, открытость, масштаб обучения, производительность по бенчмаркам и участников экосистемы. Что нового в этом … Читать далее

Учёные MIT исследуют риски запоминания данных в эпоху клинического искусственного интеллекта

Зачем нужна конфиденциальность пациентов? Клятва Гиппократа, считающаяся одним из самых ранних и широко известных текстов по медицинской этике в мире, гласит: «Всё, что я увижу или услышу в жизни моих пациентов, будь то в связи с моей профессиональной практикой или нет, что не следует обсуждать вне, я сохраню в тайне, считая всё такое частным». В … Читать далее

Использование дизайна для интерпретации прошлого и представления будущего

Дизайнер С. Джейкоб Пейн в своих проектах сочетает футуристические продукты с инновационными технологиями и интерактивными интерфейсами. Среди его разработок — обувь для астронавтов, работающая в условиях невесомости, и керамика с электронными компонентами. Другие проекты переносят нас в прошлое, решая задачу сохранения и реконструкции чёрного архитектурного наследия. Образование и профессиональный путь Пейн окончил Йельский университет со … Читать далее

От Gemma 3 270M к FunctionGemma: как Google AI создал компактного специалиста по вызову функций для периферийных рабочих нагрузок

Google выпустила FunctionGemma — специализированную версию модели Gemma 3 270M, обученную для вызова функций и предназначенную для работы в качестве периферийного агента, который сопоставляет естественный язык с исполняемыми действиями API. Что такое FunctionGemma? FunctionGemma — это трансформер с 270 миллионами параметров, основанный на Gemma 3 270M. Он использует ту же архитектуру, что и Gemma 3, … Читать далее

Реализация кодирования для построения самоорганизующихся графов знаний Zettelkasten и механизмов консолидации сна

В этом руководстве мы погрузимся в передовые технологии агентского ИИ, создав систему памяти «Zettelkasten» — «живую» архитектуру, которая организует информацию подобно человеческому мозгу. Мы выходим за рамки стандартных методов извлечения данных, чтобы построить динамический граф знаний, где агент автономно разлагает входные данные на атомарные факты, связывает их семантически и даже «спит» для консолидации воспоминаний в … Читать далее

MiniMax выпускает версию M2.1: усовершенствованная версия M2 с поддержкой многоязычного кодирования, интеграцией API и улучшенными инструментами для структурированного кодирования

MiniMax выпустила обновлённую версию M2 — MiniMax M2.1. Эта версия основана на M2, быстрой и недорогой модели, предназначенной для агентов и кодирования. Основные улучшения M2.1:* повышение качества кода;* более точное следование инструкциям;* чёткость рассуждений;* повышение производительности на нескольких языках программирования. Ключевые возможности и результаты тестирования MiniMax M2.1 разработана для использования в реальных условиях кодирования и … Читать далее

Руководство по программированию для создания автономной мультиагентной логистической системы с планированием маршрутов, динамическими аукционами и визуализацией в реальном времени на основе графов

В этом руководстве мы создаём продвинутую, полностью автономную логистическую симуляцию, в которой несколько умных грузовиков-доставщиков работают в динамической дорожной сети города. Мы проектируем систему так, чтобы каждый грузовик вёл себя как агент, способный делать ставки на заказы на доставку, планировать оптимальные маршруты, управлять уровнем заряда батареи, искать зарядные станции и максимизировать прибыль за счёт принятия … Читать далее

Исследование из Стэнфорда и Гарварда объясняет, почему системы агентского ИИ впечатляют на демонстрациях, но полностью разваливаются при реальном использовании

Системы агентского ИИ основаны на больших языковых моделях и взаимодействуют с инструментами, памятью и внешней средой. Они уже поддерживают научные открытия, разработку программного обеспечения и клинические исследования, но всё ещё сталкиваются с ненадёжным использованием инструментов, слабым планированием на длительный срок и плохой генерализацией. В последнем исследовании под названием «Адаптация агентского ИИ» из Стэнфорда, Гарварда, Калифорнийского … Читать далее

InstaDeep представляет Nucleotide Transformer v3 (NTv3): новая базовая модель в области мультивидовой геномики

Nucleotide Transformer v3 (NTv3) — это новая базовая модель в области мультивидовой геномики от компании InstaDeep. Она предназначена для работы с контекстами длиной до 1 мегабазы (Мб) с разрешением в один нуклеотид. Требования к геномным предсказаниям и дизайну Современные геномные предсказания и дизайн требуют моделей, которые связывают локальные мотивы с регуляторным контекстом масштаба мегабазы и … Читать далее

Google Health AI выпускает MedASR: модель преобразования речи в текст на основе Conformer для клинической диктовки

Команда Google Health AI выпустила MedASR — модель преобразования речи в текст на основе архитектуры Conformer. Она предназначена для клинической диктовки и разговоров между врачами и пациентами и разработана для интеграции в современные рабочие процессы с использованием искусственного интеллекта. Что такое MedASR и как она используется? MedASR — это модель преобразования речи в текст, основанная … Читать далее

Как создать проактивный агент для предотвращения оттока клиентов с помощью интеллектуального наблюдения и формирования стратегии

В этом руководстве мы создадим полностью функционального агента по предотвращению оттока клиентов, который проактивно выявляет пользователей из группы риска и составляет персонализированные письма для повторного вовлечения до того, как они отменят подписку. Вместо того чтобы ждать, пока произойдёт отток, мы разработаем агентскую петлю, в которой будем наблюдать за неактивностью пользователей, анализировать поведенческие паттерны, планировать стимулы … Читать далее

Исследователи Google DeepMind выпустили Gemma Scope 2 — комплексный инструмент для интерпретации моделей Gemma 3

Исследователи Google DeepMind представили Gemma Scope 2 — открытый набор инструментов для интерпретации, который демонстрирует, как языковые модели Gemma 3 обрабатывают и представляют информацию на всех уровнях — от 270 миллионов до 27 миллиардов параметров. Основная цель Gemma Scope 2 — предоставить командам, занимающимся безопасностью и согласованием ИИ, практичный способ отслеживать поведение модели по внутренним … Читать далее

MIT в СМИ: обзор 2025 года

«В MIT инновации варьируются от впечатляющих технологий до практичного творчества», — отметила Chronicle во время посещения кампуса в этом году в рамках программы. В 2025 году исследователи MIT попали в заголовки печатных изданий, подкастов и видеоплатформ благодаря ключевым научным достижениям: от прорывов в квантовой сфере и искусственном интеллекте до новых усилий по улучшению педиатрической помощи … Читать далее

Meta AI представляет открытый аудиовизуальный кодировщик PE-AV

Исследователи компании Meta представили новое семейство кодировщиков для совместного понимания аудио и видео — Perception Encoder Audiovisual (PE-AV). Модель изучает согласованные аудио-, видео- и текстовые представления в едином пространстве встраивания с помощью масштабного контрастного обучения на примерно 100 миллионах пар аудио-видео с текстовыми подписями. От Perception Encoder к PE-AV Perception Encoder (PE) — это ядро … Читать далее

Борьба с внедрением команд: как OpenAI укрепляет ChatGPT Atlas

Компания OpenAI усиливает защиту ChatGPT Atlas от атак с внедрением команд (prompt injection) с помощью автоматизированных методов «красной команды», обученных с использованием обучения с подкреплением (reinforcement learning). Этот проактивный механизм поиска и устранения уязвимостей позволяет выявлять новые способы эксплуатации на ранних этапах и укреплять защиту браузерного агента по мере того, как искусственный интеллект становится всё … Читать далее

Как создать полностью автономного агента для анализа технического обслуживания местного автопарка с помощью SmolAgents и модели Qwen

В этом руководстве мы рассмотрим процесс создания полностью автономного агента для анализа технического обслуживания автопарка с использованием SmolAgents и локальной модели Qwen. Мы генерируем данные телеметрии, загружаем их с помощью специального инструмента и позволяем нашему агенту анализировать риски технического обслуживания без обращений к внешним API. На каждом этапе реализации мы видим, как агент интерпретирует структурированные … Читать далее

Google представляет A2UI (Agent-to-User Interface): открытый протокол для интерфейсов, управляемых агентами

Компания Google открыла исходный код A2UI — спецификации и набора библиотек для создания интерфейсов, управляемых агентами. Этот протокол позволяет агентам описывать сложные нативные интерфейсы в декларативном формате JSON, а клиентским приложениям — отображать их с помощью собственных компонентов. Что такое A2UI? A2UI — это открытый стандарт и реализация, которая позволяет агентам «говорить на языке интерфейса». … Читать далее

Anthropic выпустила Bloom: фреймворк с открытым исходным кодом для автоматизированной поведенческой оценки передовых моделей ИИ

Anthropic выпустила Bloom — фреймворк с открытым исходным кодом, который автоматизирует поведенческую оценку передовых моделей ИИ. Система использует заданное исследователем поведение и создаёт целевые оценки, которые измеряют, как часто и насколько сильно это поведение проявляется в реалистичных сценариях. Зачем нужен Bloom? Поведенческие оценки для обеспечения безопасности и согласованности стоят дорого в разработке и поддержке. Командам … Читать далее

Серия интервью с AI #4: объясните, что такое KV-кэширование

Вопрос:Вы внедряете большую языковую модель в производственную среду. Генерация первых нескольких токенов происходит быстро, но по мере увеличения последовательности генерация каждого дополнительного токена занимает всё больше времени, даже если архитектура модели и аппаратные средства остаются прежними. Если вычисления не являются основным узким местом, то какая неэффективность вызывает такое замедление, и как можно перепроектировать процесс логического … Читать далее

NVIDIA выпускает Nemotron 3: гибридный стек MoE на основе Mamba Transformer для агентского ИИ с длинным контекстом

Компания NVIDIA выпустила семейство открытых моделей Nemotron 3 в рамках полноценного стека для агентского ИИ. В комплект входят веса моделей, наборы данных и инструменты для обучения с подкреплением. Семейство моделей и целевые рабочие нагрузки Семейство Nemotron 3 предназначено для эффективных агентских приложений. Линейка состоит из моделей Nano, Super и Ultra, каждая из которых настроена под … Читать далее

Руководство по программированию для создания полного агентского рабочего процесса в Gemini для автоматизированного сбора медицинских доказательств и подачи заявки на предварительное разрешение

В этом руководстве мы рассмотрим, как создать полностью функциональный агентский рабочий процесс для сбора медицинских доказательств и подачи заявки на предварительное разрешение с использованием модели Gemini. Мы подробно разберём каждый компонент, от настройки модели до создания внешних инструментов и построения цикла работы интеллектуального агента. Настройка окружения 1. Импорт библиотек: «`python import google.generativeai as genai from … Читать далее

Mistral AI выпустила модель оптического распознавания символов Mistral OCR 3

Компания Mistral AI представила свою новейшую модель оптического распознавания символов (OCR) — Mistral OCR 3. Эта модель является частью стека Document AI компании и предназначена для извлечения текста и изображений из PDF-файлов и других документов с сохранением структуры. Основные характеристики Mistral OCR 3: * Оптимизация: модель настроена для работы с формами, отсканированными документами, сложными таблицами … Читать далее

Как создать высокопроизводительную систему маршрутизации распределённых задач с помощью Kombu с Topic Exchanges и Concurrent Workers

В этом руководстве мы создадим полнофункциональную систему событийно-ориентированного рабочего процесса с помощью Kombu, рассматривая обмен сообщениями как ключевую архитектурную возможность. Мы пошагово настроим обмены, ключи маршрутизации, фоновых рабочих и одновременных производителей, что позволит нам наблюдать за реальной распределённой системой. Установка и настройка 1. Установка Kombu: «` !pip install kombu «` 2. Импорт зависимостей и настройка … Читать далее

Google представляет T5Gemma 2: модели кодировщика-декодера с мультимодальными входами через SigLIP и контекстом до 128K

Компания Google выпустила T5Gemma 2 — семейство открытых моделей Transformer с архитектурой кодировщик-декодер, созданных путём адаптации предварительно обученных весов Gemma 3 к структуре кодировщик-декодер и последующего продолжения предварительного обучения с целью UL2. Что представляет собой T5Gemma 2? T5Gemma 2 позиционируется как аналог Gemma 3 для кодировщика-декодера, сохраняющий те же базовые блоки низкого уровня, но с … Читать далее

Полный рабочий процесс для оптимизации автоматизированных запросов с помощью Gemini Flash, Few-Shot Selection и Evolutionary Instruction Search

В этом руководстве мы переходим от традиционного создания запросов к более систематизированному, программируемому подходу, рассматривая запросы как настраиваемые параметры, а не как статический текст. Вместо того чтобы угадывать, какая инструкция или пример работают лучше всего, мы создаём цикл оптимизации вокруг Gemini 2.0 Flash, который экспериментирует, оценивает и автоматически выбирает наиболее эффективную конфигурацию запроса. Настройка Gemini … Читать далее