Zhipu AI выпустила GLM-4.5V: универсальная модель для мультимодального рассуждения с масштабируемым подкрепляющим обучением

Компания Zhipu AI официально выпустила модель GLM-4.5V с открытым исходным кодом. Это модель нового поколения для работы с визуальным и текстовым контентом (VLM), которая значительно продвигает состояние открытого мультимодального ИИ. Основные характеристики и инновационные разработки 1. Всестороннее визуальное рассуждение:* Понимание изображений: GLM-4.5V достигает продвинутого понимания сцен, многоизображения анализа и пространственного распознавания. Она может интерпретировать детальные … Читать далее

Примеры из практики: реальное применение контекстного инжиниринга

Контекстный инжиниринг стал движущей силой в переходе от экспериментальных демонстраций ИИ к надёжным системам производственного уровня в различных отраслях. Ниже приведены примеры и доказательства реального воздействия: 1. Страхование: Five Sigma & Agentic Underwriting Компания Five Sigma Insurance добилась снижения ошибок при обработке претензий на 80% и повышения производительности аджастеров на 25%, создав системы искусственного интеллекта, … Читать далее

NVIDIA представляет комплексный стек искусственного интеллекта, физические модели искусственного интеллекта Cosmos и новые библиотеки Omniverse для передовой робототехники

Компания Nvidia произвела фурор на SIGGRAPH 2025, представив набор новых мировых моделей Cosmos, надёжные библиотеки моделирования и передовую инфраструктуру — всё это предназначено для ускорения развития физической ИИ-среды в робототехнике, автономных транспортных средствах и промышленных приложениях. Модели фундаментального мира Cosmos: рассуждения для роботов В основе анонса лежит Cosmos Reason — модель рассуждений с языковым интерфейсом … Читать далее

Создание защищённого рабочего процесса с шифрованием для агентов ИИ с динамическим выбором LLM и интеграцией API

В этом руководстве мы рассмотрим создание компактного, но функционального рабочего процесса на основе шифрования. Шаг 1: безопасное хранение ключа API Gemini Мы начинаем с безопасного ввода ключа API Gemini с помощью `getpass`, чтобы он оставался скрытым в пользовательском интерфейсе Colab. Затем мы определяем функцию `choose_llm()`, которая проверяет переменные окружения и автоматически выбирает подходящего провайдера LLM, … Читать далее

NuMind AI выпускает NuMarkdown-8B-Thinking: прорыв в области OCR и преобразования документов в Markdown

NuMind AI официально выпустила NuMarkdown-8B-Thinking — модель OCR Vision-Language (VLM) с открытым исходным кодом (лицензия MIT), которая переопределяет способы оцифровки и структурирования сложных документов. В отличие от традиционных систем OCR, NuMarkdown-8B-Thinking не просто извлекает текст — она анализирует структуру документа, прежде чем создать точный файл в формате Markdown, готовый к использованию. Основные отличия NuMarkdown-8B-Thinking Модель … Читать далее

Genie Envisioner: унифицированная видеогенеративная платформа для масштабируемой роботизированной манипуляции под управлением инструкциями

Агенты искусственного интеллекта, способные воспринимать, мыслить и действовать в реальном мире, знаменуют собой ключевой шаг к будущему робототехники. Главная задача — создание масштабируемой и надёжной роботизированной манипуляции, то есть умения целенаправленно взаимодействовать с объектами и управлять ими через выборочный контакт. Прогресс в этой области охватывает аналитические методы, модельные подходы и масштабное обучение на основе данных. … Читать далее

Лучшие китайские открытые модели для агентского и логического вывода (2025): расширенный обзор, сравнительный анализ и варианты использования

Китай продолжает задавать темп в инновациях крупных языковых моделей с открытым исходным кодом, особенно в области агентских архитектур и глубокого логического вывода. Представляем вам подробное руководство по лучшим китайским открытым моделям для агентского и логического вывода, дополненное новейшими и наиболее влиятельными участниками. 1. Kimi K2 (Moonshot AI) Профиль: архитектура Mixture-of-Experts, до 128 тысяч контекста, превосходная … Читать далее

Полное руководство по провайдерам для работы с DeepSeek-R1-0528: где запустить ведущую модель рассуждений с открытым исходным кодом

Оглавление * Cloud & API Providers (Провайдеры облачных сервисов и API)* GPU Rental & Infrastructure Providers (Провайдеры аренды GPU и инфраструктуры)* Local & Open-Source Deployment (Локальное развёртывание и развёртывание с открытым исходным кодом)* Pricing Comparison Table (Таблица сравнения цен)* Performance Considerations (Соображения по производительности)* Regional Availability (Региональная доступность)* DeepSeek-R1-0528 Key Improvements (Ключевые улучшения DeepSeek-R1-0528)* Choosing … Читать далее

Создание продвинутого инструмента для анализа портфеля и рыночной аналитики с помощью OpenBB

В этом руководстве мы подробно рассмотрим расширенные возможности OpenBB для проведения комплексного анализа портфеля и рыночной аналитики. Мы начнём с создания технологического портфеля, получения исторических рыночных данных и вычисления ключевых показателей эффективности. Затем мы рассмотрим расширенные технические индикаторы, производительность на уровне секторов, рыночные настроения и корреляционный анализ рисков. 1. Создание и анализ технологического портфеля Мы … Читать далее

Антимонопольное регулирование и законы о конкуренции в эпоху искусственного интеллекта: алгоритмический сговор, инструменты самообучаемого ценообразования и юридические проблемы в США и ЕС

AI в рыночной экономике и алгоритмах ценообразования Модели ценообразования на основе искусственного интеллекта (ИИ), особенно использующие обучение с подкреплением (RL), могут приводить к результатам, напоминающим традиционный сговор, кардинально изменяя динамику рынка. В отличие от стратегий, устанавливаемых людьми в моделях олигополии, агенты ИИ, такие как Q-learning, автономно изучают стратегии ценообразования на основе данных, что часто приводит … Читать далее

Использование RouteLLM для оптимизации использования больших языковых моделей

RouteLLM — это гибкая платформа для обслуживания и оценки маршрутизаторов больших языковых моделей (LLM), разработанная для максимизации производительности при минимальных затратах. Ключевые особенности:* Бесшовная интеграция — действует как прямая замена клиента OpenAI или работает как OpenAI-совместимый сервер, интеллектуально направляя более простые запросы к более дешёвым моделям.* Предварительно обученные маршрутизаторы — доказано, что они сокращают расходы … Читать далее

От 100 000 до менее 500 меток: как ИИ Google сокращает данные для обучения больших языковых моделей на порядки

Исследователи из Google представили инновационный метод тонкой настройки больших языковых моделей (БЯМ), который сокращает объём необходимых данных для обучения до 10 000 раз, сохраняя или даже улучшая качество модели. Этот подход основан на активном обучении и сосредоточении усилий экспертов по разметке на наиболее информативных примерах — «пограничных случаях», где модель наиболее неопределённа. Традиционные узкие места … Читать далее

Тенденции развития ИИ-агентов в 2025 году: преобразующий ландшафт

2025 год знаменует собой определяющий момент в эволюции искусственного интеллекта, открывая эру, в которой агентские системы — автономные ИИ-агенты, способные к сложным рассуждениям и скоординированным действиям — преобразуют корпоративные рабочие процессы, исследования, разработку программного обеспечения и повседневный пользовательский опыт. В этой статье основное внимание уделяется пяти основным тенденциям развития ИИ-агентов в 2025 году:* Agentic RAG;* … Читать далее

Тенденции развития ИИ-агентов в 2025 году: трансформационный ландшафт

2025 год знаменует собой определяющий момент в эволюции искусственного интеллекта, открывая эру, в которой агентские системы — автономные ИИ-агенты, способные к сложным рассуждениям и скоординированным действиям, — преобразуют корпоративные рабочие процессы, исследования, разработку программного обеспечения и повседневный опыт пользователей. В этой статье основное внимание уделяется пяти основным тенденциям развития ИИ-агентов в 2025 году: агентским RAG, … Читать далее

9 шаблонов агентских рабочих процессов, преобразующих ИИ-агентов в 2025 году

Оглавление * Почему классические рабочие процессы ИИ-агентов терпят неудачу* 9 шаблонов агентских рабочих процессов на 2025 год * Последовательный интеллект * Параллельная обработка * Интеллектуальная маршрутизация * Самосовершенствующиеся системы* Как эти шаблоны революционизируют ИИ-агентов* Реальное влияние и лучшие практики внедрения* Заключение Почему классические рабочие процессы ИИ-агентов терпят неудачу Большинство неудачных реализаций агентов основаны на «одношаговом … Читать далее

Создание продвинутого исследовательского агента PaperQA2 с помощью Google Gemini для анализа научной литературы

В этом руководстве мы рассмотрим создание продвинутого агента искусственного интеллекта PaperQA2 на базе модели Gemini от Google, разработанной специально для анализа научной литературы. Мы настроим среду в Google Colab/Notebook, сконфигурируем API Gemini и интегрируем его с PaperQA2 для обработки и запроса множества научных статей. К концу настройки у нас будет интеллектуальный агент, способный отвечать на … Читать далее

Graph-R1: агентская система GraphRAG для структурированных многоэтапных рассуждений с использованием обучения с подкреплением

Введение Большие языковые модели (LLM) установили новые стандарты в обработке естественного языка, но их склонность к галлюцинациям — генерации неточных результатов — остаётся серьёзной проблемой для приложений, требующих глубоких знаний. Системы генерации с дополнением на основе поиска (RAG) пытаются решить эту проблему, включая внешние знания в генерацию языка. Однако традиционные подходы RAG основаны на фрагментарном … Читать далее

Mixture-of-Agents (MoA): прорыв в производительности больших языковых моделей

Архитектура Mixture-of-Agents (MoA) — это инновационный подход к повышению производительности больших языковых моделей (LLM), особенно в сложных задачах, где одной модели может быть сложно обеспечить точность, обоснованность или специфику предметной области. Как работает архитектура Mixture-of-Agents 1. Многоуровневая структура: – В рамках MoA несколько специализированных агентов LLM организованы в слои. – Каждый агент в слое получает … Читать далее

Часто задаваемые вопросы: всё, что вам нужно знать об агентах искусственного интеллекта в 2025 году

1. Что такое агент искусственного интеллекта (определение 2025 года)? Агент искусственного интеллекта — это система, управляемая LLM, которая воспринимает, планирует, использует инструменты, действует в программных средах и поддерживает состояние для достижения целей при минимальном контроле. В 2025 году такие агенты надёжны в узких, хорошо инструментированных рабочих процессах; быстро совершенствуются в использовании компьютеров (настольные компьютеры/веб) и … Читать далее

Автоматизация освоения агентов LLM для любого сервера MCP с помощью MCP-RL и ART

Введение Расширение возможностей больших языковых моделей (LLM) для гибкого взаимодействия с динамичной, реальной средой — это новое направление в инженерии искусственного интеллекта. Спецификация Model Context Protocol (MCP) предлагает стандартизированный шлюз, через который LLM могут взаимодействовать с произвольными внешними системами — API, файловыми системами, базами данных, приложениями или инструментами — без необходимости каждый раз писать специальный … Читать далее

Alibaba представляет Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507: обновление важности небольших языковых моделей

Небольшие модели с улучшенной производительностью и поддержкой контекста 256K Команда Alibaba Qwen представила два мощных дополнения к линейке небольших языковых моделей: Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507. Несмотря на то, что у них всего 4 миллиарда параметров, эти модели демонстрируют исключительные возможности в решении задач общего и экспертного уровня, при этом эффективно работая на потребительском оборудовании. Обе модели … Читать далее

VL-Cogito: развитие мультимодального мышления с помощью поэтапного обучения с подкреплением

Мультимодальное мышление, при котором модели интегрируют и интерпретируют информацию из разных источников, таких как текст, изображения и диаграммы, является одной из самых сложных задач в области искусственного интеллекта. VL-Cogito — это современная мультимодальная большая языковая модель (MLLM), предложенная Академией DAMO (Alibaba Group) и партнёрами. Она представляет собой надёжный механизм обучения с подкреплением, который существенно улучшает … Читать далее

Руководство разработчика по возможностям модели GPT-5 от OpenAI

В этом руководстве мы рассмотрим новые возможности, представленные в последней модели OpenAI — GPT-5. Обновление включает несколько мощных функций, среди которых параметр Verbosity, вызов функций в свободной форме, контекстно-свободная грамматика (CFG) и минимальные рассуждения. Мы рассмотрим, как они работают, и как их использовать на практике. Установка библиотек Чтобы установить необходимые библиотеки, выполните следующие команды: “`!pip … Читать далее

Cloudflare против Perplexity: борьба за право веб-скрапинга в сфере ИИ накаляется

Читая подробное разоблачение от Cloudflare и обширное освещение в СМИ, становится ясно, что противоречия, связанные с методами веб-скрапинга от Perplexity AI, глубже и острее, чем кажется на первый взгляд. Cloudflare обвиняет Perplexity в следующем: * Систематическое игнорирование блокировок веб-сайтов и маскировка своей идентичности для извлечения данных с сайтов, которые отказались от использования ИИ-инструментов.* Изменение пользовательских … Читать далее

Реализация кода для создания мультиагентной исследовательской системы с помощью агентов OpenAI

В этом руководстве мы покажем возможности агентов OpenAI в качестве движущей силы нашей мультиагентной исследовательской системы. Мы настроим среду Colab с ключом API OpenAI, установим SDK агентов OpenAI и определим пользовательские инструменты: `websearch`, `analyzedata` и `save_research`, чтобы использовать возможности агентов. Мы создадим трёх специализированных агентов OpenAI (специалист по исследованиям, аналитик данных и координатор исследований), каждому … Читать далее

Meta CLIP 2: первая модель предварительной подготовки Contrastive Language-Image (CLIP) на основе мировых пар изображений и текста

Contrastive Language-Image Pre-training (CLIP) стал важным инструментом для современных визуальных и мультимодальных моделей, позволяя применять такие технологии, как классификация изображений без примеров (zero-shot image classification), и использоваться в качестве кодировщиков изображений в MLLMs. Однако большинство вариантов CLIP, включая Meta CLIP, ограничиваются обработкой данных только на английском языке, игнорируя значительное количество неанглоязычного контента из интернета. Масштабирование … Читать далее

Что такое прокси-сервер? Подробное техническое погружение с тенденциями и лучшими прокси-серверами (издание 2025 года)

Введение Прокси-сервер — это важный посредник между клиентами и серверами назначения, обеспечивающий безопасность и скорость в современном интернете. В 2025 году, когда на первый план вышли цифровая конфиденциальность, корпоративная безопасность и автоматизация на основе данных, прокси-серверы стали незаменимыми для частных лиц и организаций. Прокси-серверы перехватывают и фильтруют запросы, переводят протоколы (HTTP, HTTPS, SOCKS5), кэшируют веб-контент … Читать далее

Знакомьтесь: CoAct-1 — новая мультиагентная система

Команда исследователей из Университета Южной Калифорнии, Salesforce AI и Вашингтонского университета представила CoAct-1 — новаторскую мультиагентную систему, которая знаменует собой значительный прорыв в области автономной работы компьютеров. Что такое CoAct-1? CoAct-1 — это мультиагентный компьютерный агент (CUA), который позволяет выполнять сложные задачи более эффективно и надёжно. Система сочетает в себе управление на основе графического интерфейса … Читать далее

NVIDIA XGBoost 3.0: обучение датасетов масштаба терабайт с помощью суперчипа Grace Hopper

NVIDIA представила важную веху в области масштабируемого машинного обучения: XGBoost 3.0, который теперь может обучать модели на основе градиентного бустинга для деревьев решений (GBDT) от гигабайт до 1 терабайта (ТБ) на одном суперчипе GH200 Grace Hopper Superchip. Этот прорыв позволяет компаниям обрабатывать огромные массивы данных для таких приложений, как обнаружение мошенничества, моделирование кредитного риска и … Читать далее

Реализация кодирования для продвинутого исследовательского конвейера LangGraph с использованием мультиагентов для генерации автоматизированных инсайтов

Мы создаём продвинутую мультиагентную систему LangGraph, которая использует модель Gemini от Google для сквозных исследовательских рабочих процессов. В этом руководстве мы начнём с установки необходимых библиотек: LangGraph, LangChain-Google-GenAI и LangChain-Core. Затем мы определим структурированное состояние, симулируем инструменты исследования и анализа и настроим трёх специализированных агентов: Research (Исследование), Analysis (Анализ) и Report (Отчёт). Установка библиотек !pip … Читать далее