Руководство по кодированию для инструментирования, трассировки и оценки приложений LLM с использованием TruLens и моделей OpenAI

В этом руководстве мы сосредоточимся на создании прозрачного и измеримого механизма оценки для приложений с большими языковыми моделями (LLM) с использованием TruLens. Вместо того чтобы рассматривать LLM как чёрные ящики, мы инструментируем каждый этап приложения так, чтобы входные данные, промежуточные шаги и выходные данные фиксировались в виде структурированных трассировок. Затем мы добавляем функции обратной связи, … Читать далее

Забудьте об имитации ключевых слов: ByteDance AI отображает молекулярные связи в рассуждениях ИИ для стабилизации производительности Long Chain-of-Thought и обучения с подкреплением (RL)

Компания ByteDance опубликовала исследование, которое может изменить подход к созданию рассуждающих ИИ. Разработчики и исследователи ИИ уже много лет пытаются «холодно запустить» большие языковые модели (LLM) в модели с длинными цепочками рассуждений (Long CoT). Большинство моделей теряют направление или не могут перенести закономерности при многошаговом рассуждении. Три «химические связи» мышления Команда ByteDance обнаружила проблему: мы … Читать далее

Новое исследование Google в области ИИ предлагает использовать коэффициент глубокого мышления для повышения точности LLM при сокращении общих затрат на вывод вдвое

В последние несколько лет в мире ИИ действовало простое правило: если вы хотите, чтобы большая языковая модель (LLM) решала более сложную задачу, сделайте её цепочку рассуждений (CoT) длиннее. Однако новое исследование Университета Вирджинии и Google доказывает, что «долгое размышление» — это не то же самое, что «серьёзное размышление». Провал «максимизации токенов» Инженеры часто используют количество … Читать далее

Как спроектировать агентский рабочий процесс для оптимизации маршрутов с помощью инструментов, детерминированных вычислений и структурированных выходных данных

В этом руководстве мы создадим оптимизатор маршрутов в производственном стиле для логистического диспетчерского центра, используя новейшие API-интерфейсы LangChain agent. Мы разработаем управляемый инструментами рабочий процесс, в котором агент надёжно вычисляет расстояния, расчётное время прибытия (ETA) и оптимальные маршруты, а не угадывает. Мы обеспечим структурированные выходные данные, чтобы результаты можно было напрямую использовать в последующих системах. … Читать далее

Есть ли у Palantir версия для сообщества? Познакомьтесь с OpenPlanter: рекурсивным агентом искусственного интеллекта с открытым исходным кодом для вашего микро-наблюдения за действиями

Баланс сил в цифровую эпоху меняется. В то время как правительства и крупные корпорации уже давно используют данные для отслеживания людей, новый проект с открытым исходным кодом под названием OpenPlanter возвращает эту возможность общественности. Созданный разработчиком Shin Megami Boson, OpenPlanter — это агент-исследователь рекурсивной языковой модели. Его цель проста: помочь вам следить за вашим правительством, … Читать далее

Руководство по созданию высококачественных изображений, управлению ими и редактированию с помощью HuggingFace Diffusers

В этом руководстве мы разрабатываем практический рабочий процесс генерации изображений с использованием библиотеки Diffusers. Мы начинаем со стабилизации среды, затем генерируем высококачественные изображения из текстовых подсказок с помощью Stable Diffusion с оптимизированным планировщиком. Подготовка среды Мы подготавливаем чистую и совместимую среду выполнения, устраняя конфликты зависимостей и устанавливая все необходимые библиотеки. Мы обеспечиваем надёжную работу обработки … Читать далее

Наши первые попытки отправки решений

Мы публикуем попытки нашей модели искусственного интеллекта решить задачи конкурса First Proof по математике. Это тестирование логических рассуждений исследовательского уровня на задачах экспертного уровня. 1. Какие задачи решает модель искусственного интеллекта в рамках конкурса First Proof? Модель искусственного интеллекта решает задачи экспертного уровня по математике, опубликованные в рамках конкурса First Proof, и фокусируется на тестировании … Читать далее

Как создать исследовательского агента «швейцарского ножа» с помощью ИИ, веб-поиска, анализа PDF, машинного зрения и автоматизированной отчётности

В этом руководстве мы создадим исследовательского агента «швейцарского ножа», который выходит далеко за рамки простых чат-взаимодействий и активно решает многоэтапные исследовательские задачи от начала до конца. Мы объединим архитектуру агента, использующего инструменты, с живым веб-поиском, локальным анализом PDF, анализом диаграмм на основе машинного зрения и генерацией автоматизированных отчётов, чтобы продемонстрировать, как современные агенты могут рассуждать, … Читать далее

NVIDIA выпускает DreamDojo: модель мира роботов с открытым исходным кодом, обученная на 44 711 часах реальных видеоданных с участием человека

Создание симуляторов для роботов было долгосрочной задачей. Традиционные движки требуют ручного кодирования физики и идеальных 3D-моделей. Компания NVIDIA меняет это с помощью DreamDojo — модели мира роботов с полностью открытым исходным кодом. Вместо использования физического движка DreamDojo «прогнозирует» результаты действий робота прямо в пикселях. Масштабирование робототехники с помощью 44 тысяч часов человеческого опыта Самым большим … Читать далее

NVIDIA выпустила обновление Dynamo v0.9.0: масштабный апгрейд инфраструктуры с FlashIndexer, поддержкой мультимодальных данных и без NATS и ETCD

Компания NVIDIA выпустила обновление Dynamo v0.9.0, которое представляет собой наиболее значительный апгрейд инфраструктуры для распределённой среды вывода (framework) на сегодняшний день. Это обновление упрощает развёртывание крупномасштабных моделей и управление ими. Основное внимание в релизе уделено устранению тяжёлых зависимостей и улучшению обработки мультимодальных данных на GPU. Великое упрощение: удаление NATS и etcd Самым значительным изменением в … Читать далее

Исследование: чат-боты с искусственным интеллектом предоставляют менее точную информацию уязвимым пользователям

Большие языковые модели (LLMs) позиционируются как инструменты, которые могут демократизировать доступ к информации по всему миру. Они предлагают знания в удобном для пользователя интерфейсе независимо от его происхождения или местоположения. Однако новое исследование Центра конструктивной коммуникации (CCC) Массачусетского технологического института (MIT) показывает, что эти системы искусственного интеллекта могут работать хуже для тех пользователей, которые больше … Читать далее

Google выпускает Gemini 3.1 Pro с контекстом в 1 миллион токенов и показателем ARC-AGI-2 в 77,1% для ИИ-агентов

Google официально объявил о выпуске Gemini 3.1 Pro — первого обновления в серии Gemini 3. Этот релиз — не просто незначительный патч, а целенаправленный удар по рынку «агентских» ИИ-систем, с акцентом на стабильность рассуждений, разработку программного обеспечения и надёжность использования инструментов. Для разработчиков это означает переход на новый уровень Мы переходим от моделей, которые просто … Читать далее

Реализация кодирования для создания надёжных агентских рабочих процессов с помощью PydanticAI

В этом руководстве мы создаём готовый к производству агентский рабочий процесс, в котором приоритет отдаётся надёжности за счёт обеспечения строгих, типизированных выходных данных на каждом шаге. Мы используем PydanticAI для определения чётких схем ответов, подключения инструментов через внедрение зависимостей и обеспечения безопасного взаимодействия агента с внешними системами, такими как база данных, без нарушения выполнения. Установка … Читать далее

Раскрытие предубеждений, настроений, личностей и абстрактных концепций, скрытых в больших языковых моделях

ChatGPT, Claude и другие большие языковые модели накопили столько человеческих знаний, что стали не просто генераторами ответов. Они могут выражать абстрактные концепции, такие как определённые тональности, личности, предубеждения и настроения. Однако не совсем понятно, как эти модели изначально представляют абстрактные концепции на основе содержащихся в них знаний. Команда из Массачусетского технологического института (MIT) и Калифорнийского … Читать далее

Продвижение независимых исследований по согласованию ИИ

OpenAI выделяет 7,5 миллиона долларов на проект «Alignment Project» для финансирования независимых исследований по согласованию ИИ. Это укрепляет глобальные усилия по устранению рисков безопасности и угроз, связанных с созданием искусственного интеллекта общего назначения (AGI). #OpenAI #финансирование #исследования #ИИ #согласование #безопасность 1. Какова цель проекта «Alignment Project» от OpenAI? Проект «Alignment Project» от OpenAI направлен на … Читать далее

Zyphra выпускает ZUNA: базовая модель для работы с ЭЭГ-данными на 380 миллионов параметров, продвигая развитие технологий неинвазивного преобразования мыслей в текст

Zyphra, исследовательская лаборатория, специализирующаяся на масштабных моделях, недавно выпустила ZUNA — базовую модель на 380 миллионов параметров, специально предназначенную для работы с сигналами ЭЭГ. Проблемы «хрупких» моделей ЭЭГ На протяжении десятилетий исследователи сталкивались с трудностями при работе с данными ЭЭГ. Разные наборы данных используют разное количество каналов и непоследовательное расположение электродов. Большинство моделей глубокого обучения … Читать далее

Система навигации с учётом парковки может предотвратить раздражение и сократить выбросы

Каждый день водитель, который едет через город, проверяет навигационное приложение, чтобы узнать, сколько времени займёт дорога. Но когда он добирается до места назначения, оказывается, что мест для парковки нет. К тому времени, когда водитель наконец находит место для парковки и доходит до места назначения, он уже значительно опаздывает. Большинство популярных навигационных систем отправляют водителей в … Читать далее

Знакомство с OpenAI для Индии 🔍

1. Какие возможности предоставляет OpenAI для разработчиков и исследователей в Индии? В статье не содержится конкретной информации о возможностях OpenAI для разработчиков и исследователей в Индии, но упоминается, что OpenAI предоставляет инструменты и технологии для создания интеллектуальных приложений. 2. Какие потенциальные преимущества может принести интеграция технологий OpenAI в индийские стартапы? В статье не содержится прямого … Читать далее

[Tutorial] Создание конвейера для поиска визуальных документов с помощью ColPali и оценки позднего взаимодействия

В этом руководстве мы создаём комплексный конвейер для поиска визуальных документов с помощью ColPali. Мы уделяем особое внимание надёжности настройки, устраняя распространённые конфликты зависимостей и обеспечивая стабильность среды. Мы преобразуем страницы PDF в изображения, внедряем их с помощью мультивекторных представлений ColPali и используем оценку позднего взаимодействия для извлечения наиболее релевантных страниц по запросу на естественном … Читать далее

Tavus запускает Phoenix-4: модель гауссовой диффузии, обеспечивающая эмоциональный интеллект в реальном времени и задержку менее 600 мс в генеративном видеоискусстве

«Зыбкая долина» — последний рубеж для генеративного видео. Мы видели аватары с искусственным интеллектом, которые могут говорить, но им часто не хватает души человеческого взаимодействия. Они страдают от скованности движений и отсутствия эмоционального контекста. Tavus стремится исправить это с запуском Phoenix-4 — новой модели генеративного искусственного интеллекта, разработанной для диалогового видеоинтерфейса (CVI). Три силы: Ворон, … Читать далее

Google DeepMind выпускает Lyria 3: продвинутую модель для создания музыки, которая превращает фотографии и текст в пользовательские треки с текстом и вокалом

Компания Google DeepMind снова расширяет границы генеративного искусственного интеллекта. На этот раз основное внимание уделяется не тексту или изображениям, а музыке. Недавно команда Google представила Lyria 3 — свою самую передовую модель для создания музыки на сегодняшний день. Lyria 3 представляет собой значительный сдвиг в том, как машины обрабатывают сложные аудиосигналы и творческие замыслы. Модель … Читать далее

Google представляет Jetpack Compose Glimmer: новый фреймворк для пространственного пользовательского интерфейса, разработанный специально для очков с искусственным интеллектом

Google выходит за пределы прямоугольного экрана. Более 10 лет дизайнеры Google изучают, как создавать интерфейсы для прозрачных дисплеев. Результатом стал Jetpack Compose Glimmer — система проектирования, созданная специально для дисплеев в очках с искусственным интеллектом. Для разработчиков и специалистов по работе с данными это переход от проектирования для пикселей к проектированию со светом. Ограничения аддитивного … Читать далее

Cohere выпустила Tiny Aya: небольшую языковую модель с 3 миллиардами параметров, поддерживающую 70 языков и работающую локально даже на телефоне

Cohere AI Labs выпустила Tiny Aya — семейство небольших языковых моделей (SLMs), которые переопределяют возможности многоязычного общения. В то время как многие модели масштабируются за счёт увеличения параметров, Tiny Aya использует архитектуру с 3,35 миллиарда параметров для обеспечения передовых технологий перевода и генерации на 70 языках. В релиз вошли 5 моделей:* Tiny Aya Base (предварительно … Читать далее

Особенности персонализации могут сделать большие языковые модели более уступчивыми

Многие новейшие большие языковые модели (БЯМ) разработаны так, чтобы запоминать детали из прошлых разговоров или хранить профили пользователей, что позволяет адаптировать ответы под конкретного пользователя. Но исследователи из Массачусетского технологического института (MIT) и Университета штата Пенсильвания выяснили, что со временем такие функции персонализации часто увеличивают вероятность того, что БЯМ станет излишне уступчивой или начнёт отражать … Читать далее

Anthropic выпускает Claude 4.6 Sonnet с контекстом в 1 миллион токенов для решения сложных задач кодирования и поиска для разработчиков

Anthropic официально вступает в эру «Мышления». Сегодня компания анонсировала Claude 4.6 Sonnet — модель, призванную преобразить работу разработчиков и специалистов по работе с данными при обработке сложной логики. Наряду с этим выпуском представлена улучшенная функция веб-поиска с динамической фильтрацией — функция, которая использует внутреннее выполнение кода для проверки фактов в режиме реального времени. Адаптивное мышление: … Читать далее

Создание продвинутого интерактивного рабочего процесса для исследовательского анализа данных с помощью PyGWalker и данных с инженерными признаками

В этом руководстве мы покажем, как выйти за рамки статических графиков с большим количеством кода и создать по-настоящему интерактивный рабочий процесс для исследовательского анализа данных непосредственно с помощью PyGWalker. Подготовка данных Мы начнём с подготовки набора данных «Титаник» для крупномасштабных интерактивных запросов. Эти специально подготовленные для анализа признаки выявляют базовую структуру данных, позволяя одновременно исследовать … Читать далее

Agoda представляет APIAgent — инструмент с открытым исходным кодом для преобразования любых REST и GraphQL API в серверы MCP без написания кода

Создание AI-агентов — новая золотая лихорадка. Но каждый разработчик знает, что самое большое препятствие — это заставить ИИ взаимодействовать с вашими данными. Сегодня туристический гигант Agoda решает эту проблему. Они официально запустили APIAgent — инструмент с открытым исходным кодом, предназначенный для превращения любого REST или GraphQL API в сервер Model Context Protocol (MCP) без написания … Читать далее

Создание агентов искусственного интеллекта с участием человека в планировании и выполнении действий с явным одобрением пользователя с помощью LangGraph и Streamlit

В этом руководстве мы создаём агента для бронирования путешествий с участием человека, который рассматривает пользователя как партнёра, а не пассивного наблюдателя. Мы проектируем систему так, чтобы агент сначала открыто рассуждал, составляя структурированный план путешествия, а затем намеренно приостанавливал выполнение любых действий. Шаги по созданию системы 1. Установка среды выполнения: * Устанавливаем все необходимые библиотеки и … Читать далее

Команда Alibaba Qwen выпустила модель Qwen3.5-397B MoE с 17 миллиардами активных параметров и контекстом на 1 миллион токенов для ИИ-агентов

Команда Qwen из Alibaba Cloud обновила ландшафт открытых исходников. Сегодня команда Qwen выпустила Qwen3.5 — новейшее поколение семейства больших языковых моделей (LLM). Самая мощная версия — Qwen3.5-397B-A17B. Это модель со разреженной архитектурой Mixture-of-Experts (MoE). Она сочетает в себе огромную вычислительную мощность и высокую эффективность. Qwen3.5 — это нативная модель для работы с визуальными данными и … Читать далее

Google DeepMind предлагает новый фреймворк для интеллектуального делегирования ИИ для защиты развивающейся агентской сети в будущей экономике

В настоящее время индустрия искусственного интеллекта увлечена «агентами» — автономными программами, которые делают больше, чем просто общаются. Однако большинство современных мультиагентных систем основаны на хрупких, жёстко заданных эвристиках, которые терпят неудачу при изменении среды. Исследователи Google DeepMind предложили новое решение. Исследовательская группа утверждает, что для масштабирования «агентской сети» агенты должны выйти за рамки простого разделения … Читать далее