Слабый к сильному (W4S): новый алгоритм обучения с подкреплением, который тренирует слабого мета-агента для разработки агентских рабочих процессов с более мощными языковыми моделями

Исследователи из Стэнфорда, Федеральной политехнической школы Лозанны (EPFL) и Университета Северной Каролины (UNC) представили Weak-for-Strong Harnessing (W4S) — новую систему обучения с подкреплением (Reinforcement Learning, RL), которая тренирует слабого мета-агента для разработки и усовершенствования кодовых рабочих процессов, использующих более мощную модель-исполнитель. Как работает W4S Мета-агент не подстраивает модель, а учится управлять ею. W4S формализует разработку … Читать далее

Microsoft предлагает BitNet Distillation (BitDistill): упрощённый алгоритм, который экономит до 10 раз объём памяти и ускоряет работу процессора примерно в 2,65 раза

Исследователи из Microsoft Research предлагают BitNet Distillation — алгоритм, который преобразует существующие модели с полной точностью (LLMs) в модели BitNet с 1,58 битами для конкретных задач, сохраняя при этом точность, близкую к учителю FP16, и повышая эффективность работы процессора. Метод включает в себя:* архитектурное усовершенствование на основе SubLN;* продолжение предварительного обучения;* дистилляцию с двумя сигналами … Читать далее

Kong выпускает Volcano: TypeScript-SDK для создания готовых к производству AI-агентов с использованием LLM и действий в реальном мире, нативный для MCP

Kong открыл исходный код Volcano — TypeScript SDK, который позволяет создавать многошаговые рабочие процессы агентов с использованием нескольких поставщиков LLM и инструментов Model Context Protocol (MCP). Выпуск совпадает с расширением возможностей MCP в Kong AI Gateway и Konnect, что позиционирует Volcano как SDK для разработчиков в управляемой MCP плоскости управления. Почему нужен SDK Volcano? Потому … Читать далее

AutoCode: новая платформа на базе ИИ, которая позволяет языковым моделям создавать и проверять задачи для соревнований по программированию, имитируя рабочий процесс составителей задач

Команда исследователей из Калифорнийского университета в Сан-Диего (UCSD), Нью-Йоркского университета (NYU), Вашингтонского университета, Принстонского университета, Академии Каньон-Крист, OpenAI, Калифорнийского университета в Беркли, Массачусетского технологического института (MIT), Университета Ватерлоо и Sentient Labs представляет AutoCode — новую платформу на базе ИИ, которая позволяет языковым моделям создавать и проверять задачи для соревнований по программированию, имитируя рабочий процесс составителей … Читать далее

Сигмоидальные кривые масштабирования делают постобучение с подкреплением (RL) предсказуемым для больших языковых моделей (LLM)

Постобучение с подкреплением (RL) стало важным инструментом для моделей LLM, ориентированных на рассуждения. Однако, в отличие от предварительного обучения, у него не было правил масштабирования для прогнозирования. Команды вкладывают десятки тысяч часов работы на графических процессорах (GPU) в эксперименты, не имея обоснованного способа оценить, будет ли рецепт продолжать улучшаться с увеличением вычислительных ресурсов. Новое исследование … Читать далее

Реализация кодирования для создания единой системы оркестрации инструментов: от документации до автоматизированных конвейеров

В этом руководстве мы создаём компактную и эффективную систему, которая демонстрирует, как преобразовать документацию по инструментам в стандартизированные вызываемые интерфейсы, зарегистрировать эти инструменты в центральной системе и выполнить их как часть автоматизированного конвейера. Шаг 1: определение структуры инструментов Мы начинаем с определения структуры для наших инструментов и написания простого парсера, который преобразует обычную документацию в … Читать далее

Новое программное обеспечение для создания экологичной одежды, которую можно переконфигурировать в новые предметы

Следить за постоянно меняющимися тенденциями в мире моды сложно. То, что «в тренде» сегодня, завтра может выйти из моды, что заставляет нас пересматривать свой гардероб. Однако быть в курсе последних модных тенденций может быть расточительно и дорого. Ежегодно производится около 92 миллионов тонн текстильных отходов, включая одежду, от которой мы избавляемся, когда она выходит из … Читать далее

Команда Baidu PaddlePaddle выпустила PaddleOCR-VL (0.9B): модель для сквозного многоязычного анализа документов в стиле NaViT + ERNIE-4.5-0.3B VLM

Как преобразовать сложные многоязычные документы — с плотным расположением элементов, мелкими шрифтами, формулами, таблицами и рукописным текстом — в структурированный Markdown/JSON с максимальной точностью, сохраняя при этом низкую задержку вывода и объём памяти, достаточный для реального использования? Команда Baidu PaddlePaddle выпустила PaddleOCR-VL — модель для анализа документов с 0,9 миллиарда параметров, предназначенную для сквозного анализа … Читать далее

Google выпустила модель C2S-Scale 27B для перевода сложных данных экспрессии генов одиночных клеток в «клеточные предложения», понятные языковым моделям

Команда исследователей из Google Research, Google DeepMind и Йельского университета выпустила C2S-Scale 27B — модель фундаментального уровня с 27 миллиардами параметров для анализа одиночных клеток, построенную на Gemma-2. Модель формализует профили экспрессии одиночных клеток РНК (scRNA-seq) в виде «клеточных предложений» — упорядоченных списков символов генов — чтобы языковая модель могла изначально анализировать и рассуждать о … Читать далее

Руководство по созданию системы криптографических агентов на базе искусственного интеллекта с гибридным шифрованием, цифровыми подписями и адаптивным анализом безопасности

В этом руководстве мы создаём систему криптографических агентов на базе искусственного интеллекта, которая сочетает в себе надёжность классического шифрования с адаптивным интеллектом. Мы разрабатываем агентов, способных выполнять гибридное шифрование с использованием RSA и AES, генерировать цифровые подписи, обнаруживать аномалии в шаблонах сообщений и интеллектуально рекомендовать ротацию ключей. Импортируем необходимые библиотеки Мы начинаем с импорта всех … Читать далее

Qualifire AI открывает исходный код Rogue: комплексная система тестирования агентов искусственного интеллекта для оценки производительности, соответствия требованиям и надёжности

Агенты в системах — это стохастические, зависящие от контекста и ограниченные политикой сущности. Традиционные методы контроля качества (QA), такие как модульные тесты, статические запросы или скалярные оценки типа «LLM как судья», не выявляют уязвимости при многошаговом взаимодействии и не обеспечивают надёжных аудиторских следов. Командам разработчиков нужны точные по протоколам диалоги, явные проверки политик и машиночитаемые … Читать далее

Qualifire AI открывает исходный код Rogue: комплексная система тестирования агентов искусственного интеллекта для оценки производительности, соответствия требованиям и надёжности

Агенты — это стохастические, зависящие от контекста и ограниченные политикой системы. Традиционные методы контроля качества (QA), такие как модульные тесты, статические запросы или скалярные оценки типа «LLM как судья», не выявляют уязвимости при многоэтапном взаимодействии и не обеспечивают надёжных аудиторских следов. Командам разработчиков нужны точные по протоколам диалоги, явные проверки политик и машиночитаемые доказательства, которые … Читать далее

Метод обучения генеративных ИИ-моделей для поиска персонализированных объектов

Представьте, что человек приходит с французским бульдогом по кличке Базер в парк для собак. Определить Базера среди других собак легко для его хозяина. Но если кто-то захочет использовать генеративную ИИ-модель вроде GPT-5 для наблюдения за питомцем, пока он на работе, модель может не справиться с этой задачей. Модели обработки естественного языка и изображений, такие как … Читать далее

QeRL: квантизированное обучение с подкреплением в формате NVFP4 позволяет обучать модели LLM размером 32B на одном H100, улучшая при этом исследование пространства

Исследователи из NVIDIA (совместно с коллегами из MIT, HKU и Tsinghua) выпустили в открытый доступ QeRL (Quantization-enhanced Reinforcement Learning) — фреймворк для обучения, который переводит постобучение с подкреплением (RL) в формат 4-битного FP4 (NVFP4), сохраняя при этом вычисления градиента с более высокой точностью через LoRA. Что такое QeRL и как оно меняет цикл обучения с … Читать далее

Создание агента LLM для решения сложных задач с помощью сжатия контекста и использования инструментов

В этом руководстве мы рассмотрим, как создать агента Context-Folding LLM, который эффективно решает длинные и сложные задачи, разумно управляя ограниченным контекстом. Мы разработаем агента, способного разбивать большие задачи на более мелкие подзадачи, выполнять рассуждения или вычисления при необходимости, а затем сворачивать каждую завершённую подзадачу в краткие резюме. Подготовка среды и загрузка модели Мы начинаем с … Читать далее

Plex Coffee обеспечивает быстрое обслуживание и личное общение с помощью ChatGPT Business.

Узнайте, как Plex Coffee использует ChatGPT Business для централизации знаний, более быстрого обучения персонала и сохранения личного общения при расширении бизнеса. 1. Какие задачи помогает решать ChatGPT Business в компании Plex Coffee? Ответ: ChatGPT Business помогает Plex Coffee централизовать знания, ускорить процесс обучения персонала и сохранить личное общение при расширении бизнеса. 2. Как использование ChatGPT … Читать далее

В память о профессоре эмерите Джин Шапиро Бамбергер, пионере музыкального образования

Массачусетский технологический институт (MIT) с теплотой вспоминает наследие профессора эмерита Джин Шапиро Бамбергер, которая мирно скончалась дома в Беркли, Калифорния, по естественным причинам 12 декабря 2024 года в возрасте 100 лет. В течение трёх десятилетий в Институте Бамбергер находила способы использовать компьютеры для вовлечения студентов и помощи им в изучении музыки. Будучи пианисткой, она увлеклась … Читать далее

Anthropic выпускает Claude Haiku 4.5: компактная модель искусственного интеллекта с производительностью уровня Sonnet-4 в три раза дешевле и более чем в два раза быстрее

Anthropic выпустила Claude Haiku 4.5 — «компактную» модель с оптимизированной задержкой, которая демонстрирует производительность, аналогичную Claude Sonnet 4, при этом работает более чем в два раза быстрее и стоит в три раза дешевле. Модель уже доступна через API Anthropic и в партнёрских каталогах на Amazon Bedrock и Google Cloud Vertex AI. Цена: $1 за миллион … Читать далее

Обучение языковых агентов с помощью «Early Experience» от Meta AI без вознаграждений — превосходит имитационное обучение

Компания Meta Superintelligence Labs предлагает новый подход к обучению языковых агентов под названием «Early Experience». Этот метод позволяет обучать агентов без использования вознаграждений и демонстраций, но при этом превосходит имитационное обучение по восьми показателям. Суть подхода Традиционные методы обучения опираются на имитационное обучение (IL) по экспертным траекториям, которое дёшево оптимизировать, но сложно масштабировать и применять … Читать далее

Alibaba выпускает компактные модели Qwen3-VL 4B/8B (Instruct & Thinking) с контрольными точками FP8

Команда Alibaba’s Qwen расширила линейку мультимодальных моделей, представив плотные модели Qwen3-VL в масштабах 4B и 8B. Они доступны в двух профилях задач — Instruct и Thinking — плюс квантованные контрольные точки FP8 для развёртывания с низким объёмом видеопамяти (VRAM). Что нового? * SKU и варианты: новые модели включают четыре плотные модели — Qwen3-VL-4B и Qwen3-VL-8B, … Читать далее

Оптимизация продовольственных субсидий: применение цифровых платформ для максимального улучшения питания

16 октября отмечается Всемирный день продовольствия — глобальная кампания, посвящённая основанию Продовольственной и сельскохозяйственной организации 80 лет назад и направленная на достижение здорового, устойчивого и обеспеченного продовольствием будущего. Более 670 миллионов человек в мире сталкиваются с голодом. Миллионы других людей борются с ростом ожирения и пытаются получить здоровую пищу для правильного питания. Всемирный день продовольствия … Читать далее

Андрей Карпати выпустил nanochat: компактный и независимый от зависимостей код, который реализует полный стек в стиле ChatGPT — от обучения токенизатора до вывода в веб-интерфейсе. Проект направлен на воспроизводимое и модифицируемое обучение больших языковых моделей на одном узле с несколькими GPU.

Основные характеристики nanochat Репозиторий предоставляет односценарный «спидран», который выполняет полный цикл: токенизация, базовое предварительное обучение, промежуточное обучение на данных чата/многовариантных/инструментальных данных, контролируемая тонкая настройка (SFT), опциональное RL на GSM8K, оценка и обслуживание (CLI + веб-интерфейс, похожий на ChatGPT). Рекомендуемая настройка — узел 8×H100; при стоимости примерно 24 доллара в час 4-часовой спидран обойдётся примерно в … Читать далее

Новый экспертный совет по благополучию и искусственному интеллекту от OpenAI объединил ведущих психологов, клиницистов и исследователей. Их задача — определить, как ChatGPT может поддерживать эмоциональное здоровье, особенно у подростков. Узнайте, как их идеи формируют более безопасный и заботливый опыт взаимодействия с ИИ. 😊

1. Какие специалисты вошли в экспертный совет по благополучию и искусственному интеллекту от OpenAI? Ответ: в экспертный совет вошли ведущие психологи, клиницисты и исследователи. 2. Какова цель экспертного совета по благополучию и искусственному интеллекту от OpenAI? Ответ: цель экспертного совета — определить, как ChatGPT может поддерживать эмоциональное здоровье, особенно у подростков. 3. Какие аспекты взаимодействия … Читать далее

Реализация продвинутого использования PyTest для создания персонализированного и автоматизированного тестирования с помощью плагинов, приспособлений и JSON-отчётов

В этом руководстве мы рассмотрим продвинутые возможности PyTest, одной из самых мощных сред тестирования в Python. Мы создадим полный мини-проект с нуля, который демонстрирует приспособления, маркеры, плагины, параметризацию и индивидуальную конфигурацию. Настройка среды Мы начнём с настройки нашей среды, импортируя основные библиотеки Python для работы с файлами и выполнения подпроцессов. Затем установим последнюю версию PyTest, … Читать далее

Новый инструмент на базе искусственного интеллекта упрощает проверку качества материалов

Создание более совершенных батарей, быстрой электроники и эффективных фармацевтических препаратов зависит от открытия новых материалов и проверки их качества. Искусственный интеллект помогает в этом процессе, используя инструменты, которые просматривают каталоги материалов, чтобы быстро пометить многообещающих кандидатов. Но как только материал создан, проверка его качества всё ещё включает сканирование его с помощью специализированных приборов для подтверждения … Читать далее

Помощь учёным в анализе сложных данных без написания кода

В последние годы затраты на диагностические технологии и секвенирование резко снизились, и исследователи собрали беспрецедентное количество данных о болезнях и биологии. К сожалению, учёным, которые хотят превратить данные в новые лекарства, часто требуется помощь специалиста в области программирования. Теперь Watershed Bio помогает учёным и биоинформатикам проводить эксперименты и получать ценные сведения с помощью платформы, которая … Читать далее

Возможности искусственного интеллекта в Аргентине.

Компании OpenAI и Sur Energy изучают первый в Аргентине проект Stargate — сотрудничество в области искусственного интеллекта и чистой энергии. Этот проект может сделать Аргентину лидером в Латинской Америке по развитию искусственного интеллекта, устойчивой инфраструктуры и цифровых инноваций. 1. Какие компании участвуют в проекте Stargate в Аргентине? Ответ: в проекте Stargate участвуют компании OpenAI и … Читать далее

Исследователи NVIDIA предложили предварительный тренинг с подкреплением (RLP)

NVIDIA AI представила предварительный тренинг с подкреплением (RLP) — метод, который внедряет обучение с подкреплением на этапе предварительного обучения, а не откладывает его на этап постобучения. Основная идея проста и проверяема: рассматривать короткую цепочку мыслей (CoT) как действие, выбранное перед предсказанием следующего токена, и вознаграждать его за информацию, которую он предоставляет о наблюдаемом следующем токене, … Читать далее

ServiceNow AI Research выпускает DRBench — реалистичный бенчмарк для глубокого исследования на предприятиях

Компания ServiceNow Research выпустила DRBench — бенчмарк и рабочую среду для оценки агентов глубокого исследования в решении открытых задач на предприятиях. Эти задачи требуют синтеза фактов из общедоступных интернет-источников и частных корпоративных данных для подготовки отчётов с соответствующими ссылками. В отличие от тестов, ориентированных только на веб, DRBench моделирует гетерогенные рабочие процессы в корпоративном стиле … Читать далее

Независимый от фреймворков машинное обучение с Ivy Framework

Введение в Ivy Framework В этом руководстве мы рассмотрим замечательную способность Ivy унифицировать разработку машинного обучения во всех фреймворках. Мы начнём с написания полностью независимой от фреймворков нейронной сети, которая без проблем работает на NumPy, PyTorch, TensorFlow и JAX. Затем мы углубимся в транспирацию кода, унифицированные API и расширенные возможности, такие как Ivy Containers и … Читать далее