Crome: система от Google DeepMind для надёжного моделирования вознаграждений в согласовании больших языковых моделей

Модели вознаграждений — фундаментальные компоненты для согласования больших языковых моделей (LLM) с обратной связью от человека. Однако они сталкиваются с проблемой манипулирования вознаграждением (reward hacking). Эти модели фокусируются на поверхностных атрибутах, таких как длина ответа или форматирование, вместо выявления истинных показателей качества, таких как достоверность и релевантность. Проблема возникает из-за того, что стандартные цели обучения … Читать далее

Якоря мысли: фреймворк машинного обучения для точной идентификации и измерения ключевых шагов рассуждений в больших языковых моделях

Понимание ограничений существующих инструментов интерпретируемости в больших языковых моделях (LLM) Модели искусственного интеллекта (ИИ), такие как DeepSeek и варианты GPT, используют миллиарды параметров для решения сложных задач, связанных с рассуждениями. Несмотря на их возможности, одной из основных проблем является понимание того, какие части их рассуждений оказывают наибольшее влияние на конечный результат. Это особенно важно для … Читать далее

DeepSeek R1T2 Chimera: в 2 раза быстрее R1-0528, с улучшенной логикой и компактным выводом

TNG Technology Consulting представила DeepSeek-TNG R1T2 Chimera — новую модель Assembly-of-Experts (AoE), сочетающую интеллект и скорость благодаря инновационной стратегии объединения моделей. Assembly-of-Experts: эффективная композиция моделей в масштабе Традиционное обучение и тонкая настройка больших языковых моделей (LLM) требуют огромных вычислительных ресурсов. TNG решает эту проблему с помощью подхода Assembly-of-Experts (AoE), объединяя крупномасштабные модели Mixture-of-Experts (MoE) на … Читать далее

Создание AI-агента на базе BioCypher для генерации и запросов в графах биомедицинских знаний

В этом руководстве мы реализуем AI-агента BioCypher — мощный инструмент для построения, запросов и анализа графов биомедицинских знаний с использованием платформы BioCypher. Сочетая возможности BioCypher — высокопроизводительного интерфейса на основе схем для интеграции биологических данных — с гибкостью NetworkX, это руководство позволяет пользователям моделировать сложные биологические взаимосвязи, такие как ассоциации генов и заболеваний, взаимодействия лекарств … Читать далее

Together AI выпускает DeepSWE: полностью открытый агент для кодирования, обученный с помощью RL, на основе Qwen3-32B, достигший 59% в SWEBench

Компания Together AI выпустила DeepSWE — передового программного инженерного агента с полностью открытым исходным кодом, обученного исключительно с помощью метода обучения с подкреплением (RL). Агент создан на основе языковой модели Qwen3-32B и достигает 59% точности в бенчмарке SWEBench-Verified и 42,2% Pass@1, занимая первое место среди моделей с открытым весом. Этот запуск знаменует собой значительный сдвиг … Читать далее

Исследователи из Шанхайского Jiao Tong предложили OctoThinker для масштабируемого развития больших языковых моделей в области обучения с подкреплением

Введение: прогресс в обучении с подкреплением через цепочку мыслей (CoT prompting) Большие языковые модели (LLMs) продемонстрировали значительный прогресс в решении сложных задач благодаря использованию CoT prompting в сочетании с крупномасштабным обучением с подкреплением (RL). Модели, такие как Deepseek-R1-Zero, показали сильные способности к рассуждению, применяя RL непосредственно к базовым моделям. Аналогично методы, такие как SimpleRL и … Читать далее

ReasonFlux-PRM: модель вознаграждения, учитывающая траекторию и улучшающая рассуждение в цепочке мыслей в больших языковых моделях

Понимание роли цепочки мыслей в больших языковых моделях Большие языковые модели (LLMs) всё чаще используются для решения сложных задач, таких как математика и научное рассуждение, с помощью структурированных подходов «цепочки мыслей». Эти модели не просто выдают ответы — они рассуждают через промежуточные шаги, которые имитируют логические мыслительные процессы. Этот метод позволяет повысить точность рассуждений и … Читать далее

Парадокс искусственного интеллекта и энергетики

Стремительный рост вычислительных центров, работающих на базе искусственного интеллекта (ИИ), создаёт беспрецедентный всплех спроса на электроэнергию, который угрожает перегрузить электросети и сорвать достижение климатических целей. В то же время технологии искусственного интеллекта могут революционизировать энергетические системы, ускоряя переход к чистой энергетике. Уильям Х. Грин, директор MIT Energy Initiative (MITEI) и профессор химического машиностроения Массачусетского технологического … Читать далее

Исследователи Baidu предлагают парадигму поиска на основе ИИ: мультиагентная система для более интеллектуального поиска информации

Необходимость когнитивных и адаптивных поисковых систем Современные поисковые системы быстро развиваются, поскольку растёт спрос на контекстно-зависимый и адаптивный поиск информации. С увеличением объёма и сложности пользовательских запросов, особенно тех, которые требуют многоуровневого анализа, системы больше не ограничиваются простым сопоставлением ключевых слов или ранжированием документов. Вместо этого они стремятся имитировать когнитивное поведение, которое демонстрируют люди при … Читать далее

Персонализированные агенты без необходимости написания кода, работающие на базе GPT-4.1 и Realtime API.

Узнайте, как компания Genspark создала продукт в сфере искусственного интеллекта с ежемесячной выручкой в 36 миллионов долларов за 45 дней — используя агентов без необходимости написания кода, работающих на базе GPT-4.1 и OpenAI Realtime API. 1. Какие технологии лежат в основе продукта компании Genspark? * В основе продукта компании Genspark лежат персонализированные агенты, работающие на … Читать далее

Baidu открывает исходный код ERNIE 4.5: серия LLM с масштабированием от 0,3 млрд до 424 млрд параметров

Компания Baidu официально открыла исходный код своей новейшей серии ERNIE 4.5 — мощного семейства базовых моделей, разработанных для улучшения понимания языка, рассуждений и генерации текста. Основные характеристики: * В релиз включены десять вариантов моделей — от компактных плотных моделей 0,3 млрд параметров до массивных архитектур Mixture-of-Experts (MoE) с общим количеством параметров до 424 млрд.* Модели … Читать далее

OMEGA: структурированный математический бенчмарк для исследования пределов рассуждений больших языковых моделей

Введение в обобщение в математических рассуждениях Крупномасштабные языковые модели с длинными цепочками рассуждений (CoT), такие как DeepSeek-R1, показали хорошие результаты в решении математических задач олимпиадного уровня. Однако модели, обученные с помощью контролируемой точной настройки (Supervised Fine-Tuning) или обучения с подкреплением (Reinforcement Learning), зависят от ограниченных методов, таких как повторение известных правил алгебры или использование координатной … Читать далее

Создание продвинутых мультиагентных рабочих процессов ИИ с помощью AutoGen и Semantic Kernel

В этом руководстве мы покажем вам, как легко интегрировать AutoGen и Semantic Kernel с моделью Google Gemini Flash. Шаг 1: настройка GeminiWrapper и SemanticKernelGeminiPlugin Мы начинаем с настройки классов GeminiWrapper и SemanticKernelGeminiPlugin, чтобы связать генеративные возможности Gemini с мультиагентной оркестрацией AutoGen. Шаг 2: настройка специализированных агентов Затем мы настраиваем специализированных агентов, от рецензентов кода до … Читать далее

TabArena: сравнительный анализ табличного машинного обучения с воспроизводимостью и ансамблированием в масштабе

Понимание важности сравнительного анализа в табличном ML Машинное обучение на табличных данных сосредоточено на создании моделей, которые выявляют закономерности в структурированных наборах данных, обычно состоящих из строк и столбцов, подобных тем, что встречаются в электронных таблицах. Эти наборы данных используются в различных отраслях, от здравоохранения до финансов, где точность и интерпретируемость имеют решающее значение. Для … Читать далее

LongWriter-Zero: система подкрепляющего обучения для генерации сверхдлинных текстов без использования синтетических данных

Введение в задачи генерации сверхдлинных текстов Создание сверхдлинных текстов, насчитывающих тысячи слов, становится всё более актуальным для решения реальных задач, таких как написание рассказов, юридических текстов и образовательных материалов. Однако большие языковые модели всё ещё сталкиваются с серьёзными проблемами, включая ограничения по длине и качество вывода, особенно при увеличении объёма текста. Распространённые проблемы включают:* несогласованность;* … Читать далее

Ускорение научных открытий с помощью ИИ

Несколько исследователей, рассмотрев прогресс в науке за последние 50 лет, пришли к тревожному выводу: научная продуктивность снижается. Для совершения открытий, которые раньше делались быстрее и дешевле, теперь требуется больше времени, финансирования и работы больших коллективов. Одним из объяснений замедления является то, что по мере усложнения и специализации исследований учёные тратят всё больше времени на просмотр … Читать далее

ИИ в Австралии — экономический план OpenAI

Сегодня компания OpenAI в партнёрстве с Mandala Partners представляет экономический план OpenAI для Австралии. В период, когда повышение производительности стало национальным приоритетом для Австралии, план предлагает чёткий и реализуемый путь к раскрытию полного экономического и социального потенциала искусственного интеллекта. #OpenAI #экономический_план #Австралия 1. Какова цель экономического плана OpenAI для Австралии? Ответ: цель экономического плана OpenAI … Читать далее

MDM-Prime: обобщённая структура Masked Diffusion Models (MDMs), которая позволяет частично нескрытые токены во время выборки

Введение в MDMs и их неэффективность Masked Diffusion Models (MDMs) — это мощные инструменты для генерации дискретных данных, таких как текст или символьные последовательности, путём постепенного раскрытия токенов. На каждом шаге токены либо маскируются, либо раскрываются. Однако было замечено, что многие шаги в обратном процессе не изменяют последовательность, что приводит к повторной обработке идентичных входных … Читать далее

DSRL: подход к обучению с подкреплением в латентном пространстве для адаптации стратегий диффузии в робототехнике реального мира

Введение в робототехнику, основанную на обучении Системы управления роботами значительно продвинулись вперёд благодаря методам, которые заменяют инструкции, написанные вручную, обучением на основе данных. Вместо того чтобы полагаться на явное программирование, современные роботы учатся, наблюдая за действиями и подражая им. Эта форма обучения, часто основанная на поведенческом клонировании, позволяет роботам эффективно функционировать в структурированных средах. Однако … Читать далее

Исследователи из Мичиганского университета предложили G-ACT: масштабируемую систему машинного обучения для управления предвзятостью языков программирования в больших языковых моделях

Необходимость контроля научного кода в больших языковых моделях (LLMs) Большие языковые модели (LLMs) быстро превратились в сложные процессоры естественного языка, что позволило разработать агентские системы для управления сложными рабочими процессами. Однако использование агентов LLM для генерации научного кода пока не изучено. Научный софт в основном зависит от C++, CUDA и других низкоуровневых языков, которые недостаточно … Читать далее

Руководство по программированию для создания функционального рабочего процесса анализа данных с помощью Lilac для преобразования, фильтрации и экспорта структурированных инсайтов

В этом руководстве мы демонстрируем полностью функциональный и модульный рабочий процесс анализа данных, используя библиотеку Lilac, не полагаясь на обработку сигналов. Оно сочетает возможности управления наборами данных Lilac с парадигмой функционального программирования Python для создания чистого, расширяемого рабочего процесса. Установка необходимых библиотек Для начала установим необходимые библиотеки с помощью команды `!pip install lilac[all] pandas numpy`. … Читать далее

Исследователи из Университета Калифорнии в Сан-Диего представили Dex1B: датасет для манипулирования руками в робототехнике размером в миллиард элементов

Проблемы сбора данных для манипулирования руками Создание масштабных данных для манипулирования руками остаётся серьёзной задачей в робототехнике. Хотя руки предлагают большую гибкость и более широкие возможности манипулирования по сравнению с более простыми инструментами, такими как захваты, их сложность затрудняет эффективное управление. Многие специалисты задаются вопросом, стоят ли манипуляционные руки дополнительных сложностей. Однако проблема может заключаться … Читать далее

Создание индивидуальных инструментов искусственного интеллекта для ваших AI-агентов, сочетающих машинное обучение и статистический анализ

Возможность создания индивидуальных инструментов имеет решающее значение для разработки настраиваемых AI-агентов. В этом руководстве мы покажем, как создать мощный и интеллектуальный инструмент для анализа данных на Python, который можно интегрировать в AI-агентов на базе LangChain. Установка необходимых пакетов Для начала установим необходимые пакеты Python для анализа данных, визуализации, машинного обучения и разработки инструментов LangChain: `!pip … Читать далее

DeepRare: первая диагностическая система на основе искусственного интеллекта, преобразующая процесс принятия клинических решений при лечении редких заболеваний

Редкие заболевания затрагивают около 400 миллионов человек по всему миру, включая более 7 тысяч отдельных расстройств, большинство из которых (около 80%) имеют генетическую природу. Несмотря на их распространённость, диагностика редких заболеваний чрезвычайно сложна. Пациенты уже сталкиваются с длительными процессами диагностики, которые в среднем занимают более пяти лет, часто приводя к последовательным ошибочным диагнозам и инвазивным … Читать далее

Tencent открывает исходный код Hunyuan-A13B: модель MoE с 13 миллиардами активных параметров, двойным режимом рассуждений и контекстом в 256 тысяч

Команда Hunyuan от Tencent представила Hunyuan-A13B — новую большую языковую модель с открытым исходным кодом, построенную на разрежённой архитектуре Mixture-of-Experts (MoE). Основные характеристики модели Параметры: модель состоит из 80 миллиардов параметров, но во время логического вывода активны только 13 миллиардов. Архитектура: Hunyuan-A13B использует 1 общего эксперта и 64 независимых эксперта, при этом во время прямого … Читать далее

Начало работы с Gemini Command Line Interface (CLI)

Google недавно выпустила Gemini CLI — мощный инструмент командной строки, предназначенный для оптимизации рабочих процессов разработчиков с помощью искусственного интеллекта. Независимо от того, работаете ли вы с огромными базами кода, автоматизируете рутинные задачи или создаёте новые приложения по эскизам и PDF-файлам, Gemini CLI предоставляет мультимодальный интеллект прямо в вашем терминале. С помощью Gemini CLI вы … Читать далее

Команда Alibaba Qwen выпустила Qwen-VLo: унифицированная модель для понимания и генерации мультимодальных данных

Команда Alibaba Qwen представила Qwen-VLo — новое дополнение к семейству моделей Qwen. Эта модель объединяет возможности понимания и генерации мультимодальных данных в рамках единой системы. Qwen-VLo позиционируется как мощный инструмент для творчества, позволяющий пользователям создавать, редактировать и совершенствовать высококачественный визуальный контент на основе текста, эскизов и команд — на разных языках и посредством пошагового построения … Читать далее

Начало работы с MLflow для оценки больших языковых моделей

MLflow — это мощная платформа с открытым исходным кодом для управления жизненным циклом машинного обучения. Традиционно её используют для отслеживания экспериментов с моделями, регистрации параметров и управления развёртыванием. Недавно MLflow внедрила поддержку для оценки больших языковых моделей (LLM). В этом руководстве мы рассмотрим, как использовать MLflow для оценки производительности LLM (в нашем случае — модели … Читать далее

Unbabel представляет TOWER+: унифицированная система для высококачественного перевода и выполнения инструкций в многоязычных больших языковых моделях

Большие языковые модели (LLMs) способствуют прогрессу в машинном переводе, используя огромные обучающие корпуса для перевода десятков языков и диалектов, улавливая при этом тонкие лингвистические нюансы. Однако настройка этих моделей для повышения точности перевода часто ухудшает их способность следовать инструкциям и вести диалог, а универсальные версии с трудом соответствуют профессиональным стандартам точности. Текущие подходы к настройке … Читать далее

MIT и Mass General Brigham запускают совместную программу для ускорения инноваций в здравоохранении

Массачусетский технологический институт (MIT) и Mass General Brigham (MGB) объявили о запуске совместной программы MIT-MGB Seed Program. Эта инициатива, поддержанная компанией Analog Devices Inc. (ADI), будет финансировать совместные исследовательские проекты под руководством учёных из MIT и Mass General Brigham. Цели программы Совместные проекты продвинут исследования в области здоровья человека с целью разработки терапий, диагностических инструментов … Читать далее