Polaris-4B и Polaris-7B: дообучение с подкреплением для эффективного решения математических и логических задач

Растущая потребность в масштабируемых моделях рассуждений в машинном интеллекте Современные модели рассуждений находятся на переднем крае машинного интеллекта, особенно в таких областях, как решение математических задач и символические рассуждения. Эти модели предназначены для выполнения многошаговых вычислений и логических выводов, часто генерируя решения, которые отражают процессы человеческого мышления. Для повышения точности после предварительного обучения используются методы … Читать далее

GURU: система подкрепляющего обучения, объединяющая возможности рассуждений LLM в шести областях

Ограничения подкрепляющего обучения в узких областях рассуждений Подкрепляющее обучение (RL) продемонстрировало большой потенциал для улучшения способностей LLM к рассуждению, особенно в ведущих системах, таких как OpenAI-O3 и DeepSeek-R1. Однако большинство исследований RL сосредоточено на математике и коде, что ограничивает его общую применимость. Этот узкий охват создаёт две проблемы:* наше понимание того, как RL улучшает рассуждение, … Читать далее

Создание мощного многофункционального ИИ-агента с помощью Nebius, Llama 3 и инструментов для рассуждений в реальном времени

В этом руководстве мы представляем продвинутого ИИ-агента, созданного с использованием надёжной экосистемы Nebius, особенно компонентов ChatNebius, NebiusEmbeddings и NebiusRetriever. Агент использует модель Llama-3.3-70B-Instruct-fast для генерации высококачественных ответов, включая внешние функции, такие как поиск в Википедии, контекстуальный поиск документов и безопасные математические вычисления. Установка необходимых библиотек Для начала установим основные библиотеки, включая langchain-nebius, langchain-core, langchain-community и … Читать далее

Google выпускает компактную мультимодальную модель Gemma 3n для периферийных устройств

Компания Google представила Gemma 3n — новую модель в семействе открытых моделей, которая призвана обеспечить широкие возможности искусственного интеллекта на периферийных устройствах. Модель разработана с учётом особенностей мобильных устройств и может обрабатывать текст, изображения, аудио и видео на устройстве, не полагаясь на облачные вычисления. Такая архитектура представляет собой значительный шаг вперёд в области обеспечения конфиденциальности … Читать далее

Inception Labs представляет Mercury: языковая модель на основе диффузии для сверхбыстрой генерации кода

Генеративный искусственный интеллект и его задачи в авторегрессионной генерации кода Область генеративного искусственного интеллекта существенно повлияла на разработку программного обеспечения, автоматизировав различные задачи кодирования — от простых автозавершений до сложных программных решений. Однако традиционные языковые модели преимущественно используют авторегрессивные методы, предсказывая по одному токену за раз, что приводит к внутренним узким местам и проблемам с … Читать далее

Адаптивная автоматизация голосовых агентов без использования кода с помощью GPT-4o.

Retell AI меняет сферу call-центров с помощью голосовой автоматизации на базе искусственного интеллекта, в основе которой лежат модели GPT-4o и GPT-4.1. Их платформа без использования кода позволяет компаниям запускать естественных голосовых агентов, работающих в режиме реального времени. Это снижает расходы на звонки, повышает уровень удовлетворённости клиентов (CSAT) и автоматизирует общение с клиентами — без скриптов … Читать далее

Google DeepMind представляет AlphaGenome: модель глубокого обучения для комплексного прогнозирования влияния отдельных вариантов или мутаций в ДНК

Единая модель глубокого обучения для понимания генома Google DeepMind представила AlphaGenome — новую систему глубокого обучения, предназначенную для прогнозирования регуляторных последствий вариаций последовательностей ДНК в широком спектре биологических модальностей. AlphaGenome отличается тем, что принимает длинные последовательности ДНК — до 1 мегабазы — и выдаёт прогнозы с высоким разрешением, такие как события сплайсинга на уровне оснований, … Читать далее

Исследователи MIT и NUS представили MEM1: эффективную по памяти систему для языковых агентов с длительным горизонтом планирования

Современные языковые агенты должны уметь вести многоэтапные диалоги, извлекая и обновляя информацию по мере развития задач. Однако большинство существующих систем просто добавляют все прошлые взаимодействия к запросу, независимо от их релевантности. Это приводит к нерациональному использованию памяти, снижению производительности и ухудшению рассуждений при обработке более длинных входных данных, которые не были видны во время обучения. … Читать далее

Google выпускает Gemini CLI: агент с открытым исходным кодом для командной строки

Google представила Gemini CLI — агент с открытым исходным кодом для командной строки, который интегрирует модель Gemini 2.5 Pro непосредственно в терминал. Особенности Gemini CLI: * Интеграция с моделью Gemini 2.5 Pro: разработчики могут бесплатно получить доступ к модели, используя личную учётную запись Google.* Поддержка сценариев: Gemini CLI поддерживает написание сценариев, взаимодействие на основе подсказок … Читать далее

Новое исследование в области ИИ раскрывает риски конфиденциальности в следах рассуждений больших языковых моделей

Введение: персональные агенты на базе LLM и риски конфиденциальности Большие языковые модели (LLM) используются в качестве персональных помощников, получая доступ к конфиденциальным данным пользователей через персональных агентов LLM. Это вызывает опасения относительно понимания контекстуальной конфиденциальности и способности этих агентов определять, когда уместно делиться конкретной информацией пользователя. Большие модели рассуждений (LRM) представляют сложности, поскольку работают через … Читать далее

Исследователи из ETH и Стэнфорда представили MIRIAD: набор данных из 5,8 млн пар для повышения точности LLM в медицинском ИИ

Проблемы больших языковых моделей в принятии медицинских решений: борьба с галлюцинациями через поиск знаний Большие языковые модели (LLM) призваны революционизировать здравоохранение благодаря интеллектуальной поддержке принятия решений и адаптивным чат-ассистентам. Однако их склонность к выдаче фактических медицинских ошибок является серьёзной проблемой. Одним из распространённых решений является RAG (Retrieval-Augmented Generation), где внешние медицинские знания разбиваются на более … Читать далее

Слияние искусственного интеллекта и подводной фотографии для раскрытия скрытых миров океана

В северо-восточной части Соединённых Штатов, в заливе Мэн, расположена одна из самых биологически разнообразных морских экосистем на планете — дом для китов, акул, медуз, сельди, планктона и сотен других видов. Но даже при таком богатстве биоразнообразия эта экосистема претерпевает быстрые изменения окружающей среды. Залив Мэн нагревается быстрее, чем 99 процентов океанов мира, и последствия этого … Читать далее

Создание компактного AI-помощника для кодирования с помощью Mistral Devstral

В этом руководстве мы рассмотрим, как создать лёгкого помощника для кодирования с помощью модели Mistral Devstral в условиях ограниченного дискового пространства. Запуск больших языковых моделей, таких как Mistral, может быть сложной задачей в средах с ограниченным объёмом памяти и дискового пространства. Однако это руководство покажет, как развернуть мощную модель devstral-small. Установка необходимых пакетов Для начала … Читать далее

Google DeepMind выпускает локальную модель искусственного интеллекта Gemini Robotics On-Device для роботизированной ловкости в реальном времени

Google DeepMind представила Gemini Robotics On-Device — компактную локальную версию своей мощной модели Vision-Language-Action (VLA), которая привносит передовой роботизированный интеллект непосредственно на устройства. Это ключевой шаг вперёд в области воплощённого искусственного интеллекта, поскольку устраняет необходимость в постоянном подключении к облаку, сохраняя при этом гибкость, универсальность и высокую точность, присущие семейству моделей Gemini. Локальный искусственный интеллект … Читать далее

Исследователи ByteDance представляют Seed-Coder: модель для работы с кодом на основе LLM, обученную на 6 триллионах токенов

Переосмысление обучения Code LLM с помощью масштабируемых автоматизированных конвейеров данных Данные о коде играют ключевую роль в обучении LLM, помогая не только в задачах кодирования, но и в более широких логических способностях. Хотя многие модели с открытым исходным кодом полагаются на ручную фильтрацию и специально разработанные экспертами правила для отбора наборов данных по коду, эти … Читать далее

Исследователи ByteDance представили VGR: новую мультимодальную большую языковую модель (MLLM) с улучшенным восприятием визуальных деталей

Почему мультимодальное рассуждение важно для задач, связанных со зрением и языком Мультимодальное рассуждение позволяет моделям принимать обоснованные решения и отвечать на вопросы, объединяя визуальную и текстовую информацию. Этот тип рассуждений играет центральную роль в интерпретации диаграмм, ответах на вопросы, основанные на изображениях, и понимании сложных визуальных документов. Цель — научить машины использовать зрение так же, … Читать далее

Реализация кодирования для создания, аннотирования и визуализации сложных графов биологических знаний с помощью PyBEL

В этом руководстве мы рассмотрим, как использовать экосистему PyBEL для построения и анализа сложных графов биологических знаний непосредственно в Google Colab. Шаг 1: установка необходимых пакетов Сначала мы устанавливаем все необходимые пакеты, включая PyBEL, NetworkX, Matplotlib, Seaborn и Pandas. “`python!pip install pybel pybel-tools networkx matplotlib seaborn pandas -q“` Затем мы импортируем основные модули и подавляем … Читать далее

BAAI представляет OmniGen2: унифицированная модель диффузии и трансформера для мультимодального ИИ

Beijing Academy of Artificial Intelligence (BAAI) представляет OmniGen2 — мультимодальную генеративную модель нового поколения с открытым исходным кодом. Новая архитектура расширяет возможности предшественника OmniGen и объединяет в рамках единой трансформерной структуры генерацию текста в изображение, редактирование изображений и генерацию по тематике. Декапсулированная мультимодальная архитектура В отличие от предыдущих моделей, которые используют общие параметры для текста … Читать далее

Исследователи ByteDance представляют ProtoReasoning: улучшение обобщения больших языковых моделей с помощью логических прототипов

Почему междоменное рассуждение важно для больших языковых моделей (LLM) Недавние прорывы в LRM, особенно тех, что обучены с использованием техник Long CoT, показывают, что они могут впечатляюще обобщаться в разных областях. Интересно, что модели, обученные на таких задачах, как математика или кодирование, часто показывают хорошие результаты в несвязанных областях, таких как логические головоломки или творческое … Читать далее

Новая разработка из Китайской академии наук: Stream-Omni, большая языковая модель для кросс-модального искусственного интеллекта в реальном времени

Понимание ограничений современных омнимодальных архитектур Большие мультимодальные модели (LMM) демонстрируют выдающиеся возможности в работе с текстом, изображениями и речью, открывая широкие перспективы для различных приложений. Хотя модели, ориентированные на обработку изображений, добились успеха, омнимодальные LMM, поддерживающие речевое взаимодействие на основе визуальной информации, сталкиваются с проблемами из-за существенных различий в представлении данных между модальностями. Недавние омнимодальные … Читать далее

Масштабирование роста с помощью OpenAI o3, GPT-4.1 и CUA

Платформа Unify, основанная на искусственном интеллекте, использует технологии OpenAI o3, GPT-4.1 и CUA для автоматизации поиска потенциальных клиентов, исследований и взаимодействия с ними. Благодаря гиперперсонализированным сообщениям и непрерывному рабочему процессу Unify помогает командам увеличивать объёмы при одновременном сосредоточении на наиболее эффективном взаимодействии с клиентами. #GPT-4.1 #OpenAI #CUA 1. Какие технологии лежат в основе платформы Unify … Читать далее

Начало работы с Microsoft Presidio: пошаговое руководство по обнаружению и анонимизации персональных данных в тексте

В этом руководстве мы рассмотрим, как использовать Microsoft Presidio — фреймворк с открытым исходным кодом, предназначенный для обнаружения, анализа и анонимизации персональных данных (ПД) в тексте свободной формы. Presidio, основанный на эффективной библиотеке NLP spaCy, отличается лёгкостью и модульностью, что упрощает его интеграцию в приложения и конвейеры реального времени. Что мы рассмотрим: * настройку и … Читать далее

Создание инструмента проверки обоснованности с помощью Upstage API и LangChain

Сервис Upstage’s Groundedness Check предоставляет мощный API для проверки того, что ответы, сгенерированные искусственным интеллектом, основаны на надёжных исходных материалах. Отправка пар «контекст-ответ» в конечную точку Upstage позволяет мгновенно определить, поддерживает ли предоставленный контекст данный ответ, и получить оценку достоверности этого обоснования. В этом руководстве мы покажем, как использовать основные возможности Upstage, включая однократную проверку, … Читать далее

Moonshot AI представляет Kimi-Researcher: агента, обученного с помощью RL для решения сложных задач и поиска в интернете

Задача: масштабирование автономных агентов с помощью RL Автономные агенты искусственного интеллекта (ИИ) находятся на переднем крае применения вычислительных возможностей для решения различных задач в реальном мире. Обучение с подкреплением (RL) — ключевой подход в создании агентов. Оно помогает вычислительным агентам учиться, многократно взаимодействуя с окружающей средой, тем самым улучшая свои процессы принятия решений с помощью … Читать далее

Исследователи из Карнеги-Меллон представляют Go-Browse: графическую систему для масштабируемого обучения веб-агентов

Почему веб-агенты испытывают трудности с динамическими веб-интерфейсами Веб-агенты, предназначенные для работы в веб-среде, автоматизируют такие задачи, как навигация по страницам, нажатие кнопок или отправка форм. Они интерпретируют данные браузера и имитируют взаимодействие с пользователем для выполнения заданных задач. Успех в этой области требует точного понимания динамического контента и способности адаптироваться к различным веб-интерфейсам, которые постоянно … Читать далее

Руководство по созданию асинхронного Python SDK, готового к использованию в продакшене, с ограничением частоты запросов, кэшированием в памяти и аутентификацией

В этом руководстве мы покажем, как создать надёжный Python SDK, готовый к использованию в продакшене. Мы начнём с установки и настройки основных асинхронных HTTP-библиотек (aiohttp, nest-asyncio). Затем мы рассмотрим реализацию основных компонентов, включая структурированные объекты ответа, ограничение частоты запросов с помощью токенов, кэширование в памяти с TTL и чистый дизайн, основанный на dataclass. Мы увидим, … Читать далее

Sakana AI представляет учителей, обученных с помощью подкрепления (RLTs): эффективное упрощение рассуждений в языковых моделях с использованием маломасштабного обучения с подкреплением

Sakana AI представляет инновационную систему для языковых моделей (LLMs) с акцентом на эффективности и возможности повторного использования: учителей, обученных с помощью подкрепления (RLTs). Традиционные подходы к обучению с подкреплением (RL) в LLMs страдают от редких сигналов вознаграждения и непомерно высоких вычислительных требований. В отличие от них, RLTs переопределяют парадигму «учитель-ученик», обучая меньшие модели действовать как … Читать далее

Новая ИИ-система оценивает, где ИИ должен автоматизировать, а где — дополнить выполнение рабочих задач, говорится в исследовании Стэнфордского университета

Переосмысление выполнения задач с помощью ИИ-агентов ИИ-агенты меняют подход к выполнению задач, предлагая инструменты для решения сложных задач, направленных на достижение цели. В отличие от статических алгоритмов, эти агенты сочетают многоэтапное планирование с программными инструментами для управления целыми рабочими процессами в различных секторах, включая образование, юриспруденцию, финансы и логистику. Их интеграция больше не является теоретической … Читать далее

Языки с большим объёмом данных учитывают постороннюю информацию при рекомендации методов лечения

Большие языковые модели (БЯМ), используемые для выдачи рекомендаций по лечению, могут принимать во внимание неклиническую информацию в сообщениях пациентов, такую как опечатки, лишние пробелы, отсутствие маркеров пола или использование неопределённого, драматического и неформального языка. Это было обнаружено в исследовании, проведённом исследователями MIT. Они выяснили, что внесение стилистических или грамматических изменений в сообщения увеличивает вероятность того, … Читать далее

Защита от внедрения запросов (Prompt Injection) с помощью структурированных запросов (StruQ) и оптимизации предпочтений (SecAlign)

Введение Недавние достижения в области больших языковых моделей (LLM) открывают новые возможности для приложений, интегрированных с LLM. Однако по мере улучшения LLM растут и атаки на них. Одной из основных угроз для приложений, интегрированных с LLM, является атака внедрения запросов (Prompt Injection), при которой входные данные LLM содержат доверенную подсказку (инструкцию) и недоверенные данные. Данные … Читать далее