От точной настройки к разработке промтов: теория и практика эффективной адаптации трансформеров

Проблема точной настройки больших моделей трансформеров Механизм самовнимания позволяет моделям трансформеров улавливать долгосрочные зависимости в тексте, что имеет решающее значение для понимания сложных языковых закономерностей. Эти модели эффективно работают с огромными массивами данных и демонстрируют выдающиеся результаты без необходимости создания структур, специфичных для конкретной задачи. В результате они находят широкое применение в различных отраслях, включая … Читать далее

Сочетание технологий, образования и человеческих связей для улучшения онлайн-обучения

Кэйтлин Моррис — научный сотрудник MIT Morningside Academy for Design (MAD). Она архитектор, художник, исследователь и педагог, изучала психологию и использовала онлайн-инструменты для самостоятельного изучения программирования и других навыков. Кэйтлин — наблюдательная и тихая по натуре, с глубоким интересом к тому, как люди используют пространство и реагируют на окружающую среду. Она работает на стыке технологий, … Читать далее

Преодоление предвзятости больших языковых моделей

Исследования показали, что большие языковые модели (БЯМ) склонны уделять повышенное внимание информации в начале и конце документа или разговора, игнорируя середину. Это явление получило название «позиционная предвзятость». Суть проблемы Если юрист использует виртуального помощника на базе БЯМ для поиска определённой фразы в показаниях на 30 страницах, модель с большей вероятностью найдёт нужный текст, если он … Читать далее

Использование Python-A2A для создания и подключения финансовых агентов с помощью протокола Google Agent-to-Agent (A2A)

Python A2A — это реализация протокола Google Agent-to-Agent (A2A), который позволяет агентам искусственного интеллекта взаимодействовать друг с другом, используя общий стандартизированный формат. Это устраняет необходимость в индивидуальной интеграции между сервисами. В этом руководстве мы будем использовать подход, основанный на декораторах, который предоставляет библиотека python-a2a. С помощью простых декораторов @agent и @skill вы можете определить личность … Читать далее

Исследователи из Федеральной политехнической школы Лозанны (EPFL) представили MEMOIR: масштабируемый фреймворк для непрерывного редактирования моделей в LLM

Проблема обновления знаний в LLM Большие языковые модели (LLM) демонстрируют выдающиеся результаты в различных задачах благодаря обширному предварительному обучению на больших наборах данных. Однако эти модели часто генерируют устаревшую или неточную информацию и могут отражать предвзятость при использовании, поэтому их знания необходимо постоянно обновлять. Традиционные методы точной настройки дороги и подвержены катастрофическому забыванию. Это стало … Читать далее

Представляем OpenAI для правительства

Мы запускаем инициативу OpenAI для правительства — новый проект, направленный на то, чтобы предоставить государственным служащим по всей территории Соединённых Штатов наши самые передовые инструменты искусственного интеллекта. Мы поддерживаем усилия правительства США по внедрению лучших в своём классе технологий и использованию этих инструментов на благо общества. Источник

Празднование сотрудничества между академическим сообществом и промышленностью в области автомобильных технологий

6 мая консорциум MIT AgeLab по передовым автомобильным технологиям (AVT), входящий в Центр транспорта и логистики Массачусетского технологического института, отметил 10 лет с начала глобального сотрудничества между академическими кругами и промышленностью. Консорциум AVT был основан с целью сбора новых данных, которые помогут производителям автомобилей, поставщикам и страховщикам лучше понять, как водители используют всё более сложные … Читать далее

OpenBMB выпускает MiniCPM4: сверхэффективные языковые модели для периферийных устройств со sparse-вниманием и быстрым выводом

Необходимость в эффективных языковых моделях для устройств Крупные языковые модели стали неотъемлемой частью систем искусственного интеллекта, позволяя выполнять такие задачи, как многоязычный перевод, виртуальная помощь и автоматизированное рассуждение на основе архитектур трансформеров. Несмотря на их высокие возможности, эти модели обычно большие, требуют мощной облачной инфраструктуры для обучения и вывода. Такая зависимость приводит к задержкам, высоким … Читать далее

StepFun представляет Step-Audio-AQAA: полностью интегрированную аудиоязыковую модель для естественного голосового взаимодействия

Переосмысление аудиовзамодействия человека и машины Системы, способные реагировать на человеческую речь с помощью столь же выразительного и естественного аудио, стали основной целью в разработке интеллектуальных систем взаимодействия. Моделирование аудиоязыка расширяет эту концепцию, объединяя распознавание речи, понимание естественного языка и генерацию аудио. Вместо того чтобы полагаться на текстовые преобразования, модели в этой области стремятся понимать и … Читать далее

Исследователи из EPFL представили FG2 на конференции CVPR: новая модель ИИ сокращает ошибки локализации на 28% для автономных транспортных средств в условиях отсутствия GPS

Передвижение по густонаселённым городским каньонам, таким как Сан-Франциско или Нью-Йорк, может стать кошмаром для GPS-систем. Высокие небоскрёбы блокируют и отражают спутниковые сигналы, что приводит к ошибкам определения местоположения на десятки метров. Для нас с вами это может означать пропущенный поворот. Но для автономного транспортного средства или робота-курьера такой уровень неточности означает разницу между успешным выполнением … Читать далее

DeepCoder-14B: модель искусственного интеллекта с открытым исходным кодом, повышающая производительность и инновации разработчиков

Искусственный интеллект (ИИ) меняет подход к разработке программного обеспечения. Генераторы кода на базе ИИ стали важными инструментами, которые помогают разработчикам писать, отлаживать и дорабатывать код более эффективно. Среди этих новых интеллектуальных помощников DeepCoder-14B привлекает внимание не только своими техническими возможностями, но и тем, что имеет открытый исходный код. В отличие от многих популярных моделей ИИ, … Читать далее

OThink-R1: фреймворк для рассуждений в двух режимах, позволяющий сократить избыточные вычисления в больших языковых моделях

Неэффективность статического подхода «цепочка мыслей» в больших языковых моделях (LRM) Недавние достижения LRM обусловлены использованием детального подхода «цепочка мыслей» (CoT) для решения сложных задач. Однако многие простые задачи можно решить с помощью более компактных моделей с меньшим количеством токенов, что делает такие сложные рассуждения ненужными. Это перекликается с человеческим мышлением, где мы используем быстрые, интуитивные … Читать далее

Создание приложений на базе искусственного интеллекта с использованием рабочего процесса «План → Файлы → Код» в TinyDev

В этом руководстве мы познакомим вас с реализацией класса TinyDev — минималистичным, но мощным инструментом для генерации кода на основе искусственного интеллекта, который использует Gemini API для преобразования простых идей приложений в комплексные структурированные приложения. TinyDev разработан так, чтобы без проблем работать в Notebook, и следует чёткому трёхэтапному рабочему процессу — План → Файлы → … Читать далее

Рекламный ролик, созданный с помощью ИИ Google Veo3, показан во время финала НБА, сократив производственные затраты на 95%

Одинокий режиссёр-ИИ, передовая генеративная видеомодель и рекламный ролик национального масштаба во время одного из крупнейших спортивных событий года. Это не сюжет научно-фантастического фильма — это новая реальность рекламы, созданная всего за 3 дня. TLDR: Впервые в мире: рекламный ролик для платформы ставок на события Kalshi был создан с помощью генеративной видеомодели Google Veo3 и показан … Читать далее

Microsoft представляет Code Researcher: агент глубокого исследования для работы с кодом крупных систем и историей коммитов

Рост автономных агентов кодирования в отладке системного программного обеспечения Использование искусственного интеллекта в разработке программного обеспечения стало более популярным с появлением больших языковых моделей (LLMs). Эти модели способны выполнять задачи, связанные с кодированием. Это привело к созданию автономных агентов кодирования, которые помогают или даже автоматизируют задачи, традиционно выполняемые разработчиками. Агенты варьируются от простых скриптов до … Читать далее

Максимизация внутренней согласованности (ICM): фреймворк для обучения языковых моделей без использования меток и без надзора

Методы постобучения предварительно обученных языковых моделей (LM) зависят от контроля со стороны человека через демонстрации или обратную связь по предпочтениям для определения желаемого поведения. Однако этот подход сталкивается с критическими ограничениями, поскольку задачи и поведение моделей становятся очень сложными. В таких сценариях человеческий контроль ненадёжен, поскольку LM учатся имитировать ошибки в демонстрациях или использовать недостатки … Читать далее

MemOS: операционная система, ориентированная на память, для развивающихся и адаптивных больших языковых моделей

Большие языковые модели (LLMs) всё чаще рассматриваются как ключ к достижению общего искусственного интеллекта (AGI), однако они сталкиваются с серьёзными ограничениями в управлении памятью. Большинство LLMs полагаются на фиксированные знания, хранящиеся в их весах, и краткосрочный контекст во время использования, что затрудняет сохранение и обновление информации с течением времени. Такие методы, как RAG, пытаются включить … Читать далее

Sakana AI представляет Text-to-LoRA (T2L): гиперсеть, генерирующую адаптеры LLM для конкретных задач на основе текстового описания задачи

Модели-трансформеры значительно повлияли на подход систем искусственного интеллекта к задачам в области понимания естественного языка, перевода и логического вывода. Эти крупномасштабные модели, особенно большие языковые модели (LLM), стали настолько большими и сложными, что охватывают широкие возможности в различных областях. Однако применение этих моделей для новых специализированных задач остаётся сложной операцией. Каждое новое приложение обычно требует … Читать далее

На конференции CVPR 2025 представлена работа Google DeepMind: технология «Motion Prompting» открывает новые возможности для управления видео

Основные выводы Исследователи из Google DeepMind, Мичиганского университета и Университета Брауна разработали технологию «Motion Prompting» — новый метод управления генерацией видео с помощью определённых траекторий движения. Как это работает Технология использует «моушн-промпты» — гибкое представление движения, которое может быть разреженным или плотным. Это позволяет направлять предварительно обученную модель диффузии видео. Ключевым нововведением является «расширение моушн-промптов», … Читать далее

Открытые мысли: масштабируемый механизм тонкой настройки под контролем для моделей рассуждений

Рост сложности работы с данными для рассуждений Недавние модели рассуждений, такие как DeepSeek-R1 и o3, показали выдающуюся производительность в математических, кодировочных и научных областях, используя методы пост-тренировки, такие как контролируемая тонкая настройка (SFT) и обучение с подкреплением (RL). Однако полные методологии, лежащие в основе этих передовых моделей рассуждений, не являются общедоступными, что затрудняет исследования по … Читать далее

Шесть новых функций в проектах ChatGPT, о которых нужно знать

ChatGPT Projects только что получили наиболее значительное обновление с момента запуска, и это существенно влияет на производительность. OpenAI модернизировала функцию проектов, добавив несколько важных инструментов, которые должны повысить вашу продуктивность при использовании чат-бота. Для тех, кто использует проекты для организации исследований, управления репозиториями кода или координации сложной творческой работы, эти шесть новых функций кардинально меняют … Читать далее

Хакоб Астабацян, соучредитель и генеральный директор Synthflow — серия интервью

Хакоб Астабацян, соучредитель и генеральный директор Synthflow, возглавляет разработку передовых технологий искусственного интеллекта (ИИ) для голосового взаимодействия, которые помогают компаниям автоматизировать звонки клиентов с человекоподобной реакцией. Хакоб основал Synthflow в 2023 году в Берлине с целью сделать продвинутый разговорный ИИ доступным для компаний любого размера. Под его руководством Synthflow быстро расширился в Германии и США, … Читать далее

Будущее рекламы после захвата трафика искусственным интеллектом

Крупные языковые модели постепенно вытесняют традиционный поиск, не только более точно отвечая на запросы, но и трансформируя сам интерфейс в огороженное пространство — всё более востребованную нишу, которая, похоже, призвана заменить традиционные поисковые системы. За эту нишу сейчас идёт ожесточённая борьба. Может ли издательский бизнес перенести свою видимость контента в скрытое пространство чат-ботов? В статье … Читать далее

Генеративный искусственный интеллект для количественной оценки неопределённости в прогнозировании погоды

Автор: Ляо (Ларри) Ли, инженер-программист, и Роб Карвер, научный сотрудник, Google Research Точные прогнозы погоды могут напрямую влиять на жизнь людей: от помощи в принятии повседневных решений, например, что взять с собой на прогулку, до информирования о срочных действиях, например, о защите людей в опасных погодных условиях. Точность и своевременность прогнозов погоды будет только возрастать … Читать далее

Создание безопасного рабочего процесса выполнения кода с помощью Daytona SDK

В этом руководстве по использованию Daytona SDK мы пошагово покажем, как использовать безопасную среду песочницы Daytona для безопасного выполнения ненадёжного или сгенерированного искусственным интеллектом кода Python в Notebook. Начало работы Мы начнём с создания простой песочницы и выполнения базового кода, затем продемонстрируем, как изолировать процессы, установить зависимости и запустить простые скрипты, не подвергая опасности хост-среду. … Читать далее

Исследователи Apple обнаружили структурные сбои в больших моделях рассуждений с помощью оценки на основе головоломок

Искусственный интеллект претерпел значительный переход от базовых языковых моделей к продвинутым моделям, ориентированным на задачи рассуждения. Эти новые системы, известные как большие модели рассуждений (LRMs), представляют собой класс инструментов, предназначенных для имитации человеческого мышления путём выработки промежуточных шагов рассуждения перед тем, как прийти к выводам. Фокус сместился с генерации точных результатов на понимание процесса, который … Читать далее

Google AI представляет гибридную модель AI-физики для точных прогнозов региональных климатических рисков с улучшенной оценкой неопределённости

Ограничения традиционного климатического моделирования Модели земной системы — важные инструменты для прогнозирования изменений окружающей среды и подготовки к будущему. Однако их высокие требования к вычислительным ресурсам затрудняют запуск с разрешением, достаточным для детальных локальных прогнозов. Сейчас большинство моделей ограничены разрешением около 100 километров — примерно размером Гавайев. Это затрудняет создание точных прогнозов для конкретных регионов. … Читать далее

В статье представлен ИИ-проект VLM-R³: мультимодальная платформа для распознавания регионов, рассуждений и уточнения в визуально-лингвистических задачах

Мультимодальные способности к рассуждению помогают машинам выполнять такие задачи, как решение математических задач, встроенных в диаграммы, чтение знаков на фотографиях или интерпретация научных графиков. Интеграция визуальной и лингвистической информации позволяет этим системам более точно воспроизводить мыслительные процессы человека, что делает их пригодными для задач, требующих визуального толкования в сочетании с логической последовательностью. Основная проблема в … Читать далее

Интервью-серия: Денас Грибаускас, директор по управлению и стратегии в Oxylabs

Денас Грибаускас — директор по управлению и стратегии в Oxylabs, мировом лидере в области сбора веб-аналитики и премиум-решений для прокси-серверов. Oxylabs основана в 2015 году и предоставляет одну из крупнейших в мире сетей прокси-серверов с этическим источником — более 177 миллионов IP-адресов в 195 странах. Среди её продуктов — продвинутые инструменты, такие как Web Unblocker, … Читать далее

Почему большие языковые модели переусложняют простые задачи, но сдаются перед сложными

Искусственный интеллект добился значительных успехов, и большие языковые модели (LLMs) вместе с большими моделями рассуждений (LRMs) изменили представление о том, как машины обрабатывают и генерируют текст, похожий на человеческий. Эти модели могут писать эссе, отвечать на вопросы и даже решать математические задачи. Однако, несмотря на свои впечатляющие способности, они демонстрируют любопытное поведение: часто усложняют простые … Читать далее