Meta выпустила модель SAM Audio для разделения аудио

Meta выпустила SAM Audio — модель для разделения аудио, которая использует интуитивно понятные и мультимодальные подсказки для выделения одного звука из реального звукового микширования без необходимости создания отдельной модели для каждого класса звуков.

Основные характеристики модели SAM Audio:

Архитектура: SAM Audio использует отдельные энкодеры для каждого сигнала управления, аудиоэнкодер для смеси, текстовый энкодер для описания на естественном языке, энкодер диапазона для временных якорей и визуальный энкодер, который использует визуальную подсказку, полученную из видео, плюс маску объекта.

Работа с подсказками: модель поддерживает три типа подсказок — текстовые, визуальные и временные.

Результаты: Meta позиционирует SAM Audio как модель, достигающую передовых результатов в различных реальных сценариях и представляющую собой единую альтернативу специализированным аудиоинструментам.

Что такое SAM Audio и что означает «сегмент» в данном контексте?

SAM Audio принимает входную запись, содержащую несколько перекрывающихся источников, например, речь, музыку и шум, и выделяет целевой источник на основе подсказки. В общедоступном интерфейсе для вывода модель выдаёт два результата: `result.target` и `result.residual`.

Три типа подсказок, которые поддерживает Meta:

Текстовые подсказки: вы описываете звук на естественном языке, например, «лай собаки» или «поющий голос», и модель выделяет этот звук из смеси.

Визуальные подсказки: вы кликаете на человека или объект на видео и просите модель выделить звук, связанный с этим визуальным объектом.

Временные подсказки: вы отмечаете временные сегменты, где происходит целевой звук, и модель использует эти сегменты для разделения.

Результаты работы модели SAM Audio:

Meta позиционирует SAM Audio как модель, которая достигает передовых результатов в различных реальных сценариях.

Модель представляет собой единую альтернативу специализированным аудиоинструментам.

Ключевые выводы:

SAM Audio — это унифицированная модель разделения аудио, которая сегментирует звук из сложных смесей, используя текстовые, визуальные и временные подсказки.

Основной API выдаёт две формы волны на запрос: `target` для выделенного звука и `residual` для всего остального, что соответствует общим операциям редактирования, таким как удаление шума, извлечение стема или сохранение атмосферы.

Использование CrewAI и Gemini для интеллектуального сотрудничества

Введение в CrewAI и Gemini:

В этом руководстве мы рассмотрим, как создать небольшую, но мощную систему из двух агентов CrewAI, которая сотрудничает, используя модель Gemini Flash. Мы настроим нашу среду, аутентифицируемся безопасно, определим специализированных агентов и организуем задачи, которые перетекают из исследований в структурированное написание.

Настройка среды и установка пакетов CrewAI:

Мы устанавливаем необходимые пакеты CrewAI, чтобы всё работало в Colab.

Импортируем необходимые модули и закладываем основу для нашего мультиагентского рабочего процесса.

Аутентификация:

Мы аутентифицируемся безопасно, извлекая или вводя ключ API Gemini.

Убеждаемся, что ключ надёжно хранится в среде, чтобы модель могла работать без перебоев.

Конфигурация модели Gemini Flash:

Мы настраиваем модель Gemini Flash, которую используют наши агенты для рассуждений и генерации.

Выбираем температуру и вариант модели, чтобы сбалансировать креативность и точность.

Определение агентов:

Мы определяем двух специализированных агентов — исследователя и писателя, каждому с чёткой ролью и предысторией.

Исследователь обнаруживает идеи, а писатель преобразует их в отточенные тексты.

Создание задач:

Мы создаём две задачи, которые назначают конкретные обязанности нашим агентам.

Исследователь генерирует структурированные идеи, а писатель преобразует их в завершённый пост в блоге.

Запуск системы:

Мы собираем агентов и задачи в команду и запускаем весь мультиагентский рабочий процесс.

Наблюдаем, как система выполняет шаг за шагом, производя окончательный вывод в формате Markdown.

Заключение:

Мы оцениваем, как CrewAI позволяет нам создавать скоординированные агентские системы, которые думают, исследуют и пишут вместе. Мы на практике видим, как определение ролей, задач и процессов позволяет нам модулировать сложную работу и достигать согласованных результатов с минимальным кодом.

Tinker становится общедоступным

Thinking Machines Lab объявила о том, что Tinker теперь доступен в общем доступе. Любой может зарегистрироваться и настроить открытые весовые модели LLM через цикл обучения Python, пока Tinker обрабатывает распределённое обучение на бэкенде.

Основные возможности Tinker:

Поддержка модели Kimi K2 Thinking: теперь пользователи могут настраивать модель Kimi K2 Thinking, модель рассуждения с примерно 1 триллионом параметров.

Совместимость с OpenAI: Tinker добавляет интерфейс вывода, совместимый с OpenAI, который позволяет выполнять выборку из контрольных точек обучения с помощью стандартного интерфейса клиентов и инструментов OpenAI.

Вход с помощью изображений: Tinker теперь поддерживает две модели Qwen3-VL для ввода изображений — Qwen/Qwen3-VL-30B-A3B-Instruct и Qwen/Qwen3-VL-235B-A22B-Instruct.

Эксперименты с Qwen3-VL:

Чтобы показать, что может делать новый визуальный путь, команда Tinker настроила Qwen3-VL-235B-A22B-Instruct в качестве классификатора изображений.

Они использовали четыре стандартных набора данных: Caltech 101, Stanford Cars, Oxford Flowers и Oxford Pets.

Ключевые выводы:

Tinker теперь доступен для всех, что позволяет любому настроить открытые весовые LLM через цикл обучения Python.

Платформа поддерживает Kimi K2 Thinking, модель рассуждения с 1 триллионом параметров, и представляет её в виде настраиваемой модели в линейке Tinker.

Tinker добавляет интерфейс вывода, совместимый с OpenAI, что позволяет выполнять выборку из контрольных точек обучения с помощью стандартного интерфейса клиентов и инструментов OpenAI.

OpenAI выпускает circuit-sparsity

OpenAI выпустила модель openai/circuit-sparsity на Hugging Face и инструментарий openai/circuit_sparsity на GitHub. Модели и инструментарий предназначены для соединения разреженных моделей и плотных базовых моделей через мосты активации.

Что такое разреженная модель трансформатора?

Модели представляют собой трансформаторы в стиле GPT-2, обученные на Python-коде. Разреженность не добавляется после обучения, она обеспечивается во время оптимизации.

Как работает модель?

После каждого шага AdamW модель сохраняет только элементы с наибольшим модулем в каждой матрице весов и смещении, включая вложения токенов.

Остальные элементы обнуляются.

Разреженность уменьшается во время обучения.

Что такое разрежённая схема?

Центральный объект в исследовании — разрежённая схема. Узлы определяются на очень мелкой гранулярности, каждый узел — это один нейрон, канал внимания, канал остаточного чтения или канал остаточного письма.

Примеры схем:

Для задачи singledoublequote модель должна выдать правильный тип закрывающей кавычки, учитывая открывающую кавычку.

Для задачи bracket_counting модель должна решить, какой символ использовать для закрытия списка, учитывая глубину вложенности.

Ключевые выводы:

OpenAI выпустила модель circuit-sparsity для работы с разрежёнными моделями.

Модель предназначена для соединения разрежённых моделей с плотными базовыми моделями через мосты активации.

Модели и инструментарий доступны на Hugging Face и GitHub.

Пять архитектур моделей ИИ, о которых должен знать каждый инженер ИИ

В экосистеме ИИ есть не только языковые модели:

Большие языковые модели (LLMs): модели, которые понимают язык, генерируют ответы, обобщают информацию, пишут код, отвечают на вопросы и выполняют широкий спектр задач.

Модели Vision-Language (VLMs): модели, которые сочетают в себе возможности обработки изображений и языка.

Mixture of Experts (MoE): модели, которые используют несколько экспертных сетей для обработки каждого токена.

Large Action Models (LAMs): модели, которые понимают намерения пользователя, разбивают задачу на шаги, планируют необходимые действия и выполняют их в реальном мире или на компьютере.

Small Language Models (SLMs): лёгкие языковые модели, предназначенные для работы на периферийных устройствах, мобильном оборудовании и других средах с ограниченными ресурсами.

Ключевые выводы:

LLMs, VLMs, MoE, LAMs и SLMs — это пять основных игроков в экосистеме ИИ.

Каждая из этих моделей решает свою часть головоломки интеллекта, и вместе они формируют следующее поколение систем ИИ.

Nanbeige4-3B-Thinking: как модель на 3 миллиарда параметров достигает уровня 30 миллиардов параметров в рассуждениях

Nanbeige LLM Lab выпустила Nanbeige4-3B, семейство малых языковых моделей с 3 миллиардами параметров. Модели обучены с особым упором на качество данных, планирование учебного процесса, дистилляцию и обучение с подкреплением.

Результаты бенчмарков:

Nanbeige4-3B-2511 сообщает 90,4 на AIME 2024, в то время как Qwen3-32B-2504 сообщает 81,4.

Nanbeige4-3B-2511 сообщает 82,2 на GPQA-Diamond, в то время как Qwen3-14B-2504 сообщает 64,0 и Qwen3-32B-2504 сообщает 68,7.

Ключевые выводы:

3 миллиарда параметров могут достичь уровня гораздо более крупных открытых моделей в рассуждениях.

Претренировочные выгоды связаны с учебным планом, а не просто с большим количеством токенов.

Посттренировочная фокусировка на качестве супервизии, затем дистилляция с учётом предпочтений.

Создание полностью локальной системы для рассказывания историй с помощью Griptape

В этом руководстве мы рассмотрим, как создать полностью локальную систему для рассказывания историй с помощью Griptape и лёгкой модели Hugging Face.

Мы создадим агента с возможностями использования инструментов, сгенерируем вымышленный мир, разработаем персонажей и организуем многоэтапный рабочий процесс, который создаст связную короткую историю.

Мы разделим реализацию на модульные фрагменты, чтобы чётко понимать каждый компонент по мере его сборки в единый рабочий процесс.

Ключевые выводы:

Griptape позволяет легко организовать сложные шаги рассуждения, взаимодействие с инструментами и творческое генерирование с использованием локальных моделей.

Модульные задачи, наборы правил и рабочие процессы объединяются в мощную агентскую систему, способную создавать структурированные повествовательные выходные данные.

OpenAI представляет GPT-5.2

OpenAI представила GPT-5.2, свою самую передовую передовую модель для профессиональной работы и длительных агентов. Модель доступна в трёх вариантах: Instant, Thinking и Pro.

GPT-5.2 предназначен для:

Кодирования и агентских задач: модель заменяет GPT-5.1 Thinking в качестве основной модели для кодирования, работы с знаниями и агентов.

Долгосрочных агентов: модель поддерживает контекст до 400 тысяч токенов и максимальный вывод до 128 тысяч токенов.

Ключевые выводы:

GPT-5.2 Thinking — это новая модель, которая заменяет GPT-5.1 Thinking в качестве основной модели для кодирования, работы с знаниями и агентов.

Модель поддерживает контекст до 400 тысяч токенов и максимальный вывод до 128 тысяч токенов.

CopilotKit v1.50

CopilotKit — это фреймворк с открытым исходным кодом для создания ИИ-копилотов и агентов в приложениях непосредственно в вашем приложении.

Основные характеристики:

Взаимодействие с пользователем: CopilotKit v1.50 использует протокол AG-UI в качестве транспортного уровня.

Контекстное взаимодействие и общее состояние: AG-UI определяет, как контекст перемещается между пользовательским интерфейсом и агентом.

Интеграции: CopilotKit имеет интеграции с Microsoft Agent Framework, Google Agent Development Kit и AWS Strands Agents.

Ключевые выводы:

CopilotKit v1.50 стандартизирует свой фронтенд-слой на AG-UI, так что вся связь между агентом и пользовательским интерфейсом осуществляется через единый поток событий.

Новый хук useAgent позволяет компоненту подключаться к любому агенту, совместимому с AG-UI, и предоставляет сообщения, потоковые токены, инструменты и общее состояние через типизированный интерфейс.

1. Какие типы подсказок поддерживает модель SAM Audio и как они работают?

Ответ: модель SAM Audio поддерживает три типа подсказок: текстовые, визуальные и временные. Текстовые подсказки позволяют описать звук на естественном языке, например, «лай собаки» или «поющий голос», и модель выделяет этот звук из смеси. Визуальные подсказки позволяют кликнуть на человека или объект на видео и попросить модель выделить звук, связанный с этим визуальным объектом. Временные подсказки позволяют отметить временные сегменты, где происходит целевой звук, и модель использует эти сегменты для разделения.

2. Какие основные возможности предоставляет платформа Tinker для работы с открытыми весовыми моделями LLM?

Ответ: Tinker предоставляет возможность настраивать открытые весовые модели LLM через цикл обучения Python. Платформа поддерживает модель Kimi K2 Thinking, модель рассуждения с примерно 1 триллионом параметров, и представляет её в виде настраиваемой модели в линейке Tinker. Кроме того, Tinker добавляет интерфейс вывода, совместимый с OpenAI, что позволяет выполнять выборку из контрольных точек обучения с помощью стандартного интерфейса клиентов и инструментов OpenAI.

3. Какие основные архитектуры моделей ИИ существуют в экосистеме ИИ?

Ответ: в экосистеме ИИ существуют следующие основные архитектуры моделей ИИ:
* Большие языковые модели (LLMs) — модели, которые понимают язык, генерируют ответы, обобщают информацию, пишут код, отвечают на вопросы и выполняют широкий спектр задач.
* Модели Vision-Language (VLMs) — модели, которые сочетают в себя возможности обработки изображений и языка.
* Mixture of Experts (MoE) — модели, которые используют несколько экспертных сетей для обработки каждого токена.
* Large Action Models (LAMs) — модели, которые понимают намерения пользователя, разбивают задачу на шаги, планируют необходимые действия и выполняют их в реальном мире или на компьютере.
* Small Language Models (SLMs) — лёгкие языковые модели, предназначенные для работы на периферийных устройствах, мобильном оборудовании и других средах с ограниченными ресурсами.

4. Какие результаты бенчмарков демонстрирует модель Nanbeige4-3B-2511 по сравнению с другими моделями?

Ответ: модель Nanbeige4-3B-2511 демонстрирует следующие результаты бенчмарков:
* Nanbeige4-3B-2511 сообщает 90,4 на AIME 2024, в то время как Qwen3-32B-2504 сообщает 81,4.
* Nanbeige4-3B-2511 сообщает 82,2 на GPQA-Diamond, в то время как Qwen3-14B-2504 сообщает 64,0 и Qwen3-32B-2504 сообщает 68,7.

5. Какие варианты модели GPT-5.2 предлагает OpenAI и для каких задач они предназначены?

Ответ: OpenAI предлагает три варианта модели GPT-5.2: Instant, Thinking и Pro. GPT-5.2 предназначен для кодирования и агентских задач, а также для долгосрочных агентов. Модель заменяет GPT-5.1 Thinking в качестве основной модели для кодирования, работы с знаниями и агентов. Модель поддерживает контекст до 400 тысяч токенов и максимальный вывод до 128 тысяч токенов.

Источник