Meta выпустила SAM Audio — модель для разделения аудио, которая использует интуитивно понятные и мультимодальные подсказки для выделения одного звука из реального звукового микширования без необходимости создания отдельной модели для каждого класса звуков.
Основные характеристики модели SAM Audio:
- Архитектура: SAM Audio использует отдельные энкодеры для каждого сигнала управления, аудиоэнкодер для смеси, текстовый энкодер для описания на естественном языке, энкодер диапазона для временных якорей и визуальный энкодер, который использует визуальную подсказку, полученную из видео, плюс маску объекта.
- Работа с подсказками: модель поддерживает три типа подсказок — текстовые, визуальные и временные.
- Результаты: Meta позиционирует SAM Audio как модель, достигающую передовых результатов в различных реальных сценариях и представляющую собой единую альтернативу специализированным аудиоинструментам.
Что такое SAM Audio и что означает «сегмент» в данном контексте?
SAM Audio принимает входную запись, содержащую несколько перекрывающихся источников, например, речь, музыку и шум, и выделяет целевой источник на основе подсказки. В общедоступном интерфейсе для вывода модель выдаёт два результата: `result.target` и `result.residual`.
Три типа подсказок, которые поддерживает Meta:
- Текстовые подсказки: вы описываете звук на естественном языке, например, «лай собаки» или «поющий голос», и модель выделяет этот звук из смеси.
- Визуальные подсказки: вы кликаете на человека или объект на видео и просите модель выделить звук, связанный с этим визуальным объектом.
- Временные подсказки: вы отмечаете временные сегменты, где происходит целевой звук, и модель использует эти сегменты для разделения.
Результаты работы модели SAM Audio:
- Meta позиционирует SAM Audio как модель, которая достигает передовых результатов в различных реальных сценариях.
- Модель представляет собой единую альтернативу специализированным аудиоинструментам.
Ключевые выводы:
- SAM Audio — это унифицированная модель разделения аудио, которая сегментирует звук из сложных смесей, используя текстовые, визуальные и временные подсказки.
- Основной API выдаёт две формы волны на запрос: `target` для выделенного звука и `residual` для всего остального, что соответствует общим операциям редактирования, таким как удаление шума, извлечение стема или сохранение атмосферы.
Использование CrewAI и Gemini для интеллектуального сотрудничества
Введение в CrewAI и Gemini:
В этом руководстве мы рассмотрим, как создать небольшую, но мощную систему из двух агентов CrewAI, которая сотрудничает, используя модель Gemini Flash. Мы настроим нашу среду, аутентифицируемся безопасно, определим специализированных агентов и организуем задачи, которые перетекают из исследований в структурированное написание.
Настройка среды и установка пакетов CrewAI:
- Мы устанавливаем необходимые пакеты CrewAI, чтобы всё работало в Colab.
- Импортируем необходимые модули и закладываем основу для нашего мультиагентского рабочего процесса.
Аутентификация:
- Мы аутентифицируемся безопасно, извлекая или вводя ключ API Gemini.
- Убеждаемся, что ключ надёжно хранится в среде, чтобы модель могла работать без перебоев.
Конфигурация модели Gemini Flash:
- Мы настраиваем модель Gemini Flash, которую используют наши агенты для рассуждений и генерации.
- Выбираем температуру и вариант модели, чтобы сбалансировать креативность и точность.
Определение агентов:
- Мы определяем двух специализированных агентов — исследователя и писателя, каждому с чёткой ролью и предысторией.
- Исследователь обнаруживает идеи, а писатель преобразует их в отточенные тексты.
Создание задач:
- Мы создаём две задачи, которые назначают конкретные обязанности нашим агентам.
- Исследователь генерирует структурированные идеи, а писатель преобразует их в завершённый пост в блоге.
Запуск системы:
- Мы собираем агентов и задачи в команду и запускаем весь мультиагентский рабочий процесс.
- Наблюдаем, как система выполняет шаг за шагом, производя окончательный вывод в формате Markdown.
Заключение:
Мы оцениваем, как CrewAI позволяет нам создавать скоординированные агентские системы, которые думают, исследуют и пишут вместе. Мы на практике видим, как определение ролей, задач и процессов позволяет нам модулировать сложную работу и достигать согласованных результатов с минимальным кодом.
Tinker становится общедоступным
Thinking Machines Lab объявила о том, что Tinker теперь доступен в общем доступе. Любой может зарегистрироваться и настроить открытые весовые модели LLM через цикл обучения Python, пока Tinker обрабатывает распределённое обучение на бэкенде.
Основные возможности Tinker:
- Поддержка модели Kimi K2 Thinking: теперь пользователи могут настраивать модель Kimi K2 Thinking, модель рассуждения с примерно 1 триллионом параметров.
- Совместимость с OpenAI: Tinker добавляет интерфейс вывода, совместимый с OpenAI, который позволяет выполнять выборку из контрольных точек обучения с помощью стандартного интерфейса клиентов и инструментов OpenAI.
- Вход с помощью изображений: Tinker теперь поддерживает две модели Qwen3-VL для ввода изображений — Qwen/Qwen3-VL-30B-A3B-Instruct и Qwen/Qwen3-VL-235B-A22B-Instruct.
Эксперименты с Qwen3-VL:
- Чтобы показать, что может делать новый визуальный путь, команда Tinker настроила Qwen3-VL-235B-A22B-Instruct в качестве классификатора изображений.
- Они использовали четыре стандартных набора данных: Caltech 101, Stanford Cars, Oxford Flowers и Oxford Pets.
Ключевые выводы:
- Tinker теперь доступен для всех, что позволяет любому настроить открытые весовые LLM через цикл обучения Python.
- Платформа поддерживает Kimi K2 Thinking, модель рассуждения с 1 триллионом параметров, и представляет её в виде настраиваемой модели в линейке Tinker.
- Tinker добавляет интерфейс вывода, совместимый с OpenAI, что позволяет выполнять выборку из контрольных точек обучения с помощью стандартного интерфейса клиентов и инструментов OpenAI.
OpenAI выпускает circuit-sparsity
OpenAI выпустила модель openai/circuit-sparsity на Hugging Face и инструментарий openai/circuit_sparsity на GitHub. Модели и инструментарий предназначены для соединения разреженных моделей и плотных базовых моделей через мосты активации.
Что такое разреженная модель трансформатора?
Модели представляют собой трансформаторы в стиле GPT-2, обученные на Python-коде. Разреженность не добавляется после обучения, она обеспечивается во время оптимизации.
Как работает модель?
- После каждого шага AdamW модель сохраняет только элементы с наибольшим модулем в каждой матрице весов и смещении, включая вложения токенов.
- Остальные элементы обнуляются.
- Разреженность уменьшается во время обучения.
Что такое разрежённая схема?
Центральный объект в исследовании — разрежённая схема. Узлы определяются на очень мелкой гранулярности, каждый узел — это один нейрон, канал внимания, канал остаточного чтения или канал остаточного письма.
Примеры схем:
- Для задачи singledoublequote модель должна выдать правильный тип закрывающей кавычки, учитывая открывающую кавычку.
- Для задачи bracket_counting модель должна решить, какой символ использовать для закрытия списка, учитывая глубину вложенности.
Ключевые выводы:
- OpenAI выпустила модель circuit-sparsity для работы с разрежёнными моделями.
- Модель предназначена для соединения разрежённых моделей с плотными базовыми моделями через мосты активации.
- Модели и инструментарий доступны на Hugging Face и GitHub.
Пять архитектур моделей ИИ, о которых должен знать каждый инженер ИИ
В экосистеме ИИ есть не только языковые модели:
- Большие языковые модели (LLMs): модели, которые понимают язык, генерируют ответы, обобщают информацию, пишут код, отвечают на вопросы и выполняют широкий спектр задач.
- Модели Vision-Language (VLMs): модели, которые сочетают в себе возможности обработки изображений и языка.
- Mixture of Experts (MoE): модели, которые используют несколько экспертных сетей для обработки каждого токена.
- Large Action Models (LAMs): модели, которые понимают намерения пользователя, разбивают задачу на шаги, планируют необходимые действия и выполняют их в реальном мире или на компьютере.
- Small Language Models (SLMs): лёгкие языковые модели, предназначенные для работы на периферийных устройствах, мобильном оборудовании и других средах с ограниченными ресурсами.
Ключевые выводы:
- LLMs, VLMs, MoE, LAMs и SLMs — это пять основных игроков в экосистеме ИИ.
- Каждая из этих моделей решает свою часть головоломки интеллекта, и вместе они формируют следующее поколение систем ИИ.
Nanbeige4-3B-Thinking: как модель на 3 миллиарда параметров достигает уровня 30 миллиардов параметров в рассуждениях
Nanbeige LLM Lab выпустила Nanbeige4-3B, семейство малых языковых моделей с 3 миллиардами параметров. Модели обучены с особым упором на качество данных, планирование учебного процесса, дистилляцию и обучение с подкреплением.
Результаты бенчмарков:
- Nanbeige4-3B-2511 сообщает 90,4 на AIME 2024, в то время как Qwen3-32B-2504 сообщает 81,4.
- Nanbeige4-3B-2511 сообщает 82,2 на GPQA-Diamond, в то время как Qwen3-14B-2504 сообщает 64,0 и Qwen3-32B-2504 сообщает 68,7.
Ключевые выводы:
- 3 миллиарда параметров могут достичь уровня гораздо более крупных открытых моделей в рассуждениях.
- Претренировочные выгоды связаны с учебным планом, а не просто с большим количеством токенов.
- Посттренировочная фокусировка на качестве супервизии, затем дистилляция с учётом предпочтений.
Создание полностью локальной системы для рассказывания историй с помощью Griptape
В этом руководстве мы рассмотрим, как создать полностью локальную систему для рассказывания историй с помощью Griptape и лёгкой модели Hugging Face.
- Мы создадим агента с возможностями использования инструментов, сгенерируем вымышленный мир, разработаем персонажей и организуем многоэтапный рабочий процесс, который создаст связную короткую историю.
- Мы разделим реализацию на модульные фрагменты, чтобы чётко понимать каждый компонент по мере его сборки в единый рабочий процесс.
Ключевые выводы:
- Griptape позволяет легко организовать сложные шаги рассуждения, взаимодействие с инструментами и творческое генерирование с использованием локальных моделей.
- Модульные задачи, наборы правил и рабочие процессы объединяются в мощную агентскую систему, способную создавать структурированные повествовательные выходные данные.
OpenAI представляет GPT-5.2
OpenAI представила GPT-5.2, свою самую передовую передовую модель для профессиональной работы и длительных агентов. Модель доступна в трёх вариантах: Instant, Thinking и Pro.
GPT-5.2 предназначен для:
- Кодирования и агентских задач: модель заменяет GPT-5.1 Thinking в качестве основной модели для кодирования, работы с знаниями и агентов.
- Долгосрочных агентов: модель поддерживает контекст до 400 тысяч токенов и максимальный вывод до 128 тысяч токенов.
Ключевые выводы:
- GPT-5.2 Thinking — это новая модель, которая заменяет GPT-5.1 Thinking в качестве основной модели для кодирования, работы с знаниями и агентов.
- Модель поддерживает контекст до 400 тысяч токенов и максимальный вывод до 128 тысяч токенов.
CopilotKit v1.50
CopilotKit — это фреймворк с открытым исходным кодом для создания ИИ-копилотов и агентов в приложениях непосредственно в вашем приложении.
Основные характеристики:
- Взаимодействие с пользователем: CopilotKit v1.50 использует протокол AG-UI в качестве транспортного уровня.
- Контекстное взаимодействие и общее состояние: AG-UI определяет, как контекст перемещается между пользовательским интерфейсом и агентом.
- Интеграции: CopilotKit имеет интеграции с Microsoft Agent Framework, Google Agent Development Kit и AWS Strands Agents.
Ключевые выводы:
- CopilotKit v1.50 стандартизирует свой фронтенд-слой на AG-UI, так что вся связь между агентом и пользовательским интерфейсом осуществляется через единый поток событий.
- Новый хук useAgent позволяет компоненту подключаться к любому агенту, совместимому с AG-UI, и предоставляет сообщения, потоковые токены, инструменты и общее состояние через типизированный интерфейс.
1. Какие типы подсказок поддерживает модель SAM Audio и как они работают?
Ответ: модель SAM Audio поддерживает три типа подсказок: текстовые, визуальные и временные. Текстовые подсказки позволяют описать звук на естественном языке, например, «лай собаки» или «поющий голос», и модель выделяет этот звук из смеси. Визуальные подсказки позволяют кликнуть на человека или объект на видео и попросить модель выделить звук, связанный с этим визуальным объектом. Временные подсказки позволяют отметить временные сегменты, где происходит целевой звук, и модель использует эти сегменты для разделения.
2. Какие основные возможности предоставляет платформа Tinker для работы с открытыми весовыми моделями LLM?
Ответ: Tinker предоставляет возможность настраивать открытые весовые модели LLM через цикл обучения Python. Платформа поддерживает модель Kimi K2 Thinking, модель рассуждения с примерно 1 триллионом параметров, и представляет её в виде настраиваемой модели в линейке Tinker. Кроме того, Tinker добавляет интерфейс вывода, совместимый с OpenAI, что позволяет выполнять выборку из контрольных точек обучения с помощью стандартного интерфейса клиентов и инструментов OpenAI.
3. Какие основные архитектуры моделей ИИ существуют в экосистеме ИИ?
Ответ: в экосистеме ИИ существуют следующие основные архитектуры моделей ИИ:
* Большие языковые модели (LLMs) — модели, которые понимают язык, генерируют ответы, обобщают информацию, пишут код, отвечают на вопросы и выполняют широкий спектр задач.
* Модели Vision-Language (VLMs) — модели, которые сочетают в себя возможности обработки изображений и языка.
* Mixture of Experts (MoE) — модели, которые используют несколько экспертных сетей для обработки каждого токена.
* Large Action Models (LAMs) — модели, которые понимают намерения пользователя, разбивают задачу на шаги, планируют необходимые действия и выполняют их в реальном мире или на компьютере.
* Small Language Models (SLMs) — лёгкие языковые модели, предназначенные для работы на периферийных устройствах, мобильном оборудовании и других средах с ограниченными ресурсами.
4. Какие результаты бенчмарков демонстрирует модель Nanbeige4-3B-2511 по сравнению с другими моделями?
Ответ: модель Nanbeige4-3B-2511 демонстрирует следующие результаты бенчмарков:
* Nanbeige4-3B-2511 сообщает 90,4 на AIME 2024, в то время как Qwen3-32B-2504 сообщает 81,4.
* Nanbeige4-3B-2511 сообщает 82,2 на GPQA-Diamond, в то время как Qwen3-14B-2504 сообщает 64,0 и Qwen3-32B-2504 сообщает 68,7.
5. Какие варианты модели GPT-5.2 предлагает OpenAI и для каких задач они предназначены?
Ответ: OpenAI предлагает три варианта модели GPT-5.2: Instant, Thinking и Pro. GPT-5.2 предназначен для кодирования и агентских задач, а также для долгосрочных агентов. Модель заменяет GPT-5.1 Thinking в качестве основной модели для кодирования, работы с знаниями и агентов. Модель поддерживает контекст до 400 тысяч токенов и максимальный вывод до 128 тысяч токенов.