OpenAI выпускает ChatGPT Pulse: персональные ежедневные сводки для пользователей Pro

OpenAI представила ChatGPT Pulse — инструмент, который собирает персонализированные обновления, основанные на исследованиях, каждое утро. В режиме предварительного просмотра в мобильном приложении Pulse доступен за 200 долларов в месяц для подписчиков Pro. Pulse использует данные из чатов пользователя, его явные отзывы и подключённые приложения (например, календарь/электронная почта), превращая ChatGPT из инструмента по запросу в контекстно-зависимого помощника.

Как работает Pulse

Каждый день Pulse проводит фоновое исследование, опираясь на сигналы пользователя: недавние разговоры, долгосрочные интересы, оценки «нравится/не нравится» и данные из подключённых приложений, где это разрешено. Результаты представлены в виде визуальных карточек (кратких обзоров и глубоких ссылок), а не бесконечного потока информации, что позволяет быстро просматривать и углубляться в детали.

Примеры включают целевые сводки новостей и контекстуализированные предложения (например, планирование путешествий с учётом событий в календаре).

Источники данных и контроль

Интеграции отключены по умолчанию и могут быть включены. Получив доступ, Pulse может использовать контекст Gmail/Google Calendar для настройки карточек (например, подготовка к встрече, напоминания о маршруте). OpenAI позиционирует это как уровень персонализации на уровне пользователя; в отчётах подчёркивается возможность выбора и настройки в приложении для управления подключёнными учётными записями и памятью.

Доступность и план развёртывания

Pulse сейчас доступен в мобильном приложении ChatGPT для пользователей Pro в виде отдельной вкладки. OpenAI заявляет, что хочет сделать его более доступным «в ближайшее время», а доступ к Plus планируется после улучшения продукта и повышения эффективности. Компания подтвердила, что сначала будет использоваться система Pro из-за затрат на вычисления.

Позиционирование продукта: к агентским, ориентированным на цели рабочим процессам

OpenAI представляет Pulse как первый шаг к поведению, подобному агенту, когда модель отслеживает цели и инициирует обновления без подсказок. Внешний охват подчёркивает переход от чата к рабочим процессам с помощником, которые учитывают состояние пользователя и расписание. Это соответствует недавнему акценту OpenAI на агентах и проактивной помощи, а не на пассивных вопросах и ответах.

Сигнал от руководства

Сэм Альтман кратко изложил намерения: Pulse — его «любимая функция» на сегодняшний день, начиная с Pro. В своём посте он также подчёркивает использование моделью интересов и недавних чатов, намекая на более широкую персонализацию, поскольку пользователи со временем делятся своими предпочтениями.

OpenAI представляет GDPval: новый набор инструментов для оценки ИИ

OpenAI представила GDPval — новый набор инструментов для оценки того, как модели ИИ работают над реальными экономически ценными задачами в 44 профессиях в девяти секторах экономики США, доминирующих по ВВП. В отличие от академических тестов, GDPval сосредоточен на реальных результатах — презентациях, таблицах, кратких обзорах, чертежах CAD, аудио/видео — и оценивается профессионалами в данной области посредством слепых попарных сравнений.

Как создаются задачи GDPval

GDPval объединяет 1320 задач, полученных от профессионалов отрасли со средним опытом работы 14 лет. Задачи соответствуют действиям O*NET и включают в себя обработку мультимодальных файлов (документы, слайды, изображения, аудио, видео, таблицы, CAD), с десятками справочных файлов для каждой задачи. Золотой набор предоставляет общедоступные подсказки и ссылки; основная оценка по-прежнему основана на экспертных попарных суждениях из-за субъективности и требований к формату.

Данные: модель против эксперта

На золотом наборе передовые модели приближаются к качеству эксперта по значительной части задач в ходе слепой экспертной проверки, причём прогресс модели имеет тенденцию к линейному росту между выпусками. Сообщается, что коэффициенты выигрыша/ничьей между моделями и человеком близки к паритету для топовых моделей, профили ошибок группируются вокруг следования инструкциям, форматирования, использования данных и галлюцинаций.

Время и стоимость

GDPval проводит сценарный анализ, сравнивая рабочие процессы только с участием человека и с использованием моделей с экспертным обзором. Он количественно определяет (i) время выполнения человеком и стоимость на основе заработной платы, (ii) время/стоимость рецензента, (iii) задержку модели и стоимость API, а также (iv) эмпирически наблюдаемые коэффициенты выигрыша. Результаты указывают на потенциальное сокращение времени/стоимости для многих классов задач после учёта накладных расходов на проверку.

Автоматизированная оценка: полезный прокси, а не оракул

Для золотого набора автоматизированный парный оценщик показывает согласие с человеческими экспертами примерно на 66%, в пределах примерно 5 процентных пунктов от согласия человека с человеком (71%). Он позиционируется как доступный прокси для быстрой итерации, а не замена экспертному обзору.

Почему это не просто ещё один бенчмарк

Профессиональная широта: охватывает ведущие сектора ВВП и широкий спектр действий ONET, а не только узкие области.
* Реализм результатов: мультифайловые, мультимодальные входные/выходные данные подчёркивают структуру, форматирование и обработку данных.
* Подвижный потолок: использует процент выигрыша человека по сравнению с экспертными результатами, что позволяет пересчитывать базу по мере улучшения моделей.

Граничные условия: где GDPval не достигает

GDPval-v0 ориентирован на опосредованную компьютером интеллектуальную работу. Физический труд, долгосрочное взаимодействие и организационные инструменты выходят за рамки. Задачи одноразовые и точно определены; абляции показывают снижение производительности при уменьшении контекста.

Место в стеке: как GDPval дополняет другие оценки

GDPval дополняет существующие оценки OpenAI профессиональными, мультимодальными, ориентированными на файлы задачами и отчётами о результатах предпочтений человека, анализе времени/стоимости и аблациях по усилиям рассуждения и агенту. v0 — это версия, и ожидается, что со временем она расширит охват и реалистичность.

1. Какие возможности предоставляет ChatGPT Pulse и как он может быть полезен для пользователей ChatGPT Pro?

ChatGPT Pulse — это инструмент, который собирает персонализированные обновления, основанные на исследованиях, каждое утро. Он использует данные из чатов пользователя, его явные отзывы и подключённые приложения (например, календарь/электронная почта), превращая ChatGPT из инструмента по запросу в контекстно-зависимого помощника. Это может быть полезно для пользователей ChatGPT Pro, которые хотят получать актуальные и персонализированные обновления по интересующим их темам.

2. Какие данные использует ChatGPT Pulse для создания персонализированных сводок?

Для создания персонализированных сводок ChatGPT Pulse использует данные из чатов пользователя, его явные отзывы и данные из подключённых приложений (например, календарь/электронная почта), где это разрешено. Это позволяет Pulse учитывать интересы и потребности пользователя, а также предоставлять более релевантные и полезные сводки.

3. Какие задачи охватывает GDPval и как он оценивает работу моделей ИИ?

GDPval охватывает задачи в 44 профессиях в девяти секторах экономики США, доминирующих по ВВП. Он оценивает работу моделей ИИ, сравнивая их результаты с результатами профессиональных экспертов. GDPval фокусируется на реальных результатах, таких как презентации, таблицы, краткие обзоры, чертежи CAD, аудио/видео, и оценивает их посредством слепых попарных сравнений.

4. Какие преимущества предлагает GDPval по сравнению с другими бенчмарками для оценки моделей ИИ?

GDPval предлагает несколько преимуществ по сравнению с другими бенчмарками для оценки моделей ИИ. Во-первых, он охватывает широкий спектр профессий и секторов экономики, что позволяет оценить работу моделей в различных контекстах. Во-вторых, он фокусируется на реальных результатах, что делает его более релевантным для практических приложений. В-третьих, GDPval использует процент выигрыша человека по сравнению с экспертными результатами, что позволяет пересчитывать базу по мере улучшения моделей.

5. Какие ограничения есть у GDPval и в каких ситуациях он может быть менее эффективен?

GDPval ориентирован на опосредованную компьютером интеллектуальную работу. Физический труд, долгосрочное взаимодействие и организационные инструменты выходят за рамки. Задачи должны быть одноразовыми и точно определёнными; абляции показывают снижение производительности при уменьшении контекста. Это означает, что GDPval может быть менее эффективен в ситуациях, где требуется более глубокий анализ или взаимодействие с другими людьми.

Источник