OpenAI представила ChatGPT Pulse — инструмент, который собирает персонализированные обновления, основанные на исследованиях, каждое утро. В режиме предварительного просмотра в мобильном приложении Pulse доступен за 200 долларов в месяц для подписчиков Pro. Pulse использует данные из чатов пользователя, его явные отзывы и подключённые приложения (например, календарь/электронная почта), превращая ChatGPT из инструмента по запросу в контекстно-зависимого помощника.
Как работает Pulse
Каждый день Pulse проводит фоновое исследование, опираясь на сигналы пользователя: недавние разговоры, долгосрочные интересы, оценки «нравится/не нравится» и данные из подключённых приложений, где это разрешено. Результаты представлены в виде визуальных карточек (кратких обзоров и глубоких ссылок), а не бесконечного потока информации, что позволяет быстро просматривать и углубляться в детали.
Примеры включают целевые сводки новостей и контекстуализированные предложения (например, планирование путешествий с учётом событий в календаре).
Источники данных и контроль
Интеграции отключены по умолчанию и могут быть включены. Получив доступ, Pulse может использовать контекст Gmail/Google Calendar для настройки карточек (например, подготовка к встрече, напоминания о маршруте). OpenAI позиционирует это как уровень персонализации на уровне пользователя; в отчётах подчёркивается возможность выбора и настройки в приложении для управления подключёнными учётными записями и памятью.
Доступность и план развёртывания
Pulse сейчас доступен в мобильном приложении ChatGPT для пользователей Pro в виде отдельной вкладки. OpenAI заявляет, что хочет сделать его более доступным «в ближайшее время», а доступ к Plus планируется после улучшения продукта и повышения эффективности. Компания подтвердила, что сначала будет использоваться система Pro из-за затрат на вычисления.
Позиционирование продукта: к агентским, ориентированным на цели рабочим процессам
OpenAI представляет Pulse как первый шаг к поведению, подобному агенту, когда модель отслеживает цели и инициирует обновления без подсказок. Внешний охват подчёркивает переход от чата к рабочим процессам с помощником, которые учитывают состояние пользователя и расписание. Это соответствует недавнему акценту OpenAI на агентах и проактивной помощи, а не на пассивных вопросах и ответах.
Сигнал от руководства
Сэм Альтман кратко изложил намерения: Pulse — его «любимая функция» на сегодняшний день, начиная с Pro. В своём посте он также подчёркивает использование моделью интересов и недавних чатов, намекая на более широкую персонализацию, поскольку пользователи со временем делятся своими предпочтениями.
OpenAI представляет GDPval: новый набор инструментов для оценки ИИ
OpenAI представила GDPval — новый набор инструментов для оценки того, как модели ИИ работают над реальными экономически ценными задачами в 44 профессиях в девяти секторах экономики США, доминирующих по ВВП. В отличие от академических тестов, GDPval сосредоточен на реальных результатах — презентациях, таблицах, кратких обзорах, чертежах CAD, аудио/видео — и оценивается профессионалами в данной области посредством слепых попарных сравнений.
Как создаются задачи GDPval
GDPval объединяет 1320 задач, полученных от профессионалов отрасли со средним опытом работы 14 лет. Задачи соответствуют действиям O*NET и включают в себя обработку мультимодальных файлов (документы, слайды, изображения, аудио, видео, таблицы, CAD), с десятками справочных файлов для каждой задачи. Золотой набор предоставляет общедоступные подсказки и ссылки; основная оценка по-прежнему основана на экспертных попарных суждениях из-за субъективности и требований к формату.
Данные: модель против эксперта
На золотом наборе передовые модели приближаются к качеству эксперта по значительной части задач в ходе слепой экспертной проверки, причём прогресс модели имеет тенденцию к линейному росту между выпусками. Сообщается, что коэффициенты выигрыша/ничьей между моделями и человеком близки к паритету для топовых моделей, профили ошибок группируются вокруг следования инструкциям, форматирования, использования данных и галлюцинаций.
Время и стоимость
GDPval проводит сценарный анализ, сравнивая рабочие процессы только с участием человека и с использованием моделей с экспертным обзором. Он количественно определяет (i) время выполнения человеком и стоимость на основе заработной платы, (ii) время/стоимость рецензента, (iii) задержку модели и стоимость API, а также (iv) эмпирически наблюдаемые коэффициенты выигрыша. Результаты указывают на потенциальное сокращение времени/стоимости для многих классов задач после учёта накладных расходов на проверку.
Автоматизированная оценка: полезный прокси, а не оракул
Для золотого набора автоматизированный парный оценщик показывает согласие с человеческими экспертами примерно на 66%, в пределах примерно 5 процентных пунктов от согласия человека с человеком (71%). Он позиционируется как доступный прокси для быстрой итерации, а не замена экспертному обзору.
Почему это не просто ещё один бенчмарк
Профессиональная широта: охватывает ведущие сектора ВВП и широкий спектр действий ONET, а не только узкие области.
* Реализм результатов: мультифайловые, мультимодальные входные/выходные данные подчёркивают структуру, форматирование и обработку данных.
* Подвижный потолок: использует процент выигрыша человека по сравнению с экспертными результатами, что позволяет пересчитывать базу по мере улучшения моделей.
Граничные условия: где GDPval не достигает
GDPval-v0 ориентирован на опосредованную компьютером интеллектуальную работу. Физический труд, долгосрочное взаимодействие и организационные инструменты выходят за рамки. Задачи одноразовые и точно определены; абляции показывают снижение производительности при уменьшении контекста.
Место в стеке: как GDPval дополняет другие оценки
GDPval дополняет существующие оценки OpenAI профессиональными, мультимодальными, ориентированными на файлы задачами и отчётами о результатах предпочтений человека, анализе времени/стоимости и аблациях по усилиям рассуждения и агенту. v0 — это версия, и ожидается, что со временем она расширит охват и реалистичность.
1. Какие возможности предоставляет ChatGPT Pulse и как он может быть полезен для пользователей ChatGPT Pro?
ChatGPT Pulse — это инструмент, который собирает персонализированные обновления, основанные на исследованиях, каждое утро. Он использует данные из чатов пользователя, его явные отзывы и подключённые приложения (например, календарь/электронная почта), превращая ChatGPT из инструмента по запросу в контекстно-зависимого помощника. Это может быть полезно для пользователей ChatGPT Pro, которые хотят получать актуальные и персонализированные обновления по интересующим их темам.
2. Какие данные использует ChatGPT Pulse для создания персонализированных сводок?
Для создания персонализированных сводок ChatGPT Pulse использует данные из чатов пользователя, его явные отзывы и данные из подключённых приложений (например, календарь/электронная почта), где это разрешено. Это позволяет Pulse учитывать интересы и потребности пользователя, а также предоставлять более релевантные и полезные сводки.
3. Какие задачи охватывает GDPval и как он оценивает работу моделей ИИ?
GDPval охватывает задачи в 44 профессиях в девяти секторах экономики США, доминирующих по ВВП. Он оценивает работу моделей ИИ, сравнивая их результаты с результатами профессиональных экспертов. GDPval фокусируется на реальных результатах, таких как презентации, таблицы, краткие обзоры, чертежи CAD, аудио/видео, и оценивает их посредством слепых попарных сравнений.
4. Какие преимущества предлагает GDPval по сравнению с другими бенчмарками для оценки моделей ИИ?
GDPval предлагает несколько преимуществ по сравнению с другими бенчмарками для оценки моделей ИИ. Во-первых, он охватывает широкий спектр профессий и секторов экономики, что позволяет оценить работу моделей в различных контекстах. Во-вторых, он фокусируется на реальных результатах, что делает его более релевантным для практических приложений. В-третьих, GDPval использует процент выигрыша человека по сравнению с экспертными результатами, что позволяет пересчитывать базу по мере улучшения моделей.
5. Какие ограничения есть у GDPval и в каких ситуациях он может быть менее эффективен?
GDPval ориентирован на опосредованную компьютером интеллектуальную работу. Физический труд, долгосрочное взаимодействие и организационные инструменты выходят за рамки. Задачи должны быть одноразовыми и точно определёнными; абляции показывают снижение производительности при уменьшении контекста. Это означает, что GDPval может быть менее эффективен в ситуациях, где требуется более глубокий анализ или взаимодействие с другими людьми.