Яндекс недавно внёс значительный вклад в сообщество разработчиков систем рекомендаций, выпустив Yambda — крупнейший в мире общедоступный набор данных для исследований и разработок в этой области. Этот набор данных призван преодолеть разрыв между академическими исследованиями и приложениями промышленного масштаба, предлагая почти 5 миллиардов анонимных событий взаимодействия пользователей из Yandex Music — одного из флагманских стриминговых сервисов компании, которым пользуются более 28 миллионов пользователей в месяц.
Почему Yambda имеет значение: решение проблемы нехватки данных в системах рекомендаций
Системы рекомендаций лежат в основе персонализированного взаимодействия многих цифровых сервисов сегодня, от электронной коммерции и социальных сетей до стриминговых платформ. Эти системы в значительной степени полагаются на огромные объёмы данных о поведении пользователей, таких как клики, лайки и прослушивания, чтобы определить предпочтения пользователей и предоставить им персонализированный контент.
Однако область систем рекомендаций отставала от других областей искусственного интеллекта, таких как обработка естественного языка, во многом из-за нехватки больших, общедоступных наборов данных. В отличие от больших языковых моделей (LLM), которые обучаются на общедоступных текстовых источниках, системам рекомендаций нужны чувствительные данные о поведении пользователей, которые являются коммерчески ценными и которые трудно анонимизировать. В результате компании традиционно тщательно охраняли эти данные, ограничивая доступ исследователей к наборам данных реального масштаба.
Существующие наборы данных, такие как Million Playlist Dataset от Spotify, данные Netflix Prize и журналы кликов Criteo, либо слишком малы, либо не содержат подробной временной информации, либо плохо документированы для разработки моделей рекомендаций производственного уровня. Выпуск Yandex’ом Yambda решает эти проблемы, предоставляя высококачественный обширный набор данных с богатым набором функций и гарантиями анонимизации.
Что содержит Yambda: масштаб, богатство и конфиденциальность
Набор данных Yambda включает 4,79 миллиарда анонимных взаимодействий пользователей, собранных за 10-месячный период. Эти события произошли примерно от 1 миллиона пользователей, взаимодействующих почти с 9,4 миллионами треков в Yandex Music. Набор данных включает:
* Взаимодействия пользователей: как неявную обратную связь (прослушивания), так и явную обратную связь (лайки, дизлайки и их удаления).
* Анонимизированные аудиовложения: векторные представления треков, полученные с помощью свёрточных нейронных сетей, позволяющие моделям использовать сходство аудиоконтента.
* Флаги органических взаимодействий: флаг is_organic указывает, был ли пользователь обнаружил трек самостоятельно или через рекомендации, облегчая поведенческий анализ.
* Точные временные метки: каждое событие имеет временную метку для сохранения временного порядка, что имеет решающее значение для моделирования последовательного поведения пользователей.
Все идентификаторы пользователей и треков анонимизированы с помощью числовых идентификаторов в соответствии со стандартами конфиденциальности, что гарантирует отсутствие раскрытия какой-либо личной информации.
Набор данных представлен в формате Apache Parquet, который оптимизирован для сред обработки больших данных, таких как Apache Spark и Hadoop, а также совместим с аналитическими библиотеками, такими как Pandas и Polars. Это делает Yambda доступным для исследователей и разработчиков, работающих в различных средах.
Метод оценки: глобальный временной сплит
Ключевым нововведением в наборе данных Яндекса является использование стратегии оценки Global Temporal Split (GTS). В типичных исследованиях систем рекомендаций широко используемый метод Leave-One-Out удаляет последнее взаимодействие каждого пользователя для тестирования. Однако этот подход нарушает временную непрерывность взаимодействий пользователей, создавая нереалистичные условия обучения.
GTS, с другой стороны, разделяет данные на основе временных меток, сохраняя всю последовательность событий. Этот подход имитирует сценарии рекомендаций в реальном мире более точно, поскольку предотвращает утечку любых будущих данных в обучение и позволяет тестировать модели на действительно невидимых, хронологически более поздних взаимодействиях.
Такая оценка с учётом времени необходима для сравнения алгоритмов в реальных условиях и понимания их практической эффективности.
Базовые модели и показатели включены
Чтобы поддержать сравнительный анализ и ускорить инновации, Яндекс предоставляет базовые модели рекомендаций, реализованные на наборе данных, в том числе:
* MostPop: модель, основанная на популярности, рекомендующая наиболее популярные элементы.
* DecayPop: модель популярности с временным затуханием.
* ItemKNN: метод коллаборативной фильтрации на основе соседства.
* iALS: неявная факторизация наименьших квадратов с чередованием.
* BPR: байесовский персонализированный рейтинг, метод парного ранжирования.
* SANSA и SASRec: модели, учитывающие последовательность и использующие механизмы самовнимания.
Эти базовые показатели оцениваются с использованием стандартных показателей рекомендаций, таких как:
* NDCG@k (Normalized Discounted Cumulative Gain): измеряет качество ранжирования, подчёркивая позицию релевантных элементов.
* Recall@k: оценивает долю извлечённых релевантных элементов.
* Coverage@k: указывает на разнообразие рекомендаций по каталогу.
Предоставление этих эталонных показателей помогает исследователям быстро оценить производительность новых алгоритмов по сравнению с установленными методами.
Широкая применимость за пределами музыкального стриминга
Хотя набор данных получен из музыкального стримингового сервиса, его ценность выходит далеко за рамки этой области. Типы взаимодействий, динамика поведения пользователей и большой масштаб делают Yambda универсальным эталоном для систем рекомендаций в таких секторах, как электронная коммерция, видеоплатформы и социальные сети. Алгоритмы, проверенные на этом наборе данных, могут быть обобщены или адаптированы для различных задач рекомендаций.
Преимущества для разных заинтересованных сторон
* Наука: позволяет проводить строгие испытания теорий и новых алгоритмов в промышленном масштабе.
* Стартапы и малый и средний бизнес (SMB): предлагает ресурс, сопоставимый с тем, что есть у технологических гигантов, выравнивая правила игры и ускоряя разработку передовых систем рекомендаций.
* Конечные пользователи: косвенно получает выгоду от более умных алгоритмов рекомендаций, которые улучшают поиск контента, сокращают время поиска и повышают вовлечённость.
Моя Волна: персонализированная система рекомендаций Яндекса
Yandex Music использует собственную систему рекомендаций под названием My Wave, которая включает в себя глубокие нейронные сети и искусственный интеллект для персонализации музыкальных рекомендаций. My Wave анализирует тысячи факторов, включая:
* последовательности взаимодействий пользователей и историю прослушивания;
* настраиваемые предпочтения, такие как настроение и язык;
* анализ музыки в реальном времени, включая спектрограммы, ритм, вокальный тон, частотные диапазоны и жанры.
Эта система динамически адаптируется к индивидуальным вкусам, выявляя сходства аудио и прогнозируя предпочтения, демонстрируя тот тип сложного механизма рекомендаций, который выигрывает от крупномасштабных наборов данных, таких как Yambda.
Обеспечение конфиденциальности и этического использования
Выпуск Yambda подчёркивает важность конфиденциальности в исследованиях систем рекомендаций. Яндекс анонимизирует все данные с помощью числовых идентификаторов и исключает личную информацию. Набор данных содержит только сигналы взаимодействия, не раскрывая точные личности пользователей или конфиденциальные атрибуты.
Такой баланс между открытостью и конфиденциальностью позволяет проводить надёжные исследования, защищая при этом личные данные пользователей, что является критически важным фактором для этического развития технологий искусственного интеллекта.
Доступ и версии
Яндекс предлагает набор данных Yambda в трёх версиях для размещения различных исследовательских и вычислительных мощностей:
* полная версия: ~5 миллиардов событий;
* средняя версия: ~500 миллионов событий;
* малая версия: ~50 миллионов событий.
Все версии доступны через Hugging Face, популярную платформу для размещения наборов данных и моделей машинного обучения, что упрощает интеграцию в рабочие процессы исследований.
Заключение
Выпуск набора данных Yambda компанией Яндекс знаменует собой поворотный момент в исследованиях систем рекомендаций. Предоставляя беспрецедентный масштаб анонимных данных о взаимодействиях в сочетании с оценкой с учётом времени и базовыми показателями, он устанавливает новый стандарт для сравнительного анализа и ускорения инноваций. Исследователи, стартапы и предприятия могут теперь исследовать и разрабатывать системы рекомендаций, которые лучше отражают реальное использование и обеспечивают повышенную персонализацию.
Поскольку системы рекомендаций продолжают влиять на бесчисленное количество онлайн-опытов, наборы данных, подобные Yambda, играют основополагающую роль в расширении границ того, чего может достичь персонализация на основе искусственного интеллекта.