Яндекс недавно внёс значительный вклад в сообщество разработчиков систем рекомендаций, выпустив Yambda — крупнейший в мире общедоступный набор данных для исследований и разработок в области систем рекомендаций. Этот набор данных призван преодолеть разрыв между академическими исследованиями и приложениями промышленного масштаба, предлагая почти 5 миллиардов анонимных событий взаимодействия пользователей с Яндекс Музыкой — одним из флагманских стриминговых сервисов компании, насчитывающим более 28 миллионов пользователей в месяц.
Почему Yambda имеет значение: решение проблемы критического дефицита данных в системах рекомендаций
Системы рекомендаций лежат в основе персонализированного взаимодействия многих цифровых сервисов, от электронной коммерции и социальных сетей до стриминговых платформ. Эти системы в значительной степени полагаются на огромные объёмы данных о поведении пользователей, таких как клики, лайки и прослушивания, чтобы определить предпочтения пользователей и предоставить персонализированный контент.
Однако область систем рекомендаций отставала от других областей искусственного интеллекта, таких как обработка естественного языка, в основном из-за нехватки больших, общедоступных наборов данных. В отличие от больших языковых моделей (LLM), которые обучаются на общедоступных текстовых источниках, системам рекомендаций требуются конфиденциальные данные о поведении, которые коммерчески ценны и их трудно анонимизировать. В результате компании традиционно тщательно охраняли эти данные, ограничивая доступ исследователей к наборам данных реального масштаба.
Существующие наборы данных, такие как Million Playlist Dataset от Spotify, данные Netflix Prize и журналы кликов Criteo, либо слишком малы, либо не содержат подробной информации о времени, либо плохо документированы для разработки моделей рекомендаций производственного уровня. Выпуск Яндексом Yambda решает эти проблемы, предоставляя высококачественный обширный набор данных с богатым набором функций и гарантиями анонимизации.
Что содержит Yambda: масштаб, богатство и конфиденциальность
Набор данных Yambda включает 4,79 миллиарда анонимных взаимодействий пользователей, собранных за 10-месячный период. Эти события связаны примерно с 1 миллионом пользователей, взаимодействующих почти с 9,4 миллионами треков в Яндекс Музыке.
Набор данных включает:
* Взаимодействия пользователей: как неявную обратную связь (прослушивания), так и явную обратную связь (лайки, дизлайки и их удаления).
* Анонимизированные аудиовложения: векторные представления треков, полученные с помощью свёрточных нейронных сетей, позволяющие моделям использовать сходство аудиоконтента.
* Флаги органических взаимодействий: флаг is_organic указывает, обнаружил ли пользователь трек самостоятельно или по рекомендации, что облегчает поведенческий анализ.
* Точные временные метки: каждое событие имеет временную метку для сохранения хронологического порядка, что имеет решающее значение для моделирования последовательного поведения пользователей.
Все идентификаторы пользователей и треков анонимизированы с помощью числовых идентификаторов в соответствии со стандартами конфиденциальности, что исключает раскрытие какой-либо личной информации.
Набор данных представлен в формате Apache Parquet, который оптимизирован для платформ обработки больших данных, таких как Apache Spark и Hadoop, а также совместим с аналитическими библиотеками, такими как Pandas и Polars. Это делает Yambda доступным для исследователей и разработчиков, работающих в различных средах.
Метод оценки: глобальный временной сплит
Ключевым нововведением в наборе данных Яндекса является использование стратегии оценки Global Temporal Split (GTS). При типичных исследованиях систем рекомендаций широко используемый метод Leave-One-Out удаляет последнее взаимодействие каждого пользователя для тестирования. Однако этот подход нарушает временную непрерывность взаимодействий пользователей, создавая нереалистичные условия обучения.
GTS, с другой стороны, разделяет данные на основе временных меток, сохраняя всю последовательность событий. Этот подход имитирует сценарии рекомендаций в реальном мире, поскольку предотвращает утечку любых будущих данных в обучение и позволяет тестировать модели на действительно невидимых, хронологически более поздних взаимодействиях.
Такая оценка с учётом времени необходима для сравнительного анализа алгоритмов в реальных условиях и понимания их практической эффективности.
Базовые модели и показатели включены
Чтобы поддержать сравнительный анализ и ускорить инновации, Яндекс предоставляет базовые модели рекомендаций, реализованные на наборе данных, включая:
* MostPop: модель, основанная на популярности, рекомендующая самые популярные элементы.
* DecayPop: модель с учётом временной давности популярности.
* ItemKNN: метод коллаборативной фильтрации на основе соседства.
* iALS: неявная факторизация наименьших квадратов.
* BPR: байесовский персонализированный рейтинг, метод парного ранжирования.
* SANSA и SASRec: модели, учитывающие последовательность и использующие механизмы самовнимания.
Эти базовые показатели оцениваются с помощью стандартных показателей рекомендаций, таких как:
* NDCG@k (Normalized Discounted Cumulative Gain): измеряет качество ранжирования, подчёркивая позицию релевантных элементов.
* Recall@k: оценивает долю извлечённых релевантных элементов.
* Coverage@k: указывает на разнообразие рекомендаций по каталогу.
Предоставление этих эталонных показателей помогает исследователям быстро оценить производительность новых алгоритмов по сравнению с установленными методами.
Широкая применимость за пределами музыкального стриминга
Хотя набор данных происходит из музыкального стримингового сервиса, его ценность выходит далеко за рамки этой области. Типы взаимодействий, динамика поведения пользователей и большой масштаб делают Yambda универсальным эталоном для систем рекомендаций в таких секторах, как электронная коммерция, видеоплатформы и социальные сети. Алгоритмы, проверенные на этом наборе данных, могут быть обобщены или адаптированы для различных задач рекомендаций.
Преимущества для разных заинтересованных сторон
* Научные круги: позволяет проводить тщательное тестирование теорий и новых алгоритмов в промышленно значимом масштабе.
* Стартапы и малый и средний бизнес (SMB): предлагает ресурс, сопоставимый с тем, что есть у технологических гигантов, выравнивая правила игры и ускоряя разработку передовых систем рекомендаций.
* Конечные пользователи: косвенно выигрывает от более умных алгоритмов рекомендаций, которые улучшают поиск контента, сокращают время поиска и повышают вовлечённость.
Моя Волна: персонализированная система рекомендаций Яндекса
Яндекс Музыка использует собственную систему рекомендаций под названием Моя Волна, которая включает в себя глубокие нейронные сети и искусственный интеллект для персонализации музыкальных рекомендаций. Моя Волна анализирует тысячи факторов, включая:
* последовательности взаимодействия пользователей и историю прослушивания;
* настраиваемые предпочтения, такие как настроение и язык;
* анализ музыки в реальном времени с помощью спектрограмм, ритма, тональности голоса, частотных диапазонов и жанров.
Эта система динамически адаптируется к индивидуальным вкусам, выявляя аудиосходства и прогнозируя предпочтения, демонстрируя, какой сложный механизм рекомендаций может выиграть от крупномасштабных наборов данных, таких как Yambda.
Обеспечение конфиденциальности и этического использования
Выпуск Yambda подчёркивает важность конфиденциальности в исследованиях систем рекомендаций. Яндекс анонимизирует все данные с помощью числовых идентификаторов и исключает личную информацию. Набор данных содержит только сигналы взаимодействия, не раскрывая точные личности пользователей или конфиденциальные атрибуты.
Этот баланс между открытостью и конфиденциальностью позволяет проводить надёжные исследования, одновременно защищая личные данные пользователей, что является критически важным фактором для этического развития технологий искусственного интеллекта.
Доступ и версии
Яндекс предлагает набор данных Yambda в трёх версиях, чтобы соответствовать различным исследовательским и вычислительным возможностям:
* Полная версия: ~5 миллиардов событий.
* Средняя версия: ~500 миллионов событий.
* Малая версия: ~50 миллионов событий.
Все версии доступны через Hugging Face, популярную платформу для размещения наборов данных и моделей машинного обучения, что упрощает интеграцию в рабочие процессы исследований.
Заключение
Выпуск Яндексом набора данных Yambda знаменует собой поворотный момент в исследованиях систем рекомендаций. Предоставляя беспрецедентный масштаб анонимных данных о взаимодействиях в сочетании с оценкой с учётом времени и базовыми показателями, он устанавливает новый стандарт для сравнительного анализа и ускорения инноваций. Исследователи, стартапы и предприятия могут теперь исследовать и разрабатывать системы рекомендаций, которые лучше отражают реальное использование и обеспечивают повышенную персонализацию.
Поскольку системы рекомендаций продолжают влиять на бесчисленное количество онлайн-взаимодействий, наборы данных, подобные Yambda, играют основополагающую роль в расширении границ того, чего может достичь персонализация на основе искусственного интеллекта.