Яндекс выпустил Yambda: крупнейший в мире набор данных для ускорения разработки систем рекомендаций

Яндекс недавно внёс значительный вклад в сообщество разработчиков систем рекомендаций, выпустив Yambda — крупнейший в мире общедоступный набор данных для исследований и разработок в области систем рекомендаций. Этот набор данных призван преодолеть разрыв между академическими исследованиями и приложениями промышленного масштаба, предлагая почти 5 миллиардов анонимных событий взаимодействия пользователей с Яндекс Музыкой — одним из флагманских стриминговых сервисов компании, насчитывающим более 28 миллионов пользователей в месяц.

Почему Yambda имеет значение: решение проблемы критического дефицита данных в системах рекомендаций

Системы рекомендаций лежат в основе персонализированного взаимодействия многих цифровых сервисов, от электронной коммерции и социальных сетей до стриминговых платформ. Эти системы в значительной степени полагаются на огромные объёмы данных о поведении пользователей, таких как клики, лайки и прослушивания, чтобы определить предпочтения пользователей и предоставить персонализированный контент.

Однако область систем рекомендаций отставала от других областей искусственного интеллекта, таких как обработка естественного языка, в основном из-за нехватки больших, общедоступных наборов данных. В отличие от больших языковых моделей (LLM), которые обучаются на общедоступных текстовых источниках, системам рекомендаций требуются конфиденциальные данные о поведении, которые коммерчески ценны и их трудно анонимизировать. В результате компании традиционно тщательно охраняли эти данные, ограничивая доступ исследователей к наборам данных реального масштаба.

Существующие наборы данных, такие как Million Playlist Dataset от Spotify, данные Netflix Prize и журналы кликов Criteo, либо слишком малы, либо не содержат подробной информации о времени, либо плохо документированы для разработки моделей рекомендаций производственного уровня. Выпуск Яндексом Yambda решает эти проблемы, предоставляя высококачественный обширный набор данных с богатым набором функций и гарантиями анонимизации.

Что содержит Yambda: масштаб, богатство и конфиденциальность

Набор данных Yambda включает 4,79 миллиарда анонимных взаимодействий пользователей, собранных за 10-месячный период. Эти события связаны примерно с 1 миллионом пользователей, взаимодействующих почти с 9,4 миллионами треков в Яндекс Музыке.

Набор данных включает:
* Взаимодействия пользователей: как неявную обратную связь (прослушивания), так и явную обратную связь (лайки, дизлайки и их удаления).
* Анонимизированные аудиовложения: векторные представления треков, полученные с помощью свёрточных нейронных сетей, позволяющие моделям использовать сходство аудиоконтента.
* Флаги органических взаимодействий: флаг is_organic указывает, обнаружил ли пользователь трек самостоятельно или по рекомендации, что облегчает поведенческий анализ.
* Точные временные метки: каждое событие имеет временную метку для сохранения хронологического порядка, что имеет решающее значение для моделирования последовательного поведения пользователей.

Все идентификаторы пользователей и треков анонимизированы с помощью числовых идентификаторов в соответствии со стандартами конфиденциальности, что исключает раскрытие какой-либо личной информации.

Набор данных представлен в формате Apache Parquet, который оптимизирован для платформ обработки больших данных, таких как Apache Spark и Hadoop, а также совместим с аналитическими библиотеками, такими как Pandas и Polars. Это делает Yambda доступным для исследователей и разработчиков, работающих в различных средах.

Метод оценки: глобальный временной сплит

Ключевым нововведением в наборе данных Яндекса является использование стратегии оценки Global Temporal Split (GTS). При типичных исследованиях систем рекомендаций широко используемый метод Leave-One-Out удаляет последнее взаимодействие каждого пользователя для тестирования. Однако этот подход нарушает временную непрерывность взаимодействий пользователей, создавая нереалистичные условия обучения.

GTS, с другой стороны, разделяет данные на основе временных меток, сохраняя всю последовательность событий. Этот подход имитирует сценарии рекомендаций в реальном мире, поскольку предотвращает утечку любых будущих данных в обучение и позволяет тестировать модели на действительно невидимых, хронологически более поздних взаимодействиях.

Такая оценка с учётом времени необходима для сравнительного анализа алгоритмов в реальных условиях и понимания их практической эффективности.

Базовые модели и показатели включены

Чтобы поддержать сравнительный анализ и ускорить инновации, Яндекс предоставляет базовые модели рекомендаций, реализованные на наборе данных, включая:
* MostPop: модель, основанная на популярности, рекомендующая самые популярные элементы.
* DecayPop: модель с учётом временной давности популярности.
* ItemKNN: метод коллаборативной фильтрации на основе соседства.
* iALS: неявная факторизация наименьших квадратов.
* BPR: байесовский персонализированный рейтинг, метод парного ранжирования.
* SANSA и SASRec: модели, учитывающие последовательность и использующие механизмы самовнимания.

Эти базовые показатели оцениваются с помощью стандартных показателей рекомендаций, таких как:
* NDCG@k (Normalized Discounted Cumulative Gain): измеряет качество ранжирования, подчёркивая позицию релевантных элементов.
* Recall@k: оценивает долю извлечённых релевантных элементов.
* Coverage@k: указывает на разнообразие рекомендаций по каталогу.

Предоставление этих эталонных показателей помогает исследователям быстро оценить производительность новых алгоритмов по сравнению с установленными методами.

Широкая применимость за пределами музыкального стриминга

Хотя набор данных происходит из музыкального стримингового сервиса, его ценность выходит далеко за рамки этой области. Типы взаимодействий, динамика поведения пользователей и большой масштаб делают Yambda универсальным эталоном для систем рекомендаций в таких секторах, как электронная коммерция, видеоплатформы и социальные сети. Алгоритмы, проверенные на этом наборе данных, могут быть обобщены или адаптированы для различных задач рекомендаций.

Преимущества для разных заинтересованных сторон

* Научные круги: позволяет проводить тщательное тестирование теорий и новых алгоритмов в промышленно значимом масштабе.
* Стартапы и малый и средний бизнес (SMB): предлагает ресурс, сопоставимый с тем, что есть у технологических гигантов, выравнивая правила игры и ускоряя разработку передовых систем рекомендаций.
* Конечные пользователи: косвенно выигрывает от более умных алгоритмов рекомендаций, которые улучшают поиск контента, сокращают время поиска и повышают вовлечённость.

Моя Волна: персонализированная система рекомендаций Яндекса

Яндекс Музыка использует собственную систему рекомендаций под названием Моя Волна, которая включает в себя глубокие нейронные сети и искусственный интеллект для персонализации музыкальных рекомендаций. Моя Волна анализирует тысячи факторов, включая:
* последовательности взаимодействия пользователей и историю прослушивания;
* настраиваемые предпочтения, такие как настроение и язык;
* анализ музыки в реальном времени с помощью спектрограмм, ритма, тональности голоса, частотных диапазонов и жанров.

Эта система динамически адаптируется к индивидуальным вкусам, выявляя аудиосходства и прогнозируя предпочтения, демонстрируя, какой сложный механизм рекомендаций может выиграть от крупномасштабных наборов данных, таких как Yambda.

Обеспечение конфиденциальности и этического использования

Выпуск Yambda подчёркивает важность конфиденциальности в исследованиях систем рекомендаций. Яндекс анонимизирует все данные с помощью числовых идентификаторов и исключает личную информацию. Набор данных содержит только сигналы взаимодействия, не раскрывая точные личности пользователей или конфиденциальные атрибуты.

Этот баланс между открытостью и конфиденциальностью позволяет проводить надёжные исследования, одновременно защищая личные данные пользователей, что является критически важным фактором для этического развития технологий искусственного интеллекта.

Доступ и версии

Яндекс предлагает набор данных Yambda в трёх версиях, чтобы соответствовать различным исследовательским и вычислительным возможностям:
* Полная версия: ~5 миллиардов событий.
* Средняя версия: ~500 миллионов событий.
* Малая версия: ~50 миллионов событий.

Все версии доступны через Hugging Face, популярную платформу для размещения наборов данных и моделей машинного обучения, что упрощает интеграцию в рабочие процессы исследований.

Заключение

Выпуск Яндексом набора данных Yambda знаменует собой поворотный момент в исследованиях систем рекомендаций. Предоставляя беспрецедентный масштаб анонимных данных о взаимодействиях в сочетании с оценкой с учётом времени и базовыми показателями, он устанавливает новый стандарт для сравнительного анализа и ускорения инноваций. Исследователи, стартапы и предприятия могут теперь исследовать и разрабатывать системы рекомендаций, которые лучше отражают реальное использование и обеспечивают повышенную персонализацию.

Поскольку системы рекомендаций продолжают влиять на бесчисленное количество онлайн-взаимодействий, наборы данных, подобные Yambda, играют основополагающую роль в расширении границ того, чего может достичь персонализация на основе искусственного интеллекта.

Источник