Яндекс выпустил Yambda: крупнейший в мире набор данных для ускорения разработки систем рекомендаций

Яндекс недавно внёс значительный вклад в сообщество разработчиков систем рекомендаций, выпустив Yambda — крупнейший в мире общедоступный набор данных для исследований и разработок в этой области. Этот набор данных призван преодолеть разрыв между академическими исследованиями и приложениями промышленного масштаба, предлагая почти 5 миллиардов анонимных событий взаимодействия пользователей с Яндекс Музыкой — одним из флагманских стриминговых сервисов компании, насчитывающим более 28 миллионов пользователей в месяц.

Почему Yambda важен: решение проблемы нехватки данных в системах рекомендаций

Системы рекомендаций лежат в основе персонализированного опыта многих цифровых сервисов, от электронной коммерции и социальных сетей до стриминговых платформ. Эти системы в значительной степени полагаются на огромные объёмы данных о поведении пользователей, таких как клики, лайки и прослушивания, чтобы определить предпочтения пользователей и предоставить им персонализированный контент.

Однако область систем рекомендаций отставала от других областей искусственного интеллекта, таких как обработка естественного языка, во многом из-за нехватки больших, общедоступных наборов данных. В отличие от больших языковых моделей (LLM), которые обучаются на общедоступных текстовых источниках, системам рекомендаций нужны чувствительные данные о поведении пользователей, которые коммерчески ценны и которые трудно анонимизировать. В результате компании традиционно тщательно охраняли эти данные, ограничивая доступ исследователей к наборам данных реального масштаба.

Существующие наборы данных, такие как Million Playlist Dataset от Spotify, данные Netflix Prize и журналы кликов Criteo, либо слишком малы, либо не имеют подробной временной информации, либо плохо документированы для разработки моделей рекомендаций производственного уровня. Выпуск Яндексом Yambda решает эти проблемы, предоставляя высококачественный обширный набор данных с богатым набором функций и гарантиями анонимизации.

Что содержит Yambda: масштаб, богатство и конфиденциальность

Набор данных Yambda включает 4,79 миллиарда анонимных взаимодействий пользователей, собранных за 10-месячный период. Эти события произошли примерно от 1 миллиона пользователей, взаимодействующих почти с 9,4 миллионами треков в Яндекс Музыке.

Набор данных включает в себя:
* Взаимодействия пользователей: как неявную обратную связь (прослушивания), так и явную обратную связь (лайки, дизлайки и их удаления).
* Анонимизированные аудиовложения: векторные представления треков, полученные с помощью свёрточных нейронных сетей, позволяющие моделям использовать сходство аудиоконтента.
* Флаги органического взаимодействия: флаг is_organic указывает, обнаружил ли пользователь трек самостоятельно или через рекомендации, облегчая поведенческий анализ.
* Точные временные метки: каждое событие имеет временную метку для сохранения временной последовательности, что имеет решающее значение для моделирования последовательного поведения пользователей.

Все идентификаторы пользователей и треков анонимизированы с помощью числовых идентификаторов в соответствии со стандартами конфиденциальности, что гарантирует отсутствие раскрытия какой-либо личной информации.

Набор данных представлен в формате Apache Parquet, который оптимизирован для сред обработки больших данных, таких как Apache Spark и Hadoop, а также совместим с аналитическими библиотеками, такими как Pandas и Polars. Это делает Yambda доступным для исследователей и разработчиков, работающих в различных средах.

Метод оценки: глобальный временной сплит

Ключевым нововведением в наборе данных Яндекса является использование стратегии оценки Global Temporal Split (GTS). В типичных исследованиях систем рекомендаций широко используемый метод Leave-One-Out удаляет последнее взаимодействие каждого пользователя для тестирования. Однако этот подход нарушает временную непрерывность взаимодействий пользователей, создавая нереалистичные условия обучения.

GTS, с другой стороны, разделяет данные на основе временных меток, сохраняя всю последовательность событий. Этот подход имитирует сценарии рекомендаций в реальном мире более точно, поскольку предотвращает утечку любых будущих данных в обучение и позволяет тестировать модели на действительно невидимых, хронологически более поздних взаимодействиях.

Такая оценка с учётом временных факторов необходима для сравнения алгоритмов в реальных условиях и понимания их практической эффективности.

Базовые модели и показатели включены

Чтобы поддержать сравнительный анализ и ускорить инновации, Яндекс предоставляет базовые модели рекомендаций, реализованные на наборе данных, включая:
* MostPop: модель, основанная на популярности, рекомендующая самые популярные элементы.
* DecayPop: модель с учётом затухания популярности.
* ItemKNN: метод совместной фильтрации на основе соседства.
* iALS: неявная факторизация наименьших квадратов.
* BPR: байесовский персонализированный рейтинг, метод парного ранжирования.
* SANSA и SASRec: модели, учитывающие последовательность и использующие механизмы самовнимания.

Эти базовые показатели оцениваются с использованием стандартных показателей рекомендаций, таких как:
* NDCG@k (Normalized Discounted Cumulative Gain): измеряет качество ранжирования, подчёркивая позицию релевантных элементов.
* Recall@k: оценивает долю извлечённых релевантных элементов.
* Coverage@k: указывает на разнообразие рекомендаций по каталогу.

Предоставление этих эталонных показателей помогает исследователям быстро оценить производительность новых алгоритмов по сравнению с установленными методами.

Широкая применимость за пределами музыкального стриминга

Хотя набор данных происходит из музыкального стримингового сервиса, его ценность выходит далеко за рамки этой области. Типы взаимодействий, динамика поведения пользователей и большой масштаб делают Yambda универсальным эталоном для систем рекомендаций в таких секторах, как электронная коммерция, видеоплатформы и социальные сети. Алгоритмы, проверенные на этом наборе данных, могут быть обобщены или адаптированы для различных задач рекомендаций.

Преимущества для разных заинтересованных сторон

* Научные круги: позволяет провести тщательное тестирование теорий и новых алгоритмов в масштабе, соответствующем промышленным стандартам.
* Стартапы и малый и средний бизнес: предлагает ресурс, сопоставимый с тем, что есть у технологических гигантов, выравнивая правила игры и ускоряя разработку продвинутых механизмов рекомендаций.
* Конечные пользователи: косвенно получает выгоду от более умных алгоритмов рекомендаций, которые улучшают поиск контента, сокращают время поиска и повышают вовлечённость.

Моя Волна: персонализированная система рекомендаций Яндекса

Яндекс Музыка использует собственную систему рекомендаций под названием Моя Волна, которая включает в себя глубокие нейронные сети и искусственный интеллект для персонализации музыкальных предложений. Моя Волна анализирует тысячи факторов, включая:
* последовательности взаимодействия пользователей и историю прослушивания;
* настраиваемые предпочтения, такие как настроение и язык;
* анализ музыки в реальном времени по спектрограммам, ритму, вокальному тону, частотным диапазонам и жанрам.

Эта система динамически адаптируется к индивидуальным вкусам, выявляя аудиосходства и прогнозируя предпочтения, демонстрируя тот тип сложного механизма рекомендаций, который выигрывает от крупномасштабных наборов данных, таких как Yambda.

Обеспечение конфиденциальности и этического использования

Выпуск Yambda подчёркивает важность конфиденциальности в исследованиях систем рекомендаций. Яндекс анонимизирует все данные с помощью числовых идентификаторов и исключает личную информацию пользователей. В наборе данных содержатся только сигналы взаимодействия без раскрытия точных идентификаторов пользователей или конфиденциальных атрибутов.

Такой баланс между открытостью и конфиденциальностью позволяет проводить надёжные исследования, защищая при этом данные отдельных пользователей, что является критически важным фактором для этического развития технологий искусственного интеллекта.

Доступ и версии

Яндекс предлагает набор данных Yambda в трёх версиях, чтобы соответствовать различным исследовательским и вычислительным возможностям:
* Полная версия: ~5 миллиардов событий.
* Средняя версия: ~500 миллионов событий.
* Малая версия: ~50 миллионов событий.

Все версии доступны через Hugging Face, популярную платформу для размещения наборов данных и моделей машинного обучения, что упрощает интеграцию в рабочие процессы исследований.

Заключение

Выпуск Яндексом набора данных Yambda знаменует собой поворотный момент в исследованиях систем рекомендаций. Предоставляя беспрецедентный масштаб анонимных данных о взаимодействиях в сочетании с оценкой с учётом временных факторов и базовыми показателями, он устанавливает новый стандарт для сравнительного анализа и ускорения инноваций. Исследователи, стартапы и предприятия теперь могут исследовать и разрабатывать системы рекомендаций, которые лучше отражают реальное использование и обеспечивают повышенную персонализацию.

Поскольку системы рекомендаций продолжают влиять на бесчисленное количество онлайн-опытов, наборы данных, подобные Yambda, играют основополагающую роль в расширении границ того, чего можно достичь с помощью персонализации на базе искусственного интеллекта.

Источник