Отима.ру Отима.ру

Крупнейший кросс-доменный датасет для рекомендательных систем появился в открытом доступе

Крупнейший кросс-доменный датасет для рекомендательных систем появился в открытом доступе
15:46

Группа «Т-Технологии» опубликовала датасет T-ECD (T-Tech E-commerce Cross-Domain Dataset), который может стать новым бенчмарком для исследований в области рекомендательных систем. Он собран на основе анонимизированных данных пользователей сервисов «Город: Шопинг» и «Супермаркеты», а также рекламной платформы Т-Банка.

Особенность T-ECD — кросс-доменность. В него вошли пять взаимосвязанных источников: транзакции и чеки, отзывы, данные о взаимодействии с рекомендациями FMCG и non-FMCG-товаров, а также истории активаций акций и кэшбэков. Эти наборы можно использовать отдельно или связывать по ключам пользователей, товаров и брендов, формируя полные профили поведения.

Изображение

Датасет включает глубину от 1 года до 3,5 лет, что позволяет анализировать краткосрочные и долгосрочные предпочтения, сезонность и тренды. Помимо явной обратной связи (покупки, отзывы) в T-ECD есть данные о «просмотрах» и источниках рекомендаций — поиск, каталог или выдача системы. Это открывает возможность точнее оценивать реакцию пользователей на алгоритмы.

«Мы считаем важным вносить вклад в развитие открытых датасетов и моделей. T-ECD может стать новым бенчмарком и помочь сообществу улучшить качество персонализации и клиентского опыта», — отметила Марина Ананьева, руководитель направления рекомендательных систем в Т-Банке.

В «Т-Технологиях» считают, что датасет снимает одну из ключевых проблем индустрии — большинство открытых наборов устарели и не отражают современное поведение пользователей. Теперь исследователи получают данные, максимально приближенные к реальности, что повышает ценность экспериментов с алгоритмами машинного обучения.

Датасет T-ECD доступен на платформе Hugging Face под лицензией Apache 2.0, разрешающей свободное использование и модификацию.


Источник: hightech.fm
Нет комментариев. Ваш будет первым!