美文网首页
推荐系统 - 常用数据集

推荐系统 - 常用数据集

作者: nlpming | 来源:发表于2021-11-16 17:45 被阅读0次

1. Criteo 数据集

  • criteo数据集用于广告点击率预估任务(标签:0/1);其中包含13个dense特征和26个sparse特征;
  • 数据格式如下:第一列为label, 之后分别是13个dense特征(integer feature),26个sparse特征(categorical feature);每列之间使用tab进行分隔。
<label> <integer feature 1> ... <integer feature 13> <categorical feature 1> ... <categorical feature 26>

criteo 数据集效果排名:https://paperswithcode.com/sota/click-through-rate-prediction-on-criteo

image.png

2. MovieLens 数据集

3. Census Income 数据集

Listing of attributes:

>50K, <=50K.

age: continuous.
workclass: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.
fnlwgt: continuous.
education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
education-num: continuous.
marital-status: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.
occupation: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
relationship: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
race: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
sex: Female, Male.
capital-gain: continuous.
capital-loss: continuous.
hours-per-week: continuous.
native-country: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.

4. Avazu 数据集

Avazu 数据集各个模型效果:https://paperswithcode.com/sota/click-through-rate-prediction-on-avazu

image.png

相关文章

  • Spark 处理MovieLens 100k数据集案例

    一、获取数据集   我们使用的实验数据集是一个电影推荐方面的常用数据集MovieLens。它能应用于推荐系统和其它...

  • 推荐系统 - 常用数据集

    1. Criteo 数据集 criteo数据集用于广告点击率预估任务(标签:0/1);其中包含13个dense特征...

  • 个性化推荐系统(二)---构建推荐引擎

    当下推荐系统包含的层级特别的多,整个线上推荐系统包含:最上层线上推荐服务、中层各个推荐数据召回集(数据主题、分类池...

  • 新闻推荐(5): 主流数据集介绍

    前言 借着ACL2020上MASR的MIND数据集论文介绍一些新闻推荐中常用的数据集/ 论文:MIND: A La...

  • 推荐系统

    推荐系统基础 推荐系统简介 了解推荐相关常用概念 知道推荐系统的工程架构和算法架构 知道推荐系统的常用算法 知道协...

  • octave实现协同过滤推荐算法

    octave实现协同过滤推荐算法 标签:推荐算法 这是对关于电影评分的数据集使用协同过滤算法,实现推荐系统。 数据...

  • octave实现协同过滤推荐算法

    octave实现协同过滤推荐算法 标签:推荐算法 这是对关于电影评分的数据集使用协同过滤算法,实现推荐系统。 数据...

  • keras 数据集学习笔记 2/3

    keras 数据集的学习笔记 2/3 上次学习一些常用的数据集,本次将学习数据集的具体应用。 各种常用的数据集 数...

  • pytorch数据集相关操作

    常用数据集读取 对于常用的数据集,可以通过torchvision.datasets读取,torchvision.d...

  • KB4Rec:ADatasetforLinkingKnowled

    构建一个开放的linked KB(knowledge base)数据集用于推荐系统(RS):knowledge-a...

网友评论

      本文标题:推荐系统 - 常用数据集

      本文链接:https://www.haomeiwen.com/subject/tiihtrtx.html