引用来自:http://36kr.com/p/5114077.html
推荐系统:需要三个维度的变量
第一个维度:内容:提取不同内容特征做好推荐,比如主题词,关键词,兴趣标签,热度,作者来源,相似文章等等
第二个维度:用户特征:兴趣标签,职业,年龄,性别,用户行为等
第三个维度:环境特诊:地理位置,时间,网络,天气
可直接量化的目标:点击率,阅读时间,点赞,评论,转发
不可量化的目标 :广告的频控,标题党,低俗内容打压,置顶重要新闻,低级别账号内容降权

典型的推荐特征:
相关性特征,评论内容的属性和用户是否匹配,关键词匹配,分类匹配,主题匹配,来源匹配
环境特征,包括地理位置和时间
热度特征,全局热度,分类热度,主题热度,关键词热度。用户冷启动时候非常有效
协同特征,通过用户行为分析不同用户之间的相似性,比如点击相似,兴趣分类相似,主题相似,兴趣词相似,向量相似,从而扩展模型的探索能力。

协同过滤算法无法解决冷启动问题
今日头条推荐系统主要抽取的文本特征包括以下几类。首先是语义标签类特征,显式为文章打上语义标签。这部分标签是由人定义的特征,每个标签有明确的意义,标签体系是预定义的。此外还有隐式语义特征,主要是topic特征和关键词特征,其中topic特征是对于词概率分布的描述,无明确意义;而关键词特征会基于一些统一特征描述,无明确集合。




网友评论