技术架构包括:
- 数据部分
数据的产生和基础处理: 客户端、服务端实时数据(秒级延迟)--》流处理平台spark等(分钟延迟)---》大数据平台(小时级延迟)离线数据处理
流计算平台数据的使用:
- 实时更新特征,供模型使用
- 实时产出模型效果,abtest
批数据处理使用:
-
生成训练样本、离线训练
-
效果监控、评估
-
模型部分
召回层--排序层---补充策略层(多样性、冷启动、新鲜度等)
效果的评估: 离线评估、线上AB测试
作为策略同学,在实践推荐系统中需要考虑哪些问题?
- 使用哪些特征? 特征如何进行预处理?
- 如何做召回? 召回的衡量指标?
- 如何做推荐? 推荐的衡量指标?
- 实时性
- 优化目标
- 如何基于用户动机改进模型结构?
推荐系统的特征工程:
特征分类包括:
- 用户行为数据
显性反馈行为: 评分 赞踩等
隐性反馈行为: 点击 播放 收藏 - 用户关系数据
- 属性、标签类: 针对用户的用户画像; 针对物料的内容理解
- 上下文信息: 推荐行为发生的场景的信息
- 统计类特征:ctr cvr等
特征处理方法:
- 连续特征: 归一化、离散化(防止过拟合)
- 类别型特征: one-hot, multi-hot---特征过于稀疏;embedding
如何做召回
- 多路召回
- 基于embedding的召回方法
推荐系统的实时性
特征的实时性|| 模型的实时性
模型的实时性:
三种方式: 全量更新、增量更新、在线学习
优化目标
youtube推荐模型: 观看时常
alibaba推荐模型: ctr结合cvr,多目标:ESMM
根据用户动机选择合适的模型
- 阿里巴巴的eien模型:
用户的兴趣进化--》GRU序列模型 - netflix:
明星粉丝---》影片预览图个性化模型 - roku
页面交互---信息挖掘
网友评论