笔记
一. 常用算法
分类:聚类、决策树、罗辑回归、支持向量机
预测:决策树、罗辑回归、线性回归、神经网络、朴素贝叶斯、关联分析(Apriori、时序分析)
变维:主成分分析、支持向量机
二. 常见场景
用户特征分析
用户行为预测
用户等级划分
转化路径分析
三. Crisp-DM方法论
Business understanding
Data understanding
Data prepare
·变量选取,少而精,衍生变量
1)先主观,根据变量含义选取对目标变量有潜在影响的因变量
2)后客观,相关性分析/PCA降维/决策树/回归分析
-判断因变量之间的相关性,剔除部分共线性变量
-判断因变量对目标变量的影响,剔除作用不大的变量
·抽样/异常值/缺失值/分布转换/类别转换
Modeling
·多尝试几种
·关注性价比
Evaluation
·离线检测,在线检测
·精度/召回率/ROC曲线/KS值/Lift值(响应率、捕获率)
Deployment
·跟踪落地效果,修正
·跟踪模型稳定性,修正
四. 其他
业务互动
能力推及
分析品质
商业意识
双线考核
感受
作者经验丰富,术道兼修
不知写这书时作者是P几,但“专家”级别应以之为楷模
方法讲究融会贯通
网友评论