Fundamental concept:solving business problems with data science stars with analytical engineering:designing an analytical solution,based on the data,tools,and techniques available(都比较直白,不翻译了)
Exemplary technique:expected value as a framework for data science solution design(以期望值为框架来设计数据科学解决方案)
这一章主要讲2个案例,来描述下实际的商业问题怼到模型上的时候会遇到的各种困难。
Targeting the Best Prospects for a Charity Mailing(关注慈善邮寄的最好预期)
市场场景比较好入手,原因有二:场景多,基础架构可泛化性强。
我们就从慈善邮寄的捐赠人开始分析。
The Expected Value Framework:Decomposing the Business Problem and Recomposing the Solution Pieces(期望值分析框架:分解业务问题并重新组合解决方案)
我们的目标是最大化得到捐赠的利润,捐赠收入可以通过下式来表达:
其中是给定的接受者x捐赠的概率,
是这个人捐赠的金额,
是我们从一个没响应的用户那边得到的价值。
但是每个人的捐赠金额直到他response为止都是不知道的,所以我们把捐赠金额也改成一个函数,变化式如下:
这里是从response的用户那得到的收入,
是不响应的用户得到的收入。
和前面的章节一样,是收到的捐款减去成本,
是0减去成本。
假如是用户x的捐款金额,c是邮寄访问材料的成本,根据公式
我们希望这个收入是正值,所以需要
也就是捐款的期望值,需要高于鼓动一个人捐款的成本,那么收益为正。
A Brief Digression on Selection Bias(一个简短的离题:选择性偏差)
由于不能随机地去采集样本而导致的学习集的要素的偏离状态是选择性偏差。
应对选择性偏差的方法超出了本书范围,有兴趣可以读Zadrozny & Elkan,2001;Zadrozny,2004来了解详情。(不知道推荐了啥,大家自己百度点材料来看吧)
Our Churn Example Revisited with Even More Sophistication(我们的客户流失案例更为复杂)
这小节针对捐款收集问题,更细致地去分析。
The Expected Value Framework:Structuring a More Complicated Business Problem(期望值框架:构建更复杂的业务问题)
在churn中使用利润期望公式如下:
其中是顾客被特殊照顾后不流失的概率,
是顾客留下我们得到的价值,
是顾客流失我们得到的价值。
假设客户流失的价值是0,那么有:
简化后有个问题,就是这里只表示了留下的用户带来的价值,没有体现流失的用户导致的价值损失。
Assessing the Influence of the Incentive(评估激励的影响)
下面让我们把给了激励后留下用户的收入和流失用户的成本消耗一起计算进来。
令是x用户留下的利润,不包含激励成本,激励成本是c。
targeting的期望的收益是:
not targeting的期望的收益是:
现在我们要激励的用户就是的值最大的用户。
“value of targeting”即,从而有等式11-1:
From an Expected Value Decomposition to a Data Science Solution(从期望值分解到数据科学解决方案)
都是论述,大家自己看看就行了,强调了数据资产的重要性,注意建模的时候经常测定一下模型的准确度,避免浪费时间。
summary
几条分析引擎搭建时的思考总结:
1. 我们得不到这个事件的数据;
2. 精确地对这个方面进行建模花费太贵;
3. 这件事不大可能,我们正准备忽略它;
4. 这个函数看起来足够了,我们应该用它继续分析。
分析引擎的重点并不是将所有可能性汇总得到一个复杂的解决方案,而是推进用数据分析的方式角度来思考问题。
网友评论