预测建模
分类:离散
回归:连续
关联分析
聚类分析
异常检测仪
练习题:
1.以下是否是数据挖掘任务。
a.根据性别划分公司的顾客。
否。这是一个简单的数据库查询
b.根据可盈利性划分公司的顾客。
否。这是数学计算,伴随着阈值应用。如果计算顾客购买的的可能性,则是数据挖掘。
c.公司的总销售额。
否。简单的数学计算。
d.根据学生的标识号码对学生数据库排序。
否。这是简单的数据库查询。
e.预测一枚均匀骰子的结果。
否。 既然骰子是均匀的,这就是概率计算。如果不均匀,我们需要从数据中,估计每种可能结果的可能性,那么这就更像是数据挖掘考虑的问题。然而在特定情况下,这种问题长时间以来是数学家要解决的问题,我们不把他考虑成数据挖掘问题。
f.利用历史记录预测某公司未来的股票价格。
是。我们会试图建立一个可预测连续股票价格价值的模型。这是一个简单的数据挖掘领域,即预测建模。我们可以使用回归模型来建模,即使许多领域的研究者们已经发展出了大量技术来预测时间序列。
g.监测病人心率的异常变化。
是。我们会建立一个心率正常变化的模型,当心率出现异常时发出警报。这就是数据挖掘领域中的异常检测。
h.监测地震活动的地震波。
是。这个案例中,我们会建立一个和地震活动相关的不同种地震波变化模型,当其中地震活动被观察到时发出警报。这是数据挖掘领域中的一种----分类。
i.提取声波的频率。
否。这是信号处理。
2.假设你是一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。举例说明如何使用诸如聚类、分类、关联规则挖掘和异常检测等技术,让数据挖掘为公司提供帮助。
举例:
聚类可以通过某个主题的相似性为结果分组,从而使呈现给用户的主题更加简洁,比如报告簇中使用最多的十个单词。
分类可以把结果分配到预定义的类别中,如:"运动","政治",等等。
序列关联分析可以检测特定序列伴随其他特定序列的高可能性,允许更有效率的存储。
异常检测技术可以发现用户流量的不寻常模式,比如某个物品突然变得更加受欢迎。广告可以使用这种技术来调整策略。
3.对于以下数据集,解释数据私有性是否是重要问题。
a.1900-1950年间的人口普查数据。否
b.访问你的web站点的web用户的ip地址和访问次数。是
c.从地球轨道卫星发回的图像。否
d.电话号码簿上的姓名和地址。否
e.从网上收集的姓名和电子邮件地址。否
网友评论