数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。——摘自MBA智库百科“数据挖掘”词条
1. 数据挖掘的发展历史
数据挖掘起始于20世纪下半叶,那时候数据库技术不断发展,数据积累不断膨胀,同时人工智能也取得了巨大进展,两者相结合,就诞生了数据挖掘。1989年8月的一个国际会议上首次出现KDD这个术语。
数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。
进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,其融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术。
2. 统计分析与数据挖掘的主要区别
主流观点是,数据挖掘时统计分析技术的延申和发展,具体区别有:
- 数据挖掘的算法会自动寻找变量之间的关系,不需要分析人员对数据分布做任何假设。
- 统计分析需要具体分析建模函数关系,而数据挖掘为结果论,对技术细节不看重。
在实际应用中,统计分析和数据挖掘并不能完全割裂开,需要运营人员综合权衡,不管用哪种方式,白猫黑猫,抓到老鼠才是好猫。
3. 数据挖掘的主要成熟技术以及在数据化运营中的主要应用
3.1 决策树
决策树是一种非常成熟的、普遍采用的数据挖掘技术,其建模简单、结果易于分析理解,很适合探索式的知识发掘,并且可以处理高维度的数据。最常用的决策树算法有 CHAID、CART、ID3、C4.5等。
决策树技术在数据化运营中的主要用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。
相关函数
from sklearn.tree import DecisionTreeClassifierfrom sklearn.tree import DecisionTreeRegressor
3.2 神经网络
神经网络是通过数学算法来模仿人脑思维,是人脑的抽象计算模型,是数据挖掘中机器学习的典型代表。神经网络拥有大规模并行结构和信息的并行处理等特点,因此其具有良好的自适应性、自组织性和高容错性,并且具有较强的学习、记忆和识别功能。目前神经网络已经在信号处理、模式识别、专家系统、预测系统等众多领域中得到广泛的应用。神经网络的主要缺点为其知识和结果的不可解释性。。
神经网络技术在数据化运营中的主要用途体现在:作为分类、预测问题的重要技术支持,在用户划分、行为预测、营销相应等诸多方面具有广泛的应用前景。
3.3 回归
回归主要包括线性回归和逻辑回归,其中,在数据化运营中更多使用的是逻辑回归,它又包含响应预测、分类划分等内容。
相关函数
from sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import LogisticRegression
3.4 关联规则
关联规则是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型。关联规则主要目的是找出数据集中的频繁模式,即同时存在的关系。应用关联规则最有名的案例就是“尿布-啤酒分析”。
在众多关联规则算法中,最著名的就是Apriori算法。
关联规则算法不但在数值型数据集的分析中有很大用途,在纯文本文档和网页文件中也有重要用途。比如发现单词间的并发关系以及Web的使用模式等。
3.5 聚类
聚类技术在数据分析和数据化运营中的主要用途表现在:既可以直接作为模型对观察对象进行群体划分,为业务方的精细化运营提供具体的细分依据和相应的运营方案建议,又可以在数据处理阶段用作数据探索的工具,包括发现离群点、孤立点,数据降维的手段和方法,通过聚类发现数据间的深层次的关系。
3.6 贝叶斯分类方法
贝叶斯分类方法主要基于贝叶斯定理,在数据化运营实践中主要用于分类问题的归类等应用场景。
相关函数
from sklearn.naive_bayes import GaussianNBfrom sklearn.naive_bayes import MultinomialNB
3.7 支持向量机
支持向量机主要用在预测、分类这样的实际分析需求场景中,其缺点是训练数据较大,优点是建模能力高度准确,也不太容易过拟合。
相关函数
from sklearn.svm import SVC
3.8 主成分分析
主成分分析(简称PCA)主要用来数据降维。
相关函数
from sklearn.decomposition import PCA
3.9 假设检验
假设检验主要研究在一定的条件下,总体是否具备某些特定特征,其基本原理为小概率事件原理,即观测小概率事件在假设成立的情况下是否发生。
在数据化运营的商业实践中,假设检验最常用的场景就是用于“运营效果的评估”。
4. 互联网行业数据挖掘应用的特点
- 海量数据。
- 数据分析(挖掘)的周期短。
- 数据分析(挖掘)成果的时效性明显变短。
- 互联网行业新技术、新应用、新模式的更新换代相比于传统行业而言更加迅速、周期更短、更加具有颠覆性,相应地对数据分析挖掘的应用需求也更苛刻。,且要多样化。











网友评论