数据挖掘札记1_基本概念

作者: 皮皮大 | 来源:发表于2019-06-22 21:58 被阅读2次

什么是数据挖掘

针对特定的问题,用适当的学科知识从数据中提炼信息,形成结论。常用的知识有:

  • 数理基础知识
  • 数据获取、加工能力
  • 相关行业知识
image.png

一、数据挖掘使用场景

  • 业务逻辑清晰、指标明确
  • 转换成恰当的数据/数学/统计问题
  • 足够的数据支撑
  • 熟悉模型/分析方法的局限性
  • 具体场景具体分析

数据挖掘目的:从数据中找出规律,验证猜想,进行预测


二、数据获取途径

常用的数据获取途径有:

  1. 公开信息
  2. 外部数据库
  3. 自由数据库
  4. 调查问卷
  5. 客户数据
  6. 通过网上爬虫等手段获取
  7. 其他途径

三、数据清洗

  • 数据的可读性
  • 数据的完整性
  • 数据的唯一性
  • 数据的权威性
  • 数据的合法性

四、数据可视化

通过视觉的形式展现数据的方式,如图:

image.png

数据可视化工具:

  • 专业工具
    • Tableau
    • Plotly
  • 通用工具
    • Excel
    • R
    • Python,例如:matplotlib包

五、数据分析主要模型

机器学习中主要是包含有监督学习无监督学习两种情形:

  • 有监督学习:提供标签的学习,比如信用卡用户数据中是否违规
    • 回归
    • 决策树
    • 其他
  • 无监督学习
    • 聚类
    • PCA
    • 其他
  • 决策树
  • 随机森林
  • 支持向量机
image.png

有监督学习模型

决策树模型

  • 一个树形结构:二叉树或非二叉树模型
  • 每个叶节点存放一个类别
  • 决策过程从根节点开始,测试待分类项中相应的特征属性值,按照其值进行输出分支
  • 到达叶子节点,将叶子节点中存放的类别作为决策结果
  • 缺点:不加控制,无限制增长,出现过拟合现象,泛化能力差;解决:剪枝

随机森林

  • 基于树模型的集成模型
  • 从待选属性集中随机选取子集,再进一步挑选最优分裂属性
  • 加权平均/投票
  • 泛化能力强

支持向量机

  • 最优平面分隔:对偶问题
  • 低维映射到高维
  • 线性不可分中的软间隔与松弛变量

神经网络

  • 一个包含了多个参数的、由若干个函数互相(嵌套)带入的模型
  • 最简单的单层神经网络:感知机
    • 只有输入层和输出层
    • 其中每个每个输入层有自己的权重 w~i


      image.png

无监督学习模型

  • 聚类分析
    • 原型聚类:k-means
    • 密度聚类:DBSCAN
    • 层次聚类:AGNES
  • 主成分分析:将高维向量x通过特征向量矩阵投影到低维空间,表征为低维向量y,损失信息少。
  • 因子分析:找出少数互不相关的综合变量来尽可能地反映原来数据所含有的绝大多数信息,例如信用卡用户的使用情况分析
    image.png

半监督学习

  • 训练样本部分有标签
  • 所有样本独立采样于同一数据源
  • 利用学习机器不依赖与外部,自动地利用未标记样本来提升学习性能
  • 常用模型:半监督学习模型S3VM(Semi-Supervised SVM)


    image.png

相关文章

  • 数据挖掘札记1_基本概念

    什么是数据挖掘 针对特定的问题,用适当的学科知识从数据中提炼信息,形成结论。常用的知识有: 数理基础知识 数据获取...

  • 数据挖掘导论 - 1

    layout: posttitle: 数据挖掘基本概念 --《数据挖掘导论》categories: Coursed...

  • 数据挖掘基本概念

    数据挖掘是从海量数据中发现有趣模式的过程。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式...

  • 频繁项集挖掘算法——Apriori算法实现初步

    基本概念 这周数据挖掘课上老师介绍了一种基础的数据挖掘算法——频繁项集挖掘算法。这种算法用一句话来总结就是要在数据...

  • 数据挖掘基础知识

    基本概念 数据挖掘(Data Mining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其...

  • 【演奏的船长】数据分析学习记录W17——数据库基础概念之数据集市

    上一篇《数据库基础概念及相关关系》中提到的数据库基本概念时,将DM解释成了数据挖掘(DataMining),其实D...

  • 【机器学习与R语言】1-机器学习简介

    1.基本概念 机器学习:发明算法将数据转化为智能行为 数据挖掘 VS 机器学习:前者侧重寻找有价值的信息,后者侧重...

  • 时空数据挖掘

    数据挖掘已经成为当代显学,只要是个公司可能都需要数据挖掘,由此也衍生除了金融数据挖掘、生物数据挖掘、时空数据挖掘、...

  • Python数据挖掘001-基础知识

    1. 一些基本概念 数据挖掘:简而言之,就是从大量数据中中淘金,发掘出隐含的,未知的,对决策有潜在应用价值的关系,...

  • 学习笔记--(移动数据挖掘引言)

    移动数据挖掘的定义 移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据算法需要更多地利用移动数据特性,挖掘与...

网友评论

    本文标题:数据挖掘札记1_基本概念

    本文链接:https://www.haomeiwen.com/subject/cyfbqctx.html