笔记

作者: qc_mountain | 来源:发表于2017-04-25 22:00 被阅读0次

机器学习是设计和研究能够根据过去的经验为未来做决策的软件,是通过
数据进行研究的程序


机器学习的基础是归纳,就是从已知案例数据中找出未知的规律
example: 垃圾邮件过滤


监督学习: 从成对已经标记好的输入和输出经验作为一个输入进行学习,用来预测输出结果。也就是说从有正确答案的例子中学习


无监督学习: 不能从标记好的数据中学习,它需要在数据中发现一些规律


半监督学习: 既包含监督学习也包含无监督学习,这类问题可以看作是介于监督学习和无监督学习之间的学习,半监督学习是一种增强学习,问题可以通过决策获得反馈,但是反馈可能与某一个决策没有直接关系。


训练集: 构成监督学习经验的案例集合
测试集: 评估程序效果的案例集合


常见的监督式机器学习任务就是分类(classification)和回归(regression)

  • 分类认为需要学会从若干变量约束条件中预测出目标变量的值, 就是必须预测出新观测值的类型,种类或标签。
    分类的应用包括股票的涨跌,新闻头条是政治新闻还是娱乐新闻。
  • 回归问题需要预测连续变量的数值,比如预测新产品的销量,或者依据工作的描述预算工资水平等(与分类方式类似,回归问题需要监督学习)

  • 常见的无监督式机器学习任务是通过训练数据发现观测值的组别,称为类。对应的任务称为聚类,通过一些相似性度量方法把一些观测值分成同一类。聚类常用来分析数据集。如影评数据,聚类算法可以分辨积极和消极的的影评。
  • 降维是另一个常见的无监督学习任务,是发现对响应变量影响最大的解释变量的过程,可以更容易的实现数据可视化。有些问题可能包含成千上万个解释变量,还有些解释变量属于噪音,也有些完全是无边的变量,这些影响都会降低程序的归纳能力。

相关文章

网友评论

      本文标题:笔记

      本文链接:https://www.haomeiwen.com/subject/mblbzttx.html