机器学习定义
设计和分析一些让计算机可以自动“学习“的算法。机器学习算法是一类从庞大的数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
以下学习资料来自于:
https://developers.google.com/machine-learning/crash-course/prereqs-and-prework?hl=zh-cn
机器学习分类
-
监督学习
从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。 -
无监督学习
与监督学习相比,训练集没有人为标注的结果 -
增强学习
通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断
机器学习相关术语
-
标签:
标签是我们要预测的事物/具体的值,即在简单线性回归中的 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。 -
特征:
特征是输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征。 -
样本:
样本是指数据的特定实例:x。(我们采用粗体 x 表示它是一个矢量。)我们将样本分为以下两类:- 有标签样本
- 无标签样本
有标签样本同时包含特征和标签。
-
回归:
回归模型可预测连续值。比如通过房子的许多特征预测房屋价格。 -
训练:
训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值。在监督式学习中,机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化 -
模型:
模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。
模型生命周期的两个阶段:- 训练表示创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
- 推断表示将训练后的模型应用于无标签样本。
-
收敛:
收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象 -
分类:
分类模型可预测离散值。通过分类模型,以及输入特征集合来判断它该如何分类 -
损失:
损失是对糟糕预测的惩罚。也就是说,损失是一个数值,表示对于单个样本而言模型预测的准确程度。如果模型的预测完全准确,则损失为零,否则损失会较大。训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差
机器学习流程
训练模型的迭代试错过程
整个机器学习的过程如下(监督学习):
-
准备好三个数据集合:训练集,验证集,测试集
- 训练集:需要有所有的特征类型,以及特征值,以及真实的值。用于训练模型
- 验证集:需要有所有的特征类型,以及特征值,以及真实的值。用于对训练好的模型进行验证,用来比较模型预测出的值与真实值的误差(Loss)是否符合预期或者准确率。
- 测试集:需要有所有的特征类型,以及特征值。用来使用训练&验证完成的模型对测试集合进行预测,看是否符合预期
-
最初的线性回归模型
根据特征以及值构造线性回归方程。其中:
b(bias):偏差值
xi:代表某个特性
wi(weight):代表某个特征的权重
y:模型函数,或者说根据特征计算出来的最终的值
线性回归模型
-
开始训练
使用最初的模型,参数均可为0,将训练集中的数据(特征以及特征值)代入模型,开始训练。训练过程:- 将训练集数据代入模型,计算出预测值
- 使用误差函数(如平方损失函数)计算预测值与真实值的误差(Loss)
- 计算完损失后,更新模型内特征的参数,通过梯度下降法计算更新后的特征参数,即权重(Weight)
- 继续将训练集的数据代入更新后的模型,计算损失
- 直到损失值达到最低点,则认为该模型达到收敛状态
-
验证
使用验证集合的数据代入已收敛的回归模型,比较预测值与验证集中真实的值,误差率是否达到预期,如果未达到预期,则调整参数重新训练模型 -
使用
验证过后的模型即可使用测试集数据来进行预测













网友评论