title: 机器学习要领
机器学习要领
机器学习就是让计算机摸清中间的套路然后从中找到规律,在深度学习的今天机器学习依然能够有较大的热度,有以下原因:
- 机器学习比较直观,其结果人类可以预测。
- 机器学习的模型相对简单,更容易掌握
机器学习的 7 大步
1. 收集数据
这一步我们把各种数据局采集上来如要预测一个动物是猫还是狗:
| 种类 | 体长 | 体重 |
|---|---|---|
| 猫 | 100 | 30 |
| 狗 | 500 | 60 |
2. 准备数据
收集上来的数据有时候不能正常使用 需要对数据进行加工处理
数据的处理常见的方法
1. 缺失值处理
- 填充缺失值(均值、中位数、模型预测…)
- 删除带有缺失值的行
- 直接忽略,将缺失值作为特征的一部分喂给模型进行学习
2. 二值化
- 如要要查找大众最喜欢听的歌曲 不能简单的以播放量作为定义,可能某个人一直在循环某首歌导致播放量很高,这种即使用户听了 N 遍,也只计数为 1
3. 分桶/分箱
- 如统计收入情况 分布异常不均,有些人月入 1000 有些人 月入几千万 跨越了好几个数量级 这样的数据对模型很不友好,可以划分为不同的区间 例如:(1000-2000 3000 - 5000 5000 以上)
4. 缩放
-
某些算法对数值的大小比较敏感,需要将不同数量级的数值进行归一化,让其处在一个静态的繁殖中(例如: 0 - 1)
- 常见的缩放算法:
- min - max
- 均值归一化 (μ 代表平均值)
- z-score 标准化 (μ 代表平均值,∂ 为标准差)
3. 选择一个合适的模型
简答说就是选择一个合适的算法
4. 训练
训练质量的好坏取决于前期准备数据的质量 模型的选择
5. 评估
在完成训练之后 需要用我们的测试数据集去验证我们目前这个模型的好坏 常见的评估指标:准确率 召回率 F 值
6. 调整参数
在评估过后 调整参数继续训练 直到整个模型满足我们的要求为止
7. 预测
完成评估后 可以投入使用 拿一个真实的数据进行预测然后看结果
机器学习的经典算法
不同算法解决不同机器学习的问题。
| 算法 | 训练方式 |
|---|---|
| 线性回归 | 监督学习 |
| 逻辑回归 | 监督学习 |
| 线性判别分析 | 监督学习 |
| 决策树 | 监督学习 |
| 朴素贝叶斯 | 监督学习 |
| K 邻近 | 监督学习 |
| 学习向量量化 | 监督学习 |
| 支持向量机 | 监督学习 |
| 随机森林 | 监督学习 |
| AdaBoost | 监督学习 |
| 高斯混合模型 | 非监督学习 |
| 限制波尔兹曼机 | 非监督学习 |
| K-means 聚类 | 非监督学习 |
| 最大期望算法 | 非监督学习 |
本文由mdnice多平台发布









网友评论