ML难不难?(二)

作者: iShareOne | 来源:发表于2016-11-04 22:49 被阅读30次
机器学习流程

今天我们来说下,一个完整的机器学习流程主要包括哪些步骤?

数据获取

数据分析,我们分析的数据,数据从何而来,肯定不是天上掉下来的,也不是大风刮来的,而是我们通过各种手段得来的。数据获取,就是我们得到数据的方法。

  • 爬虫获取

    网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

    写到这里的时候,我对爬虫也是只是知道它是干啥的,但一个真正的爬虫程序都没有写过。通过爬虫,我们可以方便而高效地获取到网络上大量的数据,供以我们进行分析。

  • 数据库
    这类数据,主要存放于公司数据库,通过相关工作人员我们可以轻松获取到。

  • Excel文档
    这是我生活经常用到的,其实更多的是csv格式的数据集,轻量级,体积小,便于处理和分析。

数据处理

我们拿到了食材,要考虑下这顿饭怎么做了?
但是真的现在就要做了?你确定?我们肯定要洗菜,择菜,切菜等等步骤,这像极了我们的数据处理。

  • 文本处理
    主要包括一些正则表达式,自然语言处理等。
  • 量纲一致
    主要包括数据的归一化,标准化等。
  • 降维问题
    包括使用PCA进行降维操作等。

数据处理是一个机器学习项目中耗时最多的一个节点,所以我要在这里好好地打好坚实的基础。

建立模型

现在我们要开始做菜了。
我们要知道自己想使用哪种模型,是线性模型还是非线性模型,如何通过对业务的理解来选取特征向量(特征工程),这是这个节点最重要的一点。
特征工程决定了模型所能达到的准确率上限,而不同模型只能无限接近于上限。

模型评估

我们做好了菜,是不是该吃了?
当然不能,我们应该先自己尝一尝,当然也属于吃。我们要对自己的模型进行评估,也就是这道菜好不好吃。
评估,我们由许许多多的标准,比如准确率(Accuracy),精确率(Precision),召回率(Recall),F1指标(分为宏观指标和微观指标)等等,我们要选择比较有说服力的指标进行评估。进而选择出最佳的模型及其参数。

上线部署

本节点由于暂时还没有机会领略,不作解释,留坑,日后自填。

看起来,貌似很简单,做起来,其实还是要看自己。

相关文章

  • ML难不难?(二)

    今天我们来说下,一个完整的机器学习流程主要包括哪些步骤? 数据获取 数据分析,我们分析的数据,数据从何而来,肯定不...

  • ML难不难?(一)

    机器学习是什么? 猛地听起来,居然有点高大上的感觉,但是它究竟是什么东东呢?我们先看下比较官方的解释。 机器学习是...

  • 美好清晨2020517——育儿育己:行有不得,反诸求己。

    跑步难吗? 跑步不难,难的是开始与坚持。 做公益难吗? 也不难,难的也是开始与坚持。 人生难吗? 或许也不难,难的...

  • 2019-12-24

    人何难,喜难、怒难、忧难、惧难、爱难、憎难、欲难,何为不难,不为人则不难

  • 不难,难

    这世上的难与不难都是相对的。考大学难不难?同一所学校有人考上清华,有人要复读重新再来一次。赚钱难不难?都是中国人,...

  • 难不难

    太多人问我做生意难不难。 嗯,难,很难,比上班难。 天时地利人和,缺一不可。 我并不希望自己如何的倔强, 或者强势...

  • 难,不难

    非成业难,得贤难; 非得贤难,用之难; 非用之难,任之难。 —(晋)陈寿《三国志•吴书•钟离牧传》 再加上 非任之...

  • 难,不难

    今天听到乡政府朋友在不停说一个字,难! 工作太难了!生活太难了!挣钱太难了! 刚好最近我也在思考关于“难”这个字,...

  • 难,不难

    文/边走边旺 成功从服务保姆转换为家庭铲屎官,终于获得自由,说心里话,老高兴了。 对老三的闹铃已经有了免疫力,每天...

  • 难不难

    每天强迫自己不能断更, 这种打卡形式更能给人动力, 但有时确实不知道写点什么,圈子越来越小,朋友越来越少。 不喜欢...

网友评论

    本文标题:ML难不难?(二)

    本文链接:https://www.haomeiwen.com/subject/svpwuttx.html