Spark之机器学习(Python版)(二)——分类

作者: 天善智能 | 来源:发表于2018-04-20 17:48 被阅读27次

Spark之机器学习(Python版)(二)——分类
上手实践《Python机器学习第2版》PDF中文+PDF英文+代
图像分割
机器学习
Python机器学习基础教程学习笔记（6）——线性模型（分类）
spark
计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预
Spark之机器学习(Python版)(一)——聚类
【火炉炼AI】机器学习008-简单线性分类器解决二分类问题
《Python机器学习实践指南》高清中文版PDF+高清英文版PD

感谢关注天善智能，走好数据之路↑↑↑

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

写这个系列是因为最近公司在搞技术分享，学习Spark，我的任务是讲PySpark的应用，因为我主要用Python，结合Spark，就讲PySpark了。然而我在学习的过程中发现，PySpark很鸡肋（至少现在我觉得我不会拿PySpark做开发）。为什么呢？原因如下：

　　1.PySpark支持的算法太少了。我们看一下PySpark支持的算法:(参考官方文档)

　　前面两个pyspark.sql和pyspark.streaming是对sql和streaming的支持。主要是读取数据，和streaming处理这种方式（当然这是spark的优势，要是这也不支持真是见鬼了）。pyspark.ml和pyspark.mllib分别是ml的api和mllib的api，ml的算法真心少啊，而且支持的功能很有限，譬如Lr（逻辑回归）和GBT目前只支持二分类，不支持多分类。mllib相对好点，支持的算法也多点，虽然昨天发的博文讲mlllib的时候说过有的算法不支持分布式，所以才会有限，但是我在想，如果我需要用到A算法，而Ml和Mllib的包里面都没有，这样是不是意味着要自己开发分布式算法呢？代价有点大诶，感觉写这个的时间不如多找找有用的特征，然后上LR，这样效果说不定更好。因为目前还没有在实际中用过，所以以上只是我的想法。下面把ml和mllib的所有api列出来，这样看的更清楚。

图一 pyspark.ml的api

图二 pyspark.mllib的api

　从上面两张图可以看到，mllib的功能比ml强大的不是一点半点啊，那ml这个包的存在还有什么意义呢？不懂（如果有了解的欢迎留言）。虽然有这么多疑问，但是我还是跟大家讲了，用的数据依然是iris（其实我真心想换个数据集啊 == ，下次换）。上代码：

因为数据集和上次讲pyspark聚类应用的数据是一样的，就不一步步的展示了，但是我这个程序里只有NaiveBayes的效果还行，0.94的正确率，其他的像DecisionTree等，效果真心差，可能参数还需要调。先掌握怎么用再来调参，官方文档里关于参数的解释也非常详细，可以看看。下一次讲回归，我决定不只写pyspark.ml的应用了，因为实在是图样图naive，想弄清楚pyspark的机器学习算法是怎么运行的，跟普通的算法运行有什么区别，优势等，再写个pyspark.mllib，看相同的算法在ml和mllib的包里运行效果有什么差异，如果有，是为什么，去看源码怎么写的。此外，我真的想弄清楚这货在实际生产中到底有用吗，毕竟还是要落实生产的，我之前想，如果python的sklearn能够在spark上应用就好了，后来在databricks里面找到了一个包好像是准备把sklearn弄到spark上来，当然算法肯定要重新写，不过还没有发布，期待发布的时候。此外，我在知乎上也看到过有人提问说“spark上能用skearn吗？”（大概是这意思，应该很好搜），里面有个回答好像说可以，不过不是直接用（等我找到了把链接放出来）。其实换一种想法，不用spark也行，直接用mapreduce编程序，但是mapreduce慢啊（此处不严谨，因为并没有测试过两者的性能差异，待补充），在我使用spark的短暂时间内，我个人认为spark的优势在于数据处理快，它不需要像mapreduce一样把数据切分成这么多块计算然后再reduce合并，而是直接将数据导入的时候就指定分区，运行机制不同，尤其是spark streaming的功能，还是很快的，所以这是spark的优势（鄙人拙见，如有错误欢迎指出）。而spark的劣势也比较明显，因为它对设备的要求太高了（吃内存啊能不高吗!）,这也是它快的原因，你把数据都放在内存里，取的时间比放在磁盘里当然要快，不过实际上在存储数据或者输出结果的时候还是会选择（memory+disk）的方式，保险嘛。前段时间看的alluxio也是占了内存的优势。恩，说了很多废话。

老师介绍：胡晓曼老师（Charlotte），高级算法工程师，博客专家；

擅长用通俗易懂的方式讲解深度学习和机器学习算法，熟悉Tensorflow，PaddlePaddle等深度学习框架，负责过多个机器学习落地项目，如垃圾评论自动过滤，用户分级精准营销，分布式深度学习平台搭建等，都取了的不错的效果。

出处：https://www.hellobi.com/u/CharlotteDataMining/articles

三个月教你从零入门人工智能！| 深度学习精华实践课程

https://edu.hellobi.com/course/268

Spark之机器学习(Python版)(二)——分类
感谢关注天善智能，走好数据之路↑↑↑ 欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领...
上手实践《Python机器学习第2版》PDF中文+PDF英文+代
学习机器学习，推荐学习《Python机器学习(第二版)》。《Python机器学习(第2版)》，图文并茂，代码详实...
图像分割
python_iris python iris 分类机器学习笔记
机器学习
Spark中的MLlib包可以做机器学习; Python中的sklearn也可以做机器学习;
Python机器学习基础教程学习笔记（6）——线性模型（分类）
Python机器学习基础教程学习笔记（6）——线性模型（分类） 1. 二分类 LinearSVC和Logistic...
spark
*Spark Spark 函数Spark (Python版) 零基础学习笔记（一）—— 快速入门 1.map与fl...
计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预
开发技术 Spark Hadoop Python爬虫 Vue.js SpringBoot 机器学习/深度学习人工...
Spark之机器学习(Python版)(一)——聚类
感谢关注天善智能，走好数据之路↑↑↑ 欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领...
【火炉炼AI】机器学习008-简单线性分类器解决二分类问题
【火炉炼AI】机器学习008-简单线性分类器解决二分类问题 (本文所使用的Python库和版本号: Python ...
《Python机器学习实践指南》高清中文版PDF+高清英文版PD
《Python机器学习实践指南》高清中文版PDF+高清英文版PDF+源代码免费下载《Python机器学习实践指南...