Spark之机器学习(Python版)(二)——分类

作者: 天善智能 | 来源:发表于2018-04-20 17:48 被阅读27次

感谢关注天善智能,走好数据之路↑↑↑

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。


写这个系列是因为最近公司在搞技术分享,学习Spark,我的任务是讲PySpark的应用,因为我主要用Python,结合Spark,就讲PySpark了。然而我在学习的过程中发现,PySpark很鸡肋(至少现在我觉得我不会拿PySpark做开发)。为什么呢?原因如下:

  1.PySpark支持的算法太少了。我们看一下PySpark支持的算法:(参考官方文档)

  前面两个pyspark.sql和pyspark.streaming是对sql和streaming的支持。主要是读取数据,和streaming处理这种方式(当然这是spark的优势,要是这也不支持真是见鬼了)。pyspark.ml和pyspark.mllib分别是ml的api和mllib的api,ml的算法真心少啊,而且支持的功能很有限,譬如Lr(逻辑回归)和GBT目前只支持二分类,不支持多分类。mllib相对好点,支持的算法也多点,虽然昨天发的博文讲mlllib的时候说过有的算法不支持分布式,所以才会有限,但是我在想,如果我需要用到A算法,而Ml和Mllib的包里面都没有,这样是不是意味着要自己开发分布式算法呢?代价有点大诶,感觉写这个的时间不如多找找有用的特征,然后上LR,这样效果说不定更好。因为目前还没有在实际中用过,所以以上只是我的想法。下面把ml和mllib的所有api列出来,这样看的更清楚。

图一 pyspark.ml的api

图二 pyspark.mllib的api

 从上面两张图可以看到,mllib的功能比ml强大的不是一点半点啊,那ml这个包的存在还有什么意义呢?不懂(如果有了解的欢迎留言)。虽然有这么多疑问,但是我还是跟大家讲了,用的数据依然是iris(其实我真心想换个数据集啊 == ,下次换)。上代码:

因为数据集和上次讲pyspark聚类应用的数据是一样的,就不一步步的展示了,但是我这个程序里只有NaiveBayes的效果还行,0.94的正确率,其他的像DecisionTree等,效果真心差,可能参数还需要调。先掌握怎么用再来调参,官方文档里关于参数的解释也非常详细,可以看看。下一次讲回归,我决定不只写pyspark.ml的应用了,因为实在是图样图naive,想弄清楚pyspark的机器学习算法是怎么运行的,跟普通的算法运行有什么区别,优势等,再写个pyspark.mllib,看相同的算法在ml和mllib的包里运行效果有什么差异,如果有,是为什么,去看源码怎么写的。此外,我真的想弄清楚这货在实际生产中到底有用吗,毕竟还是要落实生产的,我之前想,如果python的sklearn能够在spark上应用就好了,后来在databricks里面找到了一个包好像是准备把sklearn弄到spark上来,当然算法肯定要重新写,不过还没有发布,期待发布的时候。此外,我在知乎上也看到过有人提问说“spark上能用skearn吗?”(大概是这意思,应该很好搜),里面有个回答好像说可以,不过不是直接用(等我找到了把链接放出来)。其实换一种想法,不用spark也行,直接用mapreduce编程序,但是mapreduce慢啊(此处不严谨,因为并没有测试过两者的性能差异,待补充),在我使用spark的短暂时间内,我个人认为spark的优势在于数据处理快,它不需要像mapreduce一样把数据切分成这么多块计算然后再reduce合并,而是直接将数据导入的时候就指定分区,运行机制不同,尤其是spark streaming的功能,还是很快的,所以这是spark的优势(鄙人拙见,如有错误欢迎指出)。而spark的劣势也比较明显,因为它对设备的要求太高了(吃内存啊能不高吗!),这也是它快的原因,你把数据都放在内存里,取的时间比放在磁盘里当然要快,不过实际上在存储数据或者输出结果的时候还是会选择(memory+disk)的方式,保险嘛。前段时间看的alluxio也是占了内存的优势。恩,说了很多废话。


老师介绍:胡晓曼老师(Charlotte),高级算法工程师 ,博客专家;

擅长用通俗易懂的方式讲解深度学习和机器学习算法,熟悉Tensorflow,PaddlePaddle等深度学习框架,负责过多个机器学习落地项目,如垃圾评论自动过滤,用户分级精准营销,分布式深度学习平台搭建等,都取了的不错的效果。

出处:https://www.hellobi.com/u/CharlotteDataMining/articles

三个月教你从零入门人工智能!| 深度学习精华实践课程

https://edu.hellobi.com/course/268

相关文章

网友评论

  • IT人故事会:贵在坚持,么么哒!我也是个爱写文章的人

本文标题:Spark之机器学习(Python版)(二)——分类

本文链接:https://www.haomeiwen.com/subject/nzszkftx.html