GoldMap项目笔记(四)

作者: titainium | 来源:发表于2017-01-17 13:34 被阅读0次

目前的进度是爬虫系统刚刚完成了雏形,正在进行代码的优化。之后需要做的事情就是学习、学习,学习!
在早先的项目设计中,第二个子系统会用于将搜集来的文本做情感分析,然后根据分析的结果再做一定的运算。在Python的各个库中,除了nltk以外,使用起来比较简单的库我找到了两个,一个是针对中文的snownlp,还有一个是textblob。
这两个库使用起来都比较简单。而文档方面,snownlp比较简单,只知道没有使用nltk,自己设计了算法,而且由于是针对购买商品的评价做分析,用于其他方面的话,用作者自己的话来说就是准确率可能不是很理想。textblob的稍微详尽一点,这个库使用了nltk,或许准确率会更高一点。但是一方面不是针对中文,另一方面文档中也没有提及如何进行训练,从而提高准确率。或许是我还没有找到更详细的说明使用文档吧。
不过相比较而言,我可能更加中意的是参考snownlp,然后自己来设计更合适的算法吧。不过这条路走起来,或许学习曲线会比较陡峭。现在正在看think bayes,机器学习实战,还有spark快速大数据分析,这些书上面也有一些现成的示例代码可以供参考。希望可以降低一点学习的难度。
当然,在一开始的阶段,整个项目还不需要使用spark的更多功能,目前已知会涉及到的库也就是spark其中的mllib。后面更复杂部署、调度、管理等等功能,我想,针对一台单独的小机器还是用不上的吧,当然,做为知识储备,进行一定的了解和学习,也是未尝不可的。只是,这种学习可能暂时不会投入太多的精力,今天有大致浏览了spark的官方文档,仅仅部署方式就有好几种:mesos,yarn,一时之间也不知道如何取舍。希望新买的书里面可以提供一些指导和线索吧。
说起来,新买的《程序员的数学》也刚刚看了开头,一套三本书也不知道要看多久,希望可以加快一点点速度吧。

相关文章

  • GoldMap项目笔记(四)

    目前的进度是爬虫系统刚刚完成了雏形,正在进行代码的优化。之后需要做的事情就是学习、学习,学习!在早先的项目设计中,...

  • GoldMap项目笔记(五)

    时隔了许久,终于有时间继续更新这个项目笔记,实在有些惭愧。 还是首先简短说明一下原因吧。 上次笔记发布之后,整理了...

  • GoldMap项目笔记(二)

    每写一个新的项目,都是一次学习新知识的过程。同样的,也是在锻炼自己的编码能力。这一回也不例外。公司的项目一直运行在...

  • GoldMap项目笔记(三)

    新的问题很快就出现了,嗯,不过我觉得在这个项目运行的初期,还不算是什么大的问题,不过个人觉得还是有必要加以关注,同...

  • GoldMap项目笔记(一)

    其实这个项目在一年之前就有了想做的年头,兴冲冲准备了好多资料,还学习了一阵子自然语言处理。可是由于没有沉下心来专...

  • 卡片笔记上记录什么?

    卡片可以用来记录四种笔记,分别是:闪念笔记、文献笔记、永久笔记、项目笔记。 1、闪念笔记(Fleeting Not...

  • 关于RxJS 自定义封装Rxbus的使用规范文档

    相关RX文章请看:SNS项目笔记<七>--深入探究RXjsSNS项目笔记<四>--RXjs简要用法 1、封装的pr...

  • 直播项目笔记(四)

    心跳包 + 图文混排 + Core Graphics Socket 服务器加入心跳包 Timer 和 Runloo...

  • 《卡片笔记写作法》/20

    【提炼标题】记项目笔记 【见】项目笔记(Project Notes):它们只与某一特定项目有关,保存在特定项目的文...

  • 武林计划第三课听课笔记

    周四晚上被儿子强行打断,于是今天忙完项目书接着回放,听课笔记画起来!

网友评论

    本文标题:GoldMap项目笔记(四)

    本文链接:https://www.haomeiwen.com/subject/equmbttx.html