美文网首页
scrapy对nga板块评论爬虫记录

scrapy对nga板块评论爬虫记录

作者: 有时右逝 | 来源:发表于2024-02-11 08:55 被阅读0次

缘起

过年了,在家有点乏味。因为放假之前在写爬虫,于是复习下scrapy框架。
nga是一个游戏玩家社区,爬一些回帖评论,分析下哪些人是shuijun

亮点

  • 替换重定向中间件,非200请求存储后下次运行时自动加入爬取
  • 自定义了多个流水线清洗数据
  • 流水线针对爬虫单独配置,互相独立
  • 增加了代理ip中间件
  • 自定义redis存储数据,每次运行结果以日期存储,避免覆盖
  • 自定义json序列化,保持中文不转成unicode
  • 通过cookie模拟登录
  • 练习了多个选择器css,xpath
  • jieba 分词库的使用
  • Python的图表库学习,绘制柱形图
  • scrapyd和scrapydweb的学习
  • 容器部署爬虫

统计

最终数据统计

  • 帖子数 10889
  • 评论数 155083
  • 用户数 16635

分析

  • 词云


    0-词云.png
20099词云.png
  • 词频
    出现最多的前10个词汇

一个 7758
就是 6816
可以 5789
这个 5018
战士 4693
现在 4571
不是 4472
什么 4472
没有 4395
自己 4091

  • 全局发帖时间分布-柱形图
0.png
  • 单个用户评论时间分布


    27353.png

代码地址

https://github.com/jsRuner/ngaspider

镜像


docker pull doudouchidou/scrapydweb:v1
docker pull doudouchidou/scrapyd_logparser:v1



 









相关文章

网友评论

      本文标题:scrapy对nga板块评论爬虫记录

      本文链接:https://www.haomeiwen.com/subject/bfaradtx.html