美文网首页
python 爬盗版小说 1.0

python 爬盗版小说 1.0

作者: xgz_pmx | 来源:发表于2018-08-28 19:53 被阅读0次

        初学Python,看了Coursera上的学习视频后蠢蠢欲动,于是去爬了盗版小说网站。此举十分不得体,仅供学习参考,平时还是支持正版。

        1.首先观察一下网站

图1.0 图1.1

        查阅每一章内容的时候,就是把每一页的链接拼接到首页的链接后面。然后分析每一章页面以及下载。

        分析结束,把整个过程分为访问首页、解析首页、获取每一章节链接、通过链接访问每一章、解析具体某一章内容并写入txt中。

2.访问首页

图 2.1  访问首页

3.解析首页,获取每一章节链接

图 2.2

4.通过链接访问每一章

图2.3

5.解析具体某一章内容并写入txt

图2.4

不足之处:

1.没有写header,可能会被封IP

2.下载下来的时候文本内容还有一些html页面标签

3.单线程下载

相关文章

网友评论

      本文标题:python 爬盗版小说 1.0

      本文链接:https://www.haomeiwen.com/subject/gsysiftx.html