美文网首页
Python抓取微信公众号全部文章

Python抓取微信公众号全部文章

作者: Cristianoo | 来源:发表于2019-08-27 15:48 被阅读0次

这是我第一条写关于爬虫的文章

一、抓取微信公众号的文章有如下几点需要注意的地方

1、利用微信接口进行抓取,每天-每个公众号只能调用1000次,而且,不能连续调用,也就是说,你调用300次左右,可能会被封一个小时左右,但总的来说,一天调用的上线是1000次

2、可能在你调用100多次的时候,会出现一个反爬的情况,就是当你获取文章列表的时候,点击获取,发现返回来的是空值,这时候,就要写个递归,继续调用,经过3-4次就会成功(亲身经历)

3、ip代理是必要的,无论是调用微信的接口还是搜狗微信,如果想持续并且获得大量的数据,没有ip,爬不了多少数据的

4、接下来,我将贴出我的代码

    4.1 引入用到的库:

4.2 初始化一些信息:

定义抓取成功的时候,通过邮件通知:

利用selenium进行模拟登陆:

内容的抓取,以及对反爬手段的处理:

程序执行的入口:

代码就如上面所示了,操作步骤:

url: 微信公众平台

注册登陆后:

1、在首页的,点击素材管理:

2、点击:

3、点击:

4:根据下图操作:

点击公众号的名称,就会显示所有的历史文章信息

上面的代码就是我爬取微信公众号的代码,如有疑问,可以评论或者私聊我

尚未解决,需要等高人指点:

微信公众号登陆的有效期,好像不到24小时,超过这个期限,就要重新扫码登陆,这是有点不方面的,未能做到全自动,这个需要等待有缘人来帮忙解决了

本人知乎链接(源码链接):知乎源码链接

相关文章

网友评论

      本文标题:Python抓取微信公众号全部文章

      本文链接:https://www.haomeiwen.com/subject/yeueectx.html