前言:
本人程序员一枚,从实习到现在也差不多三年工作经验了,近日整理了一些这几年工作中常遇到的一些问题,大家有兴趣可以关注,一起交流学习。
正文:
有时候大家在爬虫的时候会遇到要登录的情况,如果不登录则爬不到自己想要的东西,那么如何解决呢?这里大家也可以多思考利用什么方式可以达到目的。
这里以博客园为例,here we go~~
首先简单的介绍一下selenium和phantomJS:
selenium是一款测试工具,能够模拟用户对浏览器进行操作。
phantomJS是一款轻便式浏览器,其没有界面并且功能相对简单,因此速度上会比较快速。
说到这大家应该明白selenium+phantomJS如何实现登录破解了,对,就是模拟人工操作。
我们现看一下博客园的登录界面:
找到这些元素所在的点,填写账号密码,并且点击登录按钮,之后等待一段时间,因为页面加载需要时间,之后就可以爬取登陆后的界面:
代码段
完整代码段这里没办法放上去,这边给大家放一个完整版代码的链接,有兴趣的大家可以去看看。(https://mp.weixin.qq.com/s?timestamp=1526357289&src=3&ver=1&signature=pEdMNyFtt3hQ4zRZHY05lc3K-lvY0F2XzDqYxhKGppjUn8gBnTRew7KIvp4Q6UNsxnPbu4uHEroCO7AMFcB00rTXhTVM4Wdi-YNSuiG-6-CBKyl6zdFC588U9TUp*xJhkQwp-ZsvvtFkurtpRqe8hRpwv*cGFFA5eO*945xEciQ=)
结尾段
以上就是今天关于‘【爬虫篇】用selenium+phantomJS实现简单的登录破解’的全部内容了,如果你有其他的方法或者更好的建议,欢迎一起交流。
ps:第一次写,有点小紧张,如果有不明白的同学尽管提出来哈~












网友评论