爬取拉勾网

作者: 苟雨 | 来源:发表于2017-03-19 18:12 被阅读38次

拉勾网数据加载的方式使用的是ajax异步加载的方式从后端加载数据,所以就需要分析加载的URL,如果有疑问可以看我的以前的文章爬取ajax异步网页数据
找到数据的URL之后又有了麻烦,网站的反爬虫机制使我大为恼火,
找到了一些分析反爬虫文章看了一圈[1],然后就开始动手做了
具体做法打开chrome的network分析然后找到请求的Request headers将其中的请求变量全部都复制过来 特别是cookie,

屏幕快照 2017-03-19 下午1.45.34.png
运行爬虫脚本就ok了
核心代码,访问Github获取源码
 headers = {'Accept': 'application/json, text/javascript, */*; q=0.01',
               'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',
               'Host': 'www.lagou.com',
               'Origin': 'https://www.lagou.com',
                'Connection': 'keep-alive',
               'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/52.0.2743.82 Safari/537.36Content-Type: application/x-www-form-urlencoded; charset=UTF-8',
               'Cookie': 'user_trace_token=20170308132543-ad47299a-03bf-11e7-9229-5254005c3644; LGUID=20170308132543-ad472cba-03bf-11e7-9229-5254005c3644; index_location_city=%E5%85%A8%E5%9B%BD; JSESSIONID=9B7C15BE2C65CF24358F30F168876EBE; _gat=1; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; TG-TRACK-CODE=index_search; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1488950746,1489900831; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1489900857; _ga=GA1.2.1209512299.1488950743; LGSID=20170319132032-c6079e4e-0c63-11e7-9505-5254005c3644; LGRID=20170319132057-d4f51474-0c63-11e7-9505-5254005c3644; SEARCH_ID=ae3e7bf206f6479fb4c553f6e556682d'
               }

f = requests.get(url,headers=headers)


  1. https://m.hellobi.com/post/3676

相关文章

  • Selenium小例子

    爬取腾讯动漫 爬取某网站漫画 爬取拉勾网

  • 爬取拉勾网

    拉勾网数据加载的方式使用的是ajax异步加载的方式从后端加载数据,所以就需要分析加载的URL,如果有疑问可以看我的...

  • 拉勾网爬取小结

    本文获得的知识点: json包的摘取,不显示页码的加载,post和get的区别;面对反爬虫机制,多个浏览器爬取;读...

  • selenium爬取拉勾网

  • 拉勾网前端职位数据分析(Excel,Python工具)

    一、使用scrpy爬取拉勾网(厦门地区)前端职位数据数据爬取过程可以参考慕课网教程。 使用Excel数据透视表(样...

  • 2019-02-21

    python爬取拉勾搜索内容出现操作太频繁的返回结果 看到一个群里有人在问爬取拉勾网不成功,出现操作太频繁的回复,...

  • 区块链招聘信息爬取与分析

    最近在研究区块链,闲来无事抓取了拉勾网上450条区块链相关的招聘信息。过程及结果如下。 拉勾网爬取 首先是从拉勾网...

  • 爬虫—拉钩网招聘岗位爬取

    爬取拉勾网各类招聘岗位,爬取不同的岗位种类只需要初始化时候传入参数不同,爬取成功后会自动写入同目录的csv文件中,...

  • 拉勾网职位信息爬取

    分析网页 通过浏览器查看网页源代码,未能找到职位信息,因此需要打开F12开发者工具抓包分析职位数据使怎样被加载到网...

  • 数据分析师薪酬?拉勾网职位爬取+分析

    ——2018.06.01——最近几天看到了很多文章写拉勾网职位爬取,那些基本是基于requests + json,...

网友评论

    本文标题:爬取拉勾网

    本文链接:https://www.haomeiwen.com/subject/svvmnttx.html