美文网首页我爱编程
一个简单的node爬虫

一个简单的node爬虫

作者: 张镕凡 | 来源:发表于2018-05-18 11:00 被阅读0次

爬虫的原理其实很简单,就是模拟访问一个网页,在网页中寻找你需要的信息并进行保存

  • 今天的目标是某报名网站,因为我报了某个岗位,想知道竞争的人有多少,所以观察网站后发现,他们的报名简历直接存储,修改url就可以访问其他人的页面,这就代表我可以通过爬虫,从几万份简历中筛选出和我同一个岗位的对手
  • 因为对JS比较熟悉,所以选用了node来进行爬取
  • 用到的库有superagentasync
    superagent可以理解为服务端的ajax,async用来控制并发数,以免请求过多,导致禁止访问
  • 首先需要一个数组,经过手动比对,今年的简历从30000左右开始,48000停止,所以
let urls = []
for(let i = 30000;i<47715;i++){
  urls.push('http://xxxxxxxxxxxxx/'+i)
}
  • 然后通过async来控制并发数
async.mapLimit(urls,20,function(url,callback){
  superagent.get(url).set(header).end(function(err,res){
    if(res){check(res.text,url)}
    callback(null)
  })
  })
  function check(res,url){
    if('这里写自己的匹配内容,如岗位匹配'){
      console.log(url)
    }
  

这样一个简单的爬虫就做好了,通过这个爬虫我了解到和我同岗位的有10个人,并不多,加油咯~

相关文章

  • 使用node创建最简单的爬虫

    node创建一个简单的网页爬虫安装node就可以了,创建index.js用到request、fs、cheerio、...

  • node简单的爬虫

    需要安装3个包 : koa, request 让请求变得更简单 , cheerio爬取来的数据,让它变成DOM树,...

  • 简单的Node爬虫

    写在开头 经过一个漫长的寒假,终于也是赶上复工的潮流。祝贺全国人民抗"疫"取得阶段性的胜利。在平常的Node使用过...

  • 一个简单的node爬虫

    爬虫的原理其实很简单,就是模拟访问一个网页,在网页中寻找你需要的信息并进行保存 今天的目标是某报名网站,因为我报了...

  • node爬虫之路(一)

    最近对爬虫很感兴趣,我们node.js也是可以写爬虫。所以写一个node爬虫系列,记录我的爬虫之路,感兴趣的同学可...

  • Node完成简单爬虫

    编写好node代码,终端运行node app.js后 页面显示json数据 [ { "title":"【活动+视...

  • 简单的 nodejs 爬虫

    简单的 nodejs 爬虫 最近想用 node 写爬虫,然后将爬取的数据存入 mongodb。一开始想用 phan...

  • node爬虫进阶之——登录

    在之前的文章node入门场景之——爬虫已经介绍过最简单的node爬虫实现,本文在原先的基础上更进一步,探讨一下如何...

  • Node.js学习——爬虫

    1.实验目的 使用Node.js实现一个简单的爬虫。 2.实验方法 通过request模块获取HTML页面...

  • node爬虫最简单的demo

    1.安装node 2.新建一个文件夹,文件夹里新建一个game.js 3.安装模块 在命令行输入安装模块命令:np...

网友评论

    本文标题:一个简单的node爬虫

    本文链接:https://www.haomeiwen.com/subject/jhawdftx.html