美文网首页
node 写爬虫

node 写爬虫

作者: 韩柯炜 | 来源:发表于2017-12-21 23:26 被阅读0次

1. 爬虫 ---- 小公司数据采集之必备

node 写爬虫的优势

  • 你只需要一个前端工程师 (最重要的一点)
  • 你不需要重新学习一门语言
  • node 的异步很适合处理IO密集型应用场景
  • node 有很多npm包帮助你更加轻松的完成爬虫业务

爬虫的基本操作

  • 怎么去爬取网页的内容(爬虫的hello world)

环境搭建 (具体搭建方法请自行google)

    node 建议安装 8.4 以上 支持async await --- 贼爽 
    chrome 浏览器 
    vscode 贼好用的编辑器
    postman 模拟http请求
    charles 抓包工具 (app应用的http请求抓取)

爬虫之hello world

   mkdir spider //创建spider目录
   cd spider //切到spider目录下
   npm init //用npm初始化项目 会产生一个package.json文件
   npm i  cheerio node-fetch --save // 安装依赖
   touch index.js //创建一个index.js文件 
   vim index.js //用vim 进行编辑  按 I 进入编辑模式
   进入编辑模式后
   输入代码:
    console.log('hello word --- 之爬虫');
    const fetch = require('node-fetch');
    fetch('https://www.baidu.com',{
        method:'GET'
    }).then(async res=>{
          let html = await res.text(); //url是html
          // let json = await res.json();//url 是json文件
          console.log(html);
    })
    按ESC 退出编辑模式 按 SHIFT +  : 输入wq! 回车 保存代码退出vim编辑器
    然后用node index.js 运行代码.在终端你就可以看到百度的源码HTML 的文本了
    

爬虫就是这么简单

相关文章

  • node爬虫之路(一)

    最近对爬虫很感兴趣,我们node.js也是可以写爬虫。所以写一个node爬虫系列,记录我的爬虫之路,感兴趣的同学可...

  • node 写爬虫

    1. 爬虫 ---- 小公司数据采集之必备 node 写爬虫的优势 你只需要一个前端工程师 (最重要的一点) ...

  • 使用Node.js实现简单的爬虫

    写在前头 最近Node.js时觉得Node.js的异步操作很适合写爬虫,然后就萌生了写爬虫这一决定。 准备阶段 第...

  • 简单的 nodejs 爬虫

    简单的 nodejs 爬虫 最近想用 node 写爬虫,然后将爬取的数据存入 mongodb。一开始想用 phan...

  • node爬虫快速入门

    node爬虫 初入前端,刚刚接触node,对于耳闻已久的node爬虫非常神往,所以有了这篇文章,项目代码在文章末尾...

  • node异步编程async/await/promise

    最近在用node写一个小爬虫学习node,但是遇到一个不大不小的坑,就是如何将异步的node程序串行执行。下面就我...

  • 好用的 HTTP模块SuperAgent

    SuperAgent 最近在写爬虫,看了下node里面有啥关于ajax的模块,发现superagent这个模块灰常...

  • Node 爬虫——好用的 HTTP模块SuperAgent

    SuperAgent 最近在写爬虫,看了下node里面有啥关于ajax的模块,发现superagent这个模块灰常...

  • node入门场景之——爬虫

    边做边学效率更高,爬虫是node的适用场景之一,关于爬虫的另一篇文章node爬虫进阶之——登录为了验证“经验总结、...

  • Node 服务端接口 & 爬虫

    本来想用 Node 写爬虫和服务端接口的, 不过感觉 cheerio 的 CSS selector 用起来特别不爽...

网友评论

      本文标题:node 写爬虫

      本文链接:https://www.haomeiwen.com/subject/iovfextx.html