美文网首页web开发
用koa2写一个下载漫画的爬虫

用koa2写一个下载漫画的爬虫

作者: tommy123 | 来源:发表于2017-05-19 23:15 被阅读113次

项目搭建

  1. 安装nodejs>7.6,安装koa-generator
  2. 直接koa2 spider,生成项目
  3. 安装request,request-promise,cheerio,mkdirp
  4. npm install安装依赖

思路

图片或者漫画爬虫的思路很简单,首先观察url的规律,把url按规律加入到下载任务,其实就是请求获得html内容,然后对html进行解析,找到下载的图片url(一般都是img标签的src属性值),把url放到数组保存,使用async await控制所有的任务,直到把所有的图片下载完。

难点

但是nodejs本身上异步的,如果你直接在for循环里去下载,肯定是不行的,必须控制好异步的执行上关键。
爬虫简单,处理好异步难。这里我使用的es7中async,await配合promise解决异步问题,还可以使用async模块,eventproxy,等等异步控制模块来解决。

核心代码,spider.js

const fs = require('fs');
const request = require("request-promise");
const cheerio = require("cheerio");
const mkdirp = require('mkdirp');
const config = require('../config');
exports.download = async function(ctx, next) {
    const dir = 'images';
    // 图片链接地址
    let links = [];
    // 创建目录
    mkdirp(dir);
    var urls = [];
    let tasks = [];
    let downloadTask = [];
    let url = config.url;
    for (var i = 1; i <= config.size; i++) {
        let link = url + '_' + i + '.html';
        if (i == 1) {
            link = url + '.html';
        }
        tasks.push(getResLink(i, link))
    }
    links = await Promise.all(tasks)
    console.log('links==========', links.length);

    for (var i = 0; i < links.length; i++) {
        let item = links[i];
        let index = item.split('___')[0];
        let src = item.split('___')[1];
        downloadTask.push(downloadImg(src, dir, index + links[i].substr(-4, 4)));
    }
    await Promise.all(downloadTask);
}

async function downloadImg(url, dir, filename) {
    console.log('download begin---', url);
    request.get(url).pipe(fs.createWriteStream(dir + "/" + filename)).on('close', function() {
        console.log('download success', url);
    });
}
async function getResLink(index, url) {
    const body = await request(url);
    let urls = [];
    var $ = cheerio.load(body);
    $(config.rule).each(function() {
        var src = $(this).attr('src');
        urls.push(src);
    });
    return index + '___' + urls[0];
}

基础配置

由于爬虫的复杂性基于不同的网站,不同的任务很不一样,这里只是把几个常用的变量抽取到了config.js。

module.exports = {
    //初始url
    url: 'http://www.xieet.com/meinv/230',
    size: 10,
    // 选中图片img标签的选择器
    rule: '.imgbox a img'
};

运行代码

  1. 下载我上传的代码koa-spider
  2. npm install,npm start即可运行

总结

其实无论是写爬虫还是些其他程序,使用nodejs很大一部分都是要处理异步,要学好nodejs必须学好异步处理。

如果文章对你有帮助,请去我的博客留个言吧! 我的博客

相关文章

  • 用koa2写一个下载漫画的爬虫

    项目搭建 安装nodejs>7.6,安装koa-generator 直接koa2 spider,生成项目 安装re...

  • 2018-12-05爬虫

    koa2 爬虫cheerio

  • python 爬虫-1:下载网页源代码

    我的博客:http://www.wangs0622.com 参考书籍:《用 Python 写网络爬虫》 下载地址:...

  • python爬虫爬取美丽小姐姐图片美女壁纸

    爬虫爬取蜂鸟里的高清壁纸 想要自动下载某个网站的高清壁纸,不能一个个点击下载,所以用爬虫实现自动下载。改代码只针对...

  • 2019-04-08

    Nodejs -- 使用koa2搭建数据爬虫 当前爬虫项目开发所需中间件: cheerio: 则能够对请求结果进行...

  • 用于pixiv漫画下载的爬虫

    GitHub - mtclaw/pixivSpider: 根据p站号下载漫画的爬虫。 # 关于模拟登陆 本来是想自...

  • python爬虫——scrapy框架总结

    Scrapy是用python写的一个爬虫框架,当然如果只是写一些简单爬虫,python自己就有做爬虫的库,scra...

  • 动漫之家selenium懒爬虫

    本人是一个漫画迷,也是一个爬虫新手,由于很不喜欢动漫之家的阅览体验,进而有了这一次的动漫之家漫画下载的小项目,也是...

  • 用 Python 下载漫画

    1. 开篇 前一阵子看了 Relife 这部七月番动画,短短 13 集很快就看完,深深无法自拔,然后去查了下,发现...

  • Scrapy爬虫框架

    Scrapy是一个著名的爬虫框架,以前写爬虫都是用Python写那种特别原生低级的爬虫,一般都是以单线程为主,但是...

网友评论

    本文标题:用koa2写一个下载漫画的爬虫

    本文链接:https://www.haomeiwen.com/subject/cesuxxtx.html