美文网首页
我的爬虫日记

我的爬虫日记

作者: 千罹 | 来源:发表于2016-09-30 10:37 被阅读9次

实现一个简单的爬虫 基于 Node.js

用到的模块

http
mongodb

步骤:
1. 先指定一个 URL,将该URL放入队列 urls
2. 取出队列中的第一个 URL
3. 搜索该URL中的所有 urls
4. 将搜索到的 urls 合并进 urls 队列,将URL放入mongodb数据库
5. 跳到第二步

已知问题:
1. 搜索到的URL没有进行格式的验证
2. 匹配URL的正则可能会不严谨
3. 没有把已经存在的URL排除掉
4. 存放 url 的队列,因为是在内存中,所以有溢出的可能,且非常可能
5. 有些链接是相对链接,需要转换成绝对链接

结果:
能够存到数据库 1100 多条数据,但是有很多是 404 或其他错误

可以参考的文章:
基于网络爬虫的有效URL缓存

相关文章

  • 我的爬虫日记

    实现一个简单的爬虫 基于 Node.js 用到的模块 步骤:1. 先指定一个 URL,将该URL放入队列 urls...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • Python爬虫入门,5分钟了解思路,这是我见过最简单的基础教学

    如果学会了python的基本语法,我认为入门爬虫是很容易的。 1:什么是爬虫 爬虫(spider,又网络爬虫),是...

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • walter 爬虫日记

    获取首页的分类 https://www.walter-tools.com/zh-cn/_vti_bin/tibp/...

  • sandvik 爬虫日记

    [TODO] 请求分析 https://www.sandvik.coromant.com/zh-cn/_vti_b...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

网友评论

      本文标题:我的爬虫日记

      本文链接:https://www.haomeiwen.com/subject/ubblyttx.html