美文网首页
爬虫笔记(1):网络爬虫实现原理与实现技术

爬虫笔记(1):网络爬虫实现原理与实现技术

作者: WeirdoSu | 来源:发表于2017-12-11 17:54 被阅读0次

网络爬虫实现原理详解

  • 通用网络爬虫:
    获取初始的URL;
    根据初始的URL爬取页面并获得新的URL;
    将新的URL放到URL队列中;
    从URL队列中读取新的URL,并根据新的URL爬去网页,同时从新网页中获取新URL,重复上述过程;
    满足设置的停止条件时停止爬取。
  • 聚焦网络爬虫:见#395

爬行策略

深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、其他

网页更新策略

网站更新后需要重新爬取,网站更新的频率与爬虫访问网站的频率越相近效果越好;
用户体验策略:优先更新排名结果靠前的网页
历史数据策略、
聚类分析策略

网页分析算法

  • 基于用户行为的网页分析算法:用户访问频率、访问时长、单击率等对网页进行综合评价;
  • 基于网络拓扑的网页分析算法:链接关系、PageRank;
  • 基于网页内容的网页分析算法:数据、文本等内容特征。

身份识别

正规的爬虫一般会告诉对应网页的网站站长其爬虫身份,网站管理员则可以通过爬虫告知的身份信息对爬虫身份进行识别。
一般的,会通过HTTP请求中的User Agent字段告知自己的身份信息;爬虫访问网站时,首先会根据该站点下的Robots.txt文件来确定可爬取的网页范围,Robots协议是需要网络爬虫共同遵守的协议。

实现技术

  • Python:框架丰富,多线程能力较强;
  • Java:大型爬虫项目;
  • PHP:后端处理很强,并发能力弱;
  • Node.JS:支持高并发与多线程;
  • C++:运行速度极快,适合大型爬虫项目,成本较高;
  • Go:高并发;

相关文章

  • 爬虫笔记(1):网络爬虫实现原理与实现技术

    网络爬虫实现原理详解 通用网络爬虫:获取初始的URL;根据初始的URL爬取页面并获得新的URL;将新的URL放到U...

  • 1

    两种典型爬虫:通用网络爬虫、聚焦网络爬虫 通用网络爬虫实现原理与过程: 获取初始的URL 根据初始的URL爬取页面...

  • Python网络爬虫

    1. 概述 本文主要介绍网络爬虫,采用的实现语言为Python,目的在于阐述网络爬虫的原理和实现,并且对目前常见的...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 爬虫分类

    爬虫,又称网络爬虫,也叫网页蜘蛛。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(Gene...

  • 网络爬虫详解:原理、工作流程及爬取策略(二)

    在上篇文章中,企通查以通用网络爬虫和聚焦网络爬虫为主,对网络爬虫的实现原理进行了介绍(上篇内容回顾:网络爬虫详解:...

  • 网络爬虫

    什么是网络爬虫? 网络爬虫的实现原理 实例1:爬取CSDN上面的标题 实例2:爬取豆瓣读书上面图书的封面

  • 爬虫的分类

    爬虫的分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型 通用网络爬虫:全网爬虫,爬取对象有种子URL...

  • Python爬虫

    简单爬虫代码实现 网络爬虫的原理图 具体细节:https://www.cnblogs.com/wawlian/ar...

  • Golang实现简单爬虫框架(2)——单任务版爬虫

    Golang实现简单爬虫框架(2)——单任务版爬虫 上一篇博客Golang实现简单爬虫框架(1)——项目介绍与环境...

网友评论

      本文标题:爬虫笔记(1):网络爬虫实现原理与实现技术

      本文链接:https://www.haomeiwen.com/subject/kgqwixtx.html