美文网首页
爬虫简介

爬虫简介

作者: 117他爸 | 来源:发表于2017-09-05 11:14 被阅读0次

爬虫是什么

网页的本质,是设备通过读取服务器数据库的内容,按照既定格式投射到显示屏上的过程。

我们在电脑,手机或者其他设备上看到的所有信息,标题,内容,评论,点赞等等信息,都是按照既定的格式把存在于服务器的数据库内的数据都去后,显示出来的。

而爬虫就是通过程序把网页上的信息,再还原成数据库的过程。

爬虫示意图

所以,爬虫也可以是说是一种偷盗服务器数据的行为,很多网站会限制爬虫,因为它可能存在,对服务器的性能骚扰,内容层面的法律风险和个人隐私的泄露的风险。

一般的服务器通过2种方式来限制网络爬虫:

第一种 网站的所有者有一定的技术能力,通过来源审查来限制网络爬虫。来源审查,一般通过判断User-Agent来进行限制。

第二种 通过Robots协议来告诉网络爬虫需要遵守的规则,哪些可以爬取,哪些是不允许的,并要求所有的爬虫遵守该协议。

如何爬取数据

根据需要爬取数据的规模大小,可以有以下三种方法:

小规模,数据量小,爬取速度不敏感;对于这类网络爬虫我们可以使用Requests库来实现,主要用于爬取网页。

中规模,数据规模较大,爬取速度敏感;对于这类网络爬虫我们可以使用Scrapy库来实现,主要用于爬取网站或系列网站。

大规模,搜索引擎,爬取速度关键;此时需要定制开发,主要用于爬取全网,一般是建立全网搜索引擎,如百度、Google搜索等。

爬虫参考文档

我用Python爬了12万条影评,告诉你《战狼Ⅱ》都在说些啥

使用Python爬一爬网易云音乐上那些评论火爆的歌曲

Python爬虫  获得淘宝商品评论

利用爬虫技术能做到哪些很酷很有趣很有用的事情?

Python编写知乎爬虫实践

听说你好不容易写了个爬虫,结果没抓几个就被封了?  

网络爬虫,如何做到 “盗亦有道” ? 

相关文章

  • 爬虫简介

    MOOC 北京理工大学嵩教授 视频整理https://www.youtube.com/watch?v=PxMWOc...

  • 爬虫简介

    爬虫:一段自动抓取互联网信息的程序 价值:互联网数据,为我所用! 简单爬虫架构 简单爬虫架构-运行流程 URL管理...

  • 爬虫简介

    爬虫是什么 网页的本质,是设备通过读取服务器数据库的内容,按照既定格式投射到显示屏上的过程。 我们在电脑,手机或者...

  • 爬虫简介

    端口 | 网络协议 | 网络模型 | HTTP响应 端口 国际规定的通信协议(TCP/IP),爬虫使用的协议为HT...

  • 爬虫简介

    什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本...

  • 爬虫简介

    爬虫: 网络爬虫机器人,以互联网自由抓取数据的程序 爬虫的作用: 搜索引擎 商品比价 知乎的数据分析平台 如何写一...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • python-爬虫基础(慕课网)

    二.爬虫简介以及爬虫的技术价值 2-1:爬虫是什么? 2-2:爬虫技术的价值? 三.简单爬虫架构 3-1:简单爬虫...

  • 爬虫01:概述

    爬虫概述 1.目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2.章节内容 2.1爬虫...

  • WebMagic学习(一)之Hello world

    Java爬虫项目简介 大型的: Nutch apache/nutch · GitHubapache下的开源爬虫程序...

网友评论

      本文标题:爬虫简介

      本文链接:https://www.haomeiwen.com/subject/uohujxtx.html