美文网首页
爬虫简介

爬虫简介

作者: Forever_f59e | 来源:发表于2019-01-31 11:05 被阅读0次

什么是爬虫?

  • 网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

爬虫的用途?

  • 搜索引擎
  • 咨询新闻网站
  • 购物助手(慧慧购物)
  • 数据分析与研究积累原始数据资源
  • 抢票软件等

爬虫的基本原理

我们把互联网比喻为一张大网,网络爬虫我们想象为网上的蜘蛛,网页与网页之间的连接我们理解为节点,爬虫就相当于是访问网页,获取网页的信息,又通过节点可以爬取另一个网站,然后不停的通过一个个节点即访问一个个网页,这样网站的数据就可以被我们获取下来了。

爬虫分为通用爬虫和聚焦爬虫通用爬虫

1.通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

2.聚焦爬虫 聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:   聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

相关文章

  • 爬虫简介

    MOOC 北京理工大学嵩教授 视频整理https://www.youtube.com/watch?v=PxMWOc...

  • 爬虫简介

    爬虫:一段自动抓取互联网信息的程序 价值:互联网数据,为我所用! 简单爬虫架构 简单爬虫架构-运行流程 URL管理...

  • 爬虫简介

    爬虫是什么 网页的本质,是设备通过读取服务器数据库的内容,按照既定格式投射到显示屏上的过程。 我们在电脑,手机或者...

  • 爬虫简介

    端口 | 网络协议 | 网络模型 | HTTP响应 端口 国际规定的通信协议(TCP/IP),爬虫使用的协议为HT...

  • 爬虫简介

    什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本...

  • 爬虫简介

    爬虫: 网络爬虫机器人,以互联网自由抓取数据的程序 爬虫的作用: 搜索引擎 商品比价 知乎的数据分析平台 如何写一...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • python-爬虫基础(慕课网)

    二.爬虫简介以及爬虫的技术价值 2-1:爬虫是什么? 2-2:爬虫技术的价值? 三.简单爬虫架构 3-1:简单爬虫...

  • 爬虫01:概述

    爬虫概述 1.目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2.章节内容 2.1爬虫...

  • WebMagic学习(一)之Hello world

    Java爬虫项目简介 大型的: Nutch apache/nutch · GitHubapache下的开源爬虫程序...

网友评论

      本文标题:爬虫简介

      本文链接:https://www.haomeiwen.com/subject/oldksqtx.html