美文网首页
初识爬虫

初识爬虫

作者: 我的小将军 | 来源:发表于2017-11-24 19:01 被阅读0次

爬虫根据使用场景分为通用爬虫聚焦爬虫两种形式。

通用爬虫的主要目的是将互联网上的网页下载到本地,然后放到本地服务器中形成备份,再对这些网页做相关处理,最后提供一个用户检索接口。

通用爬虫的抓取流程

1.首先选取一部分已有的URL,把这些URL放到待爬取队列;

2.从待爬取队列里取出URL,解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器,最后把这个爬过的URL放入已爬取队列;

3.分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。

通用爬虫的缺点

1.只能提供和文本相关的内容(如HTML、Word、PDF)等,不能提供多媒体文件(如音乐、图片、视频)和二进制文件(如程序、脚本)等。

2.提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。

3.不能理解人类语义上的检索。

为了解决这个问题,聚焦爬虫出现了:

聚焦爬虫是"面向特定主题需求"的一种网络爬虫程序,聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

举小栗子

采用python爬取qq代码如

1 import urllib

2

3 response = urllib.urlopen("http://www.qq.com/")

4

5 html = response.read()

6

7 print(html)

爬取结果部分截图

其中urllib是python内建的网络请求库。

下期聊聊urllib,敬请期待。

相关文章

  • 网络爬虫1-python学习32

    初识爬虫-爬虫的工作原理 什么是爬虫呢? 爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。 爬虫能做...

  • python-爬虫

    初识爬虫 网页基础 BeautifuleSoup 解析数据 提取数据 Tag 对象 CSS选择器 爬虫进阶

  • 初识爬虫

    爬虫根据使用场景分为通用爬虫和聚焦爬虫两种形式。 通用爬虫的主要目的是将互联网上的网页下载到本地,然后放到本地服务...

  • 初识爬虫

    什么是爬虫? -网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一...

  • 初识爬虫

    一.用用架构 互联网的飞速发展是商业经济推动的。目前几乎所有的商业应用都是基于互联网的,它们一般采用c/s架构,b...

  • 爬虫练习-boss直聘数据相关岗位分析(一)

    初识爬虫 工作期间,初识爬虫,结合自己工作需要遂萌生了一个有趣的想法----通过爬取招聘网站某些岗位的信息,来了解...

  • 【爬虫系列】- 初识爬虫

    几年前由于互联网和大数据的火热,于是之前一直隐藏于黑暗中的爬虫也跟着走近了大众的视野……爬虫在互联网上无处不在,国...

  • 【爬虫教程】吐血整理,最详细的爬虫入门教程~

    初识爬虫 学习爬虫之前,我们首先得了解什么是爬虫。来自于百度百科的解释: 网络爬虫(又称为网页蜘蛛,网络机器人,在...

  • 初识爬虫(1)

    初识爬虫 学习爬虫之前,我们首先得了解什么是爬虫。来自于百度百科的解释: 网络爬虫(又称为网页蜘蛛,网络机器人,在...

  • 【Python爬虫】初识爬虫(1)

    写在前面 之前写了两篇关于爬虫的文章微信好友大揭秘,赵雷到底在唱什么,纯粹是自己的兴趣引导自己学习爬虫,关注里应该...

网友评论

      本文标题:初识爬虫

      本文链接:https://www.haomeiwen.com/subject/oymfbxtx.html