初识爬虫

作者: 我的小将军 | 来源:发表于2017-11-24 19:01 被阅读0次

网络爬虫1-python学习32
python-爬虫
初识爬虫
初识爬虫
初识爬虫
爬虫练习-boss直聘数据相关岗位分析（一）
【爬虫系列】- 初识爬虫
【爬虫教程】吐血整理，最详细的爬虫入门教程~
初识爬虫（1）
【Python爬虫】初识爬虫（1）

爬虫根据使用场景分为通用爬虫和聚焦爬虫两种形式。

通用爬虫的主要目的是将互联网上的网页下载到本地，然后放到本地服务器中形成备份，再对这些网页做相关处理，最后提供一个用户检索接口。

通用爬虫的抓取流程

1.首先选取一部分已有的URL，把这些URL放到待爬取队列；

2.从待爬取队列里取出URL，解析DNS得到主机IP，然后去这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本地服务器，最后把这个爬过的URL放入已爬取队列；

3.分析这些网页内容，找出网页里其他的URL连接，继续执行第二步，直到爬取条件结束。

通用爬虫的缺点：

1.只能提供和文本相关的内容（如HTML、Word、PDF）等，不能提供多媒体文件（如音乐、图片、视频）和二进制文件（如程序、脚本）等。

2.提供的结果千篇一律，不能针对不同背景领域的人提供不同的搜索结果。

3.不能理解人类语义上的检索。

为了解决这个问题，聚焦爬虫出现了：

聚焦爬虫是"面向特定主题需求"的一种网络爬虫程序，聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

举小栗子

采用python爬取qq代码如

1 import urllib

2

3 response = urllib.urlopen("http://www.qq.com/")

4

5 html = response.read()

6

7 print(html)

爬取结果部分截图

其中urllib是python内建的网络请求库。

下期聊聊urllib，敬请期待。

网友评论

本文标题：初识爬虫

本文链接：https://www.haomeiwen.com/subject/oymfbxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

初识爬虫

相关文章

网络爬虫1-python学习32

python-爬虫

初识爬虫

初识爬虫

初识爬虫

爬虫练习-boss直聘数据相关岗位分析（一）

【爬虫系列】- 初识爬虫

【爬虫教程】吐血整理，最详细的爬虫入门教程~

初识爬虫（1）

【Python爬虫】初识爬虫（1）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读