python-爬虫案例7-爬取网页中所有涉及的内容

作者: 我最有才 | 来源:发表于2019-04-03 10:34 被阅读0次

python-爬虫案例7-爬取网页中所有涉及的内容
Python-爬虫-多线程、线程池模拟（urllib、reque
Python-爬虫基础-Xpath配合获取网页特定标签内容
Python爬虫入门：以东方财富网为例
最通俗的 Python3 网络爬虫入门
(一) 爬虫的基本概念和抓包工具的使用
用布隆过滤器实现网页爬虫中的URL去重功能
requests爬虫改为增量爬虫的一种方法
Node JS爬虫：爬取瀑布流网页高清图
Python｜三个例子，一步步教你学会爬虫

模拟 https://news.sina.com.cn/ 并爬取网页上几乎所有连接的网页内容 2019.0403

网页软代码如下：并找到我们要的内容--红色标识

代码如下：

结果如下：

打开后如下：

可复制代码如下：

import re

import urllib.request

data=urllib.request.urlopen("http://news.sina.com.cn/").read()

data2=data.decode("utf-8","ignore")

pat='href="(https://news.sina.com.cn/.*?)"'

allurl=re.compile(pat).findall(data2)

for i in range(0,len(allurl)):

try:

print("第"+str(i)+"次爬取")

thisurl=allurl[i]

file="E:/py/sinanews/"+str(i)+".html"

urllib.request.urlretrieve(thisurl,file)

print("----成功----")

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

python-爬虫案例7-爬取网页中所有涉及的内容
模拟https://news.sina.com.cn/ 并爬取网页上几乎所有连接的网页内容 2019.0403 网...
Python-爬虫-多线程、线程池模拟（urllib、reque
接着之前的MonkeyLei：Python-爬取页面内容（涉及urllib、requests、UserAgent、...
Python-爬虫基础-Xpath配合获取网页特定标签内容
上一篇MonkeyLei：Python-爬取页面内容（涉及urllib、requests、UserAgent、Js...
Python爬虫入门：以东方财富网为例
网络爬虫（Web Spider），根据网页地址爬取网页内容，从而获取各类数据，实现多种多样的功能。下面就以爬取东方...
最通俗的 Python3 网络爬虫入门
网络爬虫简介网络爬虫，也叫网络蜘蛛(WebSpider)。它根据网页地址(URL)爬取网页内容，而网页地址(UR...
(一) 爬虫的基本概念和抓包工具的使用
什么是网络爬虫？就是写一个程序, 根据url用来爬取网页, 并且从网页中获取指定的内容爬虫的分类： (1) 通...
用布隆过滤器实现网页爬虫中的URL去重功能
网页爬虫是搜索引擎中的非常重要的系统，负责爬取几十亿、上百亿的网页。爬虫的工作原理是，通过解析已经爬取页面中的网页...
requests爬虫改为增量爬虫的一种方法
在爬虫编写中，为了避免重复爬取同一个网页，一般会使用增量爬虫，这样就避免了重复爬取相同的一个网页，只爬取新的网页数...
Node JS爬虫：爬取瀑布流网页高清图
原文链接：Node JS爬虫：爬取瀑布流网页高清图静态为主的网页往往用get方法就能获取页面所有内容。动态网页即...
Python｜三个例子，一步步教你学会爬虫
网络爬虫简介网络爬虫，也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容，而网页地址(U...

网友评论

本文标题：python-爬虫案例7-爬取网页中所有涉及的内容

本文链接：https://www.haomeiwen.com/subject/xffobqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python-爬虫案例7-爬取网页中所有涉及的内容

相关文章