python-爬虫案例8-模拟浏览器爬取页中所有涉及所有的内容

python-爬虫案例8-模拟浏览器爬取页中所有涉及所有的内容

作者: 我最有才 | 来源:发表于2019-04-03 11:31 被阅读0次

python-爬虫案例8-模拟浏览器爬取页中所有涉及所有的内容
Python-爬虫-多线程、线程池模拟（urllib、reque
Python-爬虫基础-Xpath配合获取网页特定标签内容
python-爬虫案例7-爬取网页中所有涉及的内容
多线程爬虫实战——爬取糗事百科
豆瓣图书rvest爬虫
各类链接
第四阶段爬虫整理
异步爬虫-aiohttp库、Twisted库
模拟登录之果壳网

网站为：https://blog.csdn.net/

源码为：

header 在这里：

结果如下：

可复制代码：

import re

import urllib.request

url="https://blog.csdn.net/"

headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36")

opener=urllib.request.build_opener()

opener.addheaders=[headers]

urllib.request.install_opener(opener) ##安装成为全局

data=opener.open(url).read().decode("utf-8","ignore")

pat='href="(https://blog.csdn.net/.*?)"'

allurl=re.compile(pat).findall(data)

for i in range(0,len(allurl)):

try:

print("第"+str(i)+"次爬取")

thisurl=allurl[i]

file="E:/py/csdn/"+str(i)+".html"

urllib.request.urlretrieve(thisurl,file)

print("----成功----")

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

相关文章

python-爬虫案例8-模拟浏览器爬取页中所有涉及所有的内容
网站为：https://blog.csdn.net/ 源码为： header 在这里：结果如下：可复制代码： ...
Python-爬虫-多线程、线程池模拟（urllib、reque
接着之前的MonkeyLei：Python-爬取页面内容（涉及urllib、requests、UserAgent、...
Python-爬虫基础-Xpath配合获取网页特定标签内容
上一篇MonkeyLei：Python-爬取页面内容（涉及urllib、requests、UserAgent、Js...
python-爬虫案例7-爬取网页中所有涉及的内容
模拟https://news.sina.com.cn/ 并爬取网页上几乎所有连接的网页内容 2019.0403 网...
多线程爬虫实战——爬取糗事百科
多线程爬虫思路我们之前写的爬虫网页，往往是等待一页内容爬取完毕后，再爬取另一页内容，效率很低，而用多线程和队列之...
豆瓣图书rvest爬虫
随便百度一下，可以发现很多豆瓣图书的爬虫案例，本文主要参考知乎爬虫利器Rvest包。第一页网页内容爬取以第一页...
各类链接
爬虫使用python-aiohttp爬取今日头条【Python】爬虫爬取各大网站新闻 Scrapy 模拟登录新...
第四阶段爬虫整理
爬虫概述爬虫案例案例1：爬取百度贴吧数据分析：GET方式爬取数据抓包：设计：实现：案例2：抓妹子图分析：...
异步爬虫-aiohttp库、Twisted库
为什么要用异步爬虫？爬虫本质上就是模拟客户端与服务端的通讯过程。以浏览器端的爬虫为例，我们在爬取不同网页过程中...
模拟登录之果壳网
模拟登录模拟登录常用于大型数据爬取，通过模拟登录，获得网站发给用户有效的 cookies，在爬虫爬取数据时，可以...

网友评论

本文标题：python-爬虫案例8-模拟浏览器爬取页中所有涉及所有的内容

本文链接：https://www.haomeiwen.com/subject/ierabqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|python-爬虫案例8-模拟浏览器爬取页中所有涉及所有的内容|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！