美文网首页呆鸟的Python数据分析
资料整理:一篇文章教会你urllib库的高级用法

资料整理:一篇文章教会你urllib库的高级用法

作者: 松鼠爱吃饼干 | 来源:发表于2020-04-21 16:57 被阅读0次

1.1 设置请求头

其中User-Agent代表用的哪个请求的浏览器

代码如下:

对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应,所以我们还可以在headers中加入referer

代码如下:

提示

在此可以使用多个User_Agent:然后随即选择

对于随机UserAgent,PYthon有提供一个模块库fake-useragent,安装如下:

 pip3 install fake-useragent

1.2 设置代理Proxy

假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,网站君都不知道是谁在捣鬼了,这酸爽!

分类:

透明代理:目标网站知道你使用了代理并且知道你的源IP地址,这种代理显然不符合我们这里使用代理的初衷

匿名代理:匿名程度比较低,也就是网站知道你使用了代理,但是并不知道你的源IP地址

高匿代理:这是最保险的方式,目标网站既不知道你使用的代理更不知道你的源IP

代码如下:

2 使用DebugLog

可以通过下面的方法把 Debug Log 打开,这样收发包的内容就会在屏幕上打印出来,方便调试,这个也不太常用,仅提一下

相关文章

  • 资料整理:一篇文章教会你urllib库的高级用法

    1.1 设置请求头 其中User-Agent代表用的哪个请求的浏览器 代码如下: 对付防盗链,服务器会识别head...

  • 详解 python3 urllib

    本文是爬虫系列文章的第一篇,主要讲解 Python 3 中的 urllib 库的用法。urllib 是 Pytho...

  • Python爬虫---Urllib库的高级用法

    1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了...

  • Python——爬虫入门 Urllib库的进阶

    上一篇文章我们简单讲解了Urllib库的基础用法,包括如何获取请求之后的页面响应,如何使用POST请求上传数据,今...

  • 【读书笔记】_WEB编程

    urllib 模块urllib 提供了了一个高级的 Web 交流库,支持 Web 协议, HTTP, FTP 和 ...

  • 爬虫urllib高级用法

    Handler处理器 和 自定义opener urllib之代理设置 什么是代理:代理就是代理服务器功能:网络信息...

  • Python爬虫入门(4):Urllib库的高级用法

    1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为...

  • [Passage1] 学习urllib库

    我将分三篇文章介绍urllib的使用,这是第一篇。 目录(删除部分本文不介绍) urllib 库的简介 发送请求(...

  • 爬虫入门

    1,Python urllib和urllib2 库的用法 2.URL的含义 URL,即统一资源定位符,也就是我们说...

  • urllib 模块的用法

    urllib的用法 介绍 urllib 是 python3.X中提供的一系列操作URL的库,它可以轻松的模拟用户使...

网友评论

    本文标题:资料整理:一篇文章教会你urllib库的高级用法

    本文链接:https://www.haomeiwen.com/subject/afkpihtx.html