python爬虫环境配置

作者: Hf1dw | 来源:发表于2018-10-11 15:28 被阅读0次

Python爬虫开发环境配置
python爬虫环境配置
关于scrapy.Spider这个爬虫类的一些单独属性设置
【Python爬虫】-第一个脚本
爬虫入门，看这一篇就够了
Java(Eclipse)中调用Python3
Python3爬虫环境配置——请求库安装（附Firefox和Ch
mongodb CPU占用过高
PY爬虫
第一章环境搭建

0x01 requests

特点
优点：速度快
缺点：不直接加载在源码中的元素无法提取
方法

0x02 selenium

特点
优点：模拟人工操作浏览器，不用设置代理 ip 和 headers 去做反爬虫处理，可以直接提取页面元素里的信息。
缺点：速度慢
与浏览器交互的驱动程序下载地址

chrome：https://chromedriver.storage.googleapis.com/index.html
Edge：https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver) 
Firefox：https://github.com/mozilla/geckodriver/releases
Safari：https://webkit.org/blog/6900/webdriver-support-in-safari-10/

谷歌驱动程序版本选择对照表

下载的驱动程序放在相应的python文件夹下

其他常用的库：

lxml:支持html与xml的解析
bs4:解析和提取 HTML/XML 数据

lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器、lxml 的 XML解析器。

网友评论

本文标题：python爬虫环境配置

本文链接：https://www.haomeiwen.com/subject/ukwvaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python爬虫环境配置

0x01 requests

0x02 selenium

相关文章

Python爬虫开发环境配置

python爬虫环境配置

关于scrapy.Spider这个爬虫类的一些单独属性设置

【Python爬虫】-第一个脚本

爬虫入门，看这一篇就够了

Java(Eclipse)中调用Python3

Python3爬虫环境配置——请求库安装（附Firefox和Ch

mongodb CPU占用过高

PY爬虫

第一章环境搭建

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读