美文网首页
python爬虫环境配置

python爬虫环境配置

作者: Hf1dw | 来源:发表于2018-10-11 15:28 被阅读0次

0x01 requests

  • 特点
    优点:速度快
    缺点:不直接加载在源码中的元素无法提取
  • 方法

0x02 selenium

  • 特点
    优点:模拟人工操作浏览器,不用设置代理 ip 和 headers 去做反爬虫处理,可以直接提取页面元素里的信息。
    缺点:速度慢
  • 与浏览器交互的驱动程序下载地址
chrome:https://chromedriver.storage.googleapis.com/index.html
Edge:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver) 
Firefox:https://github.com/mozilla/geckodriver/releases
Safari:https://webkit.org/blog/6900/webdriver-support-in-safari-10/
  • 谷歌驱动程序版本选择对照表
  • 下载的驱动程序放在相应的python文件夹下

其他常用的库:

  • lxml:支持html与xml的解析
  • bs4:解析和提取 HTML/XML 数据
lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器、lxml 的 XML解析器。

相关文章

网友评论

      本文标题:python爬虫环境配置

      本文链接:https://www.haomeiwen.com/subject/ukwvaftx.html