美文网首页
python爬虫一些必要的库

python爬虫一些必要的库

作者: bclz | 来源:发表于2019-11-21 15:40 被阅读0次
  • 请求库
    requests
    selenium
    ChromeDriver(或者GeckoDriver、PhantomJS等支持headless无界面的浏览器)
    aiohttp(异步请求)
  • 解析库
    lxml(或者beautifulsoup4、pyquery等其它支持html xml XPath解析库)
    tesserocr (用py封装了tesseract)
推荐使用编译好了的whl文件安装(避免需要c++环境,各种报错)
whl下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

tesserocr GitHub: https://github.com/sirfz/tesserocr
tesserocr PyPI: https://pypi.python.org/pypi/tesserocr
tesseract 下载地址:http://digi.bib.uni-mannheim.de/tesseract
tesseract GitHub : https://github.com/tesseract-ocr/tesseract
tesseract 语言包 : https://github.com/tesseract-ocr/tessdata
tesseract 文档 : https://github.com/tesseract-ocr/tesseract/wiki/Documentation
  • 存储库
    pymysql
    pymongo
    redis-py(pip install redis)

  • 爬虫框架

    1. pyspider(前提需要下载pycurl的whl包安装
python3.7还有一些坑(3.5后,async/await变成关键字了):
修改下列python文件中的async为async1(全部替换)
run.py
fetcher\tornado_fetcher.py
webui\app.py

还需要 python -m pip install wsgidav==2.4.1
  1. Scrapy (pip install Scrapy)

相关文章

网友评论

      本文标题:python爬虫一些必要的库

      本文链接:https://www.haomeiwen.com/subject/vcmzictx.html