- 请求库
requests
selenium
ChromeDriver(或者GeckoDriver、PhantomJS等支持headless无界面的浏览器)
aiohttp(异步请求) - 解析库
lxml(或者beautifulsoup4、pyquery等其它支持html xml XPath解析库)
tesserocr (用py封装了tesseract)
推荐使用编译好了的whl文件安装(避免需要c++环境,各种报错)
whl下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
tesserocr GitHub: https://github.com/sirfz/tesserocr
tesserocr PyPI: https://pypi.python.org/pypi/tesserocr
tesseract 下载地址:http://digi.bib.uni-mannheim.de/tesseract
tesseract GitHub : https://github.com/tesseract-ocr/tesseract
tesseract 语言包 : https://github.com/tesseract-ocr/tessdata
tesseract 文档 : https://github.com/tesseract-ocr/tesseract/wiki/Documentation
-
存储库
pymysql
pymongo
redis-py(pip install redis) -
爬虫框架
- pyspider(前提需要下载pycurl的whl包安装
python3.7还有一些坑(3.5后,async/await变成关键字了):
修改下列python文件中的async为async1(全部替换)
run.py
fetcher\tornado_fetcher.py
webui\app.py
还需要 python -m pip install wsgidav==2.4.1
- Scrapy (pip install Scrapy)
网友评论