美文网首页
Windows 和 Liunx下安装tesserocr详解

Windows 和 Liunx下安装tesserocr详解

作者: 忘了呼吸的那只猫 | 来源:发表于2020-09-04 13:14 被阅读0次

OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符串确实是由字符稍加扭曲变换得到的内容。

tesserocrpython的一个OCR识别库,但其实是对tesserocr做的一层Python API的封装,所以它的核心是tesseract.因此,在安装tesserocr之前,我们需要先安装tesseract

这个库windowsLinux安装不同,后面分为两部分来写

window安装

1. tesseract安装

下载想要的版本:https://digi.bib.uni-mannheim.de/tesseract/
文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本。
下载好的程序如下,双击安装。一直next就行。

这里不用管直接下一步。


  • 注意:红线的地方是选择安装OCR识别支持的语言包,全选的话有1.3GB的大小,影响下载速度,正常的学习测试的话,建议不要全选,选择自己需要的语言包安装即可。例如: chinese,中文简体和繁体,以及数学运算。除非是上线的项目必须全选。

2.安装tesserocr库

安装好tesseract以后,安装tesserocr,直接在线安装 pip3 install tesserocr会报错:


所以建议使用离线安装,先下载'whl'文件
https://github.com/simonflueckiger/tesserocr-windows_build/releases

选择喜欢的版本下载
下载好之后,在下载目录打开 cmd控制台输入:
pip3 install 下载的文件名.whl。

最后一步

打开tesseract.exe(第一步安装的程序)的安装目录,找到tessdata目录


复制一份放入你的python执行环境的根目录中去,

windows上的安装步骤就完成了,可以去测试一下是否能用

二、tesserocr linux安装

1.linux也需要先安装 tesseract-ocr

sudo apt-get install tesseract-ocr

2.安装依赖库

sudo apt-get install libtiff5-dev libjpeg8-dev zlib1g-dev  libfreetype6-dev liblcms2-dev libwebp-dev libharfbuzz-dev libfribidi-dev  tcl8.6-dev tk8.6-dev python-tk

3.tesserocr库安装

安装开发环境
apt install libtesseract-dev libleptonica-dev
安装库
pip3 install tesserocr

相关文章

网友评论

      本文标题:Windows 和 Liunx下安装tesserocr详解

      本文链接:https://www.haomeiwen.com/subject/jcbhsktx.html