Tesseract-OCR样本训练

作者: milovetingting | 来源:发表于2021-07-04 12:35 被阅读0次

Tesseract-OCR样本训练
Bagging原理解析
09 Hog_SVM小狮子识别（监督学习）
OCR样本训练
python按照概率大小在数组中取值
pytorch学习(十二)—迁移学习Transfer Learn
模型评估与选择
图像训练样本量少时的数据增强技术
多变量线性回归
哲哲的ML笔记（二：模型）

个人博客

http://www.milovetingting.cn

下载Tesseract

https://github.com/UB-Mannheim/tesseract/wiki

下载jTessBoxEditor

https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditor-2.3.1.zip/download

安装Tesseract

一路Next，在选择组件界面，全选所有组件

安装jTessBoxEditor

解压后，直接运行jTessBoxEditor.jar

制作训练样本

运行jTessBoxEditor工具，点击Tools-Merge TIFF,选择需要合并的tif文件，保存文件名称格式：[lang].[fontname].exp[num],如zh.song.exp0

生成Box文件

进入Tesseract安装目录

tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

[lang].[fontname].exp[num].tif 即为上面生成的合并文件

[lang].[fontname].exp[num]为新生成的box文件，文件名为输入文件名称一致

校正box文件

将上面两步生成的.tif和.box文件放在同一目录下，jTessBoxEditor软件中选择Box Editor，open,选择之前的tif文件，打开后可以校正结果后保存。

创建 font_properties 文件

文件内容：

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

如

song 0 0 0 0 0

生成字符特征文件

新建bat文件

rem 产生字符特征文件
tesseract zh.song.exp0.tif zh.song.exp0.tif box.train

rem 计算字符集
unicharset_extractor zh.song.exp0.box

rem 聚集字符特征
mftraining -F font_properties -U unicharset -O zh.unicharset zh.song.exp0.tr

rem 生成字符形状正常化特征文件
cntraining zh.song.exp0.tr

rem 文件重命名
ren shapetable zh.shapetable
ren normproto zh.normproto
ren inttemp zh.inttemp
ren pffmtable zh.pffmtable

rem 生成tessdata文件
combine_tessdata zh.

pause

执行bat文件，即可生成zh.traineddata。

网友评论

本文标题：Tesseract-OCR样本训练

本文链接：https://www.haomeiwen.com/subject/jfbmultx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！