美文网首页
Tesseract-OCR样本训练

Tesseract-OCR样本训练

作者: milovetingting | 来源:发表于2021-07-04 12:35 被阅读0次

个人博客

http://www.milovetingting.cn

下载Tesseract

https://github.com/UB-Mannheim/tesseract/wiki

下载jTessBoxEditor

https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditor-2.3.1.zip/download

安装Tesseract

一路Next,在选择组件界面,全选所有组件

安装jTessBoxEditor

解压后,直接运行jTessBoxEditor.jar

制作训练样本

运行jTessBoxEditor工具,点击Tools-Merge TIFF,选择需要合并的tif文件,保存文件名称格式:[lang].[fontname].exp[num],如zh.song.exp0

生成Box文件

进入Tesseract安装目录

tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

[lang].[fontname].exp[num].tif 即为上面生成的合并文件

[lang].[fontname].exp[num]为新生成的box文件,文件名为输入文件名称一致

校正box文件

将上面两步生成的.tif和.box文件放在同一目录下,jTessBoxEditor软件中选择Box Editor,open,选择之前的tif文件,打开后可以校正结果后保存。

创建 font_properties 文件

文件内容:

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

song 0 0 0 0 0 

生成字符特征文件

新建bat文件

rem 产生字符特征文件
tesseract zh.song.exp0.tif zh.song.exp0.tif box.train

rem 计算字符集
unicharset_extractor zh.song.exp0.box

rem 聚集字符特征
mftraining -F font_properties -U unicharset -O zh.unicharset zh.song.exp0.tr

rem 生成字符形状正常化特征文件
cntraining zh.song.exp0.tr

rem 文件重命名
ren shapetable zh.shapetable
ren normproto zh.normproto
ren inttemp zh.inttemp
ren pffmtable zh.pffmtable

rem 生成tessdata文件
combine_tessdata zh.

pause

执行bat文件,即可生成zh.traineddata。

相关文章

  • Tesseract-OCR样本训练

    个人博客http://www.milovetingting.cn[http://www.milovetingtin...

  • Bagging原理解析

    1. 原理 从原始样本集中有放回抽样,获取训练子集。假设训练集有个样本,每轮从训练集中有放回的抽取个训练样本。共进...

  • 09 Hog_SVM小狮子识别(监督学习)

    1、准备训练的样本(正负样本,负样本一定不能出现正样本,反之亦然)2、对样本进行hog+svm的训练3、使用一张图...

  • OCR样本训练

    参考的tesseract-ocr训练方法 - zhanghaihua415的日志 - 网易博客 但是照着弄出现了几...

  • python按照概率大小在数组中取值

    目前训练数据中,总会出现loss非常高的样本,那就需要针对这类样本进行更多的训练,由于按照样本长度已经将样本放在不...

  • pytorch学习(十二)—迁移学习Transfer Learn

    前言 在训练深度学习模型时,有时候我们没有海量的训练样本,只有少数的训练样本(比如几百个图片),几百个训练样本显然...

  • 模型评估与选择

    过拟合:严重影响泛化能力。过拟合即对训练样本的训练效果太好,导致将训练样本自身特点当成样本都具有的特征,导致泛化能...

  • 图像训练样本量少时的数据增强技术

    在深度学习训练过程中,训练数据是很重要的,在样本量方便,一是要有尽量多的训练样本,二是要保证样本的分布够均匀,也就...

  • 多变量线性回归

    图中是包含多个房屋特征的训练数据,我们用 表示特征个数, 表示第 个 训练样本, 表示第 个训练样本的第 ...

  • 哲哲的ML笔记(二:模型)

    1. 参数设定 :训练实例数:输入变量/特征:预测的目标变量:一个训练样本:第 i 个训练样本:hypothesi...

网友评论

      本文标题:Tesseract-OCR样本训练

      本文链接:https://www.haomeiwen.com/subject/jfbmultx.html