OCR全称Optical Character Recognition,光学字符识别。就是将图像中的文字检测出位置后识别出来,以文本的形式返回。
目前的ocr算法大概有两类,一类是先用文本检测算法检测出文本框,后用文本识别算法识别文本框中的文字;另一类是端到端的算法,输入图片后直接输出文字内容,其实其内部原理还是找到文字后进行识别。为了便于理解,ocr基本流程介绍还是分为文本检测和文本识别。
-
OCR的基本流程
- 图像文本检测
- 图像文本识别
-
图像文本检测
图像文本检测即从一张图像中检测出文本所在的框
demo.jpg
基于深度学习的文本检测算法主要有基于Faster R-CNN的算法,如CPTN,有基于SSD、yolo的算法,如Textbook、EAST。之后的博文会详细介绍CPTN和EAST算法以及其Tensorflow的实现。
-
图像文本识别
图像文本识别即把以上文本检测出的框分别识别出里面的文字
基于深度学习的文本识别算法主要有CRNN,之后的博文会详细介绍算法及其实现。
网友评论