OCR
官网:https://haomo-tech.com
作者:胡小根 袁书豪
邮箱:hxg@haomo-studio.com 294663908@qq.com
1 概述
1.1 技术描述
这是一个光学符号识别的技术。
涵盖了两个个关键技术点,如下:
detection技术
用于定位字符的位置,传统的机器学习方方法主要有:
- 滑框+SVM
- 滑框+boosting
深度学习方法有:
- faster-rcnn
- yolo
classification技术
识别区域内的文字.包含传统的机器学习的分类算法,如果文本间有相关,可以采用lstm
当然除了这两个关键点,还有一些预处理,例如降噪、二值化、旋转、水平切割、垂直切割,在字符识别里二值化比较重要。近期出现了end to end的算法,不需要分两大步骤进行,直接得到结果,但目前该方法不效果还未成熟,识别效果还不行。
1.2 技术发展历史
1.3 技术发展趋势
2 技术方案
2.1 方案1:手机使用的sdk,技术方案是:采用SVM进行detect,使用CNN进行classification
2.2 方案2:服务端可以使用:faster-rcnn+cnn或者faster-rcnn+lstm
2.3 方案3:xxxx
3 市场应用
3.1 xxx行业应用
3.2 xxx行业应用
3.3 xxx行业应用
4 产品方案对比
4.1 开源方案
4.1.1 tess-two
该工程已有demo,经过测试和查询得到一些问题
优点:
- 开源
- 有android sdk
缺点:
- 采用的tesseract的v3版本,更新不及时,原作者几乎不更新。目前tesseract v4版本加入lstm,识别率有较大提升,但是tess-two未更新
- 识别率较差
- 识别时间较长
- 没有demo,只提供API,但是没有API文档
- 不支持彩色文档识别
总体评价:
android项目不建议直接使用该项目,如果是对识别不太严格的项目,可以将tesseract v4版本的lstm移植进来,进行识别。
参考:
4.1.2 android-ocr
该工程是使用tess-two做的一个demo,也包含了google的翻译的在线API,,对android 7 及以上版本不兼容,目标版本太低。
4.1.3 android-vision
该产品是google做的API,目前没有中文的识别.具体效果有待测试。
优点:
- 由google进行维护
- 有三块内容:人脸检测,二维码扫描,光学字符识别
- 实时性好
- 文档介绍比较全
缺点:
- 没有开源
- 没有中文ocr
总结:
该项目,可以使用它做手机端人脸检测。但人脸检测效果一般。目前中文的ocr是不可用的。
参考:
4.1.4 android-ocr
网址:https://codeload.github.com/rmtheis/android-ocr/zip/master
该工程在实现扫描的功能上集成了翻译功能,所以识别需要修改识别的语种;
4.1.4 android-ocr
4.2 商业方案
4.1.1 Abbyy
该工程已有demo
优点:
- 识别速度快,官网生成实时,但实际上远没有实时,不过速度也算较快。
- 在印刷体的字识别效果较好
缺点:
- 需要付费,具体价格未问
- 测试时有下划线,或者¥等特殊字符错误识别,目前使用中文识别,所有英文都识别错误,还未能确定是否可以联合识别。
- 文档不算太详细,甚至demo都有一些小错误。
总体评价:
在自己未开发出自己的产品时可以使用。开官网介绍,价格不算太贵。
4.1.2 Google Docs OCR
在线OCR
4.1.3 OnlineOCR
在线OCR
4.1.4 i2 OCR
在线ocr