深度解析阿里云ET之OCR

摘要&＃xff1a;什么是印刷字文字识别&＃xff08;OCR&＃xff09;技术&＃xff1f;通俗易懂的说就是将图片中的文字识别出来。随着机器性能以及算法的不断演进&＃xff0c;OCR技术在越来越多的领域得到应用&＃xff0c;比如身份证内的信息识别、门店招牌内容识别等。作为人工智能领域的代表&＃xff0c;OCR技术正在改变人们的生活&＃xff0c;让越来越多的用户感受到科技发展带来的红利。

背景介绍

阿里云印刷字识别是有IDST-OCR团队开发&＃xff0c;主要针对证件类图片进行识别。

阿里云OCR产品的主要优势如下&＃xff1a;

阿里云证件类OCR技术

证件类图像有他天然的一个特点&＃xff0c;就是强模板&＃xff0c;易于结构化。比如身份证包含且一定包含姓名&＃xff0c;性别&＃xff0c;民族&＃xff0c;出生&＃xff0c;住址&＃xff0c;公民身份照号码&＃xff0c;签发机关&＃xff0c;有效期等字段&＃xff0c;而驾驶证则一定有姓名&＃xff0c;准驾车型&＃xff0c;有效期等字段&＃xff0c;其他的证件也类似。

针对证件类的强模板类特征&＃xff0c;阿里云的证件类OCR技术&＃xff0c;在文字区域检测阶段加入了人脸&＃xff0c;文字标题区域&＃xff0c;印章&＃xff0c;国徽等强特征&＃xff0c;极大地提高文字区域检测的准确率和速度。比如&＃xff1a;利用人脸定位&＃xff0c;可以找到证件的方向角度和大概位置&＃xff0c;利用下图中固定的区域模板&＃xff0c;可以快速定位到所需字段的位置&＃xff0c;从而也有利于定位方向角度&＃xff0c;缩小所需字段文字区域。

在模型的训练上&＃xff0c;阿里云利用字体库&＃xff0c;人工生成大量的样本图片数据&＃xff0c;再根据真实的场景&＃xff0c;进行图像扭曲&＃xff0c;模糊&＃xff0c;曝光等多种不同技术&＃xff0c;组合出不同程度的加噪效果&＃xff0c;作为模型训练的基础输入&＃xff0c;生成了几十亿条样本数据&＃xff0c;模型具有极佳的鲁棒性。下图是人工生成的样本示例图。

支持如此大规模的离线图像模型训练&＃xff0c;则是阿里云提供的GPU高性能服务器&＃xff0c;以及基于多服务器&＃xff0c;多GPU卡和高速网络连接的集群模型训练&＃xff08;内部称之为PAI-Pluto&＃xff0c; PAI是阿里云机器学习平台的代号&＃xff0c;欢迎申请试用&＃xff09;&＃xff0c;主流的GPU卡的计算能力要远远强于CPU。下图是Pluto在跑深度学习模型时的计算加速比。

在整行模型的识别中&＃xff0c;主要使用的是LSTM技术&＃xff0c;相比RNN&＃xff0c;LSTM能更好的解决梯度衰减&＃xff08;gradient vanishing&＃xff09;的现象。LSTM的基本结构如下图所示&＃xff0c;通过多个门电路的结合&＃xff0c;使得LSTM可以有效的学习到较长时间序列之间的关系。

整行模型主要用于不便于切字的场景&＃xff0c;比如地址&＃xff0c;号码等等。

准确率

身份证识别在阿里内部某场景下&＃xff0c;准确率(条目一字不差完全对)如下&＃xff1a;

驾驶证的准确率和相关竞品的准确率(条目一字不差完全对)对比如下:

身份证识别&＃xff1a;算法识别部分平均时间在0.8秒左右&＃xff0c;前端接口部分&＃xff0c;由于需要网络传输图片&＃xff0c;这部分性能损失比较严重&＃xff0c;测试500k&＃xff0c;需要1-2秒左右&＃xff0c;这个未来阿里云OCR会引入OSS&＃xff08;OSS为对象存储服务&＃xff0c; https://www.aliyun.com/product/oss &＃xff09;&＃xff0c;用户只需要提供OSS的访问路径和相关授权&＃xff0c;就可以极大地减少这部分图像的网络传输时间。

行驶证和驾驶证&＃xff1a;算法识别部分平均时间在1秒左右

营业执照&＃xff1a;由于图片相对较大&＃xff0c;性能较弱&＃xff0c;在2秒左右

目前所有的OCR识别都采用的CPU&＃xff0c;如果对性能比较有要求&＃xff0c;后续阿里云有计划使用GPU&＃xff0c;FPGA等技术来提升预测的性能。