热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【OCR学习笔记】WhatIsWrongWithSceneTextRecognitionModelComparisonsDatasetandModelAnalysis

文章目录摘要细节开源代码摘要提出了一个统一的四阶段STR框架。Transformation:TPS,归一化字符区域到预定义的矩形,校正图像。Featureextraction

文章目录

  • 摘要
  • 细节
  • 开源代码


摘要

提出了一个统一的四阶段STR框架。



  • Transformation: TPS,归一化字符区域到预定义的矩形,校正图像。

  • Feature extraction : ResNet、GRCNN、MobileNet、VGG,提取与字符识别相关的特征。

  • Sequence modeling(Context modeling): BiLSTM或BiGRU,捕获字符序列的上下文信息,使字符预测更稳健,而不是单独预测。

  • Prediction: CTC、Attention,从图像的可识别特征预测字符序列。CTC可以预测不固定数量的序列即使给定固定数量的特征。CTC的关键是在每列($h_i 属于 H $)预测一个字符,并且通过删除重复字符和空白将全部字符序列修改到一个不固定的字符序列。Attn自动捕获输入序列中的信息流,预测输出序列。
    在这里插入图片描述


细节



  • 训练样本的多样性比训练样本的数量重要

  • ResNet、BiLSTM、TPS的加入,使得耗时从1.3ms增加到10.9ms,然而极大提升了准确率(从69.5%到82.9%)。Attn值提升了1.1%的准确率,代价是效率降低(27.6ms)

  • 当用于fine-tune的真实数据与测试数据的分布相近时,fine-tune是有效的;否则,就是对准确率有害的。

在这里插入图片描述
在这里插入图片描述


开源代码

这篇文章提出的框架对OCR领域有较大影响。百度开源的PaddleOCR就是根据它的框架来实现的。
相关链接:
(1)论文的官方开源代码deep-text-recognition-benchmark:https://github.com/clovaai/deep-text-recognition-benchmark
(2)百度的PaddleOCR:https://github.com/PaddlePaddle/PaddleOCR
(3)WenmuZhou大佬的PytorchOCR:https://github.com/WenmuZhou/PytorchOCR


推荐阅读
author-avatar
happy玛奇朵_387
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有