当前位置: 开发笔记 > 编程语言 > 正文

PaddleOCR二次全流程——1.PPOCR论文介绍

作者：milksoul | 来源：互联网 | 2023-07-25 08:20

文章目录0.💖合集目录1.👓读PPOCR论文：PP-OCR:APracticalUltraLightweightOCRSystem1.

文章目录

- 0. &＃x1f496;合集目录
- 1. &＃x1f453; 读PPOCR论文&＃xff1a;PP-OCR: A Practical Ultra Lightweight OCR System
- - 1.1 &＃x1f644;摘要
  - 1.2 &＃x1f60e;其他部分
  - 1.3 &＃x1f440;涉及的知识点
- 2. &＃x1f431;‍&＃x1f680;关于把握整体流程的推荐读物
- 3. &＃x1f576; 题外话
- - 3.1 &＃x1f387;光学识别字符集 OCR字符集印刷图像

0. &＃x1f496;合集目录

二次全流程合集目录&＃xff1a;

paddleocr系统性了解

PPOCR论文&＃xff0c;https://arxiv.org/pdf/2009.09941.pdf
数据合成工具StyleText&＃xff0c;在此之前需要确定图片字体&＃xff0c;可以参考我的方式&＃xff1a;
PaddleOCR二次全流程——1. 确定字体

字体&＃43;背景生成某种风格的图片&＃xff08;数据合成&＃xff09; github链接
这个参考博客&＃xff1a;PaddleOCR二次全流程——2.使用StyleText合成图片
半自动标注工具PPOCRLabel

是一款适用于OCR领域的半自动化图形标注工具&＃xff0c;内置PPOCR模型对数据自动标注和重新识别&＃xff0c;github链接
个人使用经验博客&＃xff1a;PaddleOCR二次全流程——3.使用TextRender合成图片
FAQ

提供一些关于模型训练等的常见问题回答&＃xff0c;一些经验之谈&＃xff0c;结合论文有助于模型选择和数据集的整理 github链接
个人筛选之后的博客&＃xff1a;PaddleOCR二次全流程——5.FAQ记录
模型分析
1. 只分析paddleocr支持的一些模型&＃xff0c;去看看论文&＃xff0c;动手测一测。OCR模型列表-github链接&＃xff0c;算法介绍-github链接
2. 论文中用到的一些策略/trick/strategies收集。
3. 预处理和后处理方式的收集。
迁移训练&＃xff08;加入自己的数据[真实或合成的]&＃xff0c;PaddleOCR二次全流程——6. finetune预训练模型来匹配自己的数据&＃xff09;
额外推荐&＃xff0c;github上的awsome系列&＃xff1a;https://github.com/kba/awesome-ocr

从PaddleOCR的说明手册&＃xff1a;https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.0/README_ch.md

近期更新中&＃xff0c;看到&＃xff1a;

2020.9.22 更新PP-OCR技术文章&＃xff0c;&＃xff0c;

直接进入论文地址&＃xff1a;https://arxiv.org/pdf/2009.09941.pdf

1. &＃x1f453; 读PPOCR论文&＃xff1a;PP-OCR: A Practical Ultra Lightweight OCR System

只摘录部分重点内容&＃xff0c;不做全文翻译。也可以参考另一个微信文章&＃xff0c;和我的风格不太一样&＃xff0c;哈哈。OCR漫谈之PaddleOCR(PP-OCR)

1.1 &＃x1f644;摘要

摘要&＃xff08;作为一个读了三年论文的水硕&＃xff0c;摘要一定是要好好看的&＃xff01;&＃xff09;

OCR已经被广泛应用于办公自动化系统&＃xff0c;工厂自动化&＃xff0c;在线教育以及街景地图等场景。
然而&＃xff0c;OCR仍然面临文本显示的多样性&＃xff0c;以及计算效率需求等挑战。
本文提出了一种实用的超轻OCR系统&＃xff0c;即PPOCR&＃xff0c;PPOCR识别6622个汉字的模型只有3.5MB&＃xff0c;识别63个英文数字的模型只有2.8MB。
我们引入了许多策略来进行模型能力的提升&＃xff0c;或者是减小模型的大小。
提供了对应的真实数据上的消融实验&＃xff08;ablation study&＃xff09;。
同时&＃xff0c;还发布了一些用于中英文识别的预训练模型&＃xff0c;包括一个文本检测器&＃xff08;使用了97k张图&＃xff09;&＃xff0c;一个方向分类器&＃xff08;用于进行检测框矫正&＃xff0c;使用了600k张图&＃xff09;&＃xff0c;还有一个文本识别器&＃xff08;使用了17.9M张图&＃xff09;。
除此之外&＃xff0c;提出的PP-OCR也在包括法语、韩语、日语和德语等其他几种语言的识别任务上进行了验证。
上述提到的所有模型都是开源的&＃xff0c;代码可以在Github仓库上获取

[消融实验&＃xff0c;类似于控制变量法&＃xff0c;为了说明单独模块确实发挥了作用&＃xff0c;可以参考其他回答&＃xff1a;什么是 ablation study&＃xff1f; - SleepyBag的回答 - 知乎]

1.2 &＃x1f60e;其他部分

部分重点内容

在这里插入图片描述
图自论文&＃xff08;Figure2&＃xff09;

Introduction部分&＃xff1a;

主要说明目前的OCR工作存在的问题

文本有多种显示&＃xff0c;比如&＃xff1a;场景文本识别&＃xff08;Scene Text Recognition&＃xff0c;STR&＃xff09;和文本图像分析和识别&＃xff08;Document Analysis and Recognition&＃xff0c;DAR&＃xff09;
计算效率&＃xff0c;在实际应用中&＃xff0c;CPU的使用一定是优先于GPU&＃xff0c;所以这就对OCR系统的运行和效率有了限制&＃xff0c;同时OCR系统需要在嵌入式的端侧&＃xff08;比如&＃xff1a;手机&＃xff09;等设备上运行&＃xff0c;就需要对模型尺寸和准确率进行权衡。
文本检测&＃xff0c;PPOCR使用了DB&＃xff08;差分二值化&＃xff09;作为文本检测器&＃xff0c;其基于一个简单的分割网络&＃xff0c;DB简单的后处理策略使得它非常有效。
此外&＃xff0c;为了提高准确率的同时保证效率&＃xff08;模型尺寸&＃xff09;&＃xff0c;使用了六种策略&＃xff0c;如图Figure2。
使用了97k张图训练&＃xff0c;
检测框矫正&＃xff0c;主要通过几何变换实现&＃xff0c;因为检测框就是四个点构成的。但是矫正后的图片可能是颠倒的&＃xff0c;即水平方向正确&＃xff0c;垂直方向相反&＃xff0c;此时需要做进一步处理。训练了一个简单的文本方向分类器&＃xff0c;来进行文本方向的矫正。
同样为了保证准确率和模型大小&＃xff0c;使用了4种策略&＃xff0c;如图Figure2
使用了600k图训练
文本识别&＃xff0c;PPOCR使用了CRNN作为文本检测器&＃xff0c;其整合了特征提取&＃xff08;CNN&＃xff09;和序列建模&＃xff08;RNN&＃xff09;&＃xff0c;使用了CTC&＃xff08;Connectionist Temporal Classification&＃xff09; Loss来避免预测和标签之间不对齐的问题&＃xff0c;换言之&＃xff0c;其优点就是&＃xff1a;计算一种损失值&＃xff0c;对没有对齐的数据进行自动对齐。
同样&＃xff0c;为了增强模型模型准确性同时减小模型尺寸&＃xff0c;使用9种策略&＃xff0c;如图Figure2
使用了17.9M图训练

Enhance or Slimming Strategies

这部分就分别介绍PPOCR三个模型优化所使用的的一些策略&＃xff0c;主要也是引用了非常多的论文&＃xff0c;同时为PaddleClas和PaddleSlim打了广告。
涉及到的一些策略我给出了下面一些参考网站。
最后就是实验结果比较&＃xff0c;看看就行&＃xff0c;主要把握整体架构和一些策略的使用。
还有一个信息&＃xff1a;通常的文本识别方法中&＃xff0c;常规的图像是32&＃xff08;高&＃xff09;*100&＃xff08;宽&＃xff09;&＃xff0c;但是为了保证方向分类器的识别准确率&＃xff0c;在PPOCR中&＃xff0c;使用的是48*192。

1.3 &＃x1f440;涉及的知识点

FPN(2017)&＃xff1a;【论文笔记】FPN —— 特征金字塔
CTC&＃xff1a;
- 白话CTC(connectionist temporal classification)算法讲解
- CTC Algorithm Explained Part 1&＃xff1a;Training the Network&＃xff08;CTC算法详解之训练篇&＃xff09;
- CTC&＃xff08;Connectionist Temporal Classification&＃xff09;介绍
SE(2017/2018)&＃xff1a;如何评价 Squeeze-and-Excitation Networks ?
cosine learning rate decay:Tensorflow 中 learning rate decay 的奇技淫巧

此外&＃xff0c;关于这个东西&＃xff0c;还有个论文&＃xff0c;Don’t Decay the Learning Rate, Increase the Batch Size&＃xff0c;以及一个知乎讨论&＃xff1a;深度学习中的batch的大小对学习效果有何影响&＃xff1f;
Learning Rate Warm-up(2019年)&＃xff1a;神经网络中 warmup 策略为什么有效&＃xff1b;有什么理论解释么&＃xff1f;&＃xff0c;另外一个博客&＃xff1a;预热学习率的作用warmup_proportion
FPGM Pruner&＃xff1a;模型剪枝&＃xff0c;作者本人的知乎文章&＃xff1a;【CVPR 2019 Oral】利用几何中位数(Geometric Median)进行模型剪枝
- 这个过程还看到了一个很有意思的话题&＃xff0c;回答也很好玩&＃xff1a;卷积神经网络有哪些大胆又新奇的网络结构&＃xff1f;
Data Augmentation&＃xff1a;数据增强中&＃xff0c;说到了百度的论文SRN&＃xff1a;《Towards accurate scene text recognition with semantic reasoning networks.》&＃xff0c;可以看看翻译&＃xff1a;Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译
- 另外&＃xff0c;还说到了一个专用于文本识别的数据增强方式&＃xff1a;TIA&＃xff0c;论文Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition
- TIA的意思大概就是&＃xff1a;对每个输入图像配置一些控制点&＃xff08;贝尔赛曲线&＃xff0c;角点类似&＃xff09;&＃xff0c;让这些角点变化一个特定的分布&＃xff08;简单来说&＃xff0c;就是让文本变形&＃xff0c;背景图不变&＃xff09;
PACT Quantization&＃xff1a;参考了一个大佬的博客&＃xff1a;闲话模型压缩之量化&＃xff08;Quantization&＃xff09;篇
- 这个人的博客写的都不错&＃xff0c;还有一个讲为什么现在要压缩模型&＃xff0c;是为了进行端侧部署的文章&＃xff0c;浅谈端上智能之计算优化
- 另外&＃xff0c;原来PaddlePaddle在知乎上有专栏文章&＃xff1a;模型精度不降反升&＃xff01;飞桨是这样改进PACT量化算法的&＃xff01;
- 另外&＃xff0c;关于MobileNetV3中的激活函数&＃xff1a;MobileNet V3激活函数之h-swish

2. &＃x1f431;‍&＃x1f680;关于把握整体流程的推荐读物

PaddlePaddle知乎专栏&＃xff1a;https://www.zhihu.com/column/c_1102261020604628992
PaddlePaddle微信部分有关OCR的问题&＃xff1a;
- 2020-08-17:GitHub Trending第一之后&＃xff0c;PaddleOCR再发大招&＃xff1a;百度自研顶会SOTA算法正式开源&＃xff01;
- 2020-08-31 百家桨坛 | 第一期&＃xff1a;OCR文字识别专题100问
- 2021年1月28日手把手教你用PaddleOCR与PyQT实现多语言文字识别的程序&＃xff0c;
  
  大概试了一下这个的ocr软件&＃xff0c;一般般&＃xff0c;哈哈哈&＃xff0c;在win10上基本不可用。github地址&＃xff1a;https://github.com/zhangming8/Dango-ocr&＃xff0c;截止到2021.4.6 虽然显示服务器已经过期&＃xff0c;但是还是可以下载的&＃xff0c;就是下载之后没法使用了&＃xff0c;因为处理模型识别部分是发送到服务器上的&＃xff0c;如果想要使用&＃xff0c;需要自己搭建服务器服务。
- 三年磨一剑——微信OCR轻松提取图片文字。可以看到&＃xff0c;微信这个ocr小程序&＃xff0c;用的都是百度提出的StyleText 合成文本行识别数据以及之前用过的textRender工具。

3. &＃x1f576; 题外话

终于肯静下心来深入研究下ocr&＃xff0c;然后发现&＃xff0c;想要找一些关于ocr的书籍&＃xff0c;

在百度上搜索&＃xff1a;ocr光学字符识别 pdf书籍没有结果
在当当上搜索&＃xff0c;ocr文字识别&＃xff0c;也只有一本深度实践ocr-基于深度学习的文字识别 这一本虚的书&＃xff08;买了&＃xff0c;写的就是深度学习&＃xff0c;和文字识别关系真的不是很大&＃xff0c;不会的还是不会的&＃xff09;

换了个关键字光学字符识别&＃xff0c;搜出来国标&＃xff1f;&＃xff1f;

话说OCR这个领域&＃xff0c;就是钱多哦&＃xff0c;网上博客倒是很多&＃xff0c;但是却没有一本正儿八经的书&＃xff1f;

3.1 &＃x1f387;光学识别字符集 OCR字符集印刷图像

之前在一个介绍Halcon的OCR功能的博客上看到过类似的东西&＃xff0c;来源&＃xff1a;Halcon解决方案指南&＃xff08;18&＃xff09;OCR–字符识别

预训练字体 ’OCR-A’ 也有OCR-B&＃xff0c;还有Semi等字体

在这里插入图片描述
下载了一波国标文件&＃xff0c;其中字间距各种都是有规定的&＃xff0c;不用担心字间距这些&＃xff0c;同时&＃xff0c;我国的这些字体国标也是参考国际标准&＃xff0c;等效于ISOXXXX&＃xff0c;所以即便面对的仪器大多是外国产的&＃xff0c;也安啦&＃xff01;

我辈当自强&＃xff01;

推荐阅读

list
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
split
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
split
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
split
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
java
Java 11相对于Java 8，OptaPlanner性能提升有多大？

本文通过基准测试比较了Java 11和Java 8对OptaPlanner的性能提升。测试结果表明，在相同的硬件环境下，Java 11相对于Java 8在垃圾回收方面表现更好，从而提升了OptaPlanner的性能。 ... [详细]

蜡笔小新 2023-12-11 10:59:22
java
Wince程序内存和存储内存的分析及作用

本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存，其中系统内存占用了一部分SDRAM，而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念，常用于消费电子设备中。此外，文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]

蜡笔小新 2023-12-10 16:21:27
cmd
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32
process
x86 linux的进程调度,x86体系结构下Linux2.6.26的进程调度和切换

进程调度相关数据结构task_structtask_struct是进程在内核中对应的数据结构，它标识了进程的状态等各项信息。其中有一项thread_struct结构的 ... [详细]

蜡笔小新 2023-10-17 18:41:38
process
AstridDAO 专访：波卡稳定币黑马 BAI

加入Pol ... [详细]

蜡笔小新 2023-10-17 18:14:14
process
详解 Python 的二元算术运算，为什么说减法只是语法糖？[Python常见问题]

原题|UnravellingbinaryarithmeticoperationsinPython作者|BrettCannon译者|豌豆花下猫（“Python猫 ... [详细]

蜡笔小新 2023-10-17 15:28:24
rsa
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
copy
PRML读书会第十四章 Combining Models（committees，Boosting，AdaBoost，决策树，条件混合模型）...

主讲人网神（新浪微博:豆角茄子麻酱凉面）网神(66707180)18:57:18大家好，今天我们讲一下第14章combiningmodel ... [详细]

蜡笔小新 2023-10-17 17:04:24
cmd
关于extjs开发实战pdf的信息

本文目录一览：1、extjs实用开发指南2、本 ... [详细]

蜡笔小新 2023-10-17 13:23:21
cmd
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
export
RT3070无线网卡STA模式并使开发板接入Wifi上网

开发板：FL2440内核：linux3.0无线网卡：RT3070RT3070的工作模式分为STA(station)模式、SoftAP(AccessPoint)模式两种。STA ... [详细]

蜡笔小新 2023-10-16 19:01:18

milksoul

Tags | 热门标签

RankList | 热门文章