当前位置: 开发笔记 > 编程语言 > 正文

【OCR学习笔记】WhatIsWrongWithSceneTextRecognitionModelComparisonsDatasetandModelAnalysis

作者：happy玛奇朵_387 | 来源：互联网 | 2023-10-15 18:16

文章目录摘要细节开源代码摘要提出了一个统一的四阶段STR框架。Transformation：TPS，归一化字符区域到预定义的矩形，校正图像。Featureextraction

文章目录

摘要
细节
开源代码

摘要

提出了一个统一的四阶段STR框架。

Transformation： TPS，归一化字符区域到预定义的矩形，校正图像。

Feature extraction : ResNet、GRCNN、MobileNet、VGG，提取与字符识别相关的特征。

Sequence modeling（Context modeling）： BiLSTM或BiGRU，捕获字符序列的上下文信息，使字符预测更稳健，而不是单独预测。

Prediction： CTC、Attention，从图像的可识别特征预测字符序列。CTC可以预测不固定数量的序列即使给定固定数量的特征。CTC的关键是在每列（$h_i 属于 H $）预测一个字符，并且通过删除重复字符和空白将全部字符序列修改到一个不固定的字符序列。Attn自动捕获输入序列中的信息流，预测输出序列。

细节

训练样本的多样性比训练样本的数量重要

ResNet、BiLSTM、TPS的加入，使得耗时从1.3ms增加到10.9ms，然而极大提升了准确率（从69.5%到82.9%）。Attn值提升了1.1%的准确率，代价是效率降低（27.6ms）

当用于fine-tune的真实数据与测试数据的分布相近时，fine-tune是有效的；否则，就是对准确率有害的。

在这里插入图片描述

开源代码

这篇文章提出的框架对OCR领域有较大影响。百度开源的PaddleOCR就是根据它的框架来实现的。
相关链接：
（1）论文的官方开源代码deep-text-recognition-benchmark：https://github.com/clovaai/deep-text-recognition-benchmark
（2）百度的PaddleOCR：https://github.com/PaddlePaddle/PaddleOCR
（3）WenmuZhou大佬的PytorchOCR：https://github.com/WenmuZhou/PytorchOCR

推荐阅读

search
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
search
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
search
PyTorch源码解读之torchvision.models

PyTorch框架中有一个非常重要且好用的包：torchvision，该包主要由3个子包组成，分别是：torchvision.datasets、torchvision.models、torchv ... [详细]

蜡笔小新 2023-10-16 11:14:55
yaml
YOLOV4 Pytorch版本训练自建数据集和预测

1.程序下载本文程序核心部分完全参考开源代码：https:github.comWongKinYiuPyTorch_YOLOv4。只是从一种学习的角度去写了我的代码仓库，在基础上增加 ... [详细]

蜡笔小新 2023-10-14 15:32:06
get
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
js
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
python
python开源人工智能项目_6个最受欢迎的人工智能学习项目！开源！

本文将给大家介绍五个十分可怕但还鲜为人知的人工智能机器学习项目，囊括了一些潜在的机器学习以及人工智能的新想法。它们基本都是Python项目。1.LiveLossPlo ... [详细]

蜡笔小新 2023-10-13 13:48:49
python
老电影和图片变清晰的秘密！分辨率提升400%的AI算法

老电影和图片变清晰的秘密！分辨率提升400%的AI算法-如上图，从100x133pix→400x532pix，除了肉眼可见的清晰，拥有可以将分辨率提升400%的技术到底意味着什么 ... [详细]

蜡笔小新 2023-10-13 13:06:20
python
百度AI Studio人流密度常规赛火热进行中，快来报名！

早晨七点半。北京初秋的凉风叫醒了住在望京西的你，睁开眼睛，一想到又要为人类的信息化事业贡献满满的正能量，你不禁哼唱起那句“早晨起来 ... [详细]

蜡笔小新 2023-10-12 18:57:29
get
Jupyter 使用Anaconda 虚拟环境内核

Anaconda虚拟环境中使用JupyterNotebook安装好Anaconda之后，进入AnacondaPrompt，创建虚拟环境， ... [详细]

蜡笔小新 2023-10-12 18:48:11
process
python人物抠图算法_比PS还好用！Python 20行代码批量抠图

抠图前vsPython自动抠图后在日常的工作和生活中，我们经常会遇到需要抠图的场景，即便是只有一张图片需要抠，也会抠得我们不耐烦ÿ ... [详细]

蜡笔小新 2023-10-12 18:22:39
php
华为200万年薪招聘AI应届生——有多少本事，给多少钱

据新浪科技报道，阿里AIlabs年薪百万美元引进两位科学家。除AI顶尖科学家外，华为也是为多位AI应届博士开出了200万的高价年薪。19年9月，各大互联招聘企业陆续发布2019年人 ... [详细]

蜡笔小新 2023-10-11 14:19:53
php
以赛促学，飞桨助力大学生智能车竞赛升级！

点击左上方蓝字关注我们第十六届智能汽车竞赛-百度人工智能创意赛道已经开启！比赛虽好，但同学们苦核心开发硬件久矣！百度飞桨作为大赛的赞助商之 ... [详细]

蜡笔小新 2023-10-11 13:22:52
php
学习提醒 | 如何训练RNN？解决梯度消失与梯度爆炸问题！

点击左上方蓝字关注我们今天就要进入RNN的终章，每日一问：它们如何运行？应用在哪里？你学完了吗？????顾名思 ... [详细]

蜡笔小新 2023-10-10 00:11:56
python
PaddleX全流程开发工具公开邀测啦！

产业智能化升级的浪潮并没有因为疫情等原因停滞不前，作为带来人工智能应用井喷式发展的深度学习技术在近几年也可谓是“时代宠儿”，想要尝试应用深度学习技术解决 ... [详细]

蜡笔小新 2023-10-09 23:10:46

happy玛奇朵_387

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章