当前位置: 开发笔记 > 后端 > 正文

12306验证码为什么那么变态？都是这项深度学习应用给逼的

作者：执子之手2502891083 | 来源：互联网 | 2023-07-26 16:42

如果之前没有接触过OCR，光看名字上又光学又识别的，容易产生“听起好像很高端很复杂”的距离感，但实际上，计算机科学的每一项技术都是为了机器具备多一项技能，而OCR要机器具备的，是一

如果之前没有接触过OCR，光看名字上又光学又识别的，容易产生“听起好像很高端很复杂”的距离感，但实际上，计算机科学的每一项技术都是为了机器具备多一项技能，而OCR要机器具备的，是一项对于我们人来说属于最最基本的技能——“看图识字”。

我们可能对这个能力习以为常了，以至于不会觉得这算是一项能力，但仔细想一想就知道，看图识字虽然最最基本，不过同样也最最基础，很多工作都需要首先具备看图识字这项技能才能开展。同样的道理，OCR现在也已经是我们日常生活中应用最为广泛的智能技术之一。
如果一时没想起来，不妨从咱们中国人都很熟悉的春运说起。12306大家应该都知道，是订火车票的官方网站，2015年12306出了一个轰动全国的“大新闻”，12306改变“验证码机制”了。买火车票之前，用户先得要做几道颇为棘手的智力题，譬如要求在几张图片中找出某位名人，据说有些用户因为知识面比较窄最后选择放弃了购买火车票。
这事大家都知道，不过有没有想过一个最基本的问题：12306为什么要改变验证码机制呢？
就是因为OCR。

▲网友恶搞的12306验证码
验证码之所以叫验证“码”，是因为最开始验证码大都是一串保存在图片里的四位数字。验证码的作用自然是区别真人和机器，听起来很厉害，其实原理异常简单：机器擅长处理结构化数据，而对于图像、文本和音频这些生活中很常见但属于非结构化的数据，对机器来说，用传统的算法处理难度非常大。
为什么呢？不妨想象一个最最传统的验证码，白底黑字，上面一共四个阿拉伯数字，我们人自然看一眼就知道是哪四个数字。但是在机器看起来，这张图片是由一个挨一个的像素数值构成的数据矩阵，这就产生一个问题，我们人看起来是“空白”的地方，在机器看起来同样也存在着数字，并没有什么不同，自然无法区分到底上面写了什么。
OCR的研究人员当然也没有偷懒，努力尝试了很多办法，有一种思路是提取图片特征，也研究出两种传统的提取方法，分别是基于结构形态的特征提取，和基于几何分布的特征提取，也取得一些成果。
但总的来说，要求机器准确识别图片中的数字仍然很困难，只要图片中存在一点点杂质干扰，识别的正确率就大幅度下降，这就是为什么后来验证码都会选择采用一些随机线条，对于OCR来说，这都是低成本高收益的防破解手段。但对人来说却轻而易举，只需要看一眼就能识别。
正是因为人和机器在处理非结构化数据存在能力鸿沟，在验证码这里，就是人和机器在识别图片中字符上的能力存在显著差异，因此，只要简单使用验证码，就能相当准确地辨别正在输入的究竟是人还是机器。
那为什么12306在2015年就非得换了很好用的验证码机制呢？是因为就在2012年，发生了一件轰动整个研究界的事件，这个事件影响深远，推动OCR技术发生飞跃，从此机器也能很轻易就准确识别图片上的数字了。
OCR并不是新出现的概念，起步非常早。根据《深度实践OCR：基于深度学习的文字识别》一书介绍，早在1929年，德国科学家就已经提出了OCR的想法，后续又有一些科学家加入进行这方面研究，不过，直到计算机出现以后，想法才慢慢落地。
相比之下，中国对OCR的研究起步稍晚，起步于70年代，算起来也有近50年的历史了。
但是，虽然早就开始了对OCR的研究，科学家们也从各个方面贡献了很多颇有益处的奇思妙想，为后续研究奠定了坚实基础，但总的来说，OCR技术的应用发展迟缓，直到前些年仍然处于学术研究的领域。不过，每一项科研领域的僵局都最终会被一项划时代的技术打破，打破OCR领域僵局的就是鼎鼎大名的深度学习技术。

2012年发生了什么事呢？发生了这么一件事，基于深度学习的卷积网络模型AlexNet，在ImageNet图像分类比赛中拔得头筹。拔得头筹这事本身不算什么，毕竟只要有比赛就一定会有人拔得头筹，问题是在以往的比赛，不同模型之间的差距很小，第一名都是“险胜”，第二名都是“惜败”。
而到了2012年，AlexNet不但赢了第一名，而且在识别准确率方面超过第二名10%，相当于百米短跑我第一名冲线，而且我不但冲线了，我还在终点吃了顿饭，然后第二名才刚刚跑完全程。这种碾压式的胜利让业界对这场赛事的评论纷纷变成了B站的弹幕，概括来说就一句话：大人，时代变了。
当然了，前面这段讲得很戏剧化，也有很多人喜欢用“石破天惊”之类的词来形容，但应该说，深度学习并不是什么凭空出现的新技术，它是由机器学习下面的神经网络模型发展而来的。
人工智能、机器学习和深度学习三者之间千丝万缕的关系，我们在前面的文章已经进行了细致的介绍，不再赘述，但深度学习的崛起，确实给OCR的应用注入了全新的活力。
深度学习很快火遍全球，有意思的是，很多面向初学者的深度学习教程不约而同选择了将使用深度学习模型识别MNIST手写数据集作为深度学习领域的“Hello World”，从前极为困难的验证码识别，在深度学习时代居然变成了初学者的第一堂功课，这是深度学习与OCR结合最为成功的案例。从此，OCR展翅飞出象牙塔，飞入寻常百姓家。
不过，我还是想特别说明一下，OCR是一项通用性非常强的技术，OCR与深度学习的结合逼得12306改验证码机制，这只是OCR技术的能力展示，OCR活跃的天地远比验证码广阔得多，我们的机器距离我们的生活差的最后一公里，可能就有赖OCR来打通。
你可能会问，机器和生活还差最后一公里，我怎么没感觉到，这是什么意思？

回想一下，我们现在的生活其实是有两套并行记录体系，就拿最常见的去银行办理业务来说吧，我们先得用笔手工填写一份纸质的表格，上面包含了各项信息，这是一套记录体系。然后我们给银行柜台的工作人员提交表格，工作人员会让我们先等一会，等什么呢，就是等工作人员通过电脑终端把信息转录到另一套记录体系。
现代银行基本都依靠各类信息系统进行管理，但这些信息系统是不能直接读取纸质表格的信息，那怎么办呢，只好通过人来转录，这个转录的过程免不了需要消耗人的时间和精力，增加了办理业务的成本，甚至成为限制提升业务办理效率的瓶颈之一。
两套并行记录体系对我们的影响当然远不止于银行，从更为宏观的视角来看，消耗了人类社会大量的人力物力，以及对于人来说更为宝贵的时间。
你可能又要说了，这些都是窗口业务，和日常生活关系并不紧密。其实不然，举一个我们很熟悉例子，二维码。
就拿春晚的观众互动来说吧，过去主持人是说想要和春晚互动的观众朋友，可以把信息发到屏幕下方公布的号码。那么，观众如果真要互动，就必须得把在屏幕上看到的这串长长的数字逐个逐个敲进手机，光是想就觉得麻烦，再加上有时候看错或者敲错，感觉就更费劲了。
现在有了二维码，主持人说想要和春晚互动的观众朋友，扫描屏幕下方的二维码就可以了，操作起来就简单太多了。所以，现在满大街都是二维码，就是因为二维码更为便捷。
不过，二维码只能解决两套记录体系并行问题的很小一部分，其它手段譬如内置芯片也只能治标不治本，毕竟我们人类社会几千年来都以纸作为信息的记录介质，已经产生了太多不可能符合机器读取要求的信息，要从根本上解决两套记录体系并行的问题，还是需要机器具备和人一样的“看图识字”的能力，也就是最终还得依靠OCR。

那么，现在的OCR技术发展到什么水平，又解决了什么实际问题了呢？
我认为，一项应用技术最重要的不是听起来有多前沿多高端，而是能解决什么实实在在的问题。我们说OCR突飞猛进，是因为OCR和深度学习结合以后，只需要简单拍照，就可以直接从图片中提取相应的文字，在很多应用场景已经有点“扫码即可”的意思了。
很多纸质的表格，譬如前面说的银行各类业务的表格，现在只需要简单地拍照就可以一下完成信息录入。以前我们拿到纸质名片，还需要手工敲字记录，现在很多APP都提供一项功能，只要对名片进行拍照，就能自动提取上面的文字。
同时，OCR带来的不仅仅是简化录入，很多传统的软件功能，也因为OCR技术的发展，而带来了全新的使用体验。就说我印象最深的翻译软件，翻译软件当然不是什么新产品，大家应该都用过。
但一直以来使用翻译软件都有一个限制，那就是不管软件本身的翻译能力有多强，你得先录入原文然后才能看到译文，这有一个什么问题呢？有一些外语的原文我不知道怎么通过英文键盘输入，譬如日文、德文、法文，相信不是专门学这些语言的朋友都有和我同样的困扰。
现在有了OCR就方便多了，只需要直接拍照就能提取文字，不但解决了输入问题，效率还要高得多，有些翻译软件干脆就在原图上P上译文，更加直接明了，让我对翻软件有一种耳目一新的感觉。
除了翻译软件，OCR给我们熟悉的产品带来的改变还有很多，毕竟只要可以从图片中准确提取文字，就有太多的地方等待着我们发挥广阔的想象力。譬如说，通过OCR技术，即使是扫描生成的PDF也支持文本搜索了。
如果觉得这个例子太小，那就说搜索引擎，现在的搜索引擎还笨得很，输入文字只能搜到文字，输入图片只能搜到图片，文字和图片是泾渭分明，如果你想用文字搜带有这段文字的图片呢？对不起不行。
不过使用了OCR，以后也可以以文搜图了。譬如你翻老照片时找到一张你光着屁股坐在一块写着一段文字的石头上，你想知道这张照片在哪拍的。可是现在你去搜这段文字，很可能要么就什么都找不到，要么就找到一大堆无关的内容。
未来如果搜索引擎支持搜索图中文字的功能，你就能马上找到带有这段文字的其它照片，没准其中就有你想要找的内容。

OCR就介绍到这里，相信大家对于OCR是什么，能做什么，未来会有怎样的发展已经有了初步的了解。可是，OCR技术的原理是什么，传统的做法是什么，现在和深度学习又是怎样结合在一起？
我推荐大家阅读前面提过的这本专门介绍这些问题的书，《深度实践OCR：基于深度学习的文字识别》。这本书对OCR的介绍很全面，先从OCR的发展历程和经典的技术原理说起，然后介绍了深度学习的主要技术，最后再仔细介绍OCR和深度学术如何结合，而且还对如何通过代码实现进行了详细说明。看完这本书，对OCR的全貌、原理和应用，应该就能有比较清晰的了解。

推荐阅读

php
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
php
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
go
互联网思维中的3个段子，9大分类和19条法则

本文介绍了互联网思维中的三个段子，涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例，探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验，三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]

蜡笔小新 2023-12-10 14:58:10
go
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
nlp
老牌医药收割AI红利：先投个15亿美元抢中国人才

萧箫发自凹非寺量子位报道|公众号QbitAI没想到，一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场，能看见不少熟悉的身影， ... [详细]

蜡笔小新 2023-10-17 17:40:25
nlp
当写稿机器人真有了观点和感情，我们是该高兴还是恐惧？

目前，写稿机器人多是撰写以数据为主的稿件，当它们能够为文章注入观点之时，这些观点真的是其所“想”吗？最近，《南 ... [详细]

蜡笔小新 2023-10-17 15:17:11
php
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
php
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
php
macOS Big Sur全新设计大版本更新，10+个值得关注的新功能

本文介绍了Apple发布的新一代操作系统macOS Big Sur，该系统采用全新的界面设计，包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出，macOS Big Sur的设计与iPadOS越来越接近，结合了去年iPadOS对鼠标的完善等功能。 ... [详细]

蜡笔小新 2023-12-10 19:53:41
queue
深入解析Linux下的I/O多路转接epoll技术

本文深入解析了Linux下的I/O多路转接epoll技术，介绍了select和poll函数的问题，以及epoll函数的设计和优点。同时讲解了epoll函数的使用方法，包括epoll_create和epoll_ctl两个系统调用。 ... [详细]

蜡笔小新 2023-12-10 14:18:30
queue
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
queue
Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程

Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程 ... [详细]

蜡笔小新 2023-10-17 21:10:23
nlp
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
nlp
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
nlp
智慧博物馆信息系统建设方案

3.信息化系统建设3.1博物馆RFID藏品管理系统3.1.1系统概述博物馆藏品保管是一项十分复杂又繁琐的工作。从事保管工作除了经常、及时地进行藏品的登记、分类、编目、保养和修 ... [详细]

蜡笔小新 2023-10-17 10:14:54

执子之手2502891083

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章