当前位置: 开发笔记 > 编程语言 > 正文

clean算法_KNN算法实战：验证码的识别

作者：翔未央图_971 | 来源：互联网 | 2023-10-10 16:40

识别验证码的方式很多，如tesseract、SVM等。今天主要学习的是如何使用KNN进行验证码的识别。数据准备本次实验采用的是CSDN的验证码做演练目前接口返回的验证

识别验证码的方式很多&＃xff0c;如tesseract、SVM等。今天主要学习的是如何使用KNN进行验证码的识别。

数据准备

本次实验采用的是CSDN的验证码做演练

目前接口返回的验证码共2种&＃xff1a;

纯数字、干扰小的验证码&＃xff0c;简单进行图片去除背景、二值化和阈值处理后&＃xff0c;使用kNN算法即可识别。

字母加数字、背景有干扰、图形字符位置有轻微变形&＃xff0c;进行图片去除背景、二值化和阈值处理后&＃xff0c;使用kNN算法识别

这里选择第二种进行破解。由于两种验证码的图片大小不一样&＃xff0c;所以可以使用图片大小来判断哪个是第一种验证码&＃xff0c;哪个是第二种验证码。

下载验证码

import requests import uuid from PIL import Image import os url &＃61; "http://download.csdn.net/index.php/rest/tools/validcode/source_ip_validate/10.5711163911089325" for i in range(1000): resp &＃61; requests.get(url) filename &＃61; "./captchas/" &＃43; str(uuid.uuid4()) &＃43; ".png" with open(filename, &＃39;wb&＃39;) as f: for chunk in resp.iter_content(chunk_size&＃61;1024): if chunk: # filter out keep-alive new chunks f.write(chunk) f.flush() f.close() im &＃61; Image.open(filename) if im.size !&＃61; (70, 25): im.close() os.remove(filename) else: print(filename)

分割字符

下载过后&＃xff0c;就需要对字母进行分割。分割字符还是一件比较麻烦的工作。

灰度化

将彩色的图片转化为灰度图片&＃xff0c;便于后面的二值化处理&＃xff0c;示例代码&＃xff1a;

from PIL import Image file &＃61; ".captchas0a4a22cd-f16b-4ae4-bc52-cdf4c081301d.png" im &＃61; Image.open(file) im_gray &＃61; im.convert(&＃39;L&＃39;) im_gray.show()

处理前&＃xff1a;

处理后&＃xff1a;

二值化

灰度化以后&＃xff0c;有颜色的像素点为0-255之间的值。二值化就是将大于某个值的像素点都修改为255&＃xff0c;小于该值的修改为0&＃xff0c;示例代码&＃xff1a;

from PIL import Image import numpy as np file &＃61; ".captchas0a4a22cd-f16b-4ae4-bc52-cdf4c081301d.png" im &＃61; Image.open(file) im_gray &＃61; im.convert(&＃39;L&＃39;) # im_gray.show() pix &＃61; np.array(im_gray) print(pix.shape) print(pix) threshold &＃61; 100 #阈值 pix &＃61; (pix > threshold) * 255 print(pix) out &＃61; Image.fromarray(pix) out.show()

二值化输出的结果&＃xff1a;

去除边框

从二值化输出的结果可以看到除了字符&＃xff0c;还存在边框&＃xff0c;在切割字符前还需要先将边框去除。

border_width &＃61; 1

new_pix &＃61; pix[border_width:-border_width,border_width:-border_width

字符切割

由于字符与字符间没有存在连接&＃xff0c;可以使用比较简单的“投影法”进行字符的切割。原理就是将二值化后的图片先在垂直方向进行投影&＃xff0c;根据投影后的极值来判断分割边界。分割后的小图片再在水平方向进行投影。

代码实现&＃xff1a;

def vertical_image(image): height, width &＃61; image.shape h &＃61; [0] * width for x in range(width): for y in range(height): s &＃61; image[y, x] if s &＃61;&＃61; 255: h[x] &＃43;&＃61; 1 new_image &＃61; np.zeros(image.shape, np.uint8) for x in range(width): cv2.line(new_image, (x, 0), (x, h[x]), 255, 1) cv2.imshow(&＃39;vert_image&＃39;, new_image) cv2.waitKey() cv2.destroyAllWindows()

整体代码

from PIL import Image import cv2 import numpy as np import os import uuid def clean_bg(filename): im &＃61; Image.open(filename) im_gray &＃61; im.convert(&＃39;L&＃39;) image &＃61; np.array(im_gray) threshold &＃61; 100 # 阈值 pix &＃61; (image > threshold) * 255 border_width &＃61; 1 new_image &＃61; pix[border_width:-border_width, border_width:-border_width] return new_image def get_col_rect(image): height, width &＃61; image.shape h &＃61; [0] * width for x in range(width): for y in range(height): s &＃61; image[y, x] if s &＃61;&＃61; 0: h[x] &＃43;&＃61; 1 col_rect &＃61; [] in_line &＃61; False start_line &＃61; 0 blank_distance &＃61; 1 for i in range(len(h)): if not in_line and h[i] >&＃61; blank_distance: in_line &＃61; True start_line &＃61; i elif in_line and h[i] &＃61; blank_distance: in_line &＃61; True start_line &＃61; i elif in_line and i &＃61;&＃61; len(h)-1: row_rect &＃61; (start_line, i) elif in_line and h[i] threshold) * 255 border_width &＃61; 2 new_image &＃61; pix[border_width:-border_width, border_width:-border_width] return new_image def split(filename): image &＃61; clean_bg(filename) col_rect &＃61; get_col_rect(image) for cols in col_rect: block_image &＃61; get_block_image(image, cols) if block_image is not None: new_image_filename &＃61; &＃39;letters/&＃39; &＃43; str(uuid.uuid4()) &＃43; &＃39;.png&＃39; cv2.imwrite(new_image_filename, block_image) if __name__ &＃61;&＃61; &＃39;__main__&＃39;: for filename in os.listdir(&＃39;captchas&＃39;): current_file &＃61; &＃39;captchas/&＃39; &＃43; filename split(current_file) print(&＃39;split file:%s&＃39; % current_file)

数据集准备

在完成图像切割后&＃xff0c;需要做将切分的字母建立由标签的样本。即将切分后的字符梳理到正确的分类中。比较常见的方式是人工梳理。

由于图像比较多&＃xff0c;这里使用使用Tesseract-OCR进行识别。

官方项目地址&＃xff1a; https://github.com/tesseract-ocr/tesseract

Windows安装包地址&＃xff1a; https://github.com/UB-Mannheim/tesseract/wiki

Tesseract-OCR的安装

下载完安装包后&＃xff0c;直接运行安装即可&＃xff0c;比较重要的是环境变量的设置。

将安装目录(D:Program Files (x86)Tesseract-OCR)添加进PATH

新建TESSDATA_PREFIX系统变量&＃xff0c;值为tessdata 文件夹的路径(D:Program Files (x86)Tesseract-OCRessdata)

安装Python包pytesseract(pip install pytesseract)

Tesseract-OCR的使用

使用起来非常的简单&＃xff0c;代码如下&＃xff1a;

from PIL import Image import pytesseract import os def copy_to_dir(filename): image &＃61; Image.open(filename) code &＃61; pytesseract.image_to_string(image, config&＃61;"-c tessedit" "_char_whitelist&＃61;ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789" " --psm 10" " -l osd" " ") if not os.path.exists("dataset/" &＃43; code): os.mkdir("dataset/" &＃43; code) image.save("dataset/" &＃43; code &＃43; filename.replace("letters", "")) image.close() if __name__ &＃61;&＃61; "__main__": for filename in os.listdir(&＃39;letters&＃39;): current_file &＃61; &＃39;letters/&＃39; &＃43; filename copy_to_dir(current_file) print(current_file)

由于Tesseract-OCR识别的准确率非常的低&＃xff0c;完全不能使用&＃xff0c;放弃~&＃xff0c;还是需要手工整理。

图片尺寸统一

在完成人工处理后&＃xff0c;发现切割后的图片大小不一。在字符识别前需要对图片进行的尺寸进行统一。

具体实现方法&＃xff1a;

import cv2 def image_resize(filename): img &＃61; cv2.imread(filename, cv2.IMREAD_GRAYSCALE) #读取图片时采用单通道 print(img) if img.shape[0] !&＃61; 10 or img.shape[1] !&＃61; 6: img &＃61; cv2.resize(img, (6, 10), interpolation&＃61;cv2.INTER_CUBIC) print(img) cv2.imwrite(filename, img)

使用cv2.resize时&＃xff0c;参数输入是宽×高×通道&＃xff0c;这里使用的时单通道的&＃xff0c;interpolation的选项有&＃xff1a;

INTER_NEAREST 最近邻插值

INTER_LINEAR 双线性插值(默认设置)

INTER_AREA 使用像素区域关系进行重采样。它可能是图像抽取的首选方法&＃xff0c;因为它会产生无云纹理的结果。但是当图像缩放时&＃xff0c;它类似于INTER_NEAREST方法。

INTER_CUBIC 4×4像素邻域的双三次插值

INTER_LANCZOS4 8×8像素邻域的Lanczos插值

另外为了让数据更加便于利用&＃xff0c;可以将图片再进行二值化的归一。具体代码如下&＃xff1a;

import cv2 import numpy as np def image_normalize(filename): img &＃61; cv2.imread(filename, cv2.IMREAD_GRAYSCALE) #读取图片时采用单通道 if img.shape[0] !&＃61; 10 or img.shape[1] !&＃61; 6: img &＃61; cv2.resize(img, (6, 10), interpolation&＃61;cv2.INTER_CUBIC) normalized_img &＃61; np.zeros((6, 10)) # 归一化 normalized_img &＃61; cv2.normalize(img, normalized_img, 0, 1, cv2.NORM_MINMAX) cv2.imwrite(filename, normalized_img)

归一化的类型&＃xff0c;可以有以下的取值&＃xff1a;

NORM_MINMAX:数组的数值被平移或缩放到一个指定的范围&＃xff0c;线性归一化&＃xff0c;一般较常用。

NORM_INF:此类型的定义没有查到&＃xff0c;根据OpenCV 1的对应项&＃xff0c;可能是归一化数组的C-范数(绝对值的最大值)

NORM_L1 : 归一化数组的L1-范数(绝对值的和)

NORM_L2: 归一化数组的(欧几里德)L2-范数

字符识别

字符图片宽6个像素&＃xff0c;高10个像素 &＃xff0c;理论上可以最简单粗暴地可以定义出60个特征&＃xff1a;60个像素点上面的像素值。但是显然这样高维度必然会造成过大的计算量&＃xff0c;可以适当的降维。比如&＃xff1a;

每行上黑色像素的个数&＃xff0c;可以得到10个特征

每列上黑色像素的个数&＃xff0c;可以得到6个特征

from sklearn.neighbors import KNeighborsClassifier import os from sklearn import preprocessing import cv2 import numpy as np import warnings warnings.filterwarnings(module&＃61;&＃39;sklearn*&＃39;, action&＃61;&＃39;ignore&＃39;, category&＃61;DeprecationWarning) def get_feature(file_name): img &＃61; cv2.imread(file_name, cv2.IMREAD_GRAYSCALE) # 读取图片时采用单通道 height, width &＃61; img.shape pixel_cnt_list &＃61; [] for y in range(height): pix_cnt_x &＃61; 0 for x in range(width): if img[y, x] &＃61;&＃61; 0: # 黑色点 pix_cnt_x &＃43;&＃61; 1 pixel_cnt_list.append(pix_cnt_x) for x in range(width): pix_cnt_y &＃61; 0 for y in range(height): if img[y, x] &＃61;&＃61; 0: # 黑色点 pix_cnt_y &＃43;&＃61; 1 pixel_cnt_list.append(pix_cnt_y) return pixel_cnt_list if __name__ &＃61;&＃61; "__main__": test &＃61; get_feature("dataset/K/04a0844c-12f2-4344-9b78-ac1d28d746c0.png") category &＃61; [] features &＃61; [] for dir_name in os.listdir(&＃39;dataset&＃39;): for filename in os.listdir(&＃39;dataset/&＃39; &＃43; dir_name): category.append(dir_name) current_file &＃61; &＃39;dataset/&＃39; &＃43; dir_name &＃43; &＃39;/&＃39; &＃43; filename feature &＃61; get_feature(current_file) features.append(feature) # print(current_file) le &＃61; preprocessing.LabelEncoder() label &＃61; le.fit_transform(category) model &＃61; KNeighborsClassifier(n_neighbors&＃61;1) model.fit(features, label) predicted&＃61; model.predict(np.array(test).reshape(1, -1)) print(predicted) print(le.inverse_transform(predicted))

这里直接使用了sklearn中的KNN方法

推荐阅读

split
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
split
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
go
c语言调用链表,c语言链表的实现

本文目录一览：1、C语言创建链表，函数调用部分 ... [详细]

蜡笔小新 2023-10-13 13:34:31
split
表里|层面_ShardingJDBC第一篇：分库分表

篇首语：本文由编程笔记#小编为大家整理，主要介绍了ShardingJDBC第一篇：分库分表相关的知识，希望对你有一定的参考价值。文章目录 ... [详细]

蜡笔小新 2023-10-13 13:08:52
php
Java实现大数乘法（分治算法）

本文介绍了使用Java实现大数乘法的分治算法，包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]

蜡笔小新 2023-12-14 15:43:50
php
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
string
如何在有序字符序列中插入新字符并保持有序

本文介绍了如何在给定的有序字符序列中插入新字符，并保持序列的有序性。通过示例代码演示了插入过程，以及插入后的字符序列。 ... [详细]

蜡笔小新 2023-12-14 11:16:33
go
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
split
判断两个数组是否包含相同元素的Python函数

本文介绍了一个Python函数same_set，用于判断两个相等长度的数组是否包含相同的元素。函数会忽略元素的顺序和重复次数，如果两个数组包含相同的元素，则返回1，否则返回0。文章还提供了函数的具体实现代码和样例输入输出。 ... [详细]

蜡笔小新 2023-12-10 11:48:02
split
如何优化Webpack打包后的代码分割

本文介绍了如何通过优化Webpack的代码分割来减小打包后的文件大小。主要包括拆分业务逻辑代码和引入第三方包的代码、配置Webpack插件、异步代码的处理、代码分割重命名、配置vendors和cacheGroups等方面的内容。通过合理配置和优化，可以有效减小打包后的文件大小，提高应用的加载速度。 ... [详细]

蜡笔小新 2023-12-09 08:10:47
split
批量重命名文件夹中的文件（python）

做实验需要重命名数据集的名字，有几个容易踩坑的地方和小技巧，总结一下importospathfilelistos.listdir(path)#文件夹路 ... [详细]

蜡笔小新 2023-10-17 08:42:05
split
mapbox矢量切片标准_下载python3中的mapbox向量切片,矢量

python3下载mapbox矢量切片通过观察mapbox的页面开发者工具里的network可以发现，打开矢量切片和字体切片pbf和prite图标的链接， ... [详细]

蜡笔小新 2023-10-16 21:46:42
split
Creating dynamically named aws_lambda_alias results in badness

Thisissuewasoriginallyopenedbyashashicorp/terraform#5664.Itwasmigratedhe ... [详细]

蜡笔小新 2023-10-16 19:31:15
php
设计模式之装饰者

装饰模式（Deocrator）动态地给一个对象添加一些额外的职责，就增加功能来说，装饰模式比生成子类更为灵活。所谓装饰，就是一些对象给主题 ... [详细]

蜡笔小新 2023-10-16 16:14:53
client
调用百度ocr的API，python简易版本

https:www.jianshu.compe10dc43c38d01.注册百度云注册账号https:cloud.baidu.com?fromconsole管理应用https:co ... [详细]

蜡笔小新 2023-10-14 16:49:13

翔未央图_971

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章