开发笔记:Python每日一练(23)基于百度AI识别抓取的表情包

作者：捷克先生2012_929 | 来源：互联网 | 2023-06-07 20:06

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python每日一练(23)-基于百度 AI 识别抓取的表情包相关的知识，希望对你有一定的参考价值。

本文先抓取网络上的表情图像&＃xff0c;然后利用百度 AI 识别表情包上的说明文字&＃xff0c;并利用表情文字重命名文件&＃xff0c;这样当发表情包时&＃xff0c;不需要逐个打开查找&＃xff0c;直接根据文件名选择表情并发送。

一、百度 AI 开放平台的 Key 申请方法

本例使用了百度 AI 的 API 接口实现文字识别。因此需要先申请对应的 API 使用权限&＃xff0c;具体步骤如下&＃xff1a;

在网页浏览器(比如 Chrome 或者火狐) 的地址栏中输入 ai.baidu.com&＃xff0c;进入到百度云 AI 的官网&＃xff0c;在该页面中单击右上角的 控制台 按钮。
进入到百度云 AI 官网的登录页面&＃xff0c;输入百度账号和密码&＃xff0c;如果没有&＃xff0c;可以单击 立即注册 超链接进行注册申请。
登录成功后&＃xff0c;进入到百度云 AI 官网的控制台页面&＃xff0c;单击左侧导航的 产品服务&＃xff0c;展开列表&＃xff0c;在列表的最右侧下方看到有 人工智能 的分类&＃xff0c;然后选择 图像识别&＃xff0c;或者直接选择 文字识别&＃xff0c;如下图所示。
进入图像识别一概览 页面&＃xff0c;要使用百度云 AI 的 API&＃xff0c;首先需要申请权限&＃xff0c;申请权限之前需要先创建自己的应用&＃xff0c;因此单击 创建应用按钮&＃xff0c;如下图所示。
进入到 创建应用 页面&＃xff0c;该页面中需要输入应用的名称&＃xff0c;选择应用类型&＃xff0c;并选择接口&＃xff0c;注意&＃xff1a;这里的接口可以多选择一些&＃xff0c;把后期可能用到的接口全部选择上&＃xff0c;这样&＃xff0c;在开发其他实例时&＃xff0c;就可以直接使用了&＃xff1b;选择完接口后&＃xff0c;选择文字识别包名&＃xff0c;这里选择 不需要&＃xff0c;输入应用描述&＃xff0c;单击 立即创建 按钮&＃xff0c;如下图所示。
创建完成后&＃xff0c;单击 返回应用列表 按钮&＃xff0c;页面跳转到应用列表页面&＃xff0c;在该页面中即可查看创建的应用&＃xff0c;以及百度云自动为您分配的 AppID&＃xff0c;API Key&＃xff0c;Secret Key&＃xff0c;这些值根据应用的不同而不同&＃xff0c;因此一定要保存好&＃xff0c;以便开发时使用。

二、抓取贴吧表情包

本例在百度贴吧中找到了一些自制的表情包&＃xff1a;https://tieba.baidu.com/p/5522091060
现在想把图片都爬下来&＃xff0c;具体操作步骤如下&＃xff1a;

Network 抓包看下返回的数据是否和 Element 一致&＃xff0c;即是否包含想要的数据&＃xff0c;而不是通过 JS 黑魔法进行加载的。复制下第一个图的图片链接&＃xff0c;到 Network 选项卡里的 Response 里查找一下。
在 Network 抓包中没有发现 Ajax 动态加载数据的踪迹。
点击第二页&＃xff0c;抓包发现了 Ajax 加载的痕迹。

以第一个图的 url 搜下&＃xff0c;同样可以找到。
三个参数猜测 pn 为 page_number&＃xff0c;即页数&＃xff0c;postman 或者自己写代码模拟请求&＃xff0c;记得塞入 Host 和 X-Requested-With&＃xff0c;验证 pn&＃61;1 是否为第一页数据&＃xff0c;验证通过&＃xff0c;即所有页面数据都可以通过这个接口拿到。
先加载拿到末页是第几页&＃xff0c;然后走一波循环遍历即可解析数据获得图片 url&＃xff0c;写入文件&＃xff0c;使用多个线程进行下载&＃xff0c;详细代码如下。

# 抓取百度贴吧某个帖子里的所有图片 import requests import time import threading import queue from bs4 import BeautifulSoup import chardet import os tiezi_url &＃61; "https://tieba.baidu.com/p/5522091060" headers &＃61; { &＃39;Host&＃39;: &＃39;tieba.baidu.com&＃39;, &＃39;User-Agent&＃39;: &＃39;User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KH&＃39; &＃39;TML, like Gecko) Chrome/90.0.4430.212 Safari/537.36&＃39;, } pic_save_dir &＃61; &＃39;tiezi_pic/&＃39; if not os.path.exists(pic_save_dir): # 判断文件夹是否存在&＃xff0c;不存在就创建 os.makedirs(pic_save_dir) pic_urls_file &＃61; &＃39;tiezi_pic_urls.txt&＃39; download_q &＃61; queue.Queue() # 下载队列 # 获得页数 def get_page_count(): try: resp &＃61; requests.get(tiezi_url, headers&＃61;headers, timeout&＃61;5) if resp is not None: resp.encoding &＃61; chardet.detect(resp.content)[&＃39;encoding&＃39;] html &＃61; resp.text soup &＃61; BeautifulSoup(html, &＃39;lxml&＃39;) a_s &＃61; soup.find("ul", attrs&＃61;{&＃39;class&＃39;: &＃39;l_posts_num&＃39;}).findAll("a") for a in a_s: if a.get_text() &＃61;&＃61; &＃39;尾页&＃39;: return a[&＃39;href&＃39;].split(&＃39;&＃61;&＃39;)[1] except Exception as e: print(str(e)) # 下载线程 class PicSpider(threading.Thread): def __init__(self, t_name, func): self.func &＃61; func threading.Thread.__init__(self, name&＃61;t_name) def run(self): self.func() # 获得每页里的所有图片URL def get_pics(count): params &＃61; { &＃39;pn&＃39;: count, &＃39;ajax&＃39;: &＃39;1&＃39;, &＃39;t&＃39;: int(time.time()) } try: resp &＃61; requests.get(tiezi_url, headers&＃61;headers, timeout&＃61;5, params&＃61;params) if resp is not None: resp.encoding &＃61; chardet.detect(resp.content)[&＃39;encoding&＃39;] html &＃61; resp.text soup &＃61; BeautifulSoup(html, &＃39;lxml&＃39;) imgs &＃61; soup.findAll(&＃39;img&＃39;, attrs&＃61;{&＃39;class&＃39;: &＃39;BDE_Image&＃39;}) for img in imgs: print(img[&＃39;src&＃39;]) with open(pic_urls_file, &＃39;a&＃39;) as fout: fout.write(img[&＃39;src&＃39;]) fout.write(&＃39;\\n&＃39;) return None except Exception: pass # 下载线程调用的方法 def down_pics(): global download_q while not download_q.empty(): data &＃61; download_q.get() download_pic(data) download_q.task_done() # 下载调用的方法 def download_pic(img_url): try: resp &＃61; requests.get(img_url, headers&＃61;headers, timeout&＃61;10) if resp.status_code &＃61;&＃61; 200: print("下载图片:" &＃43; img_url) pic_name &＃61; img_url.split("/")[-1][0:-1] with open(pic_save_dir &＃43; pic_name, "wb&＃43;") as f: f.write(resp.content) except Exception as e: print(e) if __name__ &＃61;&＃61; &＃39;__main__&＃39;: print("检索判断链接文件是否存在&＃xff1a;") if not os.path.exists(pic_urls_file): print("不存在&＃xff0c;开始解析帖子...") page_count &＃61; get_page_count() if page_count is not None: headers[&＃39;X-Requested-With&＃39;] &＃61; &＃39;XMLHttpRequest&＃39; for page in range(1, int(page_count) &＃43; 1): get_pics(page) print("链接已解析完毕&＃xff01;") headers.pop(&＃39;X-Requested-With&＃39;) else: print("存在") print("开始下载图片~~~~") headers[&＃39;Host&＃39;] &＃61; &＃39;imgsa.baidu.com&＃39; fo &＃61; open(pic_urls_file, "r") pic_list &＃61; fo.readlines() threads &＃61; [] for pic in pic_list: download_q.put(pic) for i in range(0, len(pic_list)): t &＃61; PicSpider(t_name&＃61;&＃39;线程&＃39; &＃43; str(i), func&＃61;down_pics) t.daemon &＃61; True t.start() threads.append(t) download_q.join() for t in threads: t.join() print("图片下载完毕")
运行结果&＃xff1a;

下面通过 OCR 文字识别技术&＃xff0c;直接把表情里的文字提出来&＃xff0c;然后来命名图片&＃xff0c;这样就可以直接文件搜索表情关键字&＃xff0c;可以快速找到需要的表情图片。使用谷歌的 OCR 文字识别引擎&＃xff1a;Tesseract&＃xff0c;对于此类大图片小文字&＃xff0c;不太适合&＃xff0c;识别率太低&＃xff0c;甚至无法识别&＃xff0c;这时使用百度云 OCR 比较合适&＃xff0c;它能够自动定位到图片中具体位置&＃xff0c;并找出图片中所有的文字。

三、使用 Baidu-aip

申请百度 AI 的应用 key 之后&＃xff0c;就可以在本地系统中安装 Baidu-aip&＃xff0c;代码如下&＃xff1a;

pip install baidu-aip

先识别一张图片&＃xff0c;看看效果如何&＃xff1a;

from aip import AipOcr # 新建一个AipOcr对象 config &＃61; { &＃39;appId&＃39;: &＃39;填写自己的appId&＃39;, &＃39;apiKey&＃39;: &＃39;填写自己的apiKey&＃39;, &＃39;secretKey&＃39;: &＃39;填写自己的secretKey&＃39; } client &＃61; AipOcr(**config) # 识别图片里的文字 def img_to_str(image_path): # 读取图片 with open(image_path, &＃39;rb&＃39;) as fp: image &＃61; fp.read() # 调用通用文字识别, 图片参数为本地图片 result &＃61; client.basicGeneral(image) # 返回拼接结果 if &＃39;words_result&＃39; in result: return &＃39;\\n&＃39;.join([w[&＃39;words&＃39;] for w in result[&＃39;words_result&＃39;]]) if __name__ &＃61;&＃61; &＃39;__main__&＃39;: print(img_to_str(&＃39;tiezi_pic/5c0ddb1e4134970aebd593e29ecad1c8a5865dbd.jpg&＃39;))

运行程序&＃xff0c;结果如下图所示&＃xff1a;
在这里插入图片描述
百度 AI 返回的是一个 JSON 格式数据&＃xff0c;如下所示。返回一个字典对象&＃xff0c;包含 log_id、words_result_num、words_result 三个键&＃xff0c;其中 words_result_num 表示识别的文本行数&＃xff0c;words_result 是一个列表&＃xff0c;每个列表项目记录一条识别的文本&＃xff0c;每个项目返回一个字典对象&＃xff0c;包含 words 键&＃xff0c;words 表示识别的文本。

{&＃39;words_result&＃39;: [{&＃39;words&＃39;: &＃39;o。o&＃39;}, {&＃39;words&＃39;: &＃39;6226-16:59&＃39;}, {&＃39;words&＃39;: &＃39;绝望jpg&＃39;}], &＃39;log_id&＃39;: 1393611954748129280, &＃39;words_result_num&＃39;: 3} o。o 6226-16:59 绝望jpg

由于每个图片中可能包含很多文字信息&＃xff0c;如水印的日期文字&＃xff0c;以及个别特殊的文字符号被误解析&＃xff0c;我们需要提出的是汉字或字母信息&＃xff0c;同时可能会包含多条汉字信息&＃xff0c;本例选择汉字或字母最长的一条来命名文件。完整的示例代码如下&＃xff1a;

# 识别图片文字&＃xff0c;批量命名图片文字 import os from aip import AipOcr import re import datetime # 新建一个AipOcr对象 config &＃61; { &＃39;appId&＃39;: &＃39;填写自己的appId&＃39;, &＃39;apiKey&＃39;: &＃39;填写自己的apiKey&＃39;, &＃39;secretKey&＃39;: &＃39;填写自己的secretKey&＃39; } client &＃61; AipOcr(**config) pic_dir &＃61; r"tiezi_pic/" # 读取图片 def get_file_content(file_path): with open(file_path, &＃39;rb&＃39;) as fp: return fp.read() # 识别图片里的文字 def img_to_str(image_path): image &＃61; get_file_content(image_path) # 调用通用文字识别, 图片参数为本地图片 result &＃61; client.basicGeneral(image) # 结果拼接返回 words_list &＃61; [] if &＃39;words_result&＃39; in result: if len(result[&＃39;words_result&＃39;]) > 0: for w in result[&＃39;words_result&＃39;]: words_list.append(w[&＃39;words&＃39;]) file_name &＃61; get_longest_str(words_list) print(file_name) file_dir_name &＃61; pic_dir &＃43; str(file_name).replace("/", "") &＃43; &＃39;.jpg&＃39; if os.path.exists(file_dir_name): # 处理文件重名问题 sec &＃61; datetime.datetime.now().microsecond # 获取当前毫秒时值 file_dir_name &＃61; pic_dir &＃43; str(file_name).replace("/", "") &＃43; str(sec) &＃43; &＃39;.jpg&＃39; try: os.rename(image_path, file_dir_name) except Exception: print(" 重命名失败&＃xff1a;", image_path, " &＃61;> ", file_name) # 获取字符串列表中最长的字符串 def get_longest_str(str_list): pat &＃61; re.compile(r&＃39;[\\u4e00-\\u9fa5A-Za-z]&＃43;&＃39;) str &＃61; max(str_list, key&＃61;hanzi_len) result &＃61; pat.findall(str) return &＃39;&＃39;.join(result) def hanzi_len(item): pat &＃61; re.compile(r&＃39;[\\u4e00-\\u9fa5]&＃43;&＃39;) sum &＃61; 0 for i in item: if pat.search(i): sum &＃43;&＃61; 1 return sum # 遍历某个文件夹下所有图片 def query_picture(dir_path): pic_path_list &＃61; [] for filename in os.listdir(dir_path): pic_path_list.append(dir_path &＃43; filename) return pic_path_list if __name__ &＃61;&＃61; &＃39;__main__&＃39;: pic_list &＃61; query_picture(pic_dir) if len(pic_list) > 0: for i in pic_list: img_to_str(i)

运行程序&＃xff0c;结果如下图所示&＃xff1a;
在这里插入图片描述

推荐阅读

ip
Voicewo在线语音识别转换jQuery插件的特点和示例

本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件，该插件具有快速、架构、风格、扩展和兼容等特点，适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]

蜡笔小新 2023-12-13 20:01:16
ip
C#生成随机数的三种方法及其问题分析

本文介绍了C#中生成随机数的三种方法，并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法，但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数，进一步突显了这个问题。文章指出，随机数生成在任何编程语言中都是必备的功能，但Random类生成的随机数并不可靠。最后，提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]

蜡笔小新 2023-12-14 14:15:30
ip
JS进修笔记——闭包的运转机制和作用域

本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]

蜡笔小新 2023-12-14 18:45:00
ip
AJAX的POST请求及实现数据修改功能的方法

本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术，可以实现在输入某个id后，通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用，以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况，并解释了JavaScript等待服务器响应的机制。 ... [详细]

蜡笔小新 2023-12-14 16:12:01
ip
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
hash
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
plugins
Android Studio Bumblebee | 2021.1.1（大黄蜂版本使用介绍）

本文介绍了Android Studio Bumblebee | 2021.1.1（大黄蜂版本）的使用方法和相关知识，包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]

蜡笔小新 2023-12-14 10:34:15
ip
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
ip
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
ip
利用Visual Basic开发SAP接口程序初探的方法与原理

本文介绍了利用Visual Basic开发SAP接口程序的方法与原理，以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图，在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型，并强调本文主要不讨论SAP R/3函数的开发，而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]

蜡笔小新 2023-12-13 10:56:31
ip
WebSocket与Socket.io的理解

WebSocketprotocol是HTML5一种新的协议。它的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话，属于服务器推送 ... [详细]

蜡笔小新 2023-12-12 19:35:15
ip
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
ip
深入理解Kafka服务端请求队列中请求的处理

本文深入分析了Kafka服务端请求队列中请求的处理过程，详细介绍了请求的封装和放入请求队列的过程，以及处理请求的线程池的创建和容量设置。通过场景分析、图示说明和源码分析，帮助读者更好地理解Kafka服务端的工作原理。 ... [详细]

蜡笔小新 2023-12-12 16:14:59
ip
django视图函数的使用方法

本文介绍了django中视图函数的使用方法，包括如何接收Web请求并返回Web响应，以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]

蜡笔小新 2023-12-12 16:02:59
ip
网络请求模块选择——axios框架的基本使用和封装

本文介绍了选择网络请求模块axios的原因，以及axios框架的基本使用和封装方法。包括发送并发请求的演示，全局配置的设置，创建axios实例的方法，拦截器的使用，以及如何封装和请求响应劫持等内容。 ... [详细]

蜡笔小新 2023-12-12 10:16:43

捷克先生2012_929

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

开发笔记:Python每日一练(23)基于百度AI识别抓取的表情包

目录