热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python:使用future,并发下载图片

文章目录1.网络普通下载图片2.使用concurrent.futures模块实现并发下载开局一张图(下载的图片):1.网络普通下载图片为


文章目录

        • 1. 网络普通下载图片
        • 2. 使用concurrent.futures模块实现并发下载

开局一张图(下载的图片):在这里插入图片描述




1. 网络普通下载图片

为了高效处理网络I/O,需要使用并发,因为网络有很高的延迟,所以为了不浪费CPU周期去等待,最好在收到网络响应之前做些其他的事。

两个示例程序,从网上下载图片。第一个示例程序是依序下载的:下载完一个图,并将其保存在硬盘中之后,才请求下一个图像。另一个脚本是并发下载的:几乎同时请求所有图像,每下载完一个文件就保存一个文件,脚本使用concurrent.futures模块。

在I/O密集型应用中,如果代码写得正确,那么不管使用哪种并发策略(使用线程或asyncio包),吞吐量都比依序执行的代码高很多。

这边我改了《流畅的Python》中的下载地址和对象:

# a5_4_downloadimage.py
import os
import sys
import time
import requestsDOWNNLOAD_DIR = r'D:\downloadimage'
BASE_URL = 'http://pic2.sc.chinaz.com/Files/pic/pic9/202002/'
image_list = ['zzpic231' + str(i) + '_s.jpg' for i in range(10, 90)]def save_image(img, filename):path = os.path.join(DOWNNLOAD_DIR, filename)with open(path, 'wb') as fp:fp.write(img)def get_image(suffix):url = os.path.join(BASE_URL, suffix)response = requests.get(url)return response.contentdef show(text):print(text,end='\n')sys.stdout.flush()def download_all(image_name_list): # download_all是与并发实现比较的关键函数。for image_name in image_name_list:image = get_image(image_name)save_image(image, image_name)show(image)return len(image_name_list)def main(download_task):t0 = time.time()count = download_task(image_list)elapsed = time.time() - t0msg = f'\n download {count} images in {elapsed}s'print(msg)if __name__ == '__main__':main(download_all)# download 80 images in 4.6661295890808105s
# download 80 images in 5.478628873825073s
# download 80 images in 4.028514862060547s



2. 使用concurrent.futures模块实现并发下载

concurrent.futures模块的主要特色是 ThreadPoolExecutorProcessPoolExecutor 类,这两个类实现的接口能分别在不同的线程或进程中执行可调用的对象。这两个类在内部维护着一个工作线程或进程池,以及要执行的任务队列。不过,这个接口抽象的层级很高,像下载图片这种简单的案例,无需关心任何实现细节。

使用ThreadPoolExecutor.map方法,以最简单的方式实现并发下载:

# a5_4_downloadimage2.py
from concurrent import futures
from a5_4_downloadimage import save_image, get_image, show, mainMAX_WORDERS = 20 # 设定ThreadPoolExecutor类最多使用几个线程:并发20个def download_single(image_name):image = get_image(image_name)save_image(image, image_name)show(image)return image_namedef download_multiple(image_name_list):tasks = min(MAX_WORDERS, len(image_name_list))with futures.ThreadPoolExecutor(tasks) as executor:res = executor.map(download_single, sorted(image_name_list))return len(list(res))if __name__ == '__main__':main(download_multiple)# download 80 images in 1.4081335067749023s
# download 80 images in 1.561039924621582s
# download 80 images in 1.393141746520996s

download_multiple 函数中设定工作的线程数量:使用允许的最大(MAX_WORKERS)与要处理的数量之间较小的那个值,以免创建多余的线程;使用工作的线程数实例化ThreadPoolExecutor类;executor.__exit__ 方法会调用 executor.shutdown(wait=True) 方法,它会在所有线程都执行完毕前阻塞线程;map方法的作用与内置的map函数类似,不过 download_single 函数会在多个线程中并发调用;map方法返回一个生成器,因此可以迭代,获取各个函数返回的值。最后返回获取的结果数量,如果有线程抛出异常,异常会在return语句处抛出,这与隐式调用 next() 函数从迭代器中获取相应的返回值一样。

download_single 函数其实是前面例子中的 download_all 函数的 for 循环体。编写并发代码时经常这样重构:把依序执行的for循环体改成函数,以便并发调用。


推荐阅读
  • 本文介绍了协程的概念和意义,以及使用greenlet、yield、asyncio、async/await等技术实现协程编程的方法。同时还介绍了事件循环的作用和使用方法,以及如何使用await关键字和Task对象来实现异步编程。最后还提供了一些快速上手的示例代码。 ... [详细]
  • java线程池的实现原理源码分析
    这篇文章主要介绍“java线程池的实现原理源码分析”,在日常操作中,相信很多人在java线程池的实现原理源码分析问题上存在疑惑,小编查阅了各式资 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • 欢乐的票圈重构之旅——RecyclerView的头尾布局增加
    项目重构的Git地址:https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集:http:www.jianshu.comno ... [详细]
  • EPPlus绘制刻度线的方法及示例代码
    本文介绍了使用EPPlus绘制刻度线的方法,并提供了示例代码。通过ExcelPackage类和List对象,可以实现在Excel中绘制刻度线的功能。具体的方法和示例代码在文章中进行了详细的介绍和演示。 ... [详细]
  • HashMap的相关问题及其底层数据结构和操作流程
    本文介绍了关于HashMap的相关问题,包括其底层数据结构、JDK1.7和JDK1.8的差异、红黑树的使用、扩容和树化的条件、退化为链表的情况、索引的计算方法、hashcode和hash()方法的作用、数组容量的选择、Put方法的流程以及并发问题下的操作。文章还提到了扩容死链和数据错乱的问题,并探讨了key的设计要求。对于对Java面试中的HashMap问题感兴趣的读者,本文将为您提供一些有用的技术和经验。 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • 深入理解Java虚拟机的并发编程与性能优化
    本文主要介绍了Java内存模型与线程的相关概念,探讨了并发编程在服务端应用中的重要性。同时,介绍了Java语言和虚拟机提供的工具,帮助开发人员处理并发方面的问题,提高程序的并发能力和性能优化。文章指出,充分利用计算机处理器的能力和协调线程之间的并发操作是提高服务端程序性能的关键。 ... [详细]
  • 使用Flutternewintegration_test进行示例集成测试?回答首先在dev下的p ... [详细]
  • SoIhavealoopthatrunsperfectforeventsandonlyshowsfutureposts.TheissueisthatIwould ... [详细]
  • Python 多线程popen ping指定IP是否在线 判断连通
    Python多线程popen应用场景:有多台设备需要维护,周期短,重复度高;单台设备配备多个IP,需要经常确认网络是否通常;等等其他需要确 ... [详细]
  • Forexperiencedcryptoinvestors,thereareseveralsectorsthatseemedpromisingbutdidn’tlive ... [详细]
  • 题目描述Takuru是一名情报强者,所以他想利用他强大的情报搜集能力来当中间商赚差价。Takuru的计划是让Hinae帮他去市场上买一个商品,然后再以另一个价格卖掉它。Takur ... [详细]
author-avatar
mobiledu2502926527
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有