热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python:使用future,并发下载图片

文章目录1.网络普通下载图片2.使用concurrent.futures模块实现并发下载开局一张图(下载的图片):1.网络普通下载图片为


文章目录

        • 1. 网络普通下载图片
        • 2. 使用concurrent.futures模块实现并发下载

开局一张图(下载的图片):在这里插入图片描述




1. 网络普通下载图片

为了高效处理网络I/O,需要使用并发,因为网络有很高的延迟,所以为了不浪费CPU周期去等待,最好在收到网络响应之前做些其他的事。

两个示例程序,从网上下载图片。第一个示例程序是依序下载的:下载完一个图,并将其保存在硬盘中之后,才请求下一个图像。另一个脚本是并发下载的:几乎同时请求所有图像,每下载完一个文件就保存一个文件,脚本使用concurrent.futures模块。

在I/O密集型应用中,如果代码写得正确,那么不管使用哪种并发策略(使用线程或asyncio包),吞吐量都比依序执行的代码高很多。

这边我改了《流畅的Python》中的下载地址和对象:

# a5_4_downloadimage.py
import os
import sys
import time
import requestsDOWNNLOAD_DIR = r'D:\downloadimage'
BASE_URL = 'http://pic2.sc.chinaz.com/Files/pic/pic9/202002/'
image_list = ['zzpic231' + str(i) + '_s.jpg' for i in range(10, 90)]def save_image(img, filename):path = os.path.join(DOWNNLOAD_DIR, filename)with open(path, 'wb') as fp:fp.write(img)def get_image(suffix):url = os.path.join(BASE_URL, suffix)response = requests.get(url)return response.contentdef show(text):print(text,end='\n')sys.stdout.flush()def download_all(image_name_list): # download_all是与并发实现比较的关键函数。for image_name in image_name_list:image = get_image(image_name)save_image(image, image_name)show(image)return len(image_name_list)def main(download_task):t0 = time.time()count = download_task(image_list)elapsed = time.time() - t0msg = f'\n download {count} images in {elapsed}s'print(msg)if __name__ == '__main__':main(download_all)# download 80 images in 4.6661295890808105s
# download 80 images in 5.478628873825073s
# download 80 images in 4.028514862060547s



2. 使用concurrent.futures模块实现并发下载

concurrent.futures模块的主要特色是 ThreadPoolExecutorProcessPoolExecutor 类,这两个类实现的接口能分别在不同的线程或进程中执行可调用的对象。这两个类在内部维护着一个工作线程或进程池,以及要执行的任务队列。不过,这个接口抽象的层级很高,像下载图片这种简单的案例,无需关心任何实现细节。

使用ThreadPoolExecutor.map方法,以最简单的方式实现并发下载:

# a5_4_downloadimage2.py
from concurrent import futures
from a5_4_downloadimage import save_image, get_image, show, mainMAX_WORDERS = 20 # 设定ThreadPoolExecutor类最多使用几个线程:并发20个def download_single(image_name):image = get_image(image_name)save_image(image, image_name)show(image)return image_namedef download_multiple(image_name_list):tasks = min(MAX_WORDERS, len(image_name_list))with futures.ThreadPoolExecutor(tasks) as executor:res = executor.map(download_single, sorted(image_name_list))return len(list(res))if __name__ == '__main__':main(download_multiple)# download 80 images in 1.4081335067749023s
# download 80 images in 1.561039924621582s
# download 80 images in 1.393141746520996s

download_multiple 函数中设定工作的线程数量:使用允许的最大(MAX_WORKERS)与要处理的数量之间较小的那个值,以免创建多余的线程;使用工作的线程数实例化ThreadPoolExecutor类;executor.__exit__ 方法会调用 executor.shutdown(wait=True) 方法,它会在所有线程都执行完毕前阻塞线程;map方法的作用与内置的map函数类似,不过 download_single 函数会在多个线程中并发调用;map方法返回一个生成器,因此可以迭代,获取各个函数返回的值。最后返回获取的结果数量,如果有线程抛出异常,异常会在return语句处抛出,这与隐式调用 next() 函数从迭代器中获取相应的返回值一样。

download_single 函数其实是前面例子中的 download_all 函数的 for 循环体。编写并发代码时经常这样重构:把依序执行的for循环体改成函数,以便并发调用。


推荐阅读
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 关键词:Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]
  • 在Docker中,将主机目录挂载到容器中作为volume使用时,常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法,包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法,可以避免在使用Docker时出现无写权限的情况。 ... [详细]
  • 本文介绍了使用kotlin实现动画效果的方法,包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果,并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例,可以用来实现放大缩小的效果。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 本文讨论了在Spring 3.1中,数据源未能自动连接到@Configuration类的错误原因,并提供了解决方法。作者发现了错误的原因,并在代码中手动定义了PersistenceAnnotationBeanPostProcessor。作者删除了该定义后,问题得到解决。此外,作者还指出了默认的PersistenceAnnotationBeanPostProcessor的注册方式,并提供了自定义该bean定义的方法。 ... [详细]
author-avatar
mobiledu2502926527
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有