利用PyCharmProfile分析异步爬虫效率详解

作者：真实的小莹_808 | 来源：互联网 | 2022-09-23 09:31

这篇文章主要给大家介绍了关于如何利用PyCharmProfile分析异步爬虫效率的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用PyCharm具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧

今天比较忙，水一下

下面的代码来源于这个视频里面提到的，github 的链接为：github.com/mikeckenned…（本地下载）

第一个代码如下，就是一个普通的 for 循环爬虫。原文地址。

import requests
import bs4
from colorama import Fore


def main():
 get_title_range()
 print("Done.")


def get_html(episode_number: int) -> str:
 print(Fore.YELLOW + f"Getting HTML for episode {episode_number}", flush=True)

 url = f'https://talkpython.fm/{episode_number}'
 resp = requests.get(url)
 resp.raise_for_status()

 return resp.text


def get_title(html: str, episode_number: int) -> str:
 print(Fore.CYAN + f"Getting TITLE for episode {episode_number}", flush=True)
 soup = bs4.BeautifulSoup(html, 'html.parser')
 header = soup.select_one('h1')
 if not header:
  return "MISSING"

 return header.text.strip()


def get_title_range():
 # Please keep this range pretty small to not DDoS my site. ;)
 for n in range(185, 200):
  html = get_html(n)
  title = get_title(html, n)
  print(Fore.WHITE + f"Title found: {title}", flush=True)


if __name__ == '__main__':
 main()

这段代码跑完花了37s，然后我们用 pycharm 的 profiler 工具来具体看看哪些地方比较耗时间。

点击Profile (文件名称)

之后获取到得到一个详细的函数调用关系、耗时图：

可以看到 get_html 这个方法占了96.7%的时间。这个程序的 IO 耗时达到了97%，获取 html 的时候，这段时间内程序就在那死等着。如果我们能够让他不要在那儿傻傻地等待 IO 完成，而是开始干些其他有意义的事，就能节省大量的时间。

稍微做一个计算，试用asyncio异步抓取，能将时间降低多少？

get_html这个方法耗时36.8s，一共调用了15次，说明实际上获取一个链接的 html 的时间为36.8s / 15 = 2.4s。**要是全异步的话，获取15个链接的时间还是2.4s。**然后加上get_title这个函数的耗时0.6s，所以我们估算，改进后的程序将可以用 3s 左右的时间完成，也就是性能能够提升13倍。

再看下改进后的代码。原文地址。

import asyncio
from asyncio import AbstractEventLoop

import aiohttp
import requests
import bs4
from colorama import Fore


def main():
 # Create loop
 loop = asyncio.get_event_loop()
 loop.run_until_complete(get_title_range(loop))
 print("Done.")


async def get_html(episode_number: int) -> str:
 print(Fore.YELLOW + f"Getting HTML for episode {episode_number}", flush=True)

 # Make this async with aiohttp's ClientSession
 url = f'https://talkpython.fm/{episode_number}'
 # resp = await requests.get(url)
 # resp.raise_for_status()

 async with aiohttp.ClientSession() as session:
  async with session.get(url) as resp:
   resp.raise_for_status()

   html = await resp.text()
   return html


def get_title(html: str, episode_number: int) -> str:
 print(Fore.CYAN + f"Getting TITLE for episode {episode_number}", flush=True)
 soup = bs4.BeautifulSoup(html, 'html.parser')
 header = soup.select_one('h1')
 if not header:
  return "MISSING"

 return header.text.strip()


async def get_title_range(loop: AbstractEventLoop):
 # Please keep this range pretty small to not DDoS my site. ;)
 tasks = []
 for n in range(190, 200):
  tasks.append((loop.create_task(get_html(n)), n))

 for task, n in tasks:
  html = await task
  title = get_title(html, n)
  print(Fore.WHITE + f"Title found: {title}", flush=True)


if __name__ == '__main__':
 main()

同样的步骤生成profile 图：

可见现在耗时为大约3.8s，基本符合我们的预期了。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对的支持。

推荐阅读

string
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
string
零基础用Python打造Android字符串资源翻译器（五）：增加图形化界面

目录 ... [详细]

蜡笔小新 2023-10-17 16:25:44
bit
EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析

本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程，并分析了其所需的资源容量。通过解决错误提示和调整内存大小，成功存储了波形数据。然后，讨论了储存环逐束团信号的意义，以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大，每天需要近250G，一年需要90T。然而，储存环逐束团信号具有重要意义，可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]

蜡笔小新 2023-12-14 17:43:56
ip
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
ip
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
ip
Python开源库和第三方包的常用框架及库

本文介绍了Python开源库和第三方包中常用的框架和库，包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架，涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]

蜡笔小新 2023-12-11 18:24:06
ip
Python中如何隐藏密码输入

本文介绍了在Python中使用getpass模块隐藏密码输入的方法，以保护用户的密码不被其他人员看到。同时还提到了在PyCharm中运行该命令无效的问题，需要在terminal中运行。 ... [详细]

蜡笔小新 2023-12-11 13:46:19
config
大坑|左上角_pycharm连接服务器同步写代码(图文详细过程)

篇首语：本文由编程笔记#小编为大家整理，主要介绍了pycharm连接服务器同步写代码(图文详细过程)相关的知识，希望对你有一定的参考价值。pycharm连接服务 ... [详细]

蜡笔小新 2023-10-17 19:47:17
config
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
config
【爬虫训练场】：分页爬虫案例设计Demo，Python Flask与MySQL的完美连接

网站类应用，一定离不开MySQL，所以本案例将带着大家学习一下，通过Flask调用MySQL数据，并实现分页呈现。类被称作蓝图，它是一个存储操作方法的容器，Flask可以通过Blu ... [详细]

蜡笔小新 2023-10-17 16:00:33
ip
开发笔记:常用#免费%代理IP库&整理*收藏——实时@更新（大概）

篇首语：本文由编程笔记#小编为大家整理，主要介绍了常用#免费%代理IP库&整理*收藏——实时@更新（大概）相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-17 13:34:54
ip
python搜索引擎代码 csdn_11个Python爱好者最爱访问的站点，值得收藏，帮助你更上一层楼...

学习一门编程语言，除了语法，最重要的是学习解决问题。很多时候单凭自己的能力确实无法做到完美解决，所以无论是搜索引擎、社区、文档还是博客&# ... [详细]

蜡笔小新 2023-10-17 13:04:19
ip
解决：已安装selenium，使用pycharm运行项目时还提示【PyCharm:ModuleNotFoundError: No module named ‘selenium’】...

已安装selenium，在pycharm中运行项目还提示【PyCharm:ModuleNotFoundError:Nomodulenamed‘selenium’】解决 ... [详细]

蜡笔小新 2023-10-17 03:19:39
ip
python模块导入红色波浪线_解决pycharm导入本地py文件时,模块下方出现红色波浪线的问题...

有时候导入本地模块或者py文件时，下方会出现红色的波浪线，但不影响程序的正常运行，但是在查看源函数文件时，会出现问题问题如下 ... [详细]

蜡笔小新 2023-10-16 09:52:18
数组
1.《Python程序设计基础与应用》第1章 Python概述

第1章Python概述1.1Python语言简介（1）Python是一门跨平台、开源、免费的解释型高级动态编程语言。（2࿰ ... [详细]

蜡笔小新 2023-10-15 18:43:04

真实的小莹_808

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章