网页爬虫 - python爬虫速率的疑问,小白求解

 朱鹏飞0521 发布于 2022-10-27 19:05

优化网络:

1.我理解 爬虫主要的问题在于网络阻塞,所以使用多线程弥补HTTP异步等待。
那么使用了gevent解决网络问阻塞题,就不需要使用多线程吗?

优化CPU:

2.python多线程运行时,使用的是单核心,还是多核心?在多核心机器上运行如果是单核心,能否同时使用多线程多进程

3.在4核心8线程的电脑上,开启单个进程32线程python运行,这些线程是怎么分配的?

4.当网络阻塞不是瓶颈,如何才能最大化使用单台电脑CPU?应该使用多线程还是多进程增大爬取速率?

5.使用消息队列分布式爬虫,等待的消息过多会不会存在内存或CPU问题?

6.使用消息队列是如何增大爬取速率的?

1 个回答
  • 要充分利用CPU的话就用多进程
    至于线程 我很少用
    在配合协程 就是 多进程+协程 的方式 我记得已经很快了。再要快用 pypy什么的高性能python
    多进程 多线程 协程 这都是可以配合着用的。

    2022-10-29 01:56 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有