热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

为什么多线程代码在更快的机器上运行得更慢?

如何解决《为什么多线程代码在更快的机器上运行得更慢?》经验,为你挑选了2个好方法。

考虑以下c ++代码:

#include "threadpool.hpp"
#include 
#include 
#include 
#include 

int loop_size;

void process(int num) {
    double x = 0;
    double sum = 0;
    for(int i = 0; i  ths;
    if(th_count == 0) {
        for(int i = 0; i enqueue(std::bind(&process, i));
        }
        delete pool;
    }
    int diff = std::chrono::duration_cast(std::chrono::steady_clock::now() - then).count();
    std::cerr <<"Time: " <

并且"threadpool.hpp"是这个github repo的修改版本, 它可以在这里找到

我在我的机器(Corei7-6700)和88核服务器(2x Xeon E5-2696 v4)上编译了上面的代码.结果我无法解释.

这是我运行代码的方式:

tp   

同样的代码在更快的机器上运行得更慢!我的本地计算机上有8个核心,远程服务器上有88个核心,结果如下:(最后两列表示每台计算机的平均完成时间,以毫秒为单位)

+============+=========+============+=============+====================+
| Threadpool | Threads | Iterations | Corei7-6700 | 2x Xeon E5-2696 v4 |
+============+=========+============+=============+====================+
|        100 |  100000 |       1000 |        1300 |               6000 |
+------------+---------+------------+-------------+--------------------+
|       1000 |  100000 |       1000 |        1400 |               5000 |
+------------+---------+------------+-------------+--------------------+
|      10000 |  100000 |       1000 |        1470 |               3400 |
+------------+---------+------------+-------------+--------------------+

似乎拥有更多内核会使代码运行得更慢.因此,我将服务器(任务集)上的CPU关联性降低到8个核心并再次运行代码:

taskset 0-7 tp   

这是新数据:

+============+=========+============+=============+====================+
| Threadpool | Threads | Iterations | Corei7-6700 | 2x Xeon E5-2696 v4 |
+============+=========+============+=============+====================+
|        100 |  100000 |       1000 |        1300 |                900 |
+------------+---------+------------+-------------+--------------------+
|       1000 |  100000 |       1000 |        1400 |               1000 |
+------------+---------+------------+-------------+--------------------+
|      10000 |  100000 |       1000 |        1470 |               1070 |
+------------+---------+------------+-------------+--------------------+

我在32核Xeon和22核的Xeon机器上测试过相同的代码,模式类似:内核更少,使多线程代码运行得更快.但为什么?

重要说明:这是为了解决我原来的问题:

为什么拥有更多更快的内核会使我的多线程软件更慢?

笔记:

    所有机器上的操作系统和编译器都是相同的:debian 9.0 amd64运行内核4.0.9-3,6.3.0 20170516

    没有额外的闪存,默认优化: g++ ./threadpool.cpp -o ./tp -lpthread

Useless.. 5

通常,对于像这样的CPU绑定代码,您不应期望在池中运行更多线程比使用核心执行它们有任何好处.

例如,将池与1, 2, ... N/2 ... N ... N*2N核心套接字的线程进行比较可能会很有趣.具有10*N个线程的池实际上只是测试调度程序在负载下的行为方式.

然后,通常,您还需要了解每个任务的开销:将工作分成的任务越多,创建,销毁和同步对这些任务的访问所花费的时间就越多.改变固定工作量的子任务大小是一个很好的方法来看到这一点.

最后,它有助于了解您正在使用的物理架构.NUMA服务器平台可以使用两个套接字完成两倍的工作,因为相同的单个CPU可以单独执行 - 如果每个套接字访问其自己的直接连接的内存.一旦您通过QPI传输数据,性能就会下降.在整个QPI中像你的互斥锁一样反弹一致的高速缓存行可以减慢整个事情的速度.

同样,如果您有N个内核并且想要在池中运行N个线程 - 您知道它们是物理内核还是超线程逻辑内核?如果他们是HT,你知道你的线程是否能够全速运行,或者他们是否会争夺有限的共享资源?



1> Useless..:

通常,对于像这样的CPU绑定代码,您不应期望在池中运行更多线程比使用核心执行它们有任何好处.

例如,将池与1, 2, ... N/2 ... N ... N*2N核心套接字的线程进行比较可能会很有趣.具有10*N个线程的池实际上只是测试调度程序在负载下的行为方式.

然后,通常,您还需要了解每个任务的开销:将工作分成的任务越多,创建,销毁和同步对这些任务的访问所花费的时间就越多.改变固定工作量的子任务大小是一个很好的方法来看到这一点.

最后,它有助于了解您正在使用的物理架构.NUMA服务器平台可以使用两个套接字完成两倍的工作,因为相同的单个CPU可以单独执行 - 如果每个套接字访问其自己的直接连接的内存.一旦您通过QPI传输数据,性能就会下降.在整个QPI中像你的互斥锁一样反弹一致的高速缓存行可以减慢整个事情的速度.

同样,如果您有N个内核并且想要在池中运行N个线程 - 您知道它们是物理内核还是超线程逻辑内核?如果他们是HT,你知道你的线程是否能够全速运行,或者他们是否会争夺有限的共享资源?



2> jcai..:

您正在将大量工作者排入线程池,这需要很少的时间来执行.因此,您通过线程池(而不是实际工作)的实现而受到瓶颈,特别是其互斥体处理争用的方式.我试图替换thread_poolfolly::CPUThreadPoolExecutor,哪一种帮助:

thread_pool version:
2180 ms | thread_pool_size=100   num_workers=100000 loop_size=1000 affinity=0-23
2270 ms | thread_pool_size=1000  num_workers=100000 loop_size=1000 affinity=0-23
2400 ms | thread_pool_size=10000 num_workers=100000 loop_size=1000 affinity=0-23
 530 ms | thread_pool_size=100   num_workers=100000 loop_size=1000 affinity=0-7
1930 ms | thread_pool_size=1000  num_workers=100000 loop_size=1000 affinity=0-7
2300 ms | thread_pool_size=10000 num_workers=100000 loop_size=1000 affinity=0-7
folly::CPUThreadPoolExecutor version:
 830 ms | thread_pool_size=100   num_workers=100000 loop_size=1000 affinity=0-23
 780 ms | thread_pool_size=1000  num_workers=100000 loop_size=1000 affinity=0-23
 800 ms | thread_pool_size=10000 num_workers=100000 loop_size=1000 affinity=0-23
 880 ms | thread_pool_size=100   num_workers=100000 loop_size=1000 affinity=0-7
1130 ms | thread_pool_size=1000  num_workers=100000 loop_size=1000 affinity=0-7
1120 ms | thread_pool_size=10000 num_workers=100000 loop_size=1000 affinity=0-7

我建议你(1)在每个线程中做更多工作; (2)使用与CPU一样多的线程; (3)使用更好的线程池.让我们设置thread_pool_sizeCPU的数量,然后乘以loop_size10:

thread_pool version:
1880 ms | thread_pool_size=24 num_workers=100000 loop_size=10000 affinity=0-23
4100 ms | thread_pool_size=8  num_workers=100000 loop_size=10000 affinity=0-7
folly::CPUThreadPoolExecutor version:
1520 ms | thread_pool_size=24 num_workers=100000 loop_size=10000 affinity=0-23
2310 ms | thread_pool_size=8  num_workers=100000 loop_size=10000 affinity=0-7

请注意,通过将每个线程的工作量增加10倍,我们实际上使thread_pool版本更快,并且folly::CPUThreadPoolExecutor版本只花费了2倍的时间.让我们乘以loop_size10倍:

thread_pool version:
28695 ms | thread_pool_size=24 num_workers=100000 loop_size=100000 affinity=0-23
81600 ms | thread_pool_size=8  num_workers=100000 loop_size=100000 affinity=0-7
folly::CPUThreadPoolExecutor version:
 6830 ms | thread_pool_size=24 num_workers=100000 loop_size=100000 affinity=0-23
14400 ms | thread_pool_size=8  num_workers=100000 loop_size=100000 affinity=0-7

因为folly::CPUThreadPoolExecutor结果不言而喻:在每个线程中做更多的工作会让你更接近并行性的真正线性收益.而thread_pool只是似乎没有达到任务; 它无法正确处理这种互斥争用的规模.

这是我用来测试的代码(用gcc 5.5编译,完全优化):

#include 
#include 
#include 
#include 
#include 

#define USE_FOLLY 1

#if USE_FOLLY
#include 
#include 
#else
#include "threadpool.hpp"
#endif

int loop_size;
thread_local double dummy = 0.0;

void process(int num) {
  double x = 0;
  double sum = 0;
  for (int i = 0; i (th_count);
#else
  auto pool = std::make_unique(th_count);
#endif
  loop_size = std::stoi(argv[3]);
  int max = std::stoi(argv[2]);

  auto then = std::chrono::steady_clock::now();
#if USE_FOLLY
  std::vector> futs;
  for (int i = 0; i enqueue([i]() { process(i); });
  }
  pool = nullptr;
#endif

  int diff = std::chrono::duration_cast(
                 std::chrono::steady_clock::now() - then)
                 .count();
  std::cerr <<"Time: " <


推荐阅读
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
  • http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的,最大不能超过XX ... [详细]
  • linux进阶50——无锁CAS
    1.概念比较并交换(compareandswap,CAS),是原⼦操作的⼀种,可⽤于在多线程编程中实现不被打断的数据交换操作࿰ ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 深入解析Linux下的I/O多路转接epoll技术
    本文深入解析了Linux下的I/O多路转接epoll技术,介绍了select和poll函数的问题,以及epoll函数的设计和优点。同时讲解了epoll函数的使用方法,包括epoll_create和epoll_ctl两个系统调用。 ... [详细]
  • Linux下安装免费杀毒软件ClamAV及使用方法
    本文介绍了在Linux系统下安装免费杀毒软件ClamAV的方法,并提供了使用该软件更新病毒库和进行病毒扫描的指令参数。同时还提供了官方安装文档和下载地址。 ... [详细]
  • python3 nmap函数简介及使用方法
    本文介绍了python3 nmap函数的简介及使用方法,python-nmap是一个使用nmap进行端口扫描的python库,它可以生成nmap扫描报告,并帮助系统管理员进行自动化扫描任务和生成报告。同时,它也支持nmap脚本输出。文章详细介绍了python-nmap的几个py文件的功能和用途,包括__init__.py、nmap.py和test.py。__init__.py主要导入基本信息,nmap.py用于调用nmap的功能进行扫描,test.py用于测试是否可以利用nmap的扫描功能。 ... [详细]
  • 基于移动平台的会展导游系统APP设计与实现的技术介绍与需求分析
    本文介绍了基于移动平台的会展导游系统APP的设计与实现过程。首先,对会展经济和移动互联网的概念进行了简要介绍,并阐述了将会展引入移动互联网的意义。接着,对基础技术进行了介绍,包括百度云开发环境、安卓系统和近场通讯技术。然后,进行了用户需求分析和系统需求分析,并提出了系统界面运行流畅和第三方授权等需求。最后,对系统的概要设计进行了详细阐述,包括系统前端设计和交互与原型设计。本文对基于移动平台的会展导游系统APP的设计与实现提供了技术支持和需求分析。 ... [详细]
  • 深入理解Java虚拟机的并发编程与性能优化
    本文主要介绍了Java内存模型与线程的相关概念,探讨了并发编程在服务端应用中的重要性。同时,介绍了Java语言和虚拟机提供的工具,帮助开发人员处理并发方面的问题,提高程序的并发能力和性能优化。文章指出,充分利用计算机处理器的能力和协调线程之间的并发操作是提高服务端程序性能的关键。 ... [详细]
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
author-avatar
余杰20
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有