如何提高C++中的std::set_intersection性能？

作者：j酱油 | 来源：互联网 | 2022-11-15 11:43

如何解决《如何提高C++中的std::set_intersection性能？》经验，为你挑选了1个好方法。

在C ++中使用std :: set和Python中使用set（）进行实验期间，我遇到了无法解释的性能问题。在C ++中设置交集至少要比Python慢3倍。

因此，有人能指出我可以对C ++代码进行的优化和/或解释Python如何更快地做到这一点吗？

我希望他们都可以在set有序的情况下使用O（n）复杂度的相似算法。但是Python可能会做一些优化，以使其系数变小。

set_bench.cc

#include 
#include 
#include 
#include 
#include 
#include 
#include 

void elapsed(std::function f, const std::string& s)
{
    auto start = std::chrono::steady_clock::now();
    f();
    std::chrono::duration elapsed = std::chrono::steady_clock::now() - start;
    std::cout <
void fill_set(std::set& s, T start, T end, T step)
{
    for (T i = start; i 
void intersect(const std::set& s1, const std::set& s2, std::set& result)
{
    std::set_intersection(s1.begin(), s1.end(),
                            s2.begin(), s2.end(),
                            std::inserter(result, result.begin()));
}

int main()
{
    std::set s1;
    std::set s2;
    std::set s3;

    elapsed(std::bind(fill_set, std::ref(s1), 8, 1000*1000*100, 13), "fill s1 took");
    elapsed(std::bind(fill_set, std::ref(s2), 0, 1000*1000*100, 7), "fill s2 took");

    std::cout <<"s1 length = " <#!/usr/bin/env python3

import time

def elapsed(f, s):
    start = time.monotonic()
    f()
    elapsed = time.monotonic() - start
    print(f'{s} {elapsed} seconds')

def fill_set(s, start, end, step=1):
    for i in range(start, end, step):
        s.add(i)

def intersect(s1, s2, result):
    result.update(s1 & s2)

s1 = set()
s2 = set()

elapsed(lambda : fill_set(s1, 8, 1000*1000*100, 13), 'fill s1 took')
elapsed(lambda : fill_set(s2, 0, 1000*1000*100, 7), 'fill s2 took')

print(f's1 length = {len(s1)}, s2 length = {len(s2)}')


s3 = set()

elapsed(lambda: intersect(s1, s2, s3), 'intersect s1 and s2 took')

print(f's3 length = {len(s3)}')

# sleep to let check memory consumption
# while True: time.sleep(1)



这是在下一个环境中运行此程序的结果：


铛版本7.0.1
海湾合作委员会8.2.0
的Python 3.7.2
i7-7700 CPU @ 3.60 GHz


$ clang -lstdc++ -O0 set_bench.cc -o set_bench && ./set_bench
fill s1 took 5.38646 seconds
fill s2 took 10.5762 seconds
s1 length = 7692308, s2 length = 14285715
intersect s1 and s2 took 1.48387 seconds
s3 length = 1098901


$ clang -lstdc++ -O1 set_bench.cc -o set_bench && ./set_bench
fill s1 took 3.31435 seconds
fill s2 took 6.41415 seconds
s1 length = 7692308, s2 length = 14285715
intersect s1 and s2 took 1.01276 seconds
s3 length = 1098901


$ clang -lstdc++ -O2 set_bench.cc -o set_bench && ./set_bench
fill s1 took 1.90269 seconds
fill s2 took 3.85651 seconds
s1 length = 7692308, s2 length = 14285715
intersect s1 and s2 took 0.512727 seconds
s3 length = 1098901


$ clang -lstdc++ -O3 set_bench.cc -o set_bench && ./set_bench
fill s1 took 1.92473 seconds
fill s2 took 3.72621 seconds
s1 length = 7692308, s2 length = 14285715
intersect s1 and s2 took 0.523683 seconds
s3 length = 1098901


$ gcc -lstdc++ -O3 set_bench.cc -o set_bench && time ./set_bench
fill s1 took 1.72481 seconds
fill s2 took 3.3846 seconds
s1 length = 7692308, s2 length = 14285715
intersect s1 and s2 took 0.516702 seconds
s3 length = 1098901


$ python3.7 ./set_bench.py 
fill s1 took 0.9404696229612455 seconds
fill s2 took 1.082577683031559 seconds
s1 length = 7692308, s2 length = 14285715
intersect s1 and s2 took 0.17995300807524472 seconds
s3 length = 1098901


如您所见，结果是相等的，因此我假设两个程序都执行相同的计算。

顺便说一句-C ++程序的RSS是1084896 kB，Python的RSS是1590400 kB。


1> rustyx..：
这篇文章有两个问题：


  问：如何提高std::set_intersectionC ++的性能？


使用sorted std::vector而不是set，这对缓存更友好。由于相交是在单遍中按顺序完成的，因此它将尽可能快。在我的系统上，我的运行时间为0.04 s。如果这是您需要的，请在这里停止。


  问：... Python如何如此快地完成呢？


换句话说，“ 为什么Python的设置比C ++的设置快？ ”。在余下的文章中，我将重点讨论这个问题。

首先，Python set是一个哈希表，并且std::set是一个二叉树。因此，用于std::unordered_set将苹果与苹果进行比较（基于O（logN）查找复杂度，我们此时拒绝二叉树）。

还要注意，这std::set_intersection只是一个两指针算法；它遍历两个排序的集合，仅保留匹配的值。除了它的名称之外，它与Python的并没有什么共同之处set_intersection，它本身只是一个简单的循环：


遍历较小的哈希表
对于每个元素，如果它存在于另一个哈希表中，则将其添加到结果中


因此，我们不能std::set_intersection在未排序的数据上使用，而需要实现循环：

    for (auto& v : set1) {
        if (set2.find(v) != set2.end()) {
            result.insert(v);
        }
    }


这里没什么好看的。不幸的是，虽然这种算法上的直接应用std::unordered_set是仍然较慢通过的3倍。怎么可能呢？


我们观察到输入数据集的大小> 100MB。这无法容纳i7-7700的8MB缓存，这意味着您可以在8MB的边界内进行的工作越多，程序执行的速度就越快。

Python使用类似于PHP哈希表（通常是开放式寻址哈希表的类）的特殊形式的“密集哈希表”，而C ++ 通常是幼稚的或列表向量的哈希表。密集结构对缓存更友好，因此速度更快。有关实现的详细信息，请参见dictobject.c和setobject.c。std::unordered_set

对于std::hash要生成的已经独特的输入数据集，内置的C ++ 太复杂了。另一方面，Python使用标识（无操作）哈希函数来存储最大为2 ^30的整数（请参阅参考资料long_hash）。冲突由其哈希表实现中内置的LCG摊销。您无法将其与C ++标准库功能相匹配；不幸的是，此处的身份哈希将再次导致哈希表太稀疏。

Python使用自定义内存分配器pymalloc，它类似于jemalloc并针对数据局部性进行了优化。它通常比内置Linux tcmalloc更好，后者是C ++程序通常使用的。



有了这些知识，我们可以设计出性能类似的C ++版本，以证明技术可行性：

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

using namespace std::chrono_literals;

void elapsed(std::function f, const std::string& s)
{
    auto start = std::chrono::steady_clock::now();
    f();
    auto end = std::chrono::steady_clock::now();
    std::cout <
struct myhash {
    size_t operator()(T x) const {
        return x / 5; // cheating to improve data locality
    }
};

template 
using myset = std::unordered_set>;

template 
void fill_set(myset& s, T start, T end, T step)
{
    s.reserve((end - start) / step + 1);
    for (T i = start; i 
void intersect(const myset& s1, const myset& s2, myset& result)
{
    result.reserve(s1.size() / 4); // cheating to compete with a better memory allocator
    for (auto& v : s1)
    {
        if (s2.find(v) != s2.end())
            result.insert(v);
    }
}

int main()
{
    myset s1;
    myset s2;
    myset s3;

    elapsed(std::bind(fill_set, std::ref(s1), 8, 1000 * 1000 * 100, 13), "fill s1 took");
    elapsed(std::bind(fill_set, std::ref(s2), 0, 1000 * 1000 * 100, 7), "fill s2 took");

    std::cout <<"s1 length = " <fill s1 took 0.321397 seconds
fill s2 took 0.529518 seconds
s1 length = 7692308, s2 length = 14285714
intersect s1 and s2 took 0.0974416 seconds
s3 length = 1098901


还是比Python快2.8倍，同时保留了哈希集功能！



PS One会想-为什么C ++标准库实现如此慢的哈希表？非自由午餐定理也适用于此：基于探测的解决方案并不总是那么快。作为一种机会主义的解决方案，它有时会遭受“团块”（不断探查占用的空间）的困扰。当这种情况发生时，性能将成倍下降。标准库实现的思想是保证所有可能的输入具有可预测的性能。不幸的是，正如对钱德勒·卡鲁斯（Chandler Carruth）在演讲中解释的那样，尽管对现代硬件的缓存效果实在太大而无法忽略。




    
        
                        c++
                        hashtable
                        int
                        io
                        hash
                        python
                        算法
                        include
                        ios
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        go
                        计算机存储系统的层次结构及其优势
                    

                    
                                                
                            
                        
                                                
                        本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 17:32:41
                    

                

                
                                
                    
                        go
                        python创建一个窗口_等一个大佬啊 要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...
                    

                    
                                                
                        展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:26:09
                    

                

                                
                    
                    
                
                
                                
                    
                        go
                        浏览器中的异常检测算法及其在深度学习中的应用
                    

                    
                                                
                            
                        
                                                
                        本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 16:22:39
                    

                

                
                                
                    
                        java
                        wepy小顺序受权点击作废受权失利的计划
                    

                    
                                                
                        本文介绍了在wepy中运用小顺序页面受权的计划，包含了用户点击作废后的从新受权计划。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 11:09:24
                    

                

                
                                
                    
                        java
                        Android工程师面试准备及设计模式使用场景
                    

                    
                                                
                            
                        
                                                
                        本文介绍了Android工程师面试准备的经验，包括面试流程和重点准备内容。同时，还介绍了建造者模式的使用场景，以及在Android开发中的具体应用。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 18:25:26
                    

                

                
                                
                    
                        java
                        操作系统的定义和功能
                    

                    
                                                
                        本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 14:17:13
                    

                

                
                                
                    
                        java
                        golang源码分析调度概述
                    

                    
                                                
                            
                        
                                                
                        golang源码分析-调度过程概述本文主要概述一下golang的调度器的大概工作的流程，众所周知golang是基于用户态的协程的调度来完成多任务的执行。在Linux ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 15:14:10
                    

                

                
                                
                    
                        include
                        fasttext整体介绍
                    

                    
                                                
                        Word2vec,Fasttext,Glove,Elmo,Bert,Flairpre-trainWordEmbedding源码数据Github网址:词向量预训练实现Githubf ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 12:14:34
                    

                

                
                                
                    
                        include
                        开发笔记:题解 P1286 两数之和
                    

                    
                                                
                        本文由编程笔记#小编为大家整理，主要介绍了题解P1286两数之和相关的知识，希望对你有一定的参考价值。提供一个新思路这题,我们假设n个数分别为a1 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 10:46:51
                    

                

                
                                
                    
                        include
                        windows下使用makefile
                    

                    
                                                
                        1.      准备工作： 程序：MinGW-3.1.0-1.exe     windows下的gcc，编译c语言的工具下载地址：　http:umn.dl.sourceforge. ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 19:41:42
                    

                

                
                                
                    
                        include
                        虚拟化_深度：资源虚拟化
                    

                    
                                                
                            
                        
                                                
                        篇首语：本文由编程笔记#小编为大家整理，主要介绍了深度：资源虚拟化相关的知识，希望对你有一定的参考价值。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 19:04:56
                    

                

                
                                
                    
                        include
                        错误：使用未声明的标识符“vmaxq_f16”
                    

                    
                                                
                        每当我尝试使用NEON16位浮点内在函数时都会收到此错误。我没有遇到其他数据类型内在函数的任何问题。是否可以在Android上使用NEON16位浮点内在函数？ ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 12:58:35
                    

                

                
                                
                    
                        include
                        [置顶]        C++类的构造函数与析构函数的调用顺序
                    

                    
                                                
                            
                        
                                                
                        1构造函数的调用顺序[1]构造函数按此顺序执行工作：按声明顺序调用基类和成员构造函数。如果类派生自虚拟基类，则会将对象的虚拟基指针初始化。如果类具有或继承了虚函数，则会将对象的虚函数指针初始化。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-13 12:26:23
                    

                

                
                                
                    
                        include
                        如何将fucntion sumVec转换为模板函数 - How do I turn the fucntion sumVec into a template function
                    

                    
                                                
                        Igotthiscode(IknowitsinSpanishIcantranslateifneeded)wheretheygivemethefunctionS ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-13 11:43:08
                    

                

                
                                
                    
                        include
                        为什么c++语言的设计者一直使用关键字? - Why do the C++ language designers keep re-using keywords?
                    

                    
                                                
                        Whatisthemainargumentinfavorofre-usingshortkeywords(andaddingcontext-dependentmeanings ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-12 15:33:34

















    

    
        
            
            
                
                
            

            
                j酱油            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    future
                
                                
                    email
                
                                
                    less
                
                                
                    timestamp
                
                                
                    expression
                
                                
                    nodejs
                
                                
                    erlang
                
                                
                    request
                
                                
                    eval
                
                                
                    cmd
                
                                
                    bash
                
                                
                    callback
                
                                
                    utf-8
                
                                
                    input
                
                                
                    php
                
                                
                    java
                
                                
                    dll
                
                                
                    perl
                
                                
                    version
                
                                
                    node.js
                
                                
                    metadata
                
                                
                    datetime
                
                                
                    include
                
                                
                    merge
                
                                
                    require
                
                                
                    spring
                
                                
                    hashset
                
                                
                    shell
                
                                
                    post
                
                                
                    tags
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1MySQL的随机数、MySQ随机选取数据、MySQ随机查询数据、MySQ随机【MySQL】
                
                                
                    2SpringMVC笔记 不配置HandlerMapping
                
                                
                    3关于后端:927-三等分-一道模拟题
                
                                
                    4被覆_#yyds干货盘点#Object.assign的使用
                
                                
                    5搬水果 在一个果园里，小明已经将所有的水果打了下来，并按水果的不同种类分成了若干堆，小明决定把所有的水果合成一堆。每一次合并，小明可以把两堆水果合并到一起，消耗的体力等于两堆水果的重量之和。当然经过
                
                                
                    6php实现文本数据导入SQLSERVER_PHP教程
                
                                
                    7【优化算法】粒子群优化算法简介
                
                                
                    8匿名对像，，，内部类
                
                                
                    9Unity游戏开发中的人工智能编程
                
                                
                    10Linux断点方法,Linux：断点原理与实现
                
                                
                    11C语言设置变量对齐方法
                
                                
                    12java poi 替换word内容
                
                                
                    13过路费【Floyd】
                
                                
                    14pvmove: it's safe to kill and restart pvmove while data migration goes
                
                                
                    15golang unicode转utf8