在SparkML中，为什么在具有百万个不同值的列上拟合StringIndexer会产生OOM错误？

作者：阿思翠 | 来源：互联网 | 2022-12-06 18:22

如何解决《在SparkML中，为什么在具有百万个不同值的列上拟合StringIndexer会产生OOM错误？》经验，您有什么比较好的解决方法？

我正在尝试在具有约15.000.000唯一字符串值的列上使用Spark的StringIndexer功能转换器。无论我投入多少资源，Spark都会因内存不足异常而死在我身上。

from pyspark.ml.feature import StringIndexer

data = spark.read.parquet("s3://example/data-raw").select("user", "count")

user_indexer = StringIndexer(inputCol="user", outputCol="user_idx")

indexer_model = user_indexer.fit(data) # This never finishes

indexer_model \
    .transform(data) \
    .write.parquet("s3://example/data-indexed")



驱动程序上会生成一个错误文件，其开头如下所示：

#
# There is insufficient memory for the Java Runtime Environment to continue.
# Native memory allocation (mmap) failed to map 268435456 bytes for committing reserved memory.
# Possible reasons:
#   The system is out of physical RAM or swap space
#   In 32 bit mode, the process size limit was hit
# Possible solutions:
#   Reduce memory load on the system
#   Increase physical memory or swap space
#   Check if swap backing store is full
#   Use 64 bit Java on a 64 bit OS
#   Decrease Java heap size (-Xmx/-Xms)
#   Decrease number of Java threads
#   Decrease Java thread stack sizes (-Xss)
#   Set larger code cache with -XX:ReservedCodeCacheSize=
# This output file may be truncated or incomplete.
#
#  Out of Memory Error (os_linux.cpp:2657)


现在，如果我尝试手动索引值并将它们存储在数据框中，则一切工作都像魅力一样，都在几个Amazon c3.2xlarge工作人员上进行。

from pyspark.sql.functions import row_number
from pyspark.sql.window import Window

data = spark.read.parquet("s3://example/data-raw").select("user", "count")

uid_map = data \
    .select("user") \
    .distinct() \
    .select("user", row_number().over(Window.orderBy("user")).alias("user_idx"))

data.join(uid_map, "user", "inner").write.parquet("s3://example/data-indexed")


我真的很想使用Spark提供的正式转换器，但是目前看来这是不可能的。关于如何进行这项工作的任何想法？




    
        
                        spark
                        string
                        apache
                        import
                        select
                        input
                        transform
                        文件
                        ci
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        case
                        Spark实现高斯朴素贝叶斯模型的低配版
                    

                    
                                                
                        本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-10 21:42:37
                    

                

                
                                
                    
                        spring
                        Java如何导入和导出Excel文件的方法和步骤详解
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了在SpringBoot中使用Java导入和导出Excel文件的方法和步骤，包括添加操作Excel的依赖、自定义注解等。文章还提供了示例代码，并将代码上传至GitHub供访问。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 20:27:00
                    

                

                                
                    
                    
                
                
                                
                    
                        case
                        go channel 缓冲区最大限制_Golang学习笔记之并发.协程(Goroutine)、信道(Channel)
                    

                    
                                                
                            
                        
                                                
                        原文作者：学生黄哲来源：简书Go是并发语言，而不是并行语言。一、并发和并行的区别•并发(concurrency)是指一次处理大量事情的能力 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 11:15:01
                    

                

                
                                
                    
                        metadata
                        开发笔记:Spark Java API 之 CountVectorizer
                    

                    
                                                
                            
                        
                                                
                        篇首语：本文由编程笔记#小编为大家整理，主要介绍了SparkJavaAPI之CountVectorizer相关的知识，希望对你有一定的参考价值。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 16:53:30
                    

                

                
                                
                    
                        spring
                        Spring源码解密之默认标签的解析方式分析
                    

                    
                                                
                            
                        
                                                
                        本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 17:24:50
                    

                

                
                                
                    
                        case
                        如何在有序字符序列中插入新字符并保持有序
                    

                    
                                                
                        本文介绍了如何在给定的有序字符序列中插入新字符，并保持序列的有序性。通过示例代码演示了插入过程，以及插入后的字符序列。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 11:16:33
                    

                

                
                                
                    
                        bit
                        无损压缩算法专题——LZSS算法实现
                    

                    
                                                
                            
                        
                                                
                        本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 19:47:31
                    

                

                
                                
                    
                        tags
                        scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决
                    

                    
                                                
                        怀疑是每次都在新建文件，具体代码如下 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 17:53:49
                    

                

                
                                
                    
                        grid
                        不同优化算法的比较分析及实验验证
                    

                    
                                                
                            
                        
                                                
                        本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:05:14
                    

                

                
                                
                    
                        window
                        解决github访问慢的问题的方法集锦
                    

                    
                                                
                            
                        
                                                
                        本文总结了国内用户在访问github网站时可能遇到的加载慢的问题，并提供了解决方法，其中包括修改hosts文件来加速访问。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 20:38:46
                    

                

                
                                
                    
                        window
                        FormData上传文件同时附带其他参数的方法
                    

                    
                                                
                        本文介绍了使用FormData对象上传文件同时附带其他参数的方法。通过创建一个表单，将文件和参数添加到FormData对象中，然后使用ajax发送POST请求进行文件上传。在发送请求时，需要设置processData为false，告诉jquery不要处理发送的数据；同时设置contentType为false，告诉jquery不要设置content-Type请求头。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 19:51:18
                    

                

                
                                
                    
                        string
                        Java调用Windows下某些程序的方法及注意事项
                    

                    
                                                
                        本文介绍了Java调用Windows下某些程序的方法，包括调用可执行程序和批处理命令。针对Java不支持直接调用批处理文件的问题，提供了一种将批处理文件转换为可执行文件的解决方案。介绍了使用Quick Batch File Compiler将批处理脚本编译为EXE文件，并通过Java调用可执行文件的方法。详细介绍了编译和反编译的步骤，以及调用方法的示例代码。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 08:09:17
                    

                

                
                                
                    
                        string
                        Tomcat安装与配置教程及常见问题解决方法
                    

                    
                                                
                            
                        
                                                
                        本文介绍了Tomcat的安装与配置教程，包括jdk版本的选择、域名解析、war文件的部署和访问、常见问题的解决方法等。其中涉及到的问题包括403问题、数据库连接问题、1130错误、2003错误、Java Runtime版本不兼容问题以及502错误等。最后还提到了项目的前后端连接代码的配置。通过本文的指导，读者可以顺利完成Tomcat的安装与配置，并解决常见的问题。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 07:28:32
                    

                

                
                                
                    
                        string
                        Annotation的大材小用
                    

                    
                                                
                            
                        
                                                
                        为什么80%的码农都做不了架构师？最近在开发一些通用的excel数据导入的功能，由于涉及到导入的模块很多，所以开发了一个比较通用的e ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 19:43:18
                    

                

                
                                
                    
                        client
                        com.amazonaws.services.autoscaling.AmazonAutoScaling.describeAutoScalingGroups()方法的使用及代码示例
                    

                    
                                                
                        本文整理了Java中com.amazonaws.services.autoscaling.AmazonAutoScaling.describeAutoScalingGroups() ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 17:18:49

















    

    
        
            
            
                
                
            

            
                阿思翠            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    string
                
                                
                    client
                
                                
                    settings
                
                                
                    solr
                
                                
                    tree
                
                                
                    object
                
                                
                    netty
                
                                
                    audio
                
                                
                    window
                
                                
                    jar
                
                                
                    tags
                
                                
                    php5
                
                                
                    grid
                
                                
                    uml
                
                                
                    python3
                
                                
                    dockerfile
                
                                
                    fetch
                
                                
                    metadata
                
                                
                    keyword
                
                                
                    const
                
                                
                    ascii
                
                                
                    express
                
                                
                    integer
                
                                
                    spring
                
                                
                    buffer
                
                                
                    php8
                
                                
                    vba
                
                                
                    bit
                
                                
                    case
                
                                
                    random
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1SQL Server中的自增长
                
                                
                    2第四节 用户驱动攻击（利用一些模块）
                
                                
                    3mysql4.0.20 use on scounix 5.0.7 error :dynamic linker:..:could not open libgthreads.so help!!!!
                
                                
                    41分钟告诉你cad版本转换器怎么用
                
                                
                    5win10开机蓝屏_电脑蓝屏怎么办？不要盲目解决，针对性解决才最有效
                
                                
                    6Meta成为中国资本的＂宠儿＂ 产品有多牛？
                
                                
                    7全站用的angular，但是像下面描述的这样强交互的功能用angular该用什么思路去做呢？
                
                                
                    8为什么TCP 会粘包断包UDP不会
                
                                
                    9虚拟同步机(VSG)matlab/simulink控制仿真
                
                                
                    10分布式容错架构小白篇
                
                                
                    11我急要个CUTEFTP破解版 有的朋友请给个 谢谢
                
                                
                    12DIY：利用单片机自制的RGB拖尾流水灯，含电路图、源代码、演示视频、效果图
                
                                
                    13基于ai的智能切片管理和协同_云边协同加速AI新基建，百度智能云TechDay秀出边缘计算硬实力...
                
                                
                    14Win7专业版如何设置离线下载
                
                                
                    15360企业安全集团新团队亮相，发布政企安全服务体系