从hdfs读取ocr文件后,令人难以置信的火花数据帧

作者：最好的冰雪之母_227 | 来源：互联网 | 2023-01-29 18:15

如何解决《从hdfs读取ocr文件后,令人难以置信的火花数据帧》经验，需要怎么解决？

我在使用Ambari上的spark 2.1.1和hadoop 2.6时遇到了问题.我首先在本地计算机上测试了我的代码(单节点,本地文件),一切都按预期工作:

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .master('yarn')\
    .appName('localTest')\
    .getOrCreate()

data = spark.read.format('orc').load('mydata/*.orc')
data.select('colname').na.drop().describe(['colname']).show()

+-------+------------------+
|summary| colname          |
+-------+------------------+
|  count|           1688264|
|   mean|17.963293650793652|
| stddev|5.9136724822401425|
|    min|               0.5|
|    max|              87.5|
+-------+------------------+



这些价值观似乎是合理的.

现在我将我的数据上传到hadoop集群(ambari setup,yarn,11个节点)并将其推送到hdfs使用 hadoop fs -put /home/username/mydata /mydata 

现在我测试了与下表结尾的相同代码:

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .master('yarn')\
    .appName('localTest')\
    .getOrCreate()

data = spark.read.format('orc').load('hdfs:///mydata/*.orc')
data.select('colname').na.drop().describe(['colname']).show()

+-------+------------------+
|summary| colname          |
+-------+------------------+
|  count|           2246009|
|   mean|1525.5387403802445|
| stddev|16250.611372902456|
|    min|         -413050.0|
|    max|       1.6385821E7|
+-------+------------------+


但另一件事是完全地困惑我- >如果我改变mydata/*.orc到mydata/any_single_file.orc和hdfs:///mydata/*.orc到hdfs:///mydata/any_single_file.orc两个表(集群,本地PC)都是一样的...

有没有人更多地了解这种奇怪的行为？

非常感谢!




    
        
                        hadoop
                        hdfs
                        yarn
                        ocr
                        文件
                        apache
                        spark
                        ambari
                        sql
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        get
                        大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
                    

                    
                                                
                            
                        
                                                
                        本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-10 11:44:06
                    

                

                
                                
                    
                        get
                        探索MLlib机器学习
                    

                    
                                                
                            
                        
                                                
                        公众号后台回复关键词：pyspark，获取本项目github地址。MLlib是Spark的机器学习库，包括以下主要功能。实用工具ÿ ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-14 16:50:50
                    

                

                                
                    
                    
                
                
                                
                    
                        get
                        使用 Ubuntu 中的 Python 获取浏览器历史记录
                    

                    
                                                
                        使用Ubuntu中的Python获取浏览器历史记录原文: ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 08:57:59
                    

                

                
                                
                    
                        random
                        sklearn数据集库中的常用数据集类型介绍
                    

                    
                                                
                            
                        
                                                
                        本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 17:45:15
                    

                

                
                                
                    
                        char
                        sqoop自定义分隔符的实现方法及步骤详解
                    

                    
                                                
                        本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-10 11:29:22
                    

                

                
                                
                    
                        io
                        如何在mysql shell命令中执行sql命令行
                    

                    
                                                
                        如何在mysqlshell命令中执行sql命令行本文介绍MySQL8.0shell子模块Util的两个导入特性importTableimport_table(JS和python版本 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 08:53:00
                    

                

                
                                
                    
                        php
                        《Spark核心技术与高级应用》——1.2节Spark的重要扩展
                    

                    
                                                
                            
                        
                                                
                        本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 18:07:56
                    

                

                
                                
                    
                        php
                        每天收获一点点Hadoop概述
                    

                    
                                                
                        一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 18:58:01
                    

                

                
                                
                    
                        random
                        YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
                    

                    
                                                
                            
                        
                                                
                        本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 18:28:01
                    

                

                
                                
                    
                        php
                        SQL日志收缩及截断方法详解
                    

                    
                                                
                        本文详细介绍了SQL日志收缩的方法，包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时，还介绍了截断日志的原理和注意事项，包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法，可以有效减小逻辑日志的大小，提高数据库的性能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 18:23:25
                    

                

                
                                
                    
                        require
                        Spring源码解密之默认标签的解析方式分析
                    

                    
                                                
                            
                        
                                                
                        本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 17:24:50
                    

                

                
                                
                    
                        php
                        Hibernate基础映射
                    

                    
                                                
                        在说Hibernate映射前，我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象，以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 10:57:47
                    

                

                
                                
                    
                        require
                        baresip android编译、运行教程1语音通话
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 10:53:48
                    

                

                
                                
                    
                        yaml
                        基于 Docker 快速部署多需求 Spark 自动化测试环境
                    

                    
                                                
                        基于,docker,快速,部署,多,需求,spark ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 11:58:06
                    

                

                
                                
                    
                        get
                        调用百度ocr的API，python简易版本
                    

                    
                                                
                            
                        
                                                
                        https:www.jianshu.compe10dc43c38d01.注册百度云注册账号https:cloud.baidu.com?fromconsole管理应用https:co ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-14 16:49:13

















    

    
        
            
            
                
                
            

            
                最好的冰雪之母_227            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    io
                
                                
                    java
                
                                
                    iostream
                
                                
                    vba
                
                                
                    include
                
                                
                    cPlusPlus
                
                                
                    less
                
                                
                    plugins
                
                                
                    vbscript
                
                                
                    netty
                
                                
                    actionscrip
                
                                
                    function
                
                                
                    window
                
                                
                    regex
                
                                
                    web3
                
                                
                    metadata
                
                                
                    request
                
                                
                    heap
                
                                
                    datetime
                
                                
                    get
                
                                
                    bash
                
                                
                    cSharp
                
                                
                    random
                
                                
                    php
                
                                
                    merge
                
                                
                    jar
                
                                
                    header
                
                                
                    char
                
                                
                    require
                
                                
                    yaml
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1借楼问一个电脑网络的问题
                
                                
                    2过多边形边上某点的任意直线等分面积
                
                                
                    3地下车库设计说明
                
                                
                    4游戏怎么清缓存？电脑中LOL更新留下的缓存垃圾删除的教程
                
                                
                    5【k8s】正确的删除pod
                
                                
                    6拆解交易系统服务高可用
                
                                
                    7Touch HD全面剖析
                
                                
                    8navicat如何导出查询的结果数据
                
                                
                    9固态硬盘怎么安装？:集成nvme驱动的win7
                
                                
                    10oracle数据库电子书大全 下载
                
                                
                    11苹果手机怎么备份电话号码？如何导出iPhone通讯录？
                
                                
                    12EJB JBOSS的安装
                
                                
                    132017数字营销的趋势与挑战
                
                                
                    14u盘去掉写保护
                
                                
                    15饭后可以打胰岛素吗，为什么？