当前位置: 开发笔记 > 编程语言 > 正文

Spark读写parquet

作者：码农 | 来源：互联网 | 2023-10-13 10:32

Spark的parquet介绍列式存储布局可加速查询，只检查需要的列并对执行计算，也就是只读取一个数据文件或表的小部分数据。Parquet支持灵活的压

Spark的parquet介绍

列式存储布局可加速查询&＃xff0c;只检查需要的列并对执行计算&＃xff0c;也就是只读取一个数据文件或表的小部分数据。
Parquet 支持灵活的压缩选项&＃xff0c;可以显著减少磁盘上的存储。
转换需要时间&＃xff0c;时间长了一些。
查询性能的提升在某些情况下可能达到 30 倍或更高&＃xff0c;存储的节省可高达 75%。

如果在 HDFS 上拥有基于文本的数据文件或表&＃xff0c;而且正在使用 Spark SQL 对它们执行查询&＃xff0c;那么强烈推荐将文本数据文件转换为 Parquet 数据文件&＃xff0c;以实现性能和存储收益。

1. 读取parquet

dtParquet &＃61; spark.read.parquet("sp路径") dtParquet.show(5)

可以直接read一个parquet文件&＃xff0c;就转成了dataframe。因为parquet文件里有比较丰富的信息&＃xff0c;不像普通的文件。所以推荐是把其他文件的格式&＃xff0c;清洗后转换成parquet数据格式。

2. 转成 parquet 文件再读

# SAMPLE 10% OF DATA, SPLIT INTO TRAIINING AND VALIDATION AND SAVE IN BLOB dfSampled &＃61; df.sample(False, 0.1, seed&＃61;123) dfSampled.repartition(10).write.mode("overwrite").parquet("sp路径") dtParquet &＃61; spark.read.parquet("sp路径") dtParquet.show(5)

参考&＃xff1a;spark 读取parquet

推荐阅读

int
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
case
SQL 字符串处理函数用法

点此学习更多SQL相关函数与字符串处理函数mysql函数一、简明总结ASCII(char)　　　　　　　　返回字符的ASCII码值BIT_LENGTH(str)　　　　　　返回字 ... [详细]

蜡笔小新 2023-10-15 19:44:39
int
MySQL千万级数据的大表优化解决方案【mysql特性】

mysql数据库中的表数据量几千万后，查询速度会很慢，日常各种卡慢，严重影响使用体验。在考虑升级数据库或者换用大数据解决方案前，必须优化现有mysql数据库 ... [详细]

蜡笔小新 2023-10-15 10:11:16
int
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
int
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
schema
Oracle seg,V$TEMPSEG_USAGE与Oracle排序的关系及使用方法

本文介绍了Oracle seg,V$TEMPSEG_USAGE与Oracle排序之间的关系，V$TEMPSEG_USAGE是V_$SORT_USAGE的同义词，通过查询dba_objects和dba_synonyms视图可以了解到它们的详细信息。同时，还探讨了V$TEMPSEG_USAGE的使用方法。 ... [详细]

蜡笔小新 2023-12-12 17:57:15
int
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
int
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
testing
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
testing
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
int
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
int
Flink使用java实现读取csv文件简单实例

Flink使用java实现读取csv文件简单实例首先我们来看官方文档中给出的几种方法：首先我们来看官方文档中给出的几种方法：第一种：Da ... [详细]

蜡笔小新 2023-10-17 10:21:46
tree
mapbox矢量切片标准_下载python3中的mapbox向量切片,矢量

python3下载mapbox矢量切片通过观察mapbox的页面开发者工具里的network可以发现，打开矢量切片和字体切片pbf和prite图标的链接， ... [详细]

蜡笔小新 2023-10-16 21:46:42
int
MySQL 数据库基础学习一、SQL的作用及分类二、数据类型三、存储引擎（建库建表、数据插入等））

MySQL 数据库基础学习一、SQL的作用及分类二、数据类型三、存储引擎（建库建表、数据插入等）） ... [详细]

蜡笔小新 2023-10-16 10:46:15
int
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30

码农

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章