作者:我的生活我做主哦耶_266 | 来源:互联网 | 2023-02-08 20:59
如何在HDFS中将数据帧中的数据写入单个.parquet文件(单个文件中的数据和元数据)?
df.show() --> 2 rows
+------+--------------+----------------+
| name|favorite_color|favorite_numbers|
+------+--------------+----------------+
|Alyssa| null| [3, 9, 15, 20]| | Ben| red| []|
+------+--------------+----------------+
df.rdd.getNumPartitions()
-它有1个分区
>>> df.rdd.getNumPartitions()
1个
df.write.save("/user/hduser/data_check/test.parquet", format="parquet")
如果我使用上面的命令在HDFS中创建镶木地板文件,则它是在该目录"payloads.parquet"
中HDFS
和该目录中创建目录的多个.parquet
文件,元数据文件正在保存。
找到4项
-rw-r--r-- 3 bimodjoul biusers 0 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_SUCCESS
-rw-r--r-- 3 bimodjoul biusers 494 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_common_metadata
-rw-r--r-- 3 bimodjoul biusers 862 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_metadata
-rw-r--r-- 3 bimodjoul biusers 885 2017-03-15 06:47
/user/hduser/data_check/test.parquet/part-r-00000-f83a2ffd-38bb-4c76-9f4c-357e43d9708b.gz.parquet
如何将数据帧中的数据写入单个.parquet
文件(单个文件中的数据和元数据)HDFS
而不是包含多个文件的文件夹中?
帮助将不胜感激。