作者:流浪1种无奈 | 来源:互联网 | 2023-02-05 07:34
我想使用Apache的parquet-mr项目以Java编程方式读/写Parquet文件.我似乎无法找到有关如何使用此API的任何文档(除了浏览源代码并查看它是如何使用的) - 只是想知道是否存在任何此类文档?
1> padmalcom..:
我写了一篇关于阅读镶木地板文件的博客文章(http://www.jofre.de/?p=1459),并提出了以下能够读取INT96字段的解决方案.
您需要以下maven依赖项:
org.apache.parquet
parquet-hadoop
1.9.0
org.apache.hadoop
hadoop-common
2.7.0
代码基本上是:
public class Main {
private static Path path = new Path("file:\\C:\\Users\\file.snappy.parquet");
private static void printGroup(Group g) {
int fieldCount = g.getType().getFieldCount();
for (int field = 0; field recordReader = columnIO.getRecordReader(pages, new GroupRecordConverter(schema));
for (int i = 0; i