作者:大布丁 | 来源:互联网 | 2022-12-08 13:43
我正在尝试使用数据集API设计输入管道。我正在处理镶木地板文件。将它们添加到我的管道的好方法是什么?
1> Yevgeni Litv..:
我们发布了Petastorm,这是一个开放源代码库,可让您直接通过Tensorflow Dataset API使用Apache Parquet文件。
这是一个小例子:
with Reader('hdfs://.../some/hdfs/path') as reader:
dataset = make_petastorm_dataset(reader)
iterator = dataset.make_one_shot_iterator()
tensor = iterator.get_next()
with tf.Session() as sess:
sample = sess.run(tensor)
print(sample.id)