问

在Apache Spark中指定输出文件名

大叔丶你好哇塞发布于 2022-12-28 13:46

mapreduce

我有一个MapReduce作业,我正在尝试迁移到PySpark.有没有办法定义输出文件的名称,而不是获取part-xxxxx？

在MR中,我正在使用org.apache.hadoop.mapred.lib.MultipleTextOutputFormat该类来实现这一目标,

PS:我确实试过这个saveAsTextFile()方法.例如:

lines = sc.textFile(filesToProcessStr)
counts = lines.flatMap(lambda x: re.split('[\s&]', x.strip()))\
.saveAsTextFile("/user/itsjeevs/mymr-output")

这将创建相同的part-0000文件.

[13:46:25] [spark] $ hadoop fs -ls /user/itsjeevs/mymr-output/
Found 3 items
-rw-r-----   2 itsjeevs itsjeevs          0 2014-08-13 13:46 /user/itsjeevs/mymr-output/_SUCCESS
-rw-r--r--   2 itsjeevs itsjeevs  101819636 2014-08-13 13:46 /user/itsjeevs/mymr-output/part-00000
-rw-r--r--   2 itsjeevs itsjeevs   17682682 2014-08-13 13:46 /user/itsjeevs/mymr-output/part-00001

编辑

最近阅读了文章,这将使Spark用户的生活更加轻松.

撰写答案

今天，你开发时遇到什么问题呢？

立即提问

热门标签