问

在Spark的RDD中更新值的有效方法是什么？

少伶围脖发布于 2023-01-10 10:53

我在写一个图形相关的程序Scala用Spark.数据集有400万个节点和400万个边缘(你可以将它视为一棵树),但是每次(a Iteration),我只编辑它的一部分,即由给定节点生根的子树和节点在给定节点和根之间的路径中.

该Iteration有依赖,这意味着i+1 Iteration需求的结果来自何处i.所以我需要将每个结果存储到Iteration下一步.

我试图找到一种有效的更新方法RDD,但到目前为止还没有任何线索.我发现PairRDD有一个lookup函数可以将计算时间减少O(N)到O(M),N表示对象的总数RDD并M表示数量每个分区中的元素.

所以我想反正有我可以更新的对象RDD有O(M)？或者更理想的是,O(1)？(我在Spark的邮件列表中看到一封电子邮件说lookup可以修改以实现O(1))

另一件事是,如果我可以实现O(M)更新RDD,我可以将分区增加到比我拥有的内核数量更大的数量并获得更好的性能吗？

1 个回答

撰写答案

今天，你开发时遇到什么问题呢？

热门标签