热门标签 | HotTags
当前位置:  开发笔记 > 大数据 > 正文

Spark性能优化:重构RDD及RDD持久化

在写Spark的应用时,应该尽量避免这两种情况:1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这

在写 Spark 的应用时,应该尽量避免这两种情况:

1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。

2,出现公用的 RDD 时候不做持久化操作,比如:

RDD复用

RDD2 是会被复用的 RDD,默认情况下,第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2

然后用 RDD2 生成 RDD4 的时候,还会走一遍 HDFS -> RDD1 -> RDD2

这样就造成了重复计算。

针对上述的两种情况我们应该这样做:

1,能够在一个算子中操作完成的功能不用拆分到多个算子中去操作;

2,在要复用 RDD 的时候一定要对复用的那个 RDD 做持久化操作。


推荐阅读
author-avatar
ZJ1314520俊
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有