作者:手机用户2502900835 | 来源:互联网 | 2022-12-08 10:51
检查点版本:
val savePath = "/some/path"
spark.sparkContext.setCheckpointDir(savePath)
df.checkpoint()
写入磁盘版本:
df.write.parquet(savePath)
val df = spark.read.parquet(savePath)
我认为两者都以同样的方式打破了血统.
在我的实验中,检查点在磁盘上比镶木地板大约30(689GB对24GB).在运行时间方面,检查点需要1.5倍(10.5分钟对7.5分钟).
考虑到这一切,使用检查点而不是保存到文件有什么意义?我错过了什么吗?