美文网首页工作生活
Spark RDD的checkpoint机制

Spark RDD的checkpoint机制

作者: 不愿透露姓名的李某某 | 来源:发表于2019-07-04 22:31 被阅读0次

1.什么时候使用checkpoint

(1)迭代计算,要求保证数据安全

(2)对速度要求不高(跟cache进行对比)

(3)将中间结果保存到hdfs

//设置checkpoint目录(分布式文件系统目录hdfs目录)

//经过复杂计算,得到计算结果

//将中间结果checkpoint到指定的hdfs目录中

//后续的计算,就可以使用前面指定的数据了

checkpoint流程 指定后的文件保存路径

注:该方法既没有生成新的RDD,也没有触发任务执行,只会标记以后触发Action时会将数据保存到对应的文件路径中

相关文章

网友评论

    本文标题:Spark RDD的checkpoint机制

    本文链接:https://www.haomeiwen.com/subject/ouvdhctx.html