美文网首页
pyspark上保存成hdfs文件的几种方式:

pyspark上保存成hdfs文件的几种方式:

作者: 轻菊不爱柠檬 | 来源:发表于2020-08-11 14:01 被阅读0次

1.当我的数据是rdd格式的

rdd.saveAsTextFile('path_name')

或者:

rdd.repartition(1).saveAsTextFile('path_name')  #表示将数据拉到一个分区,emmmm话说我一直不知道为什么要拉到一个分区,这样不会导致某个内存爆掉嘛

2.当我的数据是pyspark的dataframe(直接hiveContext(sc).sql(slect语句))出来的就是这这种类型

df.coalesce(1).write.csv('path_name')     #df.coalesce(1)表示合并成一个csv

q其他的日后补充~~        

相关文章

网友评论

      本文标题:pyspark上保存成hdfs文件的几种方式:

      本文链接:https://www.haomeiwen.com/subject/lmzedktx.html