美文网首页
spark输出文件读取

spark输出文件读取

作者: 云彩修建站站长 | 来源:发表于2021-05-05 16:59 被阅读0次

背景就是spark处理了数据,获取了rdd文本文件,我再去读区rdd文件。
在此做一个记录,只要思想不滑坡,道路总比困难多。

1. 原始读取

原始读区rdd的文本文件,但是rdd的文本文件格式解析有些麻烦,虽然可以正确解析,但总感觉不太完善。
所以我首先去寻找,在存储的时候,有没有更好地存储方式,结果发现rdd存的时候,存textfile是最好的方式。
没办法了,那我考虑在读取的时候,能不能使用spark原生的读取方式,结果发现有些麻烦。

2. 格式化

突然想到,在spark里面,rdd和dataframe是可以互相转化的,dataframe是可以直接存成csv格式,这样就可以了。

    dataframe = spark.createDataFrame(step2, schema=['article_type', 'pub_time', 'created_at'])
    dataframe.write.csv(path=outpath, header=True, sep="\t", mode='overwrite')

相关文章

网友评论

      本文标题:spark输出文件读取

      本文链接:https://www.haomeiwen.com/subject/inxldltx.html