背景就是spark处理了数据,获取了rdd文本文件,我再去读区rdd文件。
在此做一个记录,只要思想不滑坡,道路总比困难多。
1. 原始读取
原始读区rdd的文本文件,但是rdd的文本文件格式解析有些麻烦,虽然可以正确解析,但总感觉不太完善。
所以我首先去寻找,在存储的时候,有没有更好地存储方式,结果发现rdd存的时候,存textfile是最好的方式。
没办法了,那我考虑在读取的时候,能不能使用spark原生的读取方式,结果发现有些麻烦。
2. 格式化
突然想到,在spark里面,rdd和dataframe是可以互相转化的,dataframe是可以直接存成csv格式,这样就可以了。
dataframe = spark.createDataFrame(step2, schema=['article_type', 'pub_time', 'created_at'])
dataframe.write.csv(path=outpath, header=True, sep="\t", mode='overwrite')








网友评论