美文网首页
pyspark载入多个文件进行统计

pyspark载入多个文件进行统计

作者: BlueCat2016 | 来源:发表于2018-08-09 17:08 被阅读0次

有时候需要对命名没有规律的多个文件合并进行统计,如下面工程目录中,需要对csv目录下的csv1和csv2下面的所有txt文件统计总行数:


image.png

程序可以这样写:

# coding= utf8

from pyspark import SparkContext

sc = SparkContext(appName="test1")
# sc.setLogLevel("ERROR")
sc.setLogLevel("INFO")
rdd = sc.textFile('../csv/csv1/*,../csv/csv2/*')
# rdd = sc.textFile('../csv/csv1/*')
print(rdd.count())

千万要注意,下面这一行,引号里面的文件路径之间,不能有空格,否则会报错!

rdd = sc.textFile('../csv/csv1/*,../csv/csv2/*')

相关文章

网友评论

      本文标题:pyspark载入多个文件进行统计

      本文链接:https://www.haomeiwen.com/subject/alecbftx.html