有时候需要对命名没有规律的多个文件合并进行统计,如下面工程目录中,需要对csv目录下的csv1和csv2下面的所有txt文件统计总行数:
image.png
程序可以这样写:
# coding= utf8
from pyspark import SparkContext
sc = SparkContext(appName="test1")
# sc.setLogLevel("ERROR")
sc.setLogLevel("INFO")
rdd = sc.textFile('../csv/csv1/*,../csv/csv2/*')
# rdd = sc.textFile('../csv/csv1/*')
print(rdd.count())
千万要注意,下面这一行,引号里面的文件路径之间,不能有空格,否则会报错!
rdd = sc.textFile('../csv/csv1/*,../csv/csv2/*')







网友评论