美文网首页Spark
pyspark rdd api : parallelize()、

pyspark rdd api : parallelize()、

作者: emm_simon | 来源:发表于2019-07-10 15:37 被阅读0次

parallelize()函数将一个List列表转化为了一个RDD对象,
collect()函数将这个RDD对象转化为了一个List列表。

parallelize()函数的第二个参数表示分区,默认是1,此处为2,表示将列表对应的RDD对象分为两个区。

后面的glom()函数就是要显示出RDD对象的分区情况,可以看出分了两个区,如果没有glom()函数,则不显示分区,如第一个结果所示。

python2

>>> import pyspark
>>> L = [1, 2, 3, 4, 5]
>>> conf = pyspark.SparkConf()
>>> sc = pyspark.SparkContext(conf=conf)
>>> old = sc.parallelize(L, 2)  # 将List转化为RDD对象,RDD对象分为2个区
>>> print old.collect()  # 将这个RDD对象转化为了一个List列表
[1, 2, 3, 4, 5]
>>> print old.glom().collect()  # glom()用于显示出RDD对象的分区情况
[[1, 2], [3, 4, 5]]

相关文章

网友评论

    本文标题:pyspark rdd api : parallelize()、

    本文链接:https://www.haomeiwen.com/subject/oiddkctx.html