pyspark rdd api : parallelize()、

作者: emm_simon | 来源:发表于2019-07-10 15:37 被阅读0次

CS190 Scalable Machine Learning
PySpark RDD
pyspark.RDD
Python 操作Spark —— 基本使用
spark之rdd
RDD or DF获取分区编号和数据
pyspark学习笔记（二）
PySpark中RDD与DataFrame
Spark 学习笔记（一）-RDD编程
PySpark初见

parallelize()函数将一个List列表转化为了一个RDD对象，
collect()函数将这个RDD对象转化为了一个List列表。

parallelize()函数的第二个参数表示分区，默认是1，此处为2，表示将列表对应的RDD对象分为两个区。

后面的glom()函数就是要显示出RDD对象的分区情况，可以看出分了两个区，如果没有glom()函数，则不显示分区，如第一个结果所示。

python2

>>> import pyspark
>>> L = [1, 2, 3, 4, 5]
>>> conf = pyspark.SparkConf()
>>> sc = pyspark.SparkContext(conf=conf)
>>> old = sc.parallelize(L, 2)  # 将List转化为RDD对象，RDD对象分为2个区
>>> print old.collect()  # 将这个RDD对象转化为了一个List列表
[1, 2, 3, 4, 5]
>>> print old.glom().collect()  # glom()用于显示出RDD对象的分区情况
[[1, 2], [3, 4, 5]]

网友评论

Spark

本文标题：pyspark rdd api : parallelize()、

本文链接：https://www.haomeiwen.com/subject/oiddkctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

pyspark rdd api : parallelize()、

相关文章

CS190 Scalable Machine Learning

PySpark RDD

pyspark.RDD

Python 操作Spark —— 基本使用

spark之rdd

RDD or DF获取分区编号和数据

pyspark学习笔记（二）

PySpark中RDD与DataFrame

Spark 学习笔记（一）-RDD编程

PySpark初见

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Spark