总结:
-
DataFrame比RDD多了结构信息Schema
-
DataFrame、DataSet有更友好的API
-
DataFrame有更高的性能
DataFrame可以利用SparkSQL的优化器对一系列的操作进行优化。 -
DataSet比DataFrame获取数据的时候要更灵活,DataSet是强类型
DataFrame只能用Row类的方法粗糙地获取各个属性
getString(0) getAs[String]("name")
DataSet可以直接跟使用对象一样获取属性
ds.rdd.map(_.name).collect
-
三者的转化













网友评论