美文网首页
RDD、DataFrame、DataSet区别与使用

RDD、DataFrame、DataSet区别与使用

作者: 抬头挺胸才算活着 | 来源:发表于2021-12-23 23:09 被阅读0次

总结:

  • DataFrame比RDD多了结构信息Schema


  • DataFrame、DataSet有更友好的API

  • DataFrame有更高的性能
    DataFrame可以利用SparkSQL的优化器对一系列的操作进行优化。

  • DataSet比DataFrame获取数据的时候要更灵活,DataSet是强类型
    DataFrame只能用Row类的方法粗糙地获取各个属性

getString(0)  getAs[String]("name")   

DataSet可以直接跟使用对象一样获取属性

ds.rdd.map(_.name).collect
  • 三者的转化


参考资料:
Spark系列--SparkSQL(四)RDD、DataFrame、DataSet之间的转换

相关文章

网友评论

      本文标题:RDD、DataFrame、DataSet区别与使用

      本文链接:https://www.haomeiwen.com/subject/qjchqrtx.html