Spark中的的sortBy排序（方法与算子的不同）

Spark中的的sortBy排序（方法与算子的不同）

作者: 大空翼123 | 来源:发表于2021-12-03 08:40 被阅读0次

Spark中的的sortBy排序（方法与算子的不同）
spark-sortBy算子
2021-07-01记录
【Spark Java API】Action(4)—sortBy
数组方法-sort()、toString()、eval()
kotlin 集合内元素比较
JavaScript sort() 方法
sort() 数组的元素进行排序的方法
【Spark】RDD操作详解1——Transformation和
underscore.js

Scala中有排序函数

（1）sorted

对一个集合进行自然排序，通过传递隐式的Ordering

（2）sortBy

对一个属性或多个属性进行排序，通过它的类型。

（3）sortWith

基于函数的排序，通过一个comparator函数，实现自定义排序的逻辑。

Scala中有对Value的排序算子 sortBy

1）函数签名：

def sortBy[K]( f: (T) => K,

ascending: Boolean = true, // 默认为正序排列，从小到大,false:倒序

numPartitions: Int = this.partitions.length)

(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

返回值是T，数字不会变

2）功能说明

该操作用于排序数据。在排序之前，可以将数据通过f函数进行处理，之后按照f函数处理的结果进行排序，默认为正序排列。排序后新产生的RDD的分区数与原RDD的分区数一致。

3）需求说明：创建一个RDD，按照数字大小分别实现正序和倒序排序

两个sortby在Spark编程中的应用

若一个Rdd的Vaule类型为 Iterable，需要将其转为List在采用scala的sortby方法或者sortWith

groupRDD: RDD[(String, Iterable[(String, Int)])]

eg:对groupRdd每个key的value从大到小取前三位,此处采用MapValues对Value进行操作

将 Iterable转为List再使用sortBy或者sortWith方法

val resultRdd: RDD[(String, List[(String, Int)])] = groupRDD.mapValues(

//sortBy写法

data => { data.toList.sortBy(_._2)(Ordering[Int].reverse).take(3)}

//sortWith写法

value => { value.toList.sortWith( (x, y) => (x._2 > y._2) )}.take(3)}

)

若一个Rdd的Vaule类型不为 Iterable，可以直接使用Spark的sortBy算子

val resultRdd2: RDD[(String, (Int, Int, Int))]

对resultRdd2的value进行排序，resultRdd2的第二位是Int类型的三元组，默认从元祖第一位开始比较

此处采用sortBy算子

val result: Array[(String, (Int, Int, Int))] = resultRdd2.sortBy(_._2,false).take(3)

//结果打印 result.foreach(println)

总结

sortBy方法与sortBy算子常用于再Spark编程Rdd的排序中

若排序对象是 Iterable需要将其转为List再使用SortBy方法

若排序对象是基本的集合类型需要可以直接用SortBy算子

注意SortBy方法中逆序采用柯里化(Ordering[Int].reverse)

SortBy算子则直接（，false）即可

相关文章

Spark中的的sortBy排序（方法与算子的不同）
Scala中有排序函数（1）sorted 对一个集合进行自然排序，通过传递隐式的Ordering （2）sort...
spark-sortBy算子
上一篇已经简单说过了map等几个算子。今天，我们来了解一下sortBy算子，他们也是Transformation算...
2021-07-01记录
上午1、数组对象中按某个key排序import _sortBy from 'lodash/sortBy';_so...
【Spark Java API】Action(4)—sortBy
sortBy 官方文档描述：函数原型： **sortBy根据给定的f函数将RDD中的元素进行排序。** 源码分析...
数组方法-sort()、toString()、eval()
一、sort() 1、如果sort（）方法中没有sortby参数，则按照字母顺序对数组进行排序。 eg： arr ...
kotlin 集合内元素比较
在看这篇文章之前，尝试调用list的排序方法：sortby，sortwith，sortedwith等方法，包括be...
JavaScript sort() 方法
定义和用法 sort() 方法用于对数组的元素进行排序。语法 arrayObject.sort(sortby) ...
sort() 数组的元素进行排序的方法
定义和用法 sort() 方法用于对数组的元素进行排序。语法参数描述 sortby可选。规定排序顺序。必须是函...
【Spark】RDD操作详解1——Transformation和
Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对...
underscore.js
1._.sortBy 对象排序，字符串sortBy逆序加-号是排不出来的，可以采用sortBy().revrese...

网友评论

本文标题：Spark中的的sortBy排序（方法与算子的不同）

本文链接：https://www.haomeiwen.com/subject/lhjyxrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark中的的sortBy排序（方法与算子的不同）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！