前言 今日翻看项目之前某模块的代码时,看到grouping_id的sql语句。一时忘记了这个函数的用法,遂赶紧写下...[作者空间]
背景 工作中使用Spark Streaming处理实时数据流,发现所处理的数据量与所消耗的时间很不对等,如下图: ...[作者空间]
parallelize()函数将一个List列表转化为了一个RDD对象,collect()函数将这个RDD对象转化...[作者空间]