前言 spark应用程序的调度体现在两个地方,第一个是Yarn对spark应用间的调度,第二个是spark应用内(...[作者空间]
常见的数据倾斜是怎么造成的?Shuffle的时候,将各个节点上相同的key拉取到某个节点的一个task进行处理,比...[作者空间]
macOS Sierra 10.12.4 Spark 1.6.2 Python 2.7 转载请注明出处:http:...[作者空间]
我们这节课讲一下RDD的持久化 这段代码我们上午已经看过了,有瑕疵大家看出来了吗?有什么瑕疵啊?大家是否还记得我在...[作者空间]
RDD的数据分区策略由Partitioner数据分区器控制,Spark提供两个类型分片函数,如下: Partiti...[作者空间]
spark工作原理 spark运行原理 Spark Streaming Storm的ack是干嘛的 kalfka干...[作者空间]
基本概念 *& RDD 是弹性分布式数据集,【我也不太清楚这个概念】。是一个分布式抽象内存的概念,提供了一种高度受...[作者空间]
为什么要设计RDD 网上资料很多,这里我给罗列出来,许多的迭代算法和交互式数据挖掘工具,这些应用场景的共同点是:...[作者空间]
一、简介 Spark SQL是Spark中处理结构化数据的模块。与基础的Spark RDD API不同,Spark...[作者空间]
一、RDD及其特点 **1. **RDD(Resillient Distributed Dataset)弹性分布式...[作者空间]
MapReduce 1. 不指定语言,写一个WordCount的MapReduce 我:最近刚学了scala,并且...[作者空间]
Spark:分布式数据处理引擎 1.学习资料 Spark:大数据的“电光石火 spark介绍文章,不重要,简单过下...[作者空间]
Spark集群 一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟...[作者空间]
Spark系列(四)整体架构分析 - 会飞的纸盒 - 博客园http://www.cnblogs.com/jian...[作者空间]
注:本文参考文献有书籍《Spark大数据处理:技术、应用与性能优化》、RDD的Paper《Resilient Di...[作者空间]
从使用Scala解释器开始 输入任意的Scala表达式,比如输入1+2,解释器显示:res0:Int = 3 这行...[作者空间]
写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过...[作者空间]
原文:『 Spark 』2. spark 基本概念解析 写在前面 本系列是综合了自己在学习spark过程中的理解记...[作者空间]
程序中可能会使用到spark提供的累加器功能,可是如果你不了解它的运行机制,有时候会带来一些负面作用(错误的累加结...[作者空间]
在上一篇文章里我们主要是分析了spark standlane内核的执行原理,本节主要是对spark在yarn上的执...[作者空间]