一.NettyRpcEnv主要组件 子组件TransportConf,Dispatcher,TransportCl...[作者空间]
一.概述 Spark数据本地化即计算向数据移动,但数据块所在的Executor不一定有足够的的计算资源提供,为了让...[作者空间]
一.整体架构 Spark的存储介质包括磁盘和内存。 Spark的存储采用了主从模型,存储模块使用了基于Netty的...[作者空间]
一.前言 Spark的作业和任务调度系统是其核心。Spark的作业调度主要是基于RDD的一系列操作构成一个作业,然...[作者空间]
一.前言 在用户提交应用程序时,SparkContext会向Master发送注册消息,并由Master给该应用分配...[作者空间]
准备 本文主要对SparkSubmit的任务提交流程源码进行分析。Spark源码版本为2.3.1。 首先阅读一下启...[作者空间]
准备 本文主要对Master的启动流程源码进行分析。Spark源码版本为2.3.1。 阅读源码首先从启动脚本入手,...[作者空间]
前言 了解Spark架构原理及相关任务提交流程前,我们需要先了解一下Spark中的一些角色概念。 Applicat...[作者空间]
前言 RDD之间的依赖关系一般分为两种,宽依赖和窄依赖。 在网上好多博客中是这样描述宽依赖和窄依赖的特点 窄依赖每...[作者空间]
一.什么是RDD RDD是弹性分布式数据集(Resilient Distributed Dataset),RDD是...[作者空间]
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且...[作者空间]
Spark有多种储级别,下面我用数据的方式展示各种存储级别的区别和其选择,希望能给在座各位在工作中或面试中一点帮助...[作者空间]
记录一下个人对sparkSql的catalyst这个函数式的可扩展的查询优化器的理解,目录如下, Overview...[作者空间]