spark stage划分和其他组件

spark stage划分和其他组件

作者: 星辰fml | 来源:发表于2019-05-21 11:07 被阅读0次

spark stage划分和其他组件
[spark] DAGScheduler 提交stage源码解析
《Spark大数据处理》读书笔记——应用执行机制
Shuffle的细节，重要的操作
Spark2.4.0 DAG（DAGScheduler）源码分析
[Spark源码剖析] DAGScheduler划分stage
SparkShuffer机制(三)
spark如何划分stage
Spark的Stage划分
Spark Stage如何划分

Spark的Stage划分：如果当前计算因子的输入值是确定的，则从为同一个Stage，如果当前的输入因子不是确定的，则划分为另一个Stage，即，如果输入的数据是不确定的，则将此处前面的计算进行分开，后面的从现在开始为一个Stage，如果后面的计算因子中也有这种模式则也需要进行划分

stage划分

Application：Spark Application的概念和hadoop MapReduce中类似，指的用户编写的Spark应用程序，包含了一个Driver功能的代码和分布在集群中的多个节点上运行的Executor代码
Driver：Spark中的Driver即运行上述Application的main函数并创建SparkContext，其中创建SparkContext是为Spark程序准备环境。在Spark中，SparkContext负责与ClusterManager进行通讯，进行资源的申请、任务分配和监控等，当Executor执行完毕后，Driver负责将SparkContext进行关闭，通常SparkContext就代表Driver
Executor：Application运行在worker上的一个进程，该进程负责运行Task，并将任务的数据写入内存或磁盘中，每个Application都有一批独立的一批Executor。在Spark on YARN模式中，其进程名为CoarseGrainedExecutorBackend，类似于Hadoop中的YarnChild。一个CoarseGrainedExecutorBackend有且仅有一个Executor对象。它负责将Task打包成TaskRunner，并在线程池中取出一个空闲线程来运行Task。每个CoarseGrainedExecutorBackend能并行运行Task的数量就取决于分配给它的CPU数量。
Cluster Manager：集群上获取资源的外部服务
Standalone：Spark原生的资源管理器，由Master进行资源分配
Hadoop YARN：由Hadoop的Resources Manager来进行资源分配
Worker：集群中任何可以运行Application代码的节点，类似于YARN中的Node Manager在Standalone模式下，指的是Slave文件中指定的Worker节点列表，在Spark on YARN模式下，指的是Node Manager节点。
作业（Job）：包含多个Task组成的并行计算，往往由Spark Action(执行操作)进行催生，一个Job包含多个RDD及作用于响应RDD上的各种Operation。
阶段（Stage）：每个Job会被拆分很多组的Task，每组任务被称为Stage，也叫做TaskSet，一个作业分为多个阶段。
任务（Task）：被发送到Executor的工作任务。
DAGScheduler：DAGScheduler把Spark作业转换成Stage的DAG(有向无环图)，根据RDD和Stage之间找出开销最小的调度方式。

相关文章

spark stage划分和其他组件
Spark的Stage划分：如果当前计算因子的输入值是确定的，则从为同一个Stage，如果当前的输入因子不是确定的...
[spark] DAGScheduler 提交stage源码解析
DAGScheduler在划分完Stage后([spark] DAGScheduler划分stage源码解析 )，...
《Spark大数据处理》读书笔记——应用执行机制
Spark任务划分Job划分：Action算子个数Stage划分：Shuffle个数+1Task划分：分区个数，T...
Shuffle的细节，重要的操作
SparkShuffle 以Shuffle为边界，Spark将一个Job划分为不同的Stage，这些Stage构成...
Spark2.4.0 DAG（DAGScheduler）源码分析
Spark的DAG(Directed Acyclic Graph)的生成实际上是Stage的划分，而Stage的划...
[Spark源码剖析] DAGScheduler划分stage
划分stage源码剖析本文基于Spark 1.3.1 先上一些stage相关的知识点： DAGScheduler...
SparkShuffer机制(三)
什么是shuffer 宽依赖之间会划分stage，而Stage之间就是Shuffle Spark在DAG调度阶段会...
spark如何划分stage
stage：根据RDD之间的依赖关系不同将job划分成不同stage，遇到一个宽依赖则划分一个stagetask：...
Spark的Stage划分
0x01 宽依赖和窄依赖窄依赖：父RDD的每个分区最多被子RDD的一个分区所用（一个父RDD分区对应一个子RD...
Spark Stage如何划分
本文基于2.3.0众所周知，RDD的依赖关系形成后，我们就可以根据宽依赖划分Stage了。目前Spark 的 st...

网友评论

本文标题：spark stage划分和其他组件

本文链接：https://www.haomeiwen.com/subject/xkudzqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|spark stage划分和其他组件|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！