美文网首页spark
1.2 Spark-RDD弹性的七大特性

1.2 Spark-RDD弹性的七大特性

作者: 不羁之后_ | 来源:发表于2019-07-05 16:53 被阅读0次

1.自动进行内存和磁盘存储的切换

spark会优先将数据存储在内存中,如果内存放不下,才把数据写入磁盘,不但能计算内存中的数据,也能计算内存放不下的数据。

2.基于Lineage(血统)高容错机制

Lineage是基于spark的依赖关系来完成,每个操作只关联父操作,各分片之间的数据互不影响,出现错误的时候只需要恢复单个的split特定部分。

常规容错方式有两种:

数据检查点

通过数据中心的网络连接各台机器,如果发生checkPoint的时候就需要复制数据,复制是要通过网络传输的,因此网络宽带是分布式的瓶颈,对存储的资源也是很大的消耗。

记录数据的更新

当有数据更新的时候,就需要记录数据,这种方式不需要复制数据集。

  • RDD是不可变的且lazy的
  • RDD的写操作是粗粒度的、读操作可以是粗粒度,也可以是细粒度。

3.Task失败会进行特定次数的重试

默认重试次数是4次。TaskSchedulimpl的源码如下:

  def this(sc: SparkContext) = {
    this(
      sc,
      sc.conf.get(config.MAX_TASK_FAILURES),
      TaskSchedulerImpl.maybeCreateBlacklistTracker(sc))
  }

  private[spark] val MAX_TASK_FAILURES =
    ConfigBuilder("spark.task.maxFailures")
      .intConf
      .createWithDefault(4)

4.Stage失败,会自动进行特定次数的重试

Stage可以跟踪多个StageInfo(存储SparkListener监听到的所有Stage信息,将Stage信息传递给Listeners或web UI)。重试默认次数是4次,且可以直接运行计算失败的阶段,只计算失败的数据分片,具体Stage源码如下:

private[spark] object DAGScheduler {
  // The time, in millis, to wait for fetch failure events to stop coming in after one is detected;
  // this is a simplistic way to avoid resubmitting tasks in the non-fetchable map stage one by one
  // as more failure events come in
  val RESUBMIT_TIMEOUT = 200

  // Number of consecutive stage attempts allowed before a stage is aborted
  val DEFAULT_MAX_CONSECUTIVE_STAGE_ATTEMPTS = 4
}

5.checkpoint和persist(检查点和持久化),可以主动或被动触发

checkpoint是对RDD进行的标记,会产生一系列的文件,且所有父依赖都会被删除,是整个依赖的终点。checkpoint是lazy级别的。
persist后,RDD的每个分片会保存在内存或磁盘中,下一次使用相同RDD进行其他action计算的时候,就可以重用。

6.数据调度弹性、DAGSchedule、TaskSchedule调度和资源调度无关

spark讲执行模型抽象成有向无环图(Stage),各个Stage之间可以串行或这并行,从而不需要把Stage的中间结果输出到HDFS中,当节点发生故障时,其他节点可以替代该节点运行。

7.数据分片的高度弹性

相关文章

  • 1.2 Spark-RDD弹性的七大特性

    1.自动进行内存和磁盘存储的切换 spark会优先将数据存储在内存中,如果内存放不下,才把数据写入磁盘,不但能计算...

  • 关于CSS - flex

    flex container 弹性容器flex item 弹性盒子 flex容器将消除item的块状特性: fle...

  • CSS3中Flex弹性布局该如何灵活运用?

    前言 Flex(Flexible Box),意为”弹性布局”。“弹性”,顾名思义,就是具有弹簧的特性啦,能够自由的...

  • 【产品介绍】“弹性裸金属服务器”到底有那些特性?

    摘要: 弹性裸金属服务器的八大特性,总结相关特性。那么阿里云弹性裸金属服务器(神龙)的表现呢 在这里我们定义的“弹...

  • 1.2 Java语言的特性

    简单 语法规则和C++类似 Java语言对C++进行了简化和提高 Java提供了丰富的类库、API文档以及第三方开...

  • [spark] RDD解析

    RDD(Resilient Distributed Dataset):弹性分布式数据集。 特性 A list of...

  • 1.1 Spark-RDD存储机制以及特性

    RDD的存储机制: 其数据分布存储在多台机器上,都是以block的形式存储在服务器上。每个Executor都会启动...

  • 初识Java

    1.1 Java简介1.2 Java语言的特性1.3 搭建Java环境

  • 钟妍筋膜弹性训练读书笔记02

    筋膜的特性:弹性改变形状和刚性恢复形状 弹性就是结构改变形状的能力,弹性的临界点就是此时形状不可再恢复的,此时的拉...

  • OC的优缺点

    1、优点1.1 Cateogies1.2 Posing1.3 动态识别1.4 指标计算1.5 弹性讯息传递1.6 ...

网友评论

    本文标题:1.2 Spark-RDD弹性的七大特性

    本文链接:https://www.haomeiwen.com/subject/safehctx.html