美文网首页
聊聊Spark的基本概念

聊聊Spark的基本概念

作者: 润土1030 | 来源:发表于2018-12-15 15:58 被阅读12次
在工作中经常碰到很多同事只会用sparksql进行数据分析,但是碰到问题了不知道该如何解决,对Spark的基本概念没有了解,也不会通过查看监控页面来分析解决问题。
这篇文章就讲讲spark的基本概念。
  • Application
  • Driver
  • Job
  • Stage
  • Task
  • Executor
Application
当你写完了一个spark程序,提交到YARN后,进入YARN的页面,会看到这个程序的信息。比如说我们下图id为application_1544843719855_0001的程序,这个程序是我启动了一个spark-shell,这就是我们所说的Application。
image.png
Driver
Driver指的是你的Application的main函数,在main函数中创建SparkContext准备Spark程序的运行环境。
Job
Job对应的是RDD中的Action操作,我们知道RDD有两种类型的操作,Transform操作和Action操作,其中Transform操作是懒加载的,只有当Action操作出现,Transform操作才会被执行,而一个action操作产生一个job。比如最简单的wordcount程序,启动spark-shell运行wordcount,只有当调用collect()函数的时候才会产生一个job,进入spark页面可以看到它。
Spark context available as sc (master = yarn-client, app id = application_1544843719855_0004).
SQL context available as sqlContext.

scala> val lines = sc.textFile("/user/cloudera/test/123")
lines: org.apache.spark.rdd.RDD[String] = /user/cloudera/test/123 MapPartitionsRDD[1] at textFile at <console>:27

scala> val rdd = lines.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
rdd: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:29

scala> rdd.collect().foreach(println)
(hello,3)                                                                       
(world,1)
(hi,2)

image.png
Stage
继续刚才的程序,点击id为0的job,进入stage的页面,可以看到这个job产生了两个stage,stage 0 是map,stage 1 是reducebykey
image.png
Task
点击id 为0的stage,进入看到一堆统计信息,可以看到这个stage是有两个task组成的,而这两个task是由Executor执行的。
image.png
Executor
点击Executors菜单可以看到分配给这个application的所有Executor,和每个Executor的状态和执行task的统计信息,如图。
image.png

相关文章

  • 聊聊Spark的基本概念

    在工作中经常碰到很多同事只会用sparksql进行数据分析,但是碰到问题了不知道该如何解决,对Spark的基本概念...

  • 2018-10-10

    spark基本概念 spark基结构 目前Spark由四部分 构成 :Spark SQL、MLlib、Graph ...

  • Spark系列1 - Spark生态和RDD

    1 Spark的生态 Spark Core中的基本概念 DAG(Directed Acyclic Graph), ...

  • Spark的基本术语

    Spark作业的基本概念 Application:用户自定义的Spark程序,用户提交后,Spark为App分配资...

  • Spark 以及 spark streaming 核心原理及实践

    本文依次从spark生态,原理,基本概念,spark streaming原理及实践,还有spark调优以及环境搭建...

  • spark streaming 初步

    一 基本概念 streaming的重要特点是使用了spark DataFrame spark streami...

  • Spark SQL

    目录一.Spark SQL基础1.Spark SQL简介2.Spark SQL的特点:3.基本概念:表:Datas...

  • Spark基本概念

    Spark基本概念 Application 用户在 spark 上构建的程序,包含了 driver 程序以及在集群...

  • spark运行流程

    spark中基本概念 Application:表示你的应用程序 Driver:表示main()函数,创建Spark...

  • Spark SQL:基础

    目录一.Spark SQL简介二.Spark SQL的特点三.基本概念:表:(Datasets或DataFrame...

网友评论

      本文标题:聊聊Spark的基本概念

      本文链接:https://www.haomeiwen.com/subject/yncahqtx.html