聊聊Spark的基本概念

作者: 润土1030 | 来源:发表于2018-12-15 15:58 被阅读12次

聊聊Spark的基本概念
2018-10-10
Spark系列1 - Spark生态和RDD
Spark的基本术语
Spark 以及 spark streaming 核心原理及实践
spark streaming 初步
Spark SQL
Spark基本概念
spark运行流程
Spark SQL：基础

在工作中经常碰到很多同事只会用sparksql进行数据分析，但是碰到问题了不知道该如何解决，对Spark的基本概念没有了解，也不会通过查看监控页面来分析解决问题。

这篇文章就讲讲spark的基本概念。

Application
Driver
Job
Stage
Task
Executor

Application

当你写完了一个spark程序，提交到YARN后，进入YARN的页面，会看到这个程序的信息。比如说我们下图id为application_1544843719855_0001的程序，这个程序是我启动了一个spark-shell，这就是我们所说的Application。

image.png

Driver

Driver指的是你的Application的main函数，在main函数中创建SparkContext准备Spark程序的运行环境。

Job

Job对应的是RDD中的Action操作，我们知道RDD有两种类型的操作，Transform操作和Action操作，其中Transform操作是懒加载的，只有当Action操作出现，Transform操作才会被执行，而一个action操作产生一个job。比如最简单的wordcount程序，启动spark-shell运行wordcount，只有当调用collect()函数的时候才会产生一个job，进入spark页面可以看到它。

Spark context available as sc (master = yarn-client, app id = application_1544843719855_0004).
SQL context available as sqlContext.

scala> val lines = sc.textFile("/user/cloudera/test/123")
lines: org.apache.spark.rdd.RDD[String] = /user/cloudera/test/123 MapPartitionsRDD[1] at textFile at <console>:27

scala> val rdd = lines.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
rdd: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:29

scala> rdd.collect().foreach(println)
(hello,3)                                                                       
(world,1)
(hi,2)