spark-submit 参数讲解

作者: 达微 | 来源:发表于2019-12-19 17:05 被阅读0次

spark-submit 参数讲解
134、Spark核心编程进阶之spark-submit基础及例
Spark 题
spark-submit启动参数说明
【大数据】Spark 递归读取 HDFS
“Spark on YARN”模式下作业资源分配
01 从spark-submit说起
spark-submit提交任务的相关参数
java泛型通配符和类型参数的范围
spark-submit提交spark任务的具体参数配置说明

spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。

1）./spark-shell --help ：不知道如何使用，可通过它查看命令帮助，[]中括号里面的表示可选的。

2）重要参数讲解：

--master master 的地址，提交任务到哪里执行，例如 spark://host:port, yarn, local

--name 这个是指定你的application name 应用名称。

--jars 这个是用comma逗号分隔的一系列包含driver和executor的环境变量的包。

--conf 这个是指定一些配置的参数。

--driver-* 这个是指定driver的memory、class-path等。

--executor-memory 这个是设置executor端的内存。

--executor-core 指定executor的core资源

--driver-core 指定driver的core资源

--queue 生产上肯定是以队列的方式来提交的

--num-executor 指定executor 执行者的个数

spark-submit --master yarn --deploy-mode cluster --num-executors 2 --driver-memory 2g --executor-memory 1g --executor-cores 1 --queue root.test--jars $(echo /home/test/target/jars/*.jar | tr ' ' ',') --name data_to_hive --files /home/etl/test-1.0/config/hive-store-config.xml,/home/etl/test-1.0/config/env.xml --class com.test.DataToHiveFromKafka /home/etl/test-1.0/target/test-1.0.jar --batchDuration 300