spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。
1)./spark-shell --help :不知道如何使用,可通过它查看命令帮助,[]中括号里面的表示可选的。
2)重要参数讲解:
--master master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local
--name 这个是指定你的application name 应用名称。
--jars 这个是用comma逗号分隔的一系列包含driver和executor的环境变量的包。
--conf 这个是指定一些配置的参数。
--driver-* 这个是指定driver的memory、class-path等。
--executor-memory 这个是设置executor端的内存。
--executor-core 指定executor的core资源
--driver-core 指定driver的core资源
--queue 生产上肯定是以队列的方式来提交的
--num-executor 指定executor 执行者的个数
spark-submit --master yarn --deploy-mode cluster --num-executors 2 --driver-memory 2g --executor-memory 1g --executor-cores 1 --queue root.test--jars $(echo /home/test/target/jars/*.jar | tr ' ' ',') --name data_to_hive --files /home/etl/test-1.0/config/hive-store-config.xml,/home/etl/test-1.0/config/env.xml --class com.test.DataToHiveFromKafka /home/etl/test-1.0/target/test-1.0.jar --batchDuration 300
资源池信息.png
资源池子类.png









网友评论