美文网首页
大数据集群搭建-Spark

大数据集群搭建-Spark

作者: 有机会一起种地OT | 来源:发表于2021-02-22 14:24 被阅读0次

安装scala
配置 /etc/profile 环境变量
source /etc/profile

配置文件

./conf/spark-env.sh中配置Java、Scala环境变量等

export JAVA_HOME=/opt/java/jdk1.8.0_261
export SCALA_HOME=/opt/scala/scala-2.11.12
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.7/etc/hadoop
export SPARK_LOCAL_DIRS=/opt/spark/spark-2.4.6-bin-hadoop2.7
export SPARK_MASTER_HOST=hadoopM
export SPARK_MASTER_PORT=7077

配置slaves
配置spark环境变量
将spark文件复制到其他节点上。

注:
提交spark任务时,打包的程序只有源代码时,配置文件使用集群spark安装地址中的 hive-site.xml

配置spark history 的webUI

spark history 配置webUI服务 4040端口,在任务结束后可用./conf/spark-env.sh文件中 设置

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoopM:9000/sparkhistory"

./conf/spark-defaults.conf文件中配置

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoopM:9000/sparkhistory
spark.eventLog.compress true

其中 Dspark.history.fs.logDirectory 目录 要手动创建。
端口9000 为 hadoop core-site.xml 中 fs.default.name 参数。

启动spark history server
/.../spark/sbin/ 执行start-history-service.sh
UI端口
localhost:18080

另外,配置在yarn WebUI 可跳转到spark WebUI
在yarn-site.xml中 配置

<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<property>
    <name>yarn.log.server.url</name>
    <value>http://hadoopM:19888/jobhistory/logs</value>
</property>

spark-defaults.conf文件中配置

spark.yarn.historyServer.address    http://hadoopM:18080
问题:

spark查询hive表报错:

hive schema version 1.2.0 dose not match metastore's schema version 2.3.0

更改 hive-site.xml 中的 hive.metastore.schema.verification 为 false

相关文章

网友评论

      本文标题:大数据集群搭建-Spark

      本文链接:https://www.haomeiwen.com/subject/uxfnxltx.html