Spark编译

作者: Bloo_m | 来源:发表于2016-11-24 19:21 被阅读89次

Spark编译
有三种方式:SBT(Simple Build Tool),Maven,Make-distribution.sh
其中SBT,Maven两种方式打出来的包比较大,因此使用第三种方式编译

官方已经提供了安装包了,为什么要自己编译呢?

Spark能同Hadoop进行交互,而Hadoop的厂商比较多有很多商业版。Spark官方提供的安装包不一定和我们的Hadoop集群版本相同,如果不相同就有可能出现莫名其妙的错误。这时,我们手工指定相应版本进行编译是最好选择

SBT编译

    sbt/sbt clean assembly

Maven编译

由于Maven工具默认的内存比较小,需要先调大其占用的内存上限

  export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

打包

mvn clean assembly:assembly

make-distribution.sh构建安装包

该脚本会使用MAVEN进行编译,然后打成一个tgz包。
脚本的使用方法:

    ./make-distribution.sh --help

打包:

   ./make-distribution.sh --tgz --with-tachyon

Hadoop版本对应的MAVEN Profile

Hadoop version  Profile required
  0.23.x                 hadoop-0.23
  1.x to 2.1.x           (none)
  2.2.x               hadoop-2.2
  2.3.x               hadoop-2.3
  2.4.x               hadoop-2.4

Yarn版本对应的MAVEN Profile

YARN version    Profile required
0.23.x to 2.1.x yarn-alpha
2.2.x and later yarn

Hive对应的MAVEN Profile

在构造脚本后面添加 -Phive便可

自定义Hadoop版本

如果要构建hortonworks Hadoop 2.4.0.2.1.4.0-632,所对应的Hadoop版本是2.4.x。因此,相应的Profile为-Phadoop-2.4 -Pyarn。

编译方式:

SBT

  sbt clean assembly -Phive -Phadoop-2.4 -Pyarn -Dhadoop.version=2.4.0.2.1.4.0-632

Maven

  export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
  mvn clean assembly:assembly
  make-distribution.sh

1.1.x 使用

./make-distribution.sh --tgz --with-tachyon -Phadoop-2.4 -Pyarn -Phive -Dhadoop.version=2.4.0.2.1.4.0-632

对于1.1.x以前的版本使用:

 ./make-distribution.sh --hadoop 2.4.0.2.1.4.0-632 --with-yarn --with-tachyon --tgz

如果yarn的版本和Hadoop的版本不一致可添加

-Dyarn.version=2.4.0.2.1.4.0-632

相关文章

  • Spark Streaming实时流处理-2. Spark实战环

    0. 目录 Spark源码编译 Spark环境搭建 Spark简单使用 1. Spark源码编译 http://s...

  • Spark On Hive 部署和配置

    Spark On Hive,通过spark sql模块访问和使用Hive,默认Spark预编译(pre-built...

  • Spark3源码在IDEA中的编译

    Spark3源码编译 之前可以在linux环境进行spark源码的修改和编译,没有在笔记本上走通过编译流程,今天使...

  • 源码编译搭建Spark3.x环境

    Spark源码编译 官方文档: https://spark.apache.org/docs/latest/buil...

  • 编译Spark源码支持Hive并部署

    1、Spark源码下载 Spark官网提供了预编译版本的Spark,但是要获得hive支持的Spark版本必须自己...

  • Spark 编译

    选择的最新版的Spark,目前是2.3.0。编译Spark源码,使用自己安装的maven进行编译,其中-T参数是设...

  • 【Spark】Spark 编译调试

    自动补全CLASSPATH 参数:export SPARK_PREPEND_CLASSES=1在编译完Spark源...

  • spark编译

    背景   通常来讲,spark的使用离不开hadoop生态,在spark的官网中已经有针对hadoop通用版本(比...

  • Spark编译

    一、所需环境 1、CentOS 6.52、jdk1.8.0_4.53、maven 3.3.94、scala 2.1...

  • Spark编译

    Spark编译有三种方式:SBT(Simple Build Tool),Maven,Make-distribut...

网友评论

    本文标题:Spark编译

    本文链接:https://www.haomeiwen.com/subject/htxipttx.html