美文网首页
Spark的入门程序WordCount之Java版本

Spark的入门程序WordCount之Java版本

作者: 不积小流_无以成江海 | 来源:发表于2019-03-28 15:54 被阅读0次
SparkConf conf = new SparkConf().setAppName("word count");
JavaSparkContext sc = new JavaSparkContext(conf);

// 官方写法
JavaRDD<String> textFile = sc.textFile("hdfs://...");
JavaPairRDD<String, Integer> counts = textFile
    .flatMap(s -> Arrays.asList(s.split(" ")).iterator())
    .mapToPair(word -> new Tuple2<>(word, 1))
    .reduceByKey((a, b) -> a + b);
counts.saveAsTextFile("hdfs://...");

在这个过程中可能会遇到错误:java.lang.ArrayIndexOutOfBoundsException: 10582

解决办法:在pom文件中添加

<dependency>
    <groupId>com.thoughtworks.paranamer</groupId>
    <artifactId>paranamer</artifactId>
    <version>2.8</version>
</dependency>

相关文章

网友评论

      本文标题:Spark的入门程序WordCount之Java版本

      本文链接:https://www.haomeiwen.com/subject/amzqbqtx.html