美文网首页
Spark-为什么比MR快

Spark-为什么比MR快

作者: Eqo | 来源:发表于2022-06-04 21:12 被阅读0次

spark简介

将数据封装到rdd集合当中 调用集合当中的函数 处理数据
类似mr 计算引擎,针对大规模数据计算引擎,统一分析引擎,支持多种数据源

Spark的各个组件

image.png
  • Spark Core
    sprak最核心 最基础的模块 ,包括 RDD 弹性分布式数据集, 任务调度、内存管理、错误恢复、与存储系统交互等 RDD和共享变量( 累加器 广播变量)
  • Spark Sql
    使用最多模块,可以使用SQL或Hive的HQL来查询数据,并可以与RDD的操作相结合使用
  • Sprak Streaming
    spark当中做实时流处理的
  • Graophx
    机器学习

第一 spark在处理数据时,可以将中间数据存储在内存当中
而mapreduce当中存在shuffle,频繁的跟磁盘进行io

image.png

第二 Spark Job调度方式,以DAG方式调度(作业Job,划分程很多部分:Stage阶段),并且任务Task线程方式运行。省略任务运行时频繁启动和销毁进程时间
mr都是启动一个进程去执行


image.png

第三 spark当中是把数据封装到rdd当中,调用rdd的算子去分析数据,且rdd之间有依赖性,容错率高 而mr是 启动一个mr到磁盘当中读取数据 使用MR去处理

总结

image.png

相关文章

网友评论

      本文标题:Spark-为什么比MR快

      本文链接:https://www.haomeiwen.com/subject/akllmrtx.html