Hadoop是一个开源的大数据框架,最核心的部分包括HDFS和MapReduce,此外还有yarn等组件,其中HDFS用于大数据存储,MapReduce则为海量的数据提供了计算。
Hive是基于Hadoop的数据仓库,存储历史数据用于离线分析,将hivesql转化为MapReduce来进行查询,适用于海量数据离线查询,因此运行速度较慢,不支持实时查询,impala可与hive补充使用,impala不依托于MapReduce,直接使用底层C++查询数据,查询速度快,但内存要求高。
Spark依托于hive,是一个简化版计算引擎,但不使用MapReduce,因此较hive更为稳定,快速,在实际工作中已经形成了离线hive为主,spark为辅,实时flink的大数据查询体系,impala、kylin进行补充
网友评论