美文网首页
Hive存储方式

Hive存储方式

作者: 神呐_宽恕我把 | 来源:发表于2019-12-10 11:30 被阅读0次

1.textfile

Hive的默认存储格式

存储方式:行存储

磁盘开销大数据解析开销大

压缩的text文件 hive无法进行合并和拆分

2.SequenceFile

二进制文件以key,value的形式序列化到文件中

存储方式:行存储

可分割压缩

一般选择block压缩

优势是文件和Hadoop api中的mapfile是相互兼容的

3.rcfile

存储方式:数据按行分块每块按照列存储

压缩快快速列存取

读记录尽量涉及到的block最少

读取需要的列只需要读取每个row group 的头部定义。

读取全量数据的操作性能可能比sequencefile没有明显的优势

4.orc

存储方式:数据按行分块每块按照列存储

压缩快快速列存取

效率比rcfile高,是rcfile的改良版本

5.自定义格式

用户可以通过实现inputformat和 outputformat来自定义输入输出格式

相关文章

  • Hive存储方式

    1.textfile Hive的默认存储格式 存储方式:行存储 磁盘开销大数据解析开销大 压缩的text文件 hi...

  • hive搭建方式概览

    hive三种方式区别和搭建 Hive中metastore(元数据存储)的三种方式: a)内嵌Derby方式 b)L...

  • 大数据开发:Hive列式存储ORC、Parquet的优点

    众所周知,作为Hive列式存储提供了高性能的存储方式,面对大规模的数据存储任务,也能高效快速地完成,这也是Hive...

  • 大数据之Hive03-分区partition详解(静态分区,动态

    一、前言 Hive分区是为了方便数据管理Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一...

  • hive积累大全

    此篇内容:hive自定义函数UDF、UDTF,压缩存储方式,hive优化、hive实际编程SQL中的if表达式用法...

  • hive数据文件存储格式

    在hive中有数据存储文件格式有四种,在此主要介绍ORCFile: 列式存储ORCFile存储方式:数据按行分块,...

  • 大数据 - Hive

    大数据 - Hive hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储...

  • 用户画像3:标签数据存储

    用户画像的数据存储的技术选型有多种,不同存储方式适用于不同场景。主要有Hive、MySQL、HBase、Elast...

  • Hive的安装

    我们使用mysql来存储hive的元数据(metadata),这里关于元数据以及元数据的存储方式摘录了这篇文章里的...

  • hive基础架构

    Hive Structure Metastore 服务和存储的方式 1.内嵌模式 2.本地模式 3.远程模式 建议...

网友评论

      本文标题:Hive存储方式

      本文链接:https://www.haomeiwen.com/subject/ajowgctx.html