美文网首页hive
一些Hive知识点记录

一些Hive知识点记录

作者: 某张三 | 来源:发表于2023-01-16 23:12 被阅读0次

Hive

Hive是读时模式:

在传统数据库里,表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式,则被拒绝加载数据。

因为数据是在写入数据库是对照模式进行检查,因此这一设计有时被称为“写时模式”(schema on write)。

Hive这种类型的数据处理模式对数据的验证并在不加载数据时进行,而在查询时进行。这称为“读时模式”(schema on read)

Hive会为每个数据库创建一个目录。数据库中的表会以这个数据库目录的子目录形式存储(default库例外)

数据库所在的目录位于属性hive.metastore.warehouse.dir所指的顶层目录之后,文件目录名是以.db结尾的

外部表

关键字EXTENAL指明外部表,LOCATION...字句指明数据在哪个路径下

删除外部表时不会删除掉这份数据,元数据会被删除

分区表

改变了Hive对数据存储的组织方式 PARTITIONED BY ,会创建好可以反映分区结构的子目录

strict严格模式:

1、对分区表进行查询而WHERE没有加分区过滤,将会禁止提交这个任务

2、ORDER BY语句的查询必须使用limit语句

3、笛卡尔积

STORED AS TEXTFILE: 文本文件格式存储数据(默认)

STORED AS SEQUENCEFILE/RCFILE: 二进制编码和压缩来优化磁盘空间以及IO带宽性能           

Hive总是按照从左到右的顺序执行

a join b join c:启动一个MapReduce job对表a表b进行连接操作,然后再启动一个MapReduce job将其输出和c进行连接操作,

如果每个ON子句都使用相同连接键则只会产生一个MapReduce job

join时大表放右边

map-side join :有一个表足够小到可以完全载入到内存中,这样可以减少reduce过程,有时甚至可以减少map task任务

Parquet 的存储模型主要由行组(Row Group)、列块(Column Chuck)、页(Page)组成。

1、行组,Row Group:Parquet 在水平方向上将数据划分为行组,默认行组大小与 HDFS Block 块大小对齐,Parquet 保证一个行组会被一个 Mapper 处理。

2、列块,Column Chunk:行组中每一列保存在一个列块中,一个列块具有相同的数据类型,不同的列块可以使用不同的压缩。

3、页,Page:Parquet 是页存储方式,每一个列块包含多个页,一个页是最小的编码的单位,同一列块的不同页可以使用不同的编码方式。

相关文章

  • 一些Hive知识点记录

    Hive Hive是读时模式: 在传统数据库里,表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式,...

  • 面试题汇总:Hive

    1.《大数据Hive 面试以及知识点》 2.《Hive学习之路 (十一)Hive的5个面试题》 3.《大数据工程师...

  • hive虚拟列

    火山日常啰嗦 讲讲hive的小知识点--虚拟列 hive虚拟列有两种: 1)INPUT__FILE__NAME 输...

  • Hive必知必会

    这是Hive知识点的一个大纲,后续会不断地更新完善,做到对Hive相关知识点有一个比较全面的总结归纳,争取2020...

  • Hive存储文件命名的规则

    Hive命令行 Hive在存储文件时候,有一些文件命名的规则,现在还不是很懂底层的原理,但是把现象记录下来,以备之...

  • 大数据开发之Hive篇6-Hive函数详解

    备注:Hive 版本 2.1.1 一.Hive函数概述 1.1 Hive函数分类 函数/UDF输入一行记录,输出一...

  • Hive相关文章索引(2)

    环境部署 HiveServer2的高可用-HA配置 基本常识 大数据Hive 面试以及知识点 hive实现upda...

  • 读书笔记—torch中的热门知识点

    这里随机记录一些torch的常用知识点,比较随意,主要记录的是自己读书过程中发现的一些有意思的知识点。 1.@和*...

  • SQL or Hive SQL基础易忽视知识点整理(1)

    引言目前实习阶段,工作中用到最多的是hive sql。以前没有发现,sql,代码也可写的十分优雅,有一些知识点不容...

  • 大数据、python学习微信没有途径?

    我还是先给大家分享一些学习方法把! 1.Hive学习 Hive支持的数据类型 Hive数据的管理 Hive的查询 ...

网友评论

    本文标题:一些Hive知识点记录

    本文链接:https://www.haomeiwen.com/subject/pxizcdtx.html