hive入门

作者: 大炮对着虫子 | 来源:发表于2018-06-12 13:58 被阅读11次

[从零开始学Hive]Hive入门
hadoop入门系列--hive的三种集合数据类型array、m
hadoop入门系列--hive中array(或map集合类型)
hadoop入门系列--hive基础
大数据学习教程
Hive的Transform和UDF
Hive底层原理：explain执行计划详解
Hive窗口函数01-SUM、MIN、MAX、AVG
Hive数据仓库之权限管理
Hadoop-Hive基础知识整理

一、什么是 Hive ?

Hive 是一个基于Hadoop 文件系统之上的数据仓库架构。它为数据仓库的管理提供了许多功能：数据 ETL （抽取、转换和加载）工具、数据存储管理和大型数据集的查询和分析能力。同时 Hive 还定义了类 SQL的语言 -- Hive HQL. Hive HQL 允许用户进行和 SQL 相似的操作，它可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能。还允许开发人员方便地使用 Mapper 和 Reducer 操作，可以将 SQL 语句转换为 MapReduce 任务运行，这对 MapReduce 框架来说是一个强有力的支持。

二、Hive的体系结构 ?

hive的结构图

用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。

Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。

Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含*的查询，比如select * from tbl不会生成MapRedcue任务）

三、Hive与关系数据库的区别?

Hive 在很多方面与传统关系数据库类似（例如支持 SQL 接口），但是其底层对 HDFS 和 MapReduce 的依赖意味着它的体系结构有别于传统关系数据库，而这些区别又影响着 Hive 所支持的特性，进而影响着 Hive 的使用

Hive 和关系数据库存储文件的系统不同，Hive 使用的是 Hadoop 的HDFS（Hadoop的分布式文件系统），关系数据库则是服务器本地的文件系统；
Hive 使用的计算模型是 MapReduce，而关系数据库则是自己设计的计算模型；
关系数据库都是为实时查询的业务进行设计的，而 Hive 则是为海量数据做数据挖掘设计的，实时性很差；实时性的区别导致 Hive 的应用场景和关系数据库有很大的不同；
Hive 很容易扩展自己的存储能力和计算能力，这个是继承 Hadoop 的，而关系数据库在这个方面要差很多。

四、Hive应用场景

通过对 Hive 与传统关系数据库的比较之后，其实我们不难得出 Hive 可以应用于哪些场景。

Hive 构建在基于静态批处理的 Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 不适合在大规模数据集上实现低延迟快速的查询。

Hive 并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive 查询操作过程严格遵守 Hadoop MapReduce 的作业执行模型，Hive 将用户的 HiveQL 语句通过解释器转换为 MapReduce 作业提交到 Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。

Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

五、Hive的数据存储

Hive 的存储是建立在 Hadoop 文件系统之上的。Hive 本身没有专门的数据存储格式，也不能为数据建立索引，因此用户可以非常自由地组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符就可以解析数据了。

Hive 中主要包括 4 种数据模型：表（Table）、外部表（External Table）、分区（Partition）以及桶（Bucket）。

5.1内部表

Hive的内部表与数据库中的Table在概念上是类似。每一个Table在Hive中都有一个相应的目录存储数据。例如一个表pvs，它在HDFS中的路径为/wh/pvs，其中wh是在hive-site.xml中由${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的Table数据（不包括External Table）都保存在这个目录中。删除表时，元数据与数据都会被删除。
内部表简单示例：

创建数据文件：test_inner_table.txt
创建表：create table test_inner_table (key string)
加载数据：LOAD DATA LOCAL INPATH 'filepath' INTO TABLE test_inner_table
查看数据：select * from test_inner_table;  select count(*) from test_inner_table;
删除表：drop table if exists test_inner_table;

5.2外部表

外部表指向已经在HDFS中存在的数据，可以创建Partition。它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异。内部表的创建过程和数据加载过程这两个过程可以分别独立完成，也可以在同一个语句中完成，在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。而外部表只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在LOCATION后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个External Table时，仅删除该链接。
外部表简单示例：

创建数据文件：test_external_table.txt
创建表：create external table test_external_table (key string)
加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_inner_table
查看数据：select * from test_external_table;  
select count(*) from test_external_table;
删除表：drop table if exists  test_external_table;

5.3分区表

Partition对应于数据库中的Partition列的密集索引，但是Hive中Partition的组织方式和数据库中的很不相同。在Hive中，表中的一个Partition对应于表下的一个目录，所有的Partition的数据都存储在对应的目录中。

例如pvs表中包含ds和city两个Partition，则对应于ds = 20090801, ctry = US 的HDFS子目录为/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry = CA 的HDFS子目录为/wh/pvs/ds=20090801/ctry=CA。
分区表简单示例：

创建数据文件：test_partition_table.txt
创建表：create table test_partition_table (key string) partitioned by (dt string)
加载数据：LOAD DATA INPATH 'filepath' INTO TABLE 
test_partition_table partition (dt='2006');
查看数据：select * from test_partition_table;  
select count(*) from test_partition_table;
删除表：drop table test_partition_table;

5.4桶表

Buckets是将表的列通过Hash算法进一步分解成不同的文件存储。它对指定列计算hash，根据hash值切分数据，目的是为了并行，每一个Bucket对应一个文件。

例如将user列分散至32个bucket，首先对user列的值计算hash，对应hash值为0的HDFS目录为/wh/pvs/ds=20090801/ctry=US/part-00000；hash值为20的HDFS目录为/wh/pvs/ds=20090801/ctry=US/part-00020。如果想应用很多的Map任务这样是不错的选择。
桶的简单示例：

创建数据文件：test_bucket_table.txt
创建表：create table test_bucket_table (key string) clustered by (key) into 20 buckets
加载数据：LOAD DATA INPATH 'filepath' INTO TABLE test_bucket_table
查看数据：select * from test_bucket_table;  
set hive.enforce.bucketing = true;

六、Hive的元数据存储

由于 Hive 的元数据可能要面临不断地更新、修改和读取操作，所以它显然不适合使用 Hadoop 文件系统进行存储。目前 Hive 把元数据存储在 RDBMS 中，比如存储在 MySQL, Derby 中。

[从零开始学Hive]Hive入门
Hive入门 Hive简介 Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Ha...
hadoop入门系列--hive的三种集合数据类型array、m
传送门hadoop入门系列--hive基础hadoop入门系列--hive的三种集合数据类型array、map、s...
hadoop入门系列--hive中array(或map集合类型)
传送门hadoop入门系列--hive基础hadoop入门系列--hive的三种集合数据类型array、map、s...
hadoop入门系列--hive基础
传送门hadoop入门系列--hive基础hadoop入门系列--hive的三种集合数据类型array、map、s...
大数据学习教程
Hadoop生态 Hadoop相关内容 Spark Spark系列教程 Hive Hive快速入门 Elastic...
Hive的Transform和UDF
UDTF Hive中UDTF编写和使用 UDAF Hive udaf开发入门和运行过程详解 Hive通用型自定义聚...
Hive底层原理：explain执行计划详解
不懂hive中的explain，说明hive还没入门，学会explain，能够给我们工作中使用hive带来极大的便...
Hive窗口函数01-SUM、MIN、MAX、AVG
Hive窗口函数sum、min、max、avg入门 1. 数据说明现有 hive 表 cookie1, 内容如下...
Hive数据仓库之权限管理
Hadoop/Hive自带权限控制延续数据仓库之Hive快速入门 - 离线&实时数仓架构[https://www...
Hadoop-Hive基础知识整理
一. Hive入门简介 1. Hive是什么 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件...

hive入门

一、什么是 Hive ?

二、Hive的体系结构 ?

三、Hive与关系数据库的区别?

四、Hive应用场景

五、Hive的数据存储

5.1内部表

5.2外部表

5.3分区表

5.4桶表

六、Hive的元数据存储

相关文章

[从零开始学Hive]Hive入门

hadoop入门系列--hive的三种集合数据类型array、m

hadoop入门系列--hive中array(或map集合类型)

hadoop入门系列--hive基础

大数据学习教程

Hive的Transform和UDF

Hive底层原理：explain执行计划详解

Hive窗口函数01-SUM、MIN、MAX、AVG

Hive数据仓库之权限管理

Hadoop-Hive基础知识整理

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Java 杂谈