什么是Hive?
- 建立在Hadoop之上的数据仓库解决方案
- 提供一种类似sql的查询语言,名为Hive query language HQL
- 早期的Hive开发工作始于2007年的Facebook
- Hive让更多的人使用Hadoop
- 如今,Hive是Hadoop下的一个顶级Apache项目
Hive的优势和特点
- 提供了一个比MR编码更少的简单优化模型
- HQL和SQL具有相似的语法和高生产率
- Hive支持在不同的计算框架上运行
- Hive支持在HDFS和HBase上临时查询数据
- Hive支持用户定义函数、脚本和定制格式
- 成熟的用于ETL和BI工具的JDBC和ODBC驱动程序
- 稳定可靠的批量处理
- Hive拥有一个庞大而活跃的社区
Hive元数据
DataStructure | Logical | Physical (HDFS) |
---|---|---|
Database | A collection of tables | Folder with files |
Table | A collection of rows of data | Folder with files |
Partition | Columns to split data | Folder |
Buckets | Columns to distribute data | Files |
Row | Line of records | Line in a file |
Columns | Slice of records | Specified positions in each line |
Views | Shortcut of rows of data | n/a |
Index | Statistics of data | Folder with files\ |
网友评论