美文网首页
搭建Hive数据仓库+python操作Hive

搭建Hive数据仓库+python操作Hive

作者: Byte猫 | 来源:发表于2019-04-02 12:29 被阅读0次

一、Hive安装及服务启动

Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。
简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。

1、Hive下载

下载安装文件

2、解压安装文件并修改配置

(1)解压安装文件
解压安装文件到指定的的文件夹 /opt/hive

tar -zxf apache-hive-2.3.4-bin.tar.gz -C  opt/hive

(2)设置环境变量

vi /etc/profile

在最下面添加

export HIVE_HOME=/opt/hive
export PATH=$HIVE_HOME/bin:$PATH

(3)Hive集成mysql数据库
由于hive是默认将元数据保存在本地内嵌的 Derby 数据库中,但是这种做法缺点也很明显,Derby不支持多会话连接,因此本文将选择mysql作为元数据存储。
Hive集成mysql数据库
(4)修改安装目录下的conf/hive-site.xml文件(主要是与mysql的连接部分)

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>  <!-- jdbc驱动 -->
</property>
<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>  <!-- mysql账号 --> 
</property>
<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hive-password</value>  <!-- mysql密码 --> 
</property>

(5)修改hive-env.sh

cp hive-env.sh.template hive-env.sh
vi hive-env.sh

添加HADOOP_HOME配置

HADOOP_HOME=/opt/hadoop/hadoop-2.6.4

3、启动Hive

启动Hive的几种方式

二、PyHive安装

方法一:

pip install sasl
pip install thrift
pip install thrift-sasl
pip install PyHive

方法二(推荐):

conda install PyHive

三、PyHive操作Hive数据仓库

连接数据库

from pyhive import hive

conn = hive.Connection(host='192.168.**.**', port=10000, username='****', database='default')
# host主机ip,port:端口号,username:用户名,database:使用的数据库名称
cursor = conn.cursor()

执行查询操作

cursor.execute('select * from tablename limit 10')
for result in cursor.fetchall():
     print(result)

相关文章

  • 21.1Hive复习

    Hive hive是数据仓库,用途:分析,决策类影响hive搭建 注意,搭建是按照元数据的存储和管理进行搭建的 搭...

  • 搭建Hive数据仓库+python操作Hive

    一、Hive安装及服务启动 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面...

  • hive 优化方案

    目前越来越多的公司开始基于Hive搭建数据仓库,所以本文主要针对Hive介绍几种优化方式。尽管Hive已经做了很多...

  • HiveSQL解析过程详解

    Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行...

  • Hive SQL解析过程详解

    Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行...

  • Hive SQL的编译过程(转)

    Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行...

  • 使用python操作hive

    使用python操作hive python版本为2.7.5(redhat系统自带) hive版本为1.1.0 连接...

  • Hive中的msck和analyze table的作用

    0. Hive使用中遇到的问题 Hive是常用的数据仓库工具,功能强大,操作简便。在使用Hive的过程中,经常碰见...

  • 大数据之数据仓库,Hive仓库的数据类型

    刚毕业那会用过hive,后面就很少使用hive,对hive只停留在Hql查询的操作中。最近,在建设数据仓库的过程中...

  • Hadoop生态学习之SparkSQL连接Hive

    使用SparkSQL来连接Hive 注意:在搭建hive数据仓库的时候我们会发现会有如下提示.大概意思是说在hiv...

网友评论

      本文标题:搭建Hive数据仓库+python操作Hive

      本文链接:https://www.haomeiwen.com/subject/kjnwbqtx.html