Hive运行架构及配置部署

jopen 11年前

Hive 运行架构

由非死book开源，最初用于解决海量结构化的日志数据统计问题：ETL工具；

构建于Hadoop的HDFS和MapReduce智商，用于管理和查询结构化/非结构化数据的数据仓库；

设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据：

使用HQL作为查询接口；

使用HDFS作为存储底层；

使用MapReduce作为执行层；

2008年非死book把Hive项目贡献给Apache；

1、Hive的缺点

Hive的HQL表达能力有限：有些复杂运算用HQL不易表达；

Hive效率低：Hive自动生成MR作业，通常不够智能；HQL调优困难，粒度较粗；可控性差；

2、Hive系统架构

1）元数据存储（Metastore）：Hive的数据由两部分组成：数据文件和元数据；

元数据存储，Derby只能用于一个Hive连接，一般存储在MySQL。

2）驱动（Driver）：编译器、优化器、执行器；

用户通过下面的接口提交Hive给Driver，由Driver进行HQL语句解析，此时从Metastore中获取表的信息，先生成逻辑计划，再生成物理计划，再由Executor生成Job交给Hadoop运行，然后由Driver将结果返回给用户。

编译器（Hive的核心）：1，语义解析器（ParseDriver），将查询字符串转换成解析树表达式；2，语法解析器（SemanticAnalyzer），将解析树转换成基于语句块的内部查询表达式；3，逻辑计划生成器（Logical Plan Generator），将内部查询表达式转换为逻辑计划，这些计划由逻辑操作树组成，操作符是Hive的最小处理单元，每个操作符处理代表一道HDFS操作或者是MR作业；4，查询计划生成器（QueryPlan Generator），将逻辑计划转化成物理计划（MR Job）。

优化器：优化器是一个演化组件，当前它的规则是：列修剪，谓词下压。

执行器：编译器将操作树切分成一个Job链（DAG），执行器会顺序执行其中所有的Job；如果Task链不存在依赖关系，可以采用并发执行的方式进行Job的执行。

3）接口：CLI（Common LineInterface）、HWI（Hive WebInterface）、ThriftServer；

CLI：为命令行工具，默认服务。bin/hive或bin/hive--service cli；

HWI：为Web接口，可以用过浏览器访问Hive，默认端口9999，启动方式为bin/hive --service hwi;

ThriftServer：通过Thrift对外提供服务，默认端口是10000，启动方式为bin/hive --service hiveserver;

4）其他服务（bin/hive --service -help）：metastore(bin/hive --service metastore)、hiveserver2（bin/hive --service hiveserver2），HiveServer2是HieServer改进版本，它提供给新的ThriftAPI来处理JDBC或者ODBC客户端，进行Kerberos身份验证，多个客户端并发，HS2还提供了新的CLI：BeeLine，是Hive 0.11引入的新的交互式CLI，基于SQLLine，可以作为Hive JDBC Client 端访问HievServer2，启动一个beeline就是维护了一个session.

5）Hadoop：用HDFS进行存储，用MapReduce进行计算；

表中的一个Partition对应表下的一个子目录，每一个Bucket对应一个文件；Hive的默认数据仓库目录是/user/hive /warehouse，在hive-site.xml中由hive.metastore.warehouse.dir项定义；

3、Hive的运行过程

由客户端提供查询语句，提交给Hive，Hive再交给Driver处理（1，Compiler先编译，编译时要从Metastore中获取元数据信息，生成逻辑计划；2，生成物理计划；3，由Driver进行优化；4，Executor执行时对物理计划再进行分解成Job，并将这些Job提交给MR的 JobTracker运行，提交Job的同时，还需要提取元数据信息关联具体的数据，这些元数据信息送到NN），JT拆分成各个Task进行计算，并将结果返回或写入HDFS。

4、Hive的数据模型

Database

Table

Partition

Bucket

File（文件格式：TextFile，RCFile，），

数据类型，Numeric（Tinyint，Smallint，Bigint，Float，Double，Decimal（Hive 0.13.0可以自定义精度进行扩展）），Date/Time（TIMESTAMP，DATE（0.12.0支持）），String（STRING，VARCHAR（0.12），CHAR（0.13）），Misc（BOLLEAN，BINARY），Complex（ARRAY、 MAP、STRUCT、UNIONTYPE）

Hive 0.13的配置与部署

使用版本：Hive 0.13.1

1、Metastore（MySQL作为元数据存储，安装于Master1节点，前提是MySQL的访问权限需要设置好。）

1）解压

tar zxf apache-hive-0.13.1-bin.tar.gz

mv apache-hive-0.13.1-bin /usr/hive013

vim /etc/profile加入

export HIVE_HOME=/usr/hive013

PATH=$HIVE_HOME/bin:$PATH

source /etc/profile

2）配置hive-env.sh文件（启动时用到的环境文件）

HADOOP_HOME=/usr/hadoop-2.2.0

3）复制hive-default.xml -> hive-site.xml文件（配置文件）

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://master1:3306/metastore?=createDatabaseIfNotExist=true</value>

<description>JDBC connect string for a JDBCmetastore</description>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBCmetastore</description>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

<description>username to use against metastoredatabase</description>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

<description>password to use against metastoredatabase</description>

</property>

4）拷贝jdbc文件到hive的lib中

下载jdbc的jar文件http://pan.baidu.com/s/1zYi5o

cp mysql-connector-java-5.1.26-bin.jar$HIVE_HOME/lib/

2、HiveClient，在Slave1上安装Hive客户端，同样设置好HIVE_HOME的环境变量

1）将Hive013从Master1拷贝到Slave1

scp -r /usr/hive013 root@slave1:/usr/

2）配置Metastore的连接信息

<name>hive.metastore.uris</name>

<value>thrift://master1:9083</value>

<description>Thrift URI for the remote metastore.Used by metastore client to connect to remote metastore.</description>

</property>

3）启动metastore服务

前台服务：hive--service metastore CTRL+C关闭

后台服务：nohup hive--service metastore > metastore.log 2>&1 & jobs查看后台任务 kill %id关闭后台任务

4）测试链接Metastore

由于设置好HIVE_HOME环境变量，直接在Shell中输入hive即可打开HiveCLI

5）拷贝至OPC节点，可以达到多个客户端访问metastore

Hive运行架构及配置部署