Hive未来两年的路线图

jopen 10年前

Hive是一个基于Hadoop的数据仓库平台,它是SQL-on-Hadoop框架的代表项目。但是它在处理交互式查询的速度一直不够快。今年4月,Hortonworks完成了Stinger项目的目标,不仅改进了Hive的功能,还将其性能提升了100倍。

9月3日,Hortonworks宣布开始下一阶段的工作,即Stinger.next,以便进一步扩展其功能及提升其性能。它将要实现的一些关键特性可以使Hive满足新的业务应用场景,包括:

  1. 支持ACID事务——用户将可以插入、更新和删除现有数据。Hive将由传统的一次写入、频繁读取的系统发展为一个支持变化数据分析的系统。
  2. 实现亚秒级查询——用户可以将Hive用于像交互式仪表板和探究性分析这样对响应时间有更高要求的应用场景。
  3. 全面支持SQL:2011 Analytics——用户可以使用标准SQL在Hive上部 署复杂的报表,而且更快捷、更简便、更可靠。而基于成本的、功能强大的优化器可以确保工具生成的查询和复杂查询的运行速度。届时,Hive将在 Hadoop上提供企业级SQL用户所享有的全部表达能力。它将在支持窗口函数、用户自定义函数、子查询、Rollup、Cube、标准聚集、内连接、外 连接、半连接和交叉连接的基础上,增加对不等连接、集合函数(并、交、差)、时间间隔类型等的支持。

Stinger.next计划用时18个月,将分三个阶段交付。事务支持将于2014年底发布,亚秒级查询将在2015年上半年推出,而对SQL:2011 Analytics的全面支持则将于2015年底完成。

此外,Hive还将与机器学习框架Spark集成,使用户可以通过Hive运行机器学习模型。除了上述特性外,Hive还将获得如下增强:

  • Hive Streaming Ingest将帮助用户基于最新数据扩展运营报表;
  • Hive Cross-Geo Query使用户可以在分布式数据集上查询和生成报表;
  • 物化视图使用户可以存储相同数据的多个视图;
  • 改进可用性;
  • 简化部署过程。

而据Gigaom报道,Stinger.next的成功对于许多公司而言将不是个好消息,因为他们已经投入了大量的人力和财力,用于构建自己的SQL-on-Hadoop引擎,其中包括Cloudera ImpalaIBM Big SQLPivotal Greenplum等商业产品,以及由Salesforce.com-built构建的Apache Phoenix和由MapR主导的Apache Drill等开源产品。Apache Spark社区也正在开发自己的交互式SQL引擎。虽然Cloudera联合创始人兼首席战略官Mike Olson认为Impala比Hive要快得多,但是,对于已使用Hive多年的用户而言,功能不断扩展、性能不断提升的Hive将非常有吸引力。

另一方面,Hortonworks声称,他们的关键合作伙伴,如Microsoft、Informatica、Microstrategy和 Tableau都将加入Stinger.next计划。Hortonworks将继续在速度、规模和SQL语义方面对Hive进行扩展。

来自:http://www.infoq.com/cn/news/2014/09/hive