菜鸟也能玩转大数据:Airbnb开源Presto数据库SQL工具

jopen 6年前

游房屋短租网站Airbnb近日开源了一款SQL工具——Airpal,使普通员工也能够用Hadoop系统分析大数据。

Airpal是Airbnb一年前就已经开发并使用的Presto数据查询工具,通过Airpal的设计宗旨是降低数据查询门槛,通过可视化界面等使不同部门的业务人员也能轻松写出数据查询请求,预览、分享并复用查询任务。

在Airpal问世之前,互联网公司普遍使用Hive分析Hadoop系统中的数据,但是在Airbnb只有不到15个人能够为Hive编写复杂的SQL查询请求,因为Hive基于Hadoop最常见的批处理引擎——MapReduce,而且运行速度很慢。

据Airbnb的产品经理James Mayfield介绍,超过三分之一的Airbnb员工已经使用过Airpal,SQL的学习曲线坡度被极大降低。

过去,Airbnb的员工如果想分析用户进行预订房间或重置密码等活动时系统自动发送的电子邮件的有效性,需要通过数据科学家使用 Hive(非死book 2008年开源的一款类似SQL的Hadoop数据仓库框架),整个流程冗长缓慢,如今通过Airpal,Airbnb的员工可以自行查询并在数分钟内就 获得结果。

菜鸟也能玩转大数据:Airbnb开源Presto数据库SQL工具

Airpal的用户界面

关于Presto:

Airpal的开发基于非死book的Presto SQL引擎,而Presto是 非死book开发的可在PB级数据上更快执行交互SQL查询的技术,Presto没有使用MapReduce引擎,所有处理都在内存中完成,因此能够 获得比Hive至少一个数量级的处理速度。2013年底,非死book将Presto开源,此举让Presto迅速流行,包括AirBnb和 Dropbox等明星创业公司都开始采用Presto。

文章来自IT经理网