开源数据分析工具:Druid

ygfb 8年前

Druid 是一个针对在线分析处理(OLAP)事件数据而设计的开源数据存储分析工具。它提供了低延迟(实时)数据摄取、灵活的数据探索及快速的数据聚合功能。现存 的已实施的Druid项目已经能处理数万亿的事件和拍字节(拍字节即PB,1PB=1024TB)的数据了。Druid现在是面向用户分析应用中使用率最 高的。

开源数据分析工具:Druid

关键特性

 

  • 次秒级(sub-second)OLAP查询:Druid的列取向和反向索引能使其能进行复杂的多维度过滤,并扫描出哪些才是一个查询所真正需要的。数据的聚合与过滤只在毫秒之间就得以完成。
  • 实时的流式摄取:典型的数据库分析都是分批次来进行的。由于事务锁或其它瓶颈因素限制,使得一次只处理一个事 件这种方式的数据摄取速度很慢。Druid使用无锁方式摄取数据集,以实现每节点每秒能同时摄取并查询上万个事件的功能。简单地说,一个事件从发生到可被 观测之间的延迟只取决于传递给Druid的速度。
  • 强大的分析应用:Druid有许多为多租户(multi-tenancy)内置的特性。拥有为上千并发用户而设计的强大的面向用户分析应用。
  • 性价比高:Druid在进行规模应用时非常节省成本而且还内置了诸多能降低成本的功能。通过简单的配置就能降低成本并提高性能。
  • 高有效性:Druid作为软件即服务的一种实现方式,需要做到时刻可用。Druid支持滚动更新,这样即使在更新升级期间,你的数据及查询功能仍然保持可用。
  • 大规模应用:现有的Druid实施项目处理着数万亿的事件、拍字节量级的数据并在每秒钟执行上千次查询。

开发资源

官方网站:http://druid.io/
开源地址:https://github.com/druid-io/druid/