一分钟了解Storm

jopen 11年前

来自：http://jvmplus.duapp.com/

这篇文章翻译自Storm官方文档，可以帮助以快速大致了解一下Storm

基础部分

在过去的数十年中，数据处理领域有着重大的变革。MapReduce和Hadoop以及相关技术使得存储和处理过去无法想象的规模的数据。不幸的是，这些数据处理技术并不是实时性的，也没有把Hadoop改造成实时数据处理的系统；实时数据处理相对于普通的批处理有基本的不同和需求。

然而，实时的对大规模的数据处理已经是现代诸多业务迫切需要的了，缺少实时性的Hadoop日益成为实时处理生态的查克琉斯之踵。

这个时候，Storm来了。

在Storm之前，我们需要手工来构建一个网络队列和执行单元来进行实时处理。执行单元要处理队列里面的消息，更新DB，然后将处理完的消息发送至其他队列以供以后的处理。不幸的是，这种方式有严重的限制：

1，冗余：我们要花大部分的时间来配置消息的去向、部署执行单元、部署队列之间的消息流动。这样以来实时处理逻辑成为了我们所有工作的很小的一部分。

2，脆弱：容错性很低，执行单元和队列任务消息必须由我们自己保证。

3，可扩展性很差：当消息对于单一的执行单元和队列累积过多的时候，我们就需要将数据分区处理。这个时候我们又需要重新配置新的执行单元和消息流向，而新的部分将有可能会失败。

尽管队列和执行单元对于大量消息处理的时候可能会失败，消息处理显然是实时计算的基础部分。问题是：我们怎么样草能做到不丢失数据，对大规模消息处理的时候扩展性好，并且容易操作呢？

Storm是用来干这事的。

为什么Storm是重要的

Storm提供了用于实时计算的一个集合的基元。类似于MapReduce大大简化了并行批处理，Storm大大简化了并行实时计算。

Storm的关键特性：

1，极其广泛的应用范围：Storm可以用来处理消息和更新DB（流式处理），对数据流的持续查询然后将结果数据流返回给客户端（持续计算），并行处理巨大的查询（分布式RPC），Storm的这些特性满足很多种应用场景。

2，可伸缩性：Storm扩展起来可以每秒处理大量的消息。扩展成为拓扑结构，我们需要做的只是增加机器，增加拓扑结构的并行机制配置。一个Storm扩展的例子，初始的时候应用有 10个节点，每秒能够处理100万个消息，包括拓扑结构每秒数百次的DB操作。Storm借助ZK对集群进行协调，使得扩展集群的大小很容易。

3，保证无数据丢失：一个实时系统必须要保证数据消息被成功的处理。对于删除数据的系统来说应用范围比较窄。Storm保证每个消息都被处理，这个可以和S4系统进行对比。

4，极其健壮：不像Hadoop系统，难以管理这点是臭名昭著的，而Storm不是这样的，它可以很好的工作。为了能够让Storm项目对于用户来说有更好的用户体验，这也是Storm致力于做的一点。

5，容错性：如果在执行计算的时候出现错误，Storm将会重新调度任务，Storm可以保证计算一直进行，除非我们将它kill掉。

6，支持语言多：强健和易伸缩实时处理系统不应该受限于平台。Storm拓扑和处理组件可以使用任何语言来定义和操作。

一分钟了解Storm

相关经验

目录