分布式计算框架：Google Cloud Dataflow

jopen 9年前

Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法，集成了许多内部技术，如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。Dataflow当前的API还只有Java版本（其实Flume本身是提供Java/C++/Python多种接口的，MillWheel也提供Java/C++的API）。

相比原生的map-reduce模型，Dataflow有几个优点：

可以构建复杂的pipeline，在这不妨引用Google云平台的产品营销总监Brian Goldfarb的话

Cloud Dataflow可以用于处理批量数据和流数据两种。在一个世界性事件（比如演讲当中的世界杯事件）中，实时分析上百万推ter数据。在流水线的一个部阶段责读取tweet，下一个阶段负责抽取标签。另一个阶段对tweet分类（基于情感，正面负面或者其他方面）。下一个阶段过滤关键词等等。相比之下，Map/Reduce这个用来处理大数据的较早模型，处理这种实时数据已经力不从心，而且也很难应用到这种很长很复杂的数据流水线上。
不需手工配置和管理MapReduce集群。自动进行代码优化和资源调度，使得开发者的主要精力可以放在业务逻辑本身

支持从Batch到Streaming模式的无缝切换:
假设我们要根据用户在推ter上产生的内容，来实现一个hashtags自动补全的功能

Example: Auto completing hashtags  Prefix Suggestions  ar #argentina, #arugularocks, #argylesocks  arg #argentina, #argylesocks, #argonauts  arge #argentina, #argentum, #argentine

Dashboard:
还可以在developer console中了解流水线中每个环节执行的情况，每个流程框基本对应着一行代码
生态系统:
BigQuery作为存储系统是Dataflow的一个补充，经过Dataflow清洗和处理过的数据，可以在 BigQuery中存下来，同时Dataflow也可以读取BigQuery以进行表连接等操作。如果想在Dataflow上使用一些开源资源（比如说 Spark中的机器学习库），也是很方便的

为了配合Dataflow，Google Cloud Platform还为开发者提供了一系列工具，包括云保存，云调试，云追踪和云监控。

比较

Cascading/推ter Scalding：
- 传统Map-reduce只能处理单一的流，而Dataflow可以构建整个pipeline，自动优化和调度，Dataflow乍一听感觉非常像Hadoop上的Cascading(Java)/Scalding(Scala)。
- 它们的编程模型很像，Dataflow也可以很方便做本地测试，可以传一个模拟集合，在上面去迭代计算结果，这一点是传统Map-reduce望尘莫及的。
推ter Summingbird：
而将批处理和流处理无缝连接的思想又听起来很像把Scalding和Strom无缝连接起来的推ter summingbird(Scala).
Spark：
- Spark也有可以构建复杂的pipeline做一代码优化和任务调度的好处，但目前还需要程序员来配置资源分配。
- Spark在设计分布式数据集API时，模拟了Scala集合的操作API，使得额外的语法学习成本比Dataflow要低。
- 不过Dataflow似乎并没有提内存计算的事儿，而这一点可以说是Spark最本质的特征。不过它支持将Spark作为Open Source工具，连入Cloud框架作为补充。
- 分布式计算中除了Batch和Streaming，Graph也是一个重要的问题，Spark在这方面有GraphX，Dataflow在未来也会将处理Graph处理(Pregel)这块整合进去。

资源

来自：http://suanfazu.com/t/fen-bu-shi-ji-suan-kuang-jia-google-cloud-dataflow/257

分布式计算框架：Google Cloud Dataflow

比较

资源

相关经验

目录