FinOps有望降低企业50%+的云成本! 了解详情
写点什么

分布式流处理框架 Apache Samza 成为 Apache 的顶级项目

  • 2015-02-05
  • 本文字数:1413 字

    阅读完需:约 5 分钟

Apache Samza 是一个开源、分布式的流处理框架,它使用开源分布式消息处理系统 Apache Kafka 来实现消息服务,并使用资源管理器 Apache Hadoop YARN 实现容错处理、处理器隔离、安全性和资源管理。近日,从 Apache 官方博客中得知,开源的分布式流处理框架 Samza 历经 18 个月的孵化期后终于升级成为 Apache 的顶级项目。Samza 由 LinkedIn 于 2013 年 9 月开源并作为孵化项目贡献给Apache。

LinkedIn 的工程部和运营部的高级副总裁 Kevin Scott 在公布消息的博文中说到:

Samza 能够被广泛的使用并成为 Apache 的顶级项目真是令人兴奋,开发 Samza 是为了帮助解决 LinkedIn 流数据处理高性能的挑战,Samza 已经成为 LinkedIn 业务架构的核心部分。

Improve Digital 的 CTO Garry Turkington 在博文中说到:

Improve Digital 已经积累了丰富的 Samza 经验,这使得 Improve
Digital 使用 Samza 能够构建出功能强大的流数据处理平台。此外,Samza 能够升级成为 Apache 顶级项目真是太棒了。

Samza 非常适用于实时流数据处理的业务(如同 Apache Storm ),如数据跟踪、日志服务、实时服务等应用,它能够帮助开发者进行高速消息处理, 同时还具有良好的容错能力。在 Samza 流数据处理过程中,每个 Kafka 集群都与一个能运行 Yarn 的集群相连并处理 Samza 作业。Samza 的一个简单处理过程如下图所示:

Samza 的主要特征如下:

  • 简单的 API:Samza 提供了一个简单基于回调且兼容 MapReduce 的消息处理 API。
  • 状态管理:Samza 提供了一个基于 LevelDB 的 Key/Value 数据库来存储历史数据,从而实现了有状态的消息管理。
  • 容错处理:每当集群中的一台机器发生故障时,YARN 将会透明地将相关任务迁移到其他机器上。
  • 持久性:Samza 使用 Kafka 保证消息的有序处理,并能够持久化到分区,不存在发生消息的丢失的可能。
  • 可扩展性:Samza 在每个层结构都是可分区和分布式的,Kafka 提供了有序、可分区、可追加、容错的流;YARN 提供了一个分布式、供 Samza 运行的容器环境。
  • 可插拔 / 开箱即用:Samza 提供了一个可插拔特性的 API,该 API 使得 Samza 不仅能够使用 Kafka 和 YARN,还能够使用其他的消息系统和执行环境。
  • 资源隔离:通过使用 YARN 实现了对 Hadoop 安全模型和资源隔离的支持。

LinkedIn、Microsoft、 Confluent 、Oracle、 Hortonworks Uber Improve Digital 等众多著名公司都在为 Samza 贡献代码。Samza 已在商务智能(BI)、金融服务、医疗保健、安全服务、移动应用、软件开发等行业得到了广泛应用,其用户包括企业移动应用提供商 DoubleDutch 、欧洲领先的实时广告技术提供商 Improve Digital、金融服务公司 Jack Henry & Associates 、移动商务解决方案提供商 MobileAware 、基于云的微服务提供商 Quantiply 、社交媒体商务智能解决方案提供商 VinTank 等。

此外,实时 / 流计算框架除了 Samza 外,还包括 Google Dremel Apache Drill 、Apache Storm 以及 Apache S4 等。有兴趣的读者可以通过官方提供的 Hello Samza 工程尝试下 Samza,或者参见 Background 页面以获得更多关于 Samza 的信息。读者还可以阅读 LinkedIn 资深 SRE Jon Bringhurst 发表的一篇博文,该篇博文主要阐述了LinkedIn 是如何利用Samza 与Yarn、Kafka 进行扩展的,它能够帮助大家深一步地了解Samza。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2015-02-05 10:084259
用户头像

发布了 46 篇内容, 共 50.2 次阅读, 收获喜欢 14 次。

关注

评论

发布
暂无评论
发现更多内容

如何搭建短视频app源码,实现短视频内容的播放优化

开源直播系统源码

APP开发 短视频源码

什么是加密?有哪些加密类型和加密算法?逆天原创神作,值得一读!

wljslmz

加密 密码学 加密算法 网络技术 6月月更

系统运维 SIG 直播: libbpf 编译平台 LCC——eBPF从入门到享受 | 第 20 期

OpenAnolis小助手

Linux 运维 内核 ebpf LCC

优酷端侧弹幕穿人技术实战之:PixelAI移动端实时人像分割

阿里巴巴文娱技术

音视频 弹幕 人像 移动端 移动端开发

刘勇智:一码通缺陷分析与架构设计方案丨声网开发者创业讲堂 Vol.02

声网

架构 创业讲堂

SpringBoot官方支持任务调度框架,轻量级用起来也挺香!

沉默王二

Java springboot

java培训流Stream循环遍历list

@零度

stream JAVA开发

我常用的两个翻译神器!程序员必备 | JavaGuide

JavaGuide

基于 spring-cloud-k8s 跨NS坑续集

Damon

微服务架构 云原生 6月月更

GIT 常见问题

甜甜的白桃

git 版本管理 6月月更

写入速度提升数十倍,TDengine 在拓斯达智能工厂解决方案上的应用

TDengine

数据库 tdengine 时序数据库

电商后台权限设置有哪些规范你知道吗!

CRMEB

数字货币持币生息质押理财dapp系统开发

开发微hkkf5566

使用 JavaScript 开发AR(增强现实)移动应用的预备知识和环境搭建

Jerry Wang

JavaScript AR SAP 增强现实 6月月更

【LeetCode】爱吃香蕉的珂珂Java题解

Albert

LeetCode 6月月更

一二三线互联网公司划分标准和榜单

laofo

研发效能 互联网公司 一线大厂 二线互联网 一线互联网

这本书押中了2022北京高考作文题!

博文视点Broadview

架构实战营|模块3

KDA

#架构实战营

C#/VB.NET 在Word中设置纯色/渐变/图片背景

在下毛毛雨

C# .net word文档 背景设置

JavaScript原型链继承与盗用构造函数继承

大熊G

JavaScript 前端 6月月更

Web Service进阶(七)浅谈SOAP Webservice和RESTful Webservice

No Silver Bullet

6月月更 SOAP Webservice RESTful Webservice

聚焦中国算力大会 | 浪潮集团肖雪: 数字化转型新场景激发算力需求

浪潮云

云计算

网络七层结构是干啥的? 看这篇文章就够了

郑州埃文科技

TCP/IP 网络结构 传输网络

OA协同办公系统的发展趋势

力软低代码开发平台

模块八:作业

本人法海

「架构实战营」

Linux驱动开发_倒车影像项目介绍

DS小龙哥

6月月更

【Python技能树共建】正则表达式

梦想橡皮擦

6月月更

面试突击55:delete、drop、truncate有什么区别?

王磊

Java 面试

帮助中心对企业有用吗?要不要做帮助中心页面?

小炮

SAS击球实验室向青少年展示数据与分析的价值

E科讯

Vue 中 JSX 的基本用法

CRMEB

  • 需要帮助,请添加网站小助手,进入 InfoQ 技术交流群
分布式流处理框架Apache Samza成为Apache的顶级项目_开源_李小兵_InfoQ精选文章