Spark之后，谁将接手大数据_开源_张天雷

【ArchSummit架构师峰会】基于大模型的基础框架、中台、应用层等专题全覆盖 >>> 了解详情 



 写点什么

随着智能终端数量的极速增加，大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值，Apache 基金会提出了 Hadoop 平台。该平台的 MapReduce 框架一步步发展，已经成为大数据处理的核心技术。然而，MapReduce 刚刚“称霸”大数据不久， Spark 就迅速崛起。其超高的性能和易用性很快吸引了业界的注意，并使得很多公司开始放弃 MapReduce。据预测，Spark 将会在五年以后全面替代MapReduce。由此可见，大数据领域日新月异，技术更迭十分迅速。那么，在Spark 之后，什么技术会接手之后的大数据处理呢？接下来，本文就对该问题进行一定的探讨。

作为Apache 基金会所开发的分布式处理平台，Hadoop 最核心的设计包括HDFS 分布式文件系统和分布式计算框架MapReduce。MapReduce 一步步完善，终于成为大数据处理中的核心技术。Hadoop 也以其低成本、高扩展性、靠可靠性以及靠容错性等优点，成为主流的大数据处理平台。然而，2009 年由伯克利大学提出的Spark 项目，异军突起。在不到7 年之间内，Spark 经历了从研究性项目，到Apache 基金项目，进而顶级项目的过程。Cloudera 社区的领军人物 Justin Kestelyn 甚至预测，Spark 将会在五年后彻底替代 MapReduce。而十年之后，MapReduce 将会成为业界的回忆。

Kestelyn 提到，Spark 崛起有着其必然的原因——它存在三个方面的核心优势。

首先，Spark 为 Scala、Java 和 Python 语言提供了丰富而统一的 API 接口，使其代码量比 MapReduce 可减少 50%-80%。
其次，Spark 为批处理和流处理也提供了统一的 API。
最重要的方面是，Spark 的性能要大大优于 MapReduce。其访问内存数据的速度是 MapReduce 的 100 倍，而访问磁盘的速度也是 MapReduce 的 10 倍。由此可见，Spark 替代 MapReduce 已成为必然趋势。

那么，在日新月异的大数据领域，Spark 又能主导分布式计算多久呢？之后，又是那种技术替代 Spark 呢？MongoDB 的副总裁 Kelly Stirman 曾表示，大数据领域的上一次飞跃源于对昂贵的计算和存储的优化，而其下一次变革肯定与相关目前昂贵的工程人员相关。未来，更易上手的技术将会竞争力越强，更易吸引广大用户的注意。Databricks 的联合创始人 Ion Stoica 表示，Spark 的成功就与其易用性密切相关。Adobe 公司移动应用方面的副总裁 Matt Asay 也认为，易用性必然会成为未来大数据领域竞争的热点。那么，能够在未来主导大数据处理的技术也必然是在易用性方面做的最好的一个。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群）。

发布

暂无评论

创作场景

Spark 之后，谁将接手大数据

评论

Go服务错误堆栈收集降频策略

Excelize 发布 2.6.0 版本，功能强大的 Excel 文档基础库

使用和风天气 API 10分钟搭建天气预报数据看板

《手写Mybatis》第4章：Mapper XML的解析和注册使用

为啥JS/TS里都会有"use strict"

脉冲能量｜Committer 专访——李理：Apache Pulsar 项目“体验师”

架构实战营-模块二作业

B 端 SaaS 产品自动化事件设计 - 规则表达式

快速尝鲜：RabbitMQ 搭建完就得用起来

超nei卷！连黑客勒索软件团伙都开始谈客户体验…

净推荐值(NPS)完整行动指南

模块二：微信朋友圈高性能复杂度分析

一文了解垃圾回收算法中的引用计数算法

自己动手写Docker系列 -- 5.5实现容器停止

10个商品图策略，引导亚马逊卖家提升客户购物体验

企业知识管理的解决方案

微信朋友圈的高性能复杂度

微信朋友券的高性能复杂度

Test

华为云GaussDB(for Influx)揭秘第五期：最佳实践之子查询

状态机引擎在vivo营销自动化中的深度实践 | 引擎篇02

架构实战营作业 - 模块二

13个问题帮你选型 “客户体验管理SaaS平台”

不写代码，带你徒手开发一个健康打卡应用

模块二作业：微信朋友圈高性能复杂度分析

直播预告｜MobTech携手中国信通院共话数据治理建设实践

Linux驱动开发-编写PCF8591(ADC)芯片驱动

spring-cloud 链路追踪

十年磨一剑，墨菲安全正式发布开源项目murphysec

[Day11]-[动态规划]让字符串成为回文串的最少插入次数

阿里二面：携程配置中心Apollo服务端是如何感知配置变化的

创作场景

Spark 之后，谁将接手大数据

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载