0推荐
16K 浏览

HDFS NameNode内存全景

NameNode在整个HDFS系统架构中占据举足轻重的位置,内部数据和处理逻辑相对复杂,本文简单梳理了NameNode的内存全景及对其中几个关键数据结构,从NameNode内存核心数据视角对Na...
0推荐
32K 浏览

Kafka实战:从RDBMS到Hadoop,七步实现实时传输

本文是关于Flume成功应用Kafka的研究案例,深入剖析它是如何将RDBMS实时数据流导入到HDFS的Hive表中。
0推荐
15K 浏览

Hadoop大数据系统的七大危险信号

大多数企业大数据应用案例尚处于实验和试点阶段,对于少数首次在生产环境部署Hadoop系统的用户来说,最常遇到的就是扩展问题,此类问题往往导致企业因噎废食,终止大数据应用项目。
0推荐
57K 浏览

让Spark如虎添翼的Zeppelin - 基础篇

Spark 是一个非常好的计算平台,支持多种语言,同时基于内存的计算速度也非常快。整个开源社区也很活跃。
0推荐
48K 浏览

饿了么分布式服务治理及优化经验

今天我想站在一个大的角度上,看一下饿了么最近一年多的时间,经历的技术上一些痛苦的问题与改进的过程。
0推荐
13K 浏览

公测与奥运同行,云服务总线CSB:“连”无边界

本文主要谈及了服务互通开放典型问题,也介绍了企业业务能力API化,着重说明了云服务总线CSB的服务处理过程,最后概括了综合场景。
0推荐
17K 浏览

深入浅出Spark(二) 什么是RDD

RDD的官方定义RDD是Spark中的数据抽象,意思是弹性分布式数据集。在逻辑上是一个数据集,在物理上则可以分块分布在不同的机器上并发运行。
0推荐
19K 浏览

使用Akka、Kafka和ElasticSearch等构建分析引擎

在这篇文章里,我将和大家分享一下我用Scala、Akka、Play、Kafka和ElasticSearch等构建大型分布式、容错、可扩展的分析引擎的经验。
0推荐
65K 浏览

Kudu:支持快速分析的新型Hadoop存储系统

Kudu 是 Cloudera 开源的新型列式存储系统,是 Apache Hadoop 生态圈的新成员之一( incubating ),专门为了对快速变化的数据进行快速的分析,填补了以往 Had...
0推荐
12K 浏览

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只...
0推荐
120K 浏览

Mercury:唯品会全链路应用监控系统解决方案详解(含 PPT)

唯品会有三大特点,特卖 + 闪购 + 正品,在唯品会,峰值访问量非常大,这样的流量,使得唯品会平台架构部承担非常大的挑战,包括我今天分享的全链路监控系统。
0推荐
22K 浏览

英语流利说基础数据平台

随着大数据产品的日益成熟与稳定,如今不少互联网公司在数据产品所投入的运维工作已经越来越少,另外,加上国内云服务的不断普及,建立一套自己的大数据基础平台的成本也将变的更低。本文将向大家简要介绍流利...
0推荐
30K 浏览

关于分布式存储,这是你应该知道的

分布式存储存在的风险,其实就是因为“共享”、“大数据量”、“高性能”和X86服务器+廉价的磁盘为载体之间的矛盾所产生的,不是有些读者说的“数据架构”的问题。其实任何存储都存在这个问题,只是分布式存储更严重。
0推荐
16K 浏览

分布式队列编程优化篇

“分布式队列编程”是一个系列文,之前我们已经发布了《分布式队列编程模型、实战》,主要剖析了分布式队列编程模型的需求来源、定义、结构以及其变化多样性;根据作者在新美大实际工作经验,给出了队列式编程...
0推荐
21K 浏览

分布式队列编程模型、实战

作为一种基础的抽象数据结构,队列被广泛应用在各类编程中。大数据时代对跨进程、跨机器的通讯提出了更高的要求,和以往相比,分布式队列编程的运用几乎已无处不在。
0推荐
25K 浏览

作为大数据工程师,你必须熟练运用的性能优化技术

最近几年一直参与大数据产品的研发,同时大数据产品在海量数据场景下其处理性能又是其主要的卖点和突破,所以个人在这几年经常忙于如何对大数据产品进行性能上面的优化,并且想通过本文和大家聊聊具体的几种比...
0推荐
13K 浏览
0推荐
7K 浏览

云端数据迁移的9条安全建议

当迁移到新的云端环境时,公司需要谨慎地估量一下服务商的安全性,以及自己公司的内部政策。很多公司不会花时间考虑和其他组织共享云端资源的风险,以及那些数据中心的安全政策。
0推荐
12K 浏览

Apache Geode —— 数据管理平台

Apache Geode (incubating) 是一个数据管理平台,提供实时的、一致的、贯穿整个云架构地访问数据关键型应用.
0推荐
15K 浏览

Meson:支持Netflix的机器学习工作流

Netflix的目标是能预测顾客之所想观看的电影,也即推荐预测。为了做到这一点,每天会运行大量机器学习工作流,而为了支撑创建这么多机器学习工作流和有效利用资源,Netflix的工程师开发了Meson。
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档