0推荐
24K 浏览

Algolia的分布式搜索网络架构

Algolia是一家做离线移动搜索引擎的公司,两年时间构建了世界范围的分布式网络。今天为世界12个区域每月20亿用户查询,平均服务器时间为6.7ms,90%的查询应答<15ms,不可用率低于十的...
0推荐
15K 浏览

不得不了解的Hadoop知识

在去年曾经列出了一张应当了解的Hadoop 知识清单。如今2015年也已经少了两个月,我认为我现在应当检查一下大家对Hadoop的了解情况,同时在清单内容中增加一些技术。
0推荐
22K 浏览

ZooKeeper运维经验

ZooKeeper 是分布式环境下非常重要的一个中间件,可以完成动态配置推送、分布式 Leader 选举、分布式锁等功能。在运维 AliExpress ZooKeeper 服务的一年多来
0推荐
30K 浏览

十八款Hadoop工具帮你驯服大数据

Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道。这套核心 的价值已经被广泛证实,目前大量项目如雨后春笋般围...
0推荐
37K 浏览

zookeeper 分布式锁的实现

临时顺序节点,这种类型的节点有几下几个特性: 节点的生命周期和客户端会话绑定,即创建节点的客户端会话一旦失效,那么这个节点也会被清除。 每个父节点都会负责维护其子节点创建的先后顺序,并且如果...
0推荐
16K 浏览

Impala与Hive的比较

Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行...
0推荐
26K 浏览

HDFS-RAID原理和实现

HDFS-RAID 是Facebook基于hadoop-20-append分支(第一代Hadoop)开发的raid方案,对HDFS的修改极少,主要包括为NameNode增加了根据block信息找...
0推荐
22K 浏览

zookeeper 集群安装和配置

zookeeper 集群安装和配置
0推荐
38K 浏览

大数据领域一些实用工具

大数据指的是海量数据的分析处理,可能是EB级的数量处理,我们之前也提到过大数据拥有4V特性,Volume(大量)、Velocity(高 速)、Variety(多样)、Value(价值),对于大数...
0推荐
26K 浏览

一篇文章读懂大数据的黄色小象帮手––Hadoop

继云计算之后,大数据(Big Data)接棒成为最热门的科技潮字,和大数据有关的技术和科技接二连三成为科技圈注目的焦点。如果你也关注云端跟大数据的资讯,Hadoop 这个字出现频率一定挺高的,这...
0推荐
23K 浏览

资源管理框架(mesos/YARN/coraca/Torca/Omega)分析

1 资源调度的目标和价值 1.1 子系统高效调度 任务之间资源隔离,减少争抢。 任务分配调度时结合资源分配,各个任务分配合理的资源,充分利用系统资源,减少资源利用不充分的问题。 ...
0推荐
21K 浏览

轻量化的分布式服务框架 Hasor-RSF 盘点

一个轻量化的分布式服务框架,相信这类框架已经不是什么新鲜事物,可用的替代方案有很多这里就不多说了,说一下RSF解决的问题把。
0推荐
326K 浏览

开源大数据处理系统/工具大全

本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。
0推荐
49K 浏览

Storm和Spark Streaming框架对比

Storm和Spark Streaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的,正如你将要在下文看到的。
0推荐
33K 浏览

多图技术贴:深入浅出解析大数据平台架构

什么是大数据 Hadoop介绍-HDFS、MR、Hbase 大数据平台应用举例-腾讯 公司的大数据平台架构
0推荐
11K 浏览

许鹏:Standalone部署模式下临时文件的生成和清除

Spark运行过程中资源的申请和释放一直是源码分析时需要关注的重点,从资源种类上来说,有CPU、内存、网络、磁盘,其中前三者会在进程退出时由OS来负责释放。而占用的磁盘资源,如果Spark自身不...
0推荐
30K 浏览

述说我的Hadoop成长路线

还在实验室时,老师就建议看google关于大数据的三篇论文,啃了好长时间还是没完全理解。也动手搭建了Hadoop集群,运行了wordcount,带着“Hadoop会火“的指示离开了实验室。
0推荐
51K 浏览

三个大数据处理框架:Storm,Spark和Samza 介绍比较

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。
0推荐
48K 浏览

百度开源的BigTable实现:Tera - 分布式表格系统

Tera实现了按行key、列和时间戳全局排序的三维数据模型,并且针对万兆网卡和SSD进行了优化,适合海量记录(万亿量级)的持久存储和高效随机访问。
0推荐
19K 浏览

OpenStack 集群部署工具:ProStack

项目名称:ProStack 功能:自动化安装部署带有HA的 OpenStack 集群。
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档