0推荐
46K 浏览

Spark:比Hadoop更强大的分布式数据计算项目

Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed dataset...
0推荐
28K 浏览

分布式流式处理框架:Storm

Storm是一个免费开源、分布式、高容错的实时计算系统。它与其他大数据解决方案的不同之处在于它的处理方式。Hadoop 在本质上是一个批处理系统,数据被引入 Hadoop 文件系统 (HDFS)...
0推荐
24K 浏览

Hadoop:分布式计算平台初探

Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海 量数据进行分布式计算。Hadoop框架中最核心设计就是...
0推荐
44K 浏览

Chukwa:开源分布式数据收集系统

Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。它构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩性和鲁棒性。Chukwa...
0推荐
19K 浏览

Hadoop数据传输工具:Sqoop

Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 ...
0推荐
19K 浏览

Spark SQL 代码简要阅读(基于Spark 1.1.0)

Spark SQL允许相关的查询如SQL,HiveQL或Scala运行在spark上。其核心组件是一个新的RDD:SchemaRDD,SchemaRDDs由 行对象组成,并包含一个描述此行对象的...
0推荐
54K 浏览

Spark在腾讯数据仓库TDW的应用

为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查 询计算,目前腾讯大数据拥有超过200台的Spark集群...
0推荐
14K 浏览

OpenStack 云平台架设工具:StackOps

通常在linux下手工安装openstack比较麻烦,StackOps是一个可以快速安装的Openstack解决方案。安装过程就相当于一个浓缩了的Ubuntu,只需要选择键盘布局、分区设置IP地...
0推荐
24K 浏览

Hive:基于hadoop的数据仓库工具

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件 映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可...
0推荐
17K 浏览

Spark实战:单节点本地模式搭建Spark运行环境

Spark实战:单节点本地模式搭建Spark运行环境
0推荐
18K 浏览

动态YARN应用:Apache Slider

Apache Slider 是一个 YARN 应用,用于发布已有的分布式应用到 YARN 上,并对这些应用进行监控以及根据需要调整规模,即使是正在运行。
0推荐
12K 浏览

Hadoop的一个Job跟踪器:Timberlake

Timberlake是一个Go服务器搭配React.js作为前端。它改善现有的 Hadoop job 跟踪器,通过提供正在运行和已经完成MapReduce jobs的一个轻量级实时视图。Timb...
0推荐
15K 浏览

HadoopDoctor:来自腾讯数据仓库TDW的MR诊断系统

TDW是基于Hadoop生态圈研发的大数据处理平台,MapReduce计算 引擎在TDW平台中承担了所有的离线数据计算,是TDW最重要的底层支撑平台之一。在TDW 平台中,除了MR程序会生成Ma...
0推荐
27K 浏览

ZooKeeper开发手册中文翻译

本文假设你已经具有一定分布式计算的基础知识。你将在第一部分看到以下内容: ZooKeeper数据模型 ZooKeeper Sessions ZooKeeper Watches
0推荐
191K 浏览

大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好 的架构大数据项目,这里整理一下,供技术人员,项目经理,...
0推荐
27K 浏览

Hadoop2.5.0完全分布式配置(1主3从)

Hadoop2.5.0完全分布式配置(1主3从)
0推荐
16K 浏览

.NET的存储引擎(虚拟文件系统):TmStorage

TmStorage 是一个用 .NET 开发的虚拟文件系统,用来存储流数据。使用扁平结构进行数据存储,通过类型为 GUID 的流 id 来引用数据。
0推荐
32K 浏览

“Ceph浅析”系列之(六)——关于Ceph的若干想法

本篇文章的内容,主要是笔者在调研分析Ceph过程中产生的一些思考。因为其中的内容比较自由发散,且大多是笔者的个人见解,故此另启一文进行讨论。
0推荐
32K 浏览

“Ceph浅析”系列之(五)——Ceph与OpenStack

在 《“Ceph浅析”系列之二——Ceph概况》中即已提到,关注Ceph的原因之一,就是OpenStack社区对于Ceph的重视。因此,本文将对Ceph在OpenStack中的价值...
0推荐
62K 浏览

“Ceph浅析”系列之(四)——Ceph的工作原理及流程

本文将对Ceph的工作原理和若干关键工作流程进行扼要介绍。如前所述,由于Ceph的功能实现本质上依托于RADOS,因而,此处的介绍事实上也是针对 RADOS进行。对于上层的部分,特别是RADO...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档