分布式/云计算/大数据 - 开源经验 - 第38页

0推荐

46K 浏览

Spark是一个由加州大学伯克利分校（UC Berkeley AMP）开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed dataset...

jopen 11年前

Spark 分布式/云计算/大数据

0推荐

28K 浏览

Storm是一个免费开源、分布式、高容错的实时计算系统。它与其他大数据解决方案的不同之处在于它的处理方式。Hadoop 在本质上是一个批处理系统，数据被引入 Hadoop 文件系统 (HDFS)...

jopen 11年前

Storm 分布式/云计算/大数据

0推荐

24K 浏览

Hadoop是一个开发和运行处理大规模数据的软件平台，是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是...

jopen 11年前

Hadoop 分布式/云计算/大数据

0推荐

44K 浏览

Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。它构建在 hadoop 的 hdfs 和 map/reduce 框架之上的，继承了 hadoop 的可伸缩性和鲁棒性。Chukwa...

jopen 11年前

分布式/云计算/大数据 Chukwa

0推荐

19K 浏览

Apache Sqoop（SQL-to-Hadoop）项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 ...

jopen 11年前

Sqoop 分布式/云计算/大数据

0推荐

19K 浏览

Spark SQL允许相关的查询如SQL，HiveQL或Scala运行在spark上。其核心组件是一个新的RDD：SchemaRDD，SchemaRDDs由行对象组成，并包含一个描述此行对象的...

jopen 11年前

Spark SQL 分布式/云计算/大数据

0推荐

54K 浏览

为了满足挖掘分析与交互式实时查询的计算需求，腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查询计算，目前腾讯大数据拥有超过200台的Spark集群...

jopen 11年前

Spark 分布式/云计算/大数据

0推荐

14K 浏览

通常在linux下手工安装openstack比较麻烦，StackOps是一个可以快速安装的Openstack解决方案。安装过程就相当于一个浓缩了的Ubuntu，只需要选择键盘布局、分区设置IP地...

jopen 11年前

分布式/云计算/大数据 StackOps

0推荐

24K 浏览

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可...

jopen 11年前

Hive 分布式/云计算/大数据

0推荐

17K 浏览

Spark实战：单节点本地模式搭建Spark运行环境

jopen 11年前

Spark 分布式/云计算/大数据

0推荐

18K 浏览

Apache Slider 是一个 YARN 应用，用于发布已有的分布式应用到 YARN 上，并对这些应用进行监控以及根据需要调整规模，即使是正在运行。

jopen 11年前

分布式/云计算/大数据 Apache Slider

0推荐

12K 浏览

Timberlake是一个Go服务器搭配React.js作为前端。它改善现有的 Hadoop job 跟踪器，通过提供正在运行和已经完成MapReduce jobs的一个轻量级实时视图。Timb...

jopen 11年前

分布式/云计算/大数据 Timberlake

0推荐

15K 浏览

TDW是基于Hadoop生态圈研发的大数据处理平台，MapReduce计算引擎在TDW平台中承担了所有的离线数据计算，是TDW最重要的底层支撑平台之一。在TDW 平台中，除了MR程序会生成Ma...

jopen 11年前

分布式/云计算/大数据 HadoopDoctor

0推荐

27K 浏览

本文假设你已经具有一定分布式计算的基础知识。你将在第一部分看到以下内容： ZooKeeper数据模型 ZooKeeper Sessions ZooKeeper Watches

jopen 11年前

ZooKeeper 分布式/云计算/大数据

0推荐

191K 浏览

大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，...

jopen 11年前

Hadoop 分布式/云计算/大数据

0推荐

27K 浏览

Hadoop2.5.0完全分布式配置(1主3从)

jopen 11年前

Hadoop 分布式/云计算/大数据

0推荐

16K 浏览

TmStorage 是一个用 .NET 开发的虚拟文件系统，用来存储流数据。使用扁平结构进行数据存储，通过类型为 GUID 的流 id 来引用数据。

jopen 11年前

存储系统分布式/云计算/大数据 TmStorage

0推荐

32K 浏览

本篇文章的内容，主要是笔者在调研分析Ceph过程中产生的一些思考。因为其中的内容比较自由发散，且大多是笔者的个人见解，故此另启一文进行讨论。

jopen 11年前

Ceph 存储系统分布式/云计算/大数据

0推荐

32K 浏览

在《“Ceph浅析”系列之二——Ceph概况》中即已提到，关注Ceph的原因之一，就是OpenStack社区对于Ceph的重视。因此，本文将对Ceph在OpenStack中的价值...

jopen 11年前

Ceph 存储系统分布式/云计算/大数据

0推荐

62K 浏览

本文将对Ceph的工作原理和若干关键工作流程进行扼要介绍。如前所述，由于Ceph的功能实现本质上依托于RADOS，因而，此处的介绍事实上也是针对 RADOS进行。对于上层的部分，特别是RADO...

jopen 11年前

Ceph 存储系统分布式/云计算/大数据

Spark：比Hadoop更强大的分布式数据计算项目

分布式流式处理框架：Storm

Hadoop：分布式计算平台初探

Chukwa:开源分布式数据收集系统

Hadoop数据传输工具：Sqoop

Spark SQL 代码简要阅读（基于Spark 1.1.0）

Spark在腾讯数据仓库TDW的应用

OpenStack 云平台架设工具：StackOps

Hive：基于hadoop的数据仓库工具

Spark实战：单节点本地模式搭建Spark运行环境

动态YARN应用：Apache Slider

Hadoop的一个Job跟踪器：Timberlake

HadoopDoctor：来自腾讯数据仓库TDW的MR诊断系统

ZooKeeper开发手册中文翻译

大数据技术大合集：Hadoop家族、Cloudera系列、spark、storm

Hadoop2.5.0完全分布式配置(1主3从)

.NET的存储引擎（虚拟文件系统）：TmStorage

“Ceph浅析”系列之(六)——关于Ceph的若干想法

“Ceph浅析”系列之(五)——Ceph与OpenStack

“Ceph浅析”系列之(四)——Ceph的工作原理及流程

热门问答

热门文档