登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
分布式/云计算/大数据
(共
1277
篇经验)
0
推荐
46K
浏览
Spark:比Hadoop更强大的分布式数据计算项目
Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed dataset...
jopen
11年前
Spark
分布式/云计算/大数据
0
推荐
28K
浏览
分布式流式处理框架:Storm
Storm是一个免费开源、分布式、高容错的实时计算系统。它与其他大数据解决方案的不同之处在于它的处理方式。Hadoop 在本质上是一个批处理系统,数据被引入 Hadoop 文件系统 (HDFS)...
jopen
11年前
Storm
分布式/云计算/大数据
0
推荐
24K
浏览
Hadoop:分布式计算平台初探
Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海 量数据进行分布式计算。Hadoop框架中最核心设计就是...
jopen
11年前
Hadoop
分布式/云计算/大数据
0
推荐
44K
浏览
Chukwa:开源分布式数据收集系统
Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。它构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩性和鲁棒性。Chukwa...
jopen
11年前
分布式/云计算/大数据
Chukwa
0
推荐
19K
浏览
Hadoop数据传输工具:Sqoop
Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 ...
jopen
11年前
Sqoop
分布式/云计算/大数据
0
推荐
19K
浏览
Spark SQL 代码简要阅读(基于Spark 1.1.0)
Spark SQL允许相关的查询如SQL,HiveQL或Scala运行在spark上。其核心组件是一个新的RDD:SchemaRDD,SchemaRDDs由 行对象组成,并包含一个描述此行对象的...
jopen
11年前
Spark SQL
分布式/云计算/大数据
0
推荐
54K
浏览
Spark在腾讯数据仓库TDW的应用
为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查 询计算,目前腾讯大数据拥有超过200台的Spark集群...
jopen
11年前
Spark
分布式/云计算/大数据
0
推荐
14K
浏览
OpenStack 云平台架设工具:StackOps
通常在linux下手工安装openstack比较麻烦,StackOps是一个可以快速安装的Openstack解决方案。安装过程就相当于一个浓缩了的Ubuntu,只需要选择键盘布局、分区设置IP地...
jopen
11年前
分布式/云计算/大数据
StackOps
0
推荐
24K
浏览
Hive:基于hadoop的数据仓库工具
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件 映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可...
jopen
11年前
Hive
分布式/云计算/大数据
0
推荐
17K
浏览
Spark实战:单节点本地模式搭建Spark运行环境
Spark实战:单节点本地模式搭建Spark运行环境
jopen
11年前
Spark
分布式/云计算/大数据
0
推荐
18K
浏览
动态YARN应用:Apache Slider
Apache Slider 是一个 YARN 应用,用于发布已有的分布式应用到 YARN 上,并对这些应用进行监控以及根据需要调整规模,即使是正在运行。
jopen
11年前
分布式/云计算/大数据
Apache Slider
0
推荐
12K
浏览
Hadoop的一个Job跟踪器:Timberlake
Timberlake是一个Go服务器搭配React.js作为前端。它改善现有的 Hadoop job 跟踪器,通过提供正在运行和已经完成MapReduce jobs的一个轻量级实时视图。Timb...
jopen
11年前
分布式/云计算/大数据
Timberlake
0
推荐
15K
浏览
HadoopDoctor:来自腾讯数据仓库TDW的MR诊断系统
TDW是基于Hadoop生态圈研发的大数据处理平台,MapReduce计算 引擎在TDW平台中承担了所有的离线数据计算,是TDW最重要的底层支撑平台之一。在TDW 平台中,除了MR程序会生成Ma...
jopen
11年前
分布式/云计算/大数据
HadoopDoctor
0
推荐
27K
浏览
ZooKeeper开发手册中文翻译
本文假设你已经具有一定分布式计算的基础知识。你将在第一部分看到以下内容: ZooKeeper数据模型 ZooKeeper Sessions ZooKeeper Watches
jopen
11年前
ZooKeeper
分布式/云计算/大数据
0
推荐
191K
浏览
大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好 的架构大数据项目,这里整理一下,供技术人员,项目经理,...
jopen
11年前
Hadoop
分布式/云计算/大数据
0
推荐
27K
浏览
Hadoop2.5.0完全分布式配置(1主3从)
Hadoop2.5.0完全分布式配置(1主3从)
jopen
11年前
Hadoop
分布式/云计算/大数据
0
推荐
16K
浏览
.NET的存储引擎(虚拟文件系统):TmStorage
TmStorage 是一个用 .NET 开发的虚拟文件系统,用来存储流数据。使用扁平结构进行数据存储,通过类型为 GUID 的流 id 来引用数据。
jopen
11年前
存储系统
分布式/云计算/大数据
TmStorage
0
推荐
32K
浏览
“Ceph浅析”系列之(六)——关于Ceph的若干想法
本篇文章的内容,主要是笔者在调研分析Ceph过程中产生的一些思考。因为其中的内容比较自由发散,且大多是笔者的个人见解,故此另启一文进行讨论。
jopen
11年前
Ceph
存储系统
分布式/云计算/大数据
0
推荐
32K
浏览
“Ceph浅析”系列之(五)——Ceph与OpenStack
在 《“Ceph浅析”系列之二——Ceph概况》中即已提到,关注Ceph的原因之一,就是OpenStack社区对于Ceph的重视。因此,本文将对Ceph在OpenStack中的价值...
jopen
11年前
Ceph
存储系统
分布式/云计算/大数据
0
推荐
62K
浏览
“Ceph浅析”系列之(四)——Ceph的工作原理及流程
本文将对Ceph的工作原理和若干关键工作流程进行扼要介绍。如前所述,由于Ceph的功能实现本质上依托于RADOS,因而,此处的介绍事实上也是针对 RADOS进行。对于上层的部分,特别是RADO...
jopen
11年前
Ceph
存储系统
分布式/云计算/大数据
1
2
3
4
5
6
7
8
9
10
经验分享,提升职场影响力
投稿
热门问答
热门文档