0推荐
12K 浏览

让云平台更加兼容 OpenStack:JumpGate

JumpGate是IBM开发的用来解决云管理生态系统碎片化问题的中间件工具,用来吸引更多的云服务商支持OpenStack应用(即使他们没有部署OpenStack)。
0推荐
22K 浏览

一个开源的Dropbox:Quilter

将一个文件目录映射到 CouchDB/Cloudant 数据库中。这是说,它是一个开源的Dropbox。
0推荐
26K 浏览

Azure Storage架构介绍

Windows Azure Storage由三个重要部分或者说三种存储数据服务组成,它们是:Windows Azure Blob、Windows Azure Table和Windows Azur...
0推荐
44K 浏览

开源的应用容器引擎:Docker

Docker是一个开源的应用容器引擎,让开发者可以打包其应用以及依赖包到一个可移植的容器中,然后发布到任意Linux发行版,也可实现虚拟 化。容器完全使用了沙箱机制,相互之间不会有任何接口(类似...
0推荐
35K 浏览

开源分布式的时序:InfluxDB

InfluxDB是一个开源分布式的时序、事件和指标数据库。InfluxDB使用Go语音编写,无需外部依赖。其设计目标是实现分布式和水平伸缩扩展。
0推荐
51K 浏览

把物联网和云计算相结合的开源解决方案:OpenIoT

OpenIoT是把物联网和云计算相结合的开源解决方案,OpenIoT项目专注于提供一个开源的中间件框架,使得云环境中的物联网IoT应用能实现公式化的自管理。因此,OpenIoT中间件框架将作为物...
0推荐
12K 浏览

Pig 常用操作

我们看看Pig的常用操作。 所有命令和脚本都在Pig 0.12.0 & Hadoop 2.2.0下测试通过。
0推荐
18K 浏览

Pig用户自定义函数(UDF)

我们以气温统计和词频统计为例,讲解以下三种用户自定义函数。
0推荐
13K 浏览

Pig基础

上一节讲到了Pig的分组(group)和筛选(filter),让人感觉这种用法和数据库的SQL差不多。实际上Pig和传统的关系型数据库以及SQL语言是有很明显区别的。我们逐个讲解。
0推荐
20K 浏览

Pig安装及简单实例

前面讲到了如何用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式...
0推荐
19K 浏览

Hadoop集群设置

设置dfs.name.dir 时,通过逗号分隔多个值,可以使namenode将元数据存储到多个副本,以便namenode出错时恢复。 dfs.data.dir也可设置多个目录,但是其目的不是为...
0推荐
28K 浏览

Hadoop2.2.0 单节点安装

如果是基于学习的目的而需要使用Hadoop,建议下载Linux虚拟机,比如Ubuntu,然后在虚拟机中安装Hadoop。
0推荐
70K 浏览

spark读取hbase数据做分布式计算

由于spark提供的hbaseTest是scala版本,并没有提供java版。我将scala版本改为java版本,并根据数据做了些计算操作。 程序目的:查询出hbase满足条件的用户,统...
0推荐
107K 浏览

最详细的hadoop2.2.0集群的HA高可靠的最简单配置

hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了...
0推荐
13K 浏览

Openstack命令收集

Openstack命令收集
0推荐
13K 浏览

Twitter 流处理框架:Summingbird

Summingbird是一个库,能够让你编写 MapReduce 程序看起来像原生的 Scala 或 Java 集合。并在一些著名的分布式MapReduce平台上转换并执行他们,包括 Storm...
0推荐
17K 浏览

类似Docker的容器项目:CBSD

CBSD 是基于FreeBSD的Jail机制,用Shell和C编写了类似Docker的容器项目CBSD。旨在统一racct(8), vnet, zfs(8), carp(4), hastd(8)...
0推荐
14K 浏览

用 Hadoop 进行分布式并行编程, 第 2 部分

“用 Hadoop 进行分布式并行编程 第一部分 基本概念与安装部署”中,介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 H...
0推荐
41K 浏览

用 Hadoop 进行分布式并行编程, 第 1 部分

Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distribu...
0推荐
54K 浏览

Apache Spark 的R语言前端:SparkR

SparkR是一个R语言包提供了一个轻量级的前端,用于从R语言中使用Apache Spark。SparkR通过RDD类暴露Spark API,允许用户以交互方式在集群上从 R shell 运行jobs 。
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档