0推荐
20K 浏览

MongoDB Hadoop Adapter

Hadoop的MongoDB适配器。需要MongoDB Java Driver 2.7.3+支持。
0推荐
45K 浏览

HDFS文件操作

HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用...
0推荐
86K 浏览

Hadoop在Windows环境下的部署

经过一整天的折腾,参考了网上很多资料,我机器上的Hadoop似乎是配置成功了。下面分享一下详细的配置过程。也祝愿大家在配置的过程中少走弯路。
0推荐
26K 浏览

使用 Apache Pig 处理数据

Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Had...
0推荐
21K 浏览

分布式的数据存储平台 PNUTS

Yahoo!的PNUTS是一个分布式的数据存储平台,它是 Yahoo!云计算平台重要的一部分。它的上层产品通常也称为Sherpa。按照官方的 描述,”PNUTS, a massively par...
0推荐
16K 浏览

分布式key/value存储系统 BeansDB

BeansDB 是一个主要针对大数据量、高可用性的分布式KeyValue存储系统,采用HashTree和简化的版本号来快速同步保证最终一致性(弱),一个简化版的 Dynamo (Dynamo 是...
0推荐
102K 浏览

HBase 在淘宝的应用和优化小结

hbase是从hadoop中分离出来的apache顶级开源项目。由于它很好地用java实现了google的bigtable系统大部分特性,因此在 数据量猛增的今天非常受到欢迎。对于淘宝而言,随着...
0推荐
35K 浏览

Hive 安装过程

Hive 安装过程
0推荐
90K 浏览

Spring Hadoop - 整合Spring框架和Apache Hadoop平台的开源项目

这个项目整合了 Spring 框架和 Apache Hadoop 平台。该项目提供了一种方便的机制,让我们可以通过 Spring 容器来配置、创建和执行各种各样的服务和工具,像 MapReduc...
0推荐
244K 浏览

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝(TFS)

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝(TFS)
0推荐
27K 浏览

Spring Hadoop - 为开发 Apache Hadoop 应用程序提供支持

Spring Hadoop为开发 Apache Hadoop 应用程序提供支持,充分利用不着Spring, Spring Batch 和 Spring Integration 等项目提供的功能。
0推荐
29K 浏览

分布式文件系统介绍( MooseFS )

MooseFS 是一个高容错性的分布式文件系统,它能够将资源分布存储于几台不同的物理介质,对外只提供给用户一个访问接口。
0推荐
45K 浏览

基于Hadoop的数据收集系统 - Chukwa

什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chu...
0推荐
53K 浏览

MapReduce程序reduce输出控制

在hadoop中,reduce支持多个输出,输出的文件名也是可控的,就是继承MultipleTextOutputFormat类,重写generateFileNameForKey方法
0推荐
27K 浏览

Hadoop入门 - Linux下伪分布式计算的安装与wordcount的实例展示

本人是在ubuntu下进行实验的,java和ssh安装就不在这里讲了,这两个是必须要安装的,好了我们进入主题安装hadoop。
0推荐
57K 浏览

Hadoop Distributed System (HDFS) 写入和读取流程

HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、...
0推荐
67K 浏览

Hadoop - 你不得不了解的大数据工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。
0推荐
48K 浏览

Hadoop快速部署工具 EasyHadoop

EasyHadoop 是一个Hadoop一键安装脚本,方便大家更容易安装部署Hadoop软件。
0推荐
112K 浏览

为什么Hadoop将一定会是分布式计算的未来?

Hadoop的创始源头在于当年Google发布的3篇文章,被称为Google的分布式计算三驾马车(Google还有很多很牛的文章,但是在分布式计算方面,应该这三篇的影响力最大了)。
0推荐
49K 浏览

MapReduce数据流

MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档