0推荐
508 浏览

Hadoop集群间的hbase数据迁移

在日常的使用过程中,可能经常需要将一个集群中hbase的数据迁移到或者拷贝到另外一个集群中,这时候,可能会出很多问题
0推荐
42K 浏览

Hbase 参数配置及优化

接触hbase已有半年的时间,查了很多资料,也参考了很多别人心得,也希望把自己的心得以及理解写出来,我把配置hbase必调的几个参数写一下,以及它们的意义。
0推荐
19K 浏览

深入理解Hadoop集群和网络

摘要:本文将着重于讨论Hadoop集群的体系结构和方法,及它如何涉及到网络和服务器基础设施。开始我们先学习一下Hadoop集群运作的基础。
0推荐
32K 浏览

hadoop分布式集群搭建

hadoop分布式集群搭建
0推荐
38K 浏览

HDFS NameNode HA框架设计文档(HDFS-1623:High Availability Framework for HDFS NN)

有很多方式可以使得NN更加的Available,例如:减少启动时间,配置热刷选,减少升级时间,NN的手动或自动的Failover。本文档通过Failover来解决NN的SPOF问题 有很多种...
0推荐
23K 浏览

hadoop执行分布式Process

要把N个超级大表导入HBase,N是按月来分的,表:亿+的行数,100+的字段。测试过sqoop,JDBC,性能都不满意,对任务失败重做也很麻烦,HBase的批量导出还靠谱点
0推荐
40K 浏览

海量数据处理常用思路和方法

大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。
0推荐
34K 浏览

Hbase基于Mapreduce的编程

小试牛刀,将mapreduce的输出结果保存到大型分布式数据库中HBase中,一个例子,求各url的访问pv数据,由于用到rcfile格式需要导入hive-exce包,还需要加载hbase包,如...
0推荐
23K 浏览

百度的Hadoop分布式文件系统图解:4000节点集群

百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集 群,最大的集群规模在1000个节点以上。每个节点由8核CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。
0推荐
17K 浏览

Drill 一个分布式系统用于大型数据集的互动分析

Drill是一个分布式系统用于大型数据集的互动分析,类似于 Google 的 Dremel。
0推荐
63K 浏览

Openfiler 中文版 - 开源存储管理平台

Openfiler 中文版 - 开源存储管理平台 (Openfiler Chinese version - Open Source Storage Management Appliance)
0推荐
54K 浏览

Dubbo 一个分布式服务框架

Dubbo是阿里巴巴SOA服务化治理方案的核心框架,每天为1,000+个服务提供2,000,000,000+次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点:
0推荐
25K 浏览

Boto - 访问Amazon Web Services的Python接口

Boto 是一个 Python 包,提供了访问 Amazon Web 服务的接口
0推荐
33K 浏览

开源软件FUFS(新浪微盘linux客户端)

FUFS 是一款基于linux c语言版fuse 开发的用户空间文件系统,实现了在linux 中对新浪微盘的基本操作。文件系统实现了对新浪微盘API的封装,当文件系统挂载到用户linux 的某个...
0推荐
30K 浏览

GitHub项目Storm-HBase介绍

最近完成了一个GitHub项目:Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前...
0推荐
46K 浏览

在Ubuntu上部署CloudFoundry Server

Cloud Foundry简介: Cloud Foundry是VMware主导使用Ruby开发的一款开源PaaS(Platform-as-a-Service,平台服务)云计算平台,类似于Sale...
0推荐
16K 浏览

HBase数据库性能调优

因官方Book Performance Tuning部分章节 没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。
0推荐
14K 浏览

高性能计算项目 Globus Toolkit

Globus 是一个在超级计算机、集群和其他高性能系统上提供了可靠、安全、点对点的分布式计算环境的项目。
0推荐
12K 浏览

分布式资源管理 GridWay

GridWay 是一个工作负载管理器,用于在一个由不同计算平台组成的 grid 中执行作业管理和资源调配。GridWay 主要任务是大规模、可靠和高效的计算资源分片管理。
0推荐
19K 浏览

云计算应用框架 蜂巢平台

蜂巢平台(OpenComb Platform)是一个基于 PHP5.3 实现的深度云计算应用框架。蜂巢采用了扩展模式,系统中的功能和特性,都由扩展提供。 因此,用户可以通过开发和安装扩展来部署各...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档