P15

  OpenStack 架构分析 文档

OpenStack是什么OpenStack既是一个社区,也是一个项目和一个开源软件,它提供了一个部署云的操作平台或工具集。其宗旨在于,帮助组织运行为虚拟计算或存储服务的云,为公有云、私有云,也为大云、小云提供可扩展的、灵活的云计算。OpenStack旗下包含了一组由社区维护的开源项目,他们分别是OpenStack Compute(Nova),OpenStack Object Storage(Swift),以及OpenStack ImageService(Glance)。

akingde 2012-07-07   4839   0
P6

  大数据下的数据分析平台架构 文档

随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。

shuixian0626 2012-07-06   4913   0
P25

  Taobao分布式文件系统TFS简析 文档

TFS官方称“TFS(Taobao FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,其设计目标是支持海量的非结构化数据”。我个人花了点时间研究一下TFS的源码和相关技术文档,TFS与目前一些主流的开源分布式文件系统设计思想是相似的,如HDFS, MFS, KFS, Sector。TFS的高可扩展、高可用性是很好的,然而也存在一定不足,如通用性、用户接口、性能等方面。我这里粗略罗列一些自己认为TFS的不足之处,不当之处还请大家指正。

syskernel 2012-07-05   530   0
P21

  云服务平台介绍 文档

云计算(Cloud Computing)是在2007年第3季度才诞生的新名词, 短短几年就产生巨大的影响力,不亚于IT业中的又一场革命。<br> 云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing) 和网格计算(Grid Computing)的发展,或者说是这些计算科学概念的商业实现。<br> 云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、 将基础设施作为服务IaaS(Infrastructure as a Service)、 将平台作为服务PaaS(Platform as a Service)和将软件 作为服务SaaS(Software as a Service)等概念混合演进并跃升的结果。

orangeking 2012-06-29   765   0
P32

  Hadoop 学习总结 文档

Hadoop 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 。<br> Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)组成 。<br> Hadoop程序目前只能运行在Linux系统上,window上运行需要安装其他插件,安装过程见《hadoop安装说明.docx》 。

orangeking 2012-06-29   8911   0
P10

  云计算-从基础到应用架构系列-云计算的概念 文档

本篇是主要讲述什么是云计算,并且讲述云计算相比之前的一些比较新兴的计算模式之间的区别,并且简单的分析下云计算相比这些传统的企业应 用模式之间的优势及优缺点。由于本篇是云计算系列的开篇,可能概念性的内容相对来说多一些,我会尽量讲述的生动一些,加深大家对云计算的理

qawsedt 2012-06-25   591   0
P76

  淘宝数据开发平台介绍 文档

大纲背景 - 进入数据的世界数据能为你带来什么?数据化运营…行业分析…追星…挑选男友…找回自信…淘宝对外数据产品淘宝对内数据产品那么….谁在使用数据?如何使用数据?数据分析师ETL开发工程师模型架构师运营程序员数据化运营商业决策产品设计理解业务文档化业务和需求BI产品设计。

hans511002 2012-06-24   4302   0
P30

  极限存储设计原理及实践 - 淘宝 文档

数据平台与产品部图海云梯1其他集群点击流日志LogServer every day…everytime…云梯的存储职责怎么办?怎么办?怎么办?删除历史数据,立竿见影,省力又省事怎么办?“21世纪核心的竞争是数据的竞争”“谁拥有更多数据,谁就拥有未来”前端交易系统、商品中心、用户中心等出于效率的考虑,不会长期保存大量历史数据,而数据仓库作为企业数据分析及挖掘的基础设施,天生具有保存历史数据的职责,非但如此,如何快速、高效的获取历史上任意一天的快照数据也成为设计历史数据存放方式时的重要考量。

hans511002 2012-06-24   3343   0
P42

  Hadoop可靠性概述(百度) 文档

HDFS可靠性概述HDFS系统架构NameNode元数据结构HDFS能做什么?存储并管理PB级数据处理非结构化数据注重数据处理的吞吐量(latency不敏感)应用模式为:write-once-read-many存取模式HDFS不适合做什么?存储小文件(不建议使用)大量的随机读(不建议使用)需要对文件的修改(不支持)谁在用Hadoop

hans511002 2012-06-24   776   0
P40

  Hadoop 讲解 文档

Mapreduce hadoop hive三者关系Hadoop是2005 Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。(就是抽象)不管过去,现在是Apache软件基金会管理的开源项目基本架构 - Hadoop是如何构成的Hadoop主要由HDFS(HadoopDistributedFileSystem)和MapReduce引擎两部分组成最底部是HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。

hans511002 2012-06-24   728   0
P10

  编译和使用 hive-hbase-handler.jar 文档

简介:从6.0版本以后,hive推出了storage-handler,用于将数据存储到HDFS以外的其他存储上。并方便的通过hive进行插入、查询等操作。同时hive提供了针对Hbase的hive-hbase-handler。这使我们在使用hive节省开发M/R代码成本的同事还能获得HBase的特性来快速响应随机查询。但是,hive自带的hive-hbase-handler是针对特定版本的Hbase的,比如,0.7.0版本的hive编译时使用的是0.89.0版本的Hbase,0.6.0版本的hive默认使用0.20.3版本的hbase进行编译。如果能够找到对应的版本,可以跳过编译的步骤直接使用。不过,我们现状已经找不到这些版本的Hbase与之配合使用了。所以只好自己来编译这个jar包。

hans511002 2012-06-24   8842   0
P5

  Hadoop在Linux的上安装与配置 文档

安装hadoop是一件非常容易的事情,读者可以在官网上下载到最近的几个hadoop版本。

hans511002 2012-06-24   3750   0
P

Hadoop 官方中文文档 文档

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

hans511002 2012-06-24   345   0
P10

  OpenStack 安装配置篇 文档

OpenStack是一套用来管理虚拟机的平台软件。它不是一个单一的软件,而是集成了很多个组件用来协同合作。简单的来说,譬如有十台服务器,在VMware的情况下,我们在每台服务器上安装esx或者esxi,然后装一台vcenter,在vcenter的管理界面里把十台服务器的esx通过域名或者ip加入,就能在vcenter里面统一管理。类似的,红帽也有virsh这种管理虚拟机的程序。

hujiong 2012-06-21   5062   0
P38

  Hadoop 技术讲解 文档

HDFS为了做到可靠性(reliability)创建了多份数据块(datablocks)的复制(replicas),并将它们放置在服务器群的计算节点中(computenodes),MapReduce就可以在它们所在的节点上处理这些数据了。

xiexiantao 2012-06-20   2317   0
P63

  Google云计算原理与应用 文档

Google设计的提供粗粒度锁服务的一个文件系统,它基于松耦合分布式系统,解决了分布的一致性问题。Google文件系统GFS;分布式数据处理MapReduce;分布式锁服务Chubby ;分布式结构化数据表Bigtable ;分布式存储系统Megastore ;大规模分布式系统的监控基础架构Dapper ;Google应用程序引擎。

eeeeee 2012-06-15   7802   0
P7

  Hadoop 命令大全 文档

0概述:所有的Hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。

xfj3526 2012-06-13   3684   0
P12

  Hadoop 源码以及流程解析 文档

第一个是boolean型变量quietmode,用于设置加载配置的模式。通过阅读源代码就可以清楚,这个quietmode如果为true,实际上默认就为true,加载配置的模式为快速模式,其实也就是在解析配置文件的过程中,不输出日志信息,就这么简单。

xfj3526 2012-06-13   2384   0
P8

  自己整理的Hadoop Hive MapReduce 文档

Hadoop是2005 Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。

xfj3526 2012-06-13   5194   0
P18

  学习 Hive 源码 文档

看了一部分代码,感觉,hive 比较复杂,使用场景有限,一般用 hadoop 原生的 map reduce 就可以了。

xfj3526 2012-06-13   5802   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档