分布式/云计算/大数据 - 开源文档 - 第34页

P133

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会，比如在HDFS上运行示例程序或简单作业等。

beanshell 2011-07-16 599 0

P40

云计算的定义。狭义：指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的资源（硬件、平台、软件）。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。这种特性经常被称为像水电一样使用IT基础设施。 广义：是指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的，也可以使任意其他的服务。 云计算(Cloud Computing)是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。云计算先驱：Google、yahoo、IBM 、Microsoft、SUM、Amazon

gs11002233 2011-07-15 512 0

分布式/云计算/大数据 Groovy Java SQL Go

P12

Google、VMWare和Amazon等公司已经开始提供云计算产品和战略。本文讲解如何使用ApacheHadoop构建一个MapReduce框架以建立Hadoop集群，以及如何创建在Hadoop上运行的示例MapReduce应用程序。还将讨论如何在云上设置耗费时间/磁盘的任务。云计算简介近来云计算越来越热门了，云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源，并按使用量付费。可以通过Internet访问“云”中的任何资源，而不需要担心计算能力、带宽、存储、安全性和可靠性等问题。

caoyu152152 2011-07-11 583 0

Hadoop 分布式/云计算/大数据 Apache

P4

cooltaoism 2011-06-28 5675 0

分布式/云计算/大数据 SQL

P14

HIVE介绍简介，是什么hive是一个基于hadoop的数据仓库。使用hadoop-hdfs作为数据存储层；提供类似SQL的语言（HQL），通过hadoop-mapreduce完成数据计算；通过HQL语言提供使用者部分传统RDBMS一样的表格查询特性和分布式存储计算特性。

cooltaoism 2011-06-28 650 0

Hadoop 分布式/云计算/大数据

P17

【云计算】概念是由Google提出的，这是一个美丽的网络应用模式。狭义云计算是指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的资源；广义云计算是指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的，也可以是任意其他的服务，它具有超大规模、虚拟化、可靠安全等独特功效；“云计算”图书版本也很多，都从理论和实践上介绍了云计算的特性与功用。

tommy 2011-06-15 3596 0

分布式/云计算/大数据

P6

Hypertable是什么Hypertable是一个正在进行中的开源项目，以google的bigtable论文为基础指导，使用C++语言实现。目的是为了解决大并发，大数据量的数据库需求。目前只支持最基本的查询功能，对于事物、关联查询等都不支持。对单条查询的响应时间可能也不如传统数据库（要看数据量，量越大，对hypertable越有力）。好处是，可以处理大量并发请求，和管理大量数据。可扩缩性好，扩容只需要增加集群中的机器就ok了。任何节点失效，既不会造成系统瘫痪也不会丢失数据。在集群节点足够的情况下，并发量和数据量对性能基本没有影响。注意：Hypertable不是关系数据库。而且它对稀疏数据是只存储其有效部分的。举个例子来说，假设一个表有10列。表中的一条记录，只有第三列有值。那么实际上只有第三列被存储了，无值的列没有保留空位。这些特点使得Hypertable在使用的时候与关系数据库不同。

capripro 2011-06-15 4502 0

分布式/云计算/大数据 Hypertable

P16

Hypertable是一个正在进行中的开源项目，以google的bigtable 论文为基础指导，使用c++语言实现。目的是为了解决大并发，大数据量的数据库需求。目前只支持最基本的查询功能，对于事物，关联查询等都不支持。对单条查询的响应时间可能也不如传统数据库（要看数据量，量越大，对hypertable越有力）。好处是，可以处理大量并发请求，和管理大量数据。可扩缩性好，扩容只需要增加集群中的机器就可以。任何节点失效，既不会造成系统瘫痪也不会数据丢失。在集群节点足够的情况下，并发量和数据量对性能基本没有影响。 Hypertable不是关系数据库。而且它对稀疏数据是只存储其有效部分的。举个例子来说，假设一个表有10列。表中的一条记录，只有第三列有值。那么实际上只有第三列被存储了，无值的列不保留空位。这些特点使得Hypertable在使用的时候与关系数据库不同。

capripro 2011-06-15 521 0

分布式/云计算/大数据 Hypertable

P13

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会，比如在HDFS上运行示例程序或简单作业等。

pkuxiaoq 2011-05-31 519 0

Hadoop 分布式/云计算/大数据

P2

1．稀疏数据：最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。因为Hbase是column-oriented列导向的存储机制。在列导向的存储机制下对于Null值得存储是不占用任何空间的。比如，如果某个表UserTable有10列，但在存储时只有一列有数据，那么其他空值的9列是不占用存储空间的(普通的数据库MySql是如何占用存储空间的呢?)。2.无类型：Hbase适合存储非结构化的稀疏数据的另一原因是他对列集合columnfamilies处理机制。打个比方，ruby和python这样的动态语言和c++、java类的编译语言有什么不同?对于我来说，最显然的不同就是你不需要为变量预先指定一个类型。Ok，现在Hbase为未来的DBA也带来了这个激动人心的特性，你只需要告诉你的数据存储到Hbase的那个columnfamilies就可以了，不需要指定它的具体类型：char,varchar,int,tinyint,text等等。3.Hbase还有很多特性，比如不支持join查询，但你存储时可以用：parent-childtuple的方式来变相解决。

boycott2 2011-05-17 680 0

分布式/云计算/大数据 HBase

P24

Apache Hadoop是一个用java语言实现的软件框架，在由大量计算机组成的集群中运行海量数据的分布式计算，它可以让应用程序支持上千个节点和PB级别的数据。Hadoop的核心子项目，提供了一个分布式文件系统(HDFS)和支持MapReduce的分布式计算。

观光阁 2011-05-15 17718 0

Hadoop 分布式/云计算/大数据报告 Apache Java

P42

Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比Dynomite（分布式的Key-Value存储系统）更丰富，但支持度却不如文档存储MongoDB（介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型。）Cassandra最初由Facebook开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础，结合了Google BigTable基于列族（Column Family）的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。从要创建的企业级系统全局考虑，根据功能的约束，而采用分布式的高可用的混合型的非关系性数据库，从而对企业的大数据量、高可用性、高性能、可拓展等等要求提供了基本或者全面的支持，从运营的整体来看，明显降低整体成本和提高客户满意度。具体决策需要根据具体情况决定！就其Cassandra自身而言，本质上是基于“内存是新的硬盘，硬盘是新的磁带 ”！来设计的,再从另一个角度看，“每个节点更像一个圆桌骑士！谁都能看见所有的其他骑士”。

css0613 2011-05-13 6970 0

Cassandra 分布式/云计算/大数据方案 Java Go

P9

当研究院和企业能获取足够的专项研究预算之后，能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧（比如说集群、协作筛选和分类）的需求前所未有地增长，无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念，并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头，目前只有一个公共发行版。Mahout 包含许多实现，包括集群、分类、CP 和进化程序。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中

css0613 2011-05-13 5186 0

分布式/云计算/大数据 Apache

P19

Apache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。其主要功能比Dynomite更丰富，但支持度却不如文档存储MongoDB。由于Cassandra良好的可扩放性，成为了一种流行的分布式结构化数据存储系统。功能Cassandra的主要特点就是它不是一个数据库，而是由一堆数据库节点共同构成的一个分布式网络服务，对Cassandra的一个写操作，会被复制到其他节点上去，对Cassandra的读操作，也会被路由到某个节点上面去读取。对于一个Cassandra群集来说，扩展性能是比较简单的事情，只管在群集里面添加节点就可以了。架构Cassandra使用了GoogleBigTable的数据模型，与面向行的传统的关系型数据库不同，这是一种面向列的数据库，列被组织成为列族（ColumnFamily），在数据库中增加一列非常方便。

woshidobb 2011-05-10 7693 0

分布式/云计算/大数据方案 Apache Go NOSQL

P25

HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽，能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件；HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。

7at7 2011-04-27 3440 0

Hadoop 分布式/云计算/大数据

P49

模式灵活：使用Cassandra，像文档存储，你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升，特别是在大型部署上。 真正的可扩展性：Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量，可以指向另一台电脑。你不必重启任何进程，改变应用查询，或手动迁移任何数据。 多数据中心识别：你可以调整你的节点布局来避免某一个数据中心起火，一个备用的数据中心将至少有每条记录的完全复制。

buffon08 2011-04-16 4508 0

分布式/云计算/大数据 SQL Go

P12

MapReduce框架结构Map/Reduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的，Google已经将它完整的HYPERLINK"http://labs.google.com/papers/mapreduce.html"MapReduce论文公开发布了。其中对它的定义是，Map/Reduce是一个编程模型（programmingmodel），是一个用于处理和生成大规模数据集（processingandgeneratinglargedatasets）的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对，再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。 Hadoop的Map/Reduce框架也是基于这个原理实现的，下面简要介绍一下Map/Reduce框架主要组成及相互的关系。

JDynamiTe 2011-03-30 7606 0

MapReduce 分布式/云计算/大数据

P2

bbs_jack 2011-03-22 3712 0

分布式/云计算/大数据 Java SQL

P7

Hive什么是Hivehive和pig等语言类似，只是一个shell,一个包装了mapreduce的shell,他使得编写m/r程序更加的方便入手，使得步入云计算的程序员门槛更低。Hive的数据存储在HDFS中，大部分的查询由MapReduce完成Hive体系结构用户接口用户接口主要有三个：CLI，Client和WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至HiveServer。在启动Client模式的时候，需要指出HiveServer所在节点，并且在该节点启动HiveServer。WUI是通过浏览器访问Hive。元数据Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。内核解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。HQLHQL是一个类SQL的查询语言。它模仿SQL语法来创建表，读表到数据，并查询表。HQL也允许用户嵌入他们自定义的map-reduce脚本。

bbs_jack 2011-03-22 8717 0

分布式/云计算/大数据 SQL

P83

随着互联网大规模的Web2．0应用的兴起，随着云计算需要的大规模分布式服务和分布式存储的发展，传统的关系数据库面临着诸多全新的挑战，特别是在那些超大规模和高并发的SNS类型的应用场景下，使用关系数据库来存储和查询用户动态数据已经显得力不从心，暴露了很多难以克服的问题：（1）对数据库高并发读写的需求（2）对海量数据的高效率存储和访问的需求（3）对数据库的高可扩展性和高可用性的需求。在这样的背景下，NoSQL数据库就应运而生了。

yimiyuan 2011-01-14 6209 0

分布式/云计算/大数据报告 Apache Go Basic

Hadoop快速入门文档

Java与云计算文档

用Linux和Apache Hadoop进行云计算文档

Hive sql 语法学习(1) 文档

hadoop数据仓库工具--hive介绍文档

互联网革命——云计算发展及应用文档

Hypertable介绍文档

Hypertable分析文档

Hadoop官方文档0.18 文档

Hbase列式存储特性文档

Apache Hadoop介绍文档

Cassandra讲座文档

构建Apache Mahout 文档

非关系型分布式数据库—Cassandra 文档

Hadoop进阶文档

Cassandra入门介绍文档

MapReduce框架结构文档

Hive安装配置文档

Hive介绍文档

Cassandra架构与应用文档

关键词

最新上传

热门文档

Hadoop快速入门 文档

Java与云计算 文档

用Linux和Apache Hadoop进行云计算 文档

Hive sql 语法学习(1) 文档

hadoop数据仓库工具--hive介绍 文档

互联网革命——云计算发展及应用 文档

Hypertable介绍 文档

Hypertable分析 文档

Hadoop官方文档0.18 文档

Hbase列式存储特性 文档

Apache Hadoop介绍 文档

Cassandra讲座 文档

构建Apache Mahout 文档

非关系型分布式数据库—Cassandra 文档

Hadoop进阶 文档

Cassandra入门介绍 文档

MapReduce框架结构 文档

Hive安装配置 文档

Hive介绍 文档

Cassandra架构与应用 文档

关键词

最新上传

热门文档

Hadoop快速入门文档

Java与云计算文档

用Linux和Apache Hadoop进行云计算文档

hadoop数据仓库工具--hive介绍文档

互联网革命——云计算发展及应用文档

Hypertable介绍文档

Hypertable分析文档

Hbase列式存储特性文档

Apache Hadoop介绍文档

Cassandra讲座文档

Hadoop进阶文档

Cassandra入门介绍文档

MapReduce框架结构文档

Hive安装配置文档

Hive介绍文档

Cassandra架构与应用文档