分布式/云计算/大数据 - 开源文档 - 第6页

P119

Create/Drop Database Create Database CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)]; The use of SCHEMA and DATABASE are interchangeable – they mean the same thing.

xnbw 2016-01-12 1589 0

分布式/云计算/大数据

P8

本文的目的是让一个从未接触Hadoop的人，在很短的时间内快速上手，掌握编译、安装和简单的使用。

xnbw 2016-01-12 418 0

分布式/云计算/大数据

P2

确定版本，hive的安装版本必须与本机hadoop的安装版本相同，要知道hive的安装版本可以登录

xnbw 2016-01-12 304 0

分布式/云计算/大数据

P67

云计算pig使用Hadoop的普及和其生态系统的不断壮大并不令人感到意外。Hadoop不断进步的一个特殊领域是Hadoop应用程序的编写。虽然编写Map和Reduce应用程序并不十分复杂，但这些编程确实需要一些软件开发经验。ApachePig改变了这种状况，它在MapReduce的基础上创建了更简单的过程语言抽象，为Hadoop应用程序提供了一种更加接近结构化查询语言(SQL)的接口。因此，您不需要编写一个单独的MapReduce应用程序，您可以用PigLatin语言写一个脚本，在集群中自动并行处理与分发该脚本。PigLatin示例让我们从一个简单的Pig示例开始介绍，并剖析该示例。

xnbw 2016-01-11 2358 0

分布式/云计算/大数据

P113

Hive概述Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。Hive没有专门的数据格式。Hive可以很好的工作在Thrift之上，控制分隔符，也允许用户指定数据格式。由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库

xnbw 2016-01-11 2024 0

分布式/云计算/大数据

P19

zoomkeeper分布式协作场景一有这样一个场景：系统中有大约100w的用户，每个用户平均有3个邮箱账号，每隔5分钟，每个邮箱账需要收取100封邮件，最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力，从多个不同的网路出口进行访问外网，计算的压力得到缓解，那么每台机器的计算压力也不会很大了。通过我们的讨论和以往的经验判断在这场景中可以实现并行计算，但我们还期望能对并行计算的节点进行动态的添加/删除，做到在线更新并行计算的数目并且不会影响计算单元中的其他计算节点，但是有4个问题需要解决，否则会出现一些严重的问题：20台机器同时工作时，有一台机器down掉了，其他机器怎么进行接管计算任务，否则有些用户的业务不会被处理，造成用户服务终断。随着用户数量增加，添加机器是可以解决计算的瓶颈，但需要重启所有计算节点，如果需要，那么将会造成整个系统的不可用。

xnbw 2016-01-11 611 0

分布式/云计算/大数据

P4

hbase,hive,hadoop一个演示的例子。

xnbw 2016-01-11 472 0

分布式/云计算/大数据

P2

Zookeeper作为一个分布式的服务框架，主要用来解决分布式集群中应用系统的一致性问题，它能提供基于类似于文件系统的目录节点树方式的数据存储，但是Zookeeper并不是用来专门存储数据的，它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理ZooKeeper是否对ZNode有大小限制如果你仔细看过ZooKeeper的文档，会发现文档中对ZNode的大小做了限制，最大不能超过1M。

xnbw 2016-01-11 2364 0

分布式/云计算/大数据

P11

一、安装准备1、下载zookeeper-3.3.1，地址：http://www.apache.org/dist/hadoop/zookeeper/zookeeper-3.3.1/2、JDK版本：jdk-6u20-linux-i586.bin3、操作系统：Linux 4、默认前提是安装完hadoop0.20.2版本：192.168.3.131 namenode 192.168.3.132 datanode 192.168.3.133datanode二、操作步骤（默认在namenode上进行）1、拷贝以上文件到Linux的“/usr/”目录下。同时新建目录“/zookeeper-3.3.1”。

xnbw 2016-01-11 2568 0

分布式/云计算/大数据手册

P62

HIVE结构Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为QL，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。HIVE架构Hive的结构可以分为以下几部分：用户接口：包括CLI,Client,WUI元数据存储。通常是存储在关系数据库如mysql,derby中解释器、编译器、优化器、执行器Hadoop：用HDFS进行存储，利用MapReduce进行计算用户接口主要有三个：CLI，Client和WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至HiveServer。

xnbw 2016-01-11 2576 0

分布式/云计算/大数据

P23

Hbase分析报告本文基于环境 hadoop-0.16.4和hbase-0.1.3编写Hbase是一个分散式开源数据库，基于Hadoop分散式文件系统，模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。Hbaes的目标是处理非常庞大的表，可以用普通的计算机处理超过10亿行资料，并且有数百万列元素组成的资料表。Hbase可以直接使用本地文件系统或者Hadoop作爲资料存储方式，不过爲了提高资料可靠性和系统的健壮性，发挥Hbase处理大资料量等功能，需要使用Hadoop作爲文件系统，那麽我们就先要了解Hadoop文件系统的基本特性和原理，才能更好地理解Hbase的工作方式。Hadoop文件系统Hadoop文件系统是一个能够兼容普通硬件环境的分散式文件系统，和现有的分散式文件系统不同的地方是Hadoop更注重容错性和兼容廉价的硬设备，这样做是爲了用很小的预算甚至直接利用现有机器就实现大流量和大资料量的读取。

xnbw 2016-01-11 338 0

分布式/云计算/大数据

P14

Hbase shell下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBaseShell命令，如下：一、一般操作1.查询服务器状态hbase(main):024:0>status3servers,0dead,1.0000averageload 2.查询hive版

xnbw 2016-01-11 2075 0

分布式/云计算/大数据

P18

Hbase是bigtable的开源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(rowkey)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。HBase中的表一般有这样的特点：1大：一个表可以有上亿行，上百万列2面向列:面向列(族)的存储和权限控制，列(族)独立检索。

xnbw 2016-01-11 1539 0

分布式/云计算/大数据

P13

Hadoop，ZooKeeper，HBase分布式搭建前提准备注：hbase的安装需要hadoop和zookeeper和hbase，生产环境下需要将zookeeper独立安装，hbase软件选择cloudera的cdh3u0，这样不会出现版本不兼容等问题。apache的版本需要重新编译hadoop0.20.2-appender版以保证没有数据丢失。1、机器集群结构分布使用8台曙光服务器搭建集群，ip为*.*.83.1-8，hostname为hadoop-node1到hadoop-node8

xnbw 2016-01-11 2102 0

分布式/云计算/大数据手册

P14

Hadoop，ZooKeeper，HBase,hive(HQL)安装步骤Hadoop安装：首先我们统一一下定义，在这里所提到的Hadoop是指HadoopCommon，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。Hadoop在windows下还未经过很好的测试，所以推荐大家在linux（centos6.X）下安装使用。准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件：ssh和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。可以使用yuminstallrsync来安装rsync。

xnbw 2016-01-11 2200 0

分布式/云计算/大数据

P27

ZooKeeper 是一个为分布式应用所设计的分布的、开源的协调服务。分布式的应用可以建立在同步、配置管理、分组和命名等服务的更高级别的实现的基础之上。 ZooKeeper 意欲设计一个易于编程的环境，它的文件系统使用我们所熟悉的目录树结构。 ZooKeeper 使用 Java 所编写，但是支持 Java 和 C 两种编程语言。

dedw 2016-01-05 354 0

分布式/云计算/大数据

P4

ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利用其提供的一系列API接口（或者称为原语集），摸索出来的典型使用方法。因此，也非常欢迎读者分享你在ZK使用上的奇技淫巧。ZooKeeper典型应用场景一览数据发布与订阅（配置中心）发布与订阅模型，即所谓的配置中心，顾名思义就是发布者将数据发布到ZK节点上，供订阅者动态获取数据，实现配置信息的集中式管理和动态更新。

gmmxx 2015-12-21 515 0

分布式/云计算/大数据

P72

Introduction Quick Introduction to Spark Set up development environment and create the hello world application Notebook Walk-through Spark Streaming Deep dive: Sentiment analysis with Twitter and Watson Tone Analyzer Architectural Overview Set up the Bluemix services: Watson Tone Analyzer, Message Hub and Event Hub Create the Streaming Receiver to connect to Kafka (Scala) Create analytics using Jupyter Notebook (Python) Create Real-time Web Dashboard (Nodejs)

cpgc 2015-12-14 609 0

分布式/云计算/大数据 Apache Java Markdown Go

P0

简单说一说Storm这个东西Storm的原理/集群架构/编程模型…那些年遇到的一些坑我们都用它来做什么Storm的硬伤--资源调度/生态实时类SQL与拓扑的高度模块化Storm基础--它是干什么的？Storm基础--集群架构Storm基础--在此之上要做的事那些年遇到的一些坑跑着跑着拓扑应用挂了，worker不断重启失败！

nd7b 2015-12-09 398 0

Storm 分布式/云计算/大数据

P20

海量数据处理之大跃进--自主bi系统"天到实时"耿一斐数据行业现状一、各大公司日益重视数据二、数据产品涉及的行业越来越多三、数据产品市场越来越广泛BI系统，搜索，推荐是数据的几种较为直接的使用形态。数据应用面临着越来越多的挑战数据量越来越多，G---T---P客户要求响应，day---hour---minute--second隔天信息BI系统架构图适用场景该系统一般隔天执行，统计数据基于Hadoop生态体系，M/R，hive等都已基本成熟。Mapreduce，hive-sql开发较易。Mysql关系型数据库支持各种组合，关联查询，易于数据展现。重度依赖调度系统推荐一款开源的调度系统（Zeus）1、友好的界面显示、全中文，配置简单

nd7b 2015-12-09 2250 0

分布式/云计算/大数据方案

Hive Data Definition Language 文档

HDFS+MapReduce+Hive十分钟快速入门文档

hive安装与加载数据文档

云计算pig的使用文档

云计算apache HIVE的使用文档

zookeeper使用简介文档

一个hive hbase hdoop+eclipse的实例文档

Zookeeper注意几点文档

zookeeper分布式安装手册文档

HIVE学习笔记文档

Hbase 分析报告白皮书文档

Hbase shell操作命令文档

hbase 简介文档

Hadoop+HBase集群搭建详细手册v0.9 文档

hadoop,hbase安装步骤文档

ZooKeeper 系列讲座_很全面文档

ZooKeeper应用场景文档

Spark + Watson + Twitter 文档

Storm的原理/集群架构/编程模型文档

海量数据处理之大跃进文档

关键词

最新上传

热门文档

Hive Data Definition Language 文档

HDFS+MapReduce+Hive十分钟快速入门 文档

hive安装与加载数据 文档

云计算pig的使用 文档

云计算apache HIVE的使用 文档

zookeeper使用简介 文档

一个hive hbase hdoop+eclipse的实例 文档

Zookeeper注意几点 文档

zookeeper分布式安装手册 文档

HIVE学习笔记 文档

Hbase 分析报告白皮书 文档

Hbase shell操作命令 文档

hbase 简介 文档

Hadoop+HBase集群搭建 详细手册v0.9 文档

hadoop,hbase安装步骤 文档

ZooKeeper 系列讲座_很全面 文档

ZooKeeper应用场景 文档

Spark + Watson + Twitter 文档

Storm的原理/集群架构/编程模型 文档

海量数据处理之大跃进 文档

关键词

最新上传

热门文档

HDFS+MapReduce+Hive十分钟快速入门文档

hive安装与加载数据文档

云计算pig的使用文档

云计算apache HIVE的使用文档

zookeeper使用简介文档

一个hive hbase hdoop+eclipse的实例文档

Zookeeper注意几点文档

zookeeper分布式安装手册文档

HIVE学习笔记文档

Hbase 分析报告白皮书文档

Hbase shell操作命令文档

hbase 简介文档

Hadoop+HBase集群搭建详细手册v0.9 文档

hadoop,hbase安装步骤文档

ZooKeeper 系列讲座_很全面文档

ZooKeeper应用场景文档

Storm的原理/集群架构/编程模型文档

海量数据处理之大跃进文档