P59

  Storm高级原语 文档

Storm高级导读:Storm高级部分包括事务、DRPC以及Trident等,它是相对于基础部分而言的,在基础部分,你了解了Storm应用程序执行的过程以及一些基本API,当然,自己动手部署过Storm集群和写过一些Storm应用程序对了解Storm高级部分是很有帮助的。本部分内容翻译自Stormmanual,具有很好的参考价值。

nd7b 2015-12-09   1781   0
P21

  浅析Storm流式计算 文档

公开课主题:浅析Storm流式计算主讲人:肖康主要内容Storm简介Storm原理和架构Storm实战*Storm简介-案例分析统计某个服务被访问的客户端地域分布情况日志中记录了客户端IP把IP转换成地域按照地域进行统计Storm简介-案例分析Hadoop貌似就可以轻松搞定日志存HDFS运行MapReduce程序map做ip提取,转换成地域reduce以地域为key聚合,计数统计从HDFS取出结果Storm简介-案例分析如果有时效性要求呢?小时级:还行,每小时跑一个MapReduceJob10分钟:还凑合能跑5分钟:够呛了,等槽位可能要几分钟呢1分钟:算了吧,启动Job就要几十秒呢秒级:…分析MapReduce不满足时效性要求的原因一批数据启动一次,处理完进程停止启动本身是需要时间的:输入切分、调度、起进程共享集群Job比较杂

nd7b 2015-12-09   6398   0
P31

  Storm对于交通数据的处理 文档

Storm及交通实时数据处理报告人:汪杰宇绪论知识Storm架构一个简单的Storm例子Storm在交通数据处理中的应用目录背景:大数据的产生GBTBPBEBZB数据量的增长:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。有市场研究机构预测(2009年):到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1GB=2^30字节1TB=2^40字节1PB=2^50字节1EB=2^60字节1ZB=2^70字节背景:大数据处理模式主要的处理模式可以分为流处理(streamprocessing)和批处理(batchprocessing)两种。批处理是先存储后处理(store-process),而流处理则是直接处理(straight-throughprocess)。(有时也分为在线、离线、近线三种)

nd7b 2015-12-09   6303   0
P50

  Hadoop 实战手册 文档

本文档是Hadoop部署文档,提供了Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)。 本安装文档适用于 centos 5 /red hat 5.2 32位,64位版本,ubuntu 等操作系统 需要做部分修改。

ka520 2015-11-14   434   0
P83

  Hadoop 源代码分析(完整版) 文档

很快,Apache上就出现了一个类似的解决方案,目前它们都属于Apache的Hadoop项目,对应的分别是: Chubby-->ZooKeeper GFS-->HDFS BigTable-->HBase MapReduce-->Hadoop 目前,基于类似思想的Open Source项目还很多,如Facebook用于用户分析的Hive。 HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。

ka520 2015-11-14   1188   0
P33

  Hadoop与HBase自学笔记 文档

安装jdk安装eclipse时已经提过,这里略,使用jdk1.6.0_12版本。安装Cygwin以及相关服务安装Cygwincygwin是一个在windows平台上运行的unix模拟环境。在安装Cygwin之前,得先下载Cygwin安装程序setup.exe

ka520 2015-11-14   1170   0
P49

  Deep dive into Spark Streaming 文档

Extends Spark for doing large scale stream processing。 Scales to 100s of nodes and achieves second scale latencies。 Efficient and fault-tolerant stateful stream processing。 Integrates with Spark’s batch and interactive processing。 Provides a simple batch-like API for implementing complex algorithms

fkd27 2015-10-17   545   0
P11

  配置Storm的开发环境 文档

Storm的开发环境Storm的开发环境,就是满足Storm开发所需要的硬件与软件环境。Storm开发环境的硬件环境,只需要1台普通的PC主机,就可以满足。Storm开发环境所必需的软件,如表11.1所示,主要有JDK、Maven和Eclipse这3款软件。

wudawen 2015-09-10   2659   0
P6

  Storm0.9.5 安装笔记 文档

环境:三台虚拟机,系统是CentOS6.5 

wudawen 2015-09-10   1639   0
P21

  汇环云计算平台需求分析说明书 文档

[软件需求分析说明即软件需求规约(SRS) 的简介应提供整个 SRS的概述。它应包括此 SRS 的目的、范围、定义、首字母缩写词、缩略语、参考资料和概述。] [注:软件需求规约 (SRS) 记录对系统或系统的一部分的完整软件需求。 ] [阐明此 SRS 的目的。SRS 应详细地说明所确定的应用程序或子系统的外部行为。它还要说明非功能性需求、设计约束以及提供完整、综合的软件需求说明所需的其他因素。]

cmjjsnt 2015-08-28   671   0
P32

  基于hadoop的数据仓库技术 文档

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

xcxc 2015-08-24   524   0
P45

  基于Hadoop的大数据应用分析 文档

基于Hadoop的大数据应用分析5.东软基于HADOOP的大数据应用建议内容提要1.大数据背景介绍2.HADOOP体系架构3.基于HADOOP的大数据产品分析4.基于HADOOP的大数据行业应用分析IDC定义:为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。大数据定义及特点大数据对系统的需求High performance–高并发读写的需求高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询

xcxc 2015-08-24   782   0
P13

  Hadoop:分布式大数据处理架构 文档

由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命。如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善。基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目。在近十年中Hadoop已成为大数据革命的中心。MapReduce作为Hadoop的核心是一种处理大型及超大型数据集(TB级别的数据。包括网络点击产生的流数据、日志文件、社交网络等所带来的数据)并生成相关的执行的编程模型。

xcxc 2015-08-24   614   0
P5

  10分钟内理解云计算分布式大数据处理框架Hadoop 文档

在10分钟内理解云计算分布式大数据处理框架Hadoop并开始动手实践,倒计时开始……第1分钟:Hadoop要解决的问题是什么?答:Hadoop核心要解决长期IT界乃至人类社会的两大主题:海量数据的存储:传统的存储方式昂贵而且日益难以满足核裂变级别数据的增长,例如纽约证券交易所每天要产生T级别的数据量,Facebook要每天要服务过亿的用户(其中图片等数据`量是惊人的),如何使用廉价的设备支持无线增长的数据的安全高效的存储,Hadoop提出了解决方案,即HDFS.海量数据的分析:如何有效而快速的从海量数据中提取出有价值的信息,Hadoop给出了解决方案,即MapReduce.HDFS和MapReduce是Hadoop整个项目的基础和核心

xcxc 2015-08-23   651   0
P18

  (2)Spark 基础知识 文档

Spark 是Scala写的, 运行在JVM上。所以运行环境是Java6或者以上。 如果想要使用 Python API,需要安装Python 解释器2.6版本或者以上。 目前Spark(1.2.0版本) 与Python 3不兼容。

ngn6 2015-08-12   631   0
P12

  (12)使用数据分区优化join 文档

解决低效问题 我们知道userData 表比每五分钟的时间日志大很多,这浪费了很多工作。userData 每次调用的时候,都通过网络hashed和shuffled,尽管它不变化。 在userData使用partitionBy()

ngn6 2015-08-12   548   0
P12

  (11)数据分区 文档

Spark是怎样分割工作的 每个RDD都有一个固定个数的partitions,决定了当执行RDD操作时候的并行度。 Spark会尝试基于集群大小的默认值,一些情况下,你需要优化并行度。 当我们执行聚合或者分组操作的时候,我们可以让Spark使用特定个数的partitions。

ngn6 2015-08-12   1687   0
P13

  (10)KeyValue对RDDs(二) 文档

combineByKey(createCombiner,mergeValue,mergeCombiners,partitioner) combineByKey()是最常用的基于key的聚合函数,返回的类型可以与输入类型不一样。 许多基于key的聚合函数都用到了它,像groupByKey(),aggregate()。

ngn6 2015-08-12   1224   0
P14

  (9)KeyValue对RDDs(一) 文档

KeyValue对RDDs(Pairs RDDS)一般用来聚合操作。 将数据转换成Key/value格式的方法:ETL (extract, transform,and load)操作 extract:字段抽取 transform:已有的RDD转换 load:加载的时候 parallelize()

ngn6 2015-08-12   513   0
P12

  (8)RDDs的特性 文档

Spark维护着RDDs之间的依赖关系和创建关系, 叫做 血统关系图(lineage graph)。 Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据(当一些存储的RDD丢失的时候)。

ngn6 2015-08-12   482   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档