基于Hadoop的统一数据存储和分析平台


1© Copyright 2011 EMC Corporation. All rights reserved. 基于Hadoop 的统一数据存 储和分析平台 高小明*陈继东*陈云峰 EMC中国研发集团 2© Copyright 2011 EMC Corporation. All rights reserved. EMC大数据分析平台 Greenplum Chorus 企业数据分析协作平台 Greenplum 数据库 企业版 & 社区版 扩展性好的多节点数据库平台 分析工具 (商业智能, 统计分析) Greenplum Hadoop 企业版 & 社区版 面向非结构化数据的企业数据分析平台 Greenplum DCA 一体机 专为大数据分析定制 EMC Atmos / EMC Isilon / VMware 存储和虚拟化技术 3© Copyright 2011 EMC Corporation. All rights reserved. 分析沙箱 公有云数据 普通硬件 虚拟机 Chorus Chorus 自我服务的分析架构 Hadoop 企业数据仓库 4© Copyright 2011 EMC Corporation. All rights reserved. Chorus 主要功能 CHORUS 自我创建 分析沙箱 数据服务 见解 协作 开放的REST API数据持久层 服务层 5© Copyright 2011 EMC Corporation. All rights reserved. Chorus 与Hadoop • 把Hadoop作为一个数据源注册到Chorus中 – 浏览Hadoop 分布式文件系统 (HDFS)目录 – 预览HDFS文件 – 把HDFS文件添加到分析沙箱中 – 为HDFS文件添加注解 • 统一的数据分析平台 – 结构化数据 (数据库表) – 非结构化数据 (HDFS文件) 6© Copyright 2011 EMC Corporation. All rights reserved. 案例:电信行业数据分析 • 数据 – Hadoop: 100G CDR数据* 10,000文件*每个文件 10M – Greenplum数据库: 1000万条客户详细信息 • 分析流程 • 浏览或者预览CDR文件 • 将HDFS文件作为外部表添加到分析沙箱 • 执行查询分析 • 可以执行一些复杂的连接查询*结合HDFS外部表和Greenplum 数据库表来计算一些社交网络变量。 – 发布和共享见解 7© Copyright 2011 EMC Corporation. All rights reserved. EMC Atmos 在云中管理大数据 BIG. SMART. ELASTIC. 8© Copyright 2011 EMC Corporation. All rights reserved. Atmos 功能 • 全球不受限制的命名空间 – 提供独立于位置的通用访问功能 • 基于策略的智能管理 – 策略智能管理数据存放的位置和形式 • 一体式数据服务和灵活访问方式 – 通过策略智能管理数据压缩,重复数 据删除和放置 – 提供Web服务访问和GeoDrive文件 访问方式 • 灵活的管理 – 多租户 – 自动配置和自动修复 9© Copyright 2011 EMC Corporation. All rights reserved. 云存储 – 您的理想之选 Atmos 产品 • 具有外部扩展性的内部存储 • 基于客户要求和能力的可扩展性*控制力和灵活 的SLA 通过Atmos支持的云服务 • 可通过Internet访问的按需存储 • 提供商分布于多个地理位置*提供不同的服务级别 以满足客户需求 联合 ATMOS 应用 程序 针对私有云*公共云和混合云 以服务形式在线提供基础架构 10© Copyright 2011 EMC Corporation. All rights reserved. 多租户环境 • 降低存储成本 • 共享存储空间*与地理位置无关 • 所有用户*部门*应用程序共享统一 的云环境 • 集中管理降低管理成本 • 租户动态创建 • 多层次策略管理 ATMOS 云 部门1 部门2 访问方式(REST) Atmos 策略A 租户A 访问方式(NFS) Atmos策略B 租户B 访问方式(App) Atmos策略n 租户n 部门n 洛杉矶 纽约 伦敦 单个基础架构中的安全隔离 11© Copyright 2011 EMC Corporation. All rights reserved. 大数据管理与 分析研究概览 EMC中国研究院大数据实验室 12© Copyright 2011 EMC Corporation. All rights reserved. 基于Hadoop的实时交互式大数据分析平 台 Pipelined MapReduce任务调度和容错 不同Job间Pipeline以及同一Job中Map和Reduce任务间Pipeline 基于分组的任务调度和容错,使Pipeline的任务尽量平滑 基于在线MapReduce的并行数据挖掘工具库 支持迭代类、递归类挖掘算法 支持交互式的数据分析和部分结果的即时展现 HDFS 13© Copyright 2011 EMC Corporation. All rights reserved. Pipeline的MapReduce改进迭代类算法案例分 析MapReduce Workflow Analysis • System Start-Up + Data Load to Memory • Map function  (k,v) • Combine Function  Local File 1. Write (k,v) into OutputBuffer (64k) 2. Once it is full, perform 1. Sort by key 2. Combine values with the same key by calling the Combine() Function 3. Spill the content of the buffer to a local file 3. Merge all the local spilled files to a local file • Communication between Mapper and Reducer • Reduce function K-Means聚类迭代算法 1. Pipeline每次进行迭代的Job:避免了每 次Job中重新装载所有数据 2. Pipeline一次迭代Job中的Map和 Reduce任务: 最大避免了Map的中间结 果写到本地IO代价(Write/read to Buffer, Sort, and Spill local file) -> 获得30%的性能提升 14© Copyright 2011 EMC Corporation. All rights reserved. 面向事务密集型处理的云级并行数据库 • 智能数据分片 Intelligent sharding/resharding (DB scheme and workload Analysis) • 主动数据复制 Active-active eager replication (PostgreSQL + Group Communication Service(Spread)) • 多主间同步和协作 Distributed coordination for multiple master (Zookeeper) Scale-out PostgreSQL 15© Copyright 2011 EMC Corporation. All rights reserved. 智能分片推荐(Intelligent Sharding Advisor )• 根据对应用负载和数据库模式的分析,帮助用户自动选择最 优(最大化系统吞吐率)的数据分片方案。 Sharding Advisor (Cost Model) Sharding Scheme Input (Data/ Workload) Scheme Evaluation Result 16© Copyright 2011 EMC Corporation. All rights reserved. 智能分片推荐演示系统 17© Copyright 2011 EMC Corporation. All rights reserved. EMC中国研究院 前沿技术研究与创新 大数据实验室 云基础架构实验室 云平台与应用实验室 高校合作 标准化 创新与专利 愿景 • 成为中国顶级研究机 构和先进技术中心 使命 • 前瞻性技术研究及新 产品孵化 • 致力于与国内一流高 校及研究机构的广泛 合作 • 在中国学术界和工业 界中建立重要影响力 2011/8/8*在EMC中国卓越研发集团成立五周年之际*EMC公司宣布*在原EMC中国 实验室和EMC首席技术官办公室技术创投组的基础上*组建EMC中国研究院。 18© Copyright 2011 EMC Corporation. All rights reserved. 相关资源和工具 • Greenplum – 主页 • www.greenplum.com • Atmos – 白皮书*视频 • www.emc.com/atmos – 博客 • www.atmosonline.com • EMC中国研究院 – 博客 • qing.weibo.com/emclabschina – 微博 • weibo.com/emclabschina 19© Copyright 2011 EMC Corporation. All rights reserved. 谢谢
还剩18页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 15 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

ddraaddr

贡献于2011-12-12

下载需要 15 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf