• 1. O
  • 2. Pivotal 介绍EMC联邦子公司 正式成立于 2013年4月1日 继承了 EMC 和 VMWare 两家公司在特定产品和技术方向上的人员和资产 股东: EMC, VMware, GE… 公司使命: 为一个崭新的技术时代构建支撑平台
  • 3. 公司宗旨独立于EMC,VMWare和GE的公司, 但是受到各股东大力支持 为一个崭新的技术时代构建支撑平台 把服务于海量消费者的能力带给企业 首先提出并实现集成: 新的数据支撑架构, 现代化的开发框架与多种支撑云平台 传承自强有力的研发团队,数据科学家群体与开源精神
  • 4. Pivotal大数据产品交流 —— Big Data Suite
  • 5. 企业数据资源分类与构成企业数据资源半/非结构化数据实时数据非实时数据结构化数据来自企业内外部,具有形态多样、数据量大的特性,需要进行结构化处理后,与结构化的业务数据整合,才能辅助业务决策,发挥业务价值业务运营管理过程中产生的数据,具有结构化程度高、时效性低的特性,需要按照分析主题整合,以分析挖掘等方式辅助业务决策业务运营过程中产生的数据,具有数据量大、变化频率高的特性,需要实时监控处理,与业务系统紧密互动
  • 6. 管理不同类型企业数据资源的典型技术半/非结构化数据以批量结构化处理为主 主要用于与结构化数据整合的大数据分析场景 Hadoop的分布式计算架构非常适合处理社交媒体、移动互联等典型的半/非结构化数据,被广泛应用于大数据领域半/非结构化数据实时数据非实时数据非实时数据以业务数据整合和分析为主 主要用于传统的决策支持类场景 MPP数据库可以轻松管理PB级的海量数据,并内置了丰富的分析功能,被广泛应用于决策支持领域实时数据以数据实时捕获和变化监控为主 主要用于快数据应用 内存数据库具备磁盘IO 10~100倍的性能优势,可以轻松应对每秒上万次并发,被广泛应用于快数据领域
  • 7. 大数据平台架构涵盖的内容Analytic Data MartsMPP DatabaseOperational IntelligenceIn-Memory DBRun-Time ApplicationsIn-Memory ObjectEnterprise Data WarehouseRDBMSData Staging PlatformTraditional BI/ReportingData VisualizationData Ingestion SystemStream/CEP
  • 8. Analytic Data MartsOperational IntelligenceRun-Time ApplicationsEnterprise Data WarehouseData Staging PlatformTraditional BI/ReportingData VisualizationData Ingestion SystemPivotal在大数据处理方面的产品应用
  • 9. Pivotal大数据解决方案:Big Data Suite三个组件可以 独立部署使用,分别支撑不同应用场景 也可以部署在统一的X86平台上,彼此无缝集成,水平扩展,实现大数据、快数据和决策支持等多种类型应用场景 灵活的许可方式避免投资浪费,节省成本,实现了技术投资最大化VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM节点VMVMVMVMVM节点VMVMVMVMVM节点节点节点节点节点节点Big Data Suite大数据分析处理 Pivotal Hadoop智能分析 Greenplum内存计算 GemFireBig Data Suite是Pivotal今年发布的大数据套件,包含:智能分析组件Greenplum内存计算组件GemFire大数据处理组件PHD
  • 10. GNet......Master & Name Node 查询计划和分发Segment & Data Node 查询处理和数据存储...SQL MapReduce连续查询 大规模并发查询外部数据源Pivotal Big Data Suite各组件无缝集成...GemFire 即时数据 主动通知GPDB 实例PHD 实例File/Database/Hadoop/Stream/……PARALLEL LOADINGPARALLEL LOADINGSocial Media/Html/Log File/……
  • 11. Pivotal Hadoop 简介All you want to know about Pivotal Hadoop & HAWQ
  • 12. HDFSHBasePig, Hive, MahoutMap ReduceSqoopFlumeResource Management & WorkflowYarnZookeeperApachePivotal HD Added ValueConfigure, Deploy, Monitor, Manage Command CenterHadoop Virtualization (HVE)DataLoaderPivotal HD EnterpriseXtension FrameworkCatalog ServicesQuery PlannerDynamic PipeliningANSI SQL + AnalyticsHAWQ– Advanced Database ServicesPivotal 基于 Hadoop 的创新研发
  • 13. 用户可以采购100%开源标准的Pivotal HD组件,获得Pivotal提供7*24售后及咨询服务.基于此,企业用户还可以增选HAWQ等高级功能套件,满足对易用性,高性能,外围系统整合的要求安装配置管理(ICM) – 集群安装、升级、扩展 Pivotal Command Center – 集群健康度、系统度量以及任务监控的可视化界面 Hadoop Virtualization Extension (HVE) –增强了Hadoop对虚拟节点的支持以及集群更富有弹性 Data Loader – 并行加载基础组件,确保数据线速加载至HDFS Isilon Integration – extensively tested at scale with guidelines for compute-heavy, storage-heavy, and balanced configurations.高级数据库服务(HAWQ)– 高性能、“True SQL”查询接口 Pivotal Extensions Framework (PXF) –通过HAWQ支持外部表查询(HBase, Avro, etc.). Advanced Analytics Functions (MADLib) – 机器自学习能力及规模化的数据挖掘功能 Unified Storage Services (USS) and Unified Catalog Services (UCS) –支持单点访问分级存储(热、温暖、冷)和集成多数据源提供Pivotal HD Adds the Following …Pivotal HD增值组件
  • 14. Pivotal HAWQ 简单来说ODBC/JDBC Driver L3,4Robust Query OptimizerCost-Based Query OptimizationRow/Columnar StorageBuilt-in CompressionComplex Data ManagementDistributionsPartitioningSub-PartitioningPolymorphic StorageParallel Loading/UnloadingHDFS Native FormatsMemDiskUsersConcurrencyResource QueuesRole-Based SecurityData EncryptionMulti-User PlatformAccessibilitySQL EngineANSI SQL 2003/2011 SupportStorage OptionsExtendable…HDFS Native FormatsCPUGreenplum 数据库 架构在 Hadoop/HDFS 之上txtAvroSeqHBaseHiveMapReduce Integration
  • 15. 使用标准SQL语句访问HDFS, Hbase, Hive里的数据而不需要把数据移动到HAWQ里 能够在HDFS,Hbase,Hive之间进行高性能join操作Local Temp StorageSegment DBQuery ExecutorHDFSGPXFSegment DBSegment DBDataNodeHDFSHBaseDataNodeHDFSHBaseDataNodeSQLSQLHAWQ不仅仅是一个SQL on Hadoop方案Local StorageHAWQ MasterLocal TMQuery ExecutorParserDispatchGPXFQuery Optimizer
  • 16. 基本HAWQ架构HDFSInterconnectHAWQ Master第三方工具HDFS NameNodeResource ManagerDataNode 1 HAWQ Segment HAWQ Segment ODBC/JDBC/OleDB应用程序客户端SQLDataNode 2 HAWQ Segment HAWQ Segment DataNode N HAWQ Segment HAWQ Segment Secondary NameNodeHAWQ Standby Master
  • 17. User inteligence4.2198Sales analysis8.7161Click analysis2.0415Data exploration2.71,285BI drill down2.81,81547X19X208X476X648XHAWQ Benchmarks
  • 18. User inteligence4.237Sales analysis8.7596Click analysis2.050Data exploration2.755BI drill down2.8599X69X25X20X21XHAWQ Benchmarks
  • 19. HAWQ 竞争优势SQL on Hadoop的方案 使用SQL的方式来进行大数据分析,而不需要学习复杂的MapReduce编程 PXF扩展模块提供标准SQL来访问Hadoop中的数据 HDFS, HBase, Hive 或者其他的任何数据格式 广泛的数据访问能力, 集成能力和迁移能力 高性能和高扩展性 将一切并行化 Dynamic Pipelining High Speed Interconnect HDFS 访问优化,使用native HDFS LDAP,Kerboros 企业级安全 数据和表并置,数据本地化 分区消除 集群利用率最大化 并发控制 资源队列控制
  • 20. HAWQ 竞争优势易用性 并行处理由系统自动完成 – 无需人工干预 没有复杂的调优需求 只需加载数据库和查询 扩展性 可线性扩展到10,000个节点 每增加一个节点,查询、加载性能都成线性增长 灵活性 完全并行处理支持 SQL92, SQL99, SQL2003 OLAP,列数据库,透明压缩, MapReduce 支持任何schema (star, snowflake, 3NF, hybrid, etc) 丰富的扩展性和语言支持(Java , Perl, Python, R, C, etc) 丰富的第三方工具支持(GoldenGate, DataStage, Pentaho Kettle, etc)
  • 21. BDS客户生产系统的一组数字20 万亿(Trillion)行– 事实表(fact table) 70K/day – 查询速率(Query Rate ) 24PB – 数据尺寸 +100GB/s – 分析数据速度(Analysis Rate) +3GB/s – 装载速度 100,000/s – 交易处理速度 1000s – 节点规模 100s – 分布式内存平台节点规模 10/22/201821
  • 22. Pivotal Big Data Suite 几个例子Customers move on with Pivotal Big Data Suite
  • 23. 日志挖掘服务器 H+1,20台信用/CTU Data mart/计算平台案例一:某电商分析平台系统架构图 数据仓库主库 定时任务计算 140台数据 分发数据源 OLTP 系统财务系统销售系统客服系统会员营销 Data mart/计算平台 抽取数据收集分发中心数据仓库工具与管理平台/调度系统)管理元数据(Meta Data)管理CDC资金/财务等 Data mart/模型计算平台CDCCDCCDC账户系统… 数据仓库备库 查询 60台数据历史库/挖掘 40台CDCCDC数据 分发数据 分发风控系统 会员营销 客户服务 资金管理 财务分析 客户信用挖掘工具集商业智能 信息门户KPI报表与业务报告 业务指标仪表盘监控 运营与营销数据分析 综合数据查询 挖掘分析报告 用户访问行为跟踪 竞争情报日志收集 服务器 20台日志/行为模型计算 准实时,4台 服务 打点 服务线上即时作弊判断 线上即时个性化营销企业数据中心网站访问交易系统图例主Greenplum集群,总共180台查询集群 总共60台
  • 24. 案例一:使用情况说明数据库数据量:1000T 数据库数据增量:500G/天,每年数据量增加2倍以上 数据加载频度:大多数H+1(每小时加载),网站访问D+1(每天加载) 现有系统规模:240个节点,3套Greenplum数据仓库集群 节点服务器:华赛T3500 PC 服务器,每台2个Intel 四核CPU,32G内存,24个2TB SAS硬盘,配置为RAID5,操作系统是Redhat Enterprise Linux OLTP生产环境:约200多套 Oracle OLTP库,每个应用采用分20个分库的结构部署。 ETL/CDC:自主开发,负责把200多个OLTP的库的数据采集过来,做汇总,然后同时导入3个Greenplum 数据仓库集群中,各个数据仓库保持相同全量数据。 Greenplum:在线扩容。2008年上线时是一个集群20台PC服务器。随着数据量增加,随时扩加机器,现在最大的集群已经加到140台。 BI中间件:现用SAP BO网站日志交易数据详细数据Greenplum海量基础数据 大数据量查询Oracle加工数据门户网站 。。。。。。用户信息
  • 25. 案例二:山东移动经分系统现状和面临主要问题 目前山东移动经分系统的规模随着业务的不断发展扩大,支撑数据越来越多,需要的分析能力也越来越深化,系统定位发生了非常大的变化,已从单纯的决策分析支持转变成重要的一线生产系统。 现状数据仓库架构老数据仓库:经十路机房2台P595主机 扩容前关键KPI平均运行时长:5H 新数据仓库:开发区机房2台P780主机 扩容后关键KPI平均运行时长:4.5H(90%)原有传统技术和方案(小型机)的扩容,已无法使运算能力线性增长。 主要问题1、投资大,扩容时动辄需要千万投资级别。2、海量数据处理时系统性能瓶颈过大:在支撑业务快速发展时,忙时持续100%,性能存在瓶颈。3、业务系统越来越复杂,数据仓库上支持的应用越来越多,导致经分各类时间窗口无法控制的风险。4、无法在线扩容,系统扩容期间,宕机时间过长无法容忍。
  • 26. 案例二:山东移动云数据仓库平台方案数据源CRMBOSS10086VGOP……个体信息经分数据质量管理ETL原经分 数据仓库客户洞察(CI)校园用户分析竞争对手分析集团成员分析……应用专题经分元数据管理私有云仓库消费情况……消费汇总行为汇总……区域识别……交往圈识别 方案主要考虑解决原经分占资源较多、分析时间较长、不利于正常生产的应用部署的问题。 内容主要包括:客户洞察(CI)、校园用户分析、竞争对手分析和集团成员分析。26台低成本中高端x86 server(2C12核64G内存); 本地磁盘:每台16块450G; ETL主机利旧;10GE高速网络; 性能提升,时间窗口由原来的5小时变成二十分钟
  • 27. 案例三:某银行利用大数据实现秒级营销示例某银行信用卡中心跟汉拿山烤肉的联合促进活动,在实时BI的支持下,银行信用卡中心选取汉拿山附近商户消费的客户,在第一时间通知客户此项优惠112113超市115117118汉拿山122119116童鞋121126125124127客户进入深圳来福士广场客户进行了一笔108元的消费 客户信息:30-35 女性、有2个孩子、曾经使用银行刷卡优惠发送优惠短信:您刚消费了108元,如您再消费一笔超过91元,即可在来福士购物中心5层汉拿山烤肉享5折优惠1次 看完短信,客户刚刚还在犹豫是否要给小孩儿买的一双新鞋,立即下决心刷卡付款在汉拿山刷卡消费,享受5折优惠
  • 28. 案例三:利用大数据实现秒级营销示例(续)AS 400Greenplum某银行银行信用卡营销平台来福士广场商户POS某银行信用卡业务系统某银行信用卡数据平台消费信息消费信息消费信息优惠信息位置信息360o视图消费结果
  • 29. 案例三:某银行卡中心一期解决方案建立卡中心基础数据平台,实现: 实现卡中心现有的40多个业务系统的集成与整合 实现传统BI平台改造,提升系统效率,支撑KPI等应用 支持营销、反欺诈和催收等日常业务处理 支持高级分析人员沙盘分析预测需求 结合客户消费习惯,实现秒级营销 数据沙盘平台 SAS卡业务系统 卡中心基础数据平台传统BI 平台 CognosTriad 决策平台 Alpine分中心营销平台 CRM每天采集、加载原始数据超过300GB,现有数据量为100TB、压缩后20TB左右 最初的生产系统为2个Master节点+8个Segment节点构成的Greenplum数据仓库集群
  • 30. 案例三:Pivotal 大数据解决方案为之带来的收益实现了秒级实时营销促进了客户经理转型提升了整体运营效率市场活动中答应客户在刷满一定金额或次数后赠送礼品,客户可以在刚好满足条件的那次刷卡后马上获得 实时获取客户消费信息、位置信息,利用移动终端,发起呼出式营销信用卡中心已经可以结合实时、历史数据进行全局分析,可以每天评估客户的行为,并决定对客户的信用额度在同一天进行调整所有客户信息现在均可以通过分中心CRM(客户关系管理)系统的专用PAD移动设备实时获取和使用 分中心的营销人员除了单纯的发卡工作外,还参与到客服、产品营销等工作,分中心团队正在由单纯的发卡团队变为一支强有力的客户经理团队
  • 31. 案例四:12306采用GemFire改造2012年春节,12306网上订票上线,高峰时间无法登陆网站,登陆了网站也无法订票 2012年3月开始,铁路总公司(原铁道部)开始调研、改造12306 2012年6月选择GemFire改造12306,一期是改造余票查询,9月份完成代码改造,系统上线 2012年国庆,又是网上订票高峰期间,大家可以显著发现,可以登录12306,虽然还是很难订票,但是查询余票很快。 2012年10月份,二期用GemFire改造订票查询 2013年春节,又是网上订票高峰期间,大家可以显著发现,可以登录12306,虽然还是很难订票,但是查询余票很快,而且查询自己的订票记录也很快。
  • 32. 28个分局实时数据流中央数据库 小型机各地分支机构“数据实时复制”传输并汇总到总部中央数据库Web & App小型机 N > 100应用层服务器. . .实时数据 复制实时数据 复制案例四:12306网上订票原有系统架构数据库小型机 N > 5数据库小型机 M > 501.数据“实时复制”到所有“数据分库” 2. 所有数据分库数据统一一致,承担部分预处理运算1.深度处理数据统一复制到所有“数据分库” 2. 数据分库独立运行,运算负荷高,DB IO 瓶颈Web层服务器
  • 33. 资料汇总Web & App Servers N > 100Web服务器集群应用服务器集群数据库(x86) SQL 语句抽取 Rabbit MQ (x86)集群数据同步Gemfire 服务器 (x86) 集群 > 5. . .28个局实时 数据流数据分流 云应用系统设计结构实时数据 复制实时数据 复制中央数据库 小型机数据库小型机 N > 5 数据库小型机 M > 50案例四:12306网上订票系统架构改造原有系统只做热备
  • 34. 12306改造之前 单次查询耗时15秒左右 无法支持高流量并发查询,只能通过分库来实现, 在极端高流量并发情况,系统无法支撑 高峰期间无法访问,也无法动态增加机器来应当 运行在 UNIX小型机12306改造之后 单次订票查询最长耗时150-200毫秒, 单次查询最短耗时1-2毫秒。提高100倍-1000倍 支持每秒上万次的并发查询,高峰期间2.6万个并发/秒,查询速度依然是平均200毫秒左右 按需弹性动态扩展,并发量增加还可以动态增加机器应对,同步实时变化的数据耗时秒级 运行在Linux X86服务器集群案例四:改造后取得的效果 -- 来自网上订票系统实际运行数据
  • 35. E