IBM Big Data Platform


IBM Big Data Platform 王云 IBM院士 中国研究院首席技术官 DTCC2012DTCC2012 2 2009 800,000 petabytes 2020 35 zettabytes 未来的10 年里,数 据和内容 将增长 44倍 商界领袖经常需要以不信任的 或不存在信息为基础进行决策 1 in 3 83% CIO们提到的“商业智能和分析” 作为有远见计划的一部分来提高 竞争力 商界领袖无法获取做好本职 工作所需要的信息 1 in 2 CEO们需要更迅速捕获和了解信息, 以便迅速作出业务决策来做取得更 好的工作成绩 60% 企业需要更深入的 远见卓识 的数据是非结构化的 80% 信息是新一轮机遇中的核心… DTCC2012DTCC2012 3 群体和个体之间交互沟通的方式发生了 翻天覆地的变换由此带来的信息量的巨增 A brand new game Consumers become increasingly interconnected Consumers become increasingly intelligent IBM Institute for Business Value CMO Study 2011 Consumers become increasingly instrumented + + = DTCC2012DTCC2012 4 从巨大、以无与伦比的速度增长和多样化的数据中 提取远见卓识,而这些是以前无法做到的 Big Data 的机遇 DTCC2012DTCC2012 5 The IBM Big Data Platform DTCC2012DTCC2012 6 Big Data 平台能够做什么事情? 分析流动中的信息 流数据分析 针对数据爆炸和ad-hoc模式的分析 分析多样化的信息 基于大范围混合信息的上下文分析,而这种分析 此前根本不能执行 发掘和探索 Ad-hoc模式的分析、数据发现和验证 分析极端大量的数据 成本最优化地处理和分析PB量级的信息 管理、分析大容量的结构化和关系型数据 计划和管控 加强数据结构的完整性和控制,以确保可重复查询的 一致性 DTCC2012DTCC2012 7 Big Data 丰富了整个信息管理生态系统 谁?在什么时候?什 么地方?动用了什么 样的数据? 审计路线图精减 了工作和任务 管理治理过程 优化OLTP (SAP, checkout, +++) 通过生活事件、爱好和角色等等使主 数据变得更加丰富 建立信息即服务 优化归档成本 DTCC2012DTCC2012 8 互为补充的分析能力 传统的做法 结构化,可分析,逻辑性 新的路径 创造性, 整体思维, 知觉 Structured Repeatable Linear Monthly sales reports Profitability analysis Customer surveys 来自内部应用的数据 数据仓库 传统数据源 结构化 可重复 线性的 事务数据 来自ERP的数据 来自主机的数据 OLTP 系统中的数据 Unstructured Exploratory Iterative Brand sentiment Product strategy Maximum asset utilization Hadoop Streams 新数据源 非结构化 探索性 迭代的 Web 日志 社交网络中的数据 文本数据: emails 来自传感器的数据: 影像 RFID 企业集成 DTCC2012DTCC2012 9 Streams 和 BigInsights – 沉淀的数据和流动数据的无缝集成 1. 数据注入 数据集成,数据挖 掘,机器学习,统 计建模 可视化的实时和历史 的见解 3. 自适应分析模型 数据采集,​​准备, 在线分析,模型 验证 Data 2. 数据反馈 Control flow InfoSphere BigInsights, Database & Warehouse InfoSphere Streams DTCC2012DTCC2012 10 InfoSphere BigInsights Platform for volume, variety, velocity -- V3 . 增强的Hadoop方案 Analytics for V3 . 文本分析的工具箱 . 机器学习与预测分析 Usability . Web console . 集成安装 . 可视化工具 . 大数据分析的apps,如apps Store Enterprise Class . 企业存储,安全,集群管理 Integration . 与DB2,Netezza, JDBC数 据的互联互通 DTCC2012DTCC2012 11 流数据分析 分析和关联500万市场消息/秒, 以30微秒的平均延迟执行算法期权 交易。 以500K/秒的速度,每天分析 6B+ IPDRs,每年分析 4 PBs. sustaining 1GBps. Consider: 数据不用存储, 不用遵循信息生命周期管理,极大量 的节省存储等资源消耗 height: 640 width: 480 data: height: 1280 width: 1024 data: height: 640 width: 480 data: DTCC2012DTCC2012 12 IBM Watson 12 IBM Watson 是在分析创新 方面的一项重大突破,但它之 所以取得成功,完全得益于它 处理的信息的速度和质量。 InfoSphere BigInsights “Big Data” analysis (Hadoop) InfoSphere Streams Massively parallel analysis DTCC2012DTCC2012 13 tokens documents V W H ≈ documents topics topics words x while (i < max iteration) { H = H ∗ (WT V / WTWH); W = W ∗ (V HT / WHHT ); i = i + 1; } 基于BigData 平台的预测分析 DTCC2012DTCC2012 14 各个行业BigData 应用的适用范围和场景 Homeland Security Finance Smarter Healthcare Multi-channel sales Telecom Manufacturing Traffic Control Trading Analytics Fraud and Risk Log Analysis Search Quality Retail: Churn, NBO DTCC2012DTCC2012 15 INTEGRATION 营销 数据仓库一体机 数据库 内容分析 业务分析 主数据管理 IBM & non-IBM InfoSphere MDM DB2 & non-IBM Cognos & SPSS Unica ECM 数据增长管理 InfoSphere Optim 规则 / 业务流程管理 iLog & Lombardi 数据仓库 InfoSphere Warehouse IBM Big Data Solutions 客户和合作伙伴方案 Big Data 企业引擎 Big Data 加速器 文本 影像/视频 音频信息 财经 时间序列 统计数据 挖掘 地理信息 数学信息 InfoSphere BigInsights InfoSphere Streams Information Server 提升和优化生产效率 工作负载管理和优化 工作流 工作时间表 作业跟踪 配置 数据摄入 管理 配置管理器 身份和访问管理 事件监控 数据保护 管理工具 连接器 应用 蓝图 DTCC2012DTCC2012 IBM big data • IBM big data • IBM big data IBM big data • IBM big data • IBM big data IBM big data • IBM big data IBM big data • IBM big data THINK DTCC2012DTCC2012
还剩15页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

peterzyliu

贡献于2012-06-10

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf