• 1. 从大数据到大智慧:Oracle大数据解决方案杨 雷 Lei.L.Yang@oracle.com Big Data Solution of Center of Excellence
  • 2. Agenda Oracle大数据整体解决方案I Oracle Big Data Appliance介绍II Oracle大数据Demo介绍II大数据定义I
  • 3. 什么是大数据? 具有4V特性的数据称为大数据 巨大的数据量 Volume 集中储存/集中计算已经无法处理巨大的数据量 VOLUMEVELOCITYVARIETYSOCIALBLOGSMART METERVALUE1011001010010010011010101010111001010101001001013亿+用户,高峰期一天上亿条微博中型城市每月数十亿智能电表数据2015年全球移动终端产生的数据量6300PB多结构化数据 Variety 文本/图片/视频/文档等 增长速度很快 Velocity 海量数据的及时有效分析 用户基数庞大/设备数量众多/实时海量/数据指数级别增长 价值密度低Value 单条数据并无太多价值,但庞大的数据量蕴含巨大财富
  • 4. 传统DW难以处理大数据大数据的4V特点: Volume, Variety, Velocity, Value 传统DW系统不适用于大数据的分析 数据量过于庞大 绝大部分大数据是垃圾 存储成本昂贵 大数据的多样化格式 需要革新性的技术手段 海量数据“经济方案”------经济便宜的X86服务器 海量数据“分而治之”------批量分布式并行计算Hadoop 海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL 海量数据“跨越鸿沟”------大数据超高速装载进数据库
  • 5. HDFS Oracle NoSQL DBOLTPData WarehouseOracle Big Data Solution非结构化 半结构化 数据结构化 数据ODI Adapter for Hadoop Oracle Loader for Hadoop Oracle Direct Connector for HDFS Oracle R Conenctor for HadoopOracle Big Data Connector
  • 6. 软硬一体优化集成的Oracle大数据综合解决方案Oracle Big Data ApplianceOracle ExadataInfiniBand捕获组织分析InfiniBandOracle Exalytics决策
  • 7. 决策分析获取组织Oracle NoSQL 数据库HDFSRDBMSOracle 面向大数据的集成解决方案体系
  • 8. 新数据的产生来源当今的挑战新数据前景医疗保健 昂贵的门诊远程病人监护预防保健、降低住院率制造 人员支持产品传感器自动化诊断与支持基于位置的服务 基于家庭邮政编码实时位置数据基于地理位置的广告、交通、 本地搜索公用事业 复杂的配电网详细的使用统计数据提高可用性,降低成本, 分级计量计划零售 同一规模适合所有市场营销社交媒体舆情分析与分割
  • 9. 两组特性面向批处理实时处理要使用的数据提供服务批量存储快速访问特定记录一次写入,无限读取读取、写入、删除、更新
  • 10. 最佳选择Hadoop 分布式文件系统 (HDFS)Oracle NoSQL 数据库文件系统数据库并行扫描索引存储无固有结构简单的数据结构大量写入大量随机读写
  • 11. Hadoop 架构 管理/监视Hadoop 分布式文件系统 (HDFS)MapReduce 分布式文件系统 Map/Reduce 编程范式 高度可伸缩的数据处理 能力
  • 12. HDFS 概述 将数据分布在集群上 多个副本 通过添加节点实现扩展
  • 13. HDFS 概述优点缺点大文件低延迟一次写入大量小文件实现流式访问文件更新
  • 14. HDFS 用例点击流存储和分析 持续时间超过 X 分钟的 Web 会话数 浏览频率最高/最低的页面 按钟点和源位置进行会话时间分组 舆情分析 多少个评论包含单词或词组 关系发现 哪些项目看似在时间或相近性方面相关 X 和 Y 有多少次相近
  • 15. Oracle NoSQL 数据库 节点 东部节点 西部节点 中部NoSQL 驱动程序应用程序NoSQL 驱动程序应用程序读取删除读取更新分布式键值对数据库 简单编程模型 可伸缩的吞吐量 商业软件和支持 易于管理
  • 16. Oracle NoSQL 数据库驱动程序链接到每个应用程序中 数据节点保持最新 存储节点跨多个数据中心 自动处理存储节点故障 优雅降级 自动发现 无单点故障 企业拓扑
  • 17. Oracle NoSQL 数据库主要特性简单数据模型 — 键值对(主键 + 次键模式) 简单操作 — 读取/插入/更新/删除 事务范围 — 主键内的记录、单一 API 调用 无序扫描所有数据(非事务) 简单数据模型用户 ID地址订阅电子邮件 ID电话号码到期日主键:次键:值:字符串字节数组 
  • 18. Oracle NoSQL 数据库主要特性按操作逐个指定,应用程序设置默认值 可配置的持久性策略 同步策略 + 副本确认策略 可配置的一致性策略 ACID 事务
  • 19. Oracle NoSQL 数据库用例数据捕获 传感器数据捕获(即信息家电、智能电网、地球科学、生物医学科学) 统计信息和网络捕获(QOS 网络管理) Web 应用(一路点击式捕获) 针对移动设备的备份服务 数据服务 NoSQL 数据共享(地球科学、生物医学) 可伸缩的身份验证 实时通信(MMS、SMS、路由) 社交网络、个性化
  • 20. Oracle NoSQL 数据库的独特优势与 Oracle 体系无缝集成 商业级 可伸缩 简单编程模型 易于管理
  • 21. 获取大数据最佳的数据存放处 HDFS NoSQL 关系数据库 通过分析发现价值
  • 22. Oracle 面向大数据的集成解决方案体系决策分析Oracle NoSQL 数据库HDFSRDBMS获取组织Oracle Data IntegratorOracle Loader For HadoopHadoop (MapReduce)Oracle Direct Connector
  • 23. 使用新数据挑战新数据转变了解在线活动Web 日志会话化了解故障情况产品传感器 确定超出范围的事件、趋势确定客户响应的优先级社交媒体舆情分析
  • 24. Hadoop 架构 管理/监视Hadoop 分布式文件系统 (HDFS)MapReduce 分布式文件系统 Map/Reduce 编程范式 高度可伸缩的数据处理能力
  • 25. 简单的 MapReduce 示例ReduceShuffle /SortReduceReduceMAPMAPMAPMAPMAP
  • 26. 使用 Map/Reduce 扫描所有数据Shuffle /SortShuffle /SortMAPMAPMAPMAPShuffle /SortReduceReduceShuffle /SortShuffle /SortReduceReduceReduce输入 2输入 1输出 2输出 1MAPMAPMAPMAPMAPReduceReduceReduceMAPMAPMAPMAPMAPMAPReduceReduceMAPMAPMAPMAPMAPReduceReduceReduce
  • 27. Oracle Loader for Hadoop使用集群MapReduce 工作流的最后 阶段 分区表和未分区表 在线和离线加载Shuffle /SortShuffle /SortReduceReduceReduceMAPMAPMAPMAPMAPMAPReduceReduceOracle Loader for Hadoop
  • 28. Oracle Direct Connector for HDFS从 Oracle 数据库直接访问对 HDFS 的 SQL 访问 外部表视图 数据查询或导入DCH外部表DCHDCHSQL 查询InfiniBand HDFS 客户端HDFS Oracle 数据库
  • 29. 从 Oracle 数据库访问 Hadoop 数据Oracle Loader for Hadoop用例特性通过 JDBC 在线加载最简单的未分区表用例通过直接路径在线加载分区表的快速在线加载通过 datapump 文件离线加载外部表的最快加载方法数据库服务器上的 加载较少Oracle Direct Connector for HDFS从 Oracle 数据库对 HDFS 进行 SQL 访问数据留在 HDFS 上 从数据库并行访问与 Oracle Loader for Hadoop 联用访问由 OLH 创建的文件或导入 Oracle 表
  • 30. 开发 MapReduce 所需的技能JavaHadoop 框架并行算法
  • 31. Oracle Data Integrator简化 MapReduce自动生成 MapReduce 代码 管理进程 加载到数据仓库Oracle Loader for HadoopOracle Data Integrator
  • 32. 软件部分 Oracle Linux / Oracle JDK Cloudera Hadoop Distribution Cloudera Manager Oracle NoSQL Database Open-source R distribution Oracle Big Data Connector ODI Adapter for Hadoop Oracle Loader for Hadoop Oracle Direct Connector for HDFS Oracle R Conenctor for Hadoop硬件部分 18 Sun X4270 M2 服务器 每台2 CPUs * 6核 每台48 GB内存(可扩展至144GB) 每台12块3TB SAS盘 网络部分 40Gb InfiniBand 10Gb 以太网 Raw Storage: 648T / 4倍压缩2.6P Core Count: 216核 Mem Count: 864G – 2592G Big Data Appliance
  • 33. 组织大数据通过 Hadoop 组织大数据 简化开发 简化部署 通过分析发现价值
  • 34. 决策分析Oracle NoSQL 数据库HDFSRDBMS获取组织Oracle Data IntegratorOracle Loader For HadoopHadoop (MapReduce)Oracle Direct Connector Oracle 面向大数据的集成解决方案体系数据库内分析数据仓库
  • 35. Oracle 数据库强大分析平台新增 Oracle Advanced Analytics2 英里统计 数据挖掘 文本 图形 空间 语义
  • 36. Exadata Storage LayerSmart ScanEHCCFlashOracle大数据增强Exadata数据分析能力XMLRelationalOLAPSpatialData LayerRDFMediaOpen Source AnalyticsHadoopExternal DataWeblogs XML / Text Media Social DataNoSQL DBOracle RData MiningText Analytics and SearchSpatial AnalyticsSQL AnalyticsOracle MapReduceParallel Processing EngineOracle ExadataMassive ScalabilityEverything ParallelDeep AnalyticsReal-TimePrivate CloudSecureOracle BI & AnalyticsBig Data Appliance
  • 37. Oracle 数据库云服务器最快的数据仓库和 OLTP 性价比最高的数据仓库和 OLTP 优化的硬件(根据机架) 处理器:最多 328 个 Intel 内核,4432GB DRAM 网络:880 Gb/秒吞吐量 存储:5.3TB 闪存,最多 504 TB 磁盘 软件突破 Exadata 智能存储网格 智能闪存缓存 混合列压缩 并行横向扩展的数据库和存储 从四分之一机架到 8 个全机架的伸缩性 数据仓库、事务处理、数据库整合
  • 38. R 统计编程语言 开源语言和环境 用于统计计算和统计绘图 能够轻松制作出版级高质量图表 高度可扩展
  • 39. Oracle R Enterprise更快可伸缩高度安全在数据库中运行模型 可处理大型数据集 发挥 Oracle Database 11g 和 Exadata 的强大能力 代码相同,而速度更快 Oracle Advance Analytics R
  • 40. Oracle R Connector for Hadoop 实现对 Hadoop 的本地 R 访问ORE客户端主机 R 引擎Hadoop 集群软件R 引擎MapReduce 节点 HDFSOracle 大数据机 Oracle 数据库云服务器 R 引擎OREORCHORCH本地 R MapReduce 本地 R HDFS 访问
  • 41. 分析大数据满足企业级多层次需求 强大的大数据分析平台 支持在数据库和大数据中R分析
  • 42. 决策分析Oracle NoSQL 数据库HDFSRDBMS获取组织Oracle Data IntegratorOracle Loader For HadoopHadoop (MapReduce)数据库内分析数据仓库Oracle Direct Connector Oracle 面向大数据的集成解决方案体系分析应用 程序
  • 43. 商务智能辅助决策快如闪念的交互式分析 交互式分析 自由挖掘 密集可视化 完全移动
  • 44. 快如闪念的交互式最终用户体验高度交互式分析 自由格式数据挖掘 高密度可视化视图自动建议 上下文相关的操作 全面支持移动
  • 45. Oracle 商务智能云服务器首个集成设计的分析系统 无限制的可视分析 更智能的分析应用程序
  • 46. Oracle Exalytics — 揭开神秘面纱内存中分析软件Essbase适用于 Exalytics 的 TimesTen自适应内存工具1 TB RAM 40 个处理内核 高速联网内存中分析硬件Oracle BI Foundation Suite该内容仅供参考,不构成对任何特性或功能的开发、发布和时间安排的承诺。
  • 47. 内存中分析探索式自适应内存缓存 确定在内存中存放哪些内容 自我调适以适应分析负载的变化 内存数据库 并行 TimesTen 数据库 并行 Essbase 高级列压缩 内存中分析功能 1 TB RAM适用于 Exalytics 的 TimesTen 内存数据库探索式 内存缓存
  • 48. 大数据决策快如闪念的分析和决策 满足企业级需求 集成设计、卓越性能 经过优化,实现卓越分析
  • 49. Oracle大数据解决方案 获取分析组织Oracle (DW) Oracle (OLTP)模式灵活非结构化数据多样性结构化模式化信息密度HadoopHDFS Oracle NoSQL DBSpatial Graph Oracle Advanced Analytics (ODM & ORE) OBI EEOracle MRR非SQL 灵活、特定 开发为中心SQL 安全、可靠 管理为中心Oracle Big Data Connector
  • 50. 改进企业数据架构,引入大数据,数据协同效应事务数据管理、安全、治理高级 分析可视 发现DBMS (OLTP)主数据和 参考数据结构化DW/DM文本分析 和搜索报告和 信息板实时NoSQL机器生成社交媒体文本、图像、 视频、音频非结构化半结构化HDFS报警数据库中的 分析EPM BI 应用程序ETL/ELTCDCODS流 (CEP 引擎)获取组织分析决策Hadoop (MapReduce)服务器存储网络操作系统消息/服务集成Oracle Big Data Connector
  • 51. 手机上网日志系统将机器识别的log文件整理、汇总、挖掘成五个维度诠释每个独立用户音乐下载上网活跃度:高晚8点上海终端:HTCandroid男性28岁游戏迷每月80M流量行为特征: 下载、浏览、搜索、邮件等终端属性特征: 手机品牌、型号等应用偏好特征: 通讯、音乐、游戏、阅读等内容喜好特征: 军事、体育、音乐、游戏等基础属性特征: 年龄、性别、上网时间等电信行业典型大数据解决方案
  • 52. 软硬一体优化集成的Oracle大数据综合解决方案Oracle Big Data ApplianceOracle ExadataInfiniBand捕获组织分析InfiniBandOracle Exalytics决策
  • 53. (本页无文本内容)