从非结构化数据到大数据(Big Data)整体解决方案


从非结构化数据到大数据(Big Data) 李珈 技术总监 您所面对的是…… 非结构化数据75%~85%,2020 – 35.2ZB RDBMS ? 丰富的数据来源: Web2.0, 电子零售, 传感 器读数, 智能终端…… 多样的数据结构: 非/半结构化, 条形码, GPS, 图片, 医疗记录…… Internet, 企业内网, 传感 器网络, GB/TB/PB级…… 海量的数据总数: 微博, B2B,B2C, 工业实时 监控, 全球定位…… 急速的数据生成 : 什么是大数据? 具有4V特性的数据称为大数据 • 巨大的数据量 Volume • 集中储存/集中计算已经无法处理巨大的数据量 VOLUME VELOCITY VARIETY SOCIAL BLOG SMART METER VALUE 1011001010010010 0110101010101110 0101010100100101 3亿用户,每天 上亿条微博 中型城市每月数十 亿智能电表数据 2015年全球移动终端产 生的数据量6300PB • 多结构化数据 Variety • 文本/图片/视频/文档等 • 增长速度很快 Velocity • 海量数据的及时有效分析 • 用户基数庞大/设备数量众多/实时海量/数据指数级别增长 • 价值密度低Value • 单条数据并无太多价值,但庞大的数据量蕴含巨大财富 2011-大数据年-数据厂商拥抱大数据 • Oracle – Cloudera • EMC – MapR • Microsoft – Motonworks • IBM - …Cloudera 政府国策-《大数据研究和发展计划》 2012,3 –未来的新石油 CTO 白宫科技政策办公室 •美国奥巴马政府宣布的“大数据的研究和发展计划”,涉及美国国家科学基金、国 家卫生研究院、能源部、国防部、国防部高级研究计划局、地质勘探局等6个联邦政 府部门,承诺投资超过两亿美元 •卫生研究院--健康与疾病相关的数据集,包括影像、分子、细胞、电生理学、化学、 行为、流行病学、临床医学数据集 •国际千人基因组计划创建的最大的人类遗传变异研究数据集在亚马逊网站云服务 (AWS)上免费公开。大约200TB,相当于1600万个塞满文本资料的文件柜或3万 多个标准DVD •能源部到电网,包括宇宙学和天气数据,传感器数据 大数据对部分经济领域的影响 -数据来源:麦肯锡经济研究院 相关经济领域 主要影响 美国医疗服务业 每年价值3000亿美元 大约0.7%的年生产率增长 全球个人位置数据 服务提供商收入1000亿美元或以上 最终用户价值达7000亿美元 美国零售业 可能的净利润增长水平为60%或以上 0.5-1.0%的年生产率增长 制造业 产品开发、组装成本降低达50% 运营资本降低达7% 欧洲公共部门管理 每年价值2500亿欧元 大约0.5%的年生产率增长 传统DW难以处理大数据 • 传统DW系统不适用于大数据的分析 • 数据量过于庞大 • 绝大部分大数据是垃圾 • 大数据的多样化格式 • 需要革新性的技术手段 • 海量数据“分而治之”------批量分布式并行计算Hadoop • 海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL • 海量数据“跨越鸿沟”------大数据超高速装载进数据库 以某银行审批新的信用卡申请为例 得到关于小章的相关 信息: - 过去的消费行为 - 过去的还款能力 - 性别、职业等个人特 征 银行内部员工通过 CRM等系统查询一 下内容: - 过去的借记卡交易 信息 - 过去的信用卡交易 信息 在DW 中 进 行OLTP 操 作 进一步获得一下信 息: - 消费潜力 - 还款能力 - 消费习惯 进一步,银行员工 通过Analysis Sandbox对big data做分析 社 交 信 息 以 Big data 形 式 展 现 Big data分析报 表 结论: 小章的消 费潜力巨大,信 用能力强 通过CRM分析得到的报表 结论: 小章是一个信 用卡重度使用客户,过 去的信用状况良好,常 常超支,常常进行网上 支付 - 给予小章信用卡金卡 - 额度上升到每月10万 - 提供美金自动购汇服务 还可以做的: 针对小章进行 精准营销,推 送相关奢侈品、 旅游的,商家联 盟信息 实时BI分析 - 结合big data和 OLTP的信息进行 汇总数据的OLAP 实时分析 进 行 汇 总 数 据 的 实 时BI 分 析 전략구분 小章作为某银行的 老客户,需要申请 一张新的信用卡 行业大数据应用 • 美国百货商店购物-监管摄像头监控客户的一举一动,几分钟以后,走过 的过道、挑选和放下的产品、购买的东西以及捕捉表情瞬间的视频将会被 发送至印度班加罗尔的一家数据分析公司Mu Sigma • 沃尔玛数据中心的存储能力超过4PB; Sabre分析航线及销售渠道、客 户行为模式等信息 • eBay分析平台每天处理的数据量高达100PB • 脸谱(Facebook)每月要共享300亿条信息,百度每天要收集几千亿个网 页, 100PB •电商大数据应用,电信、金融、能源、零售等行业的广泛应用;淘宝-一 淘网比较,每天活跃数据50TB 10 用户移动轨迹和精准用户群集分析应用 企业选址,广告推送建议 选取目标客户群体 大数据分析 User Profile CDR 实时精准营销 ->只给最近的你 11 给音乐爱好者投放演唱会信息 Age Range Gender Preference 15-20 F Desert 15-20 M Video Game 20-25 F Cinema 20-25 M Sportware 25-30 F Beauty Salon 25-30 M Coffee Shop 30-35 F Clothing Store 根据用户上网日志,零售消费记录, 给用户打上消费喜好标签 CEP探测目标用户进入辐射圈就 实时投送用户感兴趣的促销广告 基于用户360度全面画像的精细化经营 智慧商场技术架构 NoSQL DB 专家系统 实时: 针对用户的最佳投放 查询用户 profile 位置查询 日志, 推特 位置 HDFS 用户信息 NoSQL DB 大数据集缩减 BI 和分析 POS 预测购买 行为 打折信息 投放 低延迟 批处理 确定用户 专家系统 Big Data Appliance 信息收集 用户 Profiles 社交信息 Map Reduce Oracle Loader for Hadoop 分析 模型 确定用户 NoSQL 查询 决策 投放打折 离线Email, mail 投放 案例: 智慧商场数据流图 新技术新方法 – 大数据 核心思想:分布式、经济 Storage + 类OLAP + ETL Storage + 分布式实时简单数据存取 Hadoop : 分布式,大数据集,延时,离线计算 NoSQL : 分布式,小数据集,灵活,实时,快速读写 +120 Hadoop是什么? 基于廉价PC服务器 一个 Map/Reduce 框架实现 一个开源 项目 一个分布式 计算平台 一个分布式 文件系统 Hadoop到底是什么?--- 核心是Map/Reduce 例: 我们要数图书馆中所有书名中含“Oracle”的数量,怎么数效率最高? 你数1号书架,我数2号 书架。我们人越多,数 书就更快。这就是map。 最后我们到一起,把所 有人的统计数加在一起。 这就是Reduce。 …… 一号书架 二号书架 三号书架 N号书架 …… + Map Reduce 对海量非结构数据的这样一种分布式并行处理架构,就是Hadoop的实质, 与我们熟悉的数据库技术不同 NoSQL是什么? Not Only SQL 基于廉价PC服务器 NoSQL 数据格式灵活 多变,模型简 单,关系偏弱 产品众多 100+,没有 标准 分布式海量数 据存取和处理 解决方案 强调高吞吐、 高并发、高可 用、高分区容 错性 挑战: 利用 协同效应 大数据,大架构 分析 决策 获取 组织 Oracle大数据解决方案 获取 分析 组织 Oracle (DW) Oracle (OLTP) 模式灵活 非结构化 数据多样性 结构化模式化 信息密度 Hadoop HDFS Oracle NoSQL DB Spatial Graph Oracle Advanced Analytics (ODM & ORE) OBI EE Oracle MR R NoSQL 灵活、特定 开发为中心 SQL 安全、可靠 管理为中心 2011年Oracle Open World宣布推出 Oracle 大数据机服务器 (Big Data Appliance) • 软硬一体优化集成的大数据分析服务器 • 集成最优的开源大数据处理解决方案 • 全面的大数据处理分析软硬平台 Oracle NoSQL 数据库 HDFS 企业 管理软件 Oracle Data Integrator Oracle Big Data Connectors Hadoop (MapReduce) Oracle 面向大数据的集成解决方案体系 获取 组织 决策 分析应用程序 分析 数据库中的分析 数据仓库 应用服务器 日志和网络行为 收集服务器 NoSQL DB 网页,图像 视频存取 Hadoop 集群 批量分析与处理 Oracle RAC 汇总和发布结果信息 供商业分析 DB Loader Facebook的大数据处理的层级架构 --成为数据驱动型的企业需要混合的处理模式 甲骨文大数据战略—聚焦企业级分析 Oracle Big Data Appliance Oracle Exadata InfiniBand 捕获 组织 分析 InfiniBand Oracle Exalytics 决策 驯化大数据为业务服务 • 软件部分 • Oracle Linux • Oracle JDK • Cloudera Hadoop Distribution • Cloudera Manager • Open-source R distribution • Oracle NoSQL Database Community Edition *** • Oracle Big Data Connector *** • ODI Adapter for Hadoop • Oracle Loader for Hadoop • Oracle Direct Connector for HDFS • Oracle R Conenctor for Hadoop • 硬件部分 • 18 Sun X4270 M2 服务器 • 每台2 CPUs * 6核 • 每台48 GB内存(可扩展) • 12 * 3TB 磁盘空间 • 网络部分 • 40Gb InfiniBand • 10Gb 以太网 Raw Storage: 648T Core Count: 216核 Mem Count: 864G – 2592G Big Data Appliance一体机 ---- Hadoop + NoSQL+硬件 为什么选择Oracle大数据体系? • 全面的大数据解决方案+众多的客户实践 – BDA + Exadata + Exalytics+云应用 • 软硬一体预集成 – 软硬一体,工程化调优 – 全集成系统,完整机柜,插电即用 – Infiniband • 全套商业支持 – 开源软件商业支持 Hadoop – 操作系统商业支持 Linux – 硬件商业支持 Sun x86 • 品牌优势 – Oracle + Cloudera
还剩26页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

a6b90416

贡献于2015-11-04

下载需要 6 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf