• 1. 分享主题认识大数据大数据相关技术介绍非结构化数据数据平台介绍
  • 2. 认识数据网银ATMPOS手机银行理财存款贷款转账信用卡订票酒店购物投资通话1、现有IT系统大量交易型结构化数据 2、现有网银、CSR、运行日志中大量非结构化数据 3、社交媒体等外部系统非结构化数据 4、外部关联结构化/半结构化数据可视:结构化资料 15%未视:半/非结构化数据 85%DB/DW海量数据存储信息收集能力信息处理能力现有系统扩展现有IT架构我们需要重新思考
  • 3. 相关背景金融业内: 大型银行客户信息、对账单记录达数亿、甚至数十亿之巨… 证券交易竞价记录累计达数十亿,每日还在迅猛扩张… 银行客户与互联网联系愈加紧密… 互联网: 全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB在web 2.0的时代,人们从信息的被动接受者变成了主动创造者一条微博引发的血案网络大V李开复发布了一条微博:改善生活的10个建议,引起下面的效果:100万条转发100万条回复100万次赞恐惧的数据库操作
  • 4. 相关背景TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长 根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 大数据时代正在来临..
  • 5. 认识大数据20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data 2011年5 月,在“云计算相遇大数据” 为主题的会议中,会议 抛出了Big Data概念2012年3月29日,美国奥巴马政府推出“大数据研究与开发计划”。大数据上升到国家战略层面。
  • 6. 大数据定义大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(大众:百度百科) 大数据往往是指传统手段和工具无法处理的数据。(研究机构:麦肯锡)
  • 7. 大数据具有4V特性海量数据处理规模,难以集中存储和计算。 TB PB EBVolume快速地数据流转。 流模式 实时 准实时 批量Velocity多种多样的数据类型。 结构化 非结构化 半结构化Variety巨大的数据价值。 高价值 低密度 碎片化 高离散性Value2亿用户,每天几亿条微博中型城市每月数十亿智能电表数据2015年全球移动终端产生的数据量63000PB
  • 8. 大数据的本质利用恰当的技术手段,收集尽可能多的数据, 寻找数据间的关联关系,发现其中数据价值, 最终转化为知识,为业务服务。客户Jerry销卡历史还款记录良好主要消费用途:儿童用品。 最近装修。家庭:3口之家,有个8岁的宝宝工作:公司部门主管,收入稳定人际交往:高度相似人群社交媒体:抱怨信用卡额度少,合作商家少,体验不好投诉:电话申请额度调整被拒。年投诉3次。改进发现高离散数据价值全球零售业的巨头沃尔玛也通过大数据获益。公司在对消费者购物行为进行分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是推出了将啤酒和尿布捆绑销售的促销手段。如今,这一“啤酒+尿布”的数据分析成果也成了大数据技术应用的经典案例。
  • 9. 行业观点IDC认为:中国金融行业正在步入大数据时代的初级阶段,并且呈现快速发展势头。 “十二五”发展规划:中国各金融企业都制定了“十二五”发展规划,“科技引领创新”是核心指导思想。 中国银行肖钢:大力推进银行业数据驱动型发展方式,推进银行转型发展,必须重视和加强数据分析挖掘工作。 北京银行张东宁:大数据时代将考验银行的生存发展能力。(来自2012中国金融品牌论坛) 招商银行马蔚华:大数据时代考验银品牌创新,布局金融互联网。银行大数据发展猜想:金融 平台 数据
  • 10. 银行大数据时代应用场景结构化数据 交易类数据 管理类数据 参数类数据 客户基本信息 系统操作记录 非结构化数据 电话录音记录 身份证明文件 会计凭证 电子票据 视频监控文件 IT系统日志 用户数据 身份信息和偏好数据 地理位置信息 用户事件 电子商务数据 商品浏览信息 交易数据 消费趋势信息互联网数据 浏览信息 搜索信息 SNS信息外部数据内部数据风险评估 多点监测风险管理反欺诈 反洗钱实时营销 事件式营销精准营销全渠道营销 广告投放360o客户全景视图 客户定价客户管理客户分类小微贷款 供应链贷款业务与服务创新IT运营全景视图 日志分析IT治理大数据“小”数据人人贷 ……
  • 11. CCB在行动新一代数据架构中已经包含“大数据”平台。 当前特色应用1、手机无卡取款,“摇一摇”获得附近ATM和网点信息。 2、“善融商务”以电商的方式,为价值链的各方提供金融服务。1、有益的尝试,增加客户感知点,向电商宣战。 2、确定总体“大数据”战略,优化大数据方案。 3、通过客户消费行为分析,通过位置信息,数据关联整合,提升客户体验,实施精准化营销,展示实力。
  • 12. 交通银行在行动交博汇(电子商务) 融360 信用卡中心智能语音平台用户搜索信息贷款需求智能匹配贷款推荐Smart Voice Cloud高效检索自动质检业务分析声纹设别与语音导航语音识别声纹分析语义分析语音导航情绪分析对话识别语音记录文件业务繁忙工作压力大员工流失率高服务质量控制难度大客服电销信审催收
  • 13. 众多银行都在行动中信银行 POS贷产品-与银联合作 浦发银行 移动金融-手机支付银行卡-与移动合作招商银行 企业微博-50万次曝光量 小微贷款-和“敦煌网”合作 手机移动支付平台 光大银行 企业微博 舆情分析与监测 缴费 民生银行 小微贷款 广告投放
  • 14. 大数据项目实施三大困惑认识之惑选择之惑结合之惑大数据能干什么?该选用哪种方案?如何与传统IT系统结合?针对新的数据集和数据库结构特点开发新的应用分析场景,并把这些分析应用场景直接跑到大数据架构上。而不是去削足适履,嫁接传统方案。根据需求选择大数据方案。 多关注业务场景,少关注技术验证。 选择合适的商业平台,慎用开源平台。先把大数据存起来,用起来。 考虑新的大数据平台和原有数据平台的互通,联合问题。 数据源整合,分析应用场景定制大数据平台需具备多种处理能力,很多技术还处于应用探索阶段
  • 15. 未来:多种数据库方案并存HadoopMPPNoDQL NewSQLRDBMS EDWDistri.Cache/InMemory DB Stream Data ProcessingData Processing CapabilityLowHighLowHighData Processing Latency关注结构化数据增长的数据量关联关联/整合关注非结构化数据要处理几种数据类型? 要处理多大的数据量? 要处理的多快?
  • 16. 分享主题认识大数据大数据相关技术介绍非结构化数据数据平台介绍
  • 17. 关系数据 全行几十个业务系统每日产生海量关系数据,关系数据的存储抽取都需要体现出数据对象业务关系性质。100T 所有交易系统每日要产生250G关系数据,全年将近100T历史数据。平安银行元数据 业务系统在运行过程中不可避免出现表结构变化,保存的历史数据需要在元数据中反应这种变化。SQL 无论从业务关系还是使用习惯考虑,要求抽取存储的海量关系数据,必须提供SQL功能,包括Join。怎样存储海量数据?1怎样使用海量数据?2值得思考3 海量历史数据存储在NAS存储中,数据的压缩率只能达到1:4的比率。 使用时将海量数据从NAS存储转储到临时关系数据库中,再用SQL查找数据。每年100T的NAS开销,对历史数据的保存并不划算。 海量数据恢复到临时关系数据库,速度极端缓慢,导致抽取数据的响应速度极为缓慢。 由于临时关系数据库的容量有限,反复的海量数据恢复,严重影响了业务开展,本末倒置。大数据面临的两大挑战
  • 18. Hadoop起源GoogleMapReduceBigTableGFSChubbyGFS  HDFS MapReduce  Hadoop MR BigTable  HBase Chubby  ZooKeeperHadoop之父 Lucene缔造者 Hadoop是Apache下的一个开源项目,由 HDFS MapReduce 、 HBase、Hive和ZooKeeper等成员组成Doug Cutting
  • 19. Hadoop已被广泛所接受CommonHDFSYARNMap/ReducePigHiveHBaseChukwaAvroStreamsMahoutZooKeeperHadoop是一个能够对海量数据进行分布式处理的软件框架。 Hadoop是Apache基金会主导开发的一个开源系统。 主要是Google框架的开源实现 事实上的大数据平台切入框架海量数据计算能力 可靠、高效、可伸缩性 X86机器低成本集群部署 让用户轻松架构和使用的分布式计算平台优势IBM BigInsights Intel iHadoop Cloudera CHD Hortonworks HDP MapR EMC Greenplum HD 华为 Hadoop HA商用支撑中国移动研究院 英特尔研究院 金山软件 百度 腾讯 新浪 搜狐 IBM Facebook Amazon Yahoo!
  • 20. Hadoop生态图
  • 21. 数据存储: HDFS介绍clientnamenodedatanodedatanodedatanodedatanodefilesystemblock系统中仅有一个(单点故障)文件系统元数据存在 内存,决定系 统中文件个数不能太多clientnamenodedatanodeHDFS:Hadoop distributed file systemHDFS: Hadoop框架的分布式文件系统。能够自动存储数据的多个副本到不同的数据节点上,访问时使用网络最近和访问量最小的数据节点给用户提供数据,因此具有很高的高吞吐量、容错性和可靠性,适合存储海量(PB级)数据文件。
  • 22. 数据存储:HDFS简介注重数据处理的吞吐量(latency不敏感) 应用模式为:write-once-read-many存取模式 存储并管理PB级数据 处理非结构化数据
  • 23. HDFS关键运行机制 --保障可靠性的措施一个主节点和多个数据节点 数据复制(冗余机制) --存放的位置(机架感知策略) 故障检测 --数据节点 心跳包(检测是否宕机) 块报告(安全模式下检测) 数据完整性检测(校验和比较) --名字节点(日志文件,镜像文件) 空间回收机制 HDFS特性 大容量 高容错性 高吞吐量 HDFS数据模型 包 块 文件
  • 24. 数据使用:MapReduce介绍MapReduce哲学-化整为零分而治之MapReduce: 分布式计算模型,Map和Reduce函数是它的主要思想。特点是并行地在数据块所在的节点(DataNode)上进行数据分析处理,将并行化、容错、数据分布、负载均衡等杂乱细节进行封装,具有强大的计算能力,适用于海量数据分析处理。
  • 25. 关于打扑克的哲学Input split shuffle output 分牌各自齐牌交换再次理牌搞定打扑克与MapReduce
  • 26. Thinking in MapReduce-统计单词数The weather is goodThis guy is a good manToday is goodGood man is goodthe 1 weather 1 is 1 good 1today 1 is 1 good 1this 1 guy 1 is 1 a 1 good 1 man 1good 1 man 1 is 1 good 1a 1 good 1 good 1 good 1 good 1 good 1man 1 man 1the 1weather 1today 1guy 1is 1 is 1 is 1 is 1this 1a 1good 5guy 1is 4man 2the 1this 1today 1weather 1数据输入MapReduce结果输出
  • 27. 作业执行流程
  • 28. Hive介绍Hive 是建立在 Hadoop 上的数据仓库基础构架。 Hive 适合解决较高延迟、复杂逻辑的海量数据处理,充分利用 Hadoop 的特性构,具有稳定可靠、容量高、支持横向扩展等特点。数据存储安全可靠: 存储数据到HDFS 分布式海量数据存储 数据安全存储 海量数据快速加载: 分布式并发加载 零数据格式转换 海量数据按需获取: 数据文件表映射 支持HQL 支持Map/Reduce及自定义扩展 局限性: 无索引 访问延迟相对较高 HQL局限
  • 29. Hive与HadoopHiveHadoopHive-Cli (Shell)ThriftJDBC/ODBCDriver,Compiler,ExecutormetastoreJobTrackerNameNodeJobTrackerJobTrackerTaskTrackerDataNodeDataNodeDataNode执行Map/Reduce Job获取处理结果
  • 30. HBase介绍 Hadoop Database:NoSql数据库,列式数据库,一个高可靠性、高性能、可伸缩的分布式数据库
  • 31. HBase关键概念
  • 32. HBase物理集群示意
  • 33. HBase适用场景
  • 34. Page  34Row KeyColumn FamilyColumn FamilyInfo:nameInfo:sexInfo:ageaddress:city1张三Male25北京市2李四Male26成都市数据存储逻辑示意图:Row KeyColumn Key(Qualifier)TimeStampCell Value1Info:name12345678张三1Info:sex12345678Male1Info:age12345678252Info:name12345678李四2Info:sex12345678Male2Info:age1234567826数据存储物理示意图:Info Column FamilyRow KeyColumn KeyTimeStampCell Value1address:city12345678北京市2address:city12345678成都市数据存储物理示意图:Address Column FamilyHBase数据建 模设计Primary Keynamesexagecity1张三Male25北京市2李四Male26成都市
  • 35. Table和Region Table中的row按byte字典序存储 按rowkey将Table动态分割为一个个region,每个region包含一个连续的行范围[startkey,endkey),由RegionServer承载 当region增长时会进行split,并在存储集群内分发以达到负载均衡数据按column-family分组数据存储
  • 36. Region Server 1Rows A . . . . H . . . Q . . . . . . Z Region Server 2Region Server 3Keys:[T-Z]Keys:[A-C]Keys:[T-Z]Keys:[M-T]Keys:[F-I]Keys:[C-F]数据存储
  • 37. 三大操作Flush:超过memtores的最大值执行flush操作 Compact:执行合并操作,把HStoreFiles写成一个 Split:切割Region Write pathBackground choresWrite beginWrite WAL LogFlush WAL logNeed FlushUpdate MemStoreFlush MemStoreflush queuecompact queueNeed CompactCompactSplitNeed Split
  • 38. 应用案例-联通电信详单查询系统
  • 39. 应用案例-用户推荐
  • 40. 分享主题认识大数据大数据相关技术介绍非结构化数据数据平台介绍
  • 41. 大数据 管理系统非结构化数据服务历史数据归档结构化数据服务舆情监控分析,网络营销海量历史数据加载 历史数据存储管理 历史数据查询 历史数据分析 风险监控与反欺诈 …社交媒体信息爬取 关注内容分析, 处理策略制定 社交媒体用户关注,交友圈分析 网络营销 …海量数据存储管理 数据查询 数据挖掘 报表统计 结构化数据分析 结构化数据内容检索 数据可视化 …非结构化数据存储 查询管理 文件目录展示管理 文件内容抽取转换发布 非结构化数据分析 非结构化数据内容检索 内部运维日志管理分析广告投放推荐引擎,精准营销分析数据、日志导入存储 匹配规则定制管理 广告推荐数据计算分析 用户行为偏好分析 精准营销需求及应用案例…
  • 42. 工商查询来的数据文件外部应用 系统数据法院查询来的数据文件ECM系统中的影像文件…股东信息高管介绍法院信息经营动态舆论信息360度 客户全景视图小微信贷 决策审批流程平台介绍互联网客户数据文件Hadoop大数据平台数据存储管理数据查询搜索…数据识别分析…客户信息管理Web应用零售及小微决策支持系统
  • 43. 平台基本情况介绍 高峰时每天从工商,法院等外部环境查询来的数据文件达五十多万,每个文件大小从几KB到几百KB不等,随着系统的上线,数据量会逐步增大。同时ECM系统保存的营业执照、证件复印件等影像文件会逐步迁移到大数据平台存储。目前平台已经存储了几千万数据文件。 目前使用7台PC Server作为Hadoop集群,其中2台作为主节点及备份节点,5台作为数据节点。每台数据节点32G内存,挂载3T硬盘。文件元数据信息存储在DB2数据库里。根据 目前的配置能够满足目当前一段时间内的数据存储容量及性能需求,随着数据量的增大,会不断添加新的机器到集群里面。 系统使用Hadoop和HBase作为文件存储平台,使用Cloudera Manager进行整个集群的监控管理,并根据使用情况调整优化配置参数。在目前的使用过程中,系统稳定运行,在大并发量下具有非常高的吞吐率,非常容易进行水平扩展。相对于其它平台,具有很高的性能及成本优势,同时具有数据分析扩展能力,满足系统后续的新功能扩展需求。数据量硬件情况及集群信息系统运行情况
  • 44. 平台架构设计情况数据文件HDFS 文件索引文件...办公文档WEB网页应用系 统数据数据源数据存储底层 框架基础服务组件数据接口数据 应用Data ExchangeWebService应用编程接口批量数据同步工具Web管理门户Hadoop平台(BigInsights)Hive数据仓库Streaming...HBaseZooKeeperM/R分布式计算框架HDFS分布式数据存储搜索框架搜索引擎框架分布式支持数据读取转换RDBMS结构化数据存储系统元数据信息…日志文件 历史数据结构化 数据服务舆情分析 网络营销历史数据 归档服务小文件及非结构化 数据服务…元数据 管理模块 数据安全、生命周期 管理模块数据接入 服务模块数据搜索 服务模块数据查询 分析模块底层框架访问API系统配置, 监控模块
  • 45. 平台物理部署示意数据文件Hadoop集群 NameNode 带防火墙的企业内部网络DB服务器RegionServerDataNodeRegionServerDataNodeRegionServerDataNode…RegionServerDataNode企业数据总线应用服务器系统管理用户数据应用系统HBase Master索引服务器索引文件数据文件ZooKeeper ……数据源系统社会化媒体数据源数据应用…
  • 46. 高可靠性示例利用共享存储来在两个NameNode间同步数据片修改信息。 DataNode同时向两个NameNode汇报块信息。 可插拔ZooKeeper FailoverController用于监视和控制NameNode进程。 保证在任何时候只有一个主NN可以写入edits、响应客户端的请求、删除块复制块等。
  • 47. Hadoop发行版本介绍特性AapcheClouderaHortonworksMapRIBM适用场景学习生产生产生产生产来源社区ApacheApache自主Aapche效率较差很快快极快快稳定性较差稳定稳定极稳定稳定SQL92无ImpalaTez(HQL)无BigSQL主要合作伙伴---Oracle、Twitter、Dell微软EMC---集群管理无有有有有HA支持无有有有有Web管理基本界面丰富美观丰富丰富美观一般开放程度开源开源(更新快)开源(更新快)闭源(更新快)闭源(更新慢)费用免费小于50节点免费免费收费收费
  • 48. 数据接入演示
  • 49. 数据管理演示
  • 50. 感谢您的聆听!