• 1. 大数据时代,泽佳助力企业发展
  • 2. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 2 页什么是大数据
  • 3. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 3 页数据无处不在任何时间,任何地点,任何事情,任何人? Anytime,anywhere,anything, anyone? 休息中,随意刷微博爬山时,记录每一瞬间旅途中,处理公司事件工作时,实时掌握市场动态
  • 4. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 4 页大数据时代已经来到每分钟都有大量数据产生1min486笔订单(2012年11月)7.3万笔交易数(2012年双11)1.1GB文件下载9.5万条微博发送14万张照片上传70TB处理数据
  • 5. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 5 页互联网中的大数据Web 3.0时代,社交媒体网站数据出现井喷式激增,截至2013年3月底,新浪微博注册用户数增长到5.36亿,日均活跃用户数达到4980万,每日新增微博约2亿。 企业在大数据时代,面临文化、战略、组织、流程、信息化、公共公关系、人才培养方方面面的挑战,同时也迎来重大的转型机遇和飞跃契机。
  • 6. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 6 页互联网中的大数据 大数据在消费IT领域的作用更加明显。只要你用PC上网或手机浏览信息,你便在网络上处处留照了,性别、年龄、爱好、踪迹、信用等等便被大数据刻画的一览无余,恭喜你已经成为数字透明人了!可能你都不知道自己下一步要干什么,产品经销商借助搜索引擎、电子商务平台、旅游网站的数据根据你的浏览行为已经在为你张罗生日、餐饮、旅游、结婚、生子、购房、购车了,特价机票、婚纱、尿不湿、奶粉、海景房等广告已经为你编排好了。大数据在消费IT领域的作用更加明显。只要你用PC上网或手机浏览信息,你便在网络上处处留照了,性别、年龄、爱好、踪迹、信用等等便被大数据刻画的一览无余,恭喜你已经成为数字透明人了!可能你都不知道自己下一步要干什么,产品经销商借助搜索引擎、电子商务平台、旅游网站的数据根据你的浏览行为已经在为你张罗生日、餐饮、旅游、结婚、生子、购房、购车了,特价机票、婚纱、尿不湿、奶粉、海景房等广告已经为你编排好了。
  • 7. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 7 页企业IT进入2.0时代 随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如: 1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G; 2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;
  • 8. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 8 页大数据的特性 V V V V价值 Veracity体量 Volume多样性Variety速度 Velocity68%31%来源多;格式多:大数据包括结构化数据和非结构化数据,邮件,Word,图片,音频信息,视频信息。最新研究报告,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。价值密度低,犹如沙里淘金,海量业务中寻找价值。1秒定律,实时获取所需要的数据,为决策提供依据。
  • 9. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 9 页企业大数据的挑战业务数据的映射提取大数据价值大数据隐私大数据分析
  • 10. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 10 页泽佳建议企业大数据解决方案
  • 11. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 11 页大数据基础架构要求可预测的低延迟 高事务参数 灵活的数据结构获取组织分析决策高吞吐量 就地准备 所有数据源和结构深度分析 敏捷开发 高度可伸缩性实时 流数据 运营影响
  • 12. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 12 页泽佳大数据解决方案,以数据融合、综合处理为方向大交易数据大交互数据大交易融合大数据处理企业供应链消费者SNS互联网物联网移动终端 OLTP实时 交易处理OLAP实时分析处理SOCIAL MEDIA DATAOTHER INTERACTION DATAMachine/Device Sensors/meters/RFID tags CDR/mobileSD,MM,PP,SD,FICO。。。
  • 13. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 13 页泽佳大数据解决方案整体架构企业内外部协同(供应商+企业内部+客户+银行+税务+政府+社区+…)外部信息(社交+电商+移动+视音频+…)开放式API和协议通用的设计和模型环境通用数据管理环境交易数据管理社交数据管理移动数据管理主数据管理内存数据管理企业数据仓库管理数据存储数据获取数据组织数据分析数据展现无线数据管理信息管理和实时数据迁移联合访问实时大数据平台门户数据分析电子邮件办公软件大屏幕电脑桌面移动终端企业级报告工具Ad hoc 即时查询例外分析非结构化数据探索预测与挖掘
  • 14. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 14 页泽佳大数据解决方案体系数据 多样性 模式动态模式HDFS分布式文件系统Hbase分布式列存储系统Sybase ESP事件流处理器Hdoop MapReduceBig Data ConnectorsYoung hong BI获取组织分析决策复杂场景处理实 时 决 策ETLEDW
  • 15. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 15 页一般企业数据处理平台的基础架构
  • 16. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 16 页泽佳大数据解决方案基础架构门户泽佳大数据平台快速、可靠大屏幕电脑桌面电子邮件SCMCRMERP数据分析人员办公软件移动终端安全,部署,管理灵活体系MESPDM
  • 17. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 17 页泽佳建议企业大数据解决方案基础架构图
  • 18. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 18 页应用层数据分析
  • 19. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 19 页视频存储
  • 20. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 20 页离线日志分析
  • 21. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 21 页在线数据分析
  • 22. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 22 页大数据解决方案特点泽佳大数据解决方案提供高速、低速两种互联解决方案,在节点间能够建立起40Gb的互联通路,彻底消除系统节点间通信的瓶颈。 高性能高可扩展性高可靠相比较传统的数据库集群,泽佳大数据解决方案具有良好的可扩展性,随着数据节点的增加,系统整体性能接近线性增加。同时数据节点可以在系统运行中动态添加,对系统不会造成任何影响。因此企业可以根据自身业务需要,动态添加数据节点,当业务量较小时,配置较少的数据节点,随着业务量的逐渐增多,添加相应的数据节点,从而满足自身业务量增长的需求。 泽佳大数据解决方案能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。同时消除系统单点故障,系统中任意一个部分出现故障,系统将自动进行切换,保证用户应用的无缝连接,具有较高的稳定性和可靠性。
  • 23. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 23 页大数据应用技术
  • 24. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 24 页大数据的技术领域占位图
  • 25. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 25 页泽佳大数据应用主要技术— Hadoop 据IDC的预测,全球大数据市场2015年 将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理 “大数据”而备受重视。 Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成 。
  • 26. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 26 页Hadoop体系架构MapReduceHDFSHBasePigChuKwaHiveZooKeeperPig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。 Chukwa是基于Hadoop的集群监控系统,由yahoo贡献。 Hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态。 HBase是一个开源的,基于列存储模型的分布式数据库。 HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算
  • 27. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 27 页Hadoop核心设计
  • 28. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 28 页HDFS—文件读流程HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。 Client向NameNode发起文件读取的请求。 NameNode返回文件存储的DataNode的信息。 Client读取文件信息。
  • 29. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 29 页HDFS—文件写流程Client向NameNode发起文件写入的请求。 NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。 Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
  • 30. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 30 页MapReduce——映射、化简编程模型 输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果
  • 31. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 31 页Hbase——分布式数据存储系统Client:使用HBase RPC机制与HMaster和HRegionServer进行通信 Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况 HMaster: 管理用户对表的增删改查操作 HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据 HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table HStore:HBase存储的核心。由MemStore和StoreFile组成。 HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件
  • 32. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 32 页大数据未来发展瓶颈 通过对大数据产业链的分析,我们可以看到,在大数据产业链的各个生产环节中,各大公司都已开占位,随着高性能计算机、海量数据的存储和管理的流程的不断优化,技术能够解决的问题终将不会成为问题。我们认为,真正会制约或者成为大数据发展和应用瓶颈的有三个环节: 数据收集和提取的合法性,数据隐私的保护和数据隐私应用之间的权衡。 大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。 大数据结论的解读和应用。
  • 33. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 33 页NoSQL产品
  • 34. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 34 页大数据应用案例
  • 35. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 35 页大数据行业应用分析应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度: 表示该用户的IT应用特点与大数据特性的契合程度; 横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性; 注: 该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值 HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户 应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户 两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度流通零售制造
  • 36. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 36 页互联网行业大数据需求分析网络终端设备网络技术的升级和终端设备的爆发,使今天的用户能够使用多种设备、从不同位置、通过多种手段来接入互联网,并在这一过程中不断创造新内容在线应用和服务越来越丰富的在线应用和服务,不断激励用户创造和分享信息,尤其是社会化媒体业务,带动图片、视频等非结构化数据飞速增长与各垂直行业的融合互联网作为一个高渗透力的行业,正在与各垂直行业发生深度的融合,原本隐藏于先下的孤岛信息,源源不断的输入到线上。互联网行业拥抱大数据的关键因素互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。 目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。互联网行业大数据分析面临的主要问题
  • 37. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 37 页腾讯基于Hadoop的大数据架构图
  • 38. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 38 页腾讯大数据现状 从业务角度看:腾讯数据平台自研的TDW替换了商业数据库,实现公司级数据集中存储,总记录达到375万亿跳,日接入5千亿条,覆盖移动设备数7.7亿。 从平台角度看:腾讯数据平台从设备8400台,单集群5600台,总存储100PB+;日新增数据200TB+,月数据增长率10%,日均JOB数100万,日均计算量5PB,量够大,速度也够快。 从用户角度看:这里的用户,指的是腾讯内部员工。腾讯员工2万多人,腾讯数据门户的月活跃是2500左右,也就是说访问腾讯数据门户的人占比公司10%+;每月处理数据提取分析的任务数是1万个,如果访问者每人都会提数据任务,平均就是一个人提4个左右的分析提取任务;用户画像分析任务为1.2万,可以看出腾讯对用户画像的重视程度。
  • 39. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 39 页腾讯大数据的多样性 腾讯数据平台已经接入100多个产品的各类数据,例如:用户行为、账号属性、收入数据等等。
  • 40. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 40 页腾讯基于大数据平台的产品应用
  • 41. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 41 页腾讯大数据应用-广点通,精准广告投放
  • 42. @2013 北京泽佳公司版权所有Copyright©2013 Zejia Consulting Corporation第 42 页大数据发展企业占位图大数据按照信息处理环节可以分为数据采集、数据清理、数据存储及管理、数据分析、数据显化,以及产业应用等六个环节。
  • 43. Thank you!