• 1. 电信场景下Spark一站式分析平台夏命榛 2014-08
  • 2. 目录 Page 2电信大数据场景与关键技术1.2.数字足迹案例3.平台和关键技术
  • 3. Page 3
  • 4. Page 4
  • 5. Page 5过滤生成详单数据模型实时KPI计算/CEP探针周期上报仪表盘15min~sec~sec~msec详单查询~hour~min事件产生探针实时上报~msec事件产生…实时KPI15分钟KPI报表(现状)15分钟KPI报表(优化后)1小时KPI报表(现状)天级KPI报表(现状)15sec1 min>2 hour报表查询15分钟报表统计HDFS挑战: 1、HDFS的入库性能 2、高性能实时流处理场景一:业务KPI统计分析
  • 6. Page 6区域人数分布热力图直观的显示居住区、CBD、旅游点、软件园等区域各时段人数变化情况。OD图与算法(区域间人口流动)与地图的结合,使用者可自由指定感兴趣的区域 ,查询指定功能区域间人口流动情况,如高档住宅区及CBD间的人口流动情况,为城市规划,广告屏和店面选址等应用提供宏观参考数据。 区域流量分布热力图直观的显示出区域内用户对视频流量的使用,确定价值客户挖掘区域范围,同时也为后继的网规网优、路网规划、广告推广等提供宏观参考数据。 用户相似度计算分析和对应的数据套餐推荐:结合用户上网的流量使用信息,挖掘出相似性用户,把用户使用套餐多的选择推荐给其他相关类似用户,期望扩大运营商的销售收入。(基于个性化的协同推荐算法)场景二:用户流量使用的关联分析
  • 7. 电信行业数据源及数据特征一览领域类别项目数据源特征属性M域企业管理ERP/供应链/财务/人力资源信息等人交易型(点操作)、符合3NF规范构筑数据模型、结构化存储100TB级容量、响应速度10~100毫秒以人为核心的数据B域用户数据定购业务信息交易型(点操作)、符合3NF规范构筑数据模型、结构化存储TB-PB级容量、响应速度要求 10~100 毫秒用户终端信息(型号、机型、模式、操作系统等)用户信息(用户消费习惯、开户信息、 ARPU Group)业务数据业务基本信息交易型(点\批操作)、部分符合3NF规范构筑数据模型、结构化/非结构化存储(如阅读基地等)PB级容量、响应速度要求 1~10 毫秒业务定购关系业务使用记录(计费、排行、定价等)O域网络数据话单/清单/信令数据机器结构化数据、以文本或表格形式存储,具备嵌套特征100TB-PB级容量、响应速度100毫秒工单数据人交易型(点\批操作)、符合3NF规范构筑数据模型、结构化GB级容量、响应速度秒级以网络控制信息为核心的数据统计数据机器结构化数据、以表格形式存储100TB-PB级容量、响应速度100毫秒性能数据故障/告警数据结构化数据、以文本或表格形式存储,具备日志特征TB级容量、响应速度10~100毫秒位置信息网络接入信令结构化数据、以文本或表格形式存储,具备日志、时空特征PB级容量、响应速度要求 1~10 毫秒基站信息地图/轨迹信息人/机器以人为核心的数据管道中流的数据互联网数据以http协议数据为主,如网页/点击/URL/视频等非结构化数据、以文本形式存储,具备日志特征PB~10PB级容量、响应速度要求 1~10毫秒 物联网数据传感器数据/空间位置信息/时间序列机器结构化数据、以文本形式存储,具备日志、时空特征100PB级容量、响应速度要求 1~10毫秒以物为核心的数据电信网络的数据按人、按网络、按负载
  • 8. 目录 Page 8数字足迹案例2.1.电信大数据场景与关键技术3.平台和关键技术
  • 9. 电信大数据电信网络核心数据资产:ID、网络交互、移动位置。 实现用户、网络、社会的数字化映射,实现闭环优化和能力开放。 基于位置的应用是目前探索较少的领域。 Page 9CustomerInternetRNCxGSNPCRF音乐游戏大数据分析电商企业应用行业应用Telco NetworkBSS, CRM, HLR, OCSControllerVAS21IP网络Network OS探针阅读视频动漫…自营业务第三方应用运营探针数据互联网 数据运营 数据M2M物联网 数据闭环优化能力开放用户网络社会
  • 10. 数字足迹 Page 10GSMUMTSLTE应用道路规划精准营销根据用户的移动位置记录,分析用户的时空行为特征,支撑Location Insight Service Demo数据 用户数:18个RNC,125万用户 每天位置记录数:12亿 每天数据量:80GB数据采集数据分析BSCRNC位置聚合时空分析位置采集匿名化区域道路人全网用户,广覆盖,全时段,连续性好
  • 11. 数据处理 Page 11SparkRealtime MRLocation computeHDFSCube buildingMOLAPHDFSAPIData MiningStream/GeoFencingMR MD-modelPoint modelad-hoc queryLocation computeTrajectory Analysisad-hoc query
  • 12. Page 12
  • 13. 数字足迹Demo Page 13精准营销 实时监控
  • 14. Page 14道路规划精准营销灾难救援店铺选址平安城市智能交通节能减排广告评估用户洞察与数据面关联分析与信令面关联分析
  • 15. 目录 Page 15平台关键技术 3.1.电信大数据场景与关键技术2.数字足迹案例
  • 16. 平台架构-顶层 Page 16通用服务器PC Server 2288数据探索数据挖掘可视化批处理流计算预处理预处理 位置数据清洗 地图数据集成 特征提取 数据选择 数据探索 SparkSQL统计分析 OLAP时空查询、行为分析 数据挖掘 道路匹配 轨迹聚类 频繁轨迹挖掘 可视化 Google/Baidu地图 报表 echarts “茶壶里的饺子”
  • 17. Page 17平台架构-细化
  • 18. 平台核心能力 Page 18通用服务器 PC Server 2288数据探索数据挖掘可视化批处理流计算预处理数据采集和组织 追求信息完整,高效组织分布式计算 追求Scale out,性价比,多计算模式算法、模型 追求智能,平台化,平民化
  • 19. 算法模型 Page 19点模型栅格时空模型语义时空模型数据预处理 轨迹分段地图语义标注 道路、POI一系列时空点一系列轨迹一系列语义轨迹智能交通 Zone统计分析,道路拥塞分析精准营销 人群属性,职业,购买力分析平安城市 时空行为分析,异常轨迹分析数据挖掘语义时空模型 1、针对位置的ST-Matching道路匹配算法 2、时空聚类、频繁轨迹挖掘、拥塞预测 栅格时空模型 1、100M*100M栅格 2、数据量压缩10倍以上 3、后续分析加速5倍以上 位置记录地图数据
  • 20. 实时流计算 Page 20对实时数据流做即时分析,一般要求亚秒级处理时延独特场景: 不允许将数据存下来再分析的场景。 将数据存储下来再分析成本不可接受的场景。 需要低时延输出结果的场景,时延越小价值越高,如算法交易。
  • 21. 华为自研流计算StreamSMART的体系架构流数据源 StreamSMART Runtime 流数流输出StreamSMART Studio IDEReport OLAP Dataming MPPDB DWH RTD*Self-Monitoring Automatic Recovery Technology
  • 22. 华为自研流计算StreamSMART流应用开发Health & Life SciencesStock marketSourceSinkSourceSource算子算子算子算子算子算子算子算子算子算子算子API接口分布式运行环境集成开发环境工具包流处理语言 IDE开发方式 面向业务专家,系统提供IDE环境,根据业务需要快速构建大部分的业务应用。API开发方式 面向软件开发员,通过调用API构建应用通用服务器
  • 23. 套餐实时推荐场景测试结果 Page 23组件EDR流量与XDR流量对比流速率(万事件/秒)CPU使用(%)内存使用(GB)storm1:114510023storm1:10153100storm1:40146100StreamSMART1:13034016StreamSMART1:1032627StreamSMART1:4036327SparkStreaming1:134~46(1s,2s,5s,10s)80SparkStreaming1:1042~6575SparkStreaming1:4049~6560~90注:SparkStreaming的测试未经调优
  • 24. Spark Streaming优缺点理论分析优点 Exactly once语义,应用不易出错(一致性) 容错恢复方式比连续计算模型的效率更高 是Spark生态一部分,易于“Marketing” 缺点 每个小批量启动都要联系Master,带来处理延迟 应用需编程,无成熟CEP方案和CQL语言 RDD不可变性带来大量小Object,对GC冲击较大 适用场景 准实时统计类应用,半分钟级时延 对容错要求高,吞吐量要求高的场景 必须和离线计算维护一份代码的场景
  • 25. 华为自研多维分析:SparkOLAPJDBCHDFS历史详单MOLAPMOLAPMOLAPRDD PartitionRDD PartitionRDD PartitionOLAP RDDCube StoreAPILoadLoadLoadHDFS实时流处理New DataRDD PartitionRDD PartitionJDBC RDDHDFSHDFSMPP DB详单详单详单MPP DBNew DataConnectorLodadSparkOLAP Planner(基于Catalyst扩展) Page 25
  • 26. Page 26Spark OLAP Query Processor
  • 27. 电信大数据关键技术点感知感知感知流并行文本视频图像轨迹时序图数据管理计算分析数据挖掘数据探索大数据平民化 E2E开发环境接口可视化数据开放关键技术点 感知: 1、针对文本、视频、时空、社交等数据的感知和信息提取;如WebSensor探针和文本分析 计算和管理: 2、分布式文件系统提升IO吞吐; 3、集中存储,统一格式免转换 4、集中资源管理,统一调度多计算框架 5、针对异构数据(时序、图、轨迹、流数据)的新计算模式,支持多数据多任务的协同处理 6、高密并行计算,小集群高吞吐,如Hadoop/Spark与异构多核垂直优化; 7、大数据虚拟化,分析计算与虚拟化垂直优化 分析: 8、电信领域模型,包括分析和控制(API):网络、用户、业务 9、新的数据挖掘和机器学习技术,如深度学习 10、大数据平民化,易用高效的E2E大数据处理流程开发环境; 管理: 11、统一管理 12、安全、隐私 接口: 13、大数据可视化,直观的呈现和交互统一管理 安全空间能力开放闭环控制 管道控制分析模型、控制模型管道执行
  • 28. (本页无文本内容)