中国移动大云大数据产品及应用


中国移劢“大云“大数据产品及应用 BDTC2014 徐萌 中国移劢苏州研发中心 2 移动运营商的大数据有什么? 移劢互联网 服务商 电信运营商 SNS 博客 电商 视频 图片 音乐 签到 问答 点评 优惠券 专业SNS 微博 消息 论坛 2G、3G、4G、WIFI 新闻 地图 大数据成为网络优化、业务创新、精准营销和决策支持等工作的基础 超过7.3亿用户 超过100万基站 每分钟超过800万通话 每天信令数据 超过1PB 每秒上网流量超过40GB 经分系统数据规模接近10PB 3 电信运营商发挥管道优势,深入挖掘大数据的价值 借助云计算技术和运营商优势,将大数据信息转 化为商业价值,促进业务创新 1. 优化网络质量:利用信令数据支撑终端、网络、业 务平台关联分析,优化网络,实现网络价值最大化 2. 助力市场决策:充分挖掘用户的移动互联网行为特 征,提升对用户消费偏好的精准把握,帮助市场营 销等决策,实现精准营销。 3. 改善用户体验:智能语音门户通过知识库和语义搜 索技术实现业务知识的机器智能回答 分析需求 流量分析 流量的构成和 大趋势分析等 用户分析 用户兴趣偏好、近 期关注、活动范围 等 流量清单查询 为用户提供流 量的去向查询等 上网日志内 容字段 网络质量和效率分析 网络价值分析 业务端到端分析 客户感知及行为分析 PI 网元能力层 KPI 网络性能层 KQI 业务质量层 QOE 客户感知层 用户 帐号 协议 类型 业务 类型 访问 URL 终端 信息 上行 流量 下行 流量 „„ 劣力市场决策 优化网络质量 改善用户体验 4 中国移动“大云”大数据产品整体规划 平台层 应用层 数据 挖掘 及可 视化 数据采集、存储和处理 资源层 … 经营分析 性能分析 数据变现 流量经营 在线服务 运营管理 系统和运营管理 数据安全管理 元数据管理 数据挖掘 BC-PDM 搜索引擎 BC-SE 深度学习平台 自然语言 处理 数据报表可视化服 务 机器翻译服务 图数据库 分布式数据库 BC-RDB 大数据仓库BC-HT 大数据平台BC-Hadoop 内存数据库 图计算 流计算BC- Streaming 数据智能采集系统 任 务 调 度 成熟产品 新增产品 大云大数据产品线为中国移劢大数据应用提供三大领域的基础能力: 数据采集 和处理、数据挖掘及可视化、运营管理三大领域。 5 BC-Hadoop:“大云”大数据平台 各种不同版本的Hadoop软件目前已经在各个省公司广泛应用,但是由于产品 化程度低,存在商业版本不开源、开源版本不统一、运维管理功能弱、多应 用混合部署能力不足等问题。 BC-Hadoop 2.0主要特性 1. 开源开放:核心系统是CDH5 改进版本,代码开放,Patch 反馈社区 2. 管理增强:集成Ambari管理 系统,支持BOMC、4A规范 (在研),支持puppet自动 部署系统 3. 资源共享:利用YARN提供资 源分配和调度方案 4. 多租户:支持基于用户、队列 的Hadoop多租户方案 5. 可靠性:所有Hadoop组件没 有单点问题 6. 服务化:提供基于BC-EC弹性 部署方案,支持弹性 MapReduce计算 MapReduce/Spark 并行计算框架 HDFS 分布式文件系统 HBase 分布式NoSQL数据库 监控和管理工具 Zookeeper 、 Amabri BC-Hadoop应用,如Hive、BC-HugeTable、BC- PDM、BC-SE等数据查询、分析、挖掘系统 6 BC- HugeTable:“大云”大数据仓库系统 各省帐详单云主要采用开源HBase软件;云ETL主要采用开源Hive软件。难以解 决对帐详单做分析,对ETL数据做查询的要求。一般需要建设两套系统,保存 两份数据。BC-HugeTable针对同一份数据提供数据查询和数据分析功能。具有 独特优势。 BC-HugeTable 5.1 主要特性 1. 交易和分析一体化:通过集成Hive实 现分析查询,集成Impala支持即席查 询,研发OLTP引擎支持快速交互查询, 实现智能路由。 2. 高可用:支持BC-Hadoop提供的高可 用能力;提高HTLoader的可用性 3. 高性能:针对复杂索引查询在秒级别返 回结果;复杂分析在分钟内完成 4. 管理增强:支持资源池、运营管理平台 集成;支持监控、告警、计量、统计接 口;支持SNMP、OMI协议 5. 兼容性:支持原生MapReduce和 NoSQL接口;支持多数SQL92查询; 兼容Hive、Impala、HBase数据操作 API HugeTable 商用MPP方案 单集群规 模 复用Hadoop能力, 支持5000节点规 模 <300节点 SQL兼容 性 支持主要SQL 完全支持 响应时间 部分SQL比MPP慢, 部分相当 较短 优化能力 需要改进 较好 开放性 开源技术,社区非 常活跃 私有方案 Hadoop支 持 紧密集成 将Hadoop作为外 部数据源 软件举例 Impala、Presto、 Drill/mDrill、Shark、 SparkSQL等 GreenPlum、 Redshift、Asterdata、 Vertica等 适用场景 大数据在线分析 中小型集市分析 7 BC-RDB:“大云”分布式关系数据库 传统OLTP数据库应用系统主要问题是采购和建设成本高、超许可使用,BC- RDB是基于X86服务器的、通过集群技术提供高可靠、高可用和高性能的分布 式数据库系统,成为一种去IOE技术方案。 数据存储 索引存储 元数 据存 储 日志存储 元数 据管 理器 SQL解析 分布式执行计划 产生器 分布式调度器 分布式执行器 分布式事务 2PC 管理层 日志读取模块 网络传输模块 复制执行模块 提供管理接口 集群自动 监控模块 失败 检测 负载 监控 任务 监控 集群管理和 图形化工具 状态监 控,启 动,停止 部署,升 级管理 资源管理 分布式关系功能模块 高可用模块 Web SQLSQL Console 数据导入导出, 备份恢复等工具 自动测试工 具 应用层 模块 任务 查询 热点 监测 Web检 测 配置文件 管理 一致性机 制管理 SQL 查询分析器 BC-RDB 2.2主要特性 1. 高可靠:数据在多个服务器 上形成多副本,同步写完多 个副本才成功。在存储引擎 层保证一致性 2. 高可用:集群节点互为备份, 主备节点热备切换 3. 高性能:在负载均衡环境, 提供读写分离服务;可以采 用高性能硬件优化 4. 兼容性:完善SQL92兼容开 发,仅子查询不支持,Join 未经优化。提供Oracle 数 据导入导出支持 5. 管理增强:提供完善的统一 监控、部署Portal;提供故 障告警和数据一致性分析脚 本 8 BC-PDM:“大云”数据挖掘和ETL工具 大云BC-PDM 传统数据挖掘产品 开源软件(Mahout 等) 数据处理规模 1000TB以上级别, 各种应用的全量数据 挖掘,集群 10TB级别,各种应 用的抽样数据挖掘, 单机 1000TB以上规模, 部分应用的全量数据 挖掘,集群 算法支持 21种挖掘算法,非结 构化算法、SNA 算法种类同左,有 更多细分算法 算法种类较少,集中 在推荐算法 数据预处理支 持 45种ETL操作 支持 不支持 数据来源 各种格式文件、数据 库 各种格式文件、数 据库 各种文件 使用方法和定 制开发能力 友好,界面拖拉拽、 SQL、定制化算法插 件 友好,界面拖拉拽 不友好,命令行程序 用户群 数据分析工程师、第 三方工具开发者 数据分析工程师 程序员 产品服务 培训、现场、远程、 升级、定制化开发 培训、现场、远程、 升级 无服务 相比开源数据挖掘软件,BC-PDM具有功能强大、简单易用、多应用支持,服务完善 等优势;相比传统数据挖掘工具,BC-PDM处理能力强、性能优秀、可以完成数据全 量挖掘、定制化程度高,具有明显优势。 客户评价:“大云BC-PDM领先业界同类产品一年” PC节点 任 务 任务分解 … M 1 M 2 M i R 1 R j 子 任 务 元数据服务器 block1 任务分发服务器 数据分割 block1 block1 block2 block2 block2 block3 block3 block3 分布式集群 管理服务器 M 1 M 2 M i R 1 R 2 … R 2 … R j HDFS HugeTa ble MapRe duce 并行 数据 挖掘 各种海量数据处理 、挖掘应用 数据交 换 并行 数据探 索 Web GUI/工 作流引擎 SQL脚本 CLI命令行 应用 用户 权限 管理 并行 数据 ETL 社交 网络 分析 广 域 网 9 行业大数据解决方案 实时互动个性化推 荐 基于设备的实时个 性化推荐 基于位置的实时推 荐 实时的客户接触关 怀 客户离网风险预测 个性化的实时交互 人工服务 客户离网原因预测 客户体验差的时候 主动关怀 个性化的挽留营销 活动 沉默用户(服务) 主动关怀 客户掉话率分析 实时WIFI转移(四 网协同) 用户投诉故障定位 网络故障检测和恢 复 基于价值的实时网 络拥塞管理 基于价值的网络规 划 产品设计和开发 客户对产品的购买概率分析 产品引入分析 产品优化 市场营销 客户体验 网络优化 “大云”大数据应用实践 对内支撑精细化运营:支撑客户体验提升、精细营销、产品创新、网络优化、企业管理水平提升。 对外寻求新业务增长点:支撑行业大数据解决方案、数据变现及社会化洞察等对外服务模式。 数据变现 社会化洞察 大数据对外服务 竞品分析 垃圾短信拦截 搜索业务优化 IT系统优化 ETL云化 帐详单查询 终端进销存系统 上网行为分析 运营管理分析 指标库查询 10 云ETL 解决方案:以BC-Hadoop、BC-HugeTable为基础,基于BC-PDM工具针对结构化、非结 构化数据实现ETL操作,包括从各种数据源获取数据,并进行清洗、转换、去重、缺值补充 等操作,进而实现上报一经各类数据分析及汇总。 效果: 省公司:完成一经wap日志30天存储、 分析、汇总,减少原有数据库25%的 长时间负载占用,性能提高3-5倍。 省公司:存储60天数据,6PC 受业务复杂度影响,性能提升 比例不同,但绝对时间上提升 明显; 对于而且对于数据量大、逻辑 相对简单的业务提升比例更高, 日调度提升平均3倍以上,月调 度提升部分可达5倍以上 例图:分时段汇总的业务场景 现状:以数据仓库的E-L-T模式为主,海量原始数据直接入库,对数据仓库产生极大压力,数 据仓库扩容压力大,影响其他分析业务正常运行。 IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 11 详单类数据查询分析 采集预处理 计算1 计算2 融合 处理 大数据库 大数据库 原始 数据 消息 营业厅系统 营业厅1 营业厅2 营业厅3 营业厅4 例图:帐详单查询系统 效果: 省级帐详单查询系统:30个节 点满足6个月数据供150多T数据 存储,秒级支持客服及用户的详 单查询 省级运营管理大数据平台:12 节点存储7天详绅日志 1年汇总 数据,支持管信客户感知丏题及 CRM防绕行审计,基于大云实 现大数据平台自劢安装部署、监 控及管理,同时支持ooize、 pig等组件。 解决方案:以BC-Hadoop、BC-HugeTable为基础,仅保存一份数据,以标准SQL支持对 详单类数据的查询与分析统计,包括支持客服的详单查询、上网日志查询、网络数据查询及 分析等。 现状:数据库承载详单类型数据的查询及分析操作,随着用户及4G业务增多,数据库压力大 响应延迟增加。 IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 12 交易数据库应用(去IOE) 效果: 省级终端进销存系统:6节点支 持3000人幵发 服务于各终端网 点、经销商、各级公司以及供应 商的销售支撑业务管理平台。 省级BC-RDB一体机测试:完成 4节点集成测试,实现数据库基 准功能,验证了BC-RDB在多种 平台的可集成性。 负载均衡 应用 服务器 管理终端 节点1 „ „ 节点N ZK1 „ „ ZK M DBXA 监控系统 集群可以部署于自带硬盘的x86服 务器,不需要小型机和磁盘阵列 解决方案:基于分布式数据库BC-RDB系统实现分布式事务和统计分析功能,支持标准SQL 接口,提供高并发和高可靠性的数据库系统,传统数据库可平滑迁移。 现状:对于海量数据的事务处理需求,现网小型机系统在扩展性方面遇到瓶颈,开源单机数 据库性能支持不够,只能采用分库的方案,而在跨库查询时给应用改造带来一定复杂度。 IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 13 用户投诉故障定位 解决方案:以BC-Hadoop、BC-HugeTable为基础,支持各种网络数据存储,包括 traffic/Gn/Gb/wlan等数据,支持网络投诉的迅速定位、掉话率分析等等 效果: 省公司 LTE与2G/3G信号共存干扰现象 是影响无线通信网络质量的关 键因素之一,当接到用户投诉 时,采用传统方案,平均需要 5-7个工作日完成故障定位,现 在故障定位时间缩短到分钟级 别。 省公司 感知掉话率是传统话统掉话率4 倍,感知掉话率与用户实际投 诉匹配度更高 例图:分时段汇总的业务场景 现状:传统网络数据保存周期短,4G业务增多,网络数据巨大日增数十TB(省),无法应 对网络优化需求。 Traffic数据 DNS数据 其他接口数据 GN口数据 86GB /天 1TB/ 天 1TB/ 天 HugeTa ble 基于 Web的 查询 Portal SQL分 析 网络接口数 据 实时 入库 数据存 储 数据展现/获 取 IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 14 基于流计算的位置精准营销及实时PKI 效果: 可支持的应用包括: 实时营销类:基于位置的 营销 实时体验类:套餐余量提 醒 实时KPI监控:用户数、通 话成功率、短信数等指标 监控 例图:客户分类识别应用 解决方案:基于开源流计算系统支持实时数据处理及响应,提供实时数据缓存、数据分析、 事件累积及触发等能力。 现状:面向实时类市场营销需求以及实时信息决策需求,目前对于实时数据的快速响应和处 理,目前现网系统还难以支持。 IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 15 数据挖掘和专题分析 人群1 其它人群 例图:客户分类识别应用 效果: 数据挖掘试点:分别在福建泉州、 河南商丘、上海公司实现了BC- PDM试点,可以对全网数据进 行分析,效果良好 省数据挖掘丏题 :实现了无锡融 合套餐用户流量适配模型、家庭 宽带丏题等数据挖掘流程,正在 验证环节 电信交网圈应用:客户影响力分 析、客户重入网分析、家庭客户 识别、集团客户行为趋势分析 解决方案:基于BC-PDM实现数据挖掘丏题,提供面向结构化、非结构化数据分析挖掘,支 持分类、聚类、关联规则、社交网分析等近20种算法,实现了数据探索、数据流程可视化、 数据结果展示及流程调度等功能。 现状:对于海量数据的挖掘与分析,由于传统数据挖掘工具系统性能有限,通常采用抽样手 段来完成,不能对全网数据分析,尤其针对社交网类型应用,抽样不能解决根本问题。 IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 16 POI搜索系统 解决方案:以BC-SE为基础,实现对POI母库及关键词库的多重索引机制,提供灵活的与公 交查询系统集成接口,提供类别排序定制化需求。 现状:位置基地选择商用POI搜索系统,难以支持移劢业务的定制化需求,例如基于运营数 据的系统优化,POI数据扩充及检索排序需求等。 效果: 支持运营数据(点击 率)对搜索结果的优 化 支持按类别进行POI 搜索及排序 提供系统的可运营可 管理能力 支持定期手劢和自劢 更新POI信息库 IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 17 垃圾短信拦截 不良信息样本存储与分析平台 数据采集 统一存储(HDFS+Hugetable) 垃圾短信 (CSV) ftp 垃圾彩信 (ZIP) ftp 不良网站 (ZIP) ftp 客户名单 (DAT) 手劢 白名单 审计 信息 模糊化 加解黑 号码统计 样本分析工具 分时段短信 特征分析 聚类 分析 统 一 平 台 管 理 样 本 数 据 垃圾短信 收端/投诉 (CSV) ftp 统一计算框架(Mapreduce/Spark/SQL) 解决方案:基于BC-Hadoop实现不良信息统一存储,提供统一计算框架,BC-PDM实现各 种文本分析算法,包括聚类、分类等,支持不良信息自劢化决策支持。 现状:对于海量垃圾短信、彩信等各种不良信息,传统基于规则的方式过滤,过滤结加以人 工筛查,由于规则判定特征,人工工作量巨大,难以满足现网需求 效果: 规则的优化:对垃圾短信行为模 式的发现,例如频繁发送,只发 不收等基本规则优化 基于文本内容的识别  针对人工校验结果的不精确性, 采用聚类算法方式,给出纠错 建议  利用人工校验结果作为训练集, 采用指纹算法等方式实现垃圾 短信识别  有效减轻人工校验工作量,经 过测试,系统验证违规短信与 人工判定违规误差10% IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 18 行业解决方案 “智慧洞察”(Smart Insights)对外数据服务平台。平台依托企业数据中心强大的处理能力 与海量数据,基于完全匿名和聚合的移动数据,利用统计分析、数据挖掘等技术,向客户 提供标准化数据产品、大数据分析报告、高效Open API服务。为社会、政府、企业以及家庭、 个人客户提供经过分析挖掘而形成的价值产品与服务,实现数据价值提升与共享。 效果: 客源分析标准产品:客源构成分 析:分析人群构成,区分出真正 游客人员。 • 景区景点人员密度:通过 基站分析各景点实时客流 情况,便于疏导与管理。 • 流量监控与预警:提高景 区管理职能、服务能力及 安全保障能力 数据开放API:在2014年度江苏 省智慧旅游推进会上,此项目被 江苏省旅游局评为“江苏省智慧 旅游优秀项目” IT系统 优化 网络 优化 市场 营销 用户 体验 数据 变现 19 中国移动大数据应用展望 规划中国移劢的大 数据中心,提供数据获取、存储、处理等服务能力以及提供大数 据应用创新平台 数据统一采集、清洗、转换 离线处 理云 在线分 析云 实时计 算云 管理平台 数据管 理 元数据 、质量 、安全 、审计 运营管 理 服务管 理、用 户管理 、资源 管理、 计量计 费、系 统管理 采集层 能 力 和 服 务 层 应用层 存 储 和 计 算 层 数据统一存储 统计分析、机器学习、数据挖掘算法 及模型 经 营 分 析 产 品 优 化 网 络 分 析 高 效 运 营 智 能 客 服 信 息 安 全 … 数 据 变 现 大数 据应 用托 管服 务 数据可视化服务 • 多种数据源采集,内部数据、外部数据 • 采集效率:数据压缩、增量采集 • 带宽建设 • 存储:大规模(百PB)、热数据、温数 据、冷数据 • 离线处理:非结构化数据转为结构化知 识、数据归一化、离散数据的整合 • 在线处理:大规模数据高性能即席查询、 SQL支持 • 实时计算:流式数据实时计算 • 统一调度:混合部署和统一资源调度 • 对外能力开放:能力开放及应用托管 • 可视化服务:可视化展示及人机交互 • 数据分析模型:文本、统计、机器学习 • 数据管理:元数据管理、数据质量、安 全访问、审计 • 运营管理:资源管理、计量 谢谢!
还剩19页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享pdf获得金币 ] 1 人已下载

下载pdf

pdf贡献者

y8de

贡献于2015-07-27

下载需要 6 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf