中国移动集中化BI探索:数据仓库与Hadoop混搭

jopen 11年前

随着移动互联网、物联网/传感器等技术的发展,全球数据生产速度正在高速增长,信息已成为企业的战略资产。而运营商作为网络时代的数据交换中心,其网络管道、业务平台、支撑系统中每天都在产生大量有价值的数据,基于这些数据的商业智能(BI)应用为运营商带来了巨大机遇。

对此,中国移动研究院业务支撑所所长孙少陵日前在“Hadoop与大数据技术大会”上对于运营商的大数据商业智能探索进行了详细介绍。

机遇与挑战并存

如今不仅市场竞争和政策管制要求越来越多的数据被长期保存。对于企业而言,也越来越需要积累越来越多的信息资源。信息对其进行用户行为分析、市场研究等活动有着重要意义。

通过分析用户行为及偏好,可相应改善用户体验;通过分析流量、流向变化及网络日志,可优化网络质量;通过对业务、资源及财务等各类数据的综合分析,能快速准确确定公司管理和市场竞争策略;当然其更可刺激业务创新,在确保用户隐私不被侵犯的前提下,可对数据进行加工,对外提供信息服务,从而提升企业价值。“未来中国移动可能会基于这些信息推出一些新业务,形成运营商新的竞争力。” 孙少陵透露。

然而,大数据也给运营商的商业智能系统带来了诸多挑战。在此方面三家运营商的状况相差无几。

首先,商业智能系统为分散建设,而运营商一般为两级结构、甚至三级结构,分总部、省级、地市级。“比如经营分析、信令监测、综合网络分析、不良信息监测、上网日志留存等大数据系统分专业建设,而其中部分系统又分省建设。”孙少陵谈到,“如此分散的建设一方面造成资源重复建设及应用重复开发,一些科学家和分析专家的数据资源也无法形成共享。”

其次,数据分散存储,标准化程度比较低。目前不同系统的建设主体不尽相同,尽管集团有统一的数据模型标准,但最终在实施上总有一些差异。而数据模型的不统一,就造成了跨系统的综合分析困难。

再次,目前运营商大部分建有以数据仓库为核心的BI架构。这一传统数据仓库采用小机加盘阵高性能一体机建设,成本非常高。整体来看,运营商的商业智能是以处理传统的划单、日志等结构化数据来设计的。在上网日志等一些新型数据,包括图像等非结构化数据方面,目前的BI系统不具备能力处理。

此外,现今运营商的系统只对内部提供服务,大量数据未能有效进行商业利用。而在数据进行商业利用之前,运营商必须先解决好用户隐私保护问题。

集中化BI初步构想

针对此种形势,同时也考虑到未来商业智能系统将逐渐走向移动化,孙少陵认为,运营商可调整原来的两级架构为全网一级架构,构建数据集中、平台统一的商业智能系统。同时将各系统数据进行统一处理和存储,从而实现数据的标准化。

“通过数据集中化来实现各系统的综合分析,也有利于快速地进行数据分析和决策支持。目前很多数据存是在二级、省内或地市系统里,如果集团公司要进行数据分析和决策支持,往往需要省公司定期提供一些汇总数据。”孙少陵说。

但同时集中化商业智能也面临着海量数据处理和存储的压力,包括数据规模大、数据处理复杂、混合负载多样等多种挑战。此时传统的单一数据仓库技术已难以满足要求,大数据技术的引入势在必行。

经过综合比较数据仓库技术,Hadoop、NoSql、流式处理技术等各种大数据处理技术后,中移动研究院对于集中化的商业智能系统有了初步构想。

在技术路线方面,选择数据仓库与Hadoop混搭的方式,借鉴关系型数据仓库在传统应用支持方面以及在复杂查询和分析方面的快速响应能力,同时也借鉴了Hadoop的非结构化数据处理能力以及存储的低成本。

而为实现上层应用更便捷地进行下层数据使用,将考虑未来实现透明访问层。其将屏蔽Hadoop与数据仓库的使用细节,让用户在使用这些数据时尽量无感知;在数据的ETL采集预处理环节,尽量采用Hadoop与分布式ETL的方式,提高数据转换效率,同时降低成本。

另外,运营商庞大分散的组织架构公司对商业智能的需求也比较多。因此中国移动将云计算引入到大数据(“大云”项目),未来形成一个商业智能的 Pass平台。此平台会实现平台建设和数据存储的集中。而应用开发可以让各省公司和地市公司自行进行,再上载到平台上分析结果。如此能很好地解决平台集中化和应用需求分散化的矛盾。

载自: C114中国通信网