电信大数据解决方案及实践


电信大数据解决方案及实践李秋静等D()I:111.396州.豳n.1009—6868.2013.04.007网络m版地川::http:/,www.cnki.nc“kcms/detail门4.1228.TN.20130624.1522.004.htmI圜结合全球多个实际案例,提出了一个电信大数据的精简方案架构。方案结合运营商的实际应用场景,挑选合适的组件进行组合,摒弃了通用化的大平台。大数据的发展,一要通过大数据应用提升运营效率,二要通过数据即服务(DAAS)拓展新的服务内容,提供对外服务。在业务实施设过程中,抓取、管理和挖掘电信运营商的核心数据是基础,运营商大数据的快速部署和瘟用是最终目标,两者需要在效率、成本和时间上取得平衡。E盈大数据;电信网络;精简架构;数据即服务12e墨墨InthispapelwediscussanumberofdomesticandintemationaIbig—datateIeconlnlunicatiOnsarchitecturesandproposeourownIeanbig—dataarchitecture.ThisnewarchjtecturecOmbinesthepracticaIappIicationscena一0sOfOperators,andtheuniversa}IargeplatfOrmisabandonedTherearetwOdirectionsinbi口一datadevelopment:improvingbusinessefficiencyandprovidjngda伯asaservice(DaaS).Capturing,managjng,andminingcoredataofatelecomoperatoristhebasisfOrserViceimpIementatjon.RapiddepIOymentandapplicationofbigdataisthefinaI伯rgetAbaIanceaIsOneedstObestruckbetweeninefficiencV,costandtimewhendepl0Vingabig—dataarchitecture.IC!j2122l!12Ilbjgdata:tefecommunicationsnetwork:leanarchitecture:dataasaservice1电信运营商建设大数据思路及关键技术运蓑意昙罂絮;翥翥嚣妻罢(包括用户配置基础数据、网络信令数据、网管,日志数据、用户位置数据、终端信息)是运营商的核心数据资产。对于运营商来说,最有价值的数据来自基础电信网络本身,对于基础管道数据的挖掘和分析是运营商大数据挖掘的最重要方向。抓取、管收稿日期:2013—04—27网络出版时间:2013—06—24基金项目:国家高技术研究发展(。863。)计划(2013AA01A210)理和挖掘这些数据是运营商的当务之急u。2-。运营商基于核心数据的大数据应用可从两个方面入手:(1)通过大数据应用提升自身运营效率。比较典型的应用包括:信令多维分析、网络综合管理及分析、业务和运营支撑系统(BOss)经营综合分析、精准营销等。(2)通过数据即服务(D从s)拓展新的服务内容,提供对外服务。包括个体及群体的位置信息以及用户行为分析等,对于第三方公司(比如零售业或者咨询公司、政府等)都是非常有价值的信息。运营商可以基于这些数据提供对外DAAS服务,拓展市场空间。李歌静/L|QiuJing叶云凡EYun【中兴通讯股份有限公司,广东深圳,518057】(ZTECorporalion,Shenzhen518057,Chjna)为了构建电信运营的大数据应用,从技术能力的角度可以分为数据收集与存储、信息检索汇聚、知识发现以及智慧4个层面。电信大数据技术层面如图l所示。自下而上数据挖掘深度增加,难度加大,对于系统的智能需求提升。其中关键的技术包括抽取转换装载(E,I|L)、并行计算框架、分布式数据库、分布式文件系统和数据挖掘、机器学习等。面对海量的大数据,如何有效进行数据处理是需要解决的迫切问题,分布式并行处理是有效手段。传统关系型数据库多采用共享磁盘(Sh州ng—disk)架构,当数据量达到一定程度,将面临处理的“瓶颈”以及扩展的困难,同时成本也偏高。当前有效的做法是采用分布式文件系统/分布式数据库结合做分布并行处理。目前基于开源的Hadoop平台是业界采用较广泛的一个实现方案。Hadoo一的核心思想是基于Hadoop分布式文件系统(HDFs)存储文件或者基于HBa船数据库(也是基于HDFs),使用分布式并行计算框架M印Reduce来并行执行分发M印操作以及Reduce归约操作。在Hadoop的计算模型中,计算节点与存储节点合一。存储数据的普通PC服务器可以执行MapReduce的任务。而在 万方数据 李秋静等电信大数据解决方案及实践Sharing—disk模型中,存储节点与计算节点是分离的,存储的数据需要传送到计算节点做计算。Hadoop计算模型适合离线批处理的场景,比如L09日志分析、文档统计分析等。它是关系型数据库管理系统(RDBMS)的有益补充。在私有技术上实现分布式存储和并行处理,在调用接口上与Hadoop兼容,这是一个可行的技术方案。这种方案可以避免上述Hadoop的缺点,同时在性能上做更多的优化。有效的手段包括增加数据本地性(DataL0cality)特性,在多次迭代的计算过程减少数据在不同节点之间的传送;使用索引和缓存加快数据的处理速度。结合存储和计算硬件进行调优也是有效的手段,可以使用数据的分层存储,将数据分布在内存、固态硬盘(SSD)、硬盘等不同介质上H,使得与计算资源达到很好的平衡。面对海量数据实时性的要求,比较有效的方式是采用复杂事件处理(CEP)”l。实时流处理采用事件触发机制,对于输入的事件在内存中及时处理。同时对于多个事件能合成一个事件m,。实时流处理需要支持规则以满足灵活的事件处理要求。实时鄹谢雕嘿猫烈即螬届疑吲数据到数据形成流处理可以使用分布式内存数据库、消息总线等机制来实现快速实时响应。目前商用的cEP产品有不少,但是在功能、性能以及适用范围上有较大差异,选择成熟度高以及合适的产品是关键。针对大数据中大量的半结构化或者非结构数据,NosQL数据库应运而生。NosQL数据库放弃关系模型,弱化事务,支持海量存储、高可扩展性、高可用及高并发需求。NosQL数据库在特定应用场景下有很高的优势,是传统数据库的有效补充。按照数据模型,NosQL主要有四大类:键一值(Key—value)型、列存储型、文档型、图型,它们对应不同的应用场景。比如Key—value型适合简单键一值对的高效查询,而图型适合社交关系的存储和高效查询。针对大数据挖掘分析、搜索以及机器白适应学习等技术在企业系统中逐步应用。相关的算法种类很多,当前需求较多的是分布式挖掘和分布式搜索。由于数据类型以及数据处理方式的改变,传统ETL已经不适用。运营商需要根据应用场景做不同的规划。目前来说,由于运营商应用系统层次2:信息检索图1电信大数据技术层面2013年8月第19卷第4期AUg.2013VOLl9No.4差别较大,尚未有一种统一的处理模式。比较可行的一种方法是依据数据的功用以及特性做分层处理,比如大量的数据源首先做初筛,初筛完之后有部分数据进入数据仓库或者RDBMs或者其他应用。初筛可以使用Hadoop或者cEP或者定制的方式来完成。针对运营商的不同应用场景,需要采用不同的技术或者技术组合。比如用户实时详单查询,数据量巨大,但是它的数据类型简单,数据以读为主,不需要复杂的Join操作,数据的分布性好。相比传统的RDBMS,使用Had00p可以大大提升查询性能,降低处理成本。更多的应用可能需要多种技术的组合。比如信令采集及多维分析,信令数据特别是分组域(PS)信令数据量大且实时性要求高,有效解决海量数据处理与实时性要求是它的关键,需要CEP与Had∞p的组合。在当前阶段,不同的技术成熟度不一,由于业界大数据应用进展较快,我们认为当前针对不同应用的精简方案是最合适的,也就是依据应用场景,挑选最合适的组件做组合,摒弃通用化的大平台。2中兴通讯大数据实践中兴通讯依托在云计算等领域的长期积累,针对大数据形成了一套完整的技术体系架构。zTE大数据技术体系架构如图2所示。架构依据运营商的不同的应用需求,注重采用组件搭建的方式,形成端到端的精简方案。下面以两个具体的案例进行说明。(1)用户实时位置信息服务系统该系统实时采集蜂窝网络用户的动态位置信息,并通过规范接口提供DAAS服务。实际工程中,当期接人的用户数达两千多万,每天用户位置更新数据可达40多亿条,高峰期更新达到每秒几十万次。除了采集的位置,还可以结合其他数据源比如用户年龄等属性做分析,以应用编程 万方数据 接口(API)开放给上层应用。此外该系统需要有良好的可扩展性,后续可以接入其他区域的数据源。另外这套系统需要有良好的性价比,成本可控,时间可控。依据这些需求,我们在成熟的组件K—VNosQL数据库的基础上搭建了系统。用户实时位置信息服务系统如图3所示。用户实时位置信息服务系统是一个典型的精简方案,它基于分布式Key—valueNoSQL数据库的分布式缓存(DCache),组装了对位置流事件实时处理的系统。DCache既是消息总线,也是内存数据库,能很好地满足实时性的要求。同时Dcache基于x86刀片服务器,采用分布式架构,系统的扩展性很好,成本较低。该系统性能优越,稳定可靠,取得良好的效果。(2)信令监测多维分析系统随着运营商数据业务快速增长,运营商对于网络质量提升、网络运营效率有着更大的压力。通过采集网络Gn接口、Mc接口信令并加以处理分析,可以获得网络运行的完整视图,基于信令的相关专题分析,比如网络质量分析、流量效率分析、多网协同分析、客户投诉及服务分析等对于运营商网络运营有极大的价值。信令监测多维分析的难点在于信令流量大且数据量大,比如某运营商省公司Gn接口峰值流量可以达到4Gb,s,每天信令数据可达lTB。需要采集信令并做多种分析以服务于不同的部门。信令监测多维分析系统采用分层的架构,便于数据共享及和应用的扩展。信令监测多维分析系统如图4所示。使用实时流处理满足实时性高的数据分析要求,对于会话或事务详单(xDR)初步处理完的数据采用传统RDBMs存储供后续分析查询使用。对于数据量庞大的xDR采用Had00pHBase存储并查询,原始信令采用分布式文件系统存放在本地。在这个方案中,数据根据它的使◆下转第45页电信大数据解决方案及实践李秋静等图2中兴通讯大数据技术体系架构CEP:复杂事件处理DCache:分布式缓存DMP:数据挖掘平台ETL:提取转换加HTTP:超文本传输Kev—Value:键一值图3用户实时位置信息服务系统{信令采集层图4信令监石丽瓦赢了而面甄赢\41屯匿滴能一功一则一规一费一与咯一策一C一载理一存加处一缓换析一式转分一布取机一分提联一㈨摇一D一统系撑支理理一营处管一运件系一和事关一务杂户一业复客一誉竺码一码别一号识一际户一国用一户动一用移一动际一移国一渊一SM一议一载协一圃圈 万方数据 供了丰富的数据来源,但其数据的复杂性也给研究工作带来的诸多挑战。目前的研究工作只是冰山一角,新的研究工作需要转变思维方式,综合各种技术手段,以从纷繁复杂的社交网络数据中发现特定的模式和新的规律,从而帮助人们更好地感知城市信息及发展规律,为人们提供更加美好、绿色、智能的城市生活。参考文献【1lGLAESEREL¨城市如何让我们变得更加富有、智慧、绿色、健康和幸福【MJ.刘润泉,译.上海:上海社会科学院出版社.2012.12】PAULOSE.HONICKYRJ.HOOKERB.HandboOkof阳search0nurbaninformatics:Thep怕cti∞andDromiseOfthe怕aI—timecity【M】.Hershey.PA.USA:IGIGIobaI.20∞.【3lOUTRAMC.RA丌IC.BIDERMANA.ThecopenhagenwheeI:AninnOvativeeIectricbicyc|esVstemthathamessesthepOwer0f怕aI一矗meinformationandcrowdsourcinglCWProceedin口sOftheEVERMonacoIntemationaIE×hbition&ConferenceonEcolo口icVehicles&RenewabIeEnergieslEVER’10).Mar25—28,2010.MonacO.【4】CALABRESEF.PEREIRAFC.DlLORENZOG.eta1.Thegeog怕phyoftaste:AnaIyzingce¨一phOnemobi|itya八dsoc训eventslCWProceedinasOfthe8thIntematiOnalCOnferenceOnPervasiveComp洲ng《Pen,asive’10I.May17—20.2010.HeIsinnF洲and.2010:22—37.15】YUANJ,ZHENGY,×IEX,eta1.DrivingwithknowIedgefromthephysicalworIdICWProceedinasofthe17thACMSIGKDD面向城市信息感知的社交网络大数据分析李文俊等IntematiOnaIConferenceonKnowIedqeDiscOveryandDataMjning(KDD’”).Aug21—24.2011.SanDiegO.CA.USA.NewYork.NY.USA:ACM.2011:316—324.【6】第31次中国互联网络发展状况统计报告【Rl北京:中国互联网络信息中心,2013.17】BlANJ.AGlCHTEINE.LIUY.etaI.LeamjngtorecognizereIiabIeusersandcontentinsOciaImediawithcOuDIedmutuaIreinforcement【Cv,Proceedingsofthe18thIntemationaICOnferenceOnW0rldWideWebMM^^f’09).Apr20—24.2009.Ma嘶d,Spa.nNewYork,NY.USA:ACM.2009:51—60.18】LUP.LU0S.HUL.et.a1.AnovelDara¨eIhierarchicalcommunitvdetectiOnmethOdforIargenetworkslEB,OL】.【2013一02—161.http:,,bi9Ieam.org,2012删es/pape吲bigleamin92012一submissiOn4.pdf.19】TUH.DINGJAne什icientcluste—ngaIgOrithmformicrobIOgginghottopicdetection【qWProceedingsoftheIntemationalConfe怕nceonComDuterScience&ServiceSyStem{CSSS’12).Aug”一13.2012,Nan扣n乱Chjna.PiscatawaV.NJ.USA:IEEE.2012:738—741.110】FERRARlL.ROSIA.MAMEIM,et.aI.Ext阳ctingurbanpattemsfromlocation—basedsociafnetwDrks【Cl,,Proceedingsofthe3rdACMSIGSPATIALInternatiOnalWOrkshODOnLO∞tiOn—basedSociaINetworks(LBSN’11).Nov1.2011.ChicagO.IL,UsA.NewYork.NY.USA:ACM.2011:9—16.【11】ZHONGQ,et.aIPa阳¨eIspect阳lclusteringbasedonMaDReduceIJl.ZTECommunications.2013.2013.2111):30—37.112】BROCKMANND.LHUFNAGELL-GEISELT.Thesca¨ngIawsofhumantraveI【JI.Nature.2006.439:462—465.【13】FORTUNAT0S.Commun时detectioningraphs【J】.PhysicsReports.2010:75—174.114】ACHREKARH.GANDHEA.LAZARUSR.eta1.PredictingFlut悖ndsusingTwitterdata【CWProceedingsofthe2011lEEE●上接第41页用特性采用不同的方式存储和处理,突破RDBMS处理“瓶颈”和扩展性的“瓶颈”,达到了很好的效果。在测试中,4节点PC服务器可以全部承担某运营商省公司PS域xDR的存储,入库性能可达50Mb,s,针对上百亿条记录查询,可以在10s内返回。取得了很好的实践效果。3结束语电信运营商面l临大数据发展的机遇,都在积极推动大数据的试点和商用。在当前大数据技术快速发展的形势下,根据需求和应用场景搭建精简方案,可以帮助运营商在当前激烈竞争环境中快速获得竞争优势,在ConferenceOnC0mDuterCommunicatiOnsWorkshops(INFOCOMWKSHPS’11),Apr10一15.2们1.Shangh乱China.PiscatawaWNJ.USA:lEEE.2们1:702—707.李文俊。东南大学信息科学与工程学院在读博士研究生;研究方向为大数据分析、数据挖掘、web数据分析等。陆建,东南大学信息科学与工程学院讲师;研究领域为数据分析和数据压缩;已参与完成基金项目3项;已发表学术论文3篇。壬桥,东南大学教授、博士生导师。东南大学信号与信息处理国家重点学科主任;长期从事信号分析、图像处理以及网络技术研究;已发表学术论文30余篇,出版专著1部。效率、成本和时间上取得最佳平衡。弧㈣s如-。a,2008,4712:__32]3:j4参考文献【1】CiscoSvstems.CiscovisuaInetworkingindexgIObaImObiIedatatrafficfOrecastupdate,20”一2016【EB,0L】12013—03—25】.httD:,,、^,vvw.cisc0.cOm.12】MANYIKAJ,CHUIM,BROVVNB.etaI.Bigdata:ThenextfrontierfOrinnOva“0n.compe玳ion.andproductiv时lR】.McK.nseyGlobaJ|nstitute.2011.13】wHITET.Hadoop权威指南IM】2版.周敏奇.王晓玲.金澈清.译.北京:清华大学出版社.2011.【4】SNIA.2012SNIASprjntTutorials—Ne)(tGenInfrastructureforBigDataIEB,OL】.【2013—02—15】.http:『,1^n^n^,.snia.org【5】NEUMEYERL,ROBBINSB.NAlRA,etaI.S4:Distrjbutedstreamcompu“ngpIatform【CWPrOceedinas0fthelEEEIntemationalCOnfe怕nceOnDataMiningVVOrkshODs(1CDMW’10).Dec14—17.2010,SydneⅥAust阳lia.LDsAbmitOs.CA.USA:IEEEComputerSociety,2010:170—177.【6】SHARONG.ETZION0.Event—processingnetvvorkmodeIandimpIementation【J1.I引ⅥAUg.2013voll9№.42013年8月第19卷第4期李秋静,中科院计算所工学博士毕业;现工作于中兴通讯股份有限公司运营商部;主要研究领域为大数据、物联网、云计算等:已发表学术论文8篇。叶云。中兴通讯股份有限公司运营商部方案总工、高级工程师;长期从事业务软件产品的技术预研、产品方案规划及标准化工作。先后主持和参加了中出通讯lMS、云计算、物联网、智能管道、大数据等多个重点综合方案的设计;已发表学术论文50余篇o.●~■__I●L一 9n¨ 万方数据
还剩3页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 1 人已下载

下载pdf

pdf贡献者

dszhao

贡献于2017-04-05

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf