网络用户行为分析的若干问题研究


密级:专业:焦曼皇篮皇处理导师:置握明学院:信息皇通篮王程堂院2010年5月8日 独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:至:l出日期:关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:同期:同期: 摘要网络用户行为分析的若干问题研究摘要互联网在当前的社会生活中已经越来越占据重要的位置。随着信息科技的进步和社会经济水平的发展,互联网规模迅速膨胀,网络流量、用户规模等互联网组成部分快速增长。随着移动设备、嵌入式系统以及传感器网络等新兴互联网组成部分的发展,互联网规模将在相当长的时间内持续增长。随着互联网的发展,互联网业务也从简单的传统业务发展到实时多媒体业务,进而发展到以资源共享和协同工作为特征的互联网业务。互联网能达到今天的规模一个重要的原因就是互联网业务种类呈现多样化和个性化的蓬勃发展。但是网络业务的快速发展也为电信运营商带来了一系列的挑战:需要重新掌握网络用户在使用业务方面的偏好模式以及其随时间变化的规律,从而制定针对性的资费套餐、有针对性的制定营销策略以及进行网络监管;不掌握用户上下线的行为模型就无法进行合理的服务器负载均衡,从而让服务器的服务性能达到最优。本文的主要内容是基于业务和时间变化的网络用户行为研究。本文通过对实际骨干网流量数据进行分析、挖掘,得到网络用户使用业务的偏好模式、网络用户使用业务的偏好模式随时间变化的规律以及对用户上下线行为模型。这些模型为电信运营商进行根据客户特点进行电信产品的定向营销、相关套餐的制定、有价值客户区分以及服务器负载均衡等提供有价值的研究基础。具体研究内容如下:1)本文根据真实网络省级骨干网的数据特点和研究目的选定了层次聚类的算法。但是在实际应用中发现经典层次聚类算法及其已有的改进算法的时间复杂度太高。本文针对这个改进方向,提出了基于熵来对数据分组和基于数据特点来一次合并多个数据样本的的快速层次聚类算法,算法对比实验结果表明,改进算法与经典层次聚类算法相比,时间执行效率大大提高了7-8倍左右。即使是与基于最小生成树的改进层次聚类算法相比,算法也提高了3倍左右。 摘要2)根据快速层次聚类结果,本文揭示了网络用户业务使用偏好模式的组成以及各个网络用户业务使用偏好模式的人数分布。并深入分析了不同的网络用户业务使用偏好模式的使用频度的区别以及网络用户业务使用偏好模式与网络用户的每天在线时长、网络用户每天的流量以及流量的上下行比例的关系。3)本文对用户业务偏好变化随时间变化的规律进行研究,通过定义一系列的分析指标,揭示了用户业务偏好变化率随时间尺度、业务偏好变点变化的规律:用户业务偏好变化率并不单纯随时间尺度的增大而降低,而是有条件的成立。并对这种规律进行了解释和分析。最后对在一个月的时间序列中,出现的最多的几种用户业务偏好模式变化序列进行了总结和展示。4)本文首次利用非齐次泊松过程对网络用户上下线行为进行建模分析。本文通过对实际数据使用假设检验的方法来证实了用户上下线确实符合非齐次泊松过程。接着利用非齐次泊松过程对用户上下线行为进行了建模,并在相关假设的条件下理论推导出了用户上下线概率的计算公式。最后对用户上下线概率的公式进行了理论验证和数据验证。此外本文还给出了不同用户组的用户上下线登录概率分布图,为进一步的研究打下了基础。关键词:互联网业务网络用户行为分析用户上下线行为l 目录BEHAVIORoFNETWORKUSERSRESEARCHBASEDONTIME.Ⅵ气RYING&SERVICESABSTRACTToday,withtheadvancementininformationtechnologyandthedevelopmentoftheconomic,internethasgottenamoreandmoreimportantpositioninouelife.TherapidexpansionofIntemet,networktraffic,networkuserandthenumberofhostcomputersincreaseswiththeexponentialgrowth.Withthedevelopmentofmobiledevices,embeddedsystemsandsensornetworks,thenewInternetelement,Internet-scalewillcontinuetogrowinalongtime.Internetapplicationshavedevelopedfromsimpletraditionalapplicationstoreal-timemultimediaapplications.NowadaysInternetapplicationshavethenewcharacteristicsthatsharingtheresourceandcollaboration.However,theimportantreasonforInternetreachingtoday’SpositionisthattherapiddevelopmentofIntemetservices,networkapplication,diversifiedtypesofbusinessandpersonaltrends.However,therapidboomingInternetbusinessalsobringsometroublestotelecommunicationcompanies:ifwedonotknowthemodeofnetworkserviceanditsruleswithtime,wecannotmakebetterfees,targetedmarketingstrategiesandmonitoringthenetwork;Ifwedonotknowthemodelofuseronlineandofflinebehaviorwecannotgetareasonableserver’Sloadbalancing,togiveservertheoptimizeperformance.ThispaperstudiestheInteractuserbehavior.Usingtheactualbackbonetrafficdatatoanalyzeinordertograspingtheprefermodeforthenetworkuserservice,analyzingtheruleofthemodelchangingovertime,andmodelingtheuseronlineandofflinebehavior.Inthiscase,thecarrierscanmakethedirectionalproductsmarketing,accordingtothecharacteristicsofcustomers;makethefeesaccordingtotheusercharacteristics,providingthe 目录valuablereferencetodistinguishvaluableclientsandserverloadbalancing,etc.1)2)Thispaperselectshierarchicalclusteringalgorithms,whichbasedupontherealprovincialbackbonenetworkdataandourpurposeofanalyzingtheprefermodeforthenetworkuserservice.Andbecauseofthedefectsofthehierarchicalclusteringalgorithm,thispaperintroducestheimprovingtheclusteringalgorithmtoreducethetimecomplexity,thedataresultsshowthat,comparingourimprovedalgorithmwiththeclassicalhierarchicalclustering,ourimprovedalgorithmimprovetheefficiencyoftimehasgreatlyincreasedbyabout10times,.Evencomparingwiththeimprovedhierarchicalclusteringalgorithmbasedontheminimumspanningtree,ouralgorithmisalsofasterthanitabout3times.Accordingtotheresultsoffasthierarchicalclustering,thispaperrevealsthecompositionoftheprefermodeforthenetworkuserservicethatbasedonthedifferenttimescalesandthesizedistributionofeverymodeofnetworkservice.Andthispaperdeeplyanalyzestheusingfrequencydifferencebetweenthedifferentmodesofthenetworkservice,andtherelationshipbetweenthemodesofthenetworkserviceandtheusersdailyonlineduration,thedailyflowofnetworkusersandtheflowratiooftheup—flowanddown—flow.Thispaperalsoanalyzesandexplainstheformingreasonsofthecharacteristicsbetweendistributionandrelationship.3)Thispapernotonlyanalyzesmodeofthenetworkservice,usingtheimprovedhierarchicalclusteringalgorithm,butalsoisthefirstpaperthatanalyzesthetimechangingcombiningwiththemodeofthenetworkservice,studiestherulesthatthemodeofthenetworkservicechangeswithtimescales.Bydefiningaseriesofindicatorsandprocessingtheactualdata,thispaperrevealstherelationshipbetweenthemodeofthenetworkserviceandthetimescales,thecriticalpointimprovement,atthemeantime, 目录analyzesandexplainsthecharacteristicsofthechangingrelationships.Thenitsummarizesandshowsthechangingsequenceofthemodeofthenetworkservice,whichappearsthemostinamonth’Stimeseries.4)Thispaperisthefirsttousingthenon-homogeneousPoissonprocesstomodelandanalyzethenetworkuseronlineandofflinebehavior.nispaperusesthemethodofhypothesistesttoauthenticateusersonlineandoffiinemeetsnon.homogeneousPoissonprocess,usingtheactualdata.ThenitUSeSthenon.homogeneousPoissonprocesstomodeltheuseronlineandOfflinebehavior.andwederivedtheprobabilityformulaoftheuseronlineandoffline,basedonthedependenceassumptions.Finally,wemakethetheoryverificationanddatavalidationwhethertheformulaisrightorwrong.neverifyresultsconfirmtheconclusionreasonable.Inaddition,wealsogivetheuseronlineandoffiinelogprobabilitydistributionpicturebasedonthedifferentmodeofnetworkservice.Itisabasisofthefurtherresearch.KEYWORDS:InternetServicesNetworkUsersBehaviorsAnalysisNetworkUserson/of!flinebehavior、, 目录摘要目录第一章绪论Il1.1互联网业务发展现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。11.1.1WEB!ik务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1.2电子邮件业务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.1.3FIV!il!务:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..!;1.1.4语音类业务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯81.1.5P2P—1:载⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..91.1.6一般视频类业务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.141.1.7P2P流媒体⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1t;1.1.8即时通讯类业务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.171.1.9网络游戏业务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.201.1.10无线互联网⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯221.1.11互联网业务小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯241.2互联网业务发展的挑战与机遇⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯241.2.1网络信息安全问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.241.2.2互联网新业务给监管部门带来挑战⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯241.2.3互联}c)9新业务给运营商运营维护带米挑战⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯251.2.4新业务的不断发展给运营商带来机遇⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯251.3研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯:猫1.3.1对于网络信息安全的意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯261.3.2对于政府管理和舆情控制的意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.271.3.3对于运营商方面管理和运营的意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.271.4本文创新点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯281.5本文结构安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。29第二章网络用户行为研究背景现状312.1网络用户行为的概念与分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯312.1.1网络用户行为的概念和特点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯312.1.2网络用户行为的分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.332.2网络用户行为特征的选择和表示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯352.3网络用户行为分析的方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯382.3.1聚类分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.382.3.2关联分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯382.3.3决策树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯392.3.4神经网络⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯392.3.5时序数据挖掘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。40第三章基于快速层次聚类算法的用户业务使用偏好分组 目录3.1研究意义及背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯433.2数据来源⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯433.3采用方法的选择⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯443.3.1算法选择依据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.443.3.2层次聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。463.4方法的改进⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯493.4.1基于数据特点和熵对数据初步分组降低时间复杂度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。493.4.2基于数据特点一次减少多个单点簇降低时问复杂度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯503.4.3改进算法以及效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.503.5每日聚类结果数据分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯543.5.1结果的解释⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.543.5.2结果举例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.543.6一月聚类结果数据分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.613.6.1簇的再次汇聚分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯613.6.2用户业务偏好模式的使用频度分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.693.6.3用户业务偏好模式与在线时长和流最的关联分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.7l本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯78第四章用户业务使用偏好随时问变化规律研究4.1研究意义以及背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯794.2用户业务偏好变化随时问尺度变化的规律研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.804.2.1数据来源⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.804.2.2分析方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.804.2.3数据分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.834.3用户业务偏好变化随时问序列变化的规律研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯914.3.1数据来源⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯914.3.2分析方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯924.3.3数据分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.93本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.97第五章基于非齐次泊松模型的用户上下线行为研究5.1研究意义及背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯995.2齐次泊松过程与非齐次泊松过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..1005.2.1齐次泊松过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1005.2.2非齐次泊松过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1005.3分析的数据来源⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1015.4使用非齐次泊松模型分析的原冈⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。1015.4-.1数据的直观感受⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1015.4.2非齐次泊松过程的数据验证⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1035.5问题的描述和假设⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1065.6基r非齐次泊松过程用户上下线行为建模分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一1095.6.1用户上下线行为的非齐次泊松过程描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯109 Vm 年底年增长4000万人,半年增长率为13.4%,中国网民规模依然保持快速增长之势。宽带网民规模达到3.2亿人,占网民总体的94.3%。互联网出现之初,只有一些简单应用,从浏览新闻到电子邮件。随着社会对互联网的认识进一步加深,用户对互联网的应用也逐渐从传统的浏览新闻、收发邮件、查询信息等方面向更深、更广的领域发展,电子商务、网络银行、在线购物、网络短信、网络游戏等各种网络应用深入到人们工作、学习和生活的各个角落。总之,以信息获取、交流沟通类为主的基础网络服务正逐渐发展为以休闲娱乐、电子服务、电子商务三大类服务为主的扩展网络服务。随着业务的不断发展,网络用户也对这些业务形成了不同的偏好,其中有以下一些业务在互联网历史上占据了极其重要的位置。1.1.1WEB业务1.1.1.1WEB业务简介传统的互联网业务只有WEB业务,各种门户网站为用户提供有用信息,人们可以通过网页浏览器来访问网站,获取自己需要的资讯或者享受网络服务。随着技术的发展,WEB成为任何人可以参与的关于互连网上下一代应用程序,任何人可以参与到内容的创建中。WEB业务的发展改变了对于传统WEB业务的理解:内容不是固定在服务提供商那里,它是由用户来发布的。同时由于WEB业务的高度普及和简单易用,越来越多的网络业务被集成到WEB业务当中。WEB业务除了可以浏览网页以外,还可以使用网络银行、进行在线支付、收发邮件、在线收听音乐或者观看视频。第1页 北京邮电大学博士研究生学位论文1.1.1.2WEB业务协议Web的应用层协议唧是Web的核心。H'ITP在Web的客户程序和服务器程序中得以实现。运行在不同端系统上的客户程序和服务器程序通过交换唧消息彼此交流。H1]曙定义这些消息的结构以及客户和服务器如何交换这些消息。在详细解释HTrP之前,首先介绍一些web中的术副51。Web页面由多个对象构成。对象(object)仅仅是可由单个URL寻址的文件,例如HTML文件、JPG图像、GIF图像、JAVA小应用程序、语音片段等。大多数Web页面由单个基本HIML文件和若干个所引用的对象构成。例如,如果一个Web页面包含HTML文本和5个JPEG图像,那么它由6个对象构成,即基本HTML文件加5个图像。基本HTML文件使用相应的URL来引用本页面的其他对象。每个URL由存放该对象的服务器主机名和该对象的路径名两部分构成。例如,在如下的URL:www.chinaitlab.com/urlpath/picture.gif中,WWW.chinaitlab.tom是一个主机名,/urlpath/picture.qif是一个路径名。浏览器是web的用户代理,它显示所请求的Web页面,并提供大量的导航与配置特性。Web浏览器还实现了HTrP的客户端。Web服务器存放可由URL寻址的Web对象。web服务器还实现了HTrP的服务器端。流行的Web服务器有Apache、微软的IIS以及NetscapeEnterpriseServer。HTTP协议的主要特点可概括如下:>支持客户/服务器模式:>简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。>灵活:HTTP允许传输任意类型的数据对象,传输的类型由Content—Typ进行标记。>无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。>无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。第2页 北京邮电大学博士研究生学位论文1.1.1.3WEB业务发展现状最初的WEB,人们一直认为它们仅仅是网站,但随后它们也出现了一些令人惊讶的应用程序:功能丰富,容易上手,扩展性强,这些特性以前很少被普通消费者看到过。所以WEB业务在今天依旧是很大的推动力。这一切都表明WEB业务的欣欣向荣以及它在互联网业务中不可替代的作用,是人们所喜好的一项业务。1.1.2电子邮件业务1.1.2.1电子邮件业务简介电子邮件指用电子手段传送信件、单据、资料等信息的通信方法,是Internet应用最广的业务:通过网络的电子邮件系统,用户可以用非常低廉的价格,以非常快速的方式,与世界上任何一个角落的网络用户联系,这些电子邮件可以是文字、图像、声音等各种方式。同时,用户可以得到大量免费的新闻、专题邮件,并实现信息搜索。1.1.2.2电子邮件业务协议常见的电子邮件协议有以下几种:SMTP一简单邮件传输协议、POP3协议、IMAP-Internet邮件访问协议。这几种协议都是由TCP/IP协议族定义的:1.1⋯221SMTP协议SMTP是定义邮件传输的协议,它是基于TCP服务的应用层协议,由RFC0821所定义。SMTP协议规定的命令是以明文方式进行的。在传输文件过程中使用25号端口。SMTP是一种提供可靠且有效电子邮件传输的协议。SMTP是建模在FTP文件传输服务上的一种邮件服务,主要用于传输系统之间的邮件信息并提供来信有关的通知。SMTP独立于特定的传输子系统,且只需要可靠有序的数据流信道支持。SMTP重要特性之一是其能跨越网络传输邮件,即“SMTP邮件中继"。通常,一个网络可以由公用互联网上TCP可相互访问的主机、防火墙分隔的TCP/IP网络上TCP可相互访问的主机,及其它LAN/WAN中的主机利用非TCP传输层协议组成。使用SMTP,可第3页 北京邮电大学博士研究生学位论文实现相同网络上处理机之间的邮件传输,也可通过中继器或网关实现某处理机与其它网络之间的邮件传输。在这种方式下,邮件的发送可能经过从发送端到接收端路径上的大量中间中继器或网关主机。域名服务系统(DNS)的邮件交换服务器可以用来识别出传输邮件的下一跳IP地址。1.1⋯222POP协议POP即为PostOfficeProtocol的简称,是一种电子邮局传输协议,而POP3是它的第三个版本,是规定了怎样将个人计算机连接到Internet的邮件服务器和下载电子邮件的电子协议。它是Internet电子邮件的第一个离线协议标准。简单点说,POP3就是一个简单而实用的邮件信息传输协议。POP服务器一般使用的是TCP的1lO号端口。由RFCl939定义。本协议主要用于支持使用客户端远程管理在服务器上的电子邮件。POP3协议工作原理简介:>POP适用于C/S结构的脱机模型的电子邮件协议,目前己发展到第三版,称POP3。脱机模型即不能在线操作,不像IMAP4。>当客户机与服务器连接并查询新电子邮件时,被该客户机指定的所有将被下载的邮件都将被程序下载到客户机,下载后,电子邮件客户机就可以删除或修改任意邮件,而无需与电子邮件服务器进一步交互。>POP3客户向POP3服务器发送命令并等待响应,POP3命令采用命令行形式,用ASCII码表示。服务器响应是由一个单独的命令行组成,或多个命令行组成,响应第一行以ASCII文本+OK或-ERR指出相应的操作状态是成功还是失败>在POP3协议中有三种状态,认可状态,处理状态和更新状态。当客户机与服务器建立联系时,一旦客户机提供了自己身份并成功确认,即由认可状态转入处理状态,在完成相应的操作后客户机发出quit命令,则进入更新状态,更新之后重返认可状态。>认可状态的命令语句一般情况下,大多数现有的POP3客户与服务器执行采用ASCII明文发送用户名和口令,在认可状态等待客户连接的情况下,客户发出连接,并由命令user/pass对在网络上发送明文用户名和口令给服务器进行身份确认。一旦确认成功,便转入处理状态。为了避免发送明文口令的问题,有一种新的认证方法,命令为APOP,使第4页 北京邮电大学博士研究生学位论文用APOP,口令在传输之前被加密。当第一次与服务器连接时,POP3服务器向客户机发送一个ASCII码问候,这个问候由一串字符组成对每个客户机是唯一的,与当时的时间有关,然后,客户机把它的纯文本口令附加到从服务器接收到的字符串之后,然后计算出结果字符串的MD5单出函数消息摘要,客户机把用户名与MD5消息摘要作为APOP命令的参数一起发送出去。目前,大多数windows上的邮件客户软件不支持APOP命令,qpopper支持。1.1.2.2.311ML廿协议IMAP(InternetMessageAccessProtoc01)是POP3的一种替代协议,提供了邮件检索和邮件处理的新功能,这样用户可以完全不必下载邮件正文就可以看到邮件的标题摘要,从邮件客户端软件就可以对服务器上的邮件和文件夹目录等进行操作。IMAP协议增强了电子邮件的灵活性,同时也减少了垃圾邮件对本地系统的直接危害,同时相对节省了用户察看电子邮件的时间。除此之外,IMAP协议可以记忆用户在脱机状态下对邮件的操作在下一次打开网络连接的时候会自动执行。1.1.2.3电子邮件业务发展现状正是由于电子邮件的使用简易、投递迅速、收费低廉,易于保存、全球畅通无阻,使得电子邮件被广泛地应用,它使人们的交流方式得到了极大的改变。另外,电子邮件还可以进行一对多的邮件传递,同一邮件可以一次发送给许多人。最重要的是,电子邮件是整个网络系统中直接面向人与人之间信息交流的系统,它的数据发送方和接收方都是人,所以极大地满足了大量存在的人与人通信的需求,成为互联网业务中十分重要的一项业务。1.1.3FTP业务:1.1.3.1FTP业务简介FTP业务用于Internet上的控制文件的双向传输。同时,它也是一个应用程序。用户可以通过它把自己的PC机与世界各地所有运行FTP协议的服务器相连,访问服务器上的大量程序和信息。FTP的主要作用,就是让用户连接上一个远程计算机察看远程计算机有哪些文件,然后把文件从远程计算机上拷到本地计算机,或把本地计算机的文件送到远程计算机去。第5页 北京邮电大学博士研究生学位论文FTP业务是基于FTP协议来传输的,用FTP传输文件,用户事先应在远方系统注册,但为了便于大家获取资源,FTP在互联网上有一种特殊的也是非常广泛的应用是匿名FTP。通过Internet,任何用户可以使用FTP和一个公用账去获得一些公用资源。在Internet上有许许多多的这种公用计算机,这种用来做匿名FTP服务的计算机称作F1'P服务器,对每一个联入Internet的用户,只要知道这些FTP服务器的地址,就可以与它们连接并获取上面各种资源。由于FTP操作简单实用,开放性强,且能充分利用Internet来进行信息传递与交流,所以目前越来越多的FTP服务器连入Internet,这样越来越多的资源就可以通过匿名FTP来获得.1.1.3.2兀’P业务协议1.1.3.2.1FrP协议简介FTP协议即远程文件传输协议,是一个用于IP网络上系统之间文件传送的协议,FTP是TCP/IP的一种具体应用,它工作在OSI模型的第7层,TCP模型的第四层上,即应用层,使用TCP传输而不是UDP,FTP建立的就是一个可靠的连接。采用FTP协议可使Internet用户高效地从网上的FTP服务器下载大信息量的数据文件,将远程主机上的文件拷贝到自己的计算机上。以达到资源共享和传递信息的目的。由于FTP的使用使得Internet上出现大量为用户提供的下载服务。1.1.3.2.2FIFP工作原理FTP有两个过程:一个是控制连接,一个是数据传输。FTP协议不像HTTP协议一样需要一个端口作为连接,默认时HTTP端口是80,FTP端口是21。FTP协议需要两个端口,一个端口是作为控制连接端口,也就是FTP的21端口,用于发送指令给服务器以及等待服务器响应;另外一个端口用于数据传输端口,端口号为20,是用建立数据传输通道的,主要作用是从客户向服务器发送一个文件,从服务器向客户发送一个文件,从服务器向客户发送文件或目录列表。1.13.2.3FrP传输模式FTP协议的任务是从一台计算机将文件传送到另一台计算机,假设两台计算机通过ftp协议对话,并且能访问Internet,你可以用ftp命令来传输文件。每种操作系统使用上有某一些细微差别,但是每种协议基本的命令结构是相同的。第6页 北京邮电大学博士研究生学位论文FTP的传输有两种方式:ASCII传输模式和二进制数据传输模式。●ASCII传输方式假定用户正在拷贝的文件包含的简单ASCII码文本,如果在远程机器上运行的不是UNIX,当文件传输时ftp通常会自动地调整文件的内容以便于把文件解释成另外那台计算机存储文本文件的格式。●二进制传输模式在二进制传输中,保存文件的位序,以便原始和拷贝的是逐位一一对应的。例如,macintosh以二进制方式传送可执行文件到Windows系统,在对方系统上,此文件不能执行。1.13.2.4FrP工作模式FTP支持两种模式,一种方式叫做Standard即主动方式,一种是Passive即被动方式。Standard模式FTP的客户端发送PORT命令到FTP服务器。Passive模式FTP的客户端发送PASV命令到FTPServer。下面介绍一个这两种方式的工作原理:●Port模式FTP客户端首先动态的选择一个端口和FTP服务器的TCP21端口建立连接,通过这个通道发送命令,客户端需要接收数据的时候在这个通道上发送PORT命令。PORT命令包含了客户端用什么端口接收数据。在传送数据的时候,服务器端通过自己的TCP20端口连接至客户端的指定端口发送数据。FTPserver必须和客户端建立一个新的连接用来传送数据●Passive模式在建立控制通道的时候和Standard模式类似,但建立连接后发送的不是Port命令,而是Pasv命令。FTP服务器收到Pasv命令后,随机打开一个高端端口并且通知客户端在这个端口上传送数据的请求,客户端连接FTP服务器此端口,然后FTP服务器将通过这个端口进行数据的传送,这个时候FTPserver不再需要建立一个新的和客户端之间的连接。很多防火墙在设置的时候都是不允许接受外部发起的连接的,所以许多位于防火墙后或内网的FTP服务器不支持PASV模式,因为客户端无法穿过防火墙打开FTP服务器的高端端口;而许多内网的客户端不能用PORT模式登陆FTP服务器,因为从服务器的TCP20端口无法和内部网络的客户端建立一个新的连接,造成无法工作。第7页 北京邮电大学博士研究生学位论文1.1.3.3FI'P业务发展现状FTP是Internet上最早也是最广的应用,也是最重要和最基本的应用之一。但是,FTP有着极高的延时,从开始请求到第一次接收需求数据之间的时间会非常长,并且不时的必需执行一些冗长的登陆进程。它曾经很是流行,在互联网业务中占据十分重要的地位,但是随着互联网技术的发展,已经被一些新业务所取代,网络流量比重下滑。1.1.4语音类业务1.1.4.1语音类业务简介随着互联网信息通信服务能力的提升,话音、数据和视频服务可以由互联网方便地承载,网络融合的趋势日益明显。语音业务一直是电信运营商的基础性业务。近年来,网络通信势不可挡,qq、飞信等即时通讯软件冲击着传统的电话通信方式,继这些软件之后开发的网络电话,被企业和个人广泛应用于国内外长途通话中。随着VoIP技术的不断发展,基于互联网的语音通信应用(如Skype等)已经对运营商的传统话音业务造成巨大冲击。而且从长远来看,网络IP化和终端智能化是未来通信的两大特点,VOIP将成为一种必然的趋势。1.1.4.2语音类业务的典型应用VoIP网络电话是建立在IP技术上的分组化、数字化传输技术。其基本原理是:通过语音压缩算法对语音数据进行压缩编码处理,然后把这些语音数据按IP等相关协议进行打包,经过IP网络把数据包传输到接收地,再把这些语音数据包串起来,经过解码解压处理后,恢复成原来的语音信号,从而达到由IP网络传送语音的目的。VoIP系统把普通电话的模拟信号转换成IP数据包,同时也将收到的IP数据包转换成声音的模拟电信号。经过VoIP系统的转换及压缩处理,每个普通电话传输速率约占用8~1lkbit/s带宽,因此在与普通电信网同样使用传输速率为64kbit/s的带宽时,VoIP电话数是原来的5~8倍。VoIP系统的核心与关键设备是VoIP网关。VoIP网关具有路由管理功能,它把各地区电话区号映射为相应的地区网关IP地址。这些信息存放在一个数据库中,有关处理软件完成呼叫处理、数字语音打包、路由管理等功能。用户拨打VoIP时,VoIP网关根据电话区号数据库资料,确定相应网关的IP地址,并将此IP地址加入IP第8页 北京邮电大学博士研究生学位论文数据包中,同时选择最佳路由,以减少传输时延,IP数据包经因特网到达目的地Volp网关。对于因特网未延伸到或暂时未设立网关的地区,可设置路由,由最近的网关通过长途电话网转接,实现通信业务。VolP最大的优势是能广泛地采用Internet和全球IP互连的环境,提供比传统业务更多、更好的服务。VolP可以在IP网络上便宜的传送语音、传真、视频、和数据等业务,如统一消息、虚拟电话、虚拟语音/传真邮箱、查号业务、Internet呼叫中心、Internet呼叫管理、电视会议、电子商务、传真存储转发和各种信息的存储转发等。VolP协议栈包括SIP、SDP、H.323、MGCP等协议。SIP、H.323、MGCP都是应用层的信令控制协议。互联网的语音通信业务中最典型的为Skype业务,它通过在全世界范围内向客户提供免费的高质量通话服务,正在逐渐改变电信业。Skype是网络即时语音沟通工具。具备IM所需的其他功能,比如视频聊天、多人语音会议、多人聊天、传送文件、文字聊天等功能。它可以免费与其他用户语音对话,也可以拨打国内国际电话,无论固定电话、手机、小灵通均可直接拨打,并且可以实现呼叫转移、短信发送等功能。由于Skype和Skype之间通话是免费的,通过Skype打到普通电话或者租用SkypelN在线号码需要费用,但其费率相对于传统电话比较便宜,所以很受广大用户欢迎,它占互联网业务流量的比例也不断上升。I.I.5P2P下载I.I.5.1P2P概述I.I⋯511P2P技术背景P2p技术,是通过在系统之问直接交换共享资源和服务的一种应用模式。在P2P网络结构中,每个节点的地位都是相同的。P2P不仅是一种技术、更是一种思想,集中体现了互联网平等、开发、自由的本质和特性。简单的说,P2P直接将人们联系起来,让人们通过互联网直接交互。P2P使得网络上的沟通变得容易、更直接共享和交互,真正地消除中间商。P2P就是人可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。P2P另一个重要特点是改变互联网现在的以大网站为中心的状态、重返”非中心化”,并把权力交还给用户。第9页 北京邮电大学博士研究生学位论文近年来,以BT,eMule等为代表的P2P应用得到了飞速发展,基于P2P的即时通信、流媒体和互联网IP电话的发展也十分迅速,P2P应用在固网中流量已经超过WEB应用,占据了固网60%’80%的流量。在目前的移动通信网中,受网络和终端的限制,移动P2P应用还没有实现。随着移动网络的不断发展和演进,P2P技术和业务将逐渐延伸至移动通信网中。1.1⋯512P2P技术特点P2P技术与传统的c/s模式比较,具有以下几个特点。非中心化:网络中的资源和服务分散在所有结点上,信息的传输和服务的实现都直接在结点之间进行,可以无需中间环节和服务器的介入,避免了可能的瓶颈。P2P的非中心化基本特点,带来了其在可扩展性、健壮性等方面的优势。可扩展性:在P2P网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资源和服务能力也在同步地扩充,始终能比较容易地满足用户的需要。理论上其可扩展性几乎可以认为是无限的。例如:在传统的通过FTP的文件下载方式中,当下载用户增加之后,下载速度会变得越来越慢,然而P2P网络正好相反,加入的用户越多,P2P网络中提供的资源就越多,下载的速度反而越快。健壮性:P2P架构天生具有耐攻击、高容错的优点。由于服务是分散在各个结点之间进行的,部分结点或网络遭到破坏对其它部分的影响很小。P2P网络一般在部分结点失效时能够自动调整整体拓扑,保持其它结点的连通性。P2P网络通常都是以自组织的方式建立起来的,并允许结点自由地加入和离开。高性价比:性能优势是P2P被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用P2P架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存储资料分布到所有结点上。利用其中闲置的计算能力或存储空间,达到高性能计算和海量存储的目的。目前,P2P在这方面的应用多在学术研究方面,一旦技术成熟,能够在工业领域推广,则可以为许多企业节省购买大型服务器的成本。隐私保护:在P2P网络中,由于信息的传输分散在各节点之间进行而无需经过某个集中环节,用户的隐私信息被窃听和泄漏的可能性大大缩小。此外,目前解决Internet隐私问题主要采用中继转发的技术方法,从而将通信的参与者隐藏在众多的网络实体之中。在传统的一些匿名通信系统中,实现这一机制依赖于某些中继服务器节点。而在P2P中,所有参与者都可以提供中继转发的功能,因而大大提高了匿名通讯的灵活性和可靠性,能够为用户提供更好的隐私保护。第10页 北京邮电大学博士研究生学位论文负载均衡:P2P网络环境下由于每个节点既是服务器又是客户机,减少了对传统c/S结构服务器计算能力、存储能力的要求,同时因为资源分布在多个节点,更好的实现了整个网络的负载均衡。1.1.5.1.3P2P组织结构目前,P2P网络有3种比较流行的组织结构被应用在不同的P2P应用中。DHT结构:分布式哈希表(DHT)是一种功能强大的工具,它的提出引起了学术界一股研究DHT的热潮。虽然DHT具有各种各样的实现方式,但是具有共同的特征,即都是一个环行拓扑结构,在这个结构里每个节点具有一个唯一的节点标识(ID),节点ID是一个128位的哈希值。每个节点都在路由表罩保存了其他前驱、后继节点的ID。如图卜l(a)所示。通过这些路由信息,可以方便地找到其他节点。这种结构多用于文件共享和作为底层结构用于流媒体传输。树形结构:P2P网络树形结构如图1-1(b)所示。在这种结构中,所有的节点都被组织在一棵树中,树根只有子节点,树叶只有父节点,其他节点既有子节点也有父节点。信息的流向沿着树枝流动。最初的树形结构多用于P2P流媒体直播。网状结构:网状结构如图1-1(c)所示,又叫无结构。顾名思义,这种结构中,所有的节点无规则地连在一起,没有稳定的关系,没有父子关系。网状结构为P2P提供了最大的容忍性、动态适应性,在流媒体直播和点播应用中取得了极大的成功。当网络变得很大时,常常会引入超级节点的概念,超级节点可以和任何一种以上结构结合起来组成新的结构,如KaZaA。图1-1P2P网络组织结构图第11页 北京邮电大学博士研究生学位论文1.1.5.2P2P下载典型应用P2P下载业务,即P2P文件共享,典型应用包括BT、eMule、迅雷等。这些下载软件,是利用P2P的方式实现下载加速和扩大用户群的目的。具体来说,就是只让一部分人去连接服务器,而其他的用户去连接这些连接服务器的用户,同时互相之间进行通讯,通过这种办法缓解服务器和带宽的压力。1.1.5.2.1迅雷概述有别于传统的P2P软件,迅雷是一款新型的基于P2SP技术的下载软件,这里的S指的是SERVER,就是在P2P的基础上增加了对SERVER的资源下载,也就是说P2SP是一种能够同时从多个服务器和多个节点进行下载的技术,因此迅雷的下载速度会比只能从服务器下载(P2S)或只能从节点下载(P2P)的软件速度要更快。迅雷的工作流程图如下:迅雷的工作流程总共分为四个过程:>启动过程启动过程是从客户端软件被用户激活之后到完成迅雷平台接入的阶段。迅雷客第12页 北京邮电大学博士研究生学位论文户端启动后会与迅雷旗下的服务器进行交互。客户端最开始接入迅雷平台所采用的主要形式是客户端首先通过DNS对迅雷的固定域名进行查询,直接从DNS得到迅雷服务器的m地址,然后通过这个地址去和迅雷平台建立最初的联系,联系中会同时使用TCP与UDP协议。迅雷每次启动时会查询域名“hub5Pn.sandai.net”,并且发现该域名对应的IP地址为:60.19.64.60和58.254.134.218和58.254.134.219。我们将这个server称为“迅雷tracker",后面简称为“tracker"。把域名为“hubsu.sandai.net”对应的服务器称为“mainserver"。实验数据证明,该服务器对应的IP地址为:58.254.134.201。迅雷启动连接到tracker服务器后,会向mainserver发一个UDP包。主要信息是客户主机的MAC地址,mainserver不会回复响应包。域名为“hubspnc.sandai.net”的server被认为是‘hubspn.sandai.net”的辅助Server,其对应的IP地址为218.59.144.47。>空闲过程在迅雷启动完毕,但没有下载任务的时候,客户端还是会和迅雷服务器有UDP报文的交流。所以单独将这一过程定义为空闲过程。这些报文是迅雷一种通知服务器端“keepalive"的消息形式,或者理解为一种定期的状态刷新。>下载过程因此将迅雷平台中专门用于存储资源和向用户发放所需资源列表的服务器称为“资源服务器”。通过实验分析,可以将迅雷的下载过程总结如下:1)用户在某一网站(服务器)点击了某文件的URL地址进行下载。2)迅雷除了与该服务器建立连接外,还会与迅雷的资源服务器建立TCP连接,并发送HTI"P资源搜索报文。由于报文是加密的,所以具体的信息无法解析,但推测一定是关于指定下载文件属性的通报。3)迅雷的资源服务器会在其数据库搜索与用户指定文件匹配的资源记录,返回资源回应报文,报文的内容也是加密的。资源服务器的域名“hub5sr.sandai.net”,还有一些别名,对应的IP有三个:58.254.39.4,58.254.39.6&254.39.8。猜测资源服务器会根据资源搜索报文的信息查找数据库,如果有这个文件的资源,则会向客户端返回这些资源,如果没有,则将报文的信息作为一新的资源添加至数据库为下个用户加速但是目前还没有找到方法证实猜测4)对于资源服务器返回的内容,发现客户端会同时发出多个DNS查询和第13页 北京邮电大学博士研究生学位论文发起多个TCP连接,而对于DNS查询来说,在收到返回时,也会向返回的地址发起连接,因此判断资源服务器返回的是一个资源列表,并可以结合.cfg文件,判断出列表的内容。5.)开始下载过程,重复2、3、4过程。从上面迅雷工作流程图可以看出:对于Peer资源,迅雷将会直接与他们建立UDP连接,并进行下载。而对于其他Server的资源,迅雷则先与其进行DNS连接,在进行TCP连接,进行下载。61数据下载完成后,客户端会使用DNS解析域名为“tag.sandai.net”的服务器。获得其IP后,与它建立TCP连接,发送“REPORlNAMEIO"和“REPORTCOMPRESSINFO”报文。>恢复下载过程当用户重新下载的时候,重复以上步骤,这里不再赘述。据统计,P2P已经彻底统治了当今的互联网,有资料显示互联网中50—90%的总流量都来自P2P程序。1.1.6一般视频类业务1.1.6.1流媒体业务简介流媒体是指在数据网络上按时间先后次序传输和播放的连续音、视频数据流,它是一种在数据网络上传递多媒体信息的技术。目前数据网络具有无连接、无确定路径、无质量保证的特点,给多媒体实时数据在数据网络上的传输带来了极大的困难,流媒体技术的主要目标就是:通过一定的技术手段实现在数据网络上有效地传递多媒体信息流。随着互联网的日趋普及和新技术的迅速发展,一大批新兴的网络多媒体应用开始涌现并成为人们工作、生活中重要的组成部分。1.1.6.2流媒体业务协议◆RTP实时传送协议(RTP)是一个网络传输协议,它是由IETF的多媒体传输工作小组1996年在RFC1889中公布的。RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。它一开始被设计为一个多播协议,但后来被用在很多单播应用中。RTP协议常用于流媒体系统(配合RTSP协议),视频会议和一键通(PushtoTalk)系统(配合H.323或第14页 北京邮电大学博士研究生学位论文SIP),使它成为IP电话产业的技术基础。RTP协议和RTP控制协议RTCP一起使用,而且它是建立在用户数据报协议上的。它作为因特网标准在RFC3550(该文档的旧版本是RFC1889)有详细说明。RFC3551(STD65,1日版本是RFC1890)详细描述了使用最小控制的音频和视频会议。RTP本身并没有提供按时发送机制或其它服务质量保证,它依赖于低层服务去实现这一过程。RTP并不保证传送或防止无序传送,也不确定底层网络的可靠性。RTP实行有序传送,RTP中的序列号允许接收方重组发送方的包序列,同时序列号也能用于决定适当的包位置,例如:在视频解码中,就不需要顺序解码。●RTSP实时流协议RTSP是由RealNetworks和Netscape共同提出的,该协议定义了一对多应用程序如何有效地通过IP网络传送多媒体数据。RTSP在体系结构上位于RTP和RTCP之上,它使用TCP或RTP完成数据传输。HTTP与RTSP相比,HTTP传送HTML,而RTP传送的是多媒体数据。HTTP请求由客户机发出,服务器作出响应;使用RTSP时,客户机和服务器都可以发出请求,即RTSP可以是双向的。实时流协议(RTSP)是应用级协议,控制实时数据的发送。RTSP提供了一个可扩展框架,使实时数据,如音频与视频的受控、点播成为可能。数据源包括现场数据与存储在剪辑中数据。该协议目的在于控制多个数据发送连接,为选择发送通道,如UDP、组播UDP与TCP,提供途径,并为选择基于RTP上发送机制提供方法。实时流协议(RTSP)建立并控制一个或几个时间同步的连续流媒体。尽管连续媒体流与控制流交叉是可能的,通常它本身并不发送连续流。换言之,RTSP充当多媒体服务器的网络远程控制。RTSP连接没有绑定到传输层连接,如TCP。在RTSP连接期间,RTSP用户可打开或关闭多个对服务器的可靠传输连接以发出RTSP请求。此外,可使用无连接传输协议,如UDP。RTSP流控制的流可能用到RTP,但RTSP操作并不依赖用于携带连续媒体的传输机制。实时流协议在语法和操作上与HTTP/1.1类似,因此HTTP的扩展机制大都可加入RTSP。I.I.6.3一般视频类业务典型应用随着宽带接入的发展、互联网技术的发展,视频已成为人们生活不可缺少的一部分。其中,普通在线视频也被用户广泛使用,最常见的视频网站有土豆网、优酷网等。它们所使用的便是普通流媒体技术,视频格式为nv,通过flash解码,因此体积小,在网络上广泛使用。第15页 北京邮电大学博士研究生学位论文随着互联网技术的发展,一般视频类业务由于某些缺点的存在也开始慢慢转型发展。优酷从最初定位于以微视频为主的视频分享模式,到将该模式修正为“带媒体属性的视频分享”,再到“互联网电视”的新定位,表明其已经意识到视频分享模式的固有缺陷,向影视点播类业务进行战略升级。一般视频类业务也慢慢向P2P技术方向发展,优酷、土豆等非P2P技术的视频分享网站曾利用第三方或自己开发的PP加速器来解决缓冲速度慢等问题并通过P2P插件分流流量以降低带宽成本,但是视频分享网站要降低带宽成本,只有利用P2P技术才能解决根本问题,所以这也成为这些以一般视频类业务为主的网站的转型方向。1.1.7P2P流媒体1.1.7.1P2P流媒体简介近年来,人们把P2P技术引入到流媒体传输中而形成了P2P流媒体技术,首先,这种技术并不需要互联网路由器和网络基础设施的支持,因此性价比高且易于部署;其次,在这种技术中,流媒体用户不只是下载媒体流,而且还把媒体流上传给其他用户,因此,这种方法可以扩大用户组的规模,而且更多的需求也带来了更多的资源。P2P流媒体系统按照其播送方式可分为直播系统和点播系统,此外近期还出现了一些既可以提供直播服务也可以提供点播服务的P2P流媒体系统。在流媒体直播服务中,用户只能按照节目列表收看当前J下在播放的节目。在直播领域,交互性较少,技术实现相对简单,因此P2P技术在直播服务中发展迅速。近期人们广泛使用的PPLive和PPStream等系统都沿用了CoolStreaming原型系统中的网状多播模式,P2P直播是最能体现P2P价值的表现,用户观看同一个节目,内容趋同,因此可以充分利用P2P的传递能力,理论上,在上/下行带宽对等的基础上,在线用户数可以无限扩展。与直播领域相对应,在P2P流媒体点播服务中,用户可以选择节目列表中的任意节目观看。在点播领域,P2P技术的发展速度相对缓慢,一方面是因为点播当中的高度交互性实现的复杂程度较高;另一方面是节目源版权因素对P2P点播技术的阻碍。目Ij{『,P2P的点播技术主要朝着适用于点播的应用层传输协议技术、底层编码技术、以及数字版权技术等方面发展。第16页 北京邮电大学博士研究生学位论文1.1.7.2P2P流媒体业务典型应用P2P流媒体包括PPLive、PPstream、QQLive等,下面就以PPstream进行描述,分析P2P流媒体的特点。PPS是目前全球最大的P2P视频服务运营商,是一套完整的基于P2P技术的流媒体大规模应用解决方案,包括流媒体编码、发布、广播、播放和超大规模用户直播,能够为宽带用户提供稳定和流畅的视频直播节目。与传统的流媒体相比,PPStream采用了P2P.Streaming技术,具有用户越多播放越稳定,支持数万人同时在线的大规模访问等特点。PPStrcam客户端可以应用于网页,桌面程序等各种环境。PPstrcam是一种软件,允许以查看流式音频视频媒体的基于BitTorrent的P2P技术。它的工作机制和BitTorrent十分类似,PPstream将视频文件分成大小相等的片段,第三方提供播放的视频源,用户启动PPstream以后,从PPstream服务器获得频道的列表,用户点击感兴趣的频道,然后从其他节点获得数据文件,使用流媒体实时传输协议和实时传输控制协议进行数据的传输和控制。将数据下载到本地主机后,开放本地端口作为视频服务器,PPstream的客户端播放器连接此端口,任何同一个局域网内的用户都可以通过连接这个地址收看到点播的节目。1.1.7.3P2P流媒体业务发展现状网络的迅猛发展和普及为P2P流媒体业务发展提供了强大市场动力,P2P流媒体技术的应用将为网络信息交流带来革命性变化。随着运营商的加入,P2P流媒体的研究势必取得更大的进展并将更加广泛地应用于商业领域,成为人们网络生活中不可缺少的一部分。1.1.8即时通讯类业务1.1.8.1即时通讯类业务简介在电子邮件的基础上出现了即时通讯业务(IM),这是一种可以让使用者在网络上建立某种私人聊天室的实时通讯服务。目前在互联网上受欢迎的即时通讯软件有QQ、MSNMessenger、飞信等,在频宽充足的前提下,大部分IM服务事实上除了文字外也提供视讯通讯的能力。自面世以来,即时通讯类业务主要是以传递消息为主,允许两人或多人使用网络即时的传递文字讯息、档案、语音与视频交流。通第17页 北京邮电大学博士研究生学位论文过近几年的迅速发展,即时通讯的功能日益丰富,逐渐集成了电子邮件、博客、音乐、电视、游戏和搜索等多种功能。即时通讯不再是一个单纯的聊天工具,它已经发展成集交流、资讯、娱乐、搜索、电子商务、办公协作和企业客户服务等为一体的综合化信息平台,是一种终端连往即时通讯网络的服务。1.1.8.1.1IM技术背景即时通信是指能够即时发送和接收互联网消息等的业务。自面世以来,特别是近几年的迅速发展,即时通信的功能日益丰富,逐渐集成了电子邮件、博客、音乐、电视、游戏和搜索等多种功能。即时通信不再是一个单纯的聊天工具,它已经发展成集交流、资讯、娱乐、搜索、电子商务、办公协作和企业客户服务等为一体的综合化信息平台。目前比较流行的即时通信软件有QQ、飞信、MSNMessenger等。IM主要被用于日常交流和保持联系。另外,它广泛地应用于办公领域,如讨论问题、协商工作日程等.目前还出现了许多面向企业需求的IM应用,它们为企业人员协同工作、进行资源管理和客户关系管理带来了便利。大多数IM软件还集成了其他诸如文件传输、语音视频交流、新闻订阅等服务。IM已不仅是同常交流的简单工具,它逐渐成为互联网信息平台的重要组成部分。IM的发展和普及同其所具备的特征有着必然的联系。IM具有实时性、在线性与文本交互性等特征,满足了人们在日常生活与办公环境中交流与协作的需要,它的优势是面谈、电话、电子邮件等其他交流方式所不具备的。I.I.8.1.2IM技术特点IM技术主要有以下几个特点:>实时性交流:IM通过一定机制使交流双方维持一种实时的交流状态。.>在线性服务:在线性服务是IM应用中一个非常重要的特征。它提供给用户查找、获取或者订阅其它IM用户在线性信息的功能。在线性信息包括两方面的信息:1)在线状态信息。描述了用户是否J下在使用IM,包括在线与离线两个状态。2)可访问状态信息。描述了当用户在线时,当前是否有能力或愿意和他人进行交流。该信息没有特定的描述,往往通过用户自定义的信息来表现,如“离开”、“忙碌”、“就餐’’等等。通过在线性服务,IM用户可以方便的查阅交流对象的当前状态,从而判断和选择适当的交流时间。这在很大程度上避免了交流中的冲突和等待,提高了交流效率。第18页 北京邮电大学博士研究生学位论文>多事务并行处理:用户在进行IM交流时,可以并行处理其他事情且不影响交流的进行。>联系人列表机制:该列表维护了联系人的信息:它还为在线性服务的实现提供了平台。>文本交互性:IM交流信息以文本形式表现。这种形式不仅直观、便于理解,而且便于存储和同后的查阅。>内容的简洁与随意性:IM消息的容量较小且表示风格也很随意。这种形式一方面体现出入们希望尽快回复消息,以维护交流的实时性:另一方面也是IM被广泛应用于聊天等非正式交流场合的重要原因。>隐密与安全性:IM为用户提供了可定制的保护个人隐秘性与安全性的策略服务,如在线信息的访问规则、黑白名单策略等。这些策略可有效地阻止恶意用户的骚扰,保证交流的顺利进行。1.1.8.2即时通讯类业务典型应用1.1.8.2.1腾讯QQ腾讯QQ是一款基于Internet的即时通信软件,可以使用QQ和好友进行交流,信息和自定义图片或相片即时发送和接收,语音视频面对面聊天,功能非常全面。此外QQ新增了一些业务,具有与手机聊天、聊天室、点对点断点续传传输文件、共享文件、qq邮箱、网络收藏夹、发送贺卡等功能。QQ不仅仅是简单的即时通信软件,它与全国移动通信公司合作,实现移动电话的短消息互联,是国内最为流行功能最强的即时通信软件。腾讯QQ支持在线聊天、即时传送视频、语音和文件等多种多样的功能。同时,QQ还可以与移动通讯终端、IP电话网、无线寻呼等多种通讯方式相连。随着业务的增加,QQ在线用户由1999年的2人到现在已经发展到上亿用户了,在线人数超过一亿。是目前使用最广泛的聊天软件之一。 ·~⋯18亨蔷——一———◆拧;j炎榆会话拓改瓣州誊唾:泌眵刊li镌芯嘻列号酥肇以图卜3QQ语音数据包头部格式(UDP)第19页 北京邮电大学博士研究生学位论文.一._——————————————————————————一14’,”{≥——————————————————————————————'Kf≯州吁善|l刈时问小确定度图1-4音频帧帧头格式QQ应用程序会有规则的发送一些探测包和控制包,相对于携带有语音信息的数据包,这些数据包的长度显得较短。UDP中,应用会每隔5秒钟发送一个探测包对。这个包对中的两个包长度均为69B,内容也完全相同,这两个包同时发送(在lOOMb的主流接入带宽中其发送间隔不超过0.1毫秒)。TCP中,情况稍有不同。应用每隔5秒钟发送一个探测包。包的长度也由于包头的长度不同变成了62B。1.1⋯822飞信2006年6月,中国移动推出了自己的即时通信工具——飞信(Fetion)。飞信业务是传统的短信业务与IT的聊天功能相结合的产物,是在手机上实现的类似于MSN、QQ等聊天软件的新业务,它融合了语音(IVR)、GPRS、短信等多种通信方式,覆盖三种不同形态(完全实时、准实时和非实时)的客户通信需求,实现互联网和移动网间的无缝通信服务。1.1.8.3即时通讯类业务发展现状即时通讯除了能加强网络之问的信息沟通外,还可以将网站信息与聊天用户直接联紧在一起。通过网站信息向聊天用户群及时群发送,可以迅速吸引聊天用户群对网站的关注,从而加强网站的访问率与回头率;它不但成为人们的沟通工具,还成为了人们利用其进行电子商务、工作、学习等交流的平台,占据了网络流量不可缺少的一部分。1.1.9网络游戏业务1.1.9.1网络游戏业务简介随着人们生活水平的提高,对娱乐性进一步增强,就开始推出了游戏业务供人们消遣。在中国网络游戏产业发展的十个年头罩,中国网络游戏企业不断开拓进取、第20页 北京邮电大学博士研究生学位论文求实创新,使得中国的网络游戏市场得以迅速发展,并成为全球数字娱乐市场最为重要的组成部分之一。网络游戏可以划分为c/s模式和P2P模式。传统的网络游戏是基于c/s模式的。这种模式在网游当中最常见。它们的共同特点是都需要有一个中央服务器来处理绝大部分的运算工作。客户端和服务段处在完全不同的角色中。每个客户端把信息都发给服务器,服务器独立的处理这些信息,然后反馈给客户端。客户端更被动,通常是发送一个请求。而服务端处在一个支配的地位,获取这个请求,进行计算,然后返回一个结果来相应这个请求。这类网络应用模型有着一个明显的缺点就是:随着服务的客户数目的增多,服务端所需要占用的资源也随之增加,显而易见最终制约了cllent的数目的增长。并且由于现在的Internet过分的依赖于DNS和网关,只要其中某个服务出了问题,网络游戏相应的其他任何服务就都无法获得。虽然有些网络游戏采用服务器群组(server-cluster)方式可以达到同时大规模人上线,但仍然会因随着玩家的增加而消耗服务器端的资源,导致资源瓶颈。且c/s模式,需要的投入大,维护管理需要的成本较高。但是好处是实现简单且是统一的结果。而用P2P技术开发网络游戏具有以下几个优势。P2P技术使用很少的资源消耗,却能提高可靠性的服务。P2P可以消除单个资源带来的瓶颈,可以控制和实现网上各节点的负荷平衡。除了优化运算性能外,P2P本身的机理就可以防止单点运算失败后带来的危害。P2P基础设施支持直接访问和共享空间,使远程维护得以实现。对于网络游戏运营商来说,由于服务器的部分功能转移到了用户的机器上,有效利用了用户的计算机及带宽资源,运营商在服务器及带宽上的投资可获得极大的节省。但是P2P网络游戏也存在一些不足之处,管理困难:目前我国的IP地址不够,大都是临时地址,用P2P技术,则不知道对面是谁,诚信和安全都有问题,这使得P2P网络管理起来非常困难。由于P2P游戏多采用速度更快的UDP进行通信,因而产生了传送不稳定的问题。1.1.9.2网络游戏的发展现状进入21世纪,网络游戏在中国得到了前所未有的发展,网络游戏市场迅猛发展带动了整个游戏出版产业。根据文献[48]的介绍:从市场规模来看,2009年中国网络游戏市场规模为258亿元人民币,同比增长39.5%。从产品数量来看,截止到2009年年底,中国市场上共有361款大型网络游戏处于丌放测试或者商业化运营阶段,与2008年同期相比增加68款。从市场结构来看,大型多人同时在线角色扮演游戏第21页 北京邮电大学博士研究生学位论文是市场的主导力量,2009年MMORPG占整体网络游戏市场的比例约为79%,市场规模达到203.8亿元,较2008年增长35.2%。高级休闲游戏的增长速度在加快,2009年高级休闲游戏占总体网络游戏市场规模的比例约为13.8%,市场规模达到35.5亿元,较2008年增长49.7%。经过过去十年的发展,中国网络游戏产业已经发展成为一个具备较大规模的产业。而且,作为文化创意产业的重要组成部分,网络游戏产业正在和电影、电视、音乐等传统文化娱乐产业不断融合,进一步扩大它对中国社会和经济发展的影响力。中国网络游戏市场已经逐渐步入成熟期,但是未来5年中国网络游戏市场规模仍然将快速增长。从以上数据可以看出,游戏市场不断发展,占据了网络流量的很大一部分。网络游戏已成为互联网行业中最被看好的产业之一,并逐渐发展成为IT产业中的支柱行业。1.1.10无线互联网互联网由“有线”向“无线”发展。中国无线互联网的雏形是手机短信。除手机短信外,中国的无线互联网形式还有彩信、IVR(无线音频)、WAP(无线网页)、无线视频、手机报等。中国已经成为全球最大的移动通信消费国,2008年中国移动通信用户已经超过6亿,手机新闻、手机博客、手机收发邮件等一系列移动互联网的新发展得到普及,然而这一切都仅仅被应用于个人,移动商务的应用需求越来越迫切,让企业通过移动互联网实现企业与用户之间的信息互动,并由此丌展深层次、全方位应用是今天企业的最大需求,无线互联网的核心应用包括:1.1.10.1宽带上网最先普及的无线互联网应用是宽带上网。宽带上网是一项很重要的功能,可以在手机上收发语音邮件、写博客、聊天、搜索、下载图铃等。3G比2G的上网速度提升了8到10倍,可以让手机随时随地登录互联网。1.1.10.2手机办公、手机执法和手机商务随着带宽的增加,手机办公越来越受到青睐。手机办公使得办公人员可以随时随地与单位的信息系统保持联系,完成办公功能。这包括移动办公、移动执法、移动商务等等。与传统的办公自动化系统相比,手机办公摆脱了传统办公自动化局限第22页 北京邮电大学博士研究生学位论文于局域网的桎梏,办公人员可以随时随地访问政府和企业的数据库,进行实时办公和处理业务,极大地提高了办公和执法的效率。1.1.10.3视频通话传统的语音通话已经是个很弱的功能了,到时候视频通话和语音信箱等新业务才是主流,传统的语音通话资费会降低,而视觉冲击力强,快速直接的视频通话会更加普及和飞速发展。1.1.10.4手机电视随着3G牌照的发放,TD和CMMB等标准的建设,手机流媒体软件会成为最多被使用的手机电视软件。随着视频影像的流畅和画面质量上不断提升,手机电视软件将真正大规模被应用。..1.1.10.5无线搜索对用户来说,这是比较实用型的移动网络服务,也能让人快速接受。随时随地用手机搜索将会变成更多手机用户一种平常的生活习惯。1.1.10.6手机音乐通过无线互联网,人们可以直接通过手机下载或者在线听音乐。在手机上安装一款手机音乐软件,通过手机网络,就可以随时随地下载音乐到手机,而其下载速度更快。在无线互联网发展成熟的同本,手机音乐已成为一项比较成熟的业务,通过手机上网下载音乐是电脑的50倍。1.1.10.7手机网游与电脑的网游相比,手机网游方便携带,随时可以玩,这种利用了零碎时问的网游是无线互联网时代的一个重要资本增长点。无线互联网的游戏平台将更加稳定和快速,兼容性更高,让用户在游戏的视觉和效果方面感觉更好。第23页 北京邮电大学博士研究生学位论文1.1.11互联网业务小结总体来说,对于以上业务,P2P流媒体、VOIP、P2P下载、WEB业务这几类业务在网络流量中占据了很大一部分。这说明网络视频已经成为现在人们生活中不可缺少的一部分。P2P下载和P2P流媒体已经成为互联网最重要的应用之一。就具体业务所占比例而言,不同的时域、不同的地域肯定有不同的特点。我们随机抽取了华南某地2009年2月1天的数据分析,分析结果表明:P2P流媒体业务与P2P下载业务深受人们所喜爱,流量稳步上升,占据了所有业务流量的53%左右。WEB业务流量基本保持稳定,同时也占据了网络业务流量的30%。VOIP业务这~新增业务逐步为人们所熟悉,用户数不断增长,流量百分比不断攀升,已接近16%,成为网络业务中又一重要元素。网络游戏类应用在高速增长后趋于稳定,即时通讯类业务应用用户规模持续增大,使用率略微下降,普通流媒体业务在流量中所占的百分比也逐步下降。1.2互联网业务发展的挑战与机遇1.2.1网络信息安全问题随着互联网向经济、社会、文化等各个领域的不断扩展,网络与信息安全问题同益成为社会各界普遍关注的热点问题,随着互联网技术和互联网业务的不断发展一些病毒、木马和网络攻击都隐藏在新兴的互联网业务下进行,这些现象不仅制约了互联网的持续健康发展,而且使得网络安全问题也R益严重,严重威胁国家利益、公共利益和社会公众的合法权益。色情、暴力等各类不良信息利用新兴业务进行传播的现象仍然存在,严重影响未成年人成长。网络和信息安全问题已经成为困扰互联网业务发展的关键问题之一。1.2.2互联网新业务给监管部门带来挑战目前互联网业界普遍对VOIP、P2P、IPTV、即时通信、搜索引擎等技术和业务十分关注。这些新技术新业务的出现对现有管理体制提出新的要求,也对监管制度和监管能力建设提出了更高的要求。比如,近些年来互联网上出现了大量对网络资源消耗严重的P2P应用,降低了网络服务质量,使运营商陷入不断投资扩容收入却无法同比增长的尴尬境地,影响了运营商对网络扩容的积极性。如何保护运营商网络建设的积极性的同时又能鼓励新技术发展,给行业监管工作带来了新的挑战。第24页 北京邮电大学博士研究生学位论文1.2.3互联网新业务给运营商运营维护带来挑战1.2.3.1宽带互联网的收费模式随着网络业务的不断增加,网络业务流量的不断增长人们可以上网的时候可以选择不同的网络业务。而每个业务所占有的带宽和网络流量是不一样的。比如你使用p2p下载业务和使用WEB业务浏览新闻所占有的网络流量的截然相反的。随着网络基础设施建设步伐的加快和网络应用的同益广泛,互联网已经成为人们实现资源共享和信息交流的最重要传播媒介,网络用户的数量也不断增多。在全世界范围内有庞大的网络用户群,而这些网络用户的兴趣爱好又千差万别,所以每个用户使用的网络业务也不尽相同。这样一来每个用户所占有的网络流量是不一样的,而现在运营商普遍采用的是统一计费,对每个人所占有的网络流量不区别对待,这样对于流量小的用户不公平。为了限制用户占据过多网络流量,可以根据每个用户所使用的流量来计费,改善运营商运营维护方式。1.2.3.2客户细分和差异化服务提供互联网新业务的快速发展还给运营商带来如下困扰:尚未进行识别用户活跃度和业务偏好、业务使用量,统计网站点击量等研究,从而为精确营销提供数据基础。尚未进行根据不同用户的不同需求进行各种组合业务的研究,从而促进公众客户使用的数据业务更趋于合理。尚未进行进行新的客户细分,从而对不同客户群提供不同业务质量等级的方案。1.2.4新业务的不断发展给运营商带来机遇1.2.4.1制定有针对性的业务随着社会信息化进程的不断加快以及政府、企业和家庭对信息基础设施以及信息技术与服务的需求急剧增长,客户对业务市场认识越深,越希望作为一个独立的个体被认识和理解,越希望运营商更好地理解和满足他们的需求,为它们提供个性化的服务。针对用户多样化的需求,运营商应该积极利用自身人才和网络资源,有效地发挥多业务经营优势,不断创新产品和业务,持续改善客户体验,满足了人们生产生活的信息所需。运营商必须坚定不移地实施新业务转型战略,进一步提高业务创第25页 北京邮电大学博士研究生学位论文新能力,开发出更多能满足消费者需求、适应市场竞争的新业务,这对运营商来说是机遇更是一种挑战。1.2.4.2制定有针对性的营销当前信息技术高速发展,客户对服务的要求日趋理性和严格,对服务的整体质量也提出了更高要求。对运营商来说,如何满足不同层次的用户需求,锻造强势的企业竞争力,已成为各个企业面临的难题。运营商在经历了业务快速发展的初期阶段以后,电信市场的增量市场同益萎缩,存量市场日益饱和,原来粗放的经营模式已开始向精细营销模式过渡,从以产品和服务为中心的运营方式转换到以客户为中心的运营方式,其核心是要能够对海量客户群体进行细分研究,了解客户消费行为特征和差异,从而提供差异化的营销。在这种趋势下,运营商只有深入分析用户消费行为,精确识别细分用户市场,针对不同层次用户进行服务营销,方能使得各方价值发挥到最大,实现共赢。同时对于已制定出的不同业务,必须对不同爱好的人们进行有针对性的营销,从而使得业务更具有商业价值,所以如何制定出有针对性的营销,对运营商来说也既是一个机遇更是一个挑战。1.3研究意义在全世界范围内有庞大的网络用户群,他们所表现出来的用户行为也不尽相同。要做好这些面向不同用户群的服务就必须要分别建立用户兴趣模型,只有建立了用户兴趣模型才能更好为用户进行个性化的服务。根据从用户获取的信息进行偏好分析有很多意义:1.3.1对于网络信息安全的意义网络与信息安全问题已成为制约互联网网络良性发展的关键因素,所以信息化对此提出了更高的要求。网络与信息的安全性已成为维护国家安全、社会稳定的焦点。网络业务服务是利用网络以及信息系统直接为用户提供服务以及业务的平台。用户通过网络业务服务浏览网站、网上购物、下载文件、看电视、发短信等,网络与信息安全直接关系到广大网络用户的利益。通过网络用户行为分析能够摘取关键性的网络行为信息,这些信息是被其他网络安全设备忽略而从不进行分析的。通过被动地监听路由器和传感器,网络行为分第26页 北京邮电大学博士研究生学位论文析避免了服务延迟或性能瓶颈。通过监视网络的通信流,网络行为分析能够检测到雇员是否使用被禁止的协议和被病毒感染的笔记本电脑和移动存储设备,并检测到这些违禁设施在防火墙后面的连接。通过把当前的行为与以前的行为相比较,网络行为分析能够发现没有使用补丁和病毒特征更新的零日攻击和蠕虫爆发。从长期使用效果来看,网络行为分析不仅支持网络纵深防御而且还能够启动容量规划和网络用户法规遵守情况的报告。1.3.2对于政府管理和舆情控制的意义在互联网建设和管理中,根据用户获取的信息可分析出用户的兴趣和爱好,例如该用户所访问网页频率最高的特征字或关键字,最受该用户欢迎站点等,据此可以分析网内用户的不同行为表现,正确引导用户行为的健康发展。正确把握舆情信息,从而为建立更好的可测、可管、可控的互联网目标打下基础。1.3.3对于运营商方面管理和运营的意义对网络运营商,根据用户行为分析制定合理的业务种类,可以充分利用网络带宽和地址资源。目前宽带业务成为电信固网运营商的主要利润增长点,宽带上网用户呈现高速增长,但是各个运营商拥有的带宽和地址资源是有限的,必须合理发展用户,充分对现有设备进行资源挖掘和利用,达到最大的投资效益比。同时,由于用户规模以及其对互联网带宽需求的飞速增长,业内应对互联网可能瘫痪提高警惕。国内目前互联网视频下载、音乐下载已经成为网民流行的行为,P2P传输以及P2P流媒体更成为网民的最爱。因此,分析已有的运营数据,挖掘宽带用户的网络行为特征,合理地规划网络,制定合理的业务种类以及进行差异化服务和管理具有重要的意义。因此,对电信企业来说,研究有效的客户细分方法并建立科学先进的客户细分模型来实现客户细分,深入理解客户的实际需求,指导企业进行有针对性的产品或服务设计,提高客户满意度,建立以客户为中心的营销战略,为持有不同需求的客户提供与众不同的服务,具有重大的意义。现在本文所做的研究就是将网络业务划分为十类,然后得到每类业务网络用户流量百分比,再进行聚类。聚类的目的是进行用户细分群组,运营商现有的营销套餐体系的特点是粗细结合,有层次的营销体系,所以分类结果是要与现有运营商现有的营销套餐体系契合度越高越好,从而为市场营销和商业套餐定制提供数据依据。第27页 北京邮电大学博士研究生学位论文1.4本文创新点本文主要以研究基于业务和时间变化的网络用户行为作为基本内容。根据实际骨干网流量数据来得到分析结果来进行网络用户使用业务的偏好模式、网络用户使用业务的偏好模式随时间变化的规律以及对用户上下线行为进行建模研究。为运营商进行根据客户特征进行产品推介的定向营销、根据用户特征进行相关套餐的制定、进行有价值客户区分以及服务器负载均衡等提供有价值的研究结果。现有的网络业务偏好研究主要以网页、网站为研究对象为主,而从宏观上对一个地区、一个省的网络用户业务使用偏好研究还比较少,而且大部分研究对象也不是我国的网络用户,针对性较差。本文的主要研究内容和创新点包括:1)本文根据真实网络省级骨干网的数据特点和研究目的选定了层次聚类的算法。但是在应用中发现由于数据量比较大,经典层次聚类算法及其常用的改进算法的时间复杂度太高。鉴于此,本文根据实际数据呈现出的格式归一化、混淆度低等特点,从根据样本熵值进行初步分群组和一次合并多个单点簇两个方向进行改进。提出了一种新的快速层次聚类算法。算法对比实验结果表明,改进算法与经典层次聚类算法相比,时间执行效率提高了7—8倍左右。即使是与基于最小生成树的改进层次聚类算法相比,算法的时间执行效率也提高了3倍左右。2)本文对用户业务偏好变化随时间变化的规律进行研究,依据常识:用户业务偏好变化率应该随着时间尺度的增大而降低,因为时间尺度的增大可以平滑用户业务偏好的突变。但是本文发现以上常识只在一定条件下成立:即对用户业务变化衡量的变量(本文称之为业务偏好变点阈值)大于某一特定值的时候,上述常识才成立。而当业务偏好变点阈值取值不大于特定值时,用户业务偏好变化率表现出完全不同的规律:在业务偏好变点阈值取值逐渐变小的条件下,用户业务偏好变化率随时间尺度的增大而逐渐变大。本文通过定义一系列的分析指标,对这个现象的原因和本质进行了解释和分析。3)本文首次利用非齐次泊松过程对网络用户上下线行为进行建模分析。本文通过对实际数据使用假设检验的方法来证实了用户上下线确实符合非齐次泊松过程。接着利用非齐次泊松过程对用户上下线行为进行了建模,并在相关假设的条件下理论推导出了用户上下线概率的计算公式。最后对用户上下线概率的公式进行了理论验证和数据验证。验证结果皆印证了结论的合理性。此外本文还给出了不同用户组的用户上下线登录概率分布图。为将来进一步的研究打下了坚实的基础。第28页 北京邮电大学博士研究生学位论文1.5本文结构安排本文的文章结构安排如下第一章绪论。本章主要介绍了互联网发展的现状,特别针对在互联网上非常典型的十种业务:WEB业务、P2P下载业务、P2P流媒体业务、一般视频类业务、即时通讯类业务、电子邮件业务、FTP业务、网络游戏业务、语音类业务、移动互联网业务。分别介绍了这些业务的发展历史,主要应用协议、主要典型应用以及现在这些业务在互联网中的地位。接着,本章指出了互联网业务发展面临的问题和进行基于用户与时间变化的网络用户行为分析的研究意义。最后,阐述了本篇论文的创新点和论文结构。第二章相关研究。本章主要介绍了网络用户行为分析的研究现状。本章首先分析了网络用户行为分析的概念和特点并对现在广泛研究的网络用户行为进行了分类。然后对网络用户行为特征的表示和选择的研究现状进行了介绍。最后,重点对主流的网络用户行为分析方法:聚类分析、关联规则、决策树、神经网络以及时序数据挖掘等方法进行了介绍和点评。第三章基于快速层次聚类算法的用户业务使用偏好分组。本章首先介绍了对根据用户使用业务偏好模式对用户分组的研究意义和研究背景进行了介绍,然后介绍了本章分析的数据的来源。其次介绍在众多数据挖掘算法中选择层次聚类算法的原因并指出了经典层次聚类算法的缺陷。针对所发现的时间复杂度的缺陷,本文提出了自己的改进层次聚类算法,并给出了时问复杂度的对比结果。最后利用改进的层次聚类算法,对一日以及多同的数据进行运算,得到了相关的用户使用业务偏好模式,并特别对一个月中这些模式被用户使用的频度以及模式与在线时长和网络流量的关系进行了相关的分析。第四章用户业务使用偏好随时间变化规律研究。本章首先介绍了用户业务使用偏好随时间变化规律研究的研究意义和研究背景,然后对本章所分析的数据来源进行了介绍。接着,本章首先对用户业务偏好变化随时间尺度变化的规律进行研究,通过定义一系列的分析指标,通过对实际数据的处理,揭示了用户业务偏好变化率随时间尺度、业务偏好变点阈值变化而变化关系。并对变化关系中的特点进行了解释和分析。其次对用户在一个月的时间序列中,出现的最多的几种用户业务偏好模式变化序列进行了总结和展示。第五章本章对利用非齐次泊松过程对网络用户上下线进行了建模分析。本章首先介绍了对网络用户上下线进行建模分析的意义和相关的研究背景,然后对非齐次第29页 北京邮电大学博士研究生学位论文泊松过程进行了介绍,特别强调了齐次泊松过程与非齐次泊松过程的异同。本文通过对实际数据使用假设检验的方法来证实了用户上下线确实符合非齐次泊松过程。接着利用非齐次泊松过程对用户上下线行为进行了建模,并在相关假设的条件下理论推导出了用户上下线概率的计算公式。最后对用户上下线概率的公式进行了理论验证和数据验证。并给出了不同用户组的用户上下线登录概率分布图。为将来进一步的研究打下了坚实的基础。第30页 北京邮电大学博士研究生学位论文第二章网络用户行为研究背景现状2.1网络用户行为的概念与分类网络用户行为的研究与心理学、社会学、社会心理学、人类学以及一切与网络行为的学科密切相关,它研究网络用户行为的规律性,借以控制并预测网络用户行为,并为实现政治的、经济的和文化的目的服务。具体讲,网络用户行为研究就是分析网络用户的构成、特点及其行为活动上所表现出来的规律口1。2.1.1网络用户行为的概念和特点●网络用户概念网络用户行为到现在为止还没有一个权威和获得大家认可的定义,只是一些文章和资料提出了一些有意义的参考意见:首先需要对网络用户进行定义:现阶段查阅的文献中对网络用户做出明确定义的只有CNNIC。CNNIC对网络用户(网民)的定义是:平均每周使用互联网至少ld,时的中国公民111。其他文献一般都只是笼统认为是使用网络的人或者根本不提及这个概念。这个概念是比较重要的,因为如果对网络用户的定义不清楚的话,对网络用户行为的定义也必然混淆不清。网络用户的定义是与具体问题的分析规模决定的。本文给出的定义是:在分析需要考察的时间段内,网络活跃度大于一定阈值的网络使用人,这里的网络活跃度是指上线次数、在线时长、在线流量和其他根据实际需要设定的变量。这里需要注意的有两点,首先希望网络用户的主体是人而不是其他的一些程序或者别的什么,当然这个主题判断在实际操作中未必可以精准做到,单是作为一个概念,还是这样定义为好。其次,希望不仅仅是由在线时长作为衡量是否使用网络的标准,其实在不同应用场景下是关注是否使用网络的侧重点可能是不同的,所以可以使用网络活跃度来概括这个概念,从而灵活适应各种用户行为应用场景。有了网络用户的定义,网络用户行为的定义也就可以水到渠成:对于网络用户行为的定义很多研究者都提出自己的见解,比如:文献[2]认为:网络用户行为就是网络用户的特点、构成及其在网络应用过程中行为活动上所表现出来的规律。与现实社会中人们的社会行为相对应,把发生在虚第31页 北京邮电大学博士研究生学位论文拟社会中的行为称为“网络行为"。文献[3]网络用户行为定义为:行为主体为实现某种特定的目标,采用基于计算机系统的电子网络作为手段和方法而进行的有意识的活动。它具有社会行为的一般特征和基本要素。从这些定义可以看出,对网络用户行为的定义是一件比较困难的事情,很难有一个定论。但是也有一些共性的东西:1.承认网络用户行为与社会行为的密切关系。2.网络使用是网络用户行为的必要条件。但是也有一些争论:1.是否要求具有规律性。2.是否是有意识的活动。3.行为主体是否是人。◆网络用户行为特点由于网络行为存在虚拟的空间中。所以这种在网络中形成的信息交流空间又具有不同于物理空间的特殊性,网络用户行为有其自身的特点【4】:(1)知识含量高,升级快:网络行为的主体.用户,必然有已定的计算机只是和网络技术,具备利用电子网络的能力。(2)隐蔽性强:这种隐蔽性一方面是指行为主体身份的隐匿,即任何人都可以通过1台联网的计算机调阅网路中传播的信息,所以网络中存在大量的匿名行为。另一方面,网络行为本身也具有隐蔽的特征。互联网还是那个信息以数字化的形式存在,操作者在数据传输过程中改变信息的内容和形式而不留下明显痕迹。(3)主动性强:网络行为完全突破了地域的限制,可以充分体现行为者的个性和主观意志。除了以上这些特点之外,网络用户行为还有如下特点:(1)包含内容丰富:无论是在上网使用何种业务、在线时长、登录次数以及使用业务的时长等等只要是在网络上的行为产生的结果、现象都可以作为网络用户行为分析的内容。(2)特点鲜明:根据网络用户行为分析的经验,同一个网络用户行为研究对象往往在不同的地域、不同的时域上表现出各自鲜明的特点出来。(3)行为模式不是一成不变的:根据网络用户行为分析的经验,同一个网络用户行为研究对象即使在相同的地域、相同的时域区段内考察,随着时间的变化,特点的变化也是比较快的,所以网络用户行为分析的结果往往具有时效性短的特点。第32页 北京邮电大学博士研究生学位论文(4)随机性与规律性并存:网络用户行为对一个一个的个体用户而言具有何种特点式具有很大的随机性的,而对于整体来看用户行为又呈现出一定的规律性。2.1.2网络用户行为的分类网络用户行为分析就是研究网络用户行为的学科,它属于网络知识发现的范畴。研究网络用户行为,首先面临的是对网络用户及其行为进行系统的研究和分类。关于网络用户行为,一直没有比较统一规范的界定和分类。实际上,就研究问题的不同,网络用户行为的分类方式也各异。从自身需求和应用的角度,可以进行网络用户行为的多种分类,接着在此分类基础上进行了网络用户的界定。就常见的几种具体应用引出了相应的分类方式,并且具有一定的普遍意义。网络用户行为根据不同的应用场景和不同的研究角度可以分成不同的类别:·根据不同的对象数目分类文献[5]中将网络用户行为可分为网络个体用户行为和网络群体用户行为:从行为学的角度,个体网络行为是单个个体在网络上所表现出来的行为,是由个体的个性决定的。每个个体都有自己的个性,个性是个体在一定的社会环境和教育模式下所形成的稳定的个人品格,个体在心理、行为、体质、性格、特长、兴趣和价值观等方面各不相同。这些差异造成了个性的差异和需求的多元化,也决定了个性具有一定的稳定性。不同的个体有不同的兴趣和爱好,也具有不同的信息需求。短期的个体行为可能并不具有明显的规律,但长期的个体网络行为则具有一定的稳定性,可以发现其行为模式。另一方面,个性也会随着环境发生变化,个体网络行为也会随之变迁。同样,多个体所组成的某个用户群体也有其群体行为模式。●从应用层面上的宏观分类。《中国城市居民互联网应用研究报告》中,把网络用户行为分为基础网络行为和扩展网络行为,进而再细分成五大类,即信息获取类、沟通交流类、休闲娱乐类、电子服务类、电子商务类。依照上述行为分类,对网络用户群体进行细分得出lO类网络用户人群(卜纯信息网络用户:2一纯沟通网络用户:3一基本网络用户:4一纯娱乐网络用户:5一典型娱乐网络用户:6一信息娱乐网络用户:7一泛娱乐网络用户:8一网络工作网络用户:9一次全能网络用户:10-全能网络用户)。分析五大类网络行为的特征和网络用户的使用情况,又可以把信息获取和交流沟通类网络行为合并成为基础网络服务,把休闲娱乐、电子服务、电子商务三大类服务合并成为扩展网络服务。●从应用场景分类第33页 北京邮电大学博士研究生学位论文网络用户行为分析的应用场景有很多,一般来讲主要有以下几个场景:>网络安全和入侵检测:在网络安全方面可以区分为正常行为和异常行为(并不一定是入侵行为)、善意行为和恶意行为,很多入侵检测和异常检测的文献都讨论了这个问题,比如文献[6]通过分析僵尸网络工作过程中各阶段表现出的异常行为特征,提出了基于异常行为监控的僵尸网络发现技术。文献[7]给出了把异常数据流从网络数据流中按区间分离出来的方法,基于分离出来的每个时间序列异常数据流集,给出了网络异常行为突变模型设计、参数估计和检验等方法。为了推断未来网络异常行为出现情况,给出模型外推方法。根据外推得到的突变模型,可以方便地计算有关网络异常行为的各种参数和评估指标。>各种网站的设计、管理和运营以往看重网站点击率和流量的时代己经远去,现在越来越多的网站希望能真正了解网站用户的行为。用户访问行为模式在网站的设计和管理中是很有用的,主要包括:提供各种统计报表,完成日常维护工作;改进Web站点内容和结构上的设计,来改善网站性能;导航用户浏览行为;优化缓存配置和预取机制的相关参数;分析趋势,了解Web正在发生的变化;均衡服务器负载;定制自适应Web站点:支持商业智能和市场决策;测试用户接口;监控系统安全等埔’。为了研究商业Web网站或电子商务站点的客户行为,一般通过客户访问过的内容和没有访问过的内容、浏览路径、频繁访问页面、相关页面来分析客户群体的构成及其动态改变等特点,从顾客行为上的不同表现来发现顾客的兴趣和偏好,辨别重要客户和偶然客户,以促进网站建设和进行个性化服务来完成其商业目标,使客户(因为将客户感兴趣的货物放在一起)和销售商(因为有更大规模的销售)同时受益。更重要的是,在Web个性化应用中,可以辨认出每个用户或用户群的需求和爱好,配置基于用户需求的Web信息的内容和结构的组织。例如网上推荐系统和广告设置旧1。>在运营商方面的管理和运营对网络运营商,根据用户行为分析制定合理的业务种类,可以充分利用网络带宽和地址资源。目前宽带业务成为电信固网运营商的主要利润增长点,宽带上网用户呈现高速增长,但是各个运营商拥有的带宽和地址资源是有限的,必须合理发展用户,充分对现有设备进行资源挖掘和利用,达到最大的投资效益比。同时,由于用户规模以及其对互联网带宽需求的飞速增长,业内应对互联网可能瘫痪提高警惕。国内目fj{『互联网视频下载、音乐下载已经成为网民流行的行为,P2P传输以及P2P流媒体更成为网民的最爱。因此,分析已有的运营数据,挖掘宽带用户的网络行为第34页 北京邮电大学博士研究生学位论文特征,合理地规划网络,制定合理的业务种类以及进行差异化服务和管理具有重要的意义【lo】。>从政府管理和舆情控制在互联网建设和管理中,根据用户获取的信息可分析出用户的兴趣和爱好,例如该用户所访问网页频率最高的特征字或关键字,最受该用户欢迎站点等,据此可以分析网内用户的不同行为表现,正确引导用户行为的健康发展。正确把握舆情信息,从而为建立更好的可测、可管、可控的互联网目标打下基础⋯1。从网络用户行为的文献可以看出,大体这三类的分类中,尤以第三类为研究者所普遍采用的为多。尤其是以各种网站的设计、管理和运营和异常行为监测为研究的主流,而且发展的也是很快,尤其是根据用户对网站和网页的访问来进行网络用户行为分析,几乎占据了笔者阅读的文献的50%左右,这些文章使用的方法以及对用户网络行为特征的表示选取都有很多创新的地方(下文中会提到),而异常行为监测是对网络用户行为研究时间最长的一个领域。从这个现象来看,网站人性化差异化的需求是当今用户行为分析的主要需求来源,而针对运营商的用户行为分析的文献以一些行业报告为主,论文也有,单是并不多见,研究重点也往往放在用户细分这一个方面,创新之处也远不及其他,这恰恰说明针对运营商的数据的网络用户行为分析大有可为之处。2.2网络用户行为特征的选择和表示网络用户行为千差万别,对网络用户行为的表示也就自然不会有一定之规。网络用户行为的表示其实就是一个特征选取的过程。选择何种特征表示网络用户行为,这个是与应用场景紧密联系的。文献[14]系统研究Internet的用户行为特征的基础上,从监测和分析的角度,根据事务、子事务的特点以及用户兴趣度等概念定义给出了因特网用户行为的一种分类方式及表示方式。总的来讲,国内的研究主要集中在理论探讨或从webl艮务的角度来进行用户行为分析。相比国内的研究,国外研究更注重实际应用,也比较系统和深入。很多国外研究从用户实际调查的角度,定性地给出了宽带用户的行为特征,比如文献[9]进行的调查显示随着宽带进入家庭后,宽带用户的行为变化。同时,很多学者对电子商务应用、近来颇受关注的p2p应用、宽带视频应用等由于宽带而兴起的新应用的用户访问特征进行了深入的研究,比如文献[18]-[19]都是这方面的文献。真正系统研究用户第35页 北京邮电大学博士研究生学位论文行为特征的非常少,比如文献[15]从运营商的角度,把宽带用户划分成两类,家庭和办公两类,分别分析两类用户的会话级以及访问级的行为特征,给出了两类CMBG(用户的行为模式图)。《c)Ch%3图2-1用户行为模式图文献f511分析了同趋增加的流量是由家庭宽带用户为主生成的。大约700//0的家庭宽带用户的流量相对稳定,并随着日常生活有规律的变化,而这种流量的高峰发生在晚上,学校机构和商业用户反映出不同流量模式。最后,流量的大小和人口规模是成正比的关系。文献[52]对特定的网络场景和受限的网络环境,以Youtube为例,分析了在线社交网络类的用户行为分析问题。在Youtube类的中,每个用户通过上传食品和订阅食品等操作与其他用户发生关系。这篇文章通过程序获取Youtube用户的基本信息,针对每个用户提取了9个使用行为特征描述用户行为,并使用聚类算法对上述用户行为数据进行聚类,得到4种最为主流的用户行为分类,并对分类结果进行了详细的解释。现在比较前沿的特征选择还有文献[20]提出的通过客户端或者网页中的代码收集用户行为:浏览的内容、上网时间、使用软件情况、使用习惯、电脑配置,包括用户使用鼠标等一切能获取用户信息的行为。百度和GOOGLE可以统计和分析用户的鼠标行为特点:获得用户的鼠标点击热区以及鼠标在页面上滑动的轨迹。但是由于网络用户行为得处理一般需要借助于数学工具和方法,除了像文献[15]这种采用图的方式来表示网络用户行为的方式以外,一般网络用户行为的表示通常采用向量的表示方式。考虑具有n个属性的某种行为,可表示为:<属性l,属性2,⋯,属性n>,其中11个属性分别为该行为的n个采样点。下面举文献中的几个例子文献[22]将电子购物中客户的物品消费行为表示为:第36页 北京邮电大学博士研究生学位论文<时间,用户ID,购买物品名称,购买物品种类、金额>文献[21]将网络入侵检测中异常行为分别表示为:<编号,类别,核心属性,模式描述,攻击类型,产生时间,使用频度,是否发布>文献[22]将用户的浏览行为可表示为:<用户ID,用户IP,{请求的URL,浏览时间}n、,其中眦1,表示请求不同URL的数目。网络用户行为的表示和处理是进行网络用户行为分析的先决条件,根据阅读的文献来看:网络用户行为特征的选择是根据具体应用场景来选择的,但是在具体如何定义的问题上是很有技巧的,比如同样是定义一个相似度根据具体情况可以根据向量的距离来衡量,也可以根据相关系数来衡量,即使是根据距离也分欧氏距离、马氏距离等等,特征的选择是在网络用户行为分析中很重要的部分,它的选择直接关系到最后分析结果的成败。另外特征的选择也不是越多越好,很多特征这件其实是有相关关系的,所以应该尽量在特征的选择上提出这些关系。此外,可能还需要考虑计算上的可行性和便利性以与数据分析手段的协调性。网络用户行为的表示大多数的文章都是使用向量的方式来进行,这主要是由于数据处理算法的输入大多是向量的特性决定的,但是也有不少是很有新意的做法,比如除了文献[15]用了状态转换图的表示手法,文献[18]提到的使用鼠标热度图也是很有新意的一个做法爹鎏黧警兰。。⋯⋯⋯⋯⋯一⋯⋯⋯~—蔓l*‰*一⋯⋯一⋯⋯^8*⋯F⋯⋯⋯⋯一*w⋯⋯t*“。№&·_“⋯m⋯⋯⋯⋯“h^“"%v础图2-2鼠标热度图第37页圈翻”釜一一搬。一基乏一一一揪一一一一一一一:一m。缓一燃配墼擞~一一一缀一般艺嬲勉.器~暖函 北京邮电大学博士研究生学位论文2.3网络用户行为分析的方法网络用户行为分析过程实际上是一个从海量数据获得有价值的信息的数据挖掘过程,因此用户行为分析可以参考数据挖掘和分析学科中的一些方法。2.3.1聚类分析聚类分析是用户行为分析中非常常用的一个方法,很多用户行为分析都将聚类作为一个主要的分析手段,这是与聚类具有的特点以及网络用户行为分析自身的特点分不开的。文献【231给出了聚类的定义:聚类是将数据划分成群组的过程。通过确定数据之间在预先制定的属性上的相似性来完成聚类任务,这样最相似的数据就聚集成簇。聚类与分类的不同点:聚类的类别取决于数据本身;而分类的类别是由数据分析人员预先定义好的。聚类算法的分类:一般可分为基于层次的,基于划分的,基于密度的,基于网格的和基于模型的五种。文献[24]针对于电信客户海量数据及数据高维度的特点,采用K-means算法根据设计好的客户行为变量对其进行细分。在应用方面,结合四川省某市移动公司的样本数据,对模型进行验证,并对细分结果进行分析和对比,以此为基础对不同客户群制定有效的营销策略。文献[25]结合Web用户浏览行为的特点,提出了一种新的路径相似度的计算方法,在计算相似度时不仅把用户的浏览模式仅作为一种序列模式来考虑,还充分考虑了用户在网上浏览的时间因素。还把粗糙度的概念引入聚类算法中。使用这种新算法对Web用户浏览行为进行聚类。文献[26]将群体智能与聚类算法结合用户网络浏览行为聚类。基于群体智能的聚类算法具有比传统聚类算法更良好的聚类效果。蚁群聚类算法作为一种新型的优化方法,具有很强的鲁棒性和适应性,在求解复杂优化问题上有和好的效果,此文献就把蚁群聚类算法应用在了用户网络浏览行为的聚类上。文献[27]和文献[28]也是使用新创或者与其他方法结合的聚类算法应用于用户行为分析。文献0中,Danieletal提出了一种寻求最佳聚类数目的方法,来通过聚类研究电子商务服务器中的多种行为模型的输入参数。文献0中提出一种基于网络主机通信模式对主机行为进行区分的方法。2.3.2关联分析关联分析的目的是找出数据库中隐藏的关联关系。关联规则挖掘发现大量数据第38页 北京邮电大学博士研究生学位论文之间的相关联系。在用户行为分析中,可以把用户的一种使用习惯和另外的使用习惯进行关联分析,也可以把用户的消费习惯和使用网络习惯进行关联分析,或者把用户的自然属性如年龄、性别、职业与使用网络习惯进行关联分析。关联规则最经典的算法就是Apriori算法。文献[29]对关联规则的经典算法Apriori进行分析,并指出它的一些缺陷以及存在的问题,在此基础上,提出一种用于web挖掘的分类关联规则挖掘算法。文献[30]针对系统需要解决的提取用户访问模式信息中的多维多值关联规则的问题,对传统的关联规则挖掘方法进行了扩充和改进。改进后的方法能够结合系统设计的属性参数及概念划分要求,提取有价值的关联规则,有效反映用户的访问行为模式。文献[31]在Apriori算法的基础上针对上述情况提出了一种提出了基于特定模式树的用户行为关联规则挖掘算法,通过递归挖掘模式树获得最大频繁集。文献0对用户行为进行关联分析,提出了一种层次化描述用户行为的模型,在访问请求、功能、会话和用户四个层面进行了分析建模。2.3.3决策树决策树学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同属性判断从该结点向下的分支,在决策树的叶结点得到结论。所以从根到叶结点就对应着一条规则,整棵树就对应着一组表达式规则。基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树。现在常用的决策树算法有ID3、C4.5等。文献[32]对分类预测中广泛使用的ID3决策树算法进行了分析,指出了该算法的取值偏向性以及运算效率不高等缺点,在此基础上提出了一种改进的ID3算法并将其应用于某移动通信公司的客户流失预测。文献[33]引入代价敏感学习理论,该理论将不同的错分代价纳入建模过程,以建立一个基于代价敏感的决策树的电信客户离网分析模型。该方法有效地提高了模型对流失客户的预测性能。文献[34]阐明了决策树算法是电信行业提高客户的忠诚度,防止客户流失发生的重要手段,介绍了决策树算法应用于电信行业客户流失分析中的方法、步骤及具体实现过程。2.3.4神经网络人工神经网络是一种进行分布式并行信息处理的算法数学模型。人工神经网络具有自学习和自适应的能力,可以通过预先提供的一批相互对应的输入一第39页 北京邮电大学博士研究生学位论文输出数据,分析掌握两者之间潜在的规律,最终根据这些规律,用新的输入数据来推算输出结果。人工神经网络中处理单元的类型分为三类:输入单元、输出单元和隐单元。输入单元接受外部世界的信号与数据;输出单元实现系统处理结果的输出;隐单元是处在输入和输出单元之间,不能由系统外部观察的单元。神经元间的连接权值反映了单元间的连接强度。文献[35]使用的是基于SMO(自组织特征映射神经网络)的粗糙集方法对使用加拿大圣玛丽大学的一个教学网站的访问情况进行分析,文献[36]根据Kohonen自组织特征映射神经网络中学习阶段的性质,运用双Kohonen神经网络组合成新的自组织训练挖掘模型,改善了聚类效果,为Web用户访问模式挖掘提供了一种可行的方法。文献[37]研究将手工定制和系统自动建模相结合的自适应神经网络建模方法,根据用户浏览网页的信息提取表示网页特征的关键词及权重,转换成代表用户兴趣特征的概念特征关键词,从而动态调整神经网络的参数,修正用户模型,使神经网络的输出能随用户的兴趣而改变。该模型能有效表示用户的长期兴趣,并随用户短期兴趣的改变调整神经网络模型。文献【38】为解决现有用户兴趣建模方法在处理用户兴趣多样性及动态性方面存在的问题,提出一种利用动态自组织映射神经网络来建立用户兴趣模型的方法。用户感兴趣的信息被聚成不同的信息类。用户兴趣的变化通过神经元权重的调整、新神经元的增加和无效神经元的删除来刻画,分别对应用户兴趣基本不变、用户出现全新兴趣和用户原有兴趣消亡的情况。从而及时地跟踪用户多种兴趣及其变化,保证了用户模型的可靠性。2.3.5时序数据挖掘常规的数据挖掘技术被广泛应用于各种类型的数据中.但是对于加入时间特性的数据——时序数据而言.用常规的方法进行挖掘和知识发现存在新的困难。时序数据是指有时间顺序的数据记录的集合,对于非时序的数据而言。一个静态的数据库是记录的集合,记录的顺序并不是特别重要的,至少从数据挖掘的而来说是如此而时序数据的记录通常是和一个递增的时间联系在一起的。在时序数据库中,一个记录中某个属性相对于其他记录的此项属性是互相独立的。在时间序列数据库中,某个属性仅仅被看作时间段的一个点的时候才有意义。从方法上来讲时间数据挖掘最长使用的方法就是时问序列分析。时间序列分析方法可分为描述性时间序列分析和统计时间序列分析。描述性时问序列分析是指通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律。这种分析方法具有操作简单、直观有效的特点,它通常是人们进行统计时间序列分析的第一步。统计时间序列第40页 北京邮电大学博士研究生学位论文分析又分为频域分析法和时域分析法H副。频域分析方法基本原理是:假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动发展过程。早期的频域分析方法借助傅里叶分析从频率的角度揭示时间序列的规律:后来借助了傅罩叶变换,用正弦、余弦项之和来逼近某个函数:20世纪60年代,引入最大熵谱估计理论,进入现代谱分析阶段。频域分析方法是一种实用的动态数据分析方法,但是由于分析方法复杂,结果抽象,有一定的使用局限性。时域分析方法其原理是:事件的发展通常都具有一定的惯性,即序列值之间存在着一定的相关关系。目的是寻找出序列值之问相关关系的统计规律,并拟合出适当的数学模型来描述这种规律,进而利用这个拟合模型预测序列未来的走势。时域分析方法的特点是:理论基础扎实,操作步骤规范,分析结果易于解释。时序数据挖掘在网络用户行为的分析上主要体现在两个方面:1.用户上下线的时序分析文献[39]采用从一个美国国家的拨号上网服务提供商RADIUS服务器上采集的从2000年5月通过2000年9月总共60多万不同的用户登录信息的数据。针对这5个月的用户登录的数据。文献首先以1分钟为间隔对节日、周末、和普通一天的登录次数变化的异同进行了描述。然后又对用户不同日期一天的在线时长的分布进行了分析,然后对用户的地理分布以及不同地区平均登录时间进行了分析,此外还对用户数目的变化做出了估计模型。文献[40]与文献[39]的作者单位和数据来源基本一样,某些研究内容也雷同,不同之处在于以5分钟为间隔对几个月的登录次数变化的异同进行了描述,以及对几个月的在线时长分布分别作了对比分析,还研究了单个用户的登录间隔时间分布。总的来讲文献[40]更加注重从用户个体的角度来进行数据分析。2.用户使用业务以及内容偏好的时序研究这方面的文献一般的研究内一般以一个网站得用户对网站页面的点击序列作为研究的特征,从而进行分析网络用户的偏好。文献[411的数据来源是大样本的无线应用协议(WAP)的用户数据,用户在一天的不同时间浏览行为有不同的偏好和行为。此文献对数据进行了分析以确定用户浏览模式是否取决于时间。文章审查了每小时流量并研究了用户访问不同特定类别的网页的时间。还建立马尔可夫模型,这来预测用户行为,并说明这些预测模在准确率方面超过传统的方法。文献【42】对基于数据挖掘的Web行为特征分析与研究系统做了阐述,系统旨在通过数据挖掘技术,从用户与Web服务器的交互数据中发现隐含的用户访问的规律,得到用户的访问模式和用户的兴趣,为用户的个性化服务提供基础。文献0通过使用晟大熵第41页 北京邮电大学博士研究生学位论文和马尔可夫模型,建立了概率行为模型。研究针对网站的访问用户和访问情况进行了采集和统计分析,将用户行为看做一个动作的序列,并使用最大熵和马尔可夫混合模型描述用户动作序列之间的概率关系,建立了逐用户的网站访问特征数据,并分别进行了针对性的分类分析,验证了上述方法在识别和解释用户Web访问行为方面的有效性。文献0通过对F1限服务器用户访问log的分析,提出了一种通过离散马尔可夫模型的方法描述用户行为的概率模型。从以上这些方法可以知道,用户行为分析的方法是多种多样的,方法的选择一方面是和具体的应用场景来相关联的,几乎所有的数据挖掘算法都可以在网络用户行为分析中找到相应的应用场景。另外一个方面也许实际的算法运行环境和要求相关,比如要求实时出结果或者硬件资源限制比较多的时候,算法的选择余地可能就比较少了,甚至需要自己进行算法的设计和实现。总的来说,算法的选择应尤其注意以下几点:1.算法的时间复杂度和空间复杂度2.算法的结果是以清晰结果给出还是以概率方式给出3.算法对噪声是否敏感4.算法的输入参数是否能够提供,特别是一些需要输入类别个数的参数,有时是不可得的。5.如果是有监督的分类,数据集合的类别分布是否均衡。网络用户行为分析的方法根据目的性可分为两大类:一类是需要在数据集中区分出来到底有哪些已知的行为或者用户,这一类需求往往会提供一些已知的行为或者用户的纯净数据,然后根据这些纯净的数据来推测出相应的特征,再根据特征来选择合适的算法。另外一类是提供给研究者数据集,要求研究者从数据集中自己找规律,也就是说研究者对是否有规律和大概有哪些规律的先验知识基本为零。这时候就需要选择一些无监督的数据挖掘算法,根据已有的特征进行聚合,从而找到数据集中蕴含的规律和特征。第二类问题面对的处理难度可能更大一些,因为方法的可选择余地比较少,对目标的评价结果可能也没有一个统一的定论,结果具有一定的不可测性。第42页 北京邮电大学博士研究生学位论文第三章基于快速层次聚类算法的用户业务使用偏好分组3.1研究意义及背景随着互联网的迅猛发展,以信息获取、交流沟通类为主的基础网络服务正逐渐发展为以休闲娱乐、电子服务、电子商务三大类服务为主的扩展网络服务。用户对服务质量要求越来越高,网络服务提供商对用户的认识也逐渐从盲目走向科学,需要定性地分析用户的群体构成和各个群体的区别和标示。尤其是在3G蓬勃发展的今天,无论是固网运营还是移动业务运营,都对用户的争夺达到了白热化的程度,而用户行为分析结果成为运营商制定有针对性的用户服务策略、制定何种有针对性的资费套餐、制定业务流量控制策略等等商业策略方面的重要依据。而对于政府和科研院所来讲,真实可靠的网络用户行为分析结果和有效的网络用户行为分析模型都是建立和研究科学的决策支持系统和舆情分析系统的必要基础。网络行为可以用某些特征量的统计特征或特征量的关联关系定量或定性的表示。网络行为可以在应用层、传输层及网络层有不同的表现。网络的用户行为表现出用户的工作性质、爱好和兴趣等信息,多个用户对网络的使用也存在许多共性,它表现了网络上的一种群体行为。由于对网络用户使用业务偏好的重要意义,现在越来越多的研究者这关注这一领域:例如文献[453给了一种基于WEB文档内容的网络用户行为模型,将它用沟通交流、休闲娱乐、电子服务等对用户群体进行分类。这是从应用层对网络行为的一种分类。而文献[46]从网络层的行为角度对网络用户行为分析进行了分析。文献[47]则从IP报文的变化对用户行为的反映进行了有益的探讨。3.2数据来源本章分析数据的来源是中国最大的宽带网络运营商之一在某典型城域网网络覆盖的所有拨号宽带用户的数据。在城域网出口链路部署了专门的用户行为数据采集系统用来采集和记录宽带用户上网的详细数据。数据采集的过程如下:第43页 北京邮电大学博士研究生学位论文1.用户行为数据采集系统通过分析AAA系统的认证和计费交互,提取拨号用户账号和IP地址的实时对应关系。2.用户行为数据采集系统将用户上网的原始报文与用户实时在线信息进行关联,确定报文与用户的对应关系。3.系统通过业务识别引擎,对用户上网业务进行准确识别,生成用户上网业务数据,并存储到数据库中。4.每日对上述流量数据进行汇总,产生前一日每个拨号用户一天的各业务流量数据。用户行为数据采集系统的业务识别引擎采用全硬件探针架构设计,实现了线速率的1:1流量信息采集,采集速度达到10Gbps,对于目前宽带网络业务的识别,采用DPI与DFI相结合的方法,达到非常高的业务识别准确率。目前,将用户上网业务划分为若干个类别,并且按照这些类别对用户流量进行汇总,数据能够比较好地反映用户上网行为偏好的实际情况。本文本次采用的数据表有如下属性:用户名和此用户在各个业务类别的流量占该用户总流量的百分比,数据的特点是同一个用户除用户名之外的数据都是数值为0到1之间的数,且和为1。这些业务类别包括:WEB、P2PDownload、P2PStream、VideoStream、FrP、Email、IM、Game、eBusiness、VoIP等。后续分析中,本文将原始用户账号进行了替换,同时保持每个用户的数据一致性,不影响分析结果。3.3采用方法的选择对用户进行业务使用偏好分组实际上是一个从海量数据获得有价值的信息的数据挖掘过程,由于本文需找的目标不是一个非此即彼的东西,所以采用无监督分类的方法是比较恰当的,而无监督的分类最典型的就是聚类方法。3.3.1算法选择依据聚类方法是数据挖掘技术中的一种重要的方法。聚类算法的分类:一般可分为基于层次的,基于划分的,基于密度的,基于网格的和基于模型的五种。这5大类算法都有各自的优点、缺点以及各自适合处理的环境。没有一种聚类算法是十全十美的,所以要根据实际情况(例如发现聚类的形状、数据输入顺序是否敏感、适用数据库的大小或者算法效率)来选择聚类算法。第44页 北京邮电大学博士研究生学位论文聚类的目的是进行用户细分群组,从而为市场营销和商业套餐定制提供数据依据,所以分类结果是要与现有运营商现有的营销套餐体系契合度越高越好,运营商现有的营销套餐体系的特点是粗细结合、有层次的营销体系,下面以中国电信的最新的天翼套餐分布为例图3-1天翼套餐结构图从图3-1可以看出,套餐业务的分布其实是一个呈现层次结构分布的系统,所以选择层次聚类是一个比较好的选择,因为层次聚类的结果提供的是一个谱系图(图3.2):图3-2层次聚类谱系图第45页 北京邮电大学博士研究生学位论文这样的结果和现有的资费套餐的结构十分相似,利用起来会十分的便利。而其他聚类方式很难提供这样的层次结构的结果,所以层次聚类是本文选择的算法。另外,层次聚类的缺点是时间复杂度比较高,而本文的用户群组分类是离线分析,所以对时间的要求不是很高。这里面本文所采用的数据的特点恐怕是一个重要的原因。3.3.2层次聚类算法层次聚类方法一般分为分裂的层次聚类和凝聚的层次聚类两大类,本文只讨论凝聚的层次聚类。凝聚的层次聚类采取的是自底向上的策略:先将每个对象作为一个簇,然后合并这些单点簇和新生成的簇,直到所有的样本都在一个簇中。3.3.2.1簇间距离的定义这里需要特别指出的是如何定义簇I剐的距离。对于任意两个簇之I.自J的距离度量有以下四种方法:(1)最小距离(single-link):是指用两个聚类所有数据点的最近距离代表两个聚类的距离。drain(c。,C,);minpe,,。P旨j|p—P1pEc,,P7∈c,(2)最大距离(Complete—link):是指用两个聚类所有数据点的最远距离代表两个聚类的距离。d一(C,,C,)=maxt后:i府;P—P’Ip∈-ci,p’Ec,(3)平均值距离:是指用两个聚类各自中心点之间的距离代表两个聚类的距离。d。鲫(c,,C,)=m,一所,lm,是簇q的平均值,m,是簇c,的平均值。(4)平均距离(Average—link):是指用两个聚类所有数据点问的距离的平均距离d。增Ci,Cj)一上nin∑庳,∑p龟IIy p--p'pEc。,p'Ecjni是簇e的平均值,以,是簇q的平均值。第46页 北京邮电大学博士研究生学位论文以上距离公式中的度量准则可根据需要采用不同的定义。最常用的度量准则是欧几里得距离。本文中根据数据特点采用的是第三种:平均值距离。3.3.2.2经典层次聚类算法假定有N个数据样本要被聚类,经典层次聚类算法的基本过程如下:Stepl:将每一个数据对象视为一簇,每簇仅一个对象,计算它们之间距离,Step2:将距离最近的两个簇合并成一个新的簇:Step3:重新计算新的簇与所有其他簇之间的距离:Step4:重复Step2和Step3,直到所有簇最后合并成一个簇为止或者达到某个终止条件。算法流程图如下:第47页 北京邮电大学博士研究生学位论文是否|一⋯(困图3-3可见,层次聚类算法每合并完一个簇对象后,必须重新计算合并后簇对象之间的距离,这必然将大大增加算法的复杂度,使得算法的应用受到影响。第48页 由于经典层次聚类算法的时间复杂度是样本数的平方。进行一天24万用户的聚类,如果使用经典层次聚类算法,硬件条件为:CPU为英特尔双核3G,内存为1G,软件环境为:使用JAVA语言编写的在Eclipse条件下运行的程序,所耗费的时间竟在24小时上下。这样的时间耗费是无法接受的。因此,改进算法时间复杂度就是一个重要的改进方向,现有的改进方法一般是根据最小生成树的思想,对任意两两样本距离进行排序,然后根据排序结果生成最小生成树,但是这样的改进算法本质上的时间复杂度并没有改变太多。仔细观察数据,可以发现已有的数据数呈现出~些特性的:比如每个属性的值都在0—1之间;所有所有属性的和是1;相当一部分用户的数据都高度相似等等。为此根据本文数据本身的特点,本文提出了改进原有层次聚类算法的方向。3.4.1基于数据特点和熵对数据初步分组降低时问复杂度◇XF数据的特点是每个属性的值都是数值为0到1之间的数,且和为1。这让我们很自然的联系是否可以利用信息论中熵的概念。如果对每一个数据样本进行求熵值的计算,可以发现数据存在如下特点:相似的点的熵值一定也比较相近,但是熵值相近的点不一定也比较相似,所以,如果基于熵值先对用户进行分组,再在各组内部进行层次聚类,速度就会大大提高。分组的依据就是对每一个的用户的10个特征属性值求熵值,将所有用户的熵值进行从低到高(或者从高到低)的排序,根据排序结果求出用户在不同熵值区间上的人数的分布情况,将人数在熵值区间上分布的全局低点(注意不是最低)作为区分点将用户分成不同的群组。对此改进方案的时间复杂度进行理论上的分析:如果进行聚类的一共有n个样本,如果是经典层次聚类算法,时问复杂度为O(nZ)。在改进算法中,假设将用户分成了k个组别,用户是分别为n1、n2、n3⋯、nk。则时间复杂度为0(n12)+0(n22)+⋯+O(nk2)由数学知识知道nl+n2+n3⋯+nk=n,则O(n12)+0(n22)+⋯+O(nk2)0.6788。实际数据验证,原来需要24小时的数据,实际只要6个小时就可以了。降低了4倍。3.4.2基于数据特点一次减少多个单点簇降低时间复杂度因为经典的层次聚类算法(凝聚)是把每一个数据样本点看成是一个簇,这样的后果就是在任意一步的凝聚层次聚类过程中都可能有单点簇的参与,这样做的好处是显而易见的:最大限度的保证了完全按照凝聚层次聚类的思想在里面,并且有利于最大限度的排除孤立点对簇信息的影响,但是这样做的缺陷之一就是使凝聚层次聚类算法的执行时间大大增加,因为凝聚层次聚类算法的在后期的凝聚聚类的过程中可能需要面对的大量的单点簇,从而增加了凝聚的次数。因为经典凝聚层次聚类算法每次聚合只是减少一个簇,而如果能在减少单点簇方面加快速度,能就提升整个算法的执行速度。本文所面临的数据的特点是孤立点的个数比例比较少,这样即使有一些噪声点的加入,对整体结果的影响也不是很大。针对这种情况,本文的另外一个改进思路就是能够一次合并多个相似的单点簇,从而达到快速减少数据规模,最终降低计算消耗时间的目的。3.4.3改进算法以及效果本文提出了如下的改进算法:Stepl:对每一个的用户的10个特征属性值求熵值;Step2.-将所有用户的熵值进行从低到高(或者从高到低)的排序;Step3:求出用户在不同熵值区间上的人数的分布情况,并从分布的谷底点将用户分成不同的群组;Step4:在群组内部随机选择一个未归并的样本,将此样本与其所在群组内的所有未归并样本进行欧氏距离计算。凡是与此样本的欧氏距离小于阈值R的未归并样本即归为一一簇。如果不存在这样的未归并样本,则将当前此样本标记为以归并样本并单独成簇。Step5-对存在尚未归并的单点簇的群组执行Step4,直到群组内的单点簇的个数小于2。第50页 北京邮电大学博士研究生学位论文Step6:各个簇(包括剩下的个别单点簇)之间按照距离最近但是距离又不超过s的两个簇进行合并的准则进行合并。Step7:当所有的簇的两两之间的距离都大于S时,将他们合并成一个簇。算法的流程图如图3.4:/’——一’————、(开始)、、、..。...。,.................一/r⋯一—工]f在群组内随机l,选择一个朱归-.并的数据样本j求此样I本与群组内所1|有朱归并样本Il的欧氏距离I,恳否存在否’此样奉标!距离小r/H记为已nl;、R的样本,/并簇.‘是■瞄前考]f察的距离小l}于R的朱归}⋯”!J{:样本归于j二簇J否未归并样本数是否⋯“小于2是足知存在否吼样雨F<距离小r/’1记为L三归I、R的样本/井簇,是r将与专前考]}察的距离小{|于R的朱归jI并样本归于IL一—王箧’否来1闩J}样i本数是否、小于2是图3-4改进算法流程图第51页群组合并叫得到簇的总数M}..,......................................。.J是,,警移、于1。/’l计算各簇两f型型1将所有簇I’’’I合为一‘簇;I.~——.一,....._J一一!⋯~<结束).是◇/否了驽<主硅体曼糕~,离姒上距曲一,默蒜塞|一找近一是一机归本一随术样,,|肭<-黼~群择的~一在选并一壅司i一:|数~ 北京邮电大学博士研究生学位论文这个改进算法中有2个参数,就是阈值R和S。R值的设定决定着每个簇生成的宽松度,如果R的值设定的比较大则可能造成很多并不相似的样本也进行了归并,造成簇的特征并不明显的特点。如果R的值设定的过于小了,很可能造成簇的个数非常多,而簇内的样本数非常小,降低时间复杂度的目的并不明显,所以R值的设定是需要非常谨慎的。本文经过对R值的设定进行了反复的实验,最终选定了R为5%,这样取得结果无论时间复杂度还是簇的相似度和大小都是令人满意的。引入参数S的原因是由算法的目的决定的。算法本身的目的是为了提供能够给电信运营商利用的结果,所以如果把明明是两个不同的簇硬合并出来的结果是实际意义不大的,所以用S来衡量两个簇的差距是否过大。经过反复试验,本文S的值取140%比较合适。本文针对华南某省电信公司2009年2月28天的数据进行了聚类分析,分别采用改进算法和经典的层次聚类算法和基于最小生成树的层次聚类改进算法,结果对比如下:(单位:小时)第52页 北京邮电大学博士研究生学位论文表3-1算法结果对比表日期经典层次聚类基于最小生成树改进算法本文算法2.1241132.2261232.3281232.4251232.5261132.6241132.7261232.8261232.9261232.10231232.11241232.12281232.13251132.14261232.15251222.16241132.17261232.18261222.19261342.20251242.21261232.22261232.23281232.24271232.25241222.26241232.27241232.2824124从表3.1中可以知道,改进的算法无论是比经典的层次聚类算法还是比基于最小生成树的改进层次聚类算法在时间复杂度上都有一个大幅度的降低,最多能提高速度8倍左右。特别值得一提的是,聚类的最终结果与经典层次聚类和基于最小生成树的层次聚类结果没有大的差别。从这个结果来看,改进算法达到了最初的设计目的。第53页 北京邮电大学博士研究生学位论文3.5每日聚类结果数据分析3.5.1结果的解释1.基本簇的定义层次聚类的结果是最终提交一个树状的簇的聚合结果,所有的簇最终聚合成一个大簇,树的根节点就是所有样本的集合,而所有叶子节点就是所有样本。这样的结果提交给使用者固然是最详尽的,但是实际的使用效果肯定是没有的,因为数据太繁杂了,实际需要的是树的比较靠上的部分就可以了。由于关注的是用户主体的业务使用偏好,所以一些样本数目太小的簇就可以合理舍弃了。本文定义基本簇为:算法Step5结束后得到并且簇内样本数数目大于100的簇。2.簇信息的描述本文对簇的结果的解释不采用以往常用的均值加方差的解释方法,因为以往的均值加方差的解释方法在样本点不够多的时候对噪声点的干扰不能很好的回避。而本文是根据本文数据的实际情况对每个簇的样本在每个属性上的分布进行总结,而后根据这种分布进行对簇的描述。这样就可以避免噪声点的干扰。比如对业务使用比例数据来说,每一个属性的值域都在0-1之间,则我们把0-1等分成5个区间,在看样本在这5个区间里的分布:例如对2009年2月1日的数据分出来的一个簇的信息为表3—2(O不包括):表3-2P2PDownloadP2PStreamVideoStreamWebFrPEmailIMGameeBusinessVoIP0.O.20%0%0%0%0%0%0%0%0%0%0.2.0.40%O%0%0%0%0%O%0%0%0%0.4.0.60%0%0%0%0%0%0%0%0%0%O.6.O.80%0%0%O%0%0%O%0%O%0%0.8.1O%0%0%99.9%0%0%0%0%O%0%那么这个簇的特征就可以归纳为基本都是WEB业务使用。3.5.2结果举例本文进一步对2月2日9力.左右的用户根据他们的业务属性进行了层次聚类,将用户初步分为了15个基本簇,分别描述如下:第54页 北京邮电大学博士研究生学位论文1号基本簇:此用户群组表现以p2ps和WEB业务以及VOIP业务为主,其它也有很少一些。簇中样本个数为2210,簇中样本个数占总样本数的比例为2.67%。表3-32月2日数据1号基本簇信息P2PDownloadP2PStreamVideoStreamWebFrPEmailIMGameeBusiness、厂oIP0.O.299%30%37%0%4%11%41%43%26%28%0.2.0.41%40%0%69%O%O%O%O%O%72%0.4.0.60%29%O%31%0%0%0%0%0%0%O.6.0.80%0%0%O%0%0%O%0%0%0%O.8.10%0%O%O%0%0%O%0%0%0%2号基本簇:此用户群组表现以IM业务为较多,但是也有一些Web业务以及更少的p2ps,簇中样本个数为147,簇中样本个数占总样本数的比例为0.18%。表3-42月2日数据2号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusinessVOIP0.0.227%58%1%53%0%0%O%33%0%31%0.2.0.40%0%0%47%0%0%0%0%O%0%0.4.O.60%0%0%0%0%0%0%O%0%0%0.6.0.80%O%0%0%O%O%91%O%0%O%O.8.1O%0%O%0%0%0%9%0%O%O%3号基本簇:此用户群组表现以p2ps和WEB业务以及VOIP业务为主,其它也有很少一些,与1号簇相比,3号簇有少量的FTP业务,略高于1号簇。簇中样本个数为1793,簇中样本个数占总样本数的比例为2.17%。表3-52月2日数据3号基本簇信息P2PDownloadP2PStreamVideoStreamWebFrPEmailIMGameeBusiness、,0IP0.O.296%22%41%58%13%19%36%44%19%55%0.2.0.44%64%0%42%O%0%0%0%0%45%0.4.0.6O%14%0%0%0%0%0%0%O%0%O.6.0.80%0%0%0%O%0%0%0%O%0%0.8.10%O%O%0%0%O%0%0%0%O%第55页 北京邮电大学博士研究生学位论文4号基本簇:此用户群组表现以p2ps和WEB业务以及VOIP业务为主,P2PD和IM也占有一定比例。簇中样本个数为185,簇中样本个数占总样本数的比例为0.22%。表3-62月2El数据4号基本簇信息P2PDownloadP2PStreamVideoStream朊b丌PEmailIMGameeBusinessVoIP0.0.297%39%93%6%15%18%44%49%26%62%O.2.0.43%61%7%91%0%0%0%O%O%38%0.4.O.60%0%0%3%O%0%0%0%0%0%0.6.O.8O%O%O%0%0%0%0%O%O%0%O.8—10%0%0%0%0%0%0%0%0%0%5号基本簇:此用户群组表现以p2ps和WEB业务以及VOIP业务为主,P2PD和IM也占有一定比例。与4号簇相比,5号簇VS、IM、VOIP业务使用百分比略低于4号簇;5号簇Web、Email业务使用百分比略高于4号簇。簇中样本个数为159,簇中样本个数占总样本数的比例为0.19%。表3-72月2日数据5号基本簇信息P2PDownloadP2PStmamVideoStreamW色bFTPEmailIMGameeBusinessVoIP0.O.288%41%77%0%17%14%93%82%26%61%O.2.0.412%59%0%89%O%0%0%O%0%39%0.4.0.6O%0%0%11%0%0%0%O%0%0%0.6.O.8O%0%0%O%0%0%0%0%0%0%0.8.10%O%0%0%0%0%0%0%0%0%6号基本簇:此用户群组表现以Web业务为主,也有不可忽视的p2ps业务,以及较少的下载和VOIP。簇中样本个数为22565,簇中样本个数占总样本数的比例为27.29%。表3-82月2日数据6号基本簇信息表P2PDownloadP2PStreamVideoStream胎bFrPEmailIMGameeBusinessVoIP0.0.289%26%31%0%0%8%21%45%34%44%0.2.0.40%31%O%26%O%0%0%0%0%3%O.4.O.60%41%0%45%0%0%0%0%0%0%0.6.0.80%2%0%29%0%0%0%0%0%0%0.8.10%0%0%0%0%0%0%0%0%0%第56页 北京邮电大学博士研究生学位论文7号基本簇:此用户群组表现以GAME业务为主,簇中样本个数为413,簇中样本个数占总样本数的比例为0.5005。表3-92月2日数据7号基本簇信息P2PDownloadP2PStreamVi【deoStreamWebFTPEmaillMGameeBusinessVoIP0.O.20%1%0%0%0%0%O%O%0%2%0.2.O.4O%0%0%0%0%0%0%O%O%0%0.4.0.60%0%0%0%0%0%0%O%0%O%0.6.0.80%0%0%0%O%O%0%O%0%0%0.8.10%O%O%O%O%0%O%100%O%0%8号基本簇:此用户群组表现以VOIP业务为主,簇中样本个数为l138,簇中样本个数占总样本数的比例为1.3805。表3-102月2日数据8号基本簇信息P2PDownloadP2PStreamVideoStreamWeb丌PEmailIMGameeBusiness、,oIPO.0.22%5%0%38%O%O%0%0%7%O%O.2.0.40%0%O%0%O%0%0%O%O%O%0.4.0.60%0%0%O%0%0%0%0%0%O%O.6.O.80%O%O%0%O%O%O%O%O%O%O.8.10%0%0%0%0%0%0%0%O%100%9号基本簇:此用户群组表现以p2ps业务为主,簇中样本个数为10296,簇中样本个数占总样本数的比例为12.4505。表3-112月2日数据9号基本簇信息P2PDownloadP2PStreamVideoStream眦bFTPEmaillMGameeBusinessVolP0.0.20%O%0%43%O%2%4%1%0%0%0.2.0.40%O%O%0%0%0%0%0%O%O%0.4.0.60%0%0%O%0%O%0%0%0%0%0.6.0.80%0%0%0%0%0%0%0%0%O%0.8.1O%10CI%O%O%0%0%O%0%0%0%第57页 北京邮电大学博士研究生学位论文10号基本簇:此用户群组表现以EB下载业务为主,簇中样本个数为250,簇中样本个数占总样本数的比例为0.30%。表3-122月2日数据10号基本簇信息P2PDownloadP2PStreamVideoStreamW曲FrPEmailIMGameeBusinessVoIP0.0.20%0%0%52%0%O%0%0%0%0%O.2.0.40%O%0%O%0%O%0%0%0%0%0.4.0.60%0%0%0%0%O%0%0%0%O%0.6.0.80%0%0%0%0%0%0%0%0%O%0.8—10%0%0%0%0%O%0%0%100%O%11号基本簇:此用户群组表现以IM业务为主,簇中样本个数为187,簇中样本个数占总样本数的比例为0.22%。表3-132月2日数据11号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusiness、厂oIPO.0.20%29%O%37%0%0%0%0%0%0%0.2.0.40%0%0%O%0%O%0%0%0%0%O.4.0.60%0%O%O%0%0%0%O%0%0%0.6.0.80%0%O%0%0%0%0%0%O%O%0.8.10%0%0%O%0%0%100%0%0%0%12号簇:此用户群组表现以videostream业务为主,簇中样本个数为170,簇中样本个数占总样本数的比例为0.21%。表3—142月2日数据12号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusinessVOIPO.0.20%5%0%22%0%O%0%0%0%3%O.2.0.40%0%O%0%0%0%0%O%0%0%O.4.0.6O%O%0%0%0%O%O%0%O%0%0.6.0.80%O%0%O%0%0%0%O%0%0%0.8.10%0%100%O%0%0%0%0%0%0%第58页 北京邮电大学博士研究生学位论文13号簇:此用户群组表现以GAME为绝大部分,但是也有较少的Web业务,簇中样本个数为lll,簇中样本个数占总样本数的比例为0.13%。表3-152月2日数据13号基本簇信息P2PDownloadP2PStreamVideoStreamWeb丌PEmailIMGameeBusinessVOIPO.0.21%O%100%0%O%O%0%O%3%O%0.2.0.40%O%0%0%O%0%0%0%0%0%0.4.0.6O%0%0%0%0%0%0%0%0%O%0.6.0.80%0%0%0%0%0%0%O%O%O%0.8.1O%0%0%0%0%0%0%100%0%O%14号簇:此用户群组表现以p2p下载业务为主,簇中样本个数为725,簇中样本个数占总样本数的比例为0.88%。表3-162月2日数据14号基本簇信息P2PDownloadP2PStreamVideoStream腑bFTPEmailIMGameeBusiness、,oIPO.0.2O%2%0%21%0%0%0%0%1%5%0.2.0.40%0%0%0%0%0%0%O%0%O%0.4—0.60%0%O%0%0%0%0%0%0%0%O.6.O.80%0%0%O%0%0%0%0%0%O%O.8.1100%O%0%0%O%0%0%0%O%0%15号簇:此用户群组表现以WEB业务为主,簇中样本个数为43001,簇中样本个数占总样本数的比例为52.01%。表3-172月2日数据15号基本簇信息P2PDownloadP2PStreamVideoStreamWeb丌PEmailIMGameeBusinessVoIP0.0.20%21%4%1%0%O%O%0%O%2%0.2.O.40%0%0%0%0%0%O%0%0%0%0.4.0.60%O%0%0%O%0%O%0%0%0%O.6—0.80%0%0%0%O%0%0%0%0%0%0.8.10%0%0%100%O%0%0%O%O%0%第59页 北京邮电大学博士研究生学位论文结果的谱系图图3-52月2日聚类结果谱系图合并簇特点:A簇特点:此用户群组表现以p2ps和WEB业务以及VOIP业务为主,P2PD和IM也占有一定比例。B簇特点:此用户群组表现以p2ps和WEB业务以及VOIP业务为主,其它也有很少一些。与A簇相比,B簇P2PD、VS、Email、IM、VOIP业务使用百分比略高于A簇;B簇p2ps、Web业务使用百分比略低于A簇。C簇特点:此用户群组表现以GAME业务为主,也有少量其它业务D簇特点:此用户群组表现以IM业务为主,也有少量其它业务第60页 北京邮电大学博士研究生学位论文E簇特点:此用户群组表现以p2ps和WEB业务以及VOIP业务为主,其它也有很少一些。与6号簇相比,E簇VOIP业务使用百分比明显高于6号簇;E簇Web业务使用百分比明显低于6号簇。F簇特点:此用户群组表现以p2ps和WEB业务为主、VOIP业务略低于p2ps和WEB业务。3.6一月聚类结果数据分析3.6.I簇的再次汇聚分析利用改进算法对华南某省2009年2月28天的数据进行了运算,每一天都得到了大约十多个基本簇,所以28天一共得到了424个基本簇,不可否认的是,这424个基本簇里面必然有很多簇是十分相似的,因为是针对每一天来做聚类,而不是将28天的用户打散来做聚类,所以需要对这28天的424个基本簇做一个再聚合,将其中相似的簇合并。合并算法是:Stepl:针对424个基本簇分别做一个簇信息表,并针对每一个基本簇做一个标记:OStep2:任意选择一个标记为O的基本簇,将这个基本簇的簇信息表与其他所有标记为0基本簇的簇信息表对应位相减,差值取绝对值并求和。Step3:将差值求和小于5%的基本簇归并成一个簇,将这些基本簇的标记改为1,生成新簇的簇信息表。Step4:重复Step2,直到不能生成新簇。经过对上面的算法应用于424个基本簇里,最终得到了一共23个簇。这23个簇的簇信息表如下:表3-182月数据1号基本簇信息P2PDownloadP2PStreamVideoStreamW色bFTPEmail1MGameeBusiness、,olP0.0.2100%0%O%100%0%O%0%O%0%0%0.2.0.40%0%0%0%0%0%0%O%0%0%0.4.0.6O%0%0%0%0%0%0%0%O%0%0.6.O.80%O%0%O%0%0%0%O%0%O%O.8.10%O%0%O%O%0%100%0%0%0%l号簇特点:此用户群组表现以IM业务为主,WEB、P2PD业务也占有一定比例。簇中样本个数为5144簇中样本个数占总样本数的比例为0.11%。第61页 北京邮电大学博士研究生学位论文表3-192月数据2号基本簇信息P2PDownloadP2PStreamVideoStream腑bFrPEmailIMGameeBusinessVoIP0.0.2100%0%0%100%O%0%0%0%0%100%0.2.O.40%0%0%0%0%0%0%0%0%0%O.4.0.60%0%0%0%0%0%0%0%0%0%0.6.0.80%0%0%0%0%0%0%O%0%0%0.8.10%100%0%0%O%0%0%0%0%O%2号簇特点:此用户群组表现以P2PS业务为主,WEB、P2PD、VOIP业务也占有一定比例。簇中样本个数为523697簇中样本个数占总样本数的比例为11.2%。表3-202月数据3号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusiness、,0IP0.0.289%93%100%32%O%100%100%100%100%96%0.2.0.411%7%0%68%0%0%0%0%0%4%0.4.0.60%0%0%0%0%0%0%0%0%0%0.6.0.80%0%0%0%0%0%O%O%O%0%0.8.10%O%0%0%0%0%0%O%0%0%3号簇特点:此用户群组表现以WEB、P2PD、P2PS、VOIP业务为主,VS、IM、GAME、朗业务也占有一定比例。簇中样本个数为9185簇中样本个数占总样本数的比例为0.20%。袁3-212月数据4号基本簇信息P2PDownloadP2PStreamVideoStreamW色bFrPEmailIMGameeBusiness、,oIP0.0.2O%O%0%100%0%0%0%0%O%0%0.2.O.4O%0%0%0%0%0%0%0%0%O%O.4.0.6O%O%0%0%0%0%0%0%0%0%0.6.0.8O%0%0%O%0%0%0%0%0%0%0.8.10%0%100%0%0%0%0%0%0%0%4号簇特点:此用户群组表现以VS业务为主,WEB业务也占有一定比例。簇中样本个数为4620簇中样本个数占总样本数的比例为0.1%。第62页 北京邮电大学博士研究生学位论文表3-222月数据5号基本簇信息P2PDownloadP2PStreamVideoStream朊bFTPEmailIMGameeBusinessVoIPO.O.20%O%0%92%0%O%0%0%O%0%0.2.0.40%0%0%8%0%0%0%0%0%0%0.4.0.6O%0%0%O%0%O%0%0%O%0%0.6.O.80%14%O%O%0%0%O%0%0%0%0.8.10%86%0%0%0%O%0%0%0%0%5号簇特点:此用户群组表现以P2PS和WEB业务为主。簇中样本个数为1364簇中样本个数占总样本数的比例为0.03%。表3-232月数据6号基本簇信息P2PDownloadP2PStreamVideoStreamW色bmEmailIMGameeBusinessVOIP0.O.2O%100%0%100%0%0%0%0%0%0%0.2.0.40%O%0%0%0%0%0%0%O%0%O.4.0.6O%0%0%0%0%0%O%0%0%O%0.6.O.80%0%0%0%0%O%O%0%0%0%O.8.10%0%O%0%O%0%100%0%0%0%6号簇特点:此用户群组表现以IM业务为主,P2PS、WEB业务也占有一定比例。簇中样本个数为1212簇中样本个数占总样本数的比例为0.03%。表3-242月数据7号基本簇信息P2PDownloadP2PStreamViideoStream舱bFTPEmailIMGameeBusiness、,oIP0.O.20%0%0%96%0%0%0%0%0%O%0.2.O.40%O%0%4%0%0%0%0%0%0%0.4.0.60%0%O%0%0%0%0%0%0%0%0.6.0.80%0%0%0%0%O%0%0%0%3%0.8.1O%0%0%0%0%0%0%0%0%97%7号簇特点:此用户群组表现以VOIP、WEB业务为主。簇中样本个数为1238簇中样本个数占总样本数的比例为0.03%。第63页 北京邮电大学博士研究生学位论文表3-252月数据8号基本簇信息P2PDownloadP2PStreamVideoStream腑b丌PEmailIMGameeBusinessV0口0.O.20%0%0%100%0%0%O%0%O%0%0.2.0.40%0%0%0%0%0%0%0%0%O%0.4.O.60%0%0%0%0%0%0%0%0%0%0.6.0.80%0%0%0%0%0%O%O%O%0%0.8.10%0%0%0%0%0%0%0%100%0%8号簇特点:此用户群组表现以EB业务为主,WEB业务也占有一定比例。簇中样本个数为7915簇中样本个数占总样本数的比例为0.1796。表3-262月数据9号基本簇信息P2PDownloadP2PStreamVideoStream腑bFTPEmailIMGameeBusiness、厂olP0.0.281%74%100%42%100%98%100%100%91%0%0.2.0.419%26%0%51%0%2%0%0%9%O%0.4.0.60%0%0%7%0%0%0%O%0%0%0.6.0.80%0%0%O%O%0%0%0%0%0%0.8.10%0%0%0%0%0%0%0%O%0%例为0.0596。表3-272月数据10号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusinessVOIP0.O.293%71%100%3%0%100%100%100%89%O%0.2.0.47%29%O%44%0%O%0%0%11%0%O.4.0.60%0%0%53%0%O%0%0%O%0%O.6.0.80%O%O%0%0%0%0%0%0%O%0.8.10%0%0%0%0%0%O%0%0%0%10号簇特点:此用户群组表现以WEB、P2PD、P2PS、VOIP业务为主,VS、Email、IM、GAME、EB业务也占有一定比例。簇中样本个数为82019簇中样本个数占总样本数的比例为1.75%。第“页 北京邮电大学博士研究生学位论文表3-282月数据11号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusinessVoIPO.O.295%39%100%0%O%100%100%100%100%83%O.2.0.45%51%O%26%0%O%O%0%0%17%0.4.O.60%10%0%74%O%O%O%0%0%0%O.6.0.80%0%0%0%O%0%O%O%0%0%0.8.10%0%0%0%0%0%0%0%0%0%11号簇特点:此用户群组表现以WEB、P2PS、VOIP业务为主,P2PD业务也占有一定比例。簇中样本个数为439473簇中样本个数占总样本数的比例为9.38%。表3-292月数据12号基本簇信息P2PDownloadP2PStmamVideoStreamW色b丌PEmailIMGameeBusiness、,oIP0.0.20%100%O%41%0%0%0%0%0%100%0.2.0.40%O%0%59%0%0%0%O%O%O%O.4.0.6O%0%0%0%0%0%0%7%0%0%0.6.0.8O%O%0%O%0%0%0%62%O%O%0.8.10%0%O%O%0%0%O%21%O%O%12号簇特点:此用户群组表现以GAME、WEB业务为主,P2PS业务也占有一定比例。簇中样本个数为537簇中样本个数占总样本数的比例为0.01%。表3-302月数据13号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusiness、,oIP0.O.2100%7%100%O%0%O%100%100%O%98%0.2.0.4O%81%0%28%O%0%O%O%0%2%0.4.0.60%12%O%70%0%0%O%0%0%O%0.6.0.80%0%0%2%0%0%0%O%0%0%O.8.1O%0%0%0%0%0%0%0%0%O%13号簇特点:此用户群组表现以WEB、定比例。簇中样本个数为1610841P2PS业务为主,VOIP、P2PD业务也占有一簇中样本个数占总样本数的比例为34.37%。第65页 北京邮电大学博士研究生学位论文表3-312月数据14号基本簇信息P2PDownloadP2PStreamVideoStream肥b肿EmailIMGameeBusinessVoIP0.0.2O%O%0%100%0%0%0%0%0%0%0.2.0.4O%0%0%0%0%0%0%0%0%O%0.4.0.60%0%0%0%0%O%0%O%0%0%0.6.0.80%0%0%0%0%0%0%0%O%0%0.8.1O%O%0%O%0%0%0%100%O%0%14号簇特点:此用户群组表现以GAME业务为主,WEB业务也占有一定比例。簇中样本个数为17005簇中样本个数占总样本数的比例为0.36%。表3-322月数据15号基本簇信息P2PDownloadP2PStreamVideoStreamWeb兀PEmailIMGameeBusiness、,oIP0.0.20%O%0%94%0%0%0%0%0%0%0.2.O.40%0%0%6%0%0%0%O%0%0%O.4.0.60%0%O%0%0%0%O%0%0%0%0.6.0.80%0%0%0%0%0%0%2%0%0%0.8.10%0%0%0%0%0%0%98%0%0%15号簇特点:此用户群组表现以GAME业务为主,WEB业务也占有一定比例。簇中样本个数为1177簇中样本个数占总样本数的比例为0.0396。表3-332月数据16号基本簇信息P2PDownloadP2PStreamVideoStreamW色bFTPEmailIMGameeBusinessVOIP0.0.2O%0%0%100%0%0%O%0%0%0%0.2.0.4O%0%O%0%O%0%0%0%0%O%0.4.0.60%0%0%0%0%0%0%O%0%0%O.6.0.80%0%0%0%0%O%0%0%0%0%O.8.1100%0%O%0%O%O%0%0%0%O%16号簇特点:此用户群组表现以P2PD业务为主,WEB业务也占有一定比例。簇中样本个数为22135簇中样本个数占总样本数的比例为0.47%。第66页 北京邮电大学博士研究生学位论文表3-342月数据1号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusinessVOIPO.0.2100%100%100%0%O%0%100%100%100%95%0.2.0.4O%0%0%O%0%0%0%0%0%5%0.4.0.60%0%0%0%0%0%0%O%0%O%0.6.0.80%0%0%1%0%0%0%0%0%0%0.8.10%0%0%99%0%0%O%O%0%0%17号簇特点:此用户群组表现以WEB业务为主,P2PS、P2PD、VOIP业务也占有一定比例。簇中样本个数为1875517簇中样本个数占总样本数的比例为40.01%。表3-352月数据18号基本簇信息P2PDownloadP2PStreamVideoStreamWebFrPEmailIMGameeBusinessVoIP0.0.2100%100%O%99%O%O%0%0%0%0%0.2.0.40%0%0%1%0%O%O%O%0%0%0.4.0.60%0%0%O%0%0%0%0%0%0%0.6.0.80%O%O%O%0%0%4%0%0%0%0.8.10%O%0%O%0%0%96%0%O%0%18号簇特点:此用户群组表现以IM业务为主,WEB、P2PS、P2PD业务也占有一定比例。簇中样本个数为628簇中样本个数占总样本数的比例为0.01%。表3-352月数据19号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusiness、,oIP0.0.2100%97%100%44%O%0%0%100%100%100%O.2.O.40%3%0%55%O%0%O%O%0%0%O.4.0.60%0%0%1%0%0%5%O%0%0%0.6.0.8O%0%0%0%0%0%89%0%0%O%O.8.10%0%0%0%O%0%6%0%0%0%19号簇特点:此用户群组表现以IM、WEB业务为主,VOIP、P2PS、P2PD业务也占有一定比例。簇中样本个数为563簇中样本个数占总样本数的比例为0.01%。第67页 北京邮电大学博士研究生学位论文表3-362月数据20号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmaillMGameeBusinessVoIP0.0.2100%100%0%18%0%0%100%0%100%100%0.2.0.40%O%0%82%O%0%0%0%0%0%0.4.0.60%0%0%0%O%0%0%9%0%0%0.6.0.8O%0%0%0%0%0%0%74%0%0%O.8.10%0%0%O%0%0%0%17%0%0%20号簇特点:此用户群组表现以GAME、WEB业务为主。簇中样本个数为936簇中样本个数占总样本数的比例为0.02%。表3-372月数据21号基本簇信息P2PDownloadP2PStreamVideoStreamWebFTPEmailIMGameeBusiness、,olP0.0.284%78%0%O%O%0%0%88%96%91%0.2.0.416%22%0%5%0%0%0%12%4%9%0.4.0.60%0%0%58%0%0%0%0%0%0%0.6.0.80%0%0%37%0%0%0%0%O%0%0.8.10%0%O%0%0%0%0%0%0%0%21号簇特点:此用户群组表现以WEB业务为主,GAME、VOIP、P2PS、P2PD、IM业务也占有一定比例。簇中样本个数为25557簇中样本个数占总样本数的比例为0.55%。表3-372月数据22号基本簇信息P2PDownloadP2PStreamVideoStreamWebFrPEmailIMGameeBusiness、,oIP0.0.2100%100%O%77%O%O%100%100%100%100%0.2.0.40%0%0%23%0%0%O%O%0%0%0.4.0.60%0%1%0%O%0%0%0%0%O%0.6.0.80%0%89%0%0%0%0%0%O%O%O.8.10%0%10%0%0%O%0%0%O%0%22号簇特点:此用户群组表现以VS、WEB业务为主。簇中样本个数为343簇中样本个数占总样本数的比例为0.01%。第68页 北京邮电大学博士研究生学位论文表3-382月数据23号基本簇信息P2PDownloadP2PStreamVideoStreamWeb丌PEmailIMGameeBusinessVoIP0.0.20%100%0%100%0%O%0%100%0%0%0.2.0.40%0%0%0%0%O%0%O%0%O%0.4.0.60%0%0%O%0%0%0%0%0%0%0.6.O.80%O%0%0%0%0%O%0%0%0%0.8.10%O%O%O%0%0%O%0%0%100%23号簇特点:此用户群组表现以VOIP业务为主。簇中样本个数为53907簇中样本个数占总样本数的比例为1.1596。3.6.2用户业务偏好模式的使用频度分析得到了2月1个月的主要的23种业务使用模式,如果能得到这些模式被用户使用的频度分布就显的非常有意义,掌握了这些分布,我们就可以进行相关的套餐制定的前期的准备工作。需要说明的是,在实际的数据中,每个用户其实在一个月的28天中并不是每一天都上网的,一整天没有上网的情况其实非常普遍,我们将当天未上网也作为一种模式,标号为24。对每一种业务模式被用户使用的频度划分为o%,096—2096,20%一40%,4096—60%,60%-80%,80%-100%,6个区间,把0%单独拿出来的原因是因为这是一个很敏感的数据,这个数据说明用户这一个月就根本没出现过这种业务,模式,从而对针对性营销和套餐的制定有很重要的意义。经过对一个月28天的数据的分析,得到了表3-39的结果:表3—39中的数据说明了使用每种业务模式的用户占所有用户的百分比:第69页 北京邮电大学博士研究生学位论文表3—39用户业务偏好模式的使用频度分布簇0%0%.20%20%.40%40%.60%60%.80%80%.100%号1.98.49%1.48%0.02%O%0%O%2.61.59%24.82%7.35%3.38%2.16%0.70%3.97.21%2.77%O.01%0%0%0%4.98.77%1.20%0.03%0%0%0%5.99.44%0.56%O%0%O%0%6.99.55%0.45%0%0%0%0%7.99.51%0.49%0%0%0%0%8.98.26%1.66%0.08%O.01%0%0%9.99.10%O.90%0%0%0%O%10.83.80%15.22%O.91%O.06%0%0%11.49.48%40.01%8.70%1.54%0.26%0.01%12.99.79%O.21%0%0%0%0%13.10.45%38.16%32.01%14.29%4.67%0.42%14.97.30%2.39%0.22%0.05%0.02%0.01%15.99.59%0.41%0%0%0%0%16.94.94%4.86%0.16%0.030.01%0%17.12.76%35.56%23.97%13.51%10.20%40%18.99.76%O.24%O%O%0%O%19.99.77%O.23%0%0%0%0%20.99.63%0.37%0%O%0%O%21.95.53%4.07%0.31%0.06%0.03%0.01%22.99.86%0.14%0%O%O%0%23.90.16%9.08%0.59%0.10%0.05%0.01%24.19.05%30.74%19.78%11.67%10.54%8.22%从这个表3—39中可以得到如下结论:第一,23种模式中其实大部分都没有被频繁使用,23种有18种业务模式的0频度使用用户比例占到90%以上,也就是说至少有90%的用户在一个月里一次都没有使用这些模式。而且这18种模式呈现一种随着使用频度增高,用户比例急剧降低的特性。这充分说明了这些模式的独特性和针对性。这个结果对针对性营销来说,大大缩小了处理的复杂度,也大大加强了分析人群的针对性。第二,13号模式和17号模式是最被广泛使用的两个主要模式,但是这两个模式也有区别:13号模式随着使用频度增高,用户比例先升高再降低,呈现一个最高点;而17号模式是随着使用频度增高,用户比例先升高再降低在升高,规律性与第70页 北京邮电大学博士研究生学位论文13号相比大大不同,而且在使用频度最高的区间,使用的用户的比例也是最高的,充分说明了17号模式的普遍性。第三,另外一个值得注意的24号模式,这个模式其实说明的是用户不上线的情况。从表的数据可以看到只有大约20%的用户可以做到一个月天天在线,而剩下的80%用户里,随着不上线频度增高,用户比例逐渐降低,说明大部分用户还是比较活跃的。第四,从这个表中还可以得出,其实单纯以某一种业务为主的模式(除了WEB业务),几乎都没有被用户高频度的使用,用户往往是较平均使用多种业务,而这些业务也集中在p2p流媒体、VOIP、WEB这几个业务上。3.6.3用户业务偏好模式与在线时长和流量的关联分析除了进行用户业务偏好模式的分析之外,还应对各种用户业务偏好模式在其他网络行为属性上的特征进行分析和总结。.本节选择的是用户在线时长、用户总流量和用户上下行流量之比这三个网络行为特征来分析,选择这三个特征的原因是用户在线时长反映的是用户使用网络的黏度,对运营商制修订相应的业务套餐或者计费标准具有很大的参考性。用户总流量反映的是用户占有网络资源的情况,对运营商制修订相应的业务套餐或者计费标准具有很大的参考性。用户上下行流量之比进一步细化的反映了不同用户业务偏好模式与不同流量行为之间的关系,具有一定的参考价值。分别针对用户在线时长、用户总流量和用户上下行流量之比这三个网络行为特征划分了不同的区间,而后将24种模式都与其进行了一一对应。第71页 北京邮电大学博士研究生学位论文1.用户业务偏好模式与在线时长的关系表3-40用户业务偏好模式与在线时长的分布0。4小时4,J、时~8,J、时8,J、时一12,J、时12,J、时。16,J、时>16小时138.29%21.89%12.95%9.73%17.14%227.50%23.06%17.44%14.60%17.41%35.44%10.84%15.29%19.51%48.91%451.36%22.07%11.53%7.16%7.88%526.05%23.55%20.38%15.01%15.01%642.02%18.61%10.92%8.60%19.85%726.16%27.05%15.68%16.17%14.95%826.89%41.40%13.98%8.04%9.69%94.47%10.40%14.53%21.19%49.41%106.60%12.71%15.39%19.19%46.11%1110.17%16.02%17.40%18.89%37.52%1212.87%15.86%19.22%20.34%31.72%1317.96%20.57%18.54%17.37%25.56%1423.35%21.32%14.41%15.07%25.84%159.18%19.22%16.24%20.07%35.29%1635.34%19.67%13.05%15.29%16.64%1732.33%23.10%16.42%12.85%15.31%1832.64%29.28%14.4%11.68%12.0%1920.28%27.94%18.33%15.66%17.79%2013.80%18.93%18.50%21.82%26.95%2115.31%12.37%10.72%11.81%49.79%2226.18%29.41%16.18%13.53%14.71%2336.59%23.37%14.75%13.40%11.90%第72页 北京邮电大学博士研究生学位论文器跑12345678910”1213141S16171819202'2223lid、娩务馅叠f梭武图3-6用户业务偏好模式与在线时长的分布口0"4”{口4-8"1、“j日}12"J口12—16们j圈,164、-{上图反映出:整体看来,各个偏好模式的在线时长特征统一表现为在中间区间(4—84,时、8~12小时、12—16小时)上百分比基本保持不变,都有平稳的分布,而在端区间(O~4d"时、>16d、时)上,百分比变化波动很大;局部上有三种与整体在线时长特征不同的特点,模式3、9、10、11、15、21所表现出来的在高区间(>16d"时)上,占40%左右,相对于其他模式占有较高的比例,分析这几个模式的业务特点发现,3、9、10、11、21模式主要是以P2P业务为主,基于P2P技术的业务一般在线时间都比较长,而15模式是以GAME业务为主,P2P、GAME业务自身的特性就是具有较长的在线时长,与上图相符合。模式1、4、6、18为代表所表现出来的在低区间(0—4小时)上,相对其他模式占有较高比例,分析这几个模式的业务特点发现,1、6、18均是以IM业务为主的,这与IM实时通信在线时长短的特点相符合,4是以VS业务为主,在VS上,由于电影、直播等涉及到的版权问题,用户在VS上多是观看最新的视频短节目,这就必然导致在线时长短,与上图特征相符合。模式8所表现出来的,在中间区间(4~8小时)上,占有相当一部分比例,明显高于其他模式的比例,分析模式8的业务特点发现,其主要以EB业务为主,表现出-;zB业务使用者与第73页 北京邮电大学博士研究生学位论文其他业务使用者在在线时长方面的区别;人数最多的两个模式13、17也值得关注,13、17模式在各区间分布较均匀,13模式在高区间(>16小时)上分布略高于其他几个区间,17模式在低区间(04小时)上分布略高于其他几个区间,分析这两个模式的业务特点发现,13模式以WEB和P2PS业务为主,17模式以WEB业务为主,P2P业务为辅,所以,两模式在高低区间均有一定比例的分布,同时这两模式由于主业务上存在的细小区别,导致在高低区间的分布上表现为主业务中含有P2PS的13模式高区间比例高于17模式高区间比例,低区间比例低于17模式,与上图完全符合。2.用户业务偏好模式与总流量的关系表3-41用户业务偏好模式与总流量的分布0~500M500M一1G1G~5G5G.10G>10G169.03%14.87%15.46%0.49%0.16%238.83%20.11%39.41%1.56%O.09%37.25%12.07%59.61%16.14%4.93%483.47%8.93%7.47%0.13%0.O%550.44%22.73%26.39%0.44%0.0%686.44%7.03%5.87%0.50%0.17%768.98%16.96%13.89%0.16%0.0%897.98%0.95%0.86%O.15%O.06%97.48%12.10%60.35%15.37%4.70%1015.63%15.90%54.14%11.60%2.73%1130.18%18.83%43.94%5.89%1.15%1288.08%7.26%3.91%O.56%0.19%1346.40%18.78%32.29%2.19%0.34%1491.36%3.61%4.31%0.61%0.11%1587.85%5.10%5.95%1.02%0.08%1680.50%10.69%7.40%1.00%O.41%1769.68%13.45%16.01%0.74%0.12%1846.34%22.61%30.25%0.48%O.32%1951.87%19.54%28.06%O.53%0.0%2088.25%7.69%3.55%O.21%0.32%2190.45%4.70%4.20%0.42%0.23%2273.47%15.45%10.79%0.29%0.0%2367.88%14.37%16.97%O.62%0.16%第74页 北京邮电大学博士研究生学位论文雾比1234567891011121314151617181920212223JllY·豫务偏好筷=疋图3-7用户业务偏好模式与总流量的分布I-10、500M妇500阶1G翻1G一,SG口5G-100曰>10G上图反映出:整体看来,各个偏好模式的流量特征大部分表现为在低区间(O~500M)上都有很大比例的分布,而在高区间(1G~5G、5G~10G,>10G)上,却占有相对比较少的比例:模式3、9、10、11却表现出与大部分用户业务偏好模式不同的流量特点,在高区间(1G-5G、5G~10G,>10G)特别是5G~10G区间上,占有相当一部分比例,同时,在低区间(0-500M)所占比例则比较小,分析这几个模式的业务特点发现,这几个模式均是以大流量P2PD、P2PS、VOIP业务为主,这些业务由于广泛使用了P2P技术,流量都比较大,所以这几个模式在以上流量图中所表现出的特征是正常的,模式8也表现出与整体流量特征不同的特点,低区间(0-500M)用户占到了95%以上,模式8的特点是以EB业务,这也与实际中EB业务为主的用户所占流量低的情况相符,因为EB业务主要以主要包括网络数据库操作、股票软件为主,流量一般不会太大。人数最多的两个模式13、17也值得关注,13模式在低区间(0—500M)上占到大约50%,在高区间(1G.5G、5G~10G,>10G)上也占到约40%,17模式在低区间(0~500M)上占到大约70%,在高区间(1G一5G、5G~10G,>10G)上也占到约20%,分析这两第75页 北京邮电大学博士研究生学位论文个模式的业务特点发现,13模式以WEB和P2PS业务为主,17模式以WEB业务为主,P2P业务为辅,所以,两模式在高低区间均有一定比例的分布,同时这两模式由于主业务上存在的细小区别,导致在高低区问的分布上表现为13模式低区间比例低于17模式低区间比例,而高区间比例高于17模式,与上图完全符合。3.用户业务偏好模式与上下行流量比的关系表3-42用户业务偏好模式与上下行流量比的分布0~0.20.2~0.5o.5-11~20>20116.89%28.36%31.63%22.47%0.64%27.71%26.55%23.97%41.75%0.02%37.05%33.79%29.64%29.36%0.15%476.39%7.06%3.70%12.71%0.15%56.89%20.75%20.60%51.76%0.0%618.98%28.14%25.91%25.74%1.24%711.39%24.15%31.58%32.88%0.0%828.04%52.77%10.61%8.29%0.29%96.34%32.59%28.31%32.42%0.34%107.92%34.58%29.68%27.67%0.15%1110.88%33.86%28.60%26.5l%0.14%1231.28%51.58%10.61%6.52%0.0%1318.41%32.31%23.11%26.00%O.17%1427.87%52.35%12.40%6.70%0.69%1534.66%49.87%9.43%5.95%0.08%1625.26%15.80%12.15%43.24%3.55%1756.35%24.07%8.68%10.46%0.44%1815.92%30.10%36.46%17-36%0.16%1917.41%29.48%35.17%17.76%0.18%2030.77%50.64%11.65%6.94%O.0%2122.60%32.36%12.62%29.42%3.01%2274.34%15.46%2.92%6.71%0.58%2311.46%21.96%32.46%32.83%1.29%第76页 北京邮电大学博士研究生学位论文'∞∞∞40__一-__-__一____-●__一一-_IlI荆::::i1《ll:::::rl|;|i!妻主兰耋j{≈;;_#I÷I’::ljIji_三!i4l羞茎匡l!===mi=:=i==i:_:l三,1234567891011121314151617181920212223liD"媲务偏好模式口0-0.2圈02-0.5日0.5-1口1.20国啪图3-8用户业务偏好模式与上下行流量比的分布上图反映出:整体看来,各个偏好模式的上下行流量比特征统一表现为分布主要集中于中间区间(0.2加.5、O.5~1、1-20),而在端区间(O加.2、>20)上,只占有很少的比例;局部上有三种不同于整体的表现,模式4、22在低端区间(0-0.2)上,占有70%左右的比例,表明该模式的用户流量上行流量明显小于下行,分析这两个特殊模式的业务特点发现,这几个模式均是以VS业务为主,VS下行大于上行的特点与上图符合,所以这2个模式在以上图中所表现出的特征是J下常的。模式12、14、15,在区间(0.2加.5)上,占有50%左右的比例,表明该模式的用户流量上下行流量主要保持在1:3左右,分析这两个特殊模式的业务特点发现,这2个模式均是以GAME业务为主,GAME下行大于上行的特点与上图描述符合,所以这2个模式在以上图中所表现出的特征是正常的。模式2、5、16、21为代表所表现出来的在上行大于下行的区间(1~20、>20)上,占到40%以上,相对其他模式占有较高比例,分析这几个模式的业务特点发现,均是以P2P业务为主的,由于P2P业务自身的特点常常会上行大于下行,这与上图相符合;使用人数最多的两个模式13、17也值得关注,13模式在各区间分布较均匀,在第77页d分比 北京邮电大学博士研究生学位论文高区间(1—20、>20)上,占到30%,17模式在低区间(0-4).2)上占到约50%,在高区间(1~20、>20)上,占至U20%,,分析这两个模式的业务特点发现,13模式以WEB和P2PS业务为主,17模式以WEB业务为主,P2P业务为辅,所以,两模式在高低区间均有一定比例的分布,同时这两模式由于主业务上存在的细小区别,导致在高低区间的分布上表现为主业务中含有P2PS的13模式高区间比例高于17模式高区间比例,低区间比例低于17模式,与上图完全符合。本章小结本章首先介绍了对根据用户使用业务偏好模式对用户分组的研究意义和研究背景,然后介绍了本章分析的数据的来源。其次介绍在众多数据挖掘算法中选择层次聚类算法的原因并指出了经典层次聚类算法的缺陷。针对所发现的时间复杂度的缺陷,提出了自己的改进层次聚类算法,并给出了时间复杂度的对比结果。最后利用改进的层次聚类算法,对一日以及多日的数据进行运算,得到了相关的用户使用业务偏好模式,并特别对一个月中这些模式被用户使用的频度以及模式与在线时长和网络流量的关系进行了相关的分析。第78页 北京邮电大学博士研究生学位论文第四章用户业务使用偏好随时间变化规律研究本章研究的基础是上一章对用户业务使用偏好进行了聚类研究,重点研究是用户的业务使用偏好随时间变化的规律。特别需要指出的是,这里的时间变化既指随时间的时序变化也指时间尺度的变化。4.1研究意义以及背景1.以往的对用户偏好的研究,一般是对一段时间内的用户的偏好情况进行汇总,然后按照一定规则进行分析,得到结论。但是这种方式往往模糊了用户喜好在时间序列上的变化规律。4比如有这样2个用户:一个用户在一周内每一天都是主要业务是p2p下载(90%),但是每天也有少量为WEB业务(10%),另外一个用户一周内几乎每天都是Web业务,但是某一天突然下载了一个很大的文件,结果综合着2个用户的一周的流量发现都是90%p2p下载,10%WEB业务,如果对他们两个制订同一个网络资费套餐,显然没达到最好的针对性。2.通过时间序列分析,观察用户的业务偏好变化在时间上是否有某种规律性或者共同性。比如如果能够得出类似大部分WEB用户在周末都会使用p2p流媒体等结论,会对网络业务营销有所帮助,特别是有针对性的业务营销广告的推出时间有了好的选择依据。3.用户每一天和其他天的业务偏好差异大或者不大都是很自然的事情,完全是由用户的社会行为决定的,但是随着时间尺度的变化(比如一天到三天到一周),业务偏好差异大的用户的比例是否呈现出某种规律,是值得探讨和发现的。研究成果将对分析用户使用业务偏好变化的程度时采用何种时间尺度提供一个研究基础。J下是由于研究用户业务使用偏好随时间变化具有很大的使用价值,所以有很多学者也对这个领域进行了类似的研究:现有的研究内一般以一个网站的用户对网站页面的点击序列作为研究的特征,从而进行分析网络用户的偏好。比较典型的文章有文献[41卜[42],文献[41]的数据第79页 北京邮电大学博士研究生学位论文来源是大样本的无线应用协议(WAP)的用户数据,用户在一天的不同时间浏览行为有不同的偏好和行为。此文献对数据进行了分析以确定用户浏览模式是否取决于时间。文章审查了每小时流量并研究了用户访问不同特定类别的网页的时间。还建立马尔可夫模型,来预测用户行为,并说明这些预测模型在准确率方面超过传统的方法。文献[42]对基于数据挖掘的Web行为特征分析与研究系统做了阐述,系统旨在通过数据挖掘技术,从用户与Web服务器的交互数据中发现隐含的用户访问的规律,得到用户的访问模式和用户的兴趣,为用户的个性化服务提供基础4.2用户业务偏好变化随时间尺度变化的规律研究4.2.1数据来源为了发现同一用户在连续的时间上的业务使用情况的变化,利用已有数据建立了一张包括华南某地2009年2月28天大约24万用户在前面阐述的十项业务流量百分比的数据库表,通过此表可以获得在整个2009年2月28天,用户每一天的十项业务使用情况都可以得到,从而可以得到每个用户的上网行为在一个连续的时间序列上的变化,本章的程序算法、以及相关的分析都是针对此表进行的。4.2.2分析方法首先定义一些概念用户使用业务的变化:指用户多种业务使用在流量上所表现出的变化。由业务使用流量百分比出发进行分析。时间尺度:用户使用业务时时刻刻都会有所不同,不同时间尺度下的用户使用业务变化会表现出不同特征。首先定义一些变量:1.业务特征D。(i)。这个概念是指每个用户一天的十项业务各自的流量百分比乘以100的值,其中t代表日期(取值1’28),i代表用户使用哪种业务(取值1’10)。i与业务的对应关系如表4一l第80页 北京邮电大学博士研究生学位论文表4-1业务的编号i值业务名称1P2PDownload2P2PStream3VideoStream4W|eb5FrP6Email7IM8Game9eBusiness10V0口2.时间尺度TT的取值集合为{1,2,3,4,5,6,7,8,9,10,11,12,13,14},集合中1表示用户使用业务以1天为时间尺度逐日进行比较,即第一天使用业务和第二天相比较、第二天和第三天相比较、⋯⋯;同样的,时间尺度为3,就是,前三天用户使用业务的均值和紧接着的三天的均值相比较,即1、2、3天的均值和4、5、6的均值比较,4、5、6天的均值和7、8、9的均值比较,⋯⋯;由于分析的数据是华南某地2009年2月28天数据,所以所能取到的最大的T的取值就是14。3.比较次数Jj的含义是指在选定T后,可以进行用户业务偏好变化比较的次数。j的取值集合是{1,2,3,..⋯·,[罕],1),其中[]表示取整函数,即[竿]表示取不大于警的最大整数,记m=f警1-1,变量j可从1取到m,在时间尺度T下会有m个比较结果。由于数据表的最小时问尺度为1天,所以为了比较观察,实验选择了现在的时间尺度T={1,2,3,4,5,6,7,8,910,1L12,13},以便从最小尺度开始进行尺度连续变换的分析。4.用户业务偏好变化程度C不同时间尺度T下,用户业务偏好变化程度C的定义为第81页 北京邮电大学博士研究生学位论文10C=V臼州¨ⅢDt(i)一》1(i)TC反映的是一个用户在时间尺度T给定的情况下,用户业务偏好变化的剧烈程度,C越大,此用户业务偏好变化的程度就越激烈。5.业务偏好变点阈值R因为在分析中需要定性的给出哪些用户是业务偏好发生变化的;哪些用户是业务偏好没有发生变化的。而除了反映用户业务偏好变化的剧烈程度的C,还需要给定一个阈值,当某个用户在给定某个时间尺度T的条件下的C的值超过了这个阈值,就认为该用户业务偏好发生变化。即当CR,认为该用户业务偏好发生变化。在本章的实际数据分析过程中,R的取值范围是{5,10,12,13,14,15,20,30,40}。6.业务偏好变化人数count⋯此概念表示时间尺度T下,第j组与3+1组之间业务使用发生变化的用户数。7.用户业务偏好变化率P;。此概念的定义为COunt[j1pj2面萨甄盖碉表示第j组与j+l组相比,使用业务偏好发生变化的用户数与使用业务偏好未发生变化的用户数之比。这个概念反映的是发生业务偏好变化的用户的比例。8.平均用户业务偏好变化率PyP;平均用户业务偏好变化率石;筻,其中m;『望1.1。m【TJP表示在选定时间尺度T和业务偏好变点阈值R下用户业务偏好的均值。因为在时间尺度T和业务偏好变点阈值R确定的情况下,比如T选7,R选20,那么就会产生3个用户业务偏好变化率:分别是1-7同的与8—14日的用户业务偏好变化率,8—14同与15—21日的用户业务偏好变化率,还有15-21日与22—28日的用户业务偏好变化率。由于在做数据分析的时候,比如T选7,R选20的情况要与T选8,R选20的情况进行比较,所以需要一个均值来描述T选7,R选20的情况下的用户业第82页 北京邮电大学博士研究生学位论文务偏好变化率,所以需要平均用户业务偏好变化率这个概念来进行描述。4.2.3数据分析4.2.3.1图像分析不同的时间尺度T,不同的业务偏好变点阈值R会产生不同的平均用户业务偏好变化率,下面就进行时间尺度、业务偏好变点阈值与平均用户业务偏好变化率的关系分析。图4-1业务偏好变点阈值R--40第83页 北京邮电大学博士研究生学位论文00O02345678910111213时II*JR.I堑图4-2业务偏好变点阈值R=30从上面两幅图可以知道:当R:40、R=30时,随着时间尺度的增加,平均变化率是逐渐减小的。/\\、\//\\对鲫尺瘦图4-3业务偏好变点阈值R--20第84页脚户娩务位好变化串Ⅲ广妊艇镊好变化串 北京邮电大学博士研究生学位论文从上面的图可以看到:当R减d,至U20时,随着时间尺度的增加,平均变化率已和前两幅图有所不同,虽然曲线整体趋势是逐渐减小的,但在时间尺度为2这点,曲线还是出现了一个峰值,表现为在时间尺度上变化率先增大后减小。时鲫八度图4-4业务偏好变点阈值R=15从上面的图可以看到:当R=15时,随着时间尺度的增加,平均变化率先增加,在时间尺度为3时,平均变化率出现峰值,然后开始逐渐减小,在时间尺度为10时又会出现一个小峰值。第85页雕户考;务筒好使化串 北京邮电大学博士研究生学位论文T_14时j筮麓均体受化蚓2345678910111213T图4-5业务偏好变点阈值R=14◆一卜el"nq几度图4-6业务偏好变点阈值R:13第86页朋户娩务偏好变化半 北京邮电大学博士研究生学位论文Ⅲ鑫务嚣蹙辈n,l-paR成一图4-7业务偏好变点闽值R=12从上面的连续的三幅图可以看到:当R=14、13、12时,图像和R=15时基本相当,只是平均变化率在出现峰值后减小的速率已经变得越来越缓慢。图4-8业务偏好变点阈值R=IO第87页 北京邮电大学博士研究生学位论文图4-9业务偏好变点阈值R--5从这两幅图知道:直NR=IO、5时,图像已经发生了本质的变化,平均变化率随着时间尺度的增加不再减小,反而开始逐渐增大所有的图综合起来来看:当R=40、R=30时,随着时问尺度的增加,平均变化率是逐渐减小的;当R减小到20时,随着时间尺度的增加,平均变化率已和前两幅图有所不同,虽然曲线整体趋势是逐渐减小的,但在时间尺度为2这点,曲线还是出现了一个峰值,表现为在时间尺度上变化率先增大后减小;当R=15时,随着时间尺度的增加,平均变化率先增加,在时间尺度为3时,平均变化率出现峰值,然后开始逐渐减小,在时间尺度为10时又会出现一个小峰值;当R=14、13、12时,图像和R=15时基本相当,只是平均变化率在出现峰值后减小的速率已经变得越来越缓慢;直到R=IO、5时,图像已经发生了本质的变化,平均变化率随着时间尺度的增加不再减小,反而开始逐渐增大。4.2.3.2相关性分析这里面有一个值得注意的地方,就是在当R=12、13、14、15的时候曲线还是有第88页 北京邮电大学博士研究生学位论文些相似的。本文采用相关系数来衡量这些曲线之间的相似度。由于相关系数的计算有很多种方法,而PEARSON相关系数一般是用来计算变量之间的线性相关关系,所以本文选用的是PEARSON相关系数。它的数学定义是:cov(X,y)胁2而雨i了雨cov(X,y)是XY的协方差cov(X,y);E【(x—E(x))∥一E(】,))l,/o(x),/oo")分别是xy的方差由式子可知p胛有如下的性质:相关系数腑的取值范围在+1和-1之间,p盯>O表明两个变量存在正的相关关系;p胛<0表明两个变量存在负的相关关系。在统计学中lp盯I>o.8表明两个变量之间有较强的相关性,而I腑I这样的一个描述序列,本文的任务就是找到所有这些序列的规律性。序列的描述Xl+X2+⋯+Xn(X1≠X2≠⋯≠Ⅻ)X1、X2⋯Xn属于集合{Web、P2PStream、P2PDownload、VideoStream、Game、Email、FTP、IM、EBusiness、VOIP、空}4.3.2分析方法由于寻找的是未知的规律,所以还是采用聚类的方法来进行聚类。这里面我们采用的距离的定义如下:定义和<131,B2,B3,B4,⋯B28>之间的距离D=lA1-B1I+IA2-B2I+···+lA28-B28而fA卜B1i得定义为:假设A1----XI+)(2+⋯+XnB1=Y1+Y2+⋯+YnA1-B1I=lBI-AII=D(xl,Y1)水M。+D(x2,Y2),M2+D(X3,Y3)'Ic地+“·D(xn,Yn)木地因为一般排名比较大的业务流量肯定也是区分不同用户的主要特征,所以一般有M。>Mz>地>⋯>地吣州萨{三怒黧三曼可见,定义距离的实际物理意义就是按照各个业务的排名不同给予不同的权重,然后根据这些来区分用户之间的距离本文采用的基于K均值的聚类方法思想来进行聚类,设定距离的半径是R,也就是说如果两个序列之间的距离小于R的话,就可以看作是有相同的特征。在本次试验的实际操作的时候选择地=(0.3)n-19R=5。第92页 北京邮电大学博士研究生学位论文4.3.3数据分析通过实验得到了用户的5种主要模式1.占总用户数的25%煮4-3日期类别1WEB+P2PS+VOIP+P2PD2WEB+P2PS+VOIP+P2PD3WEB+P2PS+VOIP+P2PD4WEB+P2PS+VOIP+P2PD5WEB+P2PS+VOIP+P2PD6WEB+P2PS+VOIP+P2PD7WEB+P2PS+VOIP+P2PD8WEB+P2PS+VOlP+P2PD9WEB+P2PS+VOIP+P2PD10WEB+P2PS+VOIP+P2PD11WEB+P2PS+VOIP+P2PD12WEB+P2PS+VOIP+P2PD13WEB+P2PS+VOIP+P2PD14WEB+P2PS+VOIP+P2PD15WEB+P2PS+VOIP+P2PD16WEB+P2PS+VOIP+P2PD17WEB+P2PS+VOIP+P2PD18WEB+P2PS+VOIP+P2PD19WEB+P2PS+VOIP+P2PD20WEB+P2PS+VOIP+P2PD21WEB+P2PS+VOIP+P2PD22WEB+P2PS+VOIP+P2PD23WEB+P2PS+VOIP+P2PD24WEB+P2PS+VOIP+P2PD25WEB+P2PS+VOlP+P2PD26WEB+P2PS+VOIP+P2PD27WEB+P2PS+VOIP+P2PD28WEB+P2PS+VOIP+P2PD第93页 北京邮电大学博士研究生学位论文1.占总用户数的25%表4-4日期类别1WEB2WEB3WEB4WEB5WEB6WEB7WEB8WEB9WEB10WEB11WEB12WEB13WEB14WEB15WEB16WEB17WEB18WEB19WEB20WEB2lWEB22WEB23WEB24WEB25WEB26WEB27WEB28WEB第94页 北京邮电大学博士研究生学位论文2.占总用户数的5%表4-5日期类别lWEB+P2PS+VOIP+P2PD2WEB+P2PS+VOIP+P2PD3WEB+P2PS+VOIP+P2PD4WEB5WEB+P2PS+VOIP+P2PD6WEB+P2PS+VOIP+P2PD7WEB8WEB9WEB+P2PS+VOIP+P2PD10WEB+P2PS+VOIP+P2PD11WEB+P2PS+VOIP+P2PD12WEB+P2PS+VOlP+P2PD13WEB+P2PS+VOlP+P2PD14WEB15WEB+P2PS+VOIP+P2PD16WEB17WEB18Ⅵ吧B+P2PS+V0lP+P2PD19WEB20WEB21WEB22WEB23WEB+P2PS+VOIP+P2PD24WEB+P2PS+VOIP+P2PD25WEB+P2PS+VOIP+P2PD26WEB27WEB+P2PS+VOIP+P2PD28WEB第95页 北京邮电大学博士研究生学位论文3.占总用户数的3%表4-6日期类别1WEB2WEB3WEB4WEB5WEB6WEB7WEB8WEB9WEB10WEB11WEB12WEB13WEB+P2PS+VOIP+P2PD14WEB15、砸B+P2PS+VOIP+P2PD16WEB+P2PS+VOIP+P2PD17WEB+P2PS+VOIP+P2PD18WEB+P2PS+VOIP+P2PD19WEB+P2PS+VOIP+P2PD20WEB+P2PS+VOIP+P2PD2lWEB+P2PS+VOIP+P2PD22WEB+P2PS+VOIP+P2PD23WEB+P2PS+VOlP+P2PD24WEB+P2PS+VOIP+P2PD25WEB26WEB27WEB+P2PS+VOIP+P2PD28WEB+P2PS+VOIP+P2PD第96页 北京邮电大学博士研究生学位论文4.占总用户数的1%本章小结表4-7日期类别1WEB2WEB+P2PS+VOIP+P2PD3WEB+P2PS+VOIP+P2PD4WEB+P2PS+VOIP+P2PD5WEB+P2PS+VOIP+P2PD6WEB7WEB8WEB+P2PS+VOIP+P2PD9WEB+P2PS+VOIP+P2PD10WEB+P2PS+VOIP+P2PD11WEB12WEB+P2PS+VOIP+P2PD13WEB14WEB+P2PS+VOlP+P2PD15WEB+P2PS+VOIP+P2PD16WEB+P2PS+VOIP+P2PD17WEB18WEB+P2PS+VOIP+P2PD19WEB20WEB+P2PS+VOIP+P2PD21WEB22WEB23WEB24WEB+P2PS+VOIP+P2PD25WEB+P2PS+VOIP+P2PD26WEB+P2PS+VOIP+P2PD27WEB+P2PS+VOIP+P2PD28、ⅣEB+P2PS+VOIP+P2PD本章首先介绍了用户业务使用偏好随时间变化规律研究的研究意义和研究背景,然后对本章所分析的数据来源进行了介绍。接着本章对用户业务偏好变化随时间尺度变化的规律进行研究,通过定义一系列的分析指标,通过对实际数据的处理,第97页 北京邮电大学博士研究生学位论文揭示了用户业务偏好变化率随时间尺度、业务偏好变点阈值变化而变化关系。并对变化关系中的特点进行了解释和分析。其次对用户在一个月的时间序列中,出现的最多的几种用户业务偏好模式变化序列进行了总结和展示。第98页 北京邮电大学博士研究生学位论文第五章基于非齐次泊松模型的用户上下线行为研究5.1研究意义及背景对网络用户上下线情况的分析,本身既是网络用户行为分析的一种,同时也具备十分实际的用途:首先,通过建立用户上下线模型可以提高运营商服务器的利用与负载均衡。运营商的服务器在一天24小时内的负载是不同的,而且在节假日与非节假同的负载也是不同的。通过建立用户上下线模型可以使运营商服务器根据实际情况进行负载均衡,从而达到最优的服务质量。其次,通过建立用户上下线模型可以支撑运营商和服务提供商的市场决策、站点客户群体的分析。从而进行有针对性的营销,达到最优的营销效果。再次,通过建立用户上下线模型检测非法用户以及运营商提高服务质量等方面也有非常重要的意义。鉴于以上原因,网络用户上下线行为的分析研究越来越被重视。近年来,很多研究者一直致力于收集和分析的用户上网行为。已有的研究范围包括无线网络、拨号调制解调器、网络流量数据、AT&T调制解调器等。研究者们得到了很多很有意义的结论,这方面的代表文献主要有文献[39]和[40],文献[39]采用从一个美国国家的拨号上网服务提供商RADIUS服务器上采集的从2000年5月通过2000年9月总共60多万不同的用户登录信息的数据。针对这5个月的用户登录的数据。文献首先以1分钟为间隔对节日、周末、和普通一天的登录次数变化的异同进行了描述。然后又对用户不同日期一天的在线时长的分布进行了分析,然后对用户的地理分布以及不同地区平均登录时间进行了分析,此外还对用户数目的变化做出了估计模型。文献[40]与文献[39]的作者单位和数据来源基本一样,某些研究内容也雷同,不同之处在于以5分钟为间隔对几个月的登录次数变化的异同进行了描述,以及对几个月的在线时长分布分别作了对比分析,还研究了单个用户的登录间隔时间分布。总的来讲文献[40]更加注重从用户个体的角度束进行数据分析。本文在深入研究用户的上下线数据基础上,提出了基于非齐次泊松过程的用户第99页 北京邮电大学博士研究生学位论文上下线行为量化指标和数学模型。5.2齐次泊松过程与非齐次泊松过程5.2.1齐次泊松过程由随机过程知识知道,泊松过程的定义是:计数过程{Ⅳ(幻,芒≥0}称为泊松过程,参数为入,入>O,如果(1)Ⅳ(O)=O(2)过程有平稳与独立增量(3)P(N(△t)=1)=入△t+o(At)(4)P(N(△t)/>2)=o(△t)这里的入是恒定的,是与时刻变化没有关系的,也就是平稳的。5.2.2非齐次泊松过程当泊松过程的强度入不再是常数,而是与时间t相关的时候,泊松过程就被推广为非齐次泊松过程。非齐次泊松过程定义为:计数过程{Ⅳ(幻,芒≥0}称为非齐次泊松过程,有强度函数入(t)>0,如果(1)N(0)=O(2)过程有独立增量(3)P(N(△t)=1)=入(t)At+o(△t)(4)P(N(At)≥2)=o(At)一般来说,非齐次泊松过程是不具有平稳增量的。在实际中,非齐次泊松过程的用途是非常普遍的,比如在考虑设备的故障率的时候,由于设备使用的年限的变化,出故障的可能性会随之变化;昆虫的长卵平均数目岁年龄和季节而变化等。在这些情况下,再用齐次泊松过程来描述就不合适了,应该用非齐次泊松过程来处理。实际上,根据数据上的定义,非齐次泊松过程不过是“换了一个时钟来计时"的泊松过程,通过时问尺度的变化,齐次泊松过程和非齐次泊松过程之问可以相互转化。第100页 北京邮电大学博士研究生学位论文5.3分析的数据来源分析数据来源是中国最大的宽带网络运营商之一在某典型城域网网络覆盖的所有拨号宽带用户的数据。在城域网出口链路部署了专门的用户行为数据采集系统用来采集和记录宽带用户上网的详细数据。数据采集的过程如下:1.用户行为数据采集系统通过分析从A系统的认证和计费交互,提取拨号用户账号和IP地址的实时对应关系。2.用户行为数据采集系统将用户上网的原始报文与用户实时在线信息进行关联,确定报文与用户的对应关系。3.系统通过业务识别引擎,对用户上网业务进行准确识别,生成用户上网业务数据,并存储到数据库中。4.每日对上述流量数据进行汇总,产生Iiif一日每个拨号用户一天的各业务流量数据。用户行为数据采集系统的业务识别引擎采用全硬件探针架构设计,实现了线速率的l:1流量信息采集,采集速度达到10Gbps。论文本章使用的数据是华东某市2008年11月3周的数据,华南某省2009年2月4周的数据。这些数据主要包括这些省市用户每一天中每一次上线和下线的时刻。后续分析中,本文将原始用户账号进行了替换,同时保持每个用户的数据一致性,不影响分析结果。5.4使用非齐次泊松模型分析的原因5.4.1数据的直观感受由于用户是否登录或者退出登录在正常条件下,是由用户的主观行为和社会行为所决定的,所以可用泊松过程来进行理论分析。一第101页 北京邮电大学博士研究生学位论文24小时内5分钟的时间间隔序列图5-12009年2月某天的以五分钟为一个间隔的上限人数统计24小时内10秒钟时间间隔序列图5-22009年2月某天的以10秒钟为一个间隔的上限人数统计第102页 北京邮电大学博士研究生学位论文从图5—1和图5-2中可以看出,在一天的不同的等间隔时段内(在图5-1中都是5分钟长),上限人数的数值是不同的,也就是上线人数的到达强度在一天24小时不同时刻是不同的。但是齐次泊松过程的强度九是一个不随时间变化的数值。由上图的直观感觉知道,如果使用齐次泊松过程来描述似乎与主观的感觉是不相符合的,那么,在细时间尺度范围下用户登录或者退出登录到底是否符合齐次或者非齐次泊松过程需要用数据进行验证。5.4.2非齐次泊松过程的数据验证事件,kAl'.”,An在m次重复观测中出现的频数分别为fIl0,ml,.一,lllII,且乏聊r=朋。上述假定用到以下事实:即使是泊松分布,重复观测m次时,也只鹾观测到有限分布P似),其中P为未知参数。将检验的假设x(t)’P瓴)转化为检验以下假设:H。:Pi=P(A;)=p(xO);f)=鲁e~,f=0,1,...,,l一1Pn=P(An)2p伍o)苫甩)2荟景P以(1’A,三m∑帆俘将A代入(1)式可以估计出P;。可用X2检验H。。检验统计量n毫掣司km(m川i叫2塞Ⅲm--L万川第103页 北京邮电大学博士研究生学位论丈根据文献[44]的定理:若n充分大(n≥50),则当H。为真时,统计量x2一耋竺;一m近似服从z2(k-r-1)删ff,其中r是被估计的参数的个数。‘10m阢所以,在H。成立时近似服从自由度n+l一1一l=n一1的z2分布。给定显著性水平口,可得H。的拒绝域为W=k22虎。O一1)}以一天的实验数据为例,把全天按照5分钟为一个间隔,分为288个时段,每个时段就是300秒,以1秒的上线人数作为统计的基数,按照上面的方法(显著性水平口取值0.05),对288个时段依次计算:结果如下(篇幅所限,仅列出前15个):表5-1时段数Possion原始值卡方值表119.3523.68216.6122.36317.7322.59416.5325514.4426.3618.3223.68715.9819.68819.6522.36916.65251017.8521.031115.6919.681217.86251319.6521.031416.2423.681519.6823.68验证数据表明了288个值都表明了在显著性水平口取值0.05的条件下,大部分时段都可以认为是服从泊松过程的。本文验证计算了大约20天的数据,每天都是288个时段,共验证了5760个时段,实验结果证明,这20天的5760个5分钟时段中有4944个时段都是服从泊松分布的,大约占总数的85.83%,那些不符合的时段第104页 北京邮电大学博士研究生学位论文比较集中,都是在9点到10点左右,很多是因为人数在高位震荡,所以得到的结果处于拒绝域。具体20天的假设检验统计结果如表5-2:表5-2天数泊松假设检假设检验成立占验成立时段总数的百分比数目1.24886.11%2.25086.80%3.23982.98%4.24484.72%5.25187.15%6.26692.36057.23882.63%8.26893.05%9.25889.58%10.26692.36%11.23882.630512.23982.98%13.25688.88%14.26993.40%15.22979.51%16.23481.25%17.24484.72%18.25086.80%19.22778.81%20.23079.86%另外,把全天分成288个时段,按照每5分钟统计登陆人数进行全天登录泊松过程假设检验,进行了20天的实验,得到的结果如表5—3第105页 北京邮电大学博士研究生学位论丈表5-3天数泊松检验值卡方值1545.3113.142687.4113.14315522101.8841247101.885241.390.536108.6113.147351.790.538268.4l13.1491258101.8810456990.531l99.8101.8812120.6l13.14131236101.8814112.4113.1415564.5101.8816120.590.5317144490.5318469.3101.8819236.590.53204231101.8820天的数据检验中只有2天没有处于拒绝域,其它18天都不能经过假设检验证明是泊松过程,所以,全天来看,不是一个齐次泊松过程,但是就每个时段内部(比如5分钟)来看,却是齐次泊松过程,所以选择用非齐次(或叫非平稳)Poisson过程作为登录或离线用户数目所服从的数学模型。对实际数据的观察可知,一天内登录的到达流或者离开流的强度是不同的,是随着时间变化的,即入是t的函数。所以齐次的平稳的泊松过程已经不适用了,引入非齐次的泊松过程。这样使得模型更加贴近实际。5.5问题的描述和假设网络用户上下线有两个基本行为:登录和退出登录。当用户登录或退出登录的时候,他的状态会变成在线或者离线,用户在线离线的时间段是随机的。作为反映用户上下线行为的重要参数,首先研究一天中每个时刻用户登录和退出登录的概率。第106页 北京邮电大学博士研究生学位论文将一天24小时分成M个At的时间段。A进取的条件是,在A芒时间内,用户行为改变两次的可能性基本上零。对于每个用户来讲,在t时刻只有2个状态,离线或者在线,如果进行状态转化,就需要有登录动作和退出登录的动作。I·pl0nl址O‰l·mOnline0f№e图5-3状态转换图假设每个用户彼此独立,在t时刻到t+厶t时刻都以相同的概率进行如下的状态转换。如图,p,就是一个在线用户在t时刻退出登录的概率。p^就是一个离线用户在t时刻登录的概率。以上假设有个疑问:下线概率是否与在线时长密切相关对这个问题做出的数据分析,采用的数据是2008年11月华东某市的数据。现在对其中一天的登录和退出登录的数据做如下处理,将全天24d,时以5分钟为间隔分成288个时间段,对每个时间段,比如,首先统计在这个时间段的前端时刻(8点5分)在线的用户的数目以及这些用户到这个时刻为止已经上线的时长,这个时长的值域是从0-24d、时,将在线时长值域0-24fix时分成12组,如(0-2)⋯(22—24)。这样把在这个时间段的前端时刻(8点5分)在线的用户也可以分成12组,再统计这12组的用户分别有多大的比例在接下来的5分钟里下线,如果在线时长与下线行为密切相关,则在这288个时段中不同在线时长的用户的下线比例应该大相径庭。比如在8点5分一8点10分时间段里,截止8点时在线时长为16-18d、时和在线时长为4-6tb时的用户的下线比例应该差距较大。下面就是在线时长为16-18t]、时和在线时长为4-6d、时的用户的下线比例变化曲线:第107页 北京邮电大学博士研究生学位论文●.●—●∞●.-∞●∞●.,e●0000●.■_●.moao●.tdNqO●.O∞∞O以5分钟为问隔的288个时问段——I‘’l●▲——●、A图5-4在线时长16-18小时和在线时长4-6小时的用户的下线比例变化曲线下面的图是各个用户组的比例变化:●.抛●一●.1■∞●●.I—O∞●.●■O一0.■●●啊以5分钟为问隔的288个时问段图5-5各个用户组的比例变化第108页——O’2h——2’Ih●~6h——l‘8h0’IOh——10".12摹12’14h——14’16h16。18h——18’20h——20’22h——22"24h下线比伪下线比饲 北京邮电大学博士研究生学位论文可见各个在线时长不同的用户组在下线比例方面在全天288个时刻的差距不是特别大,而且变化趋势也比较相似,从而说明在线时长与下线概率不是紧密联系的。5.6基于非齐次泊松过程用户上下线行为建模分析5.6.1用户上下线行为的非齐次泊松过程描述可以注意到,登录或者退出登录的人数的随时间变化曲线并不是十分柔滑的,有很多的突变。如果采用回归方法来分段估计,可能会有一些较大的误差,所以可以采用较细粒度的时间分段常量函数来对这种非齐次现象来进行描述:假设将一天24小时分成若干个合适的At,则一天被分成如下时段:(0,At】,(△t,2△t】,(2△t,3△t】..·,(24一At,24],则入(t)的表达式为圳:挂避九((24h—At,24h】其中入(t)的在各个区段的值可以根据具体数据的实际情况得出,不同的数据的入(t)的值肯定是不同的。对实际数据的分析可知,一天24小时不同时刻登录或者退出登录用户的到达流的强度是不同的,是随着时间变化的,即入是t的函数。所以齐次的平稳的泊松过程已经不适用了,引入:设No卯(t)为t时刻离线的用户数;N。。(t)为t时刻在线的用户数。则在时问间隔[t,t+At)出现klog个用户登录动作的概率为P(klog)=kl!±丝2=竺垒牡!£书(吣h(f)】k。。产o,l,2⋯..No盯(t)(2)七魄!其中re(t)2CAo)如称为非平稳泊松过程的强度。由于入是t的函数,不妨现在做如下假设:在全天的M个At中的每个△t中,入是不变的,即在[t,t+At)区间内,入=入(t)保持不变,也就是在t+AS时刻(As去』3的时佩函数等为单调增函数,而N>1,所以保证结果等式大于0成立。2.右端验证警M警)+玎1k⋯-(1nNo/:l-In(Noff--klog舳经过化简后得到刮芒-孥kNo//未No/:)s1Ⅳ够I【Ⅳ研log.七崦2J采用Stifling公式得到化简得到与No/:n卜IN啊一kl。gN.N研一k109N.}IsⅣ够“Iog/第117页 北京邮电大学博士研究生学位论文式子左N4,于零右侧大于零,所以一定成立。由此证明,值域对K的取值没有影响。对N的取值要求就是较大的值。由于实际数据的取值确实比较大,所以成立。5.7模型的数据验证5.7.1.对用户一天内各个时刻上下线人数的验证模型的数据初步验证是如下进行的:建模的依据数据是华东某市的2008年11月第二周7天的数据,根据模型算法对着这七天的每一天的数据进行建模再取均值(时间间隔取5分钟),预测对象是同样地域的11月第三周和第四周一共14天的每天288个时间间隔(时间问隔取5分钟)的下线人数的预测。预测结果的优劣以人数偏差的百分比(一律取正)来衡量,结果如下:表5-6预测结果误差日期偏差百分比的均值(%)偏差百分比的方差(%)2008.11.177.34.82008.11.185.15.42008.11.195.15.12008.11.205.25.02008.11.2l4.93.62008.11.227.57.62008.11.239.88.22008.11.245.94.52008.11.254.74.62008.11.2636232008.11.2710.88.82008.11.2814.08.O2008.11.298.08.22008.11.308.O7.5根据上表可知,除了2008年11月26日这一天的数据的预测数据差距特别巨大之外,其它的误差值均值一般都在4%一10%左右,方差在3%-9%之间。另外可以发现周末与工作同的是有区别的。本文又找了一个地域的数据来做验证实验:2009年2月华南某市某链路的一个月4周数据来做实验,用2月第一周数据做模型计算,对后面3周21天的数据进行验证结果如下:第118页 北京邮电大学博士研究生学位论文袁5-7预测结果误差同期偏差百分比的均值(%)偏差百分比的方差(%)2009.02.087.15.42009.02.098.16.52009.02.105.13.82009.02.117.46.62009.02.128.97.82009.02.1314.27.42009.02.1411.79.82009.02.159.87.72009.02.1611.748.82009.02.1710.78.42009.02.189.18.22009.02.1911.08.32009.02.2012.37.52009.02.2l9.810.42009.02.228.76.92009.02.2311.29.82009.02.241O.58.42009.02.2512.08.52009.02.2612.611.12009.02.2710.7lO.22009.02.28l5.517.6分析这些数据可知,误差均值范围在5%-15%之问,方差范围在5%-17%之间,个别天出入较大,华南某市的数据误差整体比华东某市的要大,原因主要是华南某市用户数少,所以数字的绝对值变动使得误差的幅度变大。5.7.2对不同用户组的上下线概率的描述5.7.2.1用户平均退出登录概率的数据分析将模型应用于中国南方某大城市的2008年连续三天的用户上下线记录,At取值5分钟,计算用户的平均退出登录概率P。,结果如图3所示:第119页 北京邮电大学博士研究生学位论文⋯⋯∞⋯⋯⋯⋯∞b∞l。"帅m2,∞tline图5—7用户退出登录概率转移图从图中可知,从这三天的数据分析可知用户在10:oo到15.00的时候,退出登录的概率都比较低,而在0:00—6:oo,退出登录的概率则比较高,从7:00到lO:00,退出登录的概率显著下降而且速度很快;而21:30以后退出登录的概率显著上升。连续3天的退出登录的概率十分相似。由于用户的网络行为千差万别,从而将用户的根据其它的网络行为特征进行分组,然后再来观察不同用户组在退出登录的概率上的差别就显的很有意义。将用户按一周内每天的平均登录次数分组,分成卜5次6—10次ll一20次和大于20次4组。图5-8按登录次数分组的用户退出登录概率转移图从图中可知,大于20次的用户组的退出登录概率与其他3个用户组的退出登录概率变化趋势完全不同,数值也远远大于其它三个组分。其它三个组分之间还是比较相似的,而且一天内的变化也比较平缓。第120页 北京邮电大学博士研究生学位论文将用户按一周内每天的在线时长分组,分成在线时长大于4小时,1小时到4小时和5分钟到1小时3组。图5-9按在线时长分组的用户退出登录概率转移图从图中可知,在线时长在5分钟到1小时的用户组的退出登录概率与其他2个用户组的退出登录概率变化趋势完全不同,数值也远远大于其它2个组分。其它2个组分之间还是比较相似的,而且一天内的变化也比较平缓。5.7.2.2用户在指定时段内持续在线的概率分析根据得到的单向随机状态转移概率图和上面计算的概率,可知表5-8所反映的用户在指定时段内持续在线的概率分析表5-8用户在指定时间段内持续在线平均概率10月20日lO月21日10月22日8点一11点0.204O.2190.21611点-14点0.3010.2970.30414点-17点0.2530.2390.23617点-20点O.172O.1770.17520点-23点0.0700.0680.069从表5-8中可知,用户在1l点’14点内持续在线平均概率最高,而在20点、23点最低。将用户按一周内每天的平均登录次数分组,分成1、5次6’10次11、20次和大于20次4组。第121页 北京邮电大学博士研究生学位论文表5-9登录次数群组用户在指定时间段内持续在线概率卜5次6-10次11-20次>20次8点-11点0.700.620.400.00111点-14点O.75O.710.480.0114点-17点O.660.660.430.0117点-20点O.580.640.45O.0l20点一23点0.460.450.360.01从表5—9中可知,平均登录次数越少,指定时问段内持续在线概率越大,各个用户组都是在1l点’14点内持续在线平均概率最高,而在20点’23点最低。登录1’5次的用户组和登录6’10次的用户组在各个时间段内的持续在线平均概率最高十分相似。将用户按一周内每天的平均下载流速分组,分成50’1k、lk’10k、10k、50k和大于50k共4组。表5-10下行流速用户组时间段内持续在线概率50-1k1k—lOklOk-50k>50k8点-11点0.330.5lO.640.561l点-14点0.420.580.680.5814点-17点0.36O.55O.670.6017点-20点0.350.480.67O.6120点-23点0.270.390.520.45从表5—10中可知流速10k到50k的用户组是所有用户组里持续在线概率最高的。所有用户组都是在11点、14点内持续在线平均概率最高,而在20点’23点最低。低流速用户组在各个时间段内的持续在线平均概率十分平均。本章小结本章对利用非齐次泊松过程对网络用户上下线进行了建模分析。本章首先介绍了对网络用户上下线进行建模分析的意义和相关的研究背景,然后对非齐次泊松过程进行了介绍,特别强调了齐次泊松过程与非齐次泊松过程的异同。本文通过对实际数据使用假设检验的方法来证实了用户上下线确实符合非齐次泊松过程,接着利用非齐次泊松过程对用户上下线行为进行了建模,并在相关假设的条件下理论推导第122页 北京邮电大学博士研究生学位论文出了用户上下线概率的计算公式。最后对用户上下线概率的公式进行了理论验证和数据验证。并给出了不同用户业务偏好模式的不同用户上下线登录概率分布图。为将来进一步的研究打下了坚实的基础。第123页 北京邮电大学博士研究生学位论文结束语:总结与展望近年来,互联网的高速发展已经渗透到整个社会生活的各个方面,而互联网的快速发展的一个重要原因就是互联网上越来越多的业务的发展:正是因为互联网为用户提供了日新月异的业务和服务,才使得互联网本身已经成为全世界的人们工作、生活、娱乐当中的不可缺少的部分。而对以电信运营商和政府相关监管部门来讲如果能得到网络用户业务使用的偏好模式和用户上下线行为就显得十分重要。在现实的网络中,由于带宽资源是有限的,而现在越来越多的新业务要求更高的带宽,比如即将进行的三网融合中提供高清的IPTv就需要比较高的带宽:文献[47107提到12M是传输高清电视的基本带宽。现有专门针对网络用户使用业务偏好模式的研究还是比较少的,大多少是集中在网页、网站的使用偏好使用模式上,而进行网络用户上下线行为进行分析的就更少了。本文在现有研究的基础上,主要利用我国南方华东和华南两条电信省级骨干链路的真实采集数据,根据对互联网现有各种业务的使用现状分析,选择了Web等十种业务,利用本文根据数据特点进行改进的层次聚类方法进行用户业务使用偏好分组,并对结果进行了深入分析。此外还利用非齐次泊松过程进行了用户上下线行为的建模和分析。本文根据采集到的真实的网络省级骨干网的数据和进行网络用户业务偏好模式分析的目的选定了层次聚类的算法。并针对层次聚类算法的缺陷,提出了以降低时间复杂度为目的的改进聚类算法,数据验证结果表明,改进算法与经典层次聚类算法相比,时间执行效率大大提高了10倍左右。即使是与基于最小生成树的改进层次聚类算法相比,算法也提高了3倍左右。本文首次揭示了不同时间尺度下的网络用户业务使用偏好模式的组成以及各个网络用户业务使用偏好模式的人数分布。并且深入分析了不同的网络用户业务使用偏好模式的使用频度的区别以及网络用户业务使用偏好模式与网络用户的每天在线时长、网络用户每天的流量以及流量的上下行比例的关系。本文还对形成这些分布和关系的特点的原因进行了分析和解释。本文不仅根据改进的层次聚类算法对网络用户业务使用偏好模式进行了分析,而且首次进一步将时间变化与网络用户业务使用偏好模式结合起来进行分析,对用户业务偏好变化随时间尺度变化的规律进行研究,通过定义一系列的分析指标,通第124页 北京邮电大学博士研究生学位论文过对实际数据的处理,揭示了用户业务偏好变化率随时间尺度、业务偏好变点阈值变化而变化关系。并对变化关系中的特点进行了解释和分析。然后对用户在一个月的时间序列中,出现的最多的几种用户业务偏好模式变化序列进行了总结和展示。本文首次利用非齐次泊松过程对网络用户上下线行为进行建模分析。本文主要通过对网络用户上下线行为建立非齐次(或叫非平稳)Poisson过程的数学模型,然后认为它又可用二项分布描述,最后依据同一事件的发生概率相等而导出计算在线(或离线)用户转到离线(在线)的概率公式,从而进一步分析网络在一天内的各个时段的忙闲状况概率。本文使用假设检验的方法用实际数据来验证用户上下线确实符合非齐次泊松过程,并对用户上下线概率的公式进行了理论验证和数据验证。验证结果皆印证了结论的合理性。此外本文还给出了不同用户业务偏好模式的不同用户上下线登录概率分布图。为将来进一步的研究打下了坚实的基础。本文旨在通过对给予业务和时间变化的网络用户行文的研究,试图掌握互联网主流的用户业务使用偏好模式以及用户上下线概率模型,为完善现有网络用户行为研究成果以及为运营商进行针对性营销、客户细分以及套餐资费的制定提供有价值的参考。由于作者的知识和精力有限,本文还有很多不足之处,诚恳的希望各位专家批评指正。第125页 北京邮电大学博士研究生学位论文参考文献【1】中国互联网信息中心(CNNIC)第23次中国互联网络发展状况统计报告(2009.1)http://www.cnnic.net.cn/uploadfiles/pdf/2009/1/13/92458.pdf.【2】用户行为艺术http://www.wgo.org.cn/Articles/243.htm.【3】何明升网络行为的哲学意义自然辩证法研究.2000,1:56.【4】周运清,苏娜,网络行为与社会控制.情报杂志.1999,5:11.【5】隋结方勇群体网络行为模型研究与应用四川大学硕士毕业论文【6】赵佐,蔡皖东,田广利基于异常行为监控的僵尸网络发现技术研究《西北工大学报》2007第12期【7】黄光球胡晓婷刘通基于突变理论的网络异常行为分析方法《微电子学与计算机》2006第23期【8]IP网络用户行为分析方法的探讨http://hi.baidu.com/pp2p/blog/item/2ab9f6500fe6c65e1138c268.html.【9]PaoloGiudici.AppliedDataMining:StatisticalMethodsforBusinessandIndustry.BELLING:PublishingHouseofElectronicsIndustry.october2003:1-10.【10】电信全业务运营市场研究报告一IBM中文版2008.3【1112007.2008年中国电信运营商监测报告北京华经纵横经济信息中心2009【141马力焦李成一种Intemet的网络用户行为分析方法的研究微电子学与计算机,2005【15]HumbertoT.MarquesNt.CharacterizingBroadbandUserBehaviorNRBC’042004【18]KuaiXu,Zhi-LiZhang,SupratikBattacharrya,ProfilingInternetBackboneTraffic:BehaviorModelsandApplications.In:ACMSigcomm2005.Philadelphia,PA.August2005.【191W.E.Leland,M.S.Taqqu,W.Willinge,D.V.Wilson.OnTheSelf-SimilarNatureofEthernetTraffic.(Extendedversion).1EEE/ACMTransactionNetworking,1994,2:1.15.【20]基于用户行为分析的内容推送http://hi.baidu.com/sigz/blog/item/dfd2ad6ea5f9f4df81cb4a2e.html【21]tfJ辉,蔡利栋.Linux进程行为的模式提取与异常监测.中国体视学与图像分第126页 北京邮电大学博士研究生学位论文析.2003,9:166-168【22]董富强网络用户行为分析研究及其应用西安电子科技大学硕士论文2005。【231胡庆林叶念渝朱明富数据挖掘中聚类算法的综述《计算机工程》2007【24]丁继承基于聚类分析的电信客户细分系统研究与设计哈尔滨工业大学硕士毕业论文2006【25]陈敏苗夺谦段其国基于用户浏览行为聚类Web用户计算机科学2008【261吴斌傅伟鹏一种基于群体智能的Web文档聚类算法计算机研究与发2002【27]马力焦李成一种基于路径聚类的Web用户访问模式发现算法计算机科2004【281陈云飞刘玉树一种基于密度的启发性群体智能聚类算法北京理工大学2005【29]T永利关联规则挖掘算法及其Web挖掘上应用的研究哈尔滨工程大学硕士论文2003【30]潘蕾苏晶网络访问行为关联规则提取的研究与设计计算机应用与软件2003【31]戴臻基于特定模式树的用户行为关联规则挖掘算法计算机系统应用2007【321李贤鹏何松华改进的ID3算法在客户流失预测中的应用计算机工程与应2009【33】曾雪胡建华基于代价敏感的决策树的电信离网分析模型计算机与现代化2009【341fig竞谢鲲C4.5算法在移动通信行业客户流失分析中的应用计算技术与自动化【35]MofrehHogotemporalwebusageminingIEEEWL032003【36]段隆振朱敏基于双K0honen神经网络的Web用户访问模式挖掘算法计算机工程与科学2009【37]RIJ蓉陈鹏个性化网页推荐中基于神经网络的自适应用户模型研究电子测量技术2007【381吴丽花刘鲁基于动态自组织映射网的用户兴趣建模方法计算机集成制造系统2006【39IRonHutchinsUsageCharacteristicsofDial—inInternetUsers:ANationalStudy2002【40】Hutchins.Internetuseraccessviadial-upnetworks—trafficcharacterizationandstatisticsNSTL022002【41]MartinHalveyTimeBasedPatternsinMobile-InternetSurfingCHI2006Proceedings2006【42]谢春丽基于数据挖掘的Web行为特征分析与研究苏州大学硕士毕业论文2006【43】曾红月时序数据挖掘方法研究计算机工程与设计2009【441概率论与数理统计(浙大第3版)盛骤/盛骤谢式千潘承毅编2001高等教育第127页 北京邮电大学博士研究生学位论文出版社【45]PaoloGiudici.AppliedDataMining:StatisticalMethodsforBusinessandIndustry.BEIJING:PublishingHouseofElectronicsIndustry.october2003:1·10.【46]MicheleGaretto,DanielR.Figueiredoy,RossanoGaeta.“AModelingFrameworktoUnderstandtheTusslebetweenISPsandPeer-to—PeerFileSharingUsers".DissertationComputerScienceDepartment,UniversityofTorino,Italy.【47]Andriantiatsaholiniaina,L.A.,Trajkovic,L..“AnalysisofuserbehaviorfrombillingrecordsofaCDPDwirelessnetwork”LocalComputerNetworks,2002.Proceedings.LCN2002.27thAnnualIEEEConferenceon6-8Nov.2002.[48]((2009年中国网络游戏市场白皮书》文化部2009[49]中国互联网信息中心(CNNIC)第24次中国互联网络发展状况统计报告[50]《浅析二项分布、泊松分布和正态分布之间的关系》于洋企业科技与发展,2008年第20期【51]K.Fukuda,KCho,andH.Esaki.TheimpactofresidentialbroadbandtrafficonJapaneseISPbackbones.SIGCOMMCCR,35(1):15--21,Jan.2005.【52]MarceloMaia,JussaraAlmeida,VirgflioAlmeida.IdentifyingUserBehaviorinOnlineSocialNetworks.EuropeanConferenceonComputerSystems.Proceedingsofthe1stworkshoponSocialnetworksystems.Glasgow,Scotland.Pages:1-6ISBN:978—1—60558-124—8Apr.2008【53]AdrianoPereira,GustavoFranco,LeonardoSilva,WangnerMeiraJr.“AHierarchicalCharacterizationofUserBehavior”.2004【54]YemingHu,A.NurZincir-Heywood.ModelingUserBehaviorsfromFrPServerLDgs.Proceedingsofthe4thAnnualCommunicationNetworksandServicesResearchConference(CNSR’06)2006【55]DanielA.Menasc6,VirgilioA.F.Almeida,RodrigoFonseca,MarcoA.Mendes.AMethodologyforWorkloadCharacterizationofE-commerceSites.Proceedingsofthe1stACMconferenceonElectroniccommercetableofcontentsDenver,Colorado,UnitedStatesPages:119—-1281999【56]K.Xu,Z.-L.ZhangandS.Bhattacharyya.Profilinginternetbackbonetraffic:Behaviormodelsandapplications.inProc.ACMSIGCOMM,Aug.2005,PP.169—180.【57]AdrianoPereira,GustavoFranco,LeonardoSilva,WangnerMeiraJr.“AHierarchicalCharacterizationofUserBehavior”.2004第128页 CLARANS分割方法中基于随机搜索的大型应用聚类算法CNNICChinaIntemetNetworkInformationCenter,中国互联网络信息中心CSSCascadingStyleSheet,级联样式表CVIClusteringValidityIndex,聚类有效性评价指标DBdatabase,数据库“DBSCANDensity—BasedSpatialClusteringofApplicationswithNoise,一个基于密度的聚类算法DFIDMDNSDPIEBusinessEclipseE.mailEMuleERPFCFTPGameGrid.basedHCDeepFlowInspection,深度流检测技术DataMining,数据挖掘DomainNameSystem,域名系统DeepPacketInspection,深度包检测技术ElectronicBusiness,电子商务一个基于Java的开放源代码丌发平台电子邮件一个开源免费的P2P文件共享软件EnterpriseResourcePlanning,企业资源计划FractalClustering一种栅格聚类算法FileTransferProtocol,文件传输协议网络游戏基于栅格的聚类算法HierarchicalClustering,分层聚类算法第129页 北京邮电大学博士研究生学位论文HTMLHyperTextMark—upLanguage,超文本标记语言帅HypertextTransferProtocol,超文本传输协议HTI'PSHypertextTransferProtocoloverSecureSocketLayerIDEIntegratedDevelopmentEnvironment,集成开发环境IMInstantMessaging,即时通讯lOSInternetOperationSystem,网络操作系统IPInternetProtocol,互联网协议IPv4InternetProtocolversion4,网际协议版本4IPV6InternetProtocolversion6,网际协议版本6ISOInternationalOrganizationforStandardization,国际标准化组织ISPInternetServiceProviders,互联网服务提供商JAVASun推出的一种程序设计语言K.MEANk.均值算法LTELongTermEvolution,长期演进MANMetropolitanAreaNetwork,城域网MSNMicrosoftServiceNetwork,微软公司推出的即时消息软件MSTMinimumSpanningTree,单连接算法Out.Links出口链路PCPartitionalClustering,分割聚类算法POPPostOfficeProtocol,邮局协议PostgreSQL开放数据库系统P2Ppeer-to.peer,对等网络P2PDownloadpeer-to.peerdownload,点对点下载P2PStreampeer-to.peerStream,点对点流媒体技术QoSQualityofService,服务质量SMTPSimpleMailTransferProtocol,简单邮件传输协议SPServiceProvider,服务提供者SPSSStatisticalProductandServiceSolutions,“统计产品与服务解决方案”软件SQLStructuredQueryLanguage,结构化查询语言Socket套接字SSHSecureShell,建立在应用层和传输层基础上的安全协议第130页 北京邮电大学博士研究生学位论文SVCSupportVectorClustering,支持向量聚类算法TCPTransmissionControlProtocol,传输控制协议UDPUserDatagramProtocol,用户数据报协议URLUniformResourceLocator,统一资源定位符VideoStream视频流媒体VoIPVoiceoverInteractProtocol,一种以IP电话为主的技术VPNVirtualPrivateNetwork,虚拟专用网络Web网页浏览WWW/WEBWorldWideWeb,万维网3G3rd.generation,第三代移动通信技术第131页 北京邮电大学博士研究生学位论文致谢转眼之间,紧张而充实的博士生活就要结束了,在博士论文搁笔之际,回想起在攻读博士学位的三年多时间里,受到很多老师、亲人、学长和同窗对作者在学习、研究和生活等诸多方面给予了谆谆的教诲和无私的帮助,如今回忆起来历历在目。我能够顺利完成博士学业并且完成博士学位论文,首先要衷心感谢我的导师雷振明教授。雷老师以其严谨的治学态度、广博的知识层次和科学的研究方法,将我从一个网络测量监控的门外汉变成能够在本领域能够初窥门径的研究者。雷老师在论文选题及研究内容、研究方法等方面给予我多方位的启发和引导,指出我在论文选题、撰写和试验中存在的不足之处,并给予深刻的启发和建议,使我能够顺利地完成博士论文。雷老师还帮助我培养了严谨认真的工作态度。他严谨的治学态度和忘我的工作热情让我终身受益,这种精神是我攻读学位期间最珍贵的收获。其次我要感谢刘芳老师在我攻读博士学位期间,对学习及其生活上所给予的大力支持、鼓励和指导。刘老师对我在实验和研究中的各种需求予以有利的支持和帮助:在生活上也给予我诸多关怀,为我营造了和谐融洽的学习和研究环境。感谢实验室所有的老师和工作人员,在我的学习和工作期间从来就不缺少他们的热情帮助。杨洁老师为人和蔼亲切,处事细心,帮我解决了学习中的很多困惑和难题。窦伊男、陈陆颖老师对我在网络用户行为分析和网络监测方面研究的进行了很多帮助。感谢刘微、贺阳、郭敏杰、马铮、陈贻明、孙博等同学先后辛勤参与我的研究和开发工作。我所取得的结果和我博士论文的完成都是他们努力工作的结果。另外感谢刘枫师兄对我的帮助,感谢林平、杨帆、延浩、李为民、王新良、陈岭等同学对我学习研究上的帮助。最后,感谢我的父母和所有的亲人朋友,他们给予作者殷切的希望、无私的关怀和及时的帮助是作者完成论文的精神动力所在。第132页
还剩145页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

yylong_619

贡献于2014-01-16

下载需要 5 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf