基于信任传播模型的协同过滤推荐算法研究(硕士学位论文)


中山大学 硕士学位论文 基于信任传播模型的协同过滤推荐算法研究 姓名:陈晓城 申请学位级别:硕士 专业:计算机应用技术 指导教师:常会友 20100603 基于信任传播模型的协同过滤推荐算法研究摘要论文题目:专业:硕士生:指导老师:基于信任传播模型的协同过滤推荐算法研究计算机应用技术陈晓城常会友教授摘要随着互联网和电子商务的快速发展,信息过载已经成为目前互联网用户所面临的一个严峻的问题。如何让用户在海量的商品中能快速找到自己喜欢的商品,是每个电子商务网站急需解决的难题。推荐系统是解决这一问题的其中一个有效的手段。传统的协同过滤推荐技术是电子商务推荐系统中有效和广泛应用的技术。但是协同过滤推荐技术也存在稀疏性问题、冷启动问题、抗攻击性问题和扩展性问题等急需研究解决的难题。本文采用结合信任网络和协同过滤推荐技术的方法对稀疏性问题、冷启动问题和抗攻击性问题进行研究。本文根据Web信任网络的特点建立信任传播的数学模型TPM,该模型定义了一套系统合理的信任传播规则。TPM对用户之间的局部信任度进行计算,解决了用户之间的信任度量问题,适用于二值信任网络和非二值信任网络。本文提出了一种融合相似度和信任度的指标—1S指标取代传统的协同过滤推荐算法中的相似度,作为区分当前用户的邻居用户和非邻居用户的标准。实验表明,使用TS指标的协同过滤推荐算法可以更加准确的搜索到更多的邻居用户,提高推荐算法的覆盖率。本文在传统的协同过滤推荐算法中,应用信任传播模型TPM和TS指标,提出基于TPM的协同过滤推荐算法TPCF算法。TPCF算法在一定程度上,缓解了传统的协同过滤推荐算法存在的稀疏性问题、冷启动问题和抗攻击性问题,帮助用户在海量的商品中快速准确地找到自己喜欢的商品。实验表明,在著名电子商务评价网站Epinions.com的数据集上,TPCF算法相比于传统的协同过滤推荐算法抗攻击性更好,无论是对所有用户还是新用户,推荐的准确率和覆盖率都有所改进,其中评分覆盖率增加了大约14$,用户覆盖率增加了大约12%。关键字:推荐系统,协同过滤,信任网络,信任传播模型,稀疏性 基于信任传播模型的协同过滤推荐算法研究Title:ResearchofCollaborativeFilteringRecommendationAlgorithmBasedonTrustPropagationModelMajor:ComputerApplicationTechnologyName:ChenXiaoChengSupervisor:Pm诧sS0rHuiyouChangABSTRACTWnhtherapiddevelopmemofInternetandE-Commerce,informationoverloadingbecomesaseriousproblemfortheE-Commerceuser.Howtofindtheuser’sfavoriteitems丘omlargeamountofitemsisallurgentproblemforeveryE-Commercewebsite.Recommendersystemisoneoftheefficienttoolstosolvethisproblem.111etraditionalcollaborativefilteringrecommendationtechnologyiswidelyusedinE-Commercerecommendersystems.Howevertherearefoururgentproblemsincollaborativefilteringrecommendationtechnologynamelydatasparseproblem,coldstartproblem,attack-resistantproblemandscalabilityproblem.T11isdissertationresearchedonthedatasparseproblem,coldstartproblemandattack-resistantproblemwithtrustnetworkandcollaborativefilteringrecommendationtechnology.硼:lisdissertationmadeamodeloftrustpropagationcalledTPMintrustnetworkaccordingtothepropagationcharacteristicofwebtrustnetwork.111cmodeldefinedasystematicandreasonabletrustpropagationmechanism.TPMsolvedthetrustmetricproblembycomputingtheusers’localtrustmetric.TPMcarlbeusedinbothbinarytrustnetworkandnon-binarytrustnetwork.TllisdissertationproposedahybridindexcalledTSindexcombiningtheusersimilarityandUSCTtrusttoreplacetheusersimilarityintraditionalcollaborativefilteringrecommendationalgorithminordertodistinguishtheneighborusersandnon-neighborsofcurrentusefT11eresultsofexperimentsshowedthatusingTSindexCanfredmereneighborsofthecurrentuserandrecommendmorefavoriteitemstothecurrentUSeLTllisdissertationappliedtheTPMandTSindexintraditionalcollaborativen 基于信任传播模型的协同过滤推荐算法研究ABSTRACTfilteringrecommendationalgorithmandproposedanovelcollaborativefilteringrecommendationalgorithmbasedontrustpropagationmodelcalledTPCETosomeextends,TPCFsolvedthetraditionalcollaborativefilteringrecommendationalgorithm’Sproblemsofdatasparse,coldstartandattack-resistant.TheresultsofexperimentsusingthedatasetofEpinions.corn,apopularecommercereviewwebsite,showedthatTPCFwasmoreattack-resistantandimprovedontheprecisionandcoveragerateaspectcomparedwiththetraditionalcollaborativefilteringrecommendationalgorithmandtheratingcoveragerateincreasedbyabout14%while12%forusercoveragerate.KeyWords:recommendersystems,collaborativefiltering,trustnetwork,trustpropagationmodel,datasparseIII 论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:陈啪城日期:沙扣年‘月fEt学位论文使用授权声明本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。学位论文作者签名:陆,白城日期:砂l口年‘月lEl导师签名:日期:沙fD年6月fEt 基予信任传播模型的协同过滤推荐算法研究引言第一章引言1.1研究背景和研究意义随着互联网和电子商务的快速发展,信息不断膨胀,从而导致了信息过载(InformationOverload)f1】问题。电子商务网站用户要在有限的时间里找到自己需要的商品信息显得特别的困难。针对这一难题,电子商务推荐系统有效地向用户推荐用户喜欢的商品,帮助用户快速定位商品信息,成为了解决信息过载问题的有效手段。电子商务推荐系统作为一项有效的智能信息服务,已经在电子商务领域中取得了广泛的应用。Amazon,EBay,Netflix,淘宝网,当当网等国内外知名的电子商务网站都开发了自己的推荐系统,并且运营多年,效果显著。同时,推荐系统的出现与发展很大程度上也推动了电子商务的发展。推荐系统已经成为了电子商务系统中一项非常重要的技术。根据推荐方法的不同,推荐系统通常分为两大类:基于内容过滤的推荐系统和协同过滤推荐系统。基于内容过滤的推荐系统依赖于项目准确丰富的内容描述,需要收集大量商品项目的内容数据,性能较低,准确率不高。为了克服基于内容过滤的推荐算法的缺点,Goldberg[2]等人首先提出了CollaborativeFiltering,即协同过滤。协同过滤的基本思想是根据和当前用户有相似兴趣爱好的其他用户对某个目标商品项目(Item)的观点来判断该项目对当前用户是否有价值,并作为一个评价标准,决定是否向当前用户推荐该目标商品项目。随着协同过滤推荐算法的发展,许多研究人员提出了各种各样的改进算法,Breese[3]等人将它们分成两类:1)基于内存的协同过滤推荐算法,在这一类算法中,数据的存储和算法的运行都是在内存上进行的,从而能够快速实时的得到推荐的结果。2)基于模型的协同过滤算法,这一类算法先采用机器学习方法(例如贝叶斯网络,语义索引等)对用户数据进行离线学习,建立模型,然后在线应用模型进行评分预测和商品项目推荐。虽然协同过滤推荐算法很好的弥补了基于内容过滤推荐算法的不足,但是它本身也存在着以下几个难题f4潮。1)数据的稀疏性问题 基于信任传播模型的协同过滤推荐算法研究引言协同过滤推荐算法的输入来源于用户对商品项目的评分数据,在实际应用中,用户数量和商品数量是十分庞大的,但是用户给予评分的商品项目数量却很少,大约只占商品项目总数的1%。因此导致了用户项目评分矩阵十分稀疏,直接影响了推荐系统的性能和推荐的准确率。这就是协同过滤推荐技术中急需解决的数据的稀疏性问题。2.)冷启动问题协同过滤推荐算法的冷启动问题是稀疏性问题的极端情况,具体可以分为“新用户问题"(NewUserProblem)和“新项目问题"(NewItemProblem),即当新用户或者新项目加入推荐系统后,由于它们的评分数据极度稀疏,甚至没有评分数据,导致推荐系统无法向新用户推荐任何商品或者是无法把新商品项目推荐给任何用户。3)抗攻击性问题抗攻击性问题是指传统的协同过滤推荐算法存在的安全问题。由于生产商为了促销自己的商品,希望推荐系统能够增加自己的商品的推荐次数,减少竞争对手的商品的推荐次数。为此,一些不良的生产商可能采取通过伪造评分进行欺诈的方式对推荐系统进行攻击来达到他们的目的。如何提高协同过滤推荐算法对不良用户的探测能力和对恶意攻击的抵抗能力是传统的协同过滤推荐算法急需解决的抗攻击性问题。4)扩展性问题在实际应用中,随着用户数量和商品数量的不断增长,协同过滤推荐系统的计算复杂度剧增,导致了推荐系统的性能急剧下降,推荐速度缓慢,无法进行实时推荐,准确率低。在大规模数据下,如何降低算法的计算复杂度是协同过滤推荐算法急需解决的扩展性问题。针对以上协同过滤推荐算法存在的各种缺陷,国内外的研究人员采用了机器学习、概率算法、图论、矩阵降维、聚类等方法对其进行研究,但是仍然有较大的研究空间。由于推荐系统存在的各种缺陷,Rashmi等人提出,相对于使用推荐系统来说,人们更愿意从自己认识的朋友或者熟悉的人那边获取推荐信息[61。这体现了在互联网环境下,人们更加倾向于从自己信任的人获取推荐信息。基于互联网用2 基于信任传播模型的协同过滤推荐算法研究引言户的这一特点,不少的社交网络,虚拟社区,网上交易平台,P2P系统,Blog系统等都通过建立信任机制使得系统运营得更好。在电子商务应用领域,信任问题已经成为制约该领域发展的一个重大的瓶颈,急需构建完善信任机制。电子商务的信任研究范围十分广泛,主要集中在以下几个方面的研究:商家、电子商务网站、消费者和商务环境,目前这一研究领域正处于初步探索并逐步发展起来的阶段。电子商务信任问题的关注,促使电子商务网站开始建立用户信任网络。随着Web2.0时代的来临,许多电子商务企业都构建了基于Web2.0的电子商务网站。相比于传统Web1.0的互联网应用,Web2.0应用更加关注以用户为中心的服务,提倡用户创造内容的核心思想。用户之间的联系相比于Web1.0时代,更加紧密。基于这种特点,在许多Web2.0电子商务网站上,用户们都可以反馈自己的信息,不仅包括对于商品的评价信息,还对于其他用户的评价信息。在电子商务网站中,用户之间的评价信息,往往可以提取为用户之间的信任信息。Golbeek指出从社会网络(SocialNetwork)中提取信任信息,并且在推荐系统中结合信任信息有助于提高推荐的准确率和改善用户体验川。因此,用户之间的信任信息是有助于帮助机器进行商品推荐的有效输入信息,在推荐系统中增加用户之间的信任信息作为商品推荐决策的依据是合理可行的。目前,对于如何在协同过滤推荐系统中加入有效的用户信任信息的研究刚刚起步,有许多问题还有待研究。基于信任的推荐系统的研究问题主要包括信任度的度量问题和推荐系统和信任度模型的集成问题。目前主要的计算信任度的算法包括有:EigenTrust[引、TidalTrustl91、MoleTrusttlol、Advogatoill】和Appleseedtl2】等。这一系列信任度量算法采用不同的建模思想,计算用户的全局信任度或局部信任度,适用于不同的应用场景。在实际应用中,目前也存在着一部分在推荐系统中应用信任度的例子。例如Advogato的开源软件社区【ll】,电影评价推荐网站FilmTrusttl4】等。因此,本文建立一种信任传播模型解决信任度度量问题,并应用到协同过滤推荐算法中,从而缓解了协同过滤推荐算法中存在的稀疏性问题、冷启动问题和抗攻击性问题。这一研究课题是具备研究意义和实践意义的。本文针对协同过滤推荐算法和信任度计算算法中存在的问题提出自己的解决方案,并通过数据实验验证方案的有效性。 基于信任传播模型的协同过滤推荐算法研究引言1.2本文的主要工作针对协同过滤推荐算法存在的数据稀疏性问题、冷启动问题和抗攻击性问题,本文在传统的协同过滤推荐算法的基础上,结合信任网络,建立了信任网络下的信任传播模型TPM,提出一种融合相似度和信任度的指标——TS指标,应用TPM和TS指标,提出一种基于TPM的协同过滤推荐算法TPCF。相比于传统的协同过滤推荐算法,TPCF算法对通过构造恶意评分进行的欺诈攻击具备一定的抵抗能力,无论是对全部用户还是评分数据较少的新用户,推荐系统的准确率和覆盖率都有所改进,在一定程度上缓解了稀疏性问题,冷启动问题和抗攻击性问题。本文的主要工作内容如下:1)对协同过滤推荐技术和信任网络的应用背景、基本理论、当前国内外的研究现状和研究方法进行深入的研究。2)深入研究Web信任网络的传播特点,建立了信任网络下的信任传播模型TPM,采用局部信任度计算解决信任网络中的信任度量问题。3)分析用户相似度和信任度的相关关系,提出了一种融合相似度和信任度的指标—_TS指标代替传统的协同过滤推荐算法中的相似度,作为区分当前用户的邻居用户和非邻居用户的标准,采用TS指标对推荐算法进行改进。4)在传统的协同过滤推荐算法中,应用信任传播模型TPM和TS指标,提出一种基于TPM的协同过滤推荐算法TPCF算法,在一定程度上缓解了传统的协同过滤推荐算法存在稀疏性问题、冷启动问题和抗攻击性问题。5)采用Epiniom.com数据集进行数据实验,和传统的协同过滤推荐算法进行比照,分析TPCF算法在缓解稀疏性问题、冷启动问题和抗攻击性问题上的优越性。1.3论文的组织结构本文的组织结构如下:第一章是本文的引言部分,对课题的研究背景、研究意义和本文的主要工作,论文结构进行介绍。 基于信任传播模型的协同过滤推荐算法研究引言第二章是协同过滤推荐技术的综述部分,对协同过滤推荐技术的相关研究进行概述,介绍了常用的几种推荐技术和推荐系统的评估标准,重点阐述了协同过滤推荐算法的基本思想和过程、算法分类、关键性问题及其研究现状。第三章是信任网络的综述部分,对信任网络的相关研究进行概述,介绍信任网络,信任度,信任度量等相关概念和信任传播特性在推荐系统中的应用。第四章是本文的核心部分,详细地介绍了本文提出的信任传播模型TPM,融合用户信任度和相似度的TS指标和基于TPM的协同过滤推荐算法TPCF,包括TPM的基本思想,信任传播规则,TS指标,TPCF的算法框架和各主要步骤以及TPCF算法的扩展性分析。第五章是本文的数据实验部分,详细介绍本文的实验目的,实验环境和数据集,实验方案和实验结果分析。第六章是本文的结论、工作总结和对未来工作的展望。 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究第2章协同过滤推荐技术研究2.1个性化推荐系统随着互联网的普及和电子商务的发展,电子商务网站上的用户数量和商品数量日益剧增,从而导致了信息过载的问题。由于信息过载,用户经常无法快速获取自己想要的商品信息。针对这一难题,个性化推荐系统提供了有效的解决方案,并且逐渐成为电子商务领域中一项重要的研究内容。越来越多的研究人员关注这一研究领域。经过了多年的努力,该领域的研究人员取得了不少的研究成果。TAPESTRYt2】是由XeroxPARC研究中心提出的第一个研究型协同过滤推荐系统,用来过滤电子邮件、推荐电子新闻。GroupLens[15】是由MIT开发的协同过滤推荐系统,用来推荐新闻组信息。MovieLens是Minnesota大学开发的基于Web的研究型协同过滤推荐系统,用来推荐电影,其他的还有MIT媒体实验室开发的Ringo协同过滤推荐系统和BellCore开发的VideoRecommender协同过滤推荐系统等等。近年来,Web2.0时代的诞生和发展进一步推动了电子商务的发展,电子商务推荐系统再次成为国内外研究人员特别关注的研究领域。著名的电子商务网站Amazon,Netflix等都开发和使用了协同过滤推荐系统,并且取得了成功。2006年10月Netflix更是宣布了一项竞赛,任何人只要发明了准确率超过它目前使用的电影推荐算法10%的新算法,便能获得7位数的奖金【161。该竞赛迸一步演变成为学术研究事件,吸引了全世界许多研究机构的学者对电子商务推荐系统,尤其是推荐算法,进行研究,并取得了空前成功。在电子商务推荐系统中,个性化推荐技术是其中最为核心和关键的技术。目前主要的个性化推荐技术有如下两类:基于内容的推荐技术和协同过滤推荐技术。尤其是协同过滤推荐技术应用十分广泛。本文将在2.2节详细介绍这两类个性化推荐技术的原理,优缺点和应用现状。2.2个性化推荐技术的分类个性化推荐技术作为一种崭新的智能信息服务方式,是电子商务推荐系统中应用最广泛,最成功的推荐技术。常见的个性化推荐技术主要包括基于内容的推7 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究荐技术和协同过滤推荐技术,其中协同过滤推荐技术应用更为广泛。2.2.1基于内容的推荐技术基于内容的推荐技术(Content.Based)【171起源于信息检索和信息过滤领域,它根据商品项目的内容信息和用户的喜好之间的相关性来向用户推荐信息。商品项目内容信息的获取一般分为两种方法。一种是利用机器学习的方法对商品项目进行特征提取,例如文本推荐系统中使用词频一倒排文档频率(TermFrequency.InverseDocumentFrequency,简称TF.IDF)来提取文本特征【”】。另一种是对商品项目的某些特征信息进行手工标注,例如标注商品的类型,颜色,尺寸,生产地点,生产时间等信息。在电子商务推荐系统中使用用户模板(UserProfile)【挣】记录用户兴趣爱好的个人数据。根据内容的不同,用户模板分为基于兴趣和基于行为的两种类型。基于兴趣的用户模板文件可以表示为加权矢量模型、加权语义网模型、类型层次结构模型、书签和目录结构等,基于行为的用户模板文件可以表示为用户浏览模式或访问模式。基于内容的推荐系统有LIBRA[20],CiteSeer[21】和WebMate[22】等等。该方法比较适合于机器可以自动进行内容分析的信息的推荐,例如推荐新闻和论文。Shardanand[23】等指出了该方法存在的几点不足:1)被推荐项目的特征信息必须是机器可以自动分析或者是手工可以标注的属性。有些内容信息例如声音,图像,视频,Flash等可能无法自动分析出相关的属性信息。另外,在项目数量很多的情况下,如果采用手工标注属性的方法,需要标注的信息量十分庞大,显得很不切合实际。2)基于内容的推荐技术是一种基于历史经验的技术,用户仅仅能够接收到与过去类似的推荐项目,缺乏新异推荐,无法帮助用户发现新的喜欢的商品项目。由于基于内容过滤的推荐存在“过度专门化"的现象【241,不利于挖掘用户潜在的兴趣爱好,推荐主题范围更为广泛的商品项目。3)基于内容的推荐技术只能考虑用户兴趣爱好和商品项目内容信息之问的匹配程度,却无法处理其他诸如项目质量、风格等其他信息。8 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究2.2.2协同过滤推荐技术协同过滤推荐技术是在电子商务推荐系统中应用最早和最为成功的技术之一115】。协同过滤推荐技术一般采用最近邻技术,通过利用用户对商品项目的历史评分信息,生成和当前用户兴趣爱好相似的最近邻居用户集合,再利用邻居用户对目标商品项目的评分信息,预测当前用户对目标商品项目的喜好程度,然后根据这一喜好程度做出是否向当前用户推荐目标商品项目的决策。基于协同过滤的电子商务推荐系统提供自动化的商品推荐服务,目前国内外许多知名的电子商务网站都应用了基于协同过滤的推荐系统。例如:互联网上最大的书店亚马逊网络书店(Amaz_,011.tom);国外知名的网上购物网站eBay(eBay.com);国内知名的网上购物网站淘宝网(taobao.corn)等。2.3协同过滤推荐算法本文将从2.3.1节到2.3.3节详细介绍传统的协同过滤推荐算法的基本思想,算法步骤,算法分类和关键性问题研究现状。2.3.1协同过滤推荐算法的思路和过程协同过滤推荐算法能有效的解决基于内容的推荐技术存在的内容提取和新异推荐等问题。在协同过滤推荐算法中,它并不关心用户信息或者商品项目信息的具体内容,而是通过对当前用户的历史行为,主要是对商品的历史评分数据进行分析,依据其他用户对目标商品项目做出的评价来做出是否向当前用户推荐该商品项目的决策。协同过滤推荐算法的出发点是任何人的兴趣爱好都不是孤立的,我们可以找到和当前用户兴趣爱好相似的群体,我们称这个群体为当前用户的最近邻居集合。如果某些用户对于某些商品项目的评分非常相似,那么,我们就可以认为他们对于其他商品项目的评分也应该比较相似。协同过滤推荐算法的基本思想就是采用某种技术找到和当前用户的兴趣爱好相类似的用户集合,也就是最近邻居集合,然后根据最近邻居集合对于目标商品项目的评分产生当前用户对目标商品项目的预测评分,最后将预测评分最高的若干商品项目作为推荐列表9 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究推荐给当前用户。协同过滤推荐算法的主要实现步骤一般分为五步:获取用户项目的评分信息、计算用户相似度、搜索最近邻居集合、预测评分,产生推荐列表。如图2.1所示。图2-1协同过滤推荐算法主要步骤11获取用户项目的评分信息用户项目评分信息主要是用户对于商品项目的评价,分为显式评分和隐式评分两种类型口51。显式评分是由用户主观提供的,描述用户对商品项目的喜好程度。显式评分需要用户的参与,对商品项目进行打分,在操作过程中,无形中给用户增加了额外的负担,同时也让评分数据的收集变得困难。另一方面,一些不良用户也容易通过伪造恶意的评分来达到对推荐系统进行欺诈攻击的目的。隐式评分是通过观察用户的行为,从而推导出用户对于商品项目的喜欢程度,给出一个合理的评分。例如,使用用户浏览某个商品项目的时间长度,用户访问某个商品项目页面的次数等等作为隐式评分的推导标准。相比于显式评分,虽然隐式评分不需要用户的直接参与,减轻了实际应用中用户的负担,不容易受到恶意用户的欺诈攻击,具备一定的抗攻击性。但是这种通过用户行为推导出来的评分数据对于度量用户对于商品项目的喜好程度往往是不够准确的。在获取用户的显式评分数据时,一般采用五个级别来区分用户对商品项目的喜欢程度:1.非常不喜欢、2.不喜欢、3.一般、4.喜欢、5.非常喜欢。这种表示方式无法区分开同一级别的用户对商品的喜欢程度。如果能收集到大量的隐式评分,例如使用用户访问某个商品项目页面的次数作为输入,推导出用户的隐式评分,那么由于大多数用户对于某个商品项目页面的访问次数是各不相同的,采用隐式评分的话,对于用户喜好的区分度会更好。但是如果不能够获取到很大数据量的隐式评分数据,采用隐式评分获得的推荐效果并不好,而在实际应用中,往10 基予信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究往就很难获取到大数据量的隐式评分数据的,在这种情况下,大多数的推荐系统倾向于使用显式的评分数据。2.)计算相似度用户相似性的度量是传统协同过滤推荐算法的一个关键问题,直接关系到推荐结果的准确率问题,而且能否计算相似度,搜索到最近邻居集合,也直接影响到推荐系统能否对当前用户进行商品项目推荐。在实际应用中,度量相似性的方法有许多种,主要有如下三种方法【26,2"rl:余弦相似度,Pearson相关系数和修正的余弦相似度。a)余弦相似度假设商品项目一共有力项,余弦相似度将用户对商品项目的评分看作是刀维空间上的向量,如果用户对商品项目没有评分,则把该评分设为0,用户之间的相似性通过矢量间的余弦夹角来度量。设用户a和用户b对商品项目的评分分别表示为刀维空间上的矢量云和b,a对商品项目f的评分表示为么,则a和b的相似度sim(a,b)定义如公式2.1所示【28】。咖忆加cos眩耻蒜。一n2'协。协Pearson相关系数Pearson相关系数是通过比较当前用户口和邻居用户b对他们共同做出评分的商品项目的评分数据,计算出来的。因此,在计算Pearson相关系数的时候,首先要找出两个用户共同评价过的商品项目集合。记%为用户a和用户b共同评价了的商品项目集合,则口和b的相似度sim(a,6)定义如公式2-2所剥28捌。∑(‰一_)(‰一i)咖佃’6户丽icU雨ab面丽Q乞’Pearson相关系数分布在区间【-1,l】,-1表示a和b之间最不相似,1表示a和b之间最相似。一般在实际应用中,小于0的相似度不具备参考意义,我们只考虑相似度大于0的情况。c)修正的余弦相似度 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究修正的余弦相似度方法是在余弦相似度的基础上,将用户的评分向量减去用户的平均评分向量后,再计算两个矢量的余弦值,从而修正了不同用户评分尺度不同的问题。设用户口和用户b对商品项目的评分分别表示为刀维空间上的矢量历和舌,口对商品项目f的评分表示为‰,则口和b的相似度J砌(口,6)定义如公式2.3所示。酬咖):旦迥:毒坠垒型丝(2-3)忪一万I|x|Ib—bo√∑:。(‰一兀)2√∑。(‰一露)23)搜索最近邻居集合搜索最近邻居集合是协同过滤推荐算法中最重要的步骤,所谓最近邻居集合,就是和当前用户具备相似的兴趣爱好的用户集合。传统的协同过滤推荐算法采用相似度sim(a,6)来度量两个用户间的兴趣爱好的相似性。通过计算相似度,设置一个阈值,为每一个用户找到一个最近邻居的集合,这个集合里的用户和当前用户的兴趣爱好的相似度都大于该阈值。4)预测评分搜索到最近邻居集合后,根据最近邻居集合中的用户对于目标商品项目的评分预测当前用户对目标商品项目的评分,即预测评分值。设用户a的最近邻居集合为虬,则a对于未评分的商品项目f的预测评分值圪定义如公式2·4所示。∑sim(a,z,)×(L,f一无)耻兀+竖丽Ⅳ乱‘(2.4)5)产生推荐列表在当前用户未评分的商品项目集合中,根据预测评分的高低排序,选取前面Ⅳ项商品,产生Top-N的商品项目推荐列表推荐给当前用户。2.3.2协同过滤推荐算法的分类自从协同过滤推荐算法思想提出以后,国内外的研究人员提出了许多的改进算法。Breesel31等人把这些协同过滤算法分成两类:12 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究11基于内存的协同过滤推荐算法基于内存的协同过滤推荐算法,通过在线获取用户评分数据,并执行算法,直接产生推荐。传统的基于用户的(User-Based)协同过滤推荐算法和基于项目的(Item-Based)协同过滤推荐算法f26】都是基于内存的协同过滤推荐算法,它要求用户数据,商品项目数据,评分数据都存储到内存之中,在线运行算法,预测用户对目标商品项目的评分,进行商品项目推荐。由于在实际的应用之中,用户,商品项目,评分数据量非常大,基于内存的协同过滤推荐算法运用到海量的数据上,实时复杂度高,有着一定的局限性。因此,当前许多实用的算法都会采用一些方法,让算法的一部分计算在线下进行,然后在线应用计算结果,降低算法的实时复杂度。2)基于模型的协同过滤推荐算法基于模型的协同过滤推荐算法是针对基于内存的协同过滤算法实时复杂度的问题所提如的另一类协同过滤推荐算法。这一类算法,建立一个领域的模型,使用用户的历史数据在线下采用机器学习等方法建立模型,然后在线上应用模型进行商品项目推荐。基于模型的协同过滤算法的大部分工作都是线下完成的,大大的降低了算法的实时复杂度。常见的基于模型的协同过滤算法有基于贝叶斯网络模型的协同过滤推荐算法和基于概率关系模型的协同过滤推荐算法【301。相比于基于内存的协同过滤推荐算法,基于模型的协同过滤推荐算法虽然降低了算法的实时复杂度,但是却存在另外一个问题,那就是模型的更新问题。随着推荐系统的运行,用户数据,商品数据,评分数据都会不断更新,此时如何能够实时的更新已经训练好的模型,提高推荐的实时性和准确率,是一个目前基于模型的协同过滤推荐算法值得研究的问题。Sarwart26】等人根据协同过滤推荐算法所使用的事物之间的关联性,将其区分为基于用户和基于项目的协同过滤推荐算法。1)基于用户的协同过滤推荐算法这类协同过滤推荐算法的核心思想是假设用户和用户之间的兴趣爱好具有某种程度的相似性,爱好相类似的用户,会购买相类似的产品。基于这一核心思想基于用户的协同过滤推荐算法采用某种技术计算用户间的相似度,并根据用户间的相似程度寻找当前用户的最近邻居集合,再根据最近邻居集合对于目标商品13 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究项目的评分来预测当前用户对目标商品项目的评分,最后推荐当前用户未评分的商品中,预测评分最高的前Ⅳ个商品给当前用户。2)基于项目的协同过滤推荐算法这类协同过滤推荐算法不同于基于用户的协同过滤推荐算法,它假设项目与项目之间有着某种程度的关联性,也就是说用户一般会购买有关联性或者说比较相类似的商品。基于项目的协同过滤推荐算法通过某种技术计算商品项目之间的相似度,搜索最近邻居项目集合,也就是和目标商品项目具备一定相似性的商品集合,然后根据当前用户对最近邻居项目集合的评分来预测其对目标商品项目的评分,最后推荐当前用户未评分的商品中,预测评分最高的前Ⅳ个商品给当前用户。2.3.3协同过滤推荐算法的关键性问题协同过滤推荐算法克服了基于内容过滤的推荐算法所存在的缺点,它既不需要考虑被推荐的商品项目的内容特征,也不限制于商品资源的类型,而且可以挖掘用户潜在的兴趣爱好,实现了新异推荐。因此协同过滤推荐算法在目前电子商务推荐系统中应用广泛,成果显著。尽管如此,协同过滤推荐算法仍然存在着若干关键性问题,包括1)稀疏性问题2)冷启动问题3)抗攻击性问题4)扩展性问题【4别。1)稀疏性问题协同过滤推荐算法完全依赖于用户评分数据集R(m,玎),r(m,聍)是一个m×/'i维的矩阵,其中m为用户数量,刀为商品项目数量。用户评分数据量越大,评分矩阵R(m,押)越稠密,协同过滤推荐的质量就越高。但是,随着电子商务的快速发展,电子商务网站的用户数量和商品数量十分庞大,而且不断的增加,使得R(m,刀)成为了高维的矩阵。另一方面,用户做出评分的商品项目很少,通常是在商品数量的1%以下,从而导致R(m,胆)非常稀疏。R(m,,?)的稀疏性成为了推荐质量下降的主要原因。这就是协同过滤的稀疏性问题。针对协同过滤的稀疏性问题,国内外的研究人员提出了各种缓解稀疏性问题的技术。14 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究Breese等人采用对未评分项目给定一个缺省值的方法来增加评分项目的数量【31。很显然,用户对未评分的项目不可能都是一样的评分,这种添加缺省值的方法可信度不高,而且如果添加所有的缺省值,也会大大增加了推荐算法的计算量,降低推荐的实时性。由于协同过滤推荐算法完全依赖于用户评分,研究人员提出结合基于内容的过滤,丰富用户描述,缓解评分数据的稀疏性。通过降低用户项目评分矩阵的维度,可以大幅度的降低矩阵的规模,缓解稀疏性【241。但是结合商品项目内容和用户的内容信息,仍然面临着难以获取这部分内容信息或者获取代价较大的问题。通过降低用户项目评分矩阵的维数问题来解决矩阵的稀疏性问题。奇异值分解(SingularValueDecomposition,SVD)是一种比较常用的矩阵分解技术f3l】。除此之外还有采用主成分分析【32】的方法来降低用户项目评分矩阵的维数。矩阵降维不仅能够解决矩阵稀疏性问题,而且对于推荐系统的扩展性和推荐准确率也有作用。但是降低矩阵的维数会导致用户项目评分矩阵的信息丢失,在某些情况下又会影响推荐的准确纠331。研究人员也采用图论的方法来解决协同过滤推荐算法中缓解稀疏性问题。Aggarwa提出基于图论的Hortmg技术,图中的节点代表用户,节点之间的边代表两个用户之间的相似度,通过图中搜索邻近节点并综合邻近节点的评分产生推荐[341。ZanHuang等人根据用户历史反馈数据采用关联检索和扩散激活算法(Spreadingactivation)来建模用户之间的传递关系,从而缓解稀疏性问题【351。不过该方法只限于二进制的评分数据,而且扩散激活算法存在过度激活的问题,可能导致推荐性能下降。Papagelis等人根据用户对项目的评分活动进行信任推导来建立社会网络,从而在无共同评分项目的用户之间产生用户相似性的传递关联,缓解稀疏性问题,但是这种基于用户项目评分的信任推导往往存在一定的局限性【361。邓爱林等人指出用户评分数据极端稀疏情况下传统相似性度量方法存在的不足,提出了基于项目评分预测的协同过滤推荐算法,缓解稀疏性问题[3"fl。李聪等人提出通过用户评分项目的并集的评分数据计算用户相似度,提出基于“领域最近邻"的方法对并集中的未评分项目进行预测,从而降低了数据的稀疏性,15 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究提高了推荐的准确率138】。21冷启动问题协同过滤推荐算法的冷启动问题具体可分为“新用户问题"和“新项目问题"。“新用户问题”是指当有新用户加入的时候,由于该新用户还没有对任何项目评分,导致系统无法向新用户推荐他可能喜欢的商品项目。“新项目问题’’是指当有新项目加入的时候,由于新项目还没有接受任何用户的评分,导致系统无法把新项目推荐给可能喜欢它的用户。增加用户和系统的交互可以缓解冷启动问题中的新用户问题,其主要的思想是系统对新用户提供适量的商品项目集合,让新用户对该项目集合进行评分,从而收集到一定数量的用户对商品的喜好数据,实现推荐功能。对于新用户,直接推荐最受欢迎的商品,从而解决推荐系统无法向新用户做出推荐的问题。但是这种方法并不能保证推荐的热门商品是用户喜欢的。孙小华【28】等人提出采用简单平均法、众数法和信息熵法来解决新用户问题,但是这种方法过于简单,不能体现用户的个性化特征。Ahn提出一种新的度量用户相似度的方法,该方法适用于数据极度稀疏的情况,从而缓解了冷启动问题【39】。3)抗攻击性问题传统的协同过滤推荐算法存在着严重的安全问题。不良用户可以通过伪造恶意评分数据对推荐系统进行攻击,来达到提高自己商品的推荐次数,降低竞争对手的商品的推荐次数的目的。如何检测出不良用户和抵抗恶意评分数据对推荐结果的影响是协同过滤推荐系统中需要研究的抗攻击性问题。推荐系统如果不能有效地对欺诈攻击进行抵抗,将会逐步失去用户的信任,造成用户的流失。不良用户通过向推荐系统注入恶意的评分数据来改变推荐的结果,例子如表2.1所示140]。当协同过滤推荐算法计算Alice对于Item4的预测评分时,通过相似度的计算,Alice和不良用户Attackl、Attack2、Attack3的相似度分别是0.87、O.76、1。因此Attackl、Attack2、Attack3将成为Alice的邻居用户,它们的恶意评分将影响Alice对于Item4的预测评分。我们可以看出,正常用户对于Item4的整体评分是比较低的,平均只有1.5分,可见该项目的整体评价并不好,但是由于Alice错误的认为不良用户是相似性极高的邻居用户,参考攻击者对于目标16 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究项目的评分后,Alice获得比较高的Item4的预测评分,因此推荐系统将向Alice推荐Iterrfl。攻击者达到了攻击的目的。这种攻击方法被称为“托’’攻击。表2-1“托”攻击例子ltemlItem2Item3Item4SimilaritywithAliceAlice533Userl32l0.76User2422.0.71User3443lO.5User42332·1Attackl4325O.87Attack25425O.76Attack353351“托"攻击的分类包括推攻击(PushAttack)和核攻击(NukeAttack)两种类型【4¨。推攻击的目的是提高目标项目的被推荐的次数,核攻击的目的是减少目标项目的被推荐的次数。目前主要的攻击模型包括:随机攻击、均值攻击、流行攻击、细分攻击和反流行攻击[42,4引。a)随机攻击随机攻击模型【43】通过对目标项目注入预设值,对于其他需要填充的项目则注入一个随机值的方式来伪造恶意评分数据,该随机值是根据所有项目的平均评分给出的。攻击者可以通过观察其它用户的评分来估计出所有项目的平均评分,然后伪造恶意评分数据,进行攻击。随机攻击模型需要填充的项目比较多,攻击成本高,效率较低。M均值攻击均值攻击模型【431和随机攻击模型的不同之处在于,均值攻击模型对于目标项目以外的填充项目注入的是各个项目的评分平均值。攻击者可以比较容易的从互联网上获取到各个项目的评分平均值。均值攻击对于基于用户的协同过滤推荐算法比较有效,而对于基于项目的协同过滤推荐算法则效果较差。c)流行攻击17 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究流行攻击模型【43】的基本思想是攻击者通过选择那些十分畅销的项目作为填充项目,填充最高分,并对目标项目注入预设值,这样,构造出来的用户就很大可能性和其他用户十分相似,从而达到进行攻击的目的。d)细分攻击细分攻击模型【431的和前三种攻击模型不同,它的目标是对特定用户群推荐目标项目。攻击者首先要获得和他的目标项目同一类别的比较热门的项目,对这一系列项目填充高分,目标项目注入预设值,从而达到攻击的目的。曲反流行攻击反流行攻击模型【42】和流行攻击模型正好相反,通过选择比较冷门的项目填充最低分,目标项目注入预设值,来达到攻击的目的。对于“托"攻击的防御,文献【44】指出在推荐系统中应用信任度可以比较好的降低“托’’攻击对于推荐系统的影响。4)扩展性问题协同过滤推荐算法的扩展性问题是指随着用户和商品数量的增加,算法的计算复杂度急剧增加,导致推荐系统的性能急剧下降,直接影响系统的推荐速度和正确率。从协同过滤推荐算法的步骤来看,算法在线计算的复杂度为O(m,功,其中用户相似度计算和最近邻居集合搜索两个步骤是最耗时间的。同时,在当前的电子商务推荐系统架构下,所有的推荐算法的计算步骤都是在服务器端完成的,服务器端的计算量十分庞大。因此,协同过滤推荐算法的扩展性问题是急需解决的研究问题。常见的解决可扩展性问题包括有聚类、概率方法、基于项目、矩阵降维等方法。聚类技术【451通过减小最近邻搜索空间来提高协同过滤的扩展性,包括k-memos聚类,遗传聚类【461,模糊聚类【471,基于项目聚类㈣等方法。基于概率的方法使用比较多的是贝叶斯方法。基于项目的协同过滤推荐算法也是提高可扩展性的有效方法。本文前面介绍的矩阵降维技术同样也是提高协同过滤推荐算法可扩展性的有效途径。18 基予信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究2.4推荐系统的评估标准商品项目的推荐列表是通过选取预测评分前Ⅳ个商品得到的。预测评分结果的度量标准包括准确率度量和覆盖率度量两种。准确率度量包括了统计精度度量方法和决策支持精度度量方法两种f2627/。1)准确率度量统计精度度量方法用于评价预测评分相对于实际用户评分的准确率,包括平均绝对误差MAE(MeanAbsoluteError)I蚓、均方根误差RMSE[49](RootMeanSquaredError)以及在MAE基础上提出的标准化平均绝对误差NMAE[50,5lJ(NormalizedMeanAbsoluteError)等。平均绝对误差MAE通过计算预测的用户评分与实际的用户评分之间的误差度量来评价评分预测的准确性。假设阢表示测试用户对测试集中第f项的预测评分值,吼表示测试用户对测试集中第f项的实际用户评分值,t/表示测试集中所有的评分数目。那么,该测试用户的平均绝对误差MAE由公式2.5得到:MAE:∑丛二划(2.5)刀该测试用户的均方根误差RMSE由公式2-6得到:RMSE=(2·6)设m位测试用户的平均绝对误差分别为刎巨,⋯⋯,刎瓦,那么该推荐算法的MAE为:yMAE,J,一』幽E=上L—一(2.7),竹同理,该推荐算法的RMSE为:yRAISE,Jr—R脚=上L—一所(2.8)由于MIkE和RMSE易于理解,是最常用的推荐质量度量方法。MAE和19 基于信任传播模型的协同过滤推荐算法研究协同过滤推荐技术研究RMSE是等价的,数值越小,预测评分误差越小,推荐质量就越高。决策支持精度度量方法用于评价算法帮助用户选择出高质量的商品项目的有效性,包括ROC敏感度(ReceiverOperatingCharacteristicSensitivity)、PRC敏感度(Precision.RecallCurveSensitivity)等。除此之外,在信息检索领域中常用来评估系统效果的两个标准,召回率(Recall)和精确率(Precision)也可以作为对比推荐算法效果的标准。2)覆盖率在推荐系统中,能够计算的预测评分数量也是一个十分重要的评价标准之一。一般我们用评分覆盖率来评价这一标准,即推荐系统中能计算的用户项目的预测评分数量占用户项目对总数的比例。除了评分覆盖率以外,还要考虑做出推荐的用户的覆盖率。在相同的商品推荐数量下,相比于向同一个用户推荐100件商品,向100个用户,每人推荐l件商品,用户覆盖率更高,推荐的效果更好。本文采用两个评价标准来描述推荐算法的覆盖率,评分覆盖率(RatingCoverage简称RC)和用户覆盖率(UserCoverage简称UC)。评分覆盖率是指推荐系统可以预测的评分数量占整个测试集评分数量的百分比。计算公式如2-9所示:肛篙器(2.9)用户覆盖率是指推荐系统可以成功做出推荐的用户数量占整个测试集中用户数量的百分比。计算公式如2.10所示:UC=蔫燃2.5本章小结(2.10)本章首先对电子商务个性化推荐系统进行了简要的介绍,分析基于内容过滤和基于协同过滤的推荐技术的优点和不足,然后重点阐述协同过滤推荐算法的基本思想和算法步骤,算法分类,关键性问题及其研究现状,最后还介绍了推荐系统的评估标准,包括准确率和覆盖率的评估。本章介绍的评估标准将会在本文的数据实验中采用。 基于信任传播模型的协同过滤推荐算法研究信任网络相关研究第3章信任网络相关研究3.1信任网络根据著名的信息技术研究和咨询公司Gartner对全球18个国家,3个地区,不同教育水平和收入水平的4770名互联网用户的调查表明,大部分的人使用互联网只是为了发送电子邮件和进行搜索,其中在线网上交易排第三位1521。专家预测到了2011年,在线的电子商务销售将仅占全球零售业的7%。由此可见,基于互联网的电子商务市场还有很大的发展空间。如何进一步开拓电子商务市场是一个极具实际意义和研究意义的问题。在众多阻碍电子商务发展的因素中,缺乏信任机制是其中一个重要的因素。在实际的商务环境中,需要考虑的信任关系包括客户对零售商的信任,客户与客户之间的信任等等。用户之间的信任关系的建立往往来源于用户发布的资源的质量,可靠性,安全性等等。在互联网环境下,每一个用户都可以自由的创建内容,由于没有一个统一的质量管理方法,因此如何评估这些用户创建的内容的质量成为了一个重要的研究问题。在实际应用中,在线的社交网络,例如Facebook,Epinions.com,Orkut等,P2P网络,电子商务网站,例如eBay,Amazon,Taobao等,都存在着如何评估用户发布的资源内容的质量的问题。在这种情况下,把质量的评估任务由用户自己来评估是一种比较好的策略。为此,许多互联网应用系统提供了用户之间互相评价的功能。计算机领域对于信任的研究主要包括两类【53l:一类是对于用户身份的信任,包括用户身份识别和权限验证等问题,是传统的信息安全研究中的重点;另一类是指对用户特定行为的信任,判断用户是否具备提供某项服务的能力。后者对信任的定义具备着一定的主观性,在互联网环境下的电子商务讨论的信任度主要是这一类的信任。在本文的研究中,从电子商务商品推荐的角度,本文采用文献【9】的信任定义:如果用户a认为根据用户b的行为进行决策将带来好的结果,那么口信任b。信任是在不同用户之间是具备不同的程度的。互联网应用系统通过向用户提供给其他用户评分的交互界面来获取用户的信任评分。这种评分我们就解释为评分用户和被评分用户的信任关系。实际应用中,应用系统能够收集的信任评分包括二2l 基于信任传播模型的协同过滤推荐算法研究信任网络相关研究值和非二值两种类型。二值信任评分使用0和1表示不信任和信任的用户关系。非二值信任评分的取值范围是从0到1,除了表示不信任和信任的用户关系以外,还可以区分不同的信任程度。例如用户a对用户b的信任评分为O.8,那么我们不仅可以得到a信任b的结论,而且可以得出信任程度是O.8,表示a认为b比较可以信任。‘互联网环境下的信任研究的是人与人或者人与组织在机器环境下的关系,其具备以下的特点。1)不对称性用户a信任用户b,并不能说明b信任a。正如在实际生活的人际交往网络中一样,你信任一个人并不能说明那个人就信任你。2)不稳定性用户a对用户b的信任程度不是一直不变的,有可能因为b的某些行为,使得a改变了对b的信任关系。3)差异性用户a对不同用户的信任程度应该是具有差异性,也就是说a对某些人可能非常信任,但是对于某些人可能就只是一般信任。从另一个角度来说,不同的用户对于同一个用户的信任程度也是有差异性的,也是各不相同的。4)传递性用户之间的信任是具备传递性的,也就是说用户口对于他信任的朋友所信任的用户,会倾向于信任;相反的,对于他信任的朋友不信任的用户,会倾向于不信任。互联网环境下,应用系统通过收集用户之间的信任评分来获取用户之间的信任关系信息。本文使用信任网络(TrustNetwork)来表示一个系统下用户之间的信任关系。如图3.1所示,该图就是一个简单的信任网络,该网络中一共有a,b,C,d,e,f六个用户,用户a直接信任用户b,d,e,信任的程度分别是0.9,0.6和0.4。 基于信任传播模型的协同过滤推荐算法研究信任网络相关研究3.2信任度量分类图3-1信任网络示例在实际应用中,尤其是在互联网环境下,建立信任网络是具备实际意义的。在互联网环境下,用户处于一个虚拟的世界中,经常要与在现实世界中根本不相识的人们交流。信任网络的建立有助于在互联网应用中引进信任度的概念,帮助用户分辨出可以信任的用户和不可以信任的用户。判断一个用户是否可以被信任,我们可以通过分析其他用户对他的信任评分来得到。如何度量用户的信任度,在信任网络中是一个值得研究的问题。国内外许多的研究人员提出了各种各样的信任度量方法。一般来说,信任的度量分为两类:全局信任度和局部信任度【12'541。1)全局信任度在信任网络中,每个节点都有一个全局的信任评分,该信任评分是独立于其他的节点的,表示对于当前这个用户,我可以信任他的程度是多少。全局信任度是整个信任网络中的所有节点对于当前节点的一个整体的信任评价。全局信任度的计算方法一般分为简单统计法和迭代法。简单统计法就是统计用户所得到的正面评价和负面评价的数目,然后将这两个数目作为用户的全局信任度,或者是用正面评价的值减去负面评价的值作为用户的全局信任度。但是这类方法很容易受到恶意欺诈带来的攻击【551。迭代法的代表性算法就是Googlc经典的网页排名算法PagcRank[561,其基本思想就是链接到该页面的节点越多,它的全局信任度就越高,网页排名就越靠前。 基于信任传播模型的协同过滤推荐算法研究信任网络相关研究2)局部信任度在现实生活中,不同的人对于同一个用户的信任度一般都是不一样的,对于同一个用户,有些用户可能是非常信任的态度,有些用户可能是一般信任的态度,有些用户却可能是完全不信任的态度,这就是信任的差异性。使用局部信任度就是为了区分这种用户信任度的差异性。局部信任度是某个用户对另一个用户的信任评分。例如用户a对于用户b的局部信任度为0.8,仅仅表示a认为b是比较可以信任的,不涉及到其他用户对于b的态度。局部信任度表示的是两个用户之间的信任关系,通常会根据信任的传递特性来估计不具备直接信任关系的用户之间的局部信任度。相比于全局信任度,局部信任度更能体现信任的个性化特点,对于用户之间的信任度量也更加准确。在抗攻击性上,相比于全局信任度,局部信任度不容易受到恶意的欺诈。一般来说,不良用户是通过添加不可信的内容来达到攻击的目的,如果采用局部信任度,那么用户就可以直接判断出某个用户是否为不良用户,并且给予该用户不信任的评分。因此局部信任度具备更好的抗攻击性。目前比较流行的信任度度量方法包括EigenTrustt引、TidalTrustt91、MoleTmst[1们、Advogato[111和Appleseed[121等。EigenTrust[8】是P2P网络中的信任度度量算法。由于P2P网络的匿名机制,网络上某些节点可以发布许多未经验证的资源。为了有效减少这一类未经验证的资源,EigenTrust算法通过节点上传资源的历史记录来计算每个节点的全局信任度。EigenTrust首先计算每个节点的局部信任度,每个节点都保存着它信任节点的信任度信息,对于当前节点没有交互的节点,通过收集整个网络中其他节点的信任信息来推导出当前节点对目标节点的信任度,然后根据局部信任度计算出每个节点的全局信任度。Advogato[11】算法是为Advogato评价系统(ReputationSystem)提出的。该算法首先把用户分为入门,进阶和高阶三种不同的身份,每个用户使用这三种身份评价其他用户。Advogato算法构建了一个网络流模型,为当前节点的各个相连节点分配了容量(Capacity),距离源节点越近,容量越大,算法分别对每种身份计算每个节点的网络最大流,最后给定每个节点一个全局的评价,判定该用户是入门,进阶还是高阶。这种评价可以理解为是一种全局的信任度。Appleseed[12】 基于信任传播模型的协同过滤推荐算法研究信任网络相关研究跟Advogato一样把用户分成入门,进阶和高阶三种不同的身份,每种身份被信任的程度都不相同。不同于Advogato,Appleseed是采用激活扩散的机制来进行信任度计算的。TidalTrustt9】是一种在社会网络环境下提出的计算局部信任度的算法,它通过对整个网络进行修改的基于宽度优先的搜索来计算一个信任预测值,在计算信任度的时候,TidalTrust首先找出源用户和目标用户的最短路径,然后通过宽度优先的搜索顺序迭代的计算出源用户对目标用户的信任度。MoleTrust[10】的想法跟TidalTrust相似,但是MoleTrust设置了一个最大路径长度,并且只考虑了距离源节点小于这个最大路径长度的节点关系,同时在计算两个用户之间的信任度的时候还进行回溯搜索信任目标用户的用户群,参考该用户群的评分,计算源用户对于目标用户的信任度。以上存在的这一系列信任度的计算算法都存在一个缺陷:它们只能计算在信任网络中存在路径相连的用户之间的信任度,然而通常情况下,许多用户之间是不存在路径相连的【13】。3.3信任传播及其在推荐系统中的应用信任的传递性是信任网络的一种重要的特性。在实际的应用中,每一个用户不可能和信任网络中的其他所有的用户都有直接的信任关系。为了得到陌生用户的一些相关的信任信息,可以利用信任的传递性,根据用户间的直接信任关系推导出陌生用户之间的间接信任关系。信任传播应用到推荐系统中,可以有效的缓解传统的协同过滤推荐系统的稀疏性问题、冷启动问题、抗攻击性问题和扩展性问题等关键性问题。首先,通常情况下,用户项目评分矩阵是十分稀疏的,用户间共同的商品项目评分数量很少,甚至没有,导致了传统基于用户的协同过滤推荐算法无法计算用户之间的相似度,搜索不到最近邻居,无法做出推荐。而且,在用户间共同的商品项目评分数量很少的情况,即使可以计算两个用户间的相似度,通常也是不够准确的,这直接导致了最终推荐结果的准确率很低。由于信任度的计算并不依赖于用户间共同的商品项目评分数量,通过信任传播,使用信任度作为区分邻居用户和非邻居用户的指标,可以在用户问共同的商品项目评分数量很少的情况 基于信任传播模型的协同过滤推荐算法研究信任网络相关研究下,计算用户之间的信任度,有效的搜索到邻居用户,通过邻居用户对于目标商品的评分,做出准确的商品推荐。其次,对于评分数据较少的新用户,传统的协同过滤推荐算法是很难向这一类的用户提供商品推荐服务的。原因在于,这一类用户对商品项目的评分数量很少,无法计算新用户和其他用户的相似度,进而无法找到新用户的最近邻居集合,计算新用户对目标商品的预测评分。但是对于新用户,他只需要有一个以上的关于其他用户的直接信任关系,通过信任传播,就可以搜索到一定数量的邻居用户,实现推荐系统向新用户群推荐商品的功能。再次,对于协同过滤推荐系统中的安全问题,传统的协同过滤推荐系统容易受到不良用户的“托”攻击,攻击者通过伪造恶意的评分数据来达到对推荐系统进行推攻击或者核攻击的目的。相比之下,采用信任度的协同过滤推荐系统不容易受到这类型的欺诈攻击。因为信任度的计算不依赖于用户对于商品的评分数据,通过伪造用户对于商品的评分,并不能伪造出让目标用户信任的用户。另外信任评分数据是用户主观评定的,如果发现不良用户,用户可以主动的给不良用户一个不信任的评分,从而降低不良用户对他的影响。由于信任的不对称性,从攻击者的角度来说,即使他伪造信任评分,也是无法达到攻击的目的。最后,考虑到协同过滤推荐算法的扩展性问题,随着推荐系统的用户数量的增加,性能的瓶颈主要在于计算相似度上,导致推荐系统很难实时地对当前用户进行推荐。针对这个问题,结合信任网络,我们可以先根据信任度搜索出当前用户比较信任的邻居用户集合,然后再计算这部分邻居用户和当前用户的相似度,从而大大缩小了计算相似度的用户规模,减少了推荐系统的推荐时间,保证了推荐算法的扩展性。3.4本章小结本章介绍了信任网络的相关研究,包括信任网络的概念和特点,信任度量的分类和信任传播及其在推荐系统中的应用情况。信任网络的概念和特点是本文建立的信任传播模型的依据,信任度量问题是信任传播模型中的关键性问题。本章为本文第四章建立信任传播模型提供了一定的理论依据。 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法第4章基于信任传播模型的协同过滤推荐算法4.1信任传播模型TPM基于信任的推荐系统的研究问题主要包括信任度的度量问题和推荐系统与信任度模型的集成问题。本文建立了一个基于信任网络的信任传播模型TPM来解决信任度的度量问题。本文从4.1.1节到4.1.3节将详细介绍TPM的问题描述和相关定义,信任传播的基本思想和信任传播机制。4.1.1TPM的问题描述和相关定义本文建立了一个基于信任网络的信任传播模型TPM(TrustPropagationModel)。首先给出TPM的问题描述和相关定义。本文采用文献【9】的信任定义:如果用户a认为根据用户b的行为进行决策将带来好的结果,那么a信任b。定义4_1信任网络Ⅳ中有r/位用户,刀×力维矩阵TR=(tr06)。。是用户间信任关系矩阵,其中,‰表示用户a对用户b的直接信任关系。一般来说,信任网络根据信任关系的取值范围的不同分为二值信任网络和非二值信任网络两种类型。二值信任网络直接信任关系取值为0,1或者空值。二值信任网络的信任关系矩阵TR的数学定义如公式4.1所示。f1用户口信任用户b%={0用户口不信任用户6(4—1)I上用户口对用户b没有信任评分非二值信任网络直接信任关系取值范围为【0,l】U上,非二值信任网络信任关系矩阵豫数学定义如公式4.2所示。fP用户口对用户6的信任关系,P∈【0,1】‰≈{(4·2)l上用户口对用户b没有信任评分 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法定义4-2信任网络N的信任度矩阵为刀×刀维矩阵丁=(匕)舢,其中信任度t曲表示用户口对用户b的信任程度,t曲∈[0,1】U上。数值越大表示口对b的信任程度越高,上表示缺少口对b的信任度。定义4.3用户口的社区(Community)为一个用户集合,如果在信任网络Ⅳ中存在至少一条路径从口到达b,那么b就在口的社区内,否则b不在口的社区内。定义4.4用户口的朋友(Friends)为一个用户集合,如果口直接信任b,则b是口的朋友,否则6不是口的朋友。定义4.5用户口对用户6的关系(Relationship)为一个路径集合。信任网络Ⅳ中从口到b的路径集合为口对b的关系。信任网络的信任传播问题是指如何在用户信任关系矩阵的基础上,基于一定的信任传播规则,推导出的不存在直接信任关系的用户之间的间接信任度。如图4.1所示,在该信任网络中,我们可以找到从用户口到用户c的关系为{口专b专c,口一b专f寸c,口一d寸f-->c)等,但是口和c之间却没有直接的信任度。那么用户口对用户c的信任程度是多少呢?这就是本文提出的信任传播模型TPM需要解答的问题。97●图4-1信任传播问题定义4-6信任传播的步长f为在TPM中寻找用户关系时,考虑的路径的最大长度,也就是长度大于,的路径不会被加入到节点间的关系中。28 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法基于以上TPM的相关定义,步长为,的信任传播问题的数学描述如下:给定信任网络Ⅳ的信任关系矩阵豫,对于V(s,d)∈{(材,v)I甜和',存在长度不超过,的路径),计算J对d的信任度。的值,得到信任网络Ⅳ的信任度矩阵n4.1.2TPM的基本思想在信任网络中,信任度的传播是沿着具备信任关系的节点进行传播的。如果用户b对于用户a来说,既不是朋友,也不是朋友的朋友,以此类推,a无法和b建立任何的可信任关系,那么b对于a来说,就是纯粹的“陌生人一了,无法从信任网络中推导出口和b任何信任关系。这也符合现实生活中的人与人之间的关系建模。在信任网络中,存在着这一类现象,两个用户之间不存在任何的关系。但是这一现象也导致了信任传播模型无法计算不存在任何联系的两个用户之间的信任度。本文提出的TPM模型,对于任意用户口,只考虑在a的社区①内的用户和a的信任度,因为只有在a的社区内的用户才存在和a的关系,才可能计算信任度。另一方面,当前用户a是如何判断一个目标用户6是否可信昵?TPM模型的判断标准就是在信任网络中a和b存在的关系@中,如果存在从a到b的路径数量越多,路径长度越短,那么说明对于口来说和b的关系就更加紧密,b对于口来说就更加可信。本文提出的TPM模型是根据互联网环境下的用户特点进行建模的。在互联网环境下,每个用户之间在现实世界中大都是互不认识的,除了通过互联网进行交流互动,或者进行商务活动之后,用户无法从其他渠道获得其他用户的相关信息。研究表明,互联网上的用户之间是通过频繁的在线活动来建立信任关系的,对于不存在任何交流的陌生用户,当前用户倾向于不太信任的态度1571。用户之间联系的紧密程度可以通过信任网络中两个节点之间的距离来度量。也就是当前节点对于距离自己较远的陌生节点是倾向于不信任的。因此,本文在对信任传播进行建模时,考虑了信任度在信任网络上传播的衰减性质,在只。用户的社反'(Community)定义见本文第28页定义钙。用户的关系(Relationship)定义见本文第28页定义销29 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法考虑a—b专C一条路径的情况下,a传播给直接邻居b的信任程度应该是大于a传播给b的邻居c的信任程度的。综上所述,TPM模型的建立主要基于以下两个传播规则:1)从源节点s开始沿着不同的路径搜索目标节点d,每搜索到d一次,就增加J对d一定数量的信任度。2)传播的路径的长度越长,经过这一条路径,从源节点8传播给目标节点d的信任度就越少。传播的信任度是从传播初始值开始,随传播路径的长度不断增大而不断衰减的。4.1.3TPM的信任传播机制基于4.1.2节阐述的信任网络下信任传播的特点和TPM建模的基本思想,本文建立了一套信任传播机制。对于任意的当前用户,首先寻找当前用户到目标用户的关系,也就是从当前用户到目标用户的路径集合,接着对每个路径计算从当前用户传播到目标用户的信任度值,在传播的过程中是不断衰减的,传播的路径越长,通过该路径传播到目标用户的信任度就越小。最后把通过当前用户到目标用户的关系传播的信任度累加起来,就是当前用户对目标用户的信任度。因此,当前用户对于目标用户的信任程度的高低取决于两个用户关系的紧密程度。从当前用户到目标用户的路径数量越多,长度越短,两个用户之间的关系就越紧密,间接信任度就越高。为了减少信任度计算的开销,基于直接信任度比间接信任度更精确描述用户间的信任程度的合理假设,对于当前用户存在直接信任关系的用户,TPM模型取它们之间的信任度就是两个用户之问的直接信任度。本文提出信任传播模型TPM适用于二值信任网络和非二值信任网络。对于这两种类型的信任网络传播模型的建模,都是基于在本文4.1.2节所论述的信任传播的基本思想的。由于信任网络中不信任信息对于用户之间的信任关系的影响仍存在不确定性,TPM模型暂不考虑不信任信息。有关不信任信息在信任传播中的建模问题将在今后的研究工作中进行探讨。TPM信任传播机制包括两个步骤,搜索用户关系和计算信任度。1)搜索用户关系搜索用户关系就是要搜索从源用户到目标用户的所有路径。在搜索的过程 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法中,需要考虑两个问题,回路问题和共享路径问题。a)回路问题信任网络中是可能存在回路的。如图4.2所示,b—c呻b就是回路。对于这种回路的情况,信任在传播的过程,会出现信任度不断循环叠加的情况。显然,这是不合理的。在信任传播的过程中,应该防止因为回路带来的循环叠加的情况,防止出现“过度信任’’的用户。TPM采取的措施是只计算一次该回路路径的传播。即在搜索用户关系时,只考虑a--9b—c专b,排除a哼b—c—b—c,a_b◆C专b专c—b等出现循环的路径。图4-2回路问题协共享路径问题如图4.3所示,在信任网络下,节点s经过多条路径可以到达P,再通过共享路径P斗d到达d。在搜索从S到d的路径的时候,将多次经过共享路径e寸d搜索到况在信任传播中,如果多次通过共享路径P---)d传递信任度到d。这显然是不合理的。在极端情况下,整个信任网络下,只有e直接信任d,此时,其他节点对d的间接信任度应该较低,但是由于多次通过P专d,导致了其他节点对d的间接信任度普遍偏高。图4-3共享路径问题为了避免这种情况,在TPM中,如果存在多条路径共享一段路径的情况下,只考虑最短的那条路径,如果有多条最短路径,则只考虑搜索到的第一条。因此,在图4.3中从s到d的传播过程中,只会考虑通过s专口l---》e—J路径进行传播3l 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法的信任度,排除s—bl专62专P_d和J—eI寸c2哼c3专P专d两条路径。2)计算信任度为了支持二值信任网络和非二值信任网络两种不同的信任网络,TPM基于信任传播的基本思想为两种类型的网络定义了两种不同的计算公式。曲二值信任网络对于二值信任网络,用户间的信任关系不是1就是0,要么信任,要么不信任,在信任的程度上是没有区分度的。基于这一特点,TPM模型规定二值信任网络下,信任传播的初始值都为1。信任度从初始值开始,随着传播路径的增长不断衰减,传播到路径上的每个节点。对于二值信任网络Ⅳ下任意两个不同的用户口和b,信任传播的步长为,,信任传播的衰减参数为P∈(o,1),信任传播过程中,路径长度增加1,信任度就衰P,Ej表示从a到b的长度为i的所有路径的集合,Community(u)和Friends(u)的定义见本章定义4.3,定义4-4,经过信任的传播后,a对于6的信任度t曲如公式4.3所示。k=lj∑p卜1吲J=2上1,∈Friends(u)',∈Community(u)且y萑Friends(u)(4-3)v芒Community(u)b)非二值信任网络不同于二值信任网络,非二值信任网络下,用户间的直接信任度是有区分度,直接信任度的取值范围为[o,l】,因此每条传播路径上的传播的信任初始值应该不一样的。TPM的策略是取传播路径上权值最小的边的权值作为该路径的传播初始值。信任度从初始值开始,随着传播路径的增长不断衰减,传播到路径上的每个节点。’对于非二值信任网络Ⅳ下任意两个不同的用户口和b,信任传播的步长为,,信任传播的衰减速度为p∈(0,1),置表示从口到b的长度为f的所有路径的集合,min(e)表示路径e上权值最小的边的权值,Community(u)和Friends(u)的定义见本章定义4.3,定义4.4,经过信任的传播后,a对于b的信任度匕如公式4-432 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法所示。1,∈Friends(u)’,∈Community(u)且y萑Friends(u)(4-4)1,仨Community(u)通过公式4-3,4-4计算出来的信任度,理论上的值域范围为lo,栅),为了将信任度的值归一化到(o,1l,在信任传播的最后,我们定义了一个归一化的函数Scale(x),作用到计算出来的信任度值,该函数定义如公式4.5所示。Scale(x):三arctan(x)(4.5)万通过Scale(x)计算出来的信任度值就是最终TPM计算出来的用户间的间接信任度结果。间接信任度的取值范围为0到l,信任程度从O到l不断增加。本文建立了基于信任网络的信任传播模型TPM,TPM合理对信任网络中信任的不对称性,差异性,传递性等特征进行建模,给出了不存在直接信任关系的节点之间的间接信任度的计算方法。TPM模型通过信任传播,从两个方面丰富了信任网络中用户之间的信任关系数据。第一,合理的计算出了无直接信任关系的用户之间的信任度。第二,对于二值信任网络,经过信任传播后,用户之间的信任度的值分布在lo,lI连续的区间内,有了更好的区分度,而不仅仅是l或者0。对于推荐系统普遍存在的稀疏性问题和冷启动问题,由于用户对于商品评分过少,导致传统的基于用户的协同过滤推荐算法无法计算用户间的相似度,从而只能搜索到少量的最近邻居用户,甚至无法找到最近邻居用户,降低了推荐系统的准确率和推荐能力。在推荐系统中加入信任网络,可以缓解推荐系统的稀疏性问题,由于信任度的计算并不依赖于用户对商品的评分数量,因此使用信任度代替相似度来度量邻居用户间的距离,即使用户对于商品评分较少的情况下,也可以搜索到一定数量的最近邻居。在协同过滤推荐算法中,搜索到的邻居数量越多,推荐的准确率就越高。所以,在协同过滤推荐算法中加入信任度信息是可以提高推荐的准确率和覆盖率的。在抗攻击性问题上,传统的协同过滤推荐算法容易收到不良用户的伪造恶意评分的欺诈攻击,而信任度的计算并不依赖于用户项目的评分,并且信任关系是不对称的,无论是伪造用户项目评分还是信任关系评分都33 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法无法对基于信任度的协同过滤推荐系统进行欺诈攻击。因此,本文建立的信任传播模型TPM是具有研究意义和实际意义的。本文将在本章4.2节,4.3节讨论如何在传统的协同过滤推荐算法中加入信任传播模型TPM,从而提出一种新的基于信任传播模型的协同过滤推荐算法。4.2信任度与用户相似度在协同过滤推荐系统中加入信任传播模型TPM必须解决另外一个问题,那就是信任度和协同过滤推荐系统的集成问题。传统的基于用户的协同过滤推荐算法是采用用户相似度来区分邻居用户和非邻居用户的。研究表明,用户相似度和用户信任度是具有一定的相关性的。本文采用融合用户相似度和信任度的方法来解决信任度和协同过滤推荐系统的集成问题。4.2.1信任度与用户相似度分析在传统的协同过滤推荐算法中,通常是使用用户的相似度来度量用户之间的距离的,进而区分当前用户的邻居用户和非邻居用户。传统的计算用户相似度的方法主要包括余弦相似度,Pearson相关系数,修正的余弦相似度。本文在2.3.1节中对这三种计算相似度的方法做了详细的介绍。用户的相似度是基于用户之间共有的商品评分数据计算出来的,两个用户对商品的评分交集的大小影响着用户之间相似度计算的准确率,如果缺少对相同商品的评分数据,甚至会导致无法计算用户间的相似度。两个用户之间共有的商品评分数量越多,计算出来的相似度就越准确。然而,在实际的推荐系统应用中,用户之间共有的商品评分数量往往是很少的,这就是本文第2章中提到的协同过滤推荐算法的稀疏性问题。在本文提出的信任网络的传播模型TPM中,信任度计算的数据来源是来自于用户之间主观的信任评分,由于用户商品评分数据稀疏性等问题,相比于从海量的稀疏的用户商品评分数据中推导出来的相似度,使用信任度作为区分邻居用户和非邻居用户的标准将更加的精确。另一方面,信任度的计算并不依赖于用户对商品的评分数量,即使用户对于商品的评分数量不多,只要用户有对其他用户的信任评分,基于信任度的推荐系统也可以搜索到一定数量的邻居用户,并做出 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法推荐,这也说明了,在用户商品评分数据稀少的情况下,采用信任度的推荐系统的推荐能力比采用相似度的强。当然,用户的信任评分也存在着稀疏性的问题,也就是说,用户对用户的信任评分数量也是很稀疏的。针对这一问题,根据信任具备传递性的特点,本文建立的信任网络下的信任传播模型TPM缓解了用户信任评分数据的稀疏性问题,结合协同过滤推荐算法,推荐系统可以搜索到更多可靠的邻居用户,从而做出准确可靠的商品推荐。研究表明,在同一应用领域下,用户的相似度和信任度是存在相关性的。两个用户之间的信任度高,他们之间的相似度也会比较高。相反,如果两个用户之间的信任度较低,他们之间的相似度也会较低。设信任网络用户集合为阢对于任意用户口∈U,Community(a)的定义见本章定义4.3,Sim(a,6)表示用户a和用户b的相似度,那么我们可以这样描述用户的相似度和信任度的关系【581:∑Sim(a,6)∑Sim(a,c)Va∈U笺竺业盟—百>>芒坠竺竺业_ICommunity(a)lIU—Community(a)f(4-6)公式4-6说明,用户a和Community(a)中的用户的相似度应该比不在Community(a)的用户普遍要高。4.2.2用户信任度和相似度的混合指标基于用户信任度和相似度存在的相关性,本文提出一种用户信任度和相似度的混合指标来取代协同过滤推荐算法中的相似度。本文称该指标为TS(TrustandSimilarity)指标。在4.2.1节中,本文说明了用户间的信任度和相似度之间的关系,当前用户与他信任的用户之间的相似度相比于不信任的用户之间的相似度普遍要高。在协同过滤推荐推荐算法中,应该尽量参考当前用户信任的而且兴趣爱好比较相似的用户评分数据,来对当前用户做出商品的推荐。基于这个标准,本文提出了TS指标来代替传统的用户相似度,作为区分邻居用户和非邻居用户的标准。定义二元组(f,J)西表示用户a对用户b的信任度和相似度二元组,需要寻找一个映射函数,将该二元组投影到一维空间中,得到a对b的TS指标值。考虑 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法到信任度的推导来源于用户的主观信任评分,不依赖于用户对商品的评分数量,在用户对商品的评分比较稀疏的情况下,相比于用相似度来度量邻居用户之间的距离得到的推荐效果更好。另外,信任度比相似度具备更好的抵抗恶意攻击的能力。因此,本文取信任度为TS指标的主要贡献因子,也即当a>b时,TS(a,6)>TS(b,口)。此外考虑到归一化的问题,TS指标应该满足对Va,b满足ts曲∈【0,1】。基于上述特征,21S:3碇Y,.f(x,y)=sin(3x5+v万)作为映射函数,f(x,y’)具备以下函数特征:1)当x,Y∈【0,1】时,f(x,Y)∈【0,1】2)当x1,也,Yo∈[0,1】_Rxl>X2时,厂(_,Yo)>f(x2,Yo)3)当Xo,Yl,Y2∈【0,1】且yl>Y2时,f(xo,Y1)>f(xo,Y2)4)当xl,Yl∈【0,1】_Xxl>Yl时,f(xl,Y1)>f(Yl,x1)采用厂(x,y)=si眦.T3x+y万)将二元组(,,J)映射成一个一维的值,符合本文所描述的用户信任度和相似度的关系。用户a和b的TS指标的计算公式如公式4.7所示。fs曲Q,幻=sin(.T3t+s万)sin(言万)sin(i3t万)上如果s,f都存在如果s存在,,不存在(4.7)如果府在,J不存在如果s,,都不存在本文提出的信任传播模型TPM计算用户间的信任度依赖于信任网络中两个用户存在关系,即在网络上存在路径连接两个用户。推荐系统的用户相似度计算依赖于两个用户间对相同商品的评分数量。无论是基于信任度还是基于相似度的协同过滤推荐算法,如果无法计算用户间信任度、相似度,那么推荐系统将无法搜索到当前用户的最近邻居用户,进而将无法对用户提供推荐服务。针对这个问题,本文提出的融合用户信任度和相似度的TS指标,提高了推荐系统的推荐能 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法力。使用TS指标,推荐系统能够向更多的用户进行准确的商品推荐。4.3基于信任传播模型的协同过滤推荐算法TPCF本文提出了一种基于TPM的协同过滤推荐算法TPCF,该算法在传统的协同过滤推荐算法的基础上加入信任传播模型TPM,采用融合用户信任度和相似度的TS指标取代相似度,度量用户间的距离,区分邻居用户和非邻居用户。本文将在4.3.1至4.3.6节详细介绍TPCF算法的算法框架和各个主要的算法步骤。4.3.1TPCF的算法框架本文基于TPM提出了一种新的协同过滤推荐算法TPCF。TPCF算法是在基于用户的协同过滤推荐算法的基础上,应用TPM模型和TS指标进行设计的推荐算法。TPCF算法的基本框架如图4-4所示。TPCF算法主要输入是用户信任关系矩阵TR和用户评分矩阵R,算法步骤主要包括以下六个主要的步骤:信任度计算、相似度计算、TS指标计算、生成最近邻居集合、预测评分和产生推荐列表。图4.4TPCF算法基本框架 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法TPCF算法l:输入当前用户甜,信任关系矩阵豫,用户.项目评分矩阵R,信任传播步长,,信任传播衰减速率P2-计算经过信任传播后甜的信任度向量瓦=TP(u,TR,,,p)3:计算U的相似度向量瓯=Similarity(u,l,R)4:计算U的TS指标向量您。=TSPoint(T。,S。)5:对于用户U未评分的商品集合中的每一个商品i6:搜索最近邻居集合Neighbors(u)=SearchNeighbors(u,f,嬲。)7:预测评分屯=PredictRating(u,f,Neighbors(u))8:更新用户推荐列表Ⅳ9:输出Ⅳ,结束本文将分别在4.3.2-4.3.7节详细介绍TPCF算法主要算法步骤的具体内容。4.3.2信任度计算TPCF算法是基于本文4.1节提出的信任传播模型TPM提出来的新的协同过滤推荐算法。信任网络中的信任关系矩阵TR是TPCF算法的一个重要的输入,它描述了信任网络中用户之间原始的信任关系信息。TPCF中用户之间的信任度的计算是以信任关系矩阵TR为输入,基于TPM模型定义的信任传播规则,计算得来的。信任度的计算包括两部分:搜索用户关系和信任度计算。信任度的计算分为两种情况,二值信任网络和非二值信任网络。本文在4.1.3节详细介绍了TPM具体的信任传播机制。1)二值信任网络对于二值信任网络的情况下,信任传播算法TP算法首先按路径长度从1到传播步长,,搜索从源节点到目标节点的路径,路径的最大传播负载均为1,按信任度随传播路径的长度指数衰减的规律计算每条路径传播的信任度,并累加起来,最后进行归一化处理,得到源节点对目标节点的间接信任度值。归一化函数定义如本文公式4.4所述。算法步骤描述如下: 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法信任传播算法(--值信任网络)-'IT1:输入:用户U,用户信任矩阵豫,传播步长,,衰减参数为P2-初始化“的信任度向量为瓦,Friends(u)表示u的朋友集合,U。表示传播中第f步搜索到的用户集合,≈=纯,I通过长度为f的路径从“传播到V的信任度)3:对于所有的1,∈Friends(u)4:加入f。=1到瓦,加Av至Uul5:从豫中删除‰6:f从2到,7:对于所有的’,∈∽8:对于所有的w∈Friends(v)9:如果w蓝Friends(u)10:r0=f。+f二·p更新L11:加入w到uM,,01=r:+厶更新Z“12:从豫中删除‰13:如果1,薯Friends(u)14:,0=Scale(tw)更新互15:输出L,结束2)非二值信任网络非二值信任网络唯一和二值信任网络不同的是在计算信任度时,每条传播路径上的传播初始值是该路径上权值最小的边的权值。算法步骤的具体描述如下: 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法信任传播算法(非二值信任网络).TP1.-输入:用户U,用户信任矩阵豫,传播步长,,衰减参数为p2-初始化材的信任度向量为瓦,,,耙,z烈“)表示“的朋友集合,U,表示传播中第i步搜索到的用户集合,巧={(刀,聊)I,z,m∈N)表示长度为f的甜到v的路径集合,其中n为路径序号,m为该路径上权值最小的边的权值3:对于所有的1,∈Friends(u)4:加入f。=‰到瓦,加入1,到u,,加入(眇I+l,吒,)到Z5:从豫中删除f‰6:f从2到,7:对于所有的',∈Uj8:对于所有的(刀,m)∈Z9:对于所有的w∈Friends(v)10:如果所>‰m=‰ll:如果w仨Friends(u)12:,0=,。+p卜1聊更新瓦13:加入w到uM,加入(I寸1l+1,砌到Z+114:从豫中删除f~15:如果1,叠Friends(u)16:,二=Scale(t。)更新£17:输出瓦,结束 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法4.3.3相似度计算对于当前用户,计算它和推荐系统中的其他用户之间的相似度。在本文的2.3.1节中,介绍了三种度量用户相似度的方法:1)余弦相似度;2)Pearson相关系数;3.)修正的余弦相似度。本文的TPCF算法采用的是Pearson相关系数来计算用户间的相似度,其详细的计算公式如公式2.2所示。用户相似度的计算依赖于两个用户之间的共同的商品评分数量。如果两个用户之间共同的商品评分数量越多,那么计算出来的用户相似度就越精确。但是由于实际应用中,用户的评分数据极其稀疏,因此存在某些用户由于缺乏共同的商品评分数据,无法计算用户间的相似度。4.3.4TS指标计算传统的基于用户的协同过滤推荐算法使用相似度来度量用户间的距离,区分当前用户的邻居用户和非邻居用户。用户相似度的计算依赖于两个用户间共同的商品评分数据。商品评分数据的稀疏性导致基于用户相似度的协同过滤推荐算法对某些用户间无法计算相似度。本文提出的融合用户相似度和信任度的TS指标缓解了传统的基于用户的协同过滤推荐算法存在的稀疏性问题。但从另一个角度来说,信任度的计算依赖于信任网络中两个用户必须存在相连的路径。因此信任度的计算也存在一定的局限性。由于TS指标融合了信任度和相似度的特点,TS指标的计算并不完全依赖于用户项目评分数据或者用户信任关系评分数据,相比于单独的信任度和相似度,使用TS指标的协同过滤推荐算法的推荐能力更强。本文提出的TPCF算法使用TS指标来度量当前用户和其他用户间的距离,区分当前用户的邻居用户集和非邻居用户集。TS指标的应用使得推荐算法搜索到更多当前用户的最近邻居,改进了推荐算法的覆盖率,提高了推荐系统的推荐能力。本文在4.2.2节详细描述了TS指标的定义。TS指标的计算步骤如下:4l 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法TS指标计算.TSPoint1:输入:用户甜信任度向量瓦,相似度向量瓯2:如果S胛为空值f聊不为空值3:‰“n孚窍4:如果s胛为空值k不为空值5:招胛=s洫等万6:如果s胛,o均不为空值7:‰“n半万8:输出TS。,结束4.3.5生成最近邻居集合在传统的基于用户的协同过滤推荐算法中,邻居用户是指和当前用户兴趣偏好相近的用户集合,当前用户对目标商品项目的预测评分会参考邻居用户的评分。TPCF算法使用融合用户信任度和相似度的TS指标代替传统的协同过滤推荐算法的用户相似度。由于TS指标融合了用户相似度和信任度的特点,TPCF算法中所生成的邻居集合不仅仅是和当前用户兴趣偏好相近的用户,而且还是当前用户信任的用户。在传统的协同过滤推荐算法中,邻居用户的生成通常有两种方案:1)选取与当前用户相似度最高的Ⅳ个用户。2)选取与当前用户相似度大于某个固定值的用户集合。本文的TPCF算法所采用的是第二种方案来生成最近邻居集合。即选取TS指标值大于某个固定值的用户集合作为当前用户的邻居集合。42 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法4.3.6预测评分根据当前用户和最近邻居集合中的用户的评分记录,可以计算出当前用户对于目标商品项目的预测评分值。本文在传统的协同过滤推荐算法的基础上,使用TS指标代替用户的相似度,得到的预测评分公式如公式4.8所示:∑括。×(‰一瓦)Pxl="¨生F“-8)vtN-该公式中,虬为用户U的最近邻居集合,~表示用户’,对于商品项目f的评分值,无表示用户“的平均评分值,括"表示的是用户U对用户’,的TS指标,匕是当前用户甜对商品项目,的预测评分值。4.3.7产生推荐列表最后,只需要选取对于当前用户甜预测评分值最高的前Ⅳ个商品项目作为用户“的TopN推荐列表推荐给用户。4.4TPCF算法的扩展性分析本文提出的基于TPM的协同过滤推荐算法TPCF,TPCF算法主要耗费的计算时间是在计算信任度,相似度和搜索最近邻居的步骤上。在相似度的计算上,如果采用Pearson相关系数计算,复杂度是O(mn),m是用户数量,刀是商品数量。本文第二章介绍了一些方法降低相似度计算的复杂度,例如聚类,贝叶斯概率方法等。如何降低相似度计算步骤的计算复杂度,不是本文的研究重点。该问题是未来值得研究的问题。本文下面将对TPCF算法在信任度计算上的复杂度进行分析。TPCF算法在计算一个用户和它社区里的其他用户之间的信任度时,实际是对图做一次宽度优先搜索,需要遍历一次图中所有的边,算法复杂度为O(n2),其中,,为用户数量。在最坏的情况下,如果每个用户对其他聆一1个用户都进行了43 基于信任传播模型的协同过滤推荐算法研究基于信任传播模型的协同过滤推荐算法信任评分,算法的复杂度是比较高的,但是在实际情况下,这是不可能存在的。一般来说,一个活跃用户进行信任评分的用户数量大约是数千个。本文采用的Epinions.corn数据中,40290个用户只有487182条信任评分记录,信任评分覆盖率不到1%,52.2%的用户,信任关系评分数量在1到5之间。为了保证信任度的计算具备一定的扩展性,TPM模型引入了传播步长的概念。计算信任度时,只考虑不超过传播步长的路径。根据六度空间理论【59】,在一个网络中,任意一个节点最多只需要6步就可以搜索到网络中的其他与该节点任意相连的节点。因此,一般来说,信任传播的步长2≤,≤6。在本文第五章的实验中,可以看出当,=4时,TPCF算法已经可以达到一个较好的效果。由于信任关系矩阵的稀疏性和信任传播步长的控制,在大多数情况下,计算信任度时,遍历的边的数量是远远小于刀2的。因此,计算信任度步骤的算法复杂度在大多数情况下是小于O(n2)。在电子商务推荐系统中,数量庞大的用户和商品导致了推荐算法的计算量十分大,推荐的实时效果差。针对这一问题,推荐系统一般会在离线完成算法的一部分计算步骤,缓存起来,然后在线应用计算结果。TPCF算法的信任度计算步骤可以通过离线计算,并且在线局部更新的方法,来提高算法的实时性。通过对用户的历史信任关系数据执行信任传播算法,得到用户的信任度矩阵,并存储起来。如果有新的信任关系加入,更新或者删除,则直接更新该信任关系对应的信任度的值。对于没有直接信任关系的用户之间的间接信任度可以通过每隔一段时间,离线运行信任传播算法,进行更新。4.5本章小结本章是本文的核心章节,首先给出本文提出的信任网络下的信任传播模型TPM的问题描述和相关定义,详细描述的TPM的基本思想和信任传播机制。其次,对用户信任度和用户相似度进行分析,提出一种融合用户相似度和信任度的指标.TS指标,该指标综合度量了用户间的信任度和相似度。最后,应用TPM和TS指标提出一种基于信任传播模型的协同过滤推荐算法TPCF,详细介绍TPCF算法的基本算法框架,各个算法步骤以及对算法的扩展性进行分析。 基于信任传播模型的协同过滤推荐算法研究实验与分析5.1实验目标第5章实验与分析本文的实验目标是通过在同一实验环境下,和传统的基于用户的协同过滤推荐算法在准确率和覆盖率上进行比较,验证基于信任传播模型TPM的协同过滤推荐算法TPCF算法在缓解传统的协同过滤推荐算法存在的稀疏性问题,冷启动问题和抗攻击性问题上的优越性。实验目标具体描述如下:1)通过实验,估计信任传播模型TPM中定义的信任度衰减参数一个较优的值,并应用到后续的数据实验中。2)验证在用户项目评分数据极度稀疏的情况下,TPCF算法相比于传统的基于用户的协同过滤推荐算法,算法的准确率和覆盖率都有所改进,从而说明TPCF算法在一定程度上缓解了稀疏性问题。3)验证TPCF算法相比于传统的基于用户的协同过滤推荐算法对于评分数据较少的新用户,推荐系统的准确率和覆盖率有所提高,从而说明TPCF算法在一定程度上缓解了冷启动问题中的新用户问题。4)验证TPCF算法相比于传统的基于用户的协同过滤推荐推荐算法对于不良用户的欺诈攻击具备更好的抵抗能力。5)实验采用超过100万条数据的大规模数据进行,从而说明TPCF算法在大规模的数据集下具备一定的扩展性。5.2实验环境和数据集本文的实验环境包括硬件环境和软件环境,具体情况如下:1)硬件环境CPU:Intel(R)Core(TM)2DuoCPUT66702.20GHz内存:3GB硬盘:320GB2)软件环境45 基于信任传播模型的协同过滤推荐算法研究实验与分析操作系统:W'mdowsXP编程语言:Java实验采用的数据集①来源于一个著名的电子商务商品评价网站Epinions.com,数据集中包括40290个用户关于139738个商品项目的664824条商品评分数据,除此之外,还有关于用户之间的487181条信任关系评分数据。用户对项目的评分范围为从l到5,1表示最低的评分值,5表示最高的评分值。用户之间的信任关系评分为1或者为空,1表示评分用户信任被评用户,空值表示用户之间没有信任评分。图5.1用户信任关系评分数量分布图(评分数量≤5)本文使用的Epinions.com实验数据集,无论是用户项目评分数据还是用户信任关系评分数据都是极其稀疏的,52.2%的用户,信任关系评分数量在5条记录以下,48.4%的用户,用户项目评分数量在5条记录以下。信任关系评分数量和用户项目评分数量的分布如图5.1,5.2所示。。数据集下载地址:htlp咖脚nⅣ期埘l瓯ofg/wiki,Epini∞s^d嘲se‘46 基于信任传播模型的协同过滤推荐算法研究实验与分析图5-2用户项目评分数量分布图(评分数量≤5)本文主要是为了研究电子商务协同过滤推荐系统中存在的稀疏性问题,冷启动问题和抗攻击性问题等难题,在传统的协同过滤推荐算法框架下,加入用户之间的信任信息,提出基于信任传播模型TPM的协同过滤推荐算法TPCF。因此,采用的实验数据应该是极度稀疏的才具有代表性。这也和推荐系统的实际应用场景是相符合的。正如本节所分析的一样,本文采用的Epinions.com实验数据符合本文实验对于数据集的要求。5.3实验方案设计本文采用leave.one-outl601方法进行实验。所谓leave.one-out方法就是在实验过程中把某条评分记录从用户项目评分数据集中剔除,使用剩下的数据预测被剔除的评分数据,然后计算预测评分和实际评分的偏差来度量预测的准确率。本文采用2.4节中介绍的平均绝对误差MAE来评价算法的准确率,评分覆盖率(RatingCoverage简称gC),用户覆盖率(UserCoverage简称UC)来评价算法的覆盖率。下面给出数据实验中一些术语的说明:1)User-BasedCF:传统的基于用户的协同过滤推荐算法,采用Pearson相关系数来计算用户的相似度。具体的算法步骤本文2.3.1节有详细的介绍。2)Trust.BasedCF:基于信任传播模型TPM的协同过滤推荐算法,使用信47 基于信任传播模型的协同过滤推荐算法研究实验与分析任度代替User-BasedCF中的用户相似度。算法名称后面跟着的数字表示信任传播的步长。例如Trust.BasedCF.2表示使用进行2步信任传播后的信任度数据。3)TPCF:基于信任传播模型的TPM的协同过滤推荐算法,使用TS指标代替User-BasedCF中的用户相似度。算法名称后面跟着的数字表示信任传播的步长。例如TPCF.2表示使用进行2步信任传播后的信任度数据。4)QualifySet:从整个Epinions.com数据集抽取若干条数据作为实验的测试数据。QualifySet_All表示抽取整个Epinions.corn的数据作为测试集,QualifySet_2表示取评分数量为2的用户的评分数据,QualifySet3表示取评分数量为3的用户的评分数据,QualifySet表示取评分数量为4的用户的评分数据。.4 5.)AttackSet:从整个Epinions.corn数据集中抽取出来的50个平均评分小于等于2的商品项目的评分数据作为抗攻击性实验的测试数据集,该测试数据集包括174条用户项目评分记录。根据本文实验设定的实验目标,本文设计了四个实验方案,具体描述如下:1)参数估计实验:信任传播模型TPM的衰减参数估计,分别取衰减参数为0.1,O.2,0.3,⋯⋯,0.9,执行TPCF算法,对比九次实验运行结果的MAE,估计一个较优的衰减参数值。2)Trust.BasedCF算法数据实验:Trust.BasedCF算法是在传统的基于用户的协同过滤推荐算法中,使用通过TPM计算的用户之间的信任度代替用户相似度后得到的推荐算法。分析改进后,相比于User-BasedCF算法,Trust.BasedCF算法的MAE,RC和UC的变化。3)TPCF算法数据实验:TPCF算法是在传统的基于用户的协同过滤推荐算法中,采用信任传播模型TPM和融合信任度和相似度的TS指标得到的推荐算法。分析改进后,相比于User-BasedCF算法和Trust.BasedCF算法,TPCF算法的MAE,RC和UC的变化。4)抗攻击性实验:对比分析TPCF,Trust.BasedCF算法和User-BasedCF算法的抗攻击性能力。分别构造lO,20,30,40和50个不良用户,进行多次实验,观测三种算法的推荐准确率MAE的变化。本实验结合本文2.3.3节介绍的均值攻击模型和流行攻击模型对恶意评分进行伪造,对于每个恶意用户,首先选取20个评分数量大于100的商品,使用该 基于信任传播模型的协同过滤推荐算法研究实验与分析商品的平均评分填充伪造的用户对该商品的评分。对于目标项目集,不良用户的目的是进行推攻击,希望对目标项目集进行推销,让推荐系统推荐原本平均评分较低的商品,所以攻击者会对目标项目集都评5分。如图5.3所示。填充项目集目标项目集耳l趸l⋯l瓦5●●●5图5-3伪造恶意评分参数估计实验在测试集QuaHfySetAn上进行分析,Trust-BaseCF数据实验,TPCF数据实验将在四个测试集中进行分析,QualifySet_All测试集,QualifySet._2测试集,QualifySet_3测试集和QualifySet_4测试集。抗攻击性实验在AttackSet测试集上进行分析。5.4实验结果分析本文一共设计了四个实验:参数估计实验、Trust.BasedCF算法数据实验、TPCF算法数据实验和抗攻击性实验,将从5.4.1节至5.4.4节对这四个数据实验的结果进行分析。5.4.1参数估计实验在本文提出的信任传播模型TPM中,信任的传播是随着传播路径的长度越长而不断衰减的。TPM信任传播通过信任衰减参数来调节信任传播的衰减速度,本实验通过设置不同的信任衰减参数,估计一个较优的衰减参数值,应用到本文其他实验。本实验在肛l之间等间距的取了9个点,设置衰减参数P分别为0.1,0.2,0.3,⋯⋯,0.9,测试数据是QualifySetl数据,运行次算法,_AI 9TPCF-4对比这9次实验的平均绝对误差MAE,结果如图5-4所示。 基于信任传播模型的协同过滤推荐算法研究实验与分析r—————一鼍警壤}/人\l黧\:震:”\“}\\i器\{憋嚣%缸崭地蛾赫搿。妊j*翰勰。始k∥瞄。∞嘞i识;”婚羹瓤鲰蹿协_t|*%诤,?瞬镰%%铙瓣:E;i渤溺O.10.20.30.40.5O.60.80.9衰减参数p图5.4参数估计实验结果图从实验结果可以看出,在这9次算法运行结果中,在P为0.9时,MAE最小。本文将在Trust.BasedCF算法、TPCF算法和抗攻击性实验三次数据实验中,应用P=O.9进行实验。5.4.2Trust-BasedCF算法数据实验本实验方案中的Trust—BasedCF算法通过信任传播,计算用户之间的信任度,并且使用信任度代替User-BasedCF算法中的相似度,一般来说,在搜索邻居用户的时候,邻居用户的相似度范围是【O,l】,刚好与本文定义的信任度范围是相符合的,因此只需要对User-BasedCF算法的预测评分公式进行如下修改,便可以在传统的协同过滤推荐算法中应用相似度。∑,w×(%一弓)己=兀+些∑ovE虬(5.1)公式5-1中,,。表示用户甜对用户1,的信任度值,其他变量跟公式2-4定义一样。实验的平均绝对误差,评分覆盖率,用户覆盖率的结果如表5.1,5.2,5.3所示。4248642448333388.8888..O....OOOO00一∞Se州曾}茛瓣轷} 基于信任传播模型的协同过滤推荐算法研咒实验与升析表5-lTrust-BasedCF数据实验平均绝对误差(MAE)结果平均绝对误差(MAE)\测试数据QuaUfysd_AuQuaUfySet2QualifySet_3Quali母Set_4算法、\User-BasedCF08556N,A1164610535Trust-BasedCF-l08992l244l1201510837Trust-BasedCF-208658134l114851.0827Trust-BasedCF-308433127821077910293Trust.BasedCF-4o.82931.23711.0389仉9864努躲鞭All234测试数据图5-5Trust-BasedCF数据实验平均绝对误差(MAE)结果图从图5.5可以直观地看出,加入信任网络,通过信任传播以后,无论是对于所有用户还是评分数量较少的新用户,推荐的准确率相比于基于用户的协同过滤推荐算法User-BasedCF都有所改进。信任传播的步长越长,提高的准确率就越高。经过步长大于3的信任传播以后,对于四个不同的实验数据集,Trust-BasedCF算法的准确率都比基于用户的协同过滤推荐算法User-BasedCF高。可见,结合信任网络的协同过滤推荐算法Trust-BasedCF在用户项目评分数据集极度稀疏的情况下,提高了推荐算法的准确率,一定程度上缓解了稀疏性问题。极端情况下,对于评分数量为2的新用户,User-BasedCF算法甚至失去了推荐的能力,无法对任何用户做出推荐。但是加入信任网络以后,能够在保证一定的准确率的情况下,对这部分新用户做出推荐,可见,加入信任网络的 基于瞎妊传播模型的协同过罅推荐算珐研究实验与分析Trt)st-BasedcF算法在~定程度上缓解了冷启动问题中的新用户问题的。袭5-2实验Trust-BasedCF数据实验用户覆盖率(RC)结果评分覆盖率(RC)、\、测试数据QuailfySetAllQuail母Set2QuaJifySet_3Quali母Set_4算法\\、User-BasedCF6937%N/A24.23%3745%Trust-BasedCF.12627%613%667%7.44%Trust-BasedCF.25743%20.45%22.39%2647%Trmt-BasedCF-37l28%39.61%4347%47.80%Trust-BasedCF-474.90%47.45%51.62%54.93% 陆All234测试数据圈5-6Trot-BasedcF数据实验评分疆盏率(Rc)结果幽从图5-6可以直观的看出,随着信任传播的步长不断增加,Trust.BasedCF算法的评分覆盖率不断增加,相比于User—BasedCF算法,Trust-BasedCF算法的推荐能力大大提高了。明显可以看出.无论是对于所有用户还是新用户,基于信任传播模型TPM的Trust-BasedCF算法的评分覆盖率都有显著的提高。对于所有用户,步长为4的Trust.BasedCF算法的评分覆盖率相比于User-BasedCF算法增加了5%,对于评分数量为2,3,4的新用户,分别增加了4745%,27.39%.1748%尤其是对于用户项目评分数量为2的新用户,User-BasedCF算法根本无法对该用户群做出推荐,但是步长为4的Trust.BasedCF算法对该用户群的推荐可以达到4745%的评分覆盖率。从这个角度说明了,加八信任网络后,可以提高帆帆怵哪%啡00900O∞帅∞鲫舯0一星一斟删缚求艋 基于信任传捂模型的协同过滤推荐算法研究宴验与分折推荐算法的推荐能力,一定程度上,缓解了冷启动问冠中的新用户问题。表5-3Trust.BasedCF敷据实验用户覆盖率(UC)结果用户覆盖率(uc)\\型试数据Quail母SetAllQuaUfySet_2QualifySet_3Q岫“fySet_4算法、\User-BasedCFs9.96%N/A4024%59”%Trust-BasedCF-135.60%1054%151%20.33%Trust.BasedCF一25036%2936%3630%4532%Trust.BasedCF一35692%4707%5389%5904%Trust-BasedCF-458.14%51.92%5L73%61.32%10000%080.O嘴褂600095帽碟400096壶20.00960.00%一坩H嘣nAll234测试数据图5—7Trust-BasedCF教据实验用户覆盖率(UC)结果图从图5.7可以直观的看出来,对于各个测试数据集,除了评分数量为2和3的新用户测试集,相比于User-BasedCF算法,Trttst.BasedCF算法的用户覆盖率并没有明显的改进。这也说明了一点,Trust.BasedCF算法虽然加入信任网络,通过信任传播,采用信任度瞢挟相似度,提高了评分覆盖率,但是增加的可以预测评分的项目仍然是集中在某些用户上,还是有约42%的用户无法做出推荐。针对这一情况,本文提出了使用融合用户信任度和相似度的度量指标—rs指标来取代协同过滤推荐算法中的相似度,对于提高用户覆盖率有显著的效果。在User-BasedCF算法基础上,应用信任传播模型仰M和Ts指标,就是本文提出的摹于TPM的协同过滤推荐算法TPCF。TPCF数据宴验分析结果详见本文5.43节。 蕈f信任传播模型的怫同过滤推#算社研究宴验%分析5.4.3TPCF算法数据实验从Trust—BasedCF数据实验的结果可毗看出.如果只是使用信任度代替User-BasedCF算法中的相似度的话,虽然平均绝对误差MAE和评分覆盖率RC相比于User-BasedCF算法有所改进,但是用户覆盖率UC并没有显著的改进。本文提出的应用TPM和Ts指标的TPCF算法可以进一步的提高基于信任传播模型的协同过滤推荐算法的评分覆盖率和用户覆盖率。TPCF算法数据实验结果如表5-4,5-5,5-6所示。表5-4TFCF数据实验平均绝对误差(MAE)结果平均绝对误差(MAE)\\\J0试数据QualifySet_AllQuaffySet2Quail母Set3QuailfySet_4算法\、\\User-BasedCF08556N/A1164610535TPCF.1085181.24411_156710456TPCF一208486134181138910437TPCF.308422l27741089510264TPCF一40.83551.2364I.05740.9983Trust-BasedCF-40.82931.23711.03890.9864扩i1蠡os罕。All234测试数据凹5-8TPCF数据实验平均绝对误差(MAE)结果圉从图5-8可以直观的看出,随着信任传播步民的增加,相比于User-BasedCF算法,TPCF算法的准确率有所改进。无论是所有用户还是新用户,相比于基于用户的协同过滤推荐算法User-BasedCF算法都有所改进。步长为4时,TPCF 基于信任传播模型的协同过滤推荐算法研究宴验%H析算法的平均绝对误差MAE和只采用信任度的Trust-BasedCF算法基本持平表5-5TPCF数据实验评分覆盖率(RC)结果评分覆盖率(RC)、、、掣试数据QualifySetAllQuailfySet一2QualifySet_3QualifySet4算法\user-BasedCF6937%NfK2423%3745%TPCF.17061%613%2828%4070%TPCF.27510%2045%3878%4995%TPCF.38050%3961%5524%6384%TPCF.482.72%47A5%62.43%69-76%Trust.BasedCF_47490%4745%5162%5493%A1l23测试数据图5-9TPCF数据实验评分覆盖率(Rc)结果削从图5-9可咀直观的看出,TPCF算法的评分覆盖率随着信任传播步长的增加,不断的提高,当传播步长大于3的时候,TPCF算法的评分覆盖率和User-BasedCF算法相比,有着大幅度的改进。对于所有的用户,在传播步长为4的时候,TPCF算法的评分覆盖率相比于User-BasedCF算法增加了约140/o。和只使用信任度的Trust.BasedCF算法相比,同样是步长为4的情况下.TPCF算法的评分覆盖率上增加了约8%。对于评分数量为2,3.4的新用户,相比于User-BasedCF算法,TPCF算法的评分覆盖率增加了4745%.2739%,1748%。鹏帆帆嘶删嘶00O0OO∞∞∞如∞0一星一讲涸球采盎 Ⅱf情任传播模型∞冉同过滤推荐算法研究实验%分析表5-6TPCF数据实验用户覆盖率(UC)结果用户覆盖率(UC)\\\测试数据Quali母SetAIlQua]]奇Sef-2QualffygeoQualifySet_4算法、、\User-BasedCF5996%N/A4024%5973%TPCF.16288%1054%4793%661麟TPCF-267.37%2936%5982%7553%TPCF.371_们%4707%7254%8300%TPCF.471.84%51.92%75.45%8t51%Trust-BasedCF一458.14%5】92%5773%6l32%10000%o800096_cilL60.00%帽醛4000%霹2000%000%All234测试数据幽5.10TPCF数据实验用户覆盖率(L『c)结果图从固5.10可以直观的看出,TPCF算法的用户覆盖率随着传播步长的增加,对于全部用户,当传播步长为4的时候,TPCF算法的用户覆盖率达到7184%.相比于User-BasedCF算法,增加了约12%。不仅是对于所有的用户,对评分数量为2,3,4的新用户,TPCF算法相比于User-BasedCF算法,用户覆盖率分别增加了5192%,352l%,231%。在步长为4的情况下,无论是对于全部用户还是新用户,TPCF算法和Trust-BasedCF算法相比,在用户覆盖率上也有显著的提高。TPCF算法不仅提高了推荐算法的推荐能力.而且可预测的用户项目对并不是集中在少部分用户上,而是分布到大部分用户上,可见TPCF算法相对于uSepBasedCF算法,用户覆盖率更高,推荐效果更好。 基r信任传播模型的枷甸过滤推荐算法研究宴验与分析综上所述,基于信任传播模型TPM的协同过滤推荐算法TPCF,采用了融合用户相似度和信任度的Ts指标代替User-BasedCF算法中的用户相似度,在整个用户项目评分数据极度稀疏的情况下,无论是对干所有的用户还是对于商品评分数据较少的新用户,在推荐的准确率和覆盖率上,和User-BasedCF算法相比都有改进。由于TS指标的应用,在保证准确率的前提下,TPCF算法的评分覆盏率和用户覆盖率都有显著的提高,相比于User-BasedCF算法分别增加了约14*/dZl12%。由此可见,TPCF算法在一定程度上缓解了传统的协同过滤推荐算法中存在的稀疏性问题和冷启动问题。5.4.4抗攻击性实验本实验通过构造不良用户,添加恶意评分数据到整个EpinJo∞tom数据集中,使用TPCF,Trust-BasedCF和User-BasedCF三种算法对不良用户进行攻击的目标项目集进行评分预测,分析平均绝对误差(MAE)的变化,验证采用信任度的推荐算法在抗攻击性方面的优越性。本实验结果如图5.11所示。●—J——十—一O1020304050不良用户数量圈5-1I抗攻击性实验结果图从图5-11中可以直观地看出,随着不良用户数量的增加,并不会影响基于信任度的Trust-BasedCF算法的推荐准确率。因为Trust—BasedCF算法的推荐是通过用户之蒯的信任评分计算用户的信任度.再根据信任度搜索最近邻居集合,42●8642Oli0O00一叫薹一荆著}离羽曰} 基予信任传播模型的协同过滤推荐算法研究实验与分析并不依赖于用户对商品项目的评分数据。因此通过伪造不良用户对商品的评分数据的攻击方式对于Trust.BasedCF算法是无效的。相比之下,User-BasedCF算法通过用户项目评分数据计算用户间的相似度,再根据相似度搜索最近邻居集合,这种方式极有可能把不良用户认为是最近邻居,然后根据不良用户的评分数据计算出错误的预测评分。因此User-BasedCF算法极其容易受到不良用户的攻击,从实验数据可以看出,随着不良用户数量的不断增加,User-BasedCF算法的平均绝对误差不断提高,推荐的准确率大大下降了。对于使用融合用户信任度和相似度的TS指标搜索最近邻居集合的TPCF算法,由于TS指标融合了用户相似度的信息,因此TPCF算法也是会受到通过伪造用户项目评分的攻击方式影响的。但是由于TS指标在融合用户信任度和相似度时,是以用户信任度为主要的权重贡献的,因为TPCF算法具备较好的抗攻击性。从实验数据可以看出,相比于User-BasedCF算法,随着不良用户数量的不断增加,TPCF算法的平均绝对误差增长缓慢,准确率下降的幅度也比较低。因此说明TPCF算法在抵抗不良用户的欺诈攻击上是比User-BasedCF算法要好的。5.5本章小结本章是本文的数据实验部分,实验的数据集使用的是著名的电子商务评价网站Epinions.corn上的大规模的稀疏数据。本章分别介绍了本文的实验目的,实验环境和数据集,实验方案设计和实验结果分析四个部分的内容。本文一共设计了参数估计实验、Trust.BasedCF算法数据实验、TPCF算法数据实验和抗攻击性实验四个数据实验来验证本文的结果。通过对实验结果进行分析,TPCF算法无论是对所有的用户还是对于用户项目评分数据较少的新用户,相比于传统的协同过滤推荐算法,在推荐的准确率和覆盖率上都有所改进。相比于只使用信任度的协同过滤推荐算法Trust.BasedCF,使用TS指标的TPCF算法在保证准确率的同时,评分覆盖率和用户覆盖率得到进一步的改进。由此验证了TPCF算法在一定程度上缓解了传统的协同过滤推荐算法中存在的稀疏性问题、冷启动问题和抗攻击性问题。 基于信任传播模型的协同过滤推荐算法研究总结与展望第6章总结与展望本文第六章是研究总结部分,将对本文的研究工作做一个简要的总结,并根据本文存在的不足和协同过滤推荐系统的研究难点,总结未来需要进一步研究的问题。6.1本文的工作总结协同过滤推荐技术是电子商务推荐技术中的研究热点之一。本文针对协同过滤推荐算法存在的稀疏性问题、冷启动问题和抗攻击性问题,采用传统的协同过滤推荐算法结合信任网络的方法,提出本文对这三个问题的解决方案。本文的主要研究工作包括:1)系统地综述了协同过滤推荐技术和信任网络的相关研究热点、难点、方法和技术。详细介绍了协同过滤推荐算法基本理论、关键性问题及其研究现状,信任网络的相关研究及信任传播在推荐系统中的应用。2)根据Web信任网络的特点,建立了信任网络下的信任传播模型TPM,该模型定义了一套系统合理的信任传播规则,通过计算用户间的局部信任度来解决信任度量问题。TPM适用于二值信任网络和非二值信任网络。3)提出了一种融合相似度和信任度的指标一TS指标取代传统的协同过滤推荐算法中的相似度。实验表明,使用TS指标的推荐算法可以更加准确的搜索到更多的邻居用户,提高推荐系统的覆盖率。4)本文在传统的协同过滤推荐算法中,应用信任传播模型TPM和TS指标,提出基于TPM的协同过滤推荐算法TPCF算法。TPCF算法具备一定的抗攻击性,在一定程度上,缓解了传统的协同过滤推荐算法存在的稀疏性问题、冷启动闯题和抗攻击性问题,帮助用户在海量的商品中快速查找到自己喜欢的商品。实验表明,在著名电子商务评价网站Epinions.eom的数据集上,TPCF算法相比于传统的协同过滤推荐算法抗攻击性更好,无论是对所有用户还是新用户,推荐的准确率和覆盖率都有所改进,其中评分覆盖率增加了大约14%,用户覆盖率增加了大约12%。59 基于信任传播模型的协同过滤推荐算法研究总结与展望6.2未来工作展望目前来说,随着Web2.0时代互联网的发展,在电子商务推荐系统中应用信任网络是电子商务个性化推荐技术一个比较热门的研究方向,但是仍然是基于传统的协同过滤框架下进行研究的,数据的获取主要依赖于用户的显式评分,推荐算法的自动化程度还不高。另一方面,信任网络下,信任传播机制是复杂的,本文提出的信任传播模型也还有待进一步完善。因此,本文下一步的研究工作可以从以下几个方面展开,.1)如何进一步提高推荐系统的自动化程度,采用机器学习,数据挖掘等技术提高推荐系统的学习能力,实现智能化推荐。2)本文提出的信任传播模型中对于信任度在传播过程中的变化是采用指数衰减的方法进行建模的,存在一定的不足。在互联网环境下,这种信任度在传播过程中的变化应该是更加复杂的,未来的工作可以考虑采用更为复杂的数学模型进行建模。3)本文提出的信任传播模型并未考虑信任网络中存在的不信任情况,但是不信任信息也是表达用户间信任程度的重要信息,在下一步的工作中,可以考虑如何建立包含不信任信息的信任传播模型。4)对于基于大规模数据的系统来说,扩展性问题是将算法应用到实际问题时必须解决的一个难题。本文提出的TPCF算法虽然给出了一些解决扩展性问题的方案,但是如何能够进一步提高算法的扩展性问题仍然有很大的研究空间。 基于信任传播模型的协同过滤推荐算法研究参考文献参考文献【1】1J.A.Borchers,J.Konstan,andJ.Riedl,Ganginguponinformationoverload,Computer,1998,31(4):106-108【2】D.Goldberg,D.Nichols,B.M.Old,andD.Terry,Usingcollaborativefilteringtoweaveaninformationtapestry,CommunicationsoftheACM,1992,35:61.70【3】J.BreeseandD.Heekerman,Empiricalanalysisofpredictivealgorithmsforcollaborativefiltering,ProceedingsoftheFourteenthUncertaintyinArtificalIntelligence,Madison,Wisconsin,USA,1998,461:43-52【4】4B.Sarwar,Sparsity,sealability,anddistributioninrecommendersystems,UniversityofMinnesota,2001【5】RBurke,B.Mobasher,andC.Williams,Classificationfeaturesforattackdetectionincollaborativerecommendersystems,Proceedingsofthe12thACM。SIGKDDinternationalconferenceonknowledgediscoveryanddatamining,Philadelphia,Pennsylvanna,us&2006:542-547【6】RSinhaandkSwearingen,Comparingrecommendationsmadebyonlinesystemsandfriends,ProceedingsoftheDELOS-NSFWorkshopOil,PersonalizationandRecommenderSystemsinDigitalLibraries,PuertoVallarta,Mexico,2001【7】J.Golbeck,Tutorialonusingsocialtrustforrecommendersystems,ProceedingsoftheThirdACMConferenceonRecommendersystems,NewYork,USA,2009:425.426【8】S.Kamvar,M.Schlosser,andH.Garcia,Theeigentrustalgorithmforreputationmanagementinp2pnetworks,Proceedingsofthe12thinternationalconferenceonWorldWideWeb,Budapest,HUNGARY,2003:640—651【9】J.Golbeck,Computingandapplyingtrustinweb-basedsocialnetworks,PhDthesis,UniversityofMaryland,2005【lO]P.Avesani,只Massa,and&Tiella,Moleskiing.it:atrust·awarerecommendersystemforskimountaineering,InternationalJournalforInfonomics,20056l 基于信任传播模型的协同过滤推荐算法研究参考文献【11]R.LevienandA.Aiken,Attack—resistanttrustmetricsforpublickeycertification,Proceedingsofthe7thUSENIXSecuritySymposium,SanAntonio,Texas,1998【12]C.ZieglerandGLausen,SpreadingActivationModelsforTrustPropagation,ProceedingsoftheIEEEInternationalConferenceone-Technology,e-Commerceande-Service,2004:83.97【13]J.Golbeck,Trustandnuancedprofilesimilarityinonlinesocialnetworks,ACMTransactionsontheWreb(TWEB),2009,3(4)【14]J.Golbeck,Generatingpredictivemovierecommendatiomfromtrustinsocialnetworks,TrustManagement,2006:93-104【15]J.Konstan,B.Miller,D.Makz,andJ.Herlocker,GroupLens:applyingcollaborativefilteringtoUsenetnews,CommunicationsoftheACM,1997,40:77·87【16lJ.BennettandS.Lanning,Thenetflixpr诬,ProceedingsofKDDCupandWorkshop,California,USA,2007:3-6【17]M.BalabanovidandYShoham,Fab:content-basedcollaborativerecommendation,CommunicationsoftheACM,1997,40(3):66-72【18]GSaltonandM.McGill,Introductiontomoderninformationretrieval,McGraw-Hill,Inc,1983【19]Q.LiandB.Kim,Constructinguserprofilesforcollaborativerecommendersystem,Lecturenotesincomputerscience,2004,3007:100·110【20]R.MooneyandL.Roy,Content-basedbookrecommendingusinglearningfortextcategorization,ProceedingsofthefifthACMconferenceonDigitallibraries,SanAntonio,Texas,UnitedStates,2000:195-204【211K.BollackerandS.Lawrence,Discoveringrelevantscientificliteratureontheweb,IEEEIntelligentSystems,2000,15(2):42—47[221L.ChcnandK.Sycara,Webmate:Apersonalagentforbrowsingandsearching,Proceedingsofthe2ndInternationalConferenceonAutonomousAgentsandMultiAgentSystems,AGENTS’98,Minnesota,UnitedStates,1998:132—139【23]U.ShardanandandEMaes,Socialinformationfiltering:algorithmsforautomating‘'wordofmouth'’,ProceedingsoftheSIGCHIconferenceonHuman62 基于信任传播模型的协同过滤推荐算法研究参考文献factorsincomputingsystems,Denver,CoMrado,USA,1995:210—217【24]A.AdomaviciusandQTuzhilin,Towardthenextgenerationofrecommendersystems:asurveyofthestate-of-the-artandpossibleextemions,IEEETransactionsonKnowledgeandDataMining,2005,17(6):734-749【25]D.OardandQMarchionini,Aconceptualframeworkfortextfiltering,CollegePark,MD,UniversityofMaryland,1996【26]B.Sarwar,QKarypis,J.Konstan,and1LJohn,Item-basedcollaborativefilteringrecommendationalgorithms,Proceedingsofthe10thinternationalconferenceonWorldWideWeb,HongKong,2001:285·295【27]J.Herlocker,J.Konstan,A.Borchers,andJ,Analgorithmic觚workforperformingcollaborativefiltering,Proceedingsofthe22ndannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,Berkeley,Califomia,UnitedStates,1999:230-237【28】孙小华.协同过滤系统的稀疏性与冷启动问题研究.博士学位论文.浙江大学.2005【291邓爱林.电子商务推荐系统关键技术研究.博士学位论文.复旦大学.2003【30]L.GetoorandM.Sahami,Usingprobabilistierelationalmodelsforcollaborativefiltering,InternationalWEBKDD’99WorkshoponWebUsageAnalysisandUser胁ming,SanDiego,CA,USA,1999【31]Y.Koren,1LBell,andC.Volinsky,Matrixfactorizationtechniquesforrecommendersystems,IEEEComputerSocietyPress,200942(8):30-37【32]D.KimandB.Yum,Collaborativefilteringbasedoniterativeprincipalcomponentanalysis,ExpertSystemswithApplications,2005,28(4):823-830f33]M.VozalisandICMargaritis,ApplyingSVDonitem-basedfiltering,5thImemationalConferenceonIntelligentSystemsDesignandApplications(ISDA’05),Wroclaw,Poland,2005:464-469【341C.Aggarwal,J.Wolf,ICWu,andEYu,Honinghatchesanegg:Anewgraph-theoreticapproachtocollaborativefiltering,ProceedingsofthefiRhACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,SanDiego,California,UnitedStates,1999:201-21263 基于信任传播模型的协同过滤推荐算法研究参考文献【35]D.Z.ZanHuang,andHsinChunChen,Applyingassociativeretrievaltechniquestoalleviatethesparsityproblemincollaborativefiltering,ACMTransactionsonInformationSystems,2004,22:116·l42[36]M.Papagelis,D.Plexousakis,andT.Kutsuras,Alleviatingthesparsityproblemofcollaborativefilteringusingtrustinferences,ThirdInternationalConferenceonTrustManagement,Paris,France,2005:224—239【37]邓爱林.朱扬勇.施伯乐.基于项目评分预测的协同过滤推荐算法.软件学报,2003,14:1621.1628[38】李聪.梁昌勇.马丽.基于领域最近邻的协同过滤推荐算法.计算机研究发展,2008,45:1532.1538【39]H.趾1n,Anewsimilaritymeasureforcollaborativefilteringtoalleviatethenewusercold-starting,InformationSciences,2008178(1):37-51[40]B.Mobasher,RBurke,andR.Bhaumik,Attacksandremediesincollaborativerecommendation,IEEEIntelligentSystems,2007,22:56-63【41】S.LamandJ.Riedl,Shillingrecommendersystemsforfunandprofit,Proceedingsofthe13thinternationalconferenceonWrorldWideWeb,NewYork,NYusa,2004:393·402[42]B.Mobasher,&Burke,and&Bhaumik,TowardTrustworthyRecommenderSystems:AnAnalysisofAttackModelsandAlgorithmRobustness,ACMTransactionsonInternetTechnology,2007,7(4)[43]B.Mobasher,1LBurke,andR.Bhaumik,EffectiveattackmodeJsforshillingitem-basedcollaborativefilteringsystems,ProceedingsoftheWebKDDWorkshop,2005【44]J.O’DonovanandB.Smyth,Trustinrecommendersystems,Proceedingsofthe10thinternationalconferenceonIntelligentUserInterfaces,SanDiego,California,USA,2005:167-174【45】吴洁倩.程岩.肖小云.基于聚类分析的电子商务推荐系统.计算机工程与应用,2005,41:175.177[46]F.ZhangandH.Chang,ACollaborativeFilter啦AlgorithmEmployingGenetieClusteringtoAmelioratetheScalabilityIssue,ProceedingsoftheIEEE64 基于信任传播蔓翌箜垫垦过滤推荐算法研究参考文献InternationalConferenceone-BusinessEngineering,Washington,DC,UsA:IEEEComputerSociety,2006:331.338【47】张海燕.丁峰.姜丽红.基于模糊聚类的协同过滤推荐方法.计算机仿真,2005,22:144.147[4815q嫒林.左子叶.朱扬勇.基于项目聚类的协同过滤推荐算法,小型微型计算机系统,2004,25(9)【49]M.Wu,Collaborativefilteringviaensemblesofmatrixfactorizations,ProceedingsofKDDCupandWorkshop,California,USA,2007:43.47【50is.A.Rashid,GKarypis,andJ.Riedl,ClustKNN:ahighlyscalablehybridmodel-&memory-basedCFalgorithm,KDDWorkshoponWrebMiningandWrebUsageAnalysis,Philadelphia,Pennsylvania,USA,2006【51]K.Goldberg,T.Roeder,D.Gupta,andC.Perkins,Eigemaste:Aconstanttimecollaborativefilteringalgorithm,InformationRetrieval,2001,4(2):133.151【52]DataquestInsight:Comsumers’ValuePerceptionoftheInternet,Garmer,2008【53]D.ArtzandYGil,Asurveyoftrustincomputerscienceandthesemanticweb,WebSemantics:Science,ServicesandAgentsontheWorldWideWeb,2007,5(2):58-71【54]P.MassaandEAvesani,Trust-awarecollaborativefilteringforrecommendersystems,LectureNotesinComputerScience,2004,3290:492.508【55]A.Jqsang,1LIsmail,andC.Boyd,AsurveyoftrustandreputationSysteIIlSforonlineserviceprovision,DecisionSupportSystems,2007,43:618.644【561L.Page,S.Brin,&Motwani,andT.Wmograd,Thepagerankcitationranking:Bringingordertotheweb,Technicalreport,StanfordDigitalLibraryTechnologiesProject,1998【57]B.胝dm锄,PKhanandD.Howe,Trustonline,CommunicationsoftheACM,2000,43(12):34-40【58]c.ZieglerandQLausen,Analyzingcorrelationbgt3Ⅳeelltrustandusersimilarityinonlinecommunities,TrustManagement,2004,2995:251.265【59]S.Milgrarn,Thesmallworldproblem,Psychologytoday,1967,l(1):61-67 基于信任传播模型的协同过滤推荐算法研究参考文献【60]P.MassaandEAvesani,Trust—awarerecommendersystems,Proceedingofthe2007ACMconferenceonRecommendersystems,Minneapolis,MN,USA,2007:17.24 基于信任传播模型的协同过滤推荐算法研究研究生阶段的研究工作论文研究生阶段的研究工作【1】QingWang,XiaochengChen,HuiyouChang,ProjectBasedSoftwareDevelopmentTraininginUndergraduateEducationofSoftwareEngineering,ProceedingsofChineseEuropeInternationalSymposiumonSoftwareIndustryOrientedEducation(CEISIE’09),France,2009【2】XmochengChert,RunjiaLiu,HuiyouChang,ResearchofCollaborativeFilteringRecommendationAlgorithmBasedonTrustPropagationModel,ProceedingsofInternationalConferenceonComputerApplicationandSystemModeling(ICCASM’2010),China,2010,已录用67 基于信任传播模型的协同过滤推荐算法研究致谢致谢转眼间,在中山大学生活学习的岁月将要结束了,四年的本科和两年的硕士生活让我获益良多。借此论文完成之际,谨向多年来所有关心和帮助过我的人们表示最诚挚的感谢。感谢我的导师常会友教授。两年来,常老师为我提供了自由的学习空间,良的实验室环境和悉心的指导,让我能从中积累理论和实践的经验,提高了自身素质。在毕业论文撰写的各个阶段,都离不开老师的指导和支持。感谢衣杨老师,张锋老师,王青师兄,徐俊师兄,感谢他们一直以来在学习和学术研究上对我的支持和帮助。感谢实验室中的各位师兄师姐,以及张瑞文、林嘉荣、欧阳军、任立斌等同学,实验室浓厚的研究气氛和同学之间和睦的关系,为我提供了良好的学习和进行学术研究的环境。感谢本科时期的关彦辉老师,胡赞老师,外教Brindha,他们在我最困难的时候给予我关心和帮助。感谢我的爸爸、妈妈、姐姐和弟弟对我的支持和无私的奉献,没有他们二十多年来无止境的关爱,我不会有今天的成绩。最后,再一次衷心的感谢所有关心和帮助过我的各位师长,朋友和亲人。感谢我的母校中山大学,给我带来这段难忘的岁月。 基于信任传播模型的协同过滤推荐算法研究 作者: 陈晓城 学位授予单位: 中山大学 本文链接:http://d.g.wanfangdata.com.cn/Thesis_Y1690800.aspx 授权使用:浙江万里学院(zjwlxy),授权号:61a8e7a2-0dd7-4a23-a8b6-9e9f010f69e3 下载时间:2011年3月7日
还剩72页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 20 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf