基于社会化标签的推荐系统方案_第1页
基于社会化标签的推荐系统方案_第2页
基于社会化标签的推荐系统方案_第3页
基于社会化标签的推荐系统方案_第4页
基于社会化标签的推荐系统方案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于社会化标签的推荐系摘要随着现代互联网的发展,互联网中的数据每天都以巨大的规模增长着。人们越来越困难的从这海量的数据中找到所需的资源,这里就需要各个给用户推荐。而标签技术的出现给个性化推荐带来了新的机遇。社会化标签是一种准确、灵活、开放、有趣的分类方式,是由用户为自己的文章、图片、音频、视频等一系列文件所定义的一个或多个描述。通过对社会化标签的使用来给用户提供优质的选项,以使用户在海量的数据中找到心满意足的信息。关键字:海量数据,社会化标签AbstractWith the development of the Internet, the data in the internet every

2、day to grow a huge scale. People increasingly difficult to find required resources from the vast amounts of data, where each site is required to recommend to the user. The label appears to personalized recommendation technology brings new opportunities. Social tagging is an accurate, flexible, open,

3、 interesting classification, which defined description for their articles, images, audio, video and a series of documents. Through the use of social tagging ,we can provide the user with high-quality option to enable users to find information contentedly in vast amounts of data.Key:Huge amounts of d

4、ata, social tagging1绪论本章主要介绍的是关于社会化标签推荐系统研究的背景,国外研究的状况和本文研究的方向。1.1研究背景和意义1.1.1研究背景近些年来,blog、wiki、spaces的兴起导致互联网容的提供方式出现转变;用户创造容的web2.0时代的到来,带动着视频应用、网络游戏、搜索引擎等互联网衍生业务迅速发展。互联网正处于一个信息爆炸的时代, 越来越多的信息被数据化。面对信息爆炸的互联网,如何对这些海量数据进行分类存储和处理,是对那些大规模互联网企业提出了巨大的技术挑战。标签系统在这种环境下应运而生,在以用户为中心的Web20环境中,标签系统允许任意用户对感兴趣的网

5、络资源进行无约束的标注,所有用户的标注都互为可见,这种开放的、共享的模式体现了以人为本的Web20理念,同时也为新环境息资源组织、推荐和共享带来了新的机遇。虽然用户标注这个过程的本身非常简单,但是却有着很重要的意义。首先,用户标注反映了他们对网络资源的不同视角和理解,丰富了描述资源的多维角度;再次,标签系统能更好的为用户组织资源、浏览资源提供帮助。相比较之前的系统大多是依靠少数领域专家对资源进行科学分类,这种方法虽然比较科学和权威,但是不能很好的表达用户的个人想法和观点。而标签系统利用标签将网络资源按照用户的视角进行分类,能够更好的为用户组织资源、浏览资源提供帮助。最后,标签系统通过标签将用户

6、和资源连接起来,通过三者的动态关系,可以分析出用户的兴趣偏好。例如,为同一项目资源标注一样标签的用户,很有可能具有共同的兴趣偏好,这对在标签系统中根据用户兴趣进行推荐提供了很好的基础。总之,标签系统充分发掘了用户的积极性,使之参与到系统中来,发挥了广大用户所贡献的智慧和由用户联系形成的群体智慧的影响,解放了用户创作和贡献的潜能。用户在标注网络资源时,不但更加准确客观的反应资源的相关特征,而且为个性化推荐服务带来了至关重要的数据源。结合标签系统的标签推荐系统,相比较传统的个性化推荐系统可以更加准确的获取用户的特征,为用户获取其“量身定做"的信息。从GoogleNews、Amazon、豆

7、瓣、MovieLens等看,越来越多的已经慢慢开始在利用标签信息进行个性化推荐系统的摸索与应用,以此给用户带来更好的用户体验,从而提高流量与用户忠诚度和依赖度。1.1.2研究意义20世纪90年代中期,个性化推荐研究作为一个独立的概念被提出来,由于巨大的应用需求,推荐系统自提出以来得到了学术界和企业界的广泛关注。美国计算机协会多次把个性化推荐系统作为研讨主题,而国外期刊也纷纷将推荐系统作为研究专题,明尼达大学教授John Riedl说:“推荐系统将成为未来十年里最重要的变革,社会化将由推荐系统所驱动”llJ。由于个性化推荐系统的良好发展和广阔的应用前景,目前,几乎所有大型电子商务系统和各种提供个

8、性化服务的,如Amazon、淘宝网和豆瓣网等,都在不同程度的使用着各种形式的个性化推荐系统,个性化推荐系统可以有效的保留客户提高客户忠诚度,为带来了巨大的效益。自从2003年标签技术推出以来就得到了广泛的应用,结合标签的个性化推荐系统与以往推荐系统所能获得的信息有了本质区别,标签作为用户自由创造的关键词,体现了用户对资源的理解,也是用户之间联系和交流的纽带,因此使得个性化推荐技术的研究进入了一个新的阶段。标签从用户角度描述了信息资源的主要特征,涵盖了用户与资源之间,以与用户之间的关系,兼具容与关联的特征。1.2国外研究现状个性化推荐系统的发展源于二十世纪九十年代,它自产生以来引起了学术界和企业

9、界的关注,对于它的研究一直持续至今。现在被广泛引用的个性化推荐系统的定义是Resnick&Varian在1997年给出的:“它是利用电子商务向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程"。实际中应用最多的是在网上购物环境下以商品为推荐对象的个性化推荐系统,它为用户推荐符合兴趣爱好的商品。个性化推荐系统的最大的优点在于,它能主动的收集用户兴趣特征资料并根据用户兴趣特征,为用户作出有效的个性化推荐。同时,当系统中的商品库或用户兴趣特征发生改变时,系统给出的推荐实时更新,即给出的推荐序列会随着改变,总之,一个成功的个性化推荐系统的作用主要

10、表现在以下三个方面:(1)将浏览者转变为购买者。如果用户在电子商务系统的在浏览过程中没有购买的欲望,个性化推荐系统与时向用户推荐他们感兴趣的商品,就能促成购买过程。(2)提高交叉销售能力。个性化推荐系统在用户购买过程中向用户提供其他有价值的商品推荐,用户能够从系统提供的推荐列表中购买自己确实需要但在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。(3)提高客户忠诚度。个性化推荐系统分析用户的购买习惯,根据用户需求向用户提供有价值的商品推荐。如果推荐系统的推荐质量和精度很高,用户就会对推荐系统产生依赖,从而与用户建立长期稳定的关系,有效保留客户,提高客户的忠诚度。作为推荐系统的核心

11、,各种各样的推荐技术也被研究人员相继提出。目前,比较成熟的推荐技术有基于容的推荐、基于协同过滤技术的推荐、基于用户统计信息的推荐、基于效用的推荐、基于知识的推荐、基于规则的推荐等。其中协同过滤技术是推荐系统中最广泛使用的技术,协同过滤的概念是由David Goldberg等人在1992开发系统Tapestry第一次提出,主要用于邮寄过滤,Tapestry也成为第一个使用协同过滤推荐技术的系统。协同过滤技术提出以后,在不断地改进中成为当前应用最成功的推荐方法。随着互联网技术的发展,推荐技术也在向着更高效、更准确、更个性化发展。随着web20的不断发展,社会化标签得到了广泛的应用。标签系统已经成为

12、Web20的基本功能之一,为用户的个性化服务发挥了重要的作用,许多研究者对此进行的探讨,并取得了一定的成果。利用标签信息进行个性化推荐主要有以下几方面的研究:(1)基于聚类分析的个性化推荐:聚类分析是用户模型建立的重要手段,有许多的研究者对此进行了探讨。对标签的聚类代表了不同语义主题标签间的分类,在这方面,Niwa等人借助容过滤分析,首先计算资源与标签的紧密度,得到用户标签的紧密度;计算各个标签之间的相关性并将相关标签进行聚类,得到用户与已聚类标签的紧密度。再根据各个已聚类标签计算得出要推荐的网页,结合先前的紧密度得到最终的网页推荐顺序。对用户的聚类代表了不趣的用户组,相似用户或邻居用户的识别

13、对于推荐而言无疑具有重要的意义。AeTtie等人以用户资源矩阵为切入点,通过计算目标用户和其他用户之间的相似性,得到目标用户的相似邻居,形成一个目标用户的候选标签集;再应用朴素贝叶斯法,结合标签资源矩阵和用户标签矩阵,计算出用户对特定标签的喜好程度;在综合各个标签的影响后,最终得到资源对用户的推荐度。Diederich等人在数字图书馆领域根据相似用户的兴趣也相似的规律,通过了解相似用户对资源的标注为目标用户进行推荐。在对资源聚类方面,Sasaki等人研究了基于标签对资源进行了容聚类,通过假设检验计算了不同聚类间的相似性,最后给出了一个网页容推荐系统。Yeung等人运用贪婪算法,首先对单个用户所

14、标注的资源进行容聚类,再提取出已聚类资源的标签,将标注频率最高的标签引入用户模型进行推荐。(2)基于矩阵处理的个性化推荐:标签系统可以分解为三类矩阵关系,即用户资源矩阵、资源标签矩阵和用户标签矩阵。TsoSutter等人通过矩阵扩展的方法,综合用户资源矩阵与用户标签矩阵,提出基于标签的协同过滤推荐算法,并综合多方的关系进行了分析。1.3本文研究方向本文针对的是基于社会化标签系统的个性化推荐系统,研究的是标签系统在基于图结构的个性化推荐系统中的应用与实现。研究图结构中的各节点和节点间的关系的属性即其标签的使用。2推荐系统个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。

15、随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务为其顾客购物提供完全个性化的决策支持和信息服务。推荐算法有:1、基于容推荐2、协同过滤推荐3、基于关联规则推荐4、基于效用推荐5、基于知识推荐6、组合推荐这章主要介绍的是用基于随机游走的PersonalRank算法来实现图的推荐。2.1推荐系统定义推荐系统是利用电子商务向客户提供商品信息和建议,帮助用户

16、决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”。 图1 推荐系统模型推荐系统有3个重要的模块:用户建模模块、推荐对象建模模块、推荐算法模块。通用的推荐系统模型流程如图。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。2.2用PersonalRank算法实现图的推荐在推荐系统中,用户行为数据可以表示成图的形式,具体来说是二部图。用户的行为数据集由一个个(u,i)二元组组成,表示为用户u对物品i产生过行为。本文中我们认为用户对他产生过行为的物品的兴趣度是一样的,也就是我们只考虑“感兴趣”OR

17、“不感兴趣”。假设有下图2所示的行为数据集。 图2其中users集U=A, B, C,items集I = a,b,c,d。则用户物品的二部图如下图3所示: 图3我们用G(V, E)来表示这个图,则顶点集V=UI,图中的边则是由数据集中的二元组确定。二元组(u, i)表示u对i有过行为,则在图中表现为有边相连,即e(u,i)。那有了二部图之后我们要对u进行推荐物品,就转化为计算用户顶点u和与所有物品顶点之间的相关性,然后取与用户没有直接边相连的物品,按照相关性的高低生成推荐列表。说白了,这是一个图上的排名问题,我们最容易想到的就是Google的pageRank算法。PageRank是Larry

18、Page 和 Sergey Brin设计的用来衡量特定网页相对于搜索引擎中其他网页的重要性的算法,其计算结果作为google搜索结果中网页排名的重要指标。网页之间通过超相互连接,互联网上不计其数的网页就构成了一超大的图。PageRank假设用户从所有网页中随机选择一个网页进行浏览,然后通过超在网页直接不断跳转。到达每个网页后,用户有两种选择:到此结束或者继续选择一个浏览。算法令用户继续浏览的概率为d,用户以相等的概率在当前页面的所有超中随机选择一个继续浏览。这是一个随机游走的过程。当经过很多次这样的游走之后,每个网页被访问用户访问到的概率就会收敛到一个稳定值。这个概率就是网页的重要性指标,被用

19、于网页排名。算法迭代关系式如下所示:上式中PR(i)是网页i的访问概率(也就是重要度),d是用户继续访问网页的概率,N是网页总数。in(i)表示指向网页i的网页集合,out(j)表示网页j指向的网页集合。用user节点和item节点替换上面的网页节点就可以计算出每个user,每个item在全局的重要性,给出全局的排名,显然这并不是我们想要的,我们需要计算的是物品节点相对于某一个用户节点u的相关性。怎么做呢?Standford的Haveliwala于2002年在他Topic-sensitive pagerank一文中提出了PersonalRank算法,该算法能够为用户个性化的对所有物品进行排序。

20、它的迭代公式如下:我们发现PersonalRank跟PageRank的区别只是用替换了1/N,也就是说从不同点开始的概率不同。u表示我们推荐的目标用户,这样使用上式计算的就是所有顶点相对于顶点u的相关度。与PageRank随机选择一个点开始游走(也就是说从每个点开始的概率都是一样的)不同,如果我们要计算所有节点相对于用户u的相关度,则PersonalRank从用户u对应的节点开始游走,每到一个节点都以1-d的概率停止游走并从u重新开始,或者以d的概率继续游走,从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样经过很多轮游走之后,每个顶点被访问到的概率也会收敛趋于稳定,这个时候我们

21、就可以用概率来进行排名了。3社会化标签本章介绍的是什么是社会化标签,其意义。使用社会化标签有什么优点。3.1定义社会化标注是一种以人为本的、灵活的组织和管理在线信息、进行网络信息分类的方式。大众分类更近乎个人的知识体系,它的使用以个人的感性逻辑(个人知识、情感、意志、记忆、素养等等的综合反映)为线索,以个人所需信息的汇集、梳理和查询为目的,以个人的经验为基础。它不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。我们可以为每篇日志、每个帖子或者每图片、每个视频,甚至我们认为需要或可以添加标签的任何网络信息资源都添加一个或多个Tag。Tag体现了群体的力量,使得容之间的相关性和

22、用户之间的交互性大大增强。网络用户可以通过添加多个标签为网络资源分类,也可以通过搜索某一个或几个标签发现其它用户具有一样标签的资源。标签(并不是最近的新鲜事物,特别对于图书馆员、编目者和专业分类人员而言,只是其所用的标签是受控的,而且没有体现出社会性。本文所指的社会化标注起源于年一项建议通过协同方法加强网络浏览器书签功能的研究。之后,也进行了一项类似的研究。受此启发,在年底Joshua Schachter开始提供第一个社会化标签服务,也就是现在的Delicious,该允许用户可以对自己所感兴趣的信息资源添加标签。标签类似于关键词,它是用户用来对发布的信息所进行的标注,但它与关键词不同的是,标签

23、的标注不存在词与权限的限制,而关键词往往是只能由信息的发布者或创造者添加的。标注是对用户添加标签的行为的描述。用户可以对自己发布的信息进行标注,也可以对其他用户发布的信息进行标注。当多个用户对多个对象添加标签时,标签就具有了社会性,也就成为了社会化标签。这种行为模式就称之为社会化标注。在这种新的模式下,每个用户都在进行标注,而不再是一小部分专家,标签走向了公开化,并在用户间形成共享。3.2优点1、增加的曝光度被收藏、分享越多的意味着被人看到的机率也就越大。特别是那些在收藏或分享排名前列的,更是取得了非常不错的口碑和品牌效应。2、外链被收藏,或是被分享,意味着又多了一个外链的渠道。seo表示并且

24、这些外链不需要你自己动手去做,只要你容好,在多个地方出现你的都是有可能的。外链的持续增加,对于排名肯定是有促进作用的。3、改善的用户体验现在使用社会化标签的访客已经越来越多,如果你的没有这个社会化标签,用户的体验满意度肯定会下降。另外,也请大家记得搜索引擎这么说过的一句话:有利于提高用户体验的因素,都是有益于优化的。4、提高排名尽管前面说搜索引擎还没有将社会化标签纳入排名因素,但据国外专家的试验,同样的,在美味标签中被收录多的排名要好于在美味标签中收录少的(美味标签是国外著名收藏分享)。因此,不排除搜索引擎已经在小围将社会化标签纳入排名进行测试。因为GOOGLE是不会主动告诉你他要将哪些因素纳

25、入排名因素的。4系统分析与设计本章介绍的是基于社会化标签的推荐系统模型,一些关于模型的基本容。4.1基于社会化标签的信息推荐系统随着互联网的发展,标签技术的出现为个性化推荐带来了新的机遇。标签将用户和资源联系起来,描述了资源的特征的同时体现了用户的兴趣偏好,为个性化推荐服务带来了至关重要的数据源。然而,现存的基于标签的个性化推荐系统还存在一些问题,限制了标签在推荐领域的应用。主要包括以下三个问题:(1) 标签语义模糊问题,模糊的语义难以准确描述用户兴趣,降低了推荐精度;(2) 推荐效率问题,随着用户标注急剧增加,计算规模的增大,推荐效率随之降低;(3) 推荐质量问题,忽视了推荐项目本身的质量问

26、题。为了解决上述问题,本章结合本文第二章和第三章介绍的方法,设计并开发了基于标签的图书推荐系统,4.2数据库设计在该模型中使用的是图数据库Neo4j。Neo是一个网络面向网络的数据库也就是说,它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络上而不是表中。网络(从数学角度叫做图)是一个灵活的数据结构,可以应用更加敏捷和快速的开发模式。你可以把Neo看作是一个高性能的图引擎,该引擎具有成熟和健壮的数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。在Ne

27、o4j中,我可以直观的看到各个节点的关系,可以直接查询各节点的属性即使用标签来代替节点的属性,节点之间的关系能通过属性标签来查询。这样我们能够找到对应节点的信息和与它相关的信息。4.3程序设计该模型中主要的是关于节点和节点关系,使用的算法。4.3.1节点分为群组节点(Group)、用户节点(User)、目录节点(Directory)、文件节点(File)四种。群组节点的必有属性包括节点类型Group、节点id、节点名name、节点的显示名displayName、节点创建时间createTime、节点创建者createUser、访问控制信息ACL。其可选属性包括群组用户数userNums、群组最

28、近一次修改时间lastModifyTime等。用户节点的必有属性包括节点类型Label、节点id、节点名name、节点的显示名displayName、节点创建时间createTime、访问控制信息ACL。其可选属性包括用户节点所属组belongGroups、群组最近一次修改时间lastModifyTime等。目录节点的必有属性包括节点类型Label、节点id、节点名name、节点的显示名displayName、节点创建时间createTime、访问控制信息ACL。其可选属性包括用户节点所属用户belongUsers、群组最近一次修改时间lastModifyTime等。文件节点的必有属性包括节点

29、类型Label、节点id、节点名name、节点的显示名displayName、节点创建时间createTime、访问控制信息ACL。其可选属性包括用户节点所属目录belongDirectory、群组最近一次修改时间lastModifyTime等。除此之外文件节点还有一个重要属性,就是表示文件在面向对象存储集群中存放位置的location属性。4.3.2关系节点之间的关系包括拥有关系(contains)、朋友关系(friend)、喜好关系(like)、创建关系(create)。拥有关系(contains)表示在群组和用户之间、用户和目录之间、目录和文件之间的一种包含关系,表示后者从属于前者,利用这种拥有关系可以得到类似层次化的目录结构;拥有关系可以有属性信息,比如创建时间等。朋友关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论