fab推荐系统翻译_第1页
fab推荐系统翻译_第2页
fab推荐系统翻译_第3页
fab推荐系统翻译_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Fab推荐系统从一些固有的数据中推荐项目已有广泛的研究,并且已有两种主要的方法被实现。一个 在基于内容推荐中试着去推荐一些相似的项目给一些在以前曾喜欢这种类型的用户,一个在 协同过滤推荐中确定用户的兴趣会尝试去推荐跟他找相似的用户喜欢的项目。在Fab中我们 的方法是融合这两种方法。在这里,我们解释下一个混合系统怎样才能吸取两者的优点同时 弥补他们的缺点。另外在任何的混合系统中都固有一种基本优势,具有独特设计的Fab架构具有两种额外 的特点。第一,两个比例问题在所有的Web服务中都存在一一越来越多的用户和越来越多 的文档。第二系统自动识别用户群体的公共兴趣,使能够加强群体意识和交流。这里我们描述

2、基于内容和协同过滤推荐这两种方法,解释了一个混合系统怎样能被创建, 同时也描述了 Fab。更多关于实施的架构和实验设计请阅读文献1.基于内容的方法推荐在信息检索领域有他的来源,并产生许多使用同样技术的领域。文档 被推荐是基于他们的内容和用户模型之间的比对。他们之间的数据结构被用从文档中提取的 特征词创建。通常一些权重组合是用那些有高权重的有概括的词来组合。例如,Fab的5个 高权重词是从信息检索系统和出版页中提取。当一个页面被一个用户选中,可以显示他们并 反馈一些不同的信息。如果这个用户喜欢这个页面,从这个页面提取的词的权重将会被添加 到用户模型中的相关的词中。这个过程就是关联反馈。不但做起来

3、简单迅速,而且他可以提 高正常信息检索中的结果准确度。许多供选择的方法存在权重此或者其他特征从内容中提取 并更新到用户模型中。我们选择的这个方法没有影响我们的分析。协同推荐协同方法推荐与其他是不同的:不是推荐项目,因为他们是推荐在过去有相似爱好的用 户的项目推荐给另一个用户。我们不是计算项目的相似性,而是计算用户的相似性。典型地, 为每一个用户设置一个最近邻居用户去寻找其中曾经跟他有最近关系的用户。对没有看见的 项目预测是基于一个从最近邻居得到的组合得分。至于基于内容实例,它将对定义一个纯理论的系统推荐系统有用。事实上一个纯理论 协同推荐系统是一个根本不分析项目,只知道关于项目的一个唯一标识。

4、给一个用户推荐是 基于跟其他用户相似来做的。列出的系统中使用这个方法包括GropLens,the Bellcore video recommender 和 Ringo。单一个协同推荐解决单一基于内容系统所有已知的缺点,通过用其他用户的推荐,我 们能处理各种各样的内容和在过去他们看过的接收的不相似内容。从其他用户的反馈改变推 荐,这很有可能是保持有效推荐性能给一些缺少评分的个别用户推荐的好办法。不管怎样,这种方法解决了某些他们自己已有的问题。如果一个新项目出现在数据库 中,那是直到有更多关于他的信息从其他用户评分或列举出跟它相似的项目中获取更多关于 它的信息才能推荐给用户。因此,如果一些用户有很

5、少相关的信息量在系统中(因为这是一 个非常庞大或经常改变的数据库),此时就有问题评分的覆盖很稀疏,推荐项目集也很稀疏。 第二个问题是一个用户品味与其它人相比不一样,那将不能找到许多特别相似的其他用户, 导致推荐不准确。前面提出的两个问题决定了群体大小和用户复杂度,同时也影响一个用户最近邻居簇。 未来在一个情况下反馈失败引起这个最近邻居簇改变,表达不喜欢的项目将没有必要阻止来 自接收相似项目的用户。此外,缺乏访问的项目内容阻止相似用户做匹配除非他们认为相同 项目除外。因此,如果一个用户喜欢CNN天气网页和其他人喜欢MSNBC天气网页,这两 个必然不会成为最近邻居。创建一个混合基于内容协同系统,我

6、们维护用户模型基于内容分析,并直接比较这些 模型去决定相似用户适用于系统推荐。用户即在他们评分比较依靠他们自己的模型,又在当 他们认为一个用户模型有很高的相似度时才能接收推荐项目。混合方法消除了基于内容和系 统系统提到的限制,也添加了重要的好处。有人认为结合两者单一方法我们已在在我们这个新的组合中讨论过特有的案例。如果 内容分析组件返回一个唯一标识而不是提取任何特征,此时会成为单一的系统推荐;如果那 只是单一的一个的用户,他成为基于内容推荐。Fab系统Fab是一个分布式实施的混合系统,也是斯坦福大学数字图书馆项目的一部分。为了能理 解Fab的用途我们做如下说明。推荐的过程能分割成两段:从易管理

7、的数据库或索引创建项 目集,其后从这个数据中为特有的用户挑选项目。在一些实例中采集阶段是琐碎的或者第三 方做,但是在Web实例中他是一个真实的问题要被系统设计者面对。图1显示我们基础模 型。收集阶段收集有关一定数目主题的页面,计算生成簇的兴趣留下改变用户群体的痕迹。 这些页面通过选择阶段传送给大数目的用户。一个主题能对许多用户产生兴趣,同时一个用 户能对多个主题产生兴趣。图2的结构反应了这个模型的关系。他有3个主要的部分:收集代理(寻找某个专题的页 面),选择代理(为专一用户搜索页面)和控制中心。每一个阶段部门有一个属性,基于包 含在页面中词组被评估。一个收集阶段的属性文件代表他当前主题,然而

8、一个选择阶段的属 性文件代表单一用户的兴趣。页面在收集阶段找到发送给分配中心,这之后就看他们的属性文件临界值与用户匹配并显 示给用户。因此,每一个用户接收的页面匹配他们的属性文件在收集阶段,添加功能在用户 个性化选择阶段:页面被用户已浏览过丢弃,在任何单一批量推荐(通常为10页),我们确保多 个页面从任意站点获得。用户的反馈代表一个及时的给力的重大收获。在存储他到他们自己 私有的选择阶段的属性文件,我们确保它从来不被其他用户的反馈影响。事实上,他是很容 易使用在其他应用程序中。当用户请求,接收,然后看完他们的推荐内容,他们需要去分配适当的分数从7个百分点 中作出选择。图3中就是设置推荐图解Fa

9、b接口。用户的评分用于更新他们个人选择阶段的 属性文件,也同时反馈给收集阶段,他们用他们去适应改变他们的属性。此外,任何高评分 的页面直接推荐个这个用户的最近邻居-其他用户有相似的属性文件。一些协同推荐是处理 在接受用户选择阶段用同样方法给出页面从分配中心。创建精确的属性文件是一个关键任务一一系统的成功将决定于一个大的范围在学习属性 文件中表达用户的准确兴趣。精确属性配置使能够在基于内容组件(确保推荐作出适应)和 协同组件(确保用户有相似的配置甚至完全相似)做出准确推荐。收集阶段的配置文件代表一个兴趣主题动态地改变用户群体,和对一个用户配置一样,他 们代表多样兴趣很可能被多个收集代理收集。收集

10、代理的群体作为一个整个适应用户的群 体,不针对任何特殊用户。补充这个过程,不受欢迎的收集代理(他们的页面不被许多用户 看到)或者不成功的(他将受到很低的反馈分数)定期会被淘汰同时把最好的填充到他们的 空间。因此,收集阶段的专门化不需要提前确定,但是随着时间过去他们将被动态的改变。 实际上,我们的系统吸收了两种不同又联立的平衡方法,表现在两种动态改变连接设置:文 档和收集代理之间,收集代理与用户之间。我们其中一个目的是研究这个混合适应能力的性 能。我们应用多种不同收集代理。搜索代理执行一个最优的网络搜索,他们假设一个页面有 一个链接是相似页面,然后跟着这个链接从一个页面到一个页面,他们发现与一个

11、专一主题 相关信息。索引代理构造查询通过各种商业Web搜索引擎执行详尽的索引。与这些目的相 比,我们也有包括代理提供的随机摘要页面,代理收集各种摘要信息,同时代理尝试给用户 服务(所有用户配置的评价值在我们系统中),而不是维护他们自己特有的属性文件。系统展示了混合系统带来的优势在选择过程中:使用协同推荐,我们能用其他经验作为基础而不是用不完全的不准确的内容分析方法在我 们的方法中。使用基于内容推荐同样也是,我们能处理项目中不被其他用户看到的。我们能用我们从项目内容建立的属性文件去给用户作出好的推荐,即食如果没有其他用户 跟他们相似,我们也能找到相似的项目。我们能用系统推荐在用户还没有给任何相同

12、的项目评分(他们在很长的时间内已经评论相 似项目),扩展协同系统的范围包含数据看能快速变化或关联更多的用户。利用反馈信息我们能分析出用户在相同级别下的潜在兴趣。此外,收集代理适应使一些纯系统或单一基于内容方法不可能孤立:我们能列举一个小 数目的收集代理比他们用户好,或许甚至一个准确数目。这应该允许系统平衡用户和文档的 增量。准确数目的收集代理需求是决定于一些因素,包含准确的用户的兴趣重复部门和计算 资源和推荐需求质量间的平衡。收集代理自动标识群体的热门星期,允许我们提供社会干预在中性人和自动聚合和个人 推荐一样好。实际上,有相似意向的用户联合他们的资源,作为每一个收集代理将会从所有 用户感兴趣

13、的主题中获得反馈。这些特征依靠收集代理去专业化并学习用户属性的能力,这 些的确代表用户的兴趣相似区域。实验我们已经对Fab系统的几个方面做了测试。这里我们出现三种结果集一一两种统计办法和 一种(anecdotal)从一个有小数目用户的可控制实验。我们所有的集合已在现实中设置, 推荐当前的页面给真实的用户。由于基于网页内容获取准确的属性文件是一个我们设计的基础,我们开始用我们第一个实 验预测学习属性的能力:他们这样才能更好的预测用户的项目集的等级?如果他们不能预测 准确,他们可能仍然可用来为协同推荐提供一个点,但是他们将不可能提供好的基于内容推 荐。我们询问了 11个用户去提前预测一个单一主题的

14、兴趣(允许简单的分析结果属性)。只有 9个是有充分的结果可以解释。他们的主题是:电脑绘图,游戏设计,图书目录和分类,后 工业音乐,体育信息和游戏,美国文化,烹调术,19世纪60年代音乐,徒步旅行和进化论。 在每第五个评估(每五天做一次评估),用户看了一个专门的项目并给予他们的评分只是为 评估目的做的,将不会影响他们的属性文件。这个专门的选择集构成对这个实验不是至关重 要的,但是使用一个有意义的角色在最终的实验中被描述,同时将在这个章节解释。我们用每一个用户的评分等级去排序他们看过的文档,创建一个评分等级倾向(可能包括 tites)。对每一个点我们及时判断用户的评级和从他们的属性文件预计的评级之

15、间的差距, 用ndpm估量作为由Yao定义。实验大约持续了一个月。图4显示配置文件是怎么样的,给 出更多的例子,随着时间的过去产生较好的用户评级预测。个别项目,ndpm值接近于0.02 到达估值25,这相当于一个不同的16个项目预测并对单一的项目在不同的两个地方都有真 实的评分。假设我们的系统的优势是利用公共的用户兴趣,用收集代理钻们对主题和服务复杂用固 话较适合。当我们在这个问题上还没有结果时,我们做了记录证明该系统在这种方式下世可 行的。在纯自动特殊化,一个代理做一个“烹饪报告:”前400项的77%在他们的属性中明 显有烹饪关联。它主要服务于在烹饪的用户兴趣,他们能从这一个代理收到50%到

16、90%的 他的或她的文档。两个用户共同的兴趣在音乐反应在实际中那是3个代理用一个接近相等数 目有明显关联项目在他们的属性中,且这两个用户收到他们的音乐关联页面从这三个代理混 合中获得。尽管有小数目的明显不同的主题,该系统仍然设法找出一些有关联的地方,一个代理专 门对一个主题的兴趣页面给一些用户。这个最好的例子就是一个代理服务页面关于India (结 果来自一个混淆的美国文化主题)。这个代理把这些页面判断为India推给对进化论感兴趣的 用户并把Indian食谱推荐对对烹饪感兴趣的用户。同样地,对网络发展和电脑制图感兴趣 的用户收到关于计算文本有关这两个的主题。这些例子表明该代理久而久之能专门解

17、决特殊主题,并能自动的聚集用户间的共同爱好 内容。我们的目的是利用这个特征去发现更多的用户,我们能成功的从固定的代理联合服务 于这些用户。整体性能最终的结果又一次从本质上统计,并把Fab系统的性能作为一个整体看。在这个实验中专门的评价页面集显示出用户从不同的来源组合页面:定期的个性化Fab 推荐,随机的选择页面,页面从人们已选过的站点,同时在系统中页面经过最优匹配所有用 户属性的平均值。当那有多种方式从4个来源得到用户评价页面的结果能被展现出来,我们选择用ndpm再 次估量。为了做这个我们需要对每一个资源定义一个理想的评分级别。一批资源S的文档 的一个理想的评分级别是一个用户喜欢每一个页面从S

18、到每一个不是S。既然这个概念是有 意地这样一一他不没有原因:用户评级这个页面从S关联到另一个,没有页面来自$。这个 强大的倾向用户明确S的页面没有其他页面提供,小的ndpm又显示了用户的真实评级和 对S的理想评级的差距。图5划分了这个用户真实评级和对每一个资源的理想评级。他表明个人页面由Fab提 供的页面明显胜过其他资源,在该实验中改善推荐资源。公共页面表示一个系统模拟但是不 是对个别用户的个性化。虽然没有和整体Fab系统一样好,但是公共页面仍然等级币随机 和冷门页面高,这结束同样困难。未来工作Web是一个巨大的信息空间,也是一个有效的服务提供个性化推荐毫无疑问的价值。这 两个基于内容和协同系统能提供这样一个服务,但是他们单独的都有缺点Fab是一个实 现混合基于内容和协同过滤网页推荐系统,他消除了许多单独应用的障碍。他不但提现了一个混合计划的价值,而且Fab风格还添加了好处,他使用更对的用户 兴趣间共同兴趣协同选择。设计的适应选择代理运用一些

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论