个性化推荐服务中用户兴趣模型研究_第1页
个性化推荐服务中用户兴趣模型研究_第2页
个性化推荐服务中用户兴趣模型研究_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本性化保举办事中用户爱好模子研究摘要本文提出了一种利用用户欣赏页面集的内容信息和欣赏举动信息,隐式地创立用户爱好形貌文件的要领。通过对用户欣赏的eb页面举行爱好度阐发,并与对用户欣赏网页时的欣赏举动阐发相合,得到了用特性矩阵表现的用户爱好模子。并接纳条理聚类算法和k-eans聚类算法相结合的综合聚类算法举行聚类,得到用爱好分类树表现的用户爱好模子。由于接纳的是隐式创立用户形貌文件的要领,淘汰了因用户参于而带来的体系噪声,包管了所创立的用户爱好模子的正确性。关键词用户爱好模子;欣赏内容;欣赏举动;爱好分类树人们正在寻求一种将用户感爱好的信息自动保举给用户,对差异的用户提供差异的办事计谋和办事内容

2、的办事形式,即本性化办事的信息方法。用户爱好模子是本性化办事体系的关键部门,用户爱好形貌的正确与否直接决定着本性化保举办事的质量优劣。本文提出了一种利用用户欣赏页面集的内容信息和欣赏举动信息,隐式地创立用户爱好形貌文件的要领。该要领以用户欣赏eb页面的内容信息和举动信息作为数据源,接纳eb开掘要领阐发得到较正确的用户爱好形貌,淘汰了由于用户到场而带来的体系噪声,包管了所创立的用户爱好模子的正确性。1基于eb欣赏内容和举动阐发相结合的用户爱好模子整个用户爱好模子的创立历程包罗eb欣赏内容阐发和eb欣赏举动阐发两部门,流程图如图1所示。图1用户爱好模子创立流程图eb欣赏内容阐发,就是接纳eb聚类阐

3、发要领对用户已欣赏的eb页面集举行内容聚类,得到用户感爱好的页面集;eb欣赏举动阐发是对用户欣赏页面时的举动信息举行阐发,得到用户对单一页面的爱好浓度。将二者相结合,就得到了用户感爱好的主题种别及对每类主题的爱好度,即用爱好分类树表现的用户爱好模子2基于eb欣赏内容的用户爱好阐发本文中用户爱好模子形貌所基于的eb欣赏内容是指用户欣赏页面的内容信息,它被用于基于内容的聚类阐发。这些页面的内容信息重要泉源于eb办事器端,起首按照用户的欣赏日记记载,得到单一用户的欣赏汗青页面url,然后从数据库办事器中取出这些url对应的eb页面,作为对欣赏内容爱好形貌的数据源。2.1对欣赏网页信息的数据预处置惩罚

4、与数据库中的布局化数据比拟,eb文档具有有限的布局,纵然具有一些布局,也是侧重于格式而非文档内容。别的,文档的内容是人类所利用的天然语言,盘算机很难处置惩罚其语义。eb文本信息源的这些特别性使得现有的数据开掘技能无法直策应用于其上。这就必要对文本举行预处置惩罚,抽代替表其特性的元数据,作为文档的中心表现情势。比年来应用较多且结果较好的特性表现法是向量空间模子(vetrspaedelvs)法。在vs中,将文本文档当作由一组词条组成,对付每一词条,按照其在文章中的紧张程度给予必然的权重。因此,全部用于开掘的页面文档都可以用词条特性矢量表现。要将文本表现为向量空间中的一个向量,就先要将文天职词,由这

5、些特性词作为向量的维数来表现文本,最初的向量表现完美是0、l情势,即,假设文本中出现了该词,那么文本向量的该维为l,不然为0。这类要领无法表现这个词在文本中的作用程度,以是0、l渐渐被更正确的词频代替,词频分为绝对词频和相对词频。绝对词频,纵然用词在文本中的出现频率表现文本;相对词频为规一化的词频,其盘算要领重要运用tf-idf公式,如今存在多种tf-idf公式,我们可接纳一种比力普及的tf-ldf公式:我们把用于开掘的页面文档作为一个文档聚集。如许对付文档聚集d=中的任一文档,接纳向量空间模子表现为:=此中为文档特性向量的个数,为文档的第i个特性向量,为文档中的权值。2.2页面相似度函数接纳

6、向量空间模子表现的数据,必需选择盘算两个特性矢量之间相似性的相似度函数。如今常用的要拥有欧几里德间隔、曼哈坦间隔和夹角余弦函数。我们在这里接纳夹角余弦函数。但是在盘算时大概会碰到用于比力的两个特性矢量长度不一样,我们可以接纳添零补齐的要领使两者长度同等。夹角余弦函数如下:此中,x,y表现页面x与y的相似度,与表现x与y对应的特性词的权值。页面x与y值越相似,x,y值越大;反之那么越校3基于欣赏举动的用户爱好阐发研究表白,用户许多欣赏举动都能很好地反响用户的爱好。文献6指出用户的许多行动都能表现用户的爱好,如查询、欣赏页面和文章、标识表记标帜书签、反响信息、点击鼠标、拖动转动条、进步、退却等。文

7、献7的研究指出用户拜候时的停顿时问、拜候次数、保存、编纂、修改等行动可以或许展现用户爱好。这些举动毕竟怎样反响用户的爱好,我们必要对其举行量化估算。3.1欣赏举动的分类从外貌上看能展现用户对网页p爱好度dp的欣赏举动许多,但我们阐发创造,起关键作用的是两种举动:在网页p上的欣赏时间tp简称t举动和翻页/拉动转动条的次数vp简称v举动。缘故原由有三:1查询、编纂、修改等举动肯定增长网页欣赏时间和翻页次数,因此可以或许通事后者间接的得到反响。2实行了保存、标识表记标帜书签等行动的页面,假设真为用户体贴,通常以后会被屡次调出来重新欣赏,故可表现为拜候次数。3点击鼠标行动不被思量,由于简朴行动不克不及有效展现用户爱好。3.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论