用户兴趣模型在垂直搜索引擎检索模块中的应用_第1页
用户兴趣模型在垂直搜索引擎检索模块中的应用_第2页
用户兴趣模型在垂直搜索引擎检索模块中的应用_第3页
用户兴趣模型在垂直搜索引擎检索模块中的应用_第4页
用户兴趣模型在垂直搜索引擎检索模块中的应用_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用户兴趣模型在垂直搜索引擎检索模块中的应用用户兴趣模型在垂直搜索引擎检索模块中的应用0引言搜索引擎作为网络信息查询的主要工具已经在人类生活中占据了主导地位,搜索引擎的搜索质量直接影响到用户体验。垂直搜索在专业性上略胜与传统的搜索引擎。本文主要改良垂直搜索引擎的检索模块,在传统的Luene检索模块中参加Pagerank得分,关键词得分,并特别参加了用户兴趣得分,建立了一个个性化的垂直搜索检索模块模型,从而使垂直搜索在个性化上更贴近用户的使用习惯和兴趣。1用户兴趣模型的建立用户兴趣作为垂直搜索引擎当中的一项个性化效劳,直接影响到了用户使用该垂直搜索的体验1。用户兴趣模型的建立应从两个方面分析:一是

2、用户兴趣模型能否反映用户的真实兴趣爱好;二是针对用户查询兴趣的多变性,该模型是否能满足变化的用户兴趣。1.1常用的用户建模技术现今的用户建模技术分为三类:用户手工定制建模、例如用户建模和自动用户建模。用户手工定制建模用户自己动手在网页上选择或者手动输入自己的兴趣爱好。该方法实现简单,得到的用户兴趣结果可靠。但是存在缺乏:影响用户体验,一般用户对频繁的输入和选择缺乏兴趣;更新用户模型困难,一旦用户的兴趣发生转移,而又让用户重新提交网页文档会给用户造成负担;反映用户兴趣不全面,提供应用户的选择项本身就带有主观性,另外用户选择时也存在不能准确表达的情况,这些将直接导致搜集的用户兴趣不够准确2。例如用

3、户建模例如用户模型的建模是用户自己提供相关的兴趣爱好例如及其类别属性。用户在阅读网页时标注对页面的感兴趣程度即可得到用户建模的例如。自动用户建模通过留意用户阅读网页的内容和阅读网页时的行为自动为用户构建一个用户模型5,这种建模无需用户主动参与,通过用户上网时的行为采用数据挖掘技术自动获取用户的兴趣爱好。虽然这种方法会带来一定的噪声,影响用户阅读时的速度,对建立高质量的用户模型也有一定的影响,但是该方法无需用户主动提供信息,不干扰用户的其他操作,从用户体验的角度来说是比拟好的建模方法。因此,将来建模技术的开展方向都会采用自动建模技术。1.2用户兴趣行为的量化表示通过对自动用户建模的相关研究发现,

4、用户的兴趣与用户的行为是严密相连的。用户兴趣可以通过用户阅读该页面的时间和拖动滚动条的时间来有效地反映。而通过用户阅读页面平均速度能帮助建模时确定用户兴趣的等级。另外用户查询、标记书签、阅读页面、点击鼠标、反应信息、拖动滚动条、后退、前进等这些行为都可以暗示用户的爱好。用户访问页面时的停留时间、访问次数、保存、编辑、修改等动作都可以提醒用户兴趣3。通过以上分析,将用户行为用二维表格来记录,称用户行为数据表3。数据表又分为两种类型:基于关键词的用户行为数据表和基于文档的用户行为数据表。前者描绘用户在关键词上的行为,其构造如表1所示;后者描绘用户在一篇文档上的行为,其构造如表2所示。表1中的数据为

5、:用户id号uid、关键词k、所属主题t、关键词因被选中而高亮显示的次数hlt、关键词被用户圈住的次数ir和在该关键词下画下划线的次数udl。表2中的数据为:文档iddid、文档所属主题t、关键词的单击次数lk、阅读该文档时间tie、在该文档中添加书签的数目bk、批注次数ant。由于阅读时间受一些客观因素的影响,因此以上时间是修正后的时间。1.3用户兴趣度的计算由于用户在阅读网页的过程中有自己固定的爱好和使用方法,本文由论文联盟.Ll.搜集整理,因此可以针对不同的用户用不同的权重值来表示用户的不同行为4。基于关键词的用户兴趣计算用户行为权重,表示用户对某主题下n个关键词的行为。两者的乘积定义为

6、:kt=bk*bkt=k1,k2,knT基于关键词的用户兴趣度为:基于文本的用户兴趣度计算方法类同。2检索模块设计与应用将用户兴趣应用到检索模块以改善用户体验,同时考虑了其他一些相关因素。主题相关性。Luene排序算法:以关键词在文档中出现的次数排序。关键词在文档中的位置。可以通过关键词在文档中出现的位置和频率得出网页或文档的权重值。用户兴趣。网页的重要性。网页重要性的分值可以通过PageRank算法得到4。将这四个因素综合考虑,可设计网页的排序算法如下:Sre_f=d1*lueneSre+d2*PagerankSre+d3*keySre+d4*yhxqSreSre_f:文档f总得分;luen

7、eSre:主题相关度得分;PagerankSre:网页重要性得分;keySre:关键词位置权值得分;yhxqSre:用户兴趣计算得分;d1,d2,d3,d4表示权重系数,d1+d2+d3+d4=1。3实验将改良的检索算法与原Luene检索算法比照查全率,查准率和系统响应时间。其中改良算法的权值设置为d1=0.35,d2=0.2,d3=0.13,d4=0.32。加大了用户兴趣的得分权值。我们测试的数据量为20万条,得到如下结果:查全率估值计算,改良算法得到的结果为n1;Luene算法得到的结果为n2。Reall=n1n2/n1+n2查准率查准率的计算为:p=k0/kk0:正确的数据;k:全部相似

8、数据。系统响应时间Luene根底排序算法平均响应时间在35s左右,而改良的搜索平均响应时间在46s左右。两种检索在三个方面得到的结果比照方表3所示。4完毕语本文主要改良了垂直搜索引擎的检索模块,在该模块中综合了主题相关度得分、网页重要性得分、用户兴趣计算得分、关键词位置权值得分四个方面来计算网页文档得分。特别将用户兴趣得分局部设置了较重的权重值,使得本文的垂直搜索更具有个性化。通过实验证明,该模型从用户的角度进步了搜索质量,改善了用户体验。该模型还存在一定的局限性,在权重值的分配上还需要大量的实验来验证更合理地分配方案,以到达更合理的搜索效果。参考文献:1黄国华.基于相对高度的曲线特征提取算法J.邵阳学院学报自然科学版,2022.1:29-332杨永毅.基于Luene的二手汽车交易信息垂直搜索引擎的研究与实现D.重庆大学,2022:21-243LEANDSKID.Athree-yearstudynthefreshnessfebsearhenginedatabasesJ.J.Inf

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论