个性化条件下的用户兴趣模型_第1页
个性化条件下的用户兴趣模型_第2页
个性化条件下的用户兴趣模型_第3页
个性化条件下的用户兴趣模型_第4页
个性化条件下的用户兴趣模型_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

个性化条件下的用户兴趣模型

0信息定位和网站设置随着网络的快速发展和普及,网络信息的脆弱性增加。搜索引擎技术的出现为网民快速找到所需信息带来了福音。搜索引擎以一定的策略在互联网中收集信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。随着人工智能、自然语言处理、数据挖掘等技术的发展和在搜索引擎系统中的进一步应用,目前,许多搜索引擎已开始提供个性化的服务,使结果更符合用户的要求。个性化搜索引擎系统采用知识库将网络信息的收集与查询有力地结合在一起,运用数据挖掘、分布式处理等技术,帮助用户检索。它通过建立用户模型对知识进行收集、索引、过滤,并将用户感兴趣的信息提交给用户,具有不断学习、适应变化的能力。个性化搜索引擎已成为一个新的研究和开发领域。本文对个性化条件下搜索引擎的检索方法进行研究,建立了基于用户兴趣的检索模型,并且在此基础上完成了个性化搜索引擎的设计。1个性化搜索引擎设计搜索引擎并不真正搜索互联网,它实际上是搜索预先整理好的Internet上几千万到几十亿网页的网页索引数据库。本文设计的个性化搜索引擎由搜索器、文档分析器、分类器、索引器、检索器、个性化分析器、用户接口七部分组成。其结构设计如图1所示。1.1网页信息的下载和提取搜索器又称为网络蜘蛛、网络机器人。其原理是以一个或几个有代表性的URL起始,按照某些策略跟踪链接,遍历网络,将遍历过的网页下载到本地服务器上,并提取网页信息,本系统提取的信息包括:网页ID、网页名称、URL、存储时间、网页长度、存储位置、更新时间。当网页被下载以后,搜索器以一定的频率对网页进行刷新或重新访问,其频率与网页自身更新的频率相适应,这通过对网页更新周期的自学习可以得到一个结果。由于网上信息数量庞大,因此要使多个搜索器在多台机器上并行工作下载网页,再将下载的结果进行处理。1.2搜集分词,提取文本并进行转化文档分析器对搜索器下载的网页进行下一步处理,包括文档格式的转化、分词和特征提取三部分。搜索器抓取的Web文档有多种格式,如HTML、XML等。首先要将这些格式的文档转换成统一的格式再进行处理,本系统将其统一转换成记事本格式。1.3各类别网页的检索由于网页数量的巨大,为了便于查找和组织管理,要将网页进行分类处理。本系统将网页分为8个类:教育、科学、生活、文化、政治、服务、新闻、休闲,每个类的网页及相关信息分别存储在一个服务器上。一个网页可以从属于多个类。用户检索时,在页面上可以对要检索的类别进行选择,对于选中的类别可以并行的查询其所在的服务器。这样可以在最短时间内查到最多的网页。1.4网页信息表和关键词表为了提高效率,加快查找速度,要对相关信息以一定结构存放,这是索引器的功能。与用户查询相关的表主要有网页信息表和关键词表。网页信息表存放网页ID、网页名称、URL、存储时间、网页长度、存储位置、更新时间。关键词表采用倒排表结构,包括:词、包含该词的网页ID、该词出现的位置。由于网页分类存储,每一类索引数据的结构相同,因此,为每个不同服务器上的类的相关信息都建立相同的索引结构。1.5用户查询界面的组成用户接口为用户和系统交互提供输入输出界面,包括用户注册界面(如图2所示)、登录界面、查询界面(如图3所示)和结果输出界面(如图4所示)。用户第一次访问的时候要进行注册,将注册的内容存入用户信息表中,注册信息包括:用户ID、密码、职业、专业、爱好。以后用户每次访问搜索引擎时都要进行登录,没有经过登录的用户不能使用搜索引擎。用户查询界面由三部分组成:热门话题部分、历史访问记录部分、信息查询部分。信息查询界面中用户可以输入查询关键词,并选择查询方式(全文、题目),以及要查询的类别(可以多选)。另外,热门话题部分显示的是所有用户近期访问频率最高的几个词,点击关键词,可以直接检索到该词所对应的网页信息。历史访问记录部分是当前用户的访问记录,分为三个时间段:三天之内、一周之内、一周以前。结果输出界面显示了符合规定的所有记录。在每一条结果中,文档题目用绿颜色显示,查询关键字用红颜色显示,点击题目可以链到本地硬盘上文档位置信息。在上方可以输入页数,并提示总共页数。点击返回可以连接到结果输出界面进行下一次检索。1.6用户兴趣向量个性化分析器的功能是根据用户信息库的信息训练得到用户兴趣向量。如果某一次用户查询了某一些关键词,访问了一组网页,则在一段时期内,用户仍然会查询这些关键词,访问同类的这些网页。也就是说:用户的爱好,感兴趣的主题具有局部性,同样,对于不同用户,同一时期内,感兴趣的内容也具有局部性。根据这个特点,本文提出一个基于用户兴趣的检索模型。用户兴趣向量的挖掘分为两部分:(1)用户注册信息和自身访问历史记录的挖掘。(2)同一时期不同用户访问记录的挖掘。数学模型表示为:V=αV1+(1-α)V2(1)其中,V代表用户兴趣向量,V1代表由用户自身信息训练的兴趣向量,V2代表由其他用户信息训练的兴趣向量。α和(1-α)是依据向量V1,V2在挖掘用户兴趣向量时所起作用的大小规定的影响因子。1.用户行为表中网页向量为用户在数据库中建立一个用户行为表,用来记录每一个用户最近一段时间访问过的网页及访问时的相关数据,在新用户进行信息注册时为该用户建立相应记录,其内容包括:用户ID、访问的网页名称、该次访问查询关键词、该网页在本地硬盘的位置、网页的URL、点击次数、用户访问时间长度、最后一次访问时间、网页长度。该表按照最后一次访问时间倒序排列。当表内容过多时,替换最久没访问的网页,也就是最后一次访问时间最远的记录。将用户行为表中存在的记录对应的网页向量提取出来,点击次数(ni),网页长度(li)和访问时间长度(ti)从某些方面反映了用户对该网页的重视程度,因此,将点击次数、网页长度、访问时间长度作为参考参数。这样用户自身信息训练的兴趣向量V1可以用数学方法表示为:V1=k∑i=0vi×pi×ti=k∑i=0vi×nik∑i=0ni×tili(2)V1=∑i=0kvi×pi×ti=∑i=0kvi×ni∑i=0kni×tili(2)其中,k代表此时用户行为表中当前用户对应的网页数;vi代表每个网页的特征向量;ni代表每个网页的点击次数,k∑i=0ni∑i=0kni代表所有网页总点击次数的值;ti代表每个网页用户访问时间长度,li代表每个网页长度。2.其他用户偏好产生的相似度用户查询具有局部性,尤其是背景相近的用户,在同一时期检索的内容都具有共性。因此,对同一时期不同用户访问记录进行挖掘,也是挖掘用户兴趣向量的一个重要方面。首先,查询用户日志,提取出最近一段时间内使用过搜索引擎的所有不同用户,然后访问用户信息表,提取用户的相关信息,包括:职业、专业、爱好。将当前用户的这些信息与最近一段时间内访问网页的其他用户同类信息进行比较,找到其他用户与当前用户的相似程度βj。由其他用户信息训练的兴趣向量可以表示为如下形式:V2=m∑j=0uj×βj(3)其中,βj为第j篇网页的访问用户与当前用户的相似程度;m是找到的用户行为表中除当前用户外,所有其他用户对应的网页数量;uj为第j篇网页的特征向量。其中,βj=raj+(1-r)bj,r和(1-r)是依据aj、bj,在挖掘不同用户兴趣向量时所起作用的大小规定的影响因子。aj、bj,定义方法如下:由于爱好的度量值bj是一个0~1之间的小数,因此为了使数据影响相同,职业、专业度量值aj也定义在0~1之间。将职业、专业分成几大类,不同类之间规定相似度,选择同类的内容相似度都为1,选择不同类的内容直接看他们的类相似度。爱好度量值bj,它是根据规定的类别对每一类提取出相同个数的特征确定的。本系统中,分为8个类,从每个类中选择3个有代表性的词作为爱好,如:休闲类中选择体育/旅游,医疗/健身,影音/娱乐三个作为爱好。具体见图2。这样一共24个爱好。根据用户的选择,可以计算用户在每个类中选了多少个爱好,以此来体现用户对每类网页的偏爱程度,这样就可以形成一个8维向量来表征用户爱好,即爱好向量,不同用户之间爱好相似性可以转化为爱好向量的相似程度,采用余弦法计算二者相似性。如,类:教育(A)、科学(B)、生活(C)、文化(D)、政治(E)、服务(F)、新闻(G)、休闲(H),用户甲在A中选了2个爱好,B中选了3个,C中没选,D中选了1个,E中没选,F中选了3个,G中选了1个,H中选了1个,则用户甲的爱好向量为:D1:{23,33,0,13,0,33,13,13};同理,用户乙在A中选了1个爱好,B中没选,C中选了1个,D中选了3个,E中选了2个,F中选了2个,G中选了1个,H中选了1个,则用户乙的爱好向量为:D2:{13,0,13,33,23,23,13,13}。用户甲和乙的爱好相似程度为:Sim(D1,D2)=8∑i=1d1id2i√8∑i=1d21i√8∑i=1d22i=0.5673(4)于是,对于用户兴趣向量可以最终表示为:V=αV1+(1-α)V2=αk∑i=0vi×nik∑i=0ni×tili+(1-α)m∑j=0uj×(raj+(1-r)bj)(5)参数含义同上。1.7用户兴趣向量的过滤检索器主要作用是从数据库中找到与用户查询相关的网页。不同用户的背景、习惯不同,对于相同的含义不同的人会有不同的表达方式;同样,相同的词其对于不同的人代表的含义也可能不同。这样,为了避免歧义现象,需要建立同义词库,对查询关键词进行同义词扩展,将查询词的同义词也一起查询,以提高查全率。本系统所采用的检索方法:通过用户兴趣向量进行信息过滤,判断网页向量与用户兴趣向量的相似性,并按照倒序排列,将结果返回给用户。具体过程如下:第一步,将用户输入的查询内容调用分词程序进行词的切分,然后再将分词后的结果进行同义词扩展。第二步,根据用户检索时所选定的类别信息,查询对应类别的索引。按照用户注册时提供的爱好信息,也就是前文中叙述的爱好向量中的每一项,作为每一类网页的权重,表示用户对不同类信息的爱好程度,当一个网页同时属于多个类时,取各个类的权重最大者。第三步,将检索出来的网页与用户兴趣向量采用余弦公式来求向量相似度。如果二向量是相近的,则它们所表示的语意是相关的。这个相似计算的值就是表示该网页接近用户爱好的程度。值越大,也就是说网页越接近用户要求。sim′(D,Di)=C⋅(m∑j=1WDj*WDij)√m∑j=1(WDj)2*m∑j=1(WDij)2(6)式中,D是用户兴趣向量,Di是网页向量,C是类别权重,WD用户兴趣向量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论