搜索引擎的个性化检索研究(翁畅平)_第1页
搜索引擎的个性化检索研究(翁畅平)_第2页
搜索引擎的个性化检索研究(翁畅平)_第3页
搜索引擎的个性化检索研究(翁畅平)_第4页
搜索引擎的个性化检索研究(翁畅平)_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、搜索引擎的个性化检索研究2022/8/91研究背景问题的提出搜索引擎个性化检索 概念特征现状搜索引擎个性化检索的关键技术主要内容2022/8/921.研究背景-1Internet上的信息资源特点内容广泛,类型多样,涉及到人类生活的各个领域。 更新速度快。 信息重复率高。 信息结构化程度低。信息过载,资源迷向。2022/8/93搜索引擎的发展第一代搜索引擎是以1995 年出现的yahoo,altavista 和infoseek为代表。它们根据相关程度对结果进行排序。这种相关程度主要是以匹配到的关键词的多少、 关键词在页面上出现的位置及关键词在页面上出现的频率来加权和计分,因此这种相关程度排序仅仅

2、是系统对检索结果的一种判断,并不一定符合用户的客观需求。第二代搜索引擎是以1998年出的google和directhit 为代表。它们是根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性。第三代搜索引擎是正在研究和开发的智能搜索引擎,个性化要求是它的主要特色之一。1.研究背景-22022/8/94用户个性化需求的凸显信息用户由图书情报机构服务的专业研究人员扩大到普通百姓;由于每个人的生长环境、受教育背景等个不相同,对搜索结果的期待有很大差异。人的兴趣、研究具有阶段性。1.研究背景-32022/8/952.问题的提出

3、 查询精度不高,检索结果中无关或无用的网页过多,大约有一半的结果是无关的。80%用户仅对前2页的查询结果感兴趣。搜索引擎的检索设计未能以用户的思想和行为来构建检索模式,以致于具有不用目的的两个用户在同一关键词查询时,得到同样的结果,这明显与用户的特殊需求不符。2022/8/963.搜索引擎个性化检索 个性化检索就是指利用用户的个性化模式对检索结果进行作用,从而得到尽量符合用户检索目的的检索。是指通过分析用户输入的检索提问式、用户点击的网页、检索历史以及用户的使用日志等获得和用户检索目的相关的个性化信息。概念:2022/8/97特征丰富的信息数量完善的信息分类信息在深度和广度上的结构型分布正确理

4、解用户个性的学习机制 柔性的页面结构 完善的功能(收藏、浏览、传送、共享)3.搜索引擎个性化检索 2022/8/98搜索引擎个性化检索类型基于检索历史基于使用偏好基于检索结果3.搜索引擎个性化检索现状2022/8/99利用用户对使用偏好的定制,获知用户的个性化信息,并依次构建用户个性化检索模型而实现的个性化检索。又称“用户定制检索”。用户定制检索可分为: 一般形式 定制检索标签基于使用偏好的个性化检索2022/8/910用户定制检索的一般形式对检索资源的定制(Web、新闻、视频、Blog等)对检索语言的定制对用户或搜索引擎所处地区的定制对检索结果的安全性定制,一般包括无过滤、中过滤、高过滤三个

5、设置对检索结果的显示方式(网页摘要、语种、来源等)、显示条数及排序方式的定制对某些检索功能和选项的定制。(检索界面颜色、布局、字体等的定制) 基于使用偏好的个性化检索2022/8/911定制检索标签 就是指用户根据自己的需要对搜索引擎首页面上的检索标签进行定制。定制有两种形式:通过从系统现有的检索标签选项中进行选择来定制根据需要生成新的检索标签,用户的定制内容包含在新生成的检索标签中基于使用偏好的个性化检索2022/8/912基于使用偏好的个性化检索2022/8/913搜索引擎个性化检索类型基于检索历史基于使用偏好基于检索结果3.搜索引擎个性化检索现状2022/8/914检索历史是搜索引擎记录

6、、保存和管理用户以往的检索情况,以便为用户今后的检索提供参考,提高检索结果相关性和检索效率的一种检索功能。基于检索历史的个性化检索就是指通过追踪和分析用户的检索历史记录,挖掘出用户的个性化信息,并依次构建用户个性化检索模型而实现的个性化检索。基于检索历史的个性化检索2022/8/915基于检索历史的个性化检索2022/8/916基于检索结果的个性化检索基于检索结果的个性化检索,就是指利用用户对检索结果信息内容的定制,获知用户的个性化信息,并依次构建用户个性化检索模型从而实现的个性化检索。2022/8/917根据用户对搜索引擎采用动态自动聚类方式聚类检索结果所得到的聚类选择,推断用户真正感兴趣的

7、类别/主题,并把该类别/主题作为检索的背景信息指导搜索引擎进行检索从而优化检索结果。系统返回的检索结果页面上除了有按线性列表方式显示的检索结果外,还提供与检索相关的关键词集,包括上位词、下位词和相关词,用户可以根据需要,从中选择最恰当的关键词,以便使搜索引擎返回的检索结果更符合自己的检索需求。基于检索结果的个性化检索2022/8/918基于检索结果的个性化检索2022/8/919基于检索结果的个性化检索2022/8/9204.搜索引擎个性化检索的实现体系结构搜索引擎个性化检索实现的关键技术用户兴趣挖掘技术网络信息挖掘技术概念检索技术信息推送技术智能代理技术相关度排序算法分析2022/8/921

8、4.搜索引擎个性化检索体系结构用户接口用户检索器索引数据库用户Internet索引器分析器Spider1Spider12022/8/9224.搜索引擎个性化检索体系结构用户接口用户个性化需求分析器检索器个性化查询过滤器索引数据库用户兴趣模型用户索引器Spider1Spider1Internet分析器2022/8/923BFCD概念检索技术EA信息推送技术智能代理技术用户兴趣挖掘技术网络信息挖掘技术相关度排序算法分析搜索引擎个性化检索实现的关键技术2022/8/924用户兴趣挖掘技术基本概念用户兴趣的个性化体现在两方面:对web内容的个性化对web形式的个性化V=(V1,V2Vn)2022/8/

9、925用户兴趣挖掘技术-获取用户兴趣的方式通过用户主动提供自己的兴趣来得到用户的个性化向量在用户没有明确参与的情况下,系统通过观察用户行为来得到用户的兴趣,从而得到用户的个性化向量通过用户的反馈信息来更新用户的个性化向量2022/8/926用户兴趣挖掘技术-1实现用户提供自己的研究方向和其他阅读爱好等信息,系统从这些信息中发现用户的兴趣。从事的专业、研究兴趣和研究方向参加的项目以及用一两句话描述这些项目除了自己的专业外经常阅读哪些专业和研究方向的资料用户输入答案后,系统进行目标标识,对其进行聚类。不同问题的答案形成不同的类,表达用户的各种兴趣。根据用户兴趣推送页面或进行信息过滤时,从而有效避免

10、将各种不同兴趣表示成一个用户兴趣向量的缺陷。2022/8/927Add Your TitleAdd Your Title可以快速地得到用户的兴趣实现简单,无须训练用户的兴趣经常变动,缺乏适应性让用户每次访问网站时都输入这些内容会使用户觉得繁琐用户不可能提供所有的兴趣以及兴趣的程度优 点缺 点用户兴趣挖掘技术-1评 价2022/8/928用户兴趣挖掘技术-2实现-日志文件分析法当用户在使用搜索引擎时,用户与Web服务器间交互过程信息都以日志文件的形式存在,而日志文件的格式是固定的,通过分析日志内容可以发现用户浏览的网页集和浏览这些页面的时间等信息。日志文件在分析之间,需要进过数据清洗、绘画识别等

11、预处理,从而可以得到每一个用户的个性化信息,如查询的关键字、用户点击页面的URL地址、页面访问日期和访问时间长度等。通过个性化信息进行数据挖掘,可以得到用户的个性化向量。2022/8/929评价优点能够自动适应用户兴趣的变化不要求用户输入任何信息缺点需要经过相当长的训练时间用户兴趣挖掘技术-22022/8/930用户兴趣挖掘技术-3实现根据用户对推送页面的评价信息来更新用户的个性化向量评价实现简单,但需要用户对推送页面作出评价2022/8/931用户兴趣挖掘技术为了快速、精确地发现用户兴趣,最好采用这三种方法相结合的方法。首先,要求用户通过回答问题的方式来提供自己的兴趣,从而得到用户的初始个性

12、化向量;然后,通过用户的反馈信息和挖掘用户在访问Web时在服务器方留下的访问记录来修改用户的个性化向量。2022/8/932BFCD概念检索技术EA信息推送技术智能代理技术用户兴趣挖掘技术网络信息挖掘技术相关度排序算法分析搜索引擎个性化检索实现的关键技术2022/8/933网络信息挖掘技术-1定义 网络信息挖掘(WebMining)技术是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息,获得更高层次的知识和规律。 网络信息挖掘系统根据用户所提供的目标样本和系统设置,提取目标的特征信息,根据目标特征自动在因特

13、网上搜集资料,然后对所搜集到的资料进行分类整理并导入资料库。系统能够自动运行,不断更新用户的资料库,提供个性化的主动信息服务。2022/8/934网络信息挖掘技术-2分类Web日志挖掘:通过分析Web服务器的日志文件,对用户访问Web服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。Web内容挖掘:Web文本挖掘和多媒体信息挖掘Web文本挖掘的目的是对页面进行聚类、分类和关联分析,以及利用Web文档进行趋势预测、分析等;多媒体信息挖掘是对多媒体文档的挖掘;Web结构挖掘:对Web页面超链接关系、文档内部结构、文档URL的目录路径结构的挖掘。2022/8/935实现步骤网络信息挖

14、掘技术-3确立目标样本 建立统计词典特征信息提取调整特征矢量 网页特征向量网络信息获取目标样本特征向量信息特征匹配2022/8/936BFCD概念检索技术EA信息推送技术智能代理技术用户兴趣挖掘技术网络信息挖掘技术相关度排序算法分析搜索引擎个性化检索实现的关键技术2022/8/937概念检索技术-1定义概念检索是指通过对文献中的原文信息进行语义上的自然语言处理,析取各种概念信息,并由此形成一个知识库。然后,根据对用户提问的理解,检索知识库中的相关信息。特性:具有分析和理解自然语言的能力,可以对输入的原文根据其概念内容进行组织和安排,以析取相关的概念信息和范畴指示,然后,通过记忆机制将他们存储到

15、知识库中,以备检索用。记忆机制,能够自动补充与更新。具有用自然语言回答用户提问的能力。2022/8/938概念检索技术-2实现技术概念检索是通过聚类功能实现的。概念检索的核心技术就是概念图。概念图实际上是一个庞大的语义网络知识库。概念图构造过程就是用计算机自动从大量网页中自动提炼知识、计算机知识之间联系的过程。实现过程用户检索某个词时,检索词首先落到概念图中,系统在概念图中对检索词进行语义处理和联想,根据处理和联想的结果,在调度底层的全文数据库。在返回给用户的结果中,不仅有匹配的文档,而且有系统给用户的检索建议。2022/8/939概念检索技术-3举例Excite是目前最著名的总体目标依赖概念

16、进行检索的搜索引擎,采用了概念检索理论设计它的数据库。Excite可以把某个关键词分类,分类的依据就是这个关键词出现的不同的上下文语境,一种上下文做一个类别。例如 “ heart”一词,可把关于医药健康的分作一类,把关于感情的分作一类。概念检索试图确定的是用户的检索意图而不仅机械地接受用户键入的词汇,Excite 试图返回用户检索的主题相关的内容,尽管在某文档中可能根本没有出现用户所键入的关键词。 例如, 当你键入“ elderly people”时, Excite同样给出“ senior citizens ”的链接。2022/8/940BFCD概念检索技术EA信息推送技术智能代理技术用户兴趣

17、挖掘技术网络信息挖掘技术相关度排序算法分析搜索引擎个性化检索实现的关键技术2022/8/941信息推送技术-1定义根据用户的需求,有目的性地按时将用户感兴趣的信息主动发送到用户的计算机中,即实现“信息找用户”。推送技术是服务器能够自动告诉用户系统中哪些信息是最新更新,并自动搜集用户可能发生兴趣的信息。2022/8/942自动推送技术实现方法 事件驱动技术信息推送技术-22022/8/943信息推送技术-3自动推送技术特点:用户要求发送方按照预先约定的时间定制提交新的信息。实现步骤:用户提出他们对某个特定的Web站点、某个专题感兴趣;信息发送方根据用户的请求,用推送软件的应用程序到特定或需要的W

18、eb站点寻找新的内容;如果自最近一次传送后,又输入了新的内容,该内容将被传送到位于推送应用程序“接收器”中的“频道”;用户可以根据他们的设置查看自己定制的新内容或新链接。2022/8/9442022/8/945信息推送技术-4事件驱动技术以规则为基础,这些规则由用户、推送管理员和发送方在设置时预先建议,可以是驻留在服务器的关键字过滤器,也可以是针对数据库检索的相关规则,该数据规定在X发生的情况下,Y必须传送到Z。推送管理方判断预先设置的规则是否发生,如发生则将相关信息或内容提交给用户。2022/8/946BFCD概念检索技术EA信息推送技术智能代理技术用户兴趣挖掘技术网络信息挖掘技术相关度排序算法分析搜索引擎个性化检索实现的关键技术2022/8/947智能代理定义智能代理又称智能体,它是在用户没有明确具体要求的情况下,根据用户需要,代替用户进行各种复杂的工作,如信息查询、筛选及管理,并能推测用户的意图,自主制定、调整和执行工作计划。它使用自动获得的领域模型(如Web知识、信息处理、与用户兴趣相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论