智能搜索引擎_第1页
智能搜索引擎_第2页
智能搜索引擎_第3页
智能搜索引擎_第4页
智能搜索引擎_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1网络智能搜索引擎网络智能搜索引擎 主要内容主要内容v 网络智能搜索引擎概述网络智能搜索引擎概述 网络智能搜索引擎的结构原理网络智能搜索引擎的结构原理 网络智能搜索机理网络智能搜索机理 网络智能搜索策略网络智能搜索策略 网络智能搜索引擎的关键技术网络智能搜索引擎的关键技术 网络智能搜索引擎实例分析网络智能搜索引擎实例分析一、 网络智能搜索引擎概述搜索引擎搜索引擎发展简况发展简况搜索引擎搜索引擎:是指通过网络搜索软件或网站登陆等方式,是指通过网络搜索软件或网站登陆等方式,以一定的策略在互联网上搜集和发现信息,并将以一定的策略在互联网上搜集和发现信息,并将Web上上大量网站的页面收集到本地,经过加

2、工处理和组织,从大量网站的页面收集到本地,经过加工处理和组织,从而能够对用户提出的各种查询做出响应,提供用户所需而能够对用户提出的各种查询做出响应,提供用户所需的信息。的信息。1993年底,年底,NASA,Repository-Based Software Engineering (RBSE) spider第一个索引第一个索引Html文件文件正文的搜索引擎,第一个使用关键词串匹配的引擎;正文的搜索引擎,第一个使用关键词串匹配的引擎; 1994年年7月,月,Michael Mauldin,Lycos第一个现代第一个现代意义上的搜索引擎;意义上的搜索引擎;1994年,年,David Filo和杨致

3、远,和杨致远,Yahoo成功地使网成功地使网络信息搜索的概念深入人心,揭开了搜索引擎大发展络信息搜索的概念深入人心,揭开了搜索引擎大发展的序幕。的序幕。第一代第一代搜索引擎搜索引擎1998年前年前以以Lycos为代表为代表 索引量少索引量少, 极少重新搜极少重新搜集网页并刷新索引集网页并刷新索引, 检索速检索速度慢度慢; 实现技术上基本沿用实现技术上基本沿用较为成熟的信息检索、网络、较为成熟的信息检索、网络、数据库等技术;数据库等技术; 目录式搜索引擎依靠目录式搜索引擎依靠专业人员对信息进行甄别专业人员对信息进行甄别和分类,信息准确、导航和分类,信息准确、导航质量高,但不能深入网站质量高,但不

4、能深入网站的内部细节,容易导致信的内部细节,容易导致信息丢失,并且由于息丢失,并且由于人工人工编编辑能力有限,常导致网站辑能力有限,常导致网站信息陈旧、数据库更新不信息陈旧、数据库更新不及时等问题;及时等问题; 采用全文检索技术的采用全文检索技术的搜索引擎信息量大,更新搜索引擎信息量大,更新及时,毋需人工干预,但及时,毋需人工干预,但由于不能区分同行异义以由于不能区分同行异义以及不能联想到关键字,容及不能联想到关键字,容易导致返回大量夹杂易导致返回大量夹杂冗余冗余信息的检索结果,且检准信息的检索结果,且检准率低,用户必须从结果中率低,用户必须从结果中进行筛选。进行筛选。第二代第二代搜索引擎搜索

5、引擎1998年起年起如谷歌、如谷歌、百度百度 索引数据库规模有所扩索引数据库规模有所扩大大; 开始出现主体搜索和地开始出现主体搜索和地域搜索等域搜索等; 对检索结果展开对检索结果展开相关度评价;开始使用自动相关度评价;开始使用自动分类技术分类技术; 极大提高了搜索极大提高了搜索的质量和效率;的质量和效率;元搜索引擎元搜索引擎1995年年出现出现 返回的检索结果信息量返回的检索结果信息量更大、更全,但用户需要做更大、更全,但用户需要做更多筛选更多筛选; 在一定程度上解在一定程度上解决了独立搜索引擎对于某些决了独立搜索引擎对于某些检索请求的查询结果不够全检索请求的查询结果不够全面、准确的现状,但不

6、能从面、准确的现状,但不能从本质上克服原有搜索引擎所本质上克服原有搜索引擎所固有的弊端;固有的弊端;(二)搜索引擎的智能行为分析(二)搜索引擎的智能行为分析1、影响搜索引擎性能的最关键因素:、影响搜索引擎性能的最关键因素:(1)信息的采集。)信息的采集。 搜索过程应在一定条件下选择最优路径沿搜索过程应在一定条件下选择最优路径沿着具有相关主题的链接进行搜索,这要求搜索引着具有相关主题的链接进行搜索,这要求搜索引擎能够识别相应的网站和网页信息资源,是一种擎能够识别相应的网站和网页信息资源,是一种智能性的体现。智能性的体现。(2)信息的加工处理与组织。当采用合适的算法和策)信息的加工处理与组织。当采

7、用合适的算法和策略从网络信息资源中获取到原始超文本信息后,还略从网络信息资源中获取到原始超文本信息后,还需要从中抽取出有价值的信息内容进行索引存储,需要从中抽取出有价值的信息内容进行索引存储,构建信息数据库。构建信息数据库。(3)信息检索。信息检索查询为用户提供直接服务,)信息检索。信息检索查询为用户提供直接服务,它它根据根据用户的信息用户的信息需求需求,完成对数据库的,完成对数据库的查找查找过过程,并以一定的方式向用户提供查询结果。信息程,并以一定的方式向用户提供查询结果。信息检索是搜索引擎最终的价值体现,是影响搜索引检索是搜索引擎最终的价值体现,是影响搜索引擎性能的关键环节。擎性能的关键环

8、节。2、搜索引擎的智能性分析:、搜索引擎的智能性分析:(1)检索技术的智能化)检索技术的智能化 机灵的网络蜘蛛机灵的网络蜘蛛v智能搜索引擎的设计网络蜘蛛能遍历整个因持网,智能搜索引擎的设计网络蜘蛛能遍历整个因持网,自动自动完成在线信息的完成在线信息的索引索引,还能通过启发式学习采,还能通过启发式学习采取 最 有 效 的 搜 索 策 略 , 选 择 最 佳 时 机 获 取 从取 最 有 效 的 搜 索 策 略 , 选 择 最 佳 时 机 获 取 从Internet上自动收集、整理过的信息。同时,它能上自动收集、整理过的信息。同时,它能够对网页内容的相关性及该网页所包含的链接够对网页内容的相关性及

9、该网页所包含的链接质量质量等做出判断,质量较差或内容不大相关的网页将不等做出判断,质量较差或内容不大相关的网页将不被选取,从而保证信息来源的质量,提高检索效果。被选取,从而保证信息来源的质量,提高检索效果。 语义检索及自然语言理解技术语义检索及自然语言理解技术v语义检索是一种建立在文献概念相关关系基础上的检语义检索是一种建立在文献概念相关关系基础上的检索。通过抽取能够描述文献内容的概念(如用文中的关索。通过抽取能够描述文献内容的概念(如用文中的关键词或与之相应的主题词)建立一种语义索引,而用户键词或与之相应的主题词)建立一种语义索引,而用户在系统的辅助下选用合适的词语表示自己的信息需求,在系统

10、的辅助下选用合适的词语表示自己的信息需求,然后在两者之间执行然后在两者之间执行概念匹配概念匹配,匹配在语义上相同、相,匹配在语义上相同、相近、相包含的词语,从而实现信息的深度检索近、相包含的词语,从而实现信息的深度检索v借助自然语言理解技术,智能搜索引擎能够实现基于借助自然语言理解技术,智能搜索引擎能够实现基于知识(或概念)层面的检索,并且对知识有一定的理解知识(或概念)层面的检索,并且对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而智能搜索引擎索、短语识别以及机器翻译技术等。因而智能搜索引擎

11、具有信息服务的智能化、人性化特征,允许用户采用自具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信息检索,并能为用户提供更方便、更确切然语言进行信息检索,并能为用户提供更方便、更确切的搜索服务。的搜索服务。 检索对象形式的多样性检索对象形式的多样性v智能搜索引擎具有跨平台工作和处理多种混合文档结智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力,能处理构的能力,能处理HTML(HyperText Markup Language,超文本标志语言,超文本标志语言)、SGML(Standard for General Markup Language,通用标志语言标准,通用标志语言标准)

12、、XML(eXtended Marked Language,扩展标志语言,扩展标志语言)文文档以及其他类型的文档,如档以及其他类型的文档,如Word、WPS等。另外,智等。另外,智能搜索引擎还支持多语言检索,允许用户用中文输入查能搜索引擎还支持多语言检索,允许用户用中文输入查询英文或其他语言的信息。询英文或其他语言的信息。 人工人工/机编混合型目录机编混合型目录v它呈两种形式:人工进行质量控制的机编目录和运它呈两种形式:人工进行质量控制的机编目录和运用智能技术检索的手编目录。这种混合型目录能够用智能技术检索的手编目录。这种混合型目录能够弥补机编目录和手编目录的缺憾,提高了网页索引弥补机编目录和

13、手编目录的缺憾,提高了网页索引覆盖率。覆盖率。(2)检索结果处理的智能化)检索结果处理的智能化 保存和利用用户的使用记录,分析检索结果的相关度保存和利用用户的使用记录,分析检索结果的相关度例如访问量排序和基于超链接的排序。例如访问量排序和基于超链接的排序。 搜索引擎记录其所搜索到的搜索引擎记录其所搜索到的Web页面的被点击次数页面的被点击次数(即访问量),从而判断该(即访问量),从而判断该Web页面被访问的频率。页面被访问的频率。这是一种由公众集体确认网站重要性的方法,具有一这是一种由公众集体确认网站重要性的方法,具有一定的客观性与公众性。定的客观性与公众性。 而基于超链接的排序则是利用而基于

14、超链接的排序则是利用Web页面之间的引用页面之间的引用关系,综合考虑关系,综合考虑Web页面被引用次数以及所引用页面页面被引用次数以及所引用页面的相关度来判断本页面的重要性。的相关度来判断本页面的重要性。 检索结果的转换过滤检索结果的转换过滤v根据一定条件对检索结果进行优化过滤的过程,根据一定条件对检索结果进行优化过滤的过程,如信息格式的支持与转换如信息格式的支持与转换v采用信息过滤技术可减少重复信息和垃圾信息采用信息过滤技术可减少重复信息和垃圾信息v应用聚类技术对检索结果进行联机聚类等,从而应用聚类技术对检索结果进行联机聚类等,从而“精简精简”检索结果。检索结果。 检索结果的知识提取检索结果

15、的知识提取v搜索程序具有机械性及其对网络用户的透明性,而搜索程序具有机械性及其对网络用户的透明性,而网络用户缺乏搜索程序所规定的概念和语词符号,这网络用户缺乏搜索程序所规定的概念和语词符号,这就使得用户的检索具有一定的模糊性,进而降低检索就使得用户的检索具有一定的模糊性,进而降低检索结果的满意度。因此,智能搜索引擎通过对用户需求结果的满意度。因此,智能搜索引擎通过对用户需求进行分析研究,跟踪用户的兴趣爱好,建立用户模型进行分析研究,跟踪用户的兴趣爱好,建立用户模型库,利用用户知识对检索结果进行一定程度上的知识库,利用用户知识对检索结果进行一定程度上的知识提取,完成检索结果的集成。提取,完成检索

16、结果的集成。(3)检索服务的智能化)检索服务的智能化v在检索服务方面,检索质量的提高依赖于对网络用在检索服务方面,检索质量的提高依赖于对网络用户信息需求的分析与挖掘,最基本的在于确定提问词户信息需求的分析与挖掘,最基本的在于确定提问词中隐含的中隐含的“意义范围意义范围”,即词语在不同领域的含义。,即词语在不同领域的含义。只有理解查询词的含义范围,理论上将检索范围缩小只有理解查询词的含义范围,理论上将检索范围缩小到一个适当的相关范围,检索才能精确。同时,试图到一个适当的相关范围,检索才能精确。同时,试图理解用户的意图,并相应地将检索结果分类编排,便理解用户的意图,并相应地将检索结果分类编排,便于

17、用户的选择利用。智能搜索引擎的智能化包括:个于用户的选择利用。智能搜索引擎的智能化包括:个性化服务、主动性、智能辅助、人机接口智能化。性化服务、主动性、智能辅助、人机接口智能化。二、 网络智能搜索引擎的结构原理 (一) 智能搜索引擎总体框架模型及功能v智能搜索引擎模型采用扩展式的客户端智能搜索引擎模型采用扩展式的客户端/服务器服务器结构,包括表示层、应用层和数据层三层应用服结构,包括表示层、应用层和数据层三层应用服务务v图图 智能搜索引擎体系结构智能搜索引擎体系结构v智智 能能 搜搜 索索 模模 块块v信息搜集与处理模信息搜集与处理模块块vInternetInternetv用用 户户 界界 面

18、面v客户客户端端v服务服务器器v表示表示层层v数据层数据层v应用层应用层v用用 户户v模模 型型 库库(1)表示层)表示层v 给用户提供一个友好的人机界面,管理和实给用户提供一个友好的人机界面,管理和实现用户和系统的交互,将用户提交的检索请求传现用户和系统的交互,将用户提交的检索请求传递给应用层和数据层所在的服务器,同时负责接递给应用层和数据层所在的服务器,同时负责接收服务器端的检索结果,并显示给用户。收服务器端的检索结果,并显示给用户。(2)应用层)应用层v 应用层是实现智能搜索的主要应用逻辑,由智能搜应用层是实现智能搜索的主要应用逻辑,由智能搜索模块与用户模型库两部分组成。其智能搜索模块能

19、实现索模块与用户模型库两部分组成。其智能搜索模块能实现对用户搜索的对用户搜索的“代理代理”,“理解理解”用户的提问,主动获取用户的提问,主动获取满足用户需求的信息并推荐给用户。用户模型库能与智能满足用户需求的信息并推荐给用户。用户模型库能与智能搜索模块进行交互,是其功能实现的依据和保障。搜索模块进行交互,是其功能实现的依据和保障。控制控制Agent本本 体体 库库本地信息库本地信息库图图 智能搜索模块智能搜索模块用户用户Agent学习学习Agent搜索搜索Agent处理处理Agent检索检索Agent 智能搜索模块智能搜索模块智能搜索模块由各种智能搜索模块由各种Agent及共享知识库、本体库、

20、信息库构成。及共享知识库、本体库、信息库构成。 用户模型库用户模型库v用户模型库包括用户知识模型和领域知识模型。用户模型库包括用户知识模型和领域知识模型。u 领域知识模型主要包含有关领域知识模型主要包含有关领域的知识领域的知识,可以帮助实,可以帮助实现处理现处理Agent对用户检索提问的预处理;同时领域知识模对用户检索提问的预处理;同时领域知识模型可以存储相关领域的型可以存储相关领域的成功搜索案例成功搜索案例。u 用户知识模型中的信息则是有关系统用户的信息,如用户知识模型中的信息则是有关系统用户的信息,如用户的知识背景、兴趣爱好等个性描述信息。搜索引擎用户的知识背景、兴趣爱好等个性描述信息。搜

21、索引擎通过和用户进行交互操作,对用户的信息进行收集、学通过和用户进行交互操作,对用户的信息进行收集、学习等方式,建立用户的用户知识模型和领域知识模型,习等方式,建立用户的用户知识模型和领域知识模型,并及时发现用户信息的变化以更新用户知识模型,适应并及时发现用户信息的变化以更新用户知识模型,适应用户需求的动态变化。用户需求的动态变化。(3)数据层)数据层v数据层主要由信息搜集与处理模块构成。数据层主要由信息搜集与处理模块构成。v数据层能够实现对数据层能够实现对Internet上的信息的上的信息的“先先”处理,即将处理,即将数据数据“归类归类”,以简化搜索,以简化搜索Agent的搜索过程,并利用兴

22、趣的搜索过程,并利用兴趣库及领域知识库,结合用户的兴趣,以便实现主动推送服务库及领域知识库,结合用户的兴趣,以便实现主动推送服务及专题信息的搜索。及专题信息的搜索。v信息抽取与组织信息抽取与组织v网络爬虫网络爬虫v网站提交网站提交v原始网页数据库原始网页数据库v兴兴 趣趣 库库v领域知识库领域知识库v图图 信息搜集与处理模块信息搜集与处理模块v网网 页页 索索 引引 数数 据据 库库vv新闻新闻v娱乐娱乐v体育体育(二) 智能搜索引擎系统的工作流程(1)用户提交检索请求:用户提交检索请求:用户用户Agent接收用户提交的检接收用户提交的检索请求,对其进行细化,然后把初步处理后的结索请求,对其进

23、行细化,然后把初步处理后的结果交给学习果交给学习Agent。(2)用户模型库的建立或更新:用户模型库的建立或更新:若该用户是初次检索,若该用户是初次检索,则学习则学习Agent通过分析、学习其检索行为建立用户通过分析、学习其检索行为建立用户模型库;若用户不是初次检索,则学习模型库;若用户不是初次检索,则学习Agent根据根据学习到的内容对用户模型库进行更新。学习到的内容对用户模型库进行更新。(3)规范化检索提问:规范化检索提问:v处理处理Agent接收到检索提问后,参照用户模型库中的类似接收到检索提问后,参照用户模型库中的类似成功检索案例,以形成全面有效的检索提问进行检索;若成功检索案例,以形

24、成全面有效的检索提问进行检索;若用户模型库中无类似成功检索案例,则依据本体库中知识用户模型库中无类似成功检索案例,则依据本体库中知识对检索提问进行规范化处理,找出出现该关键字的各个领对检索提问进行规范化处理,找出出现该关键字的各个领域及在该领域下的关键字的含义。域及在该领域下的关键字的含义。v然后处理然后处理Agent将处理后的检索提问返回到用户将处理后的检索提问返回到用户Agent,由用户根据自己需求选择或确认处理后的检索提问,并再由用户根据自己需求选择或确认处理后的检索提问,并再次依序往下传递检索提问。用户也可以设定无需将处理结次依序往下传递检索提问。用户也可以设定无需将处理结果返回,而由

25、系统全权代理。果返回,而由系统全权代理。(4)检索信息:)检索信息:v处理处理Agent先将检索提问传递给检索先将检索提问传递给检索Agent,进行本地,进行本地信息库的就近搜索信息库的就近搜索若找到相关信息则直接将结果返回处理若找到相关信息则直接将结果返回处理Agent,比,比如需求相同的不同用户提出相同检索任务,则后来如需求相同的不同用户提出相同检索任务,则后来用户的检索提问可以用户的检索提问可以“照搬照搬”先前用户的检索结果先前用户的检索结果,即在本地信息库进行搜索,从而提高检索效率。,即在本地信息库进行搜索,从而提高检索效率。若检索若检索Agent在本地信息库没有检索到相关信息,在本地

26、信息库没有检索到相关信息,或者搜索到的信息的相关性低于指定阈值(阈值可或者搜索到的信息的相关性低于指定阈值(阈值可由用户或系统设定),则处理由用户或系统设定),则处理Agent将检索提问传将检索提问传递给搜索递给搜索Agent,搜索,搜索Agent到远端进行搜索。到远端进行搜索。v最后搜索最后搜索Agent将检索结果返回到处理将检索结果返回到处理Agent。(5)检索结果的处理:)检索结果的处理:根据用户的个性化需求,处理根据用户的个性化需求,处理Agent对返回的检索结果进行分析、过滤,并将结对返回的检索结果进行分析、过滤,并将结果推荐给用户。若检索结果来自远端搜索,则处理果推荐给用户。若检

27、索结果来自远端搜索,则处理Agent还要将检索结果存入本地信息库。还要将检索结果存入本地信息库。(6)用户反馈信息的学习:)用户反馈信息的学习:应用层将检索结果提交给用应用层将检索结果提交给用户后,学习户后,学习Agent对用户对用户Agent收集的用户的相关反收集的用户的相关反馈信息进行学习,以存储相关结果,如成功搜索案馈信息进行学习,以存储相关结果,如成功搜索案例,并依据用户的反馈信息进行自学习,完善自身例,并依据用户的反馈信息进行自学习,完善自身功能,如调整由系统设定的相关性阈值等。功能,如调整由系统设定的相关性阈值等。(7)相关信息的主动推荐:)相关信息的主动推荐:根据用户模型库记录的

28、根据用户模型库记录的用户的相关信息,当用户完成一次检索后,按用户的相关信息,当用户完成一次检索后,按照用户设定的推送服务周期,智能搜索引擎能照用户设定的推送服务周期,智能搜索引擎能主动依据用户需求完成(主动依据用户需求完成(1)至()至(6)步信息搜)步信息搜索过程,而其检索提问及检索提问的修改由系索过程,而其检索提问及检索提问的修改由系统自动进行,一旦检索到相关信息,则以一定统自动进行,一旦检索到相关信息,则以一定方式推荐给用户。方式推荐给用户。三、网络智能搜索机理v 智能搜索引擎进行搜索时要构设知识库和用户档案库。智能搜索引擎进行搜索时要构设知识库和用户档案库。 知识库是对信息综合、提取、

29、概括与分析后产生的知知识库是对信息综合、提取、概括与分析后产生的知识集合,它提供智能搜索引擎理解、处理用户提问的资识集合,它提供智能搜索引擎理解、处理用户提问的资源标识。源标识。 用户档案库则用来存储用户注册的基本资料、用户访用户档案库则用来存储用户注册的基本资料、用户访问记录、用户兴趣偏好、用户访问行为等用户信息。问记录、用户兴趣偏好、用户访问行为等用户信息。v智能搜索引擎内部共设有语义理解、指令组织、访问登记、兴智能搜索引擎内部共设有语义理解、指令组织、访问登记、兴趣识别、信息过滤、信息加工、页面定制七大功能模块。在具体趣识别、信息过滤、信息加工、页面定制七大功能模块。在具体的搜索过程中,

30、语义理解模块依据知识库提供的资源标识,对用的搜索过程中,语义理解模块依据知识库提供的资源标识,对用户提问进行分析、推理,然后由指令组织模块发出户提问进行分析、推理,然后由指令组织模块发出Http请求的搜请求的搜索指令,同时由访问登记模块对用户提问、定题需求等进行用户索指令,同时由访问登记模块对用户提问、定题需求等进行用户角色与信息行为登记,将用户的访问记录、兴趣爱好等信息传递角色与信息行为登记,将用户的访问记录、兴趣爱好等信息传递给用户档案库保存起来。一旦产生新的信息资源,智能搜索引擎给用户档案库保存起来。一旦产生新的信息资源,智能搜索引擎便由兴趣识别模块激活,抽取用户的信息需求,进而由指令组

31、织便由兴趣识别模块激活,抽取用户的信息需求,进而由指令组织模块形成推荐推送服务的检索指令。在从网络信息库中搜索到相模块形成推荐推送服务的检索指令。在从网络信息库中搜索到相应的信息数据后,返回给智能搜索引擎的信息过滤和信息加工模应的信息数据后,返回给智能搜索引擎的信息过滤和信息加工模块进行过滤、排序、组织、加工,然后经页面定制模块定制信息块进行过滤、排序、组织、加工,然后经页面定制模块定制信息页面,将检索结果或推送信息提供给用户使用。页面,将检索结果或推送信息提供给用户使用。v 智能搜索引擎以用户需求为先导来进行信息搜集和信智能搜索引擎以用户需求为先导来进行信息搜集和信息加工,根据用户特定的需求

32、以及在一段时期内的偏好为息加工,根据用户特定的需求以及在一段时期内的偏好为衡量标准来筛选信息;用户界面提供友好的自然语言查询,衡量标准来筛选信息;用户界面提供友好的自然语言查询,当用户的查询请求不明确时,系统会利用知识库中的推理当用户的查询请求不明确时,系统会利用知识库中的推理机制推断用户的潜在需求,选择与用户习惯最相近的需求机制推断用户的潜在需求,选择与用户习惯最相近的需求进行检索;检索完成后允许用户对结果进行满意度和相关进行检索;检索完成后允许用户对结果进行满意度和相关度评价,这些评价被传回给知识库,一方面修正用户的兴度评价,这些评价被传回给知识库,一方面修正用户的兴趣加以学习,另一方面完

33、善信息加工和信息相关度匹配的趣加以学习,另一方面完善信息加工和信息相关度匹配的规则,以为下一次检索提供更可靠的保证。规则,以为下一次检索提供更可靠的保证。(1)从字面匹配到概念匹配)从字面匹配到概念匹配 单纯的字面匹配方式容易检索出大量冗余信息、误单纯的字面匹配方式容易检索出大量冗余信息、误导和欺骗用户的信息,或者得不到任何信息。导和欺骗用户的信息,或者得不到任何信息。 智能搜索引擎引入概念匹配的检索方式,对关键词智能搜索引擎引入概念匹配的检索方式,对关键词进行有效控制,可以实现智能检索。进行有效控制,可以实现智能检索。 概念匹配(又叫语义检索、语义交互),是一种建概念匹配(又叫语义检索、语义

34、交互),是一种建立在立在信息的概念相关信息的概念相关关系基础上的检索,它通过建立关系基础上的检索,它通过建立某种语义索引,对用户进行交互式的导航,从而实现某种语义索引,对用户进行交互式的导航,从而实现信息的深度检索。信息的深度检索。v基于概念检索的智能搜索引擎必须建立语义网络的相关知基于概念检索的智能搜索引擎必须建立语义网络的相关知识库,在标引阶段,自动抽取文档中能表达内容的概念,据识库,在标引阶段,自动抽取文档中能表达内容的概念,据知识库标引为相应的概念或分类号;在检索阶段,对用户输知识库标引为相应的概念或分类号;在检索阶段,对用户输入的检索词或提问式进行分析,取出其语义,有效识别用户入的检

35、索词或提问式进行分析,取出其语义,有效识别用户的检索请求和相应概念,帮助用户选用合适的词语表达信息的检索请求和相应概念,帮助用户选用合适的词语表达信息需求,再与标引库进行概念匹配,匹配在语义上相同、相近需求,再与标引库进行概念匹配,匹配在语义上相同、相近或包含的词语,从而检索出用户所需信息。或包含的词语,从而检索出用户所需信息。(2)从提供表层信息到挖掘深层信息)从提供表层信息到挖掘深层信息v 智能搜索引擎使用网络挖掘技术能使用户摆脱表层信息的智能搜索引擎使用网络挖掘技术能使用户摆脱表层信息的干扰,对网络数据作更深层次的分析与挖掘,使信息按内容干扰,对网络数据作更深层次的分析与挖掘,使信息按内

36、容特性聚类,体现一定的知识性。特性聚类,体现一定的知识性。v 网络挖掘不但能从网络的链接关系及组织结构中挖掘知识,网络挖掘不但能从网络的链接关系及组织结构中挖掘知识,还能对用户访问网络时的信息和用户个人信息进行挖掘。正还能对用户访问网络时的信息和用户个人信息进行挖掘。正是是对网络知识和用户知识的深层次分析对网络知识和用户知识的深层次分析,智能搜索引擎才能,智能搜索引擎才能知道用户的需求以为用户提供相关性高、知识性高的信息。知道用户的需求以为用户提供相关性高、知识性高的信息。(3)从满足表层需求到预测用户需求)从满足表层需求到预测用户需求v 索引式搜索引擎通过关键词检索方式满足用户比较明确索引式

37、搜索引擎通过关键词检索方式满足用户比较明确的检索目标,分类目录式搜索引擎则通过帮助用户从分类角的检索目标,分类目录式搜索引擎则通过帮助用户从分类角度查找信息,适用于用户没有明确的目标而只想通过浏览方度查找信息,适用于用户没有明确的目标而只想通过浏览方式了结一定信息的情形。式了结一定信息的情形。v 智能搜索引擎通过与用户交互,获取用户信息,以准确理智能搜索引擎通过与用户交互,获取用户信息,以准确理解关键词的含义和用户的检索目标。解关键词的含义和用户的检索目标。分析分析用户潜在的信息需用户潜在的信息需求,求,预测预测用户的信息需求。用户的信息需求。v智能搜索引擎具有智能搜索引擎具有学习学习能力,能

38、学习其它智能系统,及跟能力,能学习其它智能系统,及跟踪、分析用户信息,在实践中自主更新知识,实现踪、分析用户信息,在实践中自主更新知识,实现“自我知自我知识识”的增长。的增长。(4)从大众化服务到个性化、专业化服务)从大众化服务到个性化、专业化服务v 智能搜索引擎可以为用户提供个性化、专业化的服务,智能搜索引擎可以为用户提供个性化、专业化的服务,方便用户的检索。方便用户的检索。v 能实现信息的智能推拉,使用户可以选择服务方式和资能实现信息的智能推拉,使用户可以选择服务方式和资源,使检索结果更贴近用户需求,从而提高主动服务的能源,使检索结果更贴近用户需求,从而提高主动服务的能力,实现完善的个性化

39、服务。力,实现完善的个性化服务。v 专题性的智能搜索引擎能查询特定学科和主题信息,能专题性的智能搜索引擎能查询特定学科和主题信息,能相对容易地实现文档的分析、处理和面向领域的知识库的相对容易地实现文档的分析、处理和面向领域的知识库的建立,在该领域内向用户提供全面的、高质量的专业化信建立,在该领域内向用户提供全面的、高质量的专业化信息,在满足用户的专业需求的同时,相对满足用户的个性息,在满足用户的专业需求的同时,相对满足用户的个性化需求。化需求。四、网络智能搜索策略v 基于图的广度优先遍历策略基于图的广度优先遍历策略v 基于兴趣的启发式搜索策略基于兴趣的启发式搜索策略v 基于内容相似度的搜索策略

40、基于内容相似度的搜索策略v 基于链接结构评价的搜索策略基于链接结构评价的搜索策略v 基于巩固学习的搜索策略基于巩固学习的搜索策略v 基于基于“语境图语境图”的搜索策略的搜索策略1、基于图的广度优先遍历策略v广度优先遍历是通用搜索引擎常用的搜索策略。在广度优先遍历是通用搜索引擎常用的搜索策略。在通用搜索引擎系统中,搜索通用搜索引擎系统中,搜索Web并获取页面的任务通并获取页面的任务通常由一个常由一个“智能化智能化”的搜索软件完成的。它通常从一的搜索软件完成的。它通常从一个个“种子集种子集”(如用户查询、种子链接或种子页面)(如用户查询、种子链接或种子页面)出发,通过出发,通过HTTP协议请求并下

41、载协议请求并下载Web页面,分析页页面,分析页面并提取链接,然后再以循环迭代的方式访问面并提取链接,然后再以循环迭代的方式访问Web。为了获得较高的为了获得较高的Web覆盖率,通用搜索引擎网络搜索覆盖率,通用搜索引擎网络搜索软件通常采用图的遍历算法搜索软件通常采用图的遍历算法搜索Web。(a)通用搜索引擎的遍历搜索通用搜索引擎的遍历搜索(b)专题搜索引擎搜索某一主题专题搜索引擎搜索某一主题v不同的形状代表拥有不同主题的不同的形状代表拥有不同主题的Web页面页面v实箭头代表结点页面之间的链接,以及搜索此结点页面实箭头代表结点页面之间的链接,以及搜索此结点页面v虚箭头仅代表结点页面之间的链接虚箭头

42、仅代表结点页面之间的链接两类搜索引擎网络搜索顺序比较示意图两类搜索引擎网络搜索顺序比较示意图v在图在图10-4中,搜索引擎搜索时对所有结点进行遍历访问。基于广中,搜索引擎搜索时对所有结点进行遍历访问。基于广度优先的遍历是最简单的一种策略。当使用基于广度优先的策略度优先的遍历是最简单的一种策略。当使用基于广度优先的策略时,搜索引擎只需要按照所遇到的链接的顺序将其加入到一个队时,搜索引擎只需要按照所遇到的链接的顺序将其加入到一个队列中,采用先进先出的顺序采集所有结点信息,由于这种方法没列中,采用先进先出的顺序采集所有结点信息,由于这种方法没有使用任何知识,其性能是非常低的。有使用任何知识,其性能是

43、非常低的。v与通用搜索引擎相对应,图与通用搜索引擎相对应,图10-4(b)显示了专题搜索引擎搜索)显示了专题搜索引擎搜索“O”主题时的搜索结点与顺序。为了寻找到具有相关信息的主题时的搜索结点与顺序。为了寻找到具有相关信息的Web页面,需要判断结点的相关性,并预测、选取合适的搜索路径,页面,需要判断结点的相关性,并预测、选取合适的搜索路径,因此广度优先遍历策略不适合专题搜索引擎。因此广度优先遍历策略不适合专题搜索引擎。2、基于兴趣的启发式搜索策略采用启发式模式进行深度优先的搜索步骤:采用启发式模式进行深度优先的搜索步骤:(1)预先设定一个兴趣阈值)预先设定一个兴趣阈值IT和兴趣基准和兴趣基准IB

44、; (2)计算起始页面)计算起始页面Al的目标相关度的目标相关度IA1作为页面作为页面Al的的兴趣值,并设定当前兴趣值兴趣值,并设定当前兴趣值I=IA1; (3)如果)如果I IT,则继续漫游后续页面,则继续漫游后续页面Bl,否则结束,否则结束漫游过程;漫游过程; (4)漫游)漫游Bl页面,计算页面页面,计算页面Bl的相关度的相关度IB1,令此时的,令此时的兴趣值为兴趣值为I=I+(IB1IB);); (5)如果)如果IIT,则继续漫游后续页面,则继续漫游后续页面Cl,否则返回,否则返回Al,取取I=IA1,开始漫游,开始漫游B2分支;分支;(6)按照上述步骤,直至漫游完)按照上述步骤,直至漫

45、游完Al的全部页面分支。的全部页面分支。这里有两个前提:一是漫游到叶子结点后,将这里有两个前提:一是漫游到叶子结点后,将返回起始页面;二是页面的兴趣值如果小于给返回起始页面;二是页面的兴趣值如果小于给定值,也返回起始页面。定值,也返回起始页面。A1B1B2B3B4C1C2C3D1D2D3D4基于基于兴趣的启发式搜索策略示意图兴趣的启发式搜索策略示意图3、基于内容相似度的搜索策略v 基于内容相似度的搜索策略主要是通过计算计算Web页页面中链接文本与搜索主题之间的相似度来衡量链接价面中链接文本与搜索主题之间的相似度来衡量链接价值的高低,并以此决定其搜索策略。值的高低,并以此决定其搜索策略。 链接文

46、本链接文本是指链接周围的说明文字和链接URLs上的文字信息;搜索主题搜索主题可以用关键词、相关文档等表示。v 基于相似度的计算基于相似度的计算主要有文本与关键词的相似度计算、文本与文本的相似度计算等。基于文本与关键词的相似度计算利用向量空间模型将查询串与文本转化为向量,然后使用布尔模型、词频等来代表特征词的权重,再计算评估文本与关键词之间的相似度。在进行文本与文本的相似度计算过程中,主要使用串距离方法、单词统计方法、文本结构方法与综合计算方法等。v 基于内容相似度的搜索策略基于内容相似度的搜索策略利用语义相似度的高低决定链接的访问顺序。起源于文本检索中对文本相似度的评价,优点是有较好的理论基础

47、且计算简单。但这类方法忽略了链接结构本身的信息,因而在预测链接价值方面存在一些缺陷。4、基于链接结构评价的搜索策略v 基于链接结构评价的搜索策略通过对Web页面之间相互引用关系的分析来确定链接的重要性,进而决定链接访问顺序的方法。vPage-rank和HITS是其中有代表性的两种方法。 Page-rank的基本思想:一个页面被多次引用,即很多页面有指向它的链接,则这个页面很重要;一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面也可能很重要;一个页面的重要性被均匀地分布并传递到它所引用的页面。HITS方法定义了两个重要概念:权威级别和中心级别。权威级别表示一个权威页面被其它页面引用的

48、数量,即该权威页面的入度值,网页被引用的数量越大,则该网页的权威值越大。中心级别表示一个Web页面指向其它页面的数量,即该页面的出度值,网页的出度值越大,其中心值越高。v 基于链接结构评价的搜索策略考虑了链接的结构和页面之间的引用关系,但忽略了页面与主题的相关性,在某些情况下,会出现搜索偏离主题的“主题漂移”问题。另外,搜索过程中需要重复计算Page-rank值或权威值及中心值权重,且计算复杂度随访问页面和链接数量的增长呈指数级增长。5、基于巩固学习的搜索策略v 巩固学习:巩固学习:一个能够感知环境的自治Agent通过学习能选择达到其目标的最优动作。v当Agent在环境中作出每个动作时,施教者

49、会提供奖励或惩罚信息,以表示结果状态的正确与否。Agent的任务是从这个非直接的、有延迟的回报中学习,以便后续的动作产生最大的积累回报。v 在基于巩固学习的搜索策略中,网络程序面对的Web环境代表状态,对链接的访问代表行动。v搜索过程中,经过若干无关页面的访问之后才能获得的主题相关页面称为未来回报(或称远期回报),对未来回报的预测值称为未来回报价值,用Q表示。在巩固学习策略方法的核心就是学习如何计算链接的Q价值。v搜索过程被划分成训练和搜索两个阶段。训练阶段利用巩固学习算法计算每个链接的Q价值,并按价值大小将链接分类,然后用类中链接的文本信息训练一个朴素贝叶斯分类器;在搜索阶段,面对价值未知的

50、链接,则根据链接文本,用所建立的朴素贝叶斯分类器计算链接落在每一类中的概率,并以这个概率为权值计算链接的综合Q价值。v 基于巩固学习的搜索策略,实质上是通过训练学习得到哪些链接文本具有较高的Q价值,反过来,在搜索时又根据链接文本的Q价值估算出链接的价值。因为Q价值反映了对未来回报的预测值,所以,即使当搜索的页面与主题不相关时,搜索程序也可以根据未来回报价值确定正确的搜索方向。v由于目前的巩固学习算法不适于大状态、行动空间的学习,因而基于巩固学习的搜索策略存在学习效率低的问题;此外,由用户选择典型站点进行训练增加了用户的负担。6、 基于“语境图”的搜索策略v基于“语境图(Context Grap

51、h)”的搜索策略通过构建典型页面的Web“语境图”来估计离目标页面的距离,距离较近的页面较早得到访问。该方法分为训练和搜索两个阶段。v训练阶段训练阶段首先选择典型的主题相关页面作为种子集(目标页面的“实例集”),并从种子页面出发,利用某一通用搜索引擎检索出所有指向它们的页面;其次,以得到的新页面作为第一层次集(表示到目标页面的距离为1),并用第一层次集中的页面文本训练一个分类器C1;再次,从第一层次集中的页面出发,按同样的方法得到第二层次集(表示到目标页面的距离为2)和分类器C2;如此重复,直到某个预先指定的层次。v 由此,得到了一个表示种子页面集与周围页面之间层次关由此,得到了一个表示种子页

52、面集与周围页面之间层次关系的系的“语境图语境图”。54v 搜索阶段当下载完一个新的页面时,利用训练阶段得到的分类器判断该页面属于哪个层次集,从而估计出该页面距离目标页面的远近,并优先访问距离目标较近的页面中的链接。五、网络智能搜索引擎实例分析v(1)网络爬行器与本地数据库v几个分布的网络爬行器(Crawler)同时搜取网页,由URL服务器负责向Crawler提供URL列表。Crawler将找寻到的网页送到存储服务器(Store Server)中,存储服务器把这些网页压缩后存入数据库(repository,用于存储每个网页的全部HTML及其他有关信息)中,并赋予每个网页一个关联ID,称为docI

53、D。1、Google的搜索机制的搜索机制(2)索引器和排序器索引器和排序器v索引功能通过索引器(Indexer)和排序器(Sorter)来实现。索引器从知识库中读取文档并将其转换成一组词的出现状况(word occurrences),称为采样(hits)。hits记录了词、词在文档中的位置、字号、大小写等。索引器把这些hits分配到一组桶“barrels”中,产生经过部分排序后的索引。同时,索引器还分析网页中所有的链接,并将重要信息存于链接描述文件(Anchors)中,该文件保存了链接描述文字和其他一些信息,足以判断一个链接被链入或链出的情况。(3) URL分析器分析器v URL分析器(URL

54、 Resolver)阅读链接文件Anchors,把相对的URL转换成绝对的URL,与其docID号对应,形成链接文件的文本索引,Anchor文本与所指向的docID建立关联,产生了由docID对(pairs of docID)所组成的链接数据库,用于计算网页的PageRank值。(4)搜索搜索v 排 序 器 读 取 桶 中 的 词 汇 , 并 根 据 词 的 I D 号(wordID)列表重新生成倒排文档。DumpLexicon程序则把以上形成的索引列表和由索引器产生的词表结合,形成一个新的字典供搜索器(Searcher)使用。搜索器由Web服务器实现,并根据DumpLexicon所生成的词表

55、,结合上述倒排索引及页面等级来匹配用户的查询。2、 Google的智能行为分析(1)检索技术的智能化)检索技术的智能化v 网页采集技术网页采集技术分布式爬行系统分布式爬行系统v为了获取上亿网页,为了获取上亿网页,Google设计了一种分布式爬行器设计了一种分布式爬行器(Crawler)系统,由系统中的漫游遍历器()系统,由系统中的漫游遍历器(Googlebot)定期地(通常是定期地(通常是28天)按预先设定的天)按预先设定的IP地址范围遍历对地址范围遍历对应网页,若网页发生变化或者发现新的网页,则获取此应网页,若网页发生变化或者发现新的网页,则获取此网页传回服务器,然后继续沿网络遍历,直至访问

56、完所网页传回服务器,然后继续沿网络遍历,直至访问完所有链接。为了保证爬行器遍历信息的广度,有链接。为了保证爬行器遍历信息的广度,Google事先事先设定了一些重要的链接。设定了一些重要的链接。vGoogle可同时运行三个爬行器,当服务器将可同时运行三个爬行器,当服务器将URL列列表提供给爬行器后,每个爬行器同时保持与大约表提供给爬行器后,每个爬行器同时保持与大约300个个网络连接。最高速度时,网络连接。最高速度时,Google每秒钟通过爬行器获每秒钟通过爬行器获取的网页可超过取的网页可超过100个。影响爬行速度的一个重要因素个。影响爬行速度的一个重要因素是是DNS查询,为此,每个爬行器需要一个

57、维护自己的查询,为此,每个爬行器需要一个维护自己的DNS缓冲。这样每个链接都处于不同的状态,包括:缓冲。这样每个链接都处于不同的状态,包括:DNS查询、连接主机、发送请求、得到响应。该分布查询、连接主机、发送请求、得到响应。该分布式爬行系统通过异步输入式爬行系统通过异步输入/输出来管理事件,通过一定输出来管理事件,通过一定数量的队列来管理获取网页过程中的状态迁移。数量的队列来管理获取网页过程中的状态迁移。v 机器翻译技术机器翻译技术网页翻译功能网页翻译功能vGoogle应用计算机翻译技术,支持多种语言检索,应用计算机翻译技术,支持多种语言检索,在操作界面中提供多达在操作界面中提供多达15种语言

58、选择,包括英语、种语言选择,包括英语、主要欧洲国家语言、日语、中文简繁体、韩语等,主要欧洲国家语言、日语、中文简繁体、韩语等,同时还可以用同时还可以用10种东欧语言进行查询,打破了语言种东欧语言进行查询,打破了语言上的障碍。上的障碍。v 检索对象的多样性检索对象的多样性v Google提供网页(提供网页(Web)、图像()、图像(Images)、新闻群组即讨论)、新闻群组即讨论区(区(Groups)和网页目录()和网页目录(Directory)的检索服务,以及购物搜)的检索服务,以及购物搜索、在线答疑、书目搜索、大学院校搜索等特别主题搜索,以便索、在线答疑、书目搜索、大学院校搜索等特别主题搜索

59、,以便从不同的检索途径尽可能地满足不同需求的用户。从不同的检索途径尽可能地满足不同需求的用户。vGoogle还提供特定文件搜索功能,除还提供特定文件搜索功能,除HTML页面外,搜索结果页面外,搜索结果中还包括以中还包括以PDF、DOC等为后缀名的等为后缀名的12种文档。同时,种文档。同时,Google提提供供“View as HTML”(用(用HTML格式浏览)功能,以便未安装格式浏览)功能,以便未安装相应文档格式软件的用户也可查看。相应文档格式软件的用户也可查看。v 中文简繁体转换技术中文简繁体转换技术v Google采用采用Basis Technology的中文简繁体转换技的中文简繁体转换

60、技术,可以实现汉字简繁字体的自动转换,从而使用户术,可以实现汉字简繁字体的自动转换,从而使用户找到更多相关信息。该系统不是简单的字符变换,而找到更多相关信息。该系统不是简单的字符变换,而是简体和繁体文本之间的是简体和繁体文本之间的“翻译翻译”转换。当用户检索转换。当用户检索所有中文网页时,所有中文网页时,Google先对检索式进行简繁转换后,先对检索式进行简繁转换后,同时检索简体和繁体网页,并将检索结果的标题和摘同时检索简体和繁体网页,并将检索结果的标题和摘要转换成和检索式相同类型的文本,便于用户阅读。要转换成和检索式相同类型的文本,便于用户阅读。(2)检索结果处理的智能化)检索结果处理的智能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论