版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文本处理与信息检索第二讲文本处理与信息检索共59页,您现在浏览的是第1页!非传统的IR方法传统IR检索模型的缺陷1、单个单词不包含用语言编码的所有信息2、一个单词可能有多种含义,即一词多义3、大量的单词可能具有相似的含义,即多词一义4、词组的含义往往超过其中的单词含义的总和5、对词组的检索出现冗余信息6、查询还是基于关键字,不能对句子进行分析查询7、不能实现跨语言检索文本处理与信息检索共59页,您现在浏览的是第2页!改善IR性能的方法将NLP(自然语言处理)技术运用于IR中使用领域知识改善IR性能文本处理与信息检索共59页,您现在浏览的是第3页!基于自然语言处理的智能搜索引擎体系结构框图自然语言处理器知识库用户接口概念提取文档处理查询扩展个性化处理自动文摘web网页下载索引模块索引数据库检索模块查询修正初始查询检索结果按权排序反馈查询S+S-文本处理与信息检索共59页,您现在浏览的是第4页!概念提取利用设定程序对用户输入的查询语句进行自动分词,并经过句法及语义分析,去掉无用的虚词,获得能正确表达查询句意思的概念性词或词组、短语,并以此作为查询的基本输入概念到检索数据库进行检索。概念提取的关键是要有一套完美的语义分析系统文本处理与信息检索共59页,您现在浏览的是第5页!查询扩展查询扩展将用户输入的原始查询请求经过概念提取后,自动地根据概念集Q中的内容,去查询同义词典,加入新的概念。扩展的概念由Q中各概念的同义词组成,即最终的查询请求是由Q中各概念的同义词组成。Q={t1,t2,…tn}经查询扩展以后为U={T(t1),T(t2),…,T(tn)},其中T(ti)是同义词典中与ti有相同语义码的概念集。将U加上频数可得U’={(T(t1),f(q,t1)),(T(t2),f(q,t2)),…,(T(tn),f(q,tn))}文本处理与信息检索共59页,您现在浏览的是第6页!U+=={T(t1),T(t2),…,T(tn)}
其中M表示用户的总计查询次数对中概念的权值设一阀值函数f(q,M),给中的概念实行剪枝(a为调解系数)
与对应的概念集记为U+(M)将此结果送到索引模块建立查询向量文本处理与信息检索共59页,您现在浏览的是第7页!自动文摘自动文摘是检索时返回文档的简要概述,是语言理解和语言生成的结合。理解,就是对文档中的每一个语句进行句法、语义分析,对全文作篇章分析,然后确定文章的主要意思;生成,则是要选择恰当的词汇和句法方式来表达这个意思。这对自然语言的要求很高,实现较为困难目前生成的文摘大多是摘录性的,即把全文中能表达文章主要意思的句子挑选出来,合在一起作为文摘文本处理与信息检索共59页,您现在浏览的是第8页!使用域知识改善IR性能在一个基于知识的IR模型中,针对一个域的信息,称为域知识,它用于把概念、事件和概念与事件之间的相互关系模型化例如,对于题目“多媒体信息检索”,条目“多媒体”、“音频”、“视频”、“图像”、“信息”、“索引”和“检索”都与该题目有关。若用属于该题目的不同权重值的条目构建一个完整的关系树(书上有误),则含有一个或多个这些条目的文档将具有不同的组合权重或与题目有关的相似度。可根据这些相似度进行检索文本处理与信息检索共59页,您现在浏览的是第9页!查全率:测量的是从数据库中检索相关信息项的能力查全率=检索到的相关项的数量/数据库中相关项目的总数精确度:测量的是检索的准确性精确度=检索到的相关项的数量/检索项总数文本处理与信息检索共59页,您现在浏览的是第10页!返回的项目数查全率精确度11/101/122/102/232/102/342/101/253/103/564/104/674/104/784/104/8返回的项目数查全率精确度95/105/9105/105/10116/106/11127/107/12137/107/13147/107/14158/108/15文本处理与信息检索共59页,您现在浏览的是第11页!不同的IR技术之间的性能比较以下的研究成果可以直接应用于比较不同的IR技术之间的性能:自动索引和人工索引一样好,但是如果使用自动索引和人工索引相结合的方法,性能会更好当使用相似的查询时,部分匹配技术的检索性能比精确匹配技术要好(布尔模型)概率模型和向量空间模型具有相似的检索性能基于集群的检索技术和概率模型具有相似的检索性能,但是它们却检索不同的文档。文本处理与信息检索共59页,您现在浏览的是第12页!WWW搜索引擎WWW(worldwideweb)是分布在全世界的相互连接的文档集合,搜索引擎就是一种从中检索相关文档的工具。为进一步了解,我们先介绍两个概念:超文本超媒体文本处理与信息检索共59页,您现在浏览的是第13页!超媒体超媒体是超文本的一种扩展,因为它的锚和节点可以是图形、图像、音频、视频以及文本等任何一种媒体。在超媒体中,用户只需选择锚,则相关的节点就会出现,节点的位置对用户是透明的。但如果用户所选择节点的网络很慢或很忙,则用户会发现调出该节点所需时间比节点存储在本地所需要的时间要长,因而也可以说节点的位置对于用户来说是不完全透明的。文本处理与信息检索共59页,您现在浏览的是第14页!WWW的含义术语有两种含义包括HTTP和HTML等概念和协议的集合一个数字化的信息空间
HTML(超文本标记语言)是把文档以一种标准的方式进行构建以便客户机正确地解释和显示文档。HTTP(超文本传输协议)是建立在TCP/IP协议上的一种可靠协议,实现了客户机与服务器之间的通信。文本处理与信息检索共59页,您现在浏览的是第15页!资源发现的关键:指定文档位置在Internet上,文档的位置是通过使用统一的资源定位器(URL)来制定的URL的一般格式:协议://服务器名:[:端口]/文档名称URL包括三个部分:用于访问文档的Internet协议确定文档服务器的名称要检索文档的文件名文本处理与信息检索共59页,您现在浏览的是第16页!FTP协议FTP(FileTransferProtocol):文件传输协议,是用来在不同的计算机之间传输文件的一种协议。FTP使得不同电脑类型和不同操作系统间都可以相互拷贝文件,把电脑中的文件系统映射成一个FTP根下的目录树,使得其他的计算机用户可以浏览和抓取文本处理与信息检索共59页,您现在浏览的是第17页!Telnet协议Telnet协议是一个远程登录协议,它提供了在Internet上异构网之间传递数据和控制信息的重要方法,允许一台机器中的程序像访问本地服务器那样访问远程另一台主机中的资源。文本处理与信息检索共59页,您现在浏览的是第18页!URL第三部分:要检索文档的文件名文件名必须是完整的,包括全部路径名例如:..au/gindex.html;.au/internet/readme.txt个URL是指使用HTTP可访问的服务器..au的缺省目录内称为gindex.html的文档。第二个URL是指使用FTP可访问的服务器.au上的目录为:“/pub/internet”内的称为readme.txt的文件。文本处理与信息检索共59页,您现在浏览的是第19页!组织/浏览组织是指决定如何把信息关联起来的人的指导过程,通常通过把文档放入某种分级结构中来实现。例如,Internet上的文档可以根据它们的主题领域分类。一个主题领域可包括多个级别的子领域。浏览是指探索资源空间的组织和内容或根据链接或URL查看其中的内容的相应的人所指导的活动。浏览是信息发现的一个缓慢的过程,它特别依赖于信息组织的质量。文本处理与信息检索共59页,您现在浏览的是第20页!结论浏览和搜索都可用于信息发现。用户首先必须进行浏览以便找到合适的搜索引擎来供自己使用,然后他向服务器发布一个查询。对应于每个查询也许会返回许多文档。这些文档通常是根据查询和文档之间的相似性进行排序的,用户必须通过浏览判定哪个文档有用。Internet上的资源发现是IR的一个扩展例子。在这种情况下,文档分布在Internet上的许多服务器上,使得信息组织、索引和检索更具有挑战性。文本处理与信息检索共59页,您现在浏览的是第21页!搜索引擎的发展历程搜索引擎已成为我们在网上查找信息的基本工具,从搜索引擎的研制发展过程来看,可以大致分为以下三个阶段:阶段,以Yahoo、AltaVista、Excite、Infoseek等搜索引擎为代表,各搜索引擎的开发力求在数据库覆盖范围、检索响应时间、检索结果反馈、用户界面友好等方面有所突破第二阶段,以Metacrawler、Savysearch等集成的搜索引擎为代表,主要目的是综合各种搜索引擎的长处,尽量减少用户的检索过程,提高检索效率。第三阶段,智能化的搜索引擎,这代表着搜索引擎的发展方向。文本处理与信息检索共59页,您现在浏览的是第22页!搜索引擎的结构一个搜索引擎通常由下面四个部分组成搜索器(信息采集器)索引器检索器(搜索引擎软件)用户界面文本处理与信息检索共59页,您现在浏览的是第23页!索引器索引器的功能是自动理解和分析搜索器所搜索的Web信息,从中抽取能够表达所搜索到的网页内容特征的关键字作为索引项,用于表示文档(网页)以及生成文档库的索引表,索引表一般使用某种形式的倒排表,即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系。文本处理与信息检索共59页,您现在浏览的是第24页!用户接口用户接口的作用是输入用户查询,显示查询结果,提供用户相关反馈机制,主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时地信息。用户输入接口可分为简单接口和复杂接口。简单接口只提供用户输入查询字符串的文本框,复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非)、相近关系、域名范围(如.edu、.)、出现位置(如标题、内容)、信息时间、长度等文本处理与信息检索共59页,您现在浏览的是第25页!搜索引擎性能评价标准数据库规模和内容索引方法检索功能检索结果用户界面其他查准率(精确度)响应时间具体请参阅《网络信息检索现状和性能评价》。不同的评价标准请参阅《网络信息检索工具性能分析方法研究》。文本处理与信息检索共59页,您现在浏览的是第26页!Google工作机理Google使用高速的分布式爬行器系统中的漫游遍历器定时地遍历网页,将遍历到的网页送到存储服务器中。存储服务器将这些网页进行无损压缩处理后存入数据库Repository中,Repository获得了每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长度,URL,URL长度和网页内容,并赋予每个网页一个文档号(docID),以便当系统出现故障时,可以及时完整的进行网页的数据恢复。这两步完成了信息采集子系统的任务。文本处理与信息检索共59页,您现在浏览的是第27页!索引器除了对网页中有意义的词进行分析外,还分析网页的所有超文本链接,将其锚文本,URL指向等关键信息存入到锚文档库中。索引器生成一个索引词表,它包括两个部分:关键词的列表和指针列表,用于与倒排档文件(倒置的索引文件)相连接索引器还将分析过的网页编排成一个与Repository相连接的文档索引,并记录下网页的URL和标题,以便可以准确查找出在Repository中存储的原网页内容。而且把没有分析的网页传给URL服务器,以便在下一次工作流程中进行索引分析文本处理与信息检索共59页,您现在浏览的是第28页!排序器对数据桶的顺排档索引重新进行排序,生成以关键词为索引的倒排档索引将生成的倒排档索引与先前由索引器产生的索引词表相连接生成一个新的索引词表供搜索器使用。搜索器的功能是由网页服务器实现的,根据新产生的索引词表结合上述的文档索引和link数据库计算网页的pageRank值来匹配检索上面这部分实现了信息分析子系统的功能文本处理与信息检索共59页,您现在浏览的是第29页!Web爬行程序Google上所用的蜘蛛程序,即web爬行程序主要负责访问各种站点。运行蜘蛛程序时,只要提供少量的起始页码,蜘蛛程序除了会将网络上的信息读回以外,还将沿着网页上的超文本链接,自动访问网页链接的其他网页,直至遍历整个网站。文本处理与信息检索共59页,您现在浏览的是第30页!搜索在GoogleWeb服务器收到用户的查询时,就把它传递给搜索器。搜索器对查询进行分析并把它转换成单词标识符(关键字)。搜索器通常是一个计算机程序,日夜不停的运行,它要尽可能多,尽可能快的搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜索过的旧信息,以避免死链接和无效链接。文本处理与信息检索共59页,您现在浏览的是第31页!知识库有类似于人类的背景知识和相应的推理规则组成词法及句法知识语义及语用知识常识语料库词典数据库禁用词表反向词汇统计表文本处理与信息检索共59页,您现在浏览的是第32页!经过概念提取后,用户输入被处理成一系列独立的词和短语的集合,在此统称为概念,取其不同的概念构成概念集Q,并且概念间是“and”关系。Q={t1,t2,…,ti,…,tn}如果计上它们的频数则变为:Q’(q)={(t1,f(q,t1)),(t2,f(q,t2)),…,(tn,f(q,tn))}其中f(q,ti)表示查询语句被处理概念ti的相应频数文本处理与信息检索共59页,您现在浏览的是第33页!个性化处理该模块长期侦测用户的输入,评估用户的兴趣,对用户的多次输入进行加权处理后再去检索模块,每隔一段时间将检索结果中相似度最高的几个文档发送给用户。不断地从查询扩展模块中获得经处理后的用户查询信息U和U’的值,对概念集取(这里的概念集取指将概念扩展为具有相同语义码的概念集)并运算,相应的权值取和,即文本处理与信息检索共59页,您现在浏览的是第34页!文档处理文档处理既是将文本文档处理为相应的文档表示例如我们用向量空间检索模型来表示文档DiDi=((t1,s1),(t2,s2),…,(tn,sn))
其中si是概念ti在文档Di中出现的频数。
文本处理与信息检索共59页,您现在浏览的是第35页!总结该模型使用了概念提取模块将用户的查询输入进行处理、提炼,去除无用的成分,形成一个能准确表达用户查询的简洁的概念集Q。利用查询扩展模块扩展概念集Q得到Q中各概念的同义概念集Q’,并以此作为查询概念,用以提高引擎的查全率。个性化处理用以监测用户的兴趣,自动反馈用户信息,反馈的信息是用户感兴趣的信息。自动文摘显示的是文档中权重最高的几个概念,这样更能反映文档的内容。经过自然语言处理器处理过的最终查询请求是一系列概念集组成的集合。文本处理与信息检索共59页,您现在浏览的是第36页!信息检索性能度量度量信息检索性能的三个参数:检索速度:决定检索效率查全率用来测量一个检索系统的效能精确度文本处理与信息检索共59页,您现在浏览的是第37页!例子假定一个数据库总共有1000个信息项,其中10个信息项是与一个具体的查询有关。为响应查询,系统返回下列列表:R,R,I,I,R,R,I,I,R,I,R,R,I,I,R其中R代表用户判定为与查询相关的项,I代表用户判定为不相关的项,计算返回不同数量的项目时的查全率及精确度,经计算后结果为下面的表格文本处理与信息检索共59页,您现在浏览的是第38页!从上例可以看出:返回的项目越多,查全率越高,同时精确度越低结论:具有高查全率且同时具有低精确度的系统意味着系统将返回一个长的项目列表;具有高精确度但低查全率的系统意味着许多与查询有关的项目没有被检索到比较两个信息系统之间性能的技术:用0-1范围内的查全率值确定其对应的精确度值,并画出每个系统的查全率——精确度图。在该图中,远离原点的系统具有更高的性能。文本处理与信息检索共59页,您现在浏览的是第39页!假设所有相关的文档在次检索时都没有找到,使用相关反馈的方法会改善检索性能。在查询表述和相关反馈过程中,多用户输入比没有或有限的用户输入产生更高的检索性能使用域知识和用户配置文件将极大地改善检索性能文本处理与信息检索共59页,您现在浏览的是第40页!超文本超文本是把允许无序访问的信息组合在一起的一种方式。超文本文档是由大量节点和链接组成。一个节点代表一个单一的概念或思想,它是信息的一个容器。链接是把相关节点连接起来。在节点内容内说明链接存在的区域称为锚。锚通常用一个具体的方式突出显示(如下划线或彩色阴影)或由一个具体符号表示。选择一个锚将激活该链接,同时将带出目的节点。超文本是一种信息管理方法,其中数据存放在由计算机支持的链接所连接的网络节点中。文本处理与信息检索共59页,您现在浏览的是第41页!WWW的体系结构是超媒体和Internet的集成,其体系结构如下:客户机服务器应用程序文本处理与信息检索共59页,您现在浏览的是第42页!资源发现资源发现是指发现和检索Internet上信息的过程。其中包括三个问题:如何知道所需的信息在Internet上是否存在如果存在的话,如何知道文档所处的位置如何检索这些文档解决这些问题的关键是:如何指定文档在上以及常见的Internet上的位置发现和检索Internet上的文档的方法文本处理与信息检索共59页,您现在浏览的是第43页!URL部分:用于访问文档的Internet协议可使用的协议包括:FTP协议HTTP协议Gopher协议Telnet协议文本处理与信息检索共59页,您现在浏览的是第44页!Gopher协议Gohper是一种分布式文档信息服务,可以让用户访问在物理上位于各处的数据,并以一致的层次式类文件系统界面提供给用户。Gopher采用客户-服务器模式,客户端的软件将用户的请求发送给服务器,并从服务器得到响应数据,然后再以一定的方式重现给用户。服务器提供的文件可以是服务器本地的,也可以指向其他的Gopher服务器。文本处理与信息检索共59页,您现在浏览的是第45页!URL第二部分:确定文档服务器的名称例子:..au其含义为服务器名为.gscit,它在“au”(澳大利亚)的“edu”(教育部门)的“Monash”(Monash大学)的“fcit”(计算机信息技术系)的域内。每个服务器名称都有与之对应的IP地址,所以如果IP地址已知,可直接使用它而不是机器名称字符串。文本处理与信息检索共59页,您现在浏览的是第46页!资源发现的第二关键:发现和检索文档发现和检索Internet上的文档的两种方法:组织/浏览搜索文本处理与信息检索共59页,您现在浏览的是第47页!搜索搜索是用户提供正在寻找的资源的某些描述的过程,同时发现系统中与描述相匹配的信息。搜索比浏览更为有效,但是它依赖于“信息已经被索引”这一假设。文本处理与信息检索共59页,您现在浏览的是第48页!WWW搜索引擎定义:搜索引擎是指以人工或网络机器人软件的方法采集、标引Web资源和其他类型的网络资源,并将索引信息内容存储于大型数据库中,以Web网站的方式提供给网络用户查询的信息服务系统。文本处理与信息检索共59页,您现在浏览的是第49页!搜索引擎的分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类目录式搜索引擎机器人搜索引擎元搜索引擎文本处理与信息检索共59页,您现在浏览的是第50页!搜索器搜索器通常也称为Spider、Robot、Crawler或Worm等,其实质是一种计算机程序,按照某种策略自动地在互联网中搜集和发现Web信息。目前主要有两种搜索信息的策略:从一个起始URL集合开始,顺着这些URL中的链接,以宽度优先、深度优先或启发式等循环地在互联网中发现新的信息。这些起始URL可以是任意的,也可以是一些非常流行、包含很多链接的站点。将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。搜索器通常采用分布式或并行计算技术,以提高信息发现和更新的速度。文本处理与信息检索共59页,您现在浏览的是第51页!检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户关系反馈机制。不同的搜索引擎使用不同相似性度量,但它们都使用条目频率和条目位置。文本处理与信息检索共59页,您现在浏览的是第52页!搜索引擎与IR系统的主要区别WWW文档是分布在Internet上的,而IR系统的文档是集中定位的。WWW文档的数量比IR系统的文档数量要大的多。WWW文档是用HTML语言进行构建的,它是结构化的,而IR系统的文档通常是普通文本。WWW文档比IR系统的文档更具有动态性和异构性。WWW搜索引擎比IR系统的用户更多,使用更频繁文本处理与信息检索共59页,您现在浏览的是第53页!实例:Google搜索引擎Google的体系结构如图所示:信息源信息采集系统信息分析索引子系统检索子系统管理维护子系统浏览器通过蜘蛛程序抓取制定信息将信息采集系统索到的网页数据进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国机冰市场调查研究报告
- 2024年中国无毛刺割管机市场调查研究报告
- 2024年中国弹簧复位按钮市场调查研究报告
- 2024年中国乳胶广告气球市场调查研究报告
- 2024年中国900兆对讲机市场调查研究报告
- 斯尔课程设计
- 山东理工职业学院《函数式程序设计》2023-2024学年第一学期期末试卷
- 山东理工大学《幼儿教师职业道德》2023-2024学年第一学期期末试卷
- 山东科技职业学院《工程控制基础》2023-2024学年第一学期期末试卷
- 山东科技大学《现代营销前沿》2023-2024学年第一学期期末试卷
- 2024考研英语二试题及答案解析(word版)
- 企业员工年龄分析报告
- 新时代开放大学教育教学改革的趋势与方向
- 【年产6000万包方便面的生产工艺与布局设计9900字】
- 《研究方法论》课件
- 专题08 非连续性文本阅读(原卷版)-备战2023-2024学年九年级语文上学期期中真题分类汇编(福建专用)
- 眼科护士个人年终工作总结和计划
- 《 农业(第1课时)》示范课教学设计【湘教版八年级地理上册】
- 基于杜邦分析法体系下营运能力分析-以海底捞食品股份有限公司为例
- 出院当日结算方案
- 古代汉语期末考试试题及答案
评论
0/150
提交评论