文本信息检索技术

上传人：y*** IP属地：天津上传时间：2021-03-01 格式：DOCX 页数：7 大小：65.72KB 积分：15 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、期末课程论文论文标题:基于文本信息检索技术课程名称:信息检索技术课程编号:1220500学生姓名:学生学号:所在学院:计算机科学与工程学院学习专业:计算机科学与技术课程教师:2013年7月4日文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面，因此成为 Interact 上信息组织、存储与发布的主要方式之一。但是，由于文本是一种非结构化文档，一般仅适合于信息的浏览和导航，而无法像数据库那样实现基于主题、关键词、内容等的信息检索。其次，一张主页至少对应一个以上的文件，当信息规模较大时，不仅文件数量巨大，而且文件间存在的错综复杂的链接关系也难以维护在数字化图书馆、

2、多媒体课件资源以及ICP(Intemet ContentPmvider) 网站构造等应用中，这种情况尤为突出因此，如何实现超文档的规范化管理，并提供基于主题和全文的检索功能，已经成为数字图书馆、多媒体远程教育中课件资源管理以及ICP服务的一个重要问题。目前，实现文本信息的全文检索，一般有以下两种解决途径：采用Wet服务器自带的索引服务器,如Microsoft IIS 自带的Index Server ，这种方法只能实现字符串匹配查询，无法实现按主题查询，效率低下，无法跨平台，也无移植性；通过将非结构化的文本文件集转换成结构化数据库，并对数据库中文本记录的特征字段进行标引。形成完整的文本数据库在此

3、基础上开发相应的基于web的检索引擎，实现对超文本查询的目的。本文在分析文本信息检索功能需求的基础上，提出了一种将非结构化的超文本转换为结构化数据库的模型，并且提出了一种支持文本信息全文检索的解决方案，在数字图书馆系统和多媒体远程教育系统的课件资源管理与检索中得到了实际应用和验证。功能需求与模型般地 , 对于一个规模较大的超文本信息群，应向用户提供以下检索功能。(1) 信息分类 . 通过对信息进行分级、分类组织，或查询界定检索范围 . 对于范围过大的信息群，有必要采用二级甚至多级分类，使用户在进行具体检为用户提供信息源选择的功能，以便为用户导航索前通过逐级选择信息类别达到缩小检索范围的目

4、的。(2) 组合条件 . 为用户提供不同源信息的组合检等栏目，提出综合检索要求。索，例如用户可以根据主题、作者、关键词、日期(3) 全文检索 . 根据用户设定的条件，在全文范围内进行检索 , 并可按照检索词的特定指标评价检索匹配度 , 并实现检索结果的全文显示。(4) 逐级检索 . 在信息检索中，首次检索可能因裔要在此基础上进行二次或多次检索，而每次检索为条件不够精确而导致检索结果信息量过大，用户都是以上次结果作为本次检索范围，以逐步缩小信息量. 逐级检索技术对于用户而言，还具有启发作用，根据每次得到的中间结果 . 适时调整检索方向，达到逐步求精检索目标的目的。(5) 结果处理 . 对于

5、最终获得的检索结果，除了印等功能。提供显示功能外，还应提供保存、 Email 转发、打为了满足以上需求，需要解决以下两个问题 : 一是如何将非结构化的超文本信息集转换成结构化的据库; 二是在结构化转换的基础上如何实现全文检索。首先，将超文本文件集转换成超文本数据库，除了要满足无损性、可还原性等要求外 4 ，为了实现超文本数据库的有效管理，并且支持超文本信息查询，还应该具备以下功能。(1) 特征标引 .允许工作人员对转换后的超文本记录进行特征标引，如关键词、主题词、摘要、作者、信息.的超文本是否和其他记录对应的超文本相关联。如存在关联,则给出瞢告，如果确认刪除，则由系统自动

6、更新期等。因为这些信息都是 We用户查询所需要的，但转换程序无法从超文本文件中直接获取这些(2) 安全刪除与替换.当刪除(或替换)超文本数据库中的一条记录时，系统将自动判断该记录对应与此超文本相关的链接。人员(3) 链接关系查看.以树状或网状形式反映出某一超文本和其他超文本文件之间的链接关系，工作可以一览全局。由此，可以得到如图1所示的超文本结构化转换与全文检索的实现模型。超文本检索引擎的原理为了有效说明超文本检索引擎的实现原理，先对超文本检索问题进行形式化描述.超文本信息集可以用有向图H=(N, E)表示，其中N为超文本结点集，即 HTM文件集，E表示结点间的链接关系，又n = | N

7、丨| ,进一步定义以下术语及符号。(1) 超文本文件地址：U i =URT(HTMLi )(2) 超文本地址集U: U =所有HTM文件对应的地址= U U G Ui获得网页HTM文件的操作.表示为(3)超文本获取操作W: web浏览器根据地址(4)链接关系L( Pj ):对于任意结点P N, (P 丿=( Pi , Pi,1 )，( Pi , P i,2 Pj k的超链接。Pj可能存在若干指向其他结点的链接，?，( Pi， P i,k)式中：(Pi，P i,kPi = w(Ui)设为L ( Pj)，则L )表示存在从 p,指向(5)链接关系集L(N):表示整个超文本信息集中的链接关系集合,n

8、L( N ) = U L( p.)由此，可以将超文i本信息集进一步表示成为H =(N, L(N)理文本IVHTWL文件标记/维护I一L超文本 1! I歎据庠第引敖据库图1超文本结构化转换与全文检索的实现措词提取操作I ( Pj )：表示从 P 对应的HTM文件中提取其中有关检索的措词，如主题词、关键字、题名、作者甚至正文等信息，记作I(p i)ti,1,ti,2,，tJ ,式中t,1,ti,2,.ti,k表示主页Pi的措词n 措词集T：表示超文本信息集H的所有措词的集合，表示为 T=Ul( pj措诃关联：VT ，若3p ,且t( pj),则表示措词t与网页pj,相关.即用户以措词j-t检索时

9、，网页 Pj将是检索结果之一。设集合P=HTMI文件, E表示超文本链接关系集，U=HTM文件对应的HTML,则U忘U ,命忘P，且P = W (U )式中W表示浏览器使用UR地址U “获取Web服务器上的网页文件 P的操作超文本检索引擎是指对于用户提交的查询条件，能够根据某种匹配规则，自动检索出与条件要求相吻合的所有超文本文件，并且将检索结果返回给用户。一般地，在超文本信息集中，有多个网页P* P2,，Pk和措词t相关联，记s(t) =| pj, p2,., pJ式中：S(t)表示以措词t检索超文本信息集的结果；I 表示措词获取函数的逆函数，即检索函数超文本检索引擎是在对超文本信息集H进

10、行链接关系分析和措词提取的基础上.通过以下操作实现的s(t) =wlI(t)，I(t)p, p2,，pZ , W(t)=Ui，U2,，UiJ即当Wei用户通过浏览器给出措词t(即设定条件)，检索引擎将根据匹配规则从超文本信息集中检索出所有与之吻合的网页，同时获取这些网页的地址。超文本检索的实现(1)网页措词提取通过机器人程序定期自动遍历指定的In ternet站点.以获取相关的 We页面，并存储于本地机器中.再通过“超文本结构化分析与转换程序”建立超文本数据库，并从超文本中获取各种措词,存人数据库，作为超文本数据库的检索信息.其实现过程如图家引2所示芒文+*敬据率图2超文本收集与结构化转化流程

11、(2) 查询条件的构造.由系统根据特征信息生成查询条件的结构框架，用户键人相应的措词.由系统自动生成查询条件(如SQ1语句)提交给超文本检索引擎。3种.设用户对措词C提出检(3) 匹配规则或检索算法一般地匹配包括精确匹配、模糊匹配和智能匹配索条件p,措词C的值域为q1,q2,.,q/，则精确匹配成功可表示为s, 3q Qj使得pqj,Qp JqiZQ.q/，表而模糊匹配成功则可表示为 0p,Qj,使得P匸qj，智能匹配是指利用语义关联等方法，对用户的一个检索条件，能检索出多个与措词近义的信息.其形式化描述如下：设示所有与措词P相近的措词集 QpQ，则智能匹配成功可 vp, 3qj.Qp，使

12、得p-qjj(4) 查询结果的生成与处理.将查询结果以列表或报告的形式显示，并向用户提供电子邮件转发、打印、保存等功。(5) 逐级查询与结果复用.web检索是基于httP协议，但该协议的无记忆性使得We因艮务器无法区分两次检索请求之间的相互关系，同一用户的逐级检索请求被看成没有联系的两次请求在一段时间内记录用户的会话过程，根据用户的特征信息为用户建立单独的存储空间，存放两次检索的中间结果。对于用户k提交的特定检索请求，检索引擎将进行以下处理（1）对于新检索请求，从信息全集空间内检索出结果，返回给用户，同时建立该用户本次检索的临时空间。对于逐级检索请求，将检索目标指引到对应的临时空间内，在缩小

13、的空间内检索，结果返回，同时用本次结果选代上次的临时空间。上述处理可形式化描述如下，设信息全集空间为 S，用户k的某个检索对应的临时空间为 Ski 1 = f （s,k,i）式中:Ski,1表示由全集空间生成的第1次的临时空间.临时空间迭代算法可描述为Ski,m+ = f（Ski,m，k，i）对于超时不用的临时空间，由监控程序负责释放。应用和结论基于上述模型及算法，设计实现了基于Web勺全文检索引擎，该引擎在鲁迅图书馆数字化网络信息系统和中国文献保障体系（CALLS）西北地区文献中心-西安交通大学钱学森数字化图书馆建设中得到了实际应用.在鲁迅图书馆建立了古桥、戏剧和黄酒等8个特色文化数据库.在钱学森图书馆建立了钱学森生平事迹全文数据库和自动化学科文献数据库，记录数近10万条。实际应用表明：基于Web的逐级全文检索引擎，在将非结构化的超文本转换成结构化的数据库，并建立相应的措词索引数据库的基础上，能够实现基于主题、关键词、作者、日期、出处、自由词等多种式的信息检索服务，并能实现条件复用，支持用户进行逐级检索，实际应用是成

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

文本信息检索技术

文档简介

温馨提示

最新文档

评论

文本信息检索技术

文档简介

温馨提示

最新文档

评论

相关文档