第四节其它检索语言_第1页
第四节其它检索语言_第2页
第四节其它检索语言_第3页
第四节其它检索语言_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四节 其它检索语言 一、自然语言 信息检索语言是沟通标引和检索的依据,自然语言的词语由于存在大量的同义、多义等现象,通常要经过一定程度的规范化处理,才能作为检索语言使用。但是,规范化处理,带来了标引的成本、标引与检索的一致性、一般用户难以直接操作检索等新问题。在计算机信息技术迅速发展的背景下,自然语言重又受到越来越多的关注和重视,并在信息检索领域内取得了令人瞩目的地位和成就。 自然语言在信息检索中的发展,大致经历了关键词、自由文本、全文本、超文本检索的阶段,并正向自然语言的理解发展。 1. 关键词语言 关键词语言是50年代发展起来的非受控语言,是自然语言应用于信息检索最早的形式,至今仍是一种

2、广泛使用的主题语言之一。 关键词是从文献的题名(有时也包括摘要和正文)中直接抽取出来的,能够表达文献主题的有实质性意义的单词。以这种自然语言的词汇作为主题标识的语言,就是关键词语言。关键词语言虽然也属主题语言的范畴,但与标题语言、元词语言、叙词语言有一个显著不同,关键词语言是没有经过规范化处理的自然语言,属非受控语言(Uncontrolled Language),而标题、元词、叙词语言是经过规范化处理的自然语言,属受控语言(Controlled Language)。 关键词语言的基本原理,是直接以自然语言的单词,作为表达文献和提问的标识。因而,关键词语言不必编制专门的词表,不进行词汇控制,也不

3、显示词间关系,可利用计算机进行自动抽词标引,极大地提高标引的速度,缩短检索系统的报道时滞,符合在文献数量激增的背景下快速检索文献的需要。 目前,关键词语言已成为手工检索和计算机检索广泛采用的信息检索语言。在关键词语言发展的进程中,其形式主要有以下几种: · 单纯(普通)关键词索引(Pure Keyword Index); · 题内关键词索引(Keyword In Context,简称为KWIC); · 题外关键词索引(Keyword Out Context,简称为KWOC); · 双重关键词索引(Double KWIC); · 词对式关键词索引

4、(Paired Keyword Index)。 各种关键词索引,虽然形式有所差异,但关键词语言的基本特性是共同的: · 直接从文献的题名(有时以摘要、征文来补充)中抽取关键词; · 没有词汇控制,任何有实质性意义的单词,都可作为标引和检索的标识; · 按字顺排检关键词,并进行多种形式的轮排,以增加检索入口; · 主要采用计算机自动抽词标引,编制速度快; · 提供快捷而方便的检索,容易掌握,但检索的全面性稍有欠缺; · 关键词常常带有上下文,有助于消除自然语言的多义现象对检索的影响,提高检索的专指度。 2. 自然语言检索 自然语言检索是

5、与计算机检索的出现和发展密不可分的。换言之,正是计算机技术的发展及其在检索领域的应用,才促成了自然语言直接作为检索语言的必然趋势。 在60年代兴起的计算机检索,尤其是70年代以后联机检索的国际化发展,促使自然语言检索技术,即自由文本检索、全文本检索得以产生和普及。80年代中期出现的光盘检索,尤其是90年代国际互联网络(Internet)的在全球的迅速增长,又促使自然语言检索向多媒体检索、网络检索和超文本检索发展。 自由文本检索(Free-text Searching),作为联机检索系统的主体检索技术,已发展得十分成熟。联机检索系统拥有多达数百的数据库,每个数据库都是由数量庞大的文献记录所组成的

6、,每条记录包含文献的题名、著者、文摘、标引的主题标识(叙词)等多项内容。在联机检索时,文献记录中的所有这些项目,特别是文摘的内容,其中的每一个词都是可以自由检索的,即文献记录的所有文本都可自由检索,因此被称为自由文本检索。目前,自由文本检索技术,包括单词检索、词组检索、布尔检索、词间位置检索、截词检索及加权检索等。 全文本检索(Full-text Searching),是在自由文本检索的基础上发展起来的。如今,在联机检索系统中,提供全文本检索的数据库已越来越多,呈加速发展的趋势。全文本检索与自由文本检索的差异,主要在于文本内容和检索技术的不同。全文本检索,检索的对象是计算机可读形式的文献全文文

7、本。全文本检索的技术方案一般有两种,第一种是分步完成,先进行自由文本的直接检索,后进行全文本的字符串扫描检索(如ORBIT系统直接的布尔检索,以及在此基础上的字符串、句子查找等。);第二种是一步完成,即把自由文本检索的范围扩大到全文本,布尔检索与全文检索同时进行。 国际互联网络上的超文本检索(Hyper-text Searching),突破了文本以文献为单位、检索以文献单位为对象的限制,超越了文献单位,深入到文献内部的信息单元,以有关的信息单元为检索操作的对象。 在超文本中,通过预先对文本中的有关词汇进行索引链接(超链),使这些带链接指针的词汇或短语,指向文本中的其它有关段落、注解和内容。这些

8、经过链接的词语,采用了特殊的显示技术,如加下划线、高亮、粗体或颜色不同等。用户只要用光标点击这些词语,超级文本立刻就能显示该词语链接的内容。在新显示的文本中,用户又可发现经过链接的词语,便可沿着超文本中的索引链接,不断查找更感兴趣的内容。 近年来,在超文本的基础上,又出现了多媒体检索。多媒体(Multi-media),也称为超媒体(Hyper-media),它将多媒体技术结合到超文本中,强化了超文本的功能。它允许文本之外的图片、声音、动画、影视等信息单元,也可以与文本一样,作为指向其它文本或多媒体信息的链接指针。换言之,在超媒体文本中,不但有文字、图片,还有声音、动画、影视等形式的信息内容,都

9、可利用链接来进行查找和阅读。超媒体文本在只读式光盘CD-ROM和Internet网络上得到了充分的展现。 自然语言本身的表现力十分强大和多样,是人类交流和沟通的主要工具。尽管近年来自然语言在信息检索领域发展很快,但远不及其作为自然语言的地位,这就涉及到作为检索语言的自然语言的特性: · 自然语言是用户最为熟悉的语言系统,在检索时使用起来很习惯,容易使用,也容易达到一致; · 自然语言存在着大量的同义、多义、同形异义等现象,会对检索的效率产生负面的影响; · 自然语言检索系统,可利用计算机自动进行文献处理,其操作成本很低,而且速度极快,在文献数量激增的社会背景下,尤

10、其具有优势; · 无需编制词表,但受自然语言语种的限制。 概言之,在信息技术,尤其是计算机技术迅速发展的情况下,自然语言作为检索语言是一种必然的趋势。但纯粹的自然语言系统在检索性能水平上是较低的,因此,在系统建立时需要有相应的改进措施,如关键词语言中的上下文、采用后控词表等,在信息检索时需要有针对检索课题的策略,以保障检索的效率。 二、引文语言 文献,尤其是科学文献,在结尾处都附有参考文献或引用文献,这也是文献的外表特征之一。利用文献之间引用与被引用的关系,作为文献内容主题标识,并以此标引和检索文献的语言就是引文语言。 引文语言是60年代发展起来的一种检索语言,创刊于1961年的科学

11、引文索引(Science Citation Index),可看成是引文语言成形的标志。引文语言从文献的引用关系角度,提供了一种全新的检索途径。引文语言的基本原理是: · 以文献之间的引用关系, 作为文献主题内容之间的联系,换言之,若两篇文献发生引用关系,那么它们在主题上就是相关的; · 以引用文献或被引用文献,通常按著者姓名的字顺排检,作为标引和检索文献的标识。 引用关系作为检索语言,有其形式上的特殊性,其检索特性为: · 以引用文献或被引用文献进行标引和检索,摆脱了人工符号标识或词语标识的限制,使用容易掌握,一致性好; · 以引用关系形成的“文献网”作

12、为“主题网”,检索明确而有效,且能够查找到较为重要的文献,因为重要的文献其被引用次数通常也较多,这是其它的检索语言所无法做到的; · 引文语言系统的标引深度很深,一般的手工标引深度为平均每篇文献35个词,而一篇文献的引文数量常常达到十几篇,即可提供十几个检索点; · 引用关系本身非常稳定,但作为主题关系的可靠性不够稳定,引用有多种起因和缘由,但不一定完全反映出主题关系; · 引用关系要受到文献可得性的影响; · 引文的著录有时不够统一规范; · 引文语言无需编制词表,可利用计算机自动进行文献标引和处理,检索系统的成本低、速度快,提供的信息回溯性

13、和及时性都可令人满意。 三、分类主题一体化语言 在检索语言的发展趋势中,分类主题一体化语言近年来颇受关注。 分类主题一体化语言,是指在一个检索语言系统中,对它的分类表部分和叙词表部分,就术语、参照、标识、索引等实行统一的控制,即一个分类系统与一个主题系统互相兼容,既能充分发挥各自独特的功能,满足分类或主题标引和检索的需要,又能融为一体,发挥最佳的整体效应。简言之,分类主题一体化语言,就是分类语言与主题语言的有机结合。 分类主题一体化语言的原理在于,不同的检索语言虽然符号形式、结构体系各不相同,但它们的语言基础却是共同的。各种检索语言都以自然语言的语义系统为基础,并在这个基础上建立起各自的符号、词汇和语法(句法)系统。由于拥有共同的基础,使得统一的词汇控制成为可能和现实。 分类主题一体化语言的模式主要有:为叙词语言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论