信息检索语言_第1页
信息检索语言_第2页
信息检索语言_第3页
信息检索语言_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二节信息检索语言计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。由此可见,能否准确地检索出用户所需信息,关键在于能否准确地选择检索词。这里所说的“准确”,是指用户所选的检索词必须与数据库中标引文献记录所用的标引词一致。然而实际工作中,从事信息存储的人员与从事信息检索的人员绝大多数情况下不可能进行直接的思想交流,因而会造成存储信息与检索信息所依据的规则不一致,导致存入的文献检不出。为了避免这种情况发生,在信息标引人员与信息检索人员之间必须制定一种共同遵守的规则,即一种约定的相同标识和线路,这就是检索语言。一检索语言的含义及作用检索语言的概念检索语言(informationretrievallanguage),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。有了这种规则,信息标引人员在进行信息存储的过程中,就会对原始信息进行分析,找出其能代表信息的特征与检索语言(检索标识系统)进行对照标引,然后纳入检索系统;而信息检索人员在进行信息检索的过程中,则先对待查课题进行分析,归纳出各种信息特征,使之形成能代表需要的检索提问,然后把这些提问与检索语言(检索标识系统)进行核对,标引成检索提问标识。如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。检索语言的工作原理存储:检索系统对文献内容进行分析,概括分析出若干能代表文献内容的语词,并赋予一定的标识,如题名、作者、主题词等,作为存储与检索的依据,然后纳入到数据库中。检索:检索人员首先要对检索课题进行分析,同样形成若干能代表信息需求的语词,然后通过检索系统在数据库中匹配具有同样语词和标识的文献,找到自己所需的信息。检索语言的作用保证不同标引人员表征文献信息的一致性。(2)使内容相同及相关的文献集中化。保证检索提问与文献信息标引的一致性。(4)保证检索者按不同需求检索文献信息时都能获得较高的查全率和查准率。二检索语言的类型1自然语言(naturallanguage)检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,辅以人工自由标引(非依据词表的标引方法),是非规范词(uncontrolledterm)。关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。题名:信息资源的名称,如论文篇名、图书书名、网站名称等。全文:从资源的内部内容中自动抽取、查找,是目前网上各类搜索引擎使用的最多的方法。引文(quotation):将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。自然语言的优点:新颖性强:一旦文献中出现某个新词语,即可直接使用这一词语作为检索入口,根本无需像受控语言那样冥思苦想地将其转换成另一规范词用于检索。检索方便:它解除了人工语言的种种限制,不需要复杂的检索规则,使用者能较快适应,易用性强。标引准确度高:自然语言采用从文献中抽词标引的方式,不容易发生误标引,适用于计算机检索。只要数据库的文献标题中含有该检索词,即视为命中,健全率较高。自然语言的缺点:词汇量太大,给词汇的存储、加工和检索带来许多操作性方面的困难。当文献的主题很明白清楚地在标题或主题词中表达出来时,检索才会较成功,反之则失效。词汇具有模糊性,另外多义、近义、同义现象较多,给标引和检索带来困难。2人工语言由人工创制的,采用规范词,用来专指某个概念或与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制。包括分类检索语言、主题检索语言、代码检索语言。(1)分类检索语言按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。中国图书馆图书分类法美国国会图书馆分类法杜威十进位分类法IPC国际专利分类表下面以《中图法》为例说明体系分类法的结构与功能。《中图法》是体系分类法的典型代表,是现今国内图书情报部门普遍使用的一部分类法。《中图法》的类目表由基本大类、简表、详表和复分表组成。基本大类是分类法中的第一级类目,是对学科领域的基本划分。《中图法》共有二十二个基本大类,每个大类都用一个英文字母表示。如下所示:A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学宗教C社会科学总论D政治法律E军事F经济G文化科学教育体育H语言文字I文学J艺术K历史地理N自然科学总论O数理科学化学P天文学地球科学Q生物科学R医药卫生S农业科学T工业技术U交通运输V航空航天X环境科学劳动保护科学Z综合性图书简表又称为基本类目表,是分别对每个基本大类,依据它的某些属性,作进一步划分后而形成的二、三级类目表。如Q生物科学Q1普通生物学Q2细胞学Q3遗传学Q4生理学Q5生物化学III详表又称主表或正表,由简表进一步细分而成的最小概念性分类表。如:I文学I0 文学理论I1 世界文学I2 中国文学I20I21 作品集I22 诗歌、韵文I23 戏剧文学I24 小说I242古代至近代作品I246现代作品I247当代作品I247.4章回小说I247.5新体长篇、中篇小说I247.7新体短篇小说I247.8故事、微型小说I25 报告文学I26 散文I3/7各国文学复分表是供主表中某些类目共同细分而从主表中抽出的一部分类目表。使用体系分类检索语言编制的分类表按学科或专业集中文献信息,以学科概念的上下左右关系反映事物的派生、隶属平行的关系,较好地体现了学科的系统性,能较好地满足族性检索的要求。其次,体系分类法用字母和数字表示类目便于组织文献排架及目录系统,又适于文献信息的收集和编制手工检索工具。但由于体系分类法使用的是号码式语言作检索标识,一方面不直观,另一方面在检索文献信息时,必须将文字主题转换成分类标识,在转换过程中,容易产生差错,造成误检或漏检,影响检索效率。此外,体系分类法采用的是先组式检索语言,因此,增补新概念困难,修改不及时,不适应新兴学科和边缘学科的检索。(2)主题检索语言:主题检索语言是以词语作为表达主题概念的标识,按字顺编排的检索语言。标题词语言是最早使用的一种主题语言。它以规范化的自然语义作为标识来表达文献涉及的主题概念,表达主题的词语称为标题。单元词语言是从文献内容中抽选出来的最基本的词汇、将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位。叙词语言是从自然语言中优选出来并经过规范化处理的名词术语。采用表示单元概念的规范化语词的组配对文献内容主题进行描述,也是目前使用最广泛的主题语言。主题语言举例:下例为EBSCO出版公司BusinessSourcePremier数据库中选定“建议主题语”(据2008年数据)□魁^0切购□ELECTRONI匚infunriBti曲怕sow"能am恤ig□□魁^0切购□ELECTRONI匚infunriBti曲怕sow"能am恤ig□理FORMATIONst口rag&retriMnlsystemsIIFOFF二TIO【i 七□DNF0庄MATIQN.s匚iEneNarrov/erTerms□跑就;E律triEMl□斟FORM!ATIONservit^|UJTER口ET霁目「匚hingRelatedTermsScopeNoteBroaderTermsHereareenteredgeneralv;orksonwarchingforandretrievingdatafromaninformationstoragestructure,faciJjty,orservice.Useonlyif7anarrowertermdoesnotappEy(e.g,r"Databasesearchingr"■'Electronicinformationresourcesearching/''Imager-etrievalr""Siformaticinsendees/1"Informationstorage81retrieval"or"Internetwerching'1).[EPC]|負MESSt°infcirmation□DXUhlERTATIO口(3)代码检索语言就事物的某一方面特征,用某种代码系统来加以标引和排列,目前主要应用于化学领域。例如。化合物的分子式索引系统、环状化合物的环系索引系统等。3人工语言与自然语言的关系与自然语言相比较,人工语言的检索效率要高于自然语言,查全率和差准率都比较高,但人工语言是基于印刷性资源产生的,对标引和检索来说,标引工作量大,需要不断维护,管理成本高,用户也不易掌握。因此,在数字资源飞速发展的今天,仅使用人工语言是远远不够的。自然语言由于主要由系统自动标引完成,灵活、新颖、检索入口多、专

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论