版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲信息检索原理、语言及方法主要内容1信息检索基本原理2信息检索语言3信息检索技术4检索词的确定5信息检索步骤1信息检索基本原理
信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。
一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)相关的信息。
匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。复习:信息检索定义广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储与检索”。狭义的信息检索指广义信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻。
信息检索:是信息用户的需求和信息集合的比较与选择,即匹配(match)的过程。用户根据检索需求,对一定的信息集合采用一定的技术手段,根据一定的线索与准则找出相关的信息。信息检索原理图输出表述外部特征内容特征
信息检索的实质是寻求检索提问与信息特征相匹配的信息。2信息检索语言2.1检索语言的概念检索语言是一种用于描述文献特征和表达检索提问的约定语言,它是为沟通文献标引与检索提问而专门编制的,也是连接信息存储和信息检索两个过程中标引人员与检索人员双方思路的渠道。①在信息存储过程中,使用检索语言描述信息的外部特征和内容特征,从而形成文献标识;②在信息检索过程中,使用检索语言描述检索提问,从而形成提问标识;③当提问标识与文献标识完全匹配或部分匹配时,需要的信息就被检索出来了。2.2文献的特征一篇文章、一本图书、一份报告等一般都有以下特征:外部特征:题名、作者、作者工作单位,专利和科技报告还有专利号或报告号等,均可以展示特定文献的外部特征。一般不打开书本或不翻阅文献的具体内容,仅查找在文献封面或扉页位置展示的外部特征,就可以确定一篇文献。内容特征:假如我们深入到具体的文献内容当中,则发现还可用另外两种方法来表现文献的特征:主题词与分类。2信息检索语言语词规范与否人工语言自然语言标题词、单元词、叙词关键词、自由词2信息检索语言2.3检索语言分类人工语言和自然语言人工语言(artificiallanguage):也称受控语言,使用经过规范化处理的语词标识(controlledterm)。人工语言的规范化处理志在解决两个问题:一是一个概念只用一个词(或词组)来表达,这样就避免了多词一义的情况;二是一个词(或词组)只能表达一个概念,这样就排除了一词多义现象。自然语言(naturallanguage):取语言本身的自然形态,不受控,使用非规范词(uncontrolledterm)或称自由词(freeterm)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。2.3.1分类语言分类语言是指用分类号表达各种概念,并将各种概念以学科性质为主加以划分和系统排列的检索语言。按编制方式可分为体系分类语言和组配分类语言,目前信息检索采用的大多为体系分类语言。《中国图书馆分类法》(中图法)《中国科学院图书馆图书分类法》(科图法)《中国人民大学图书馆图书分类法》(人大法)《国际十进分类法》UDC《杜威十进分类法》DDC《国际专利分类表》IPC体系分类语言体系分类语言是以科学分类为基础,运用概念划分的方法,把具有某种或某些共同属性的事物集合划分为一类,用概括该类事物所共有的本质属性的概念作为类目,并给出相应的标记符号作为分类号。体系分类语言集中体现了学科的系统性,反映事物的从属、派生关系,从上到下、从总到分,逐级展开,各级类目都一一列举,具有层垒制结构。我国广泛使用的《中国图书馆分类法》就是一种典型的体系分类语言,分类表则是这种语言的具体体现。《中国图书馆分类法》简称《中图法》;将学科知识分为5个基本部类,22个大类;分类标识即分类号,由字母和数字组成;采用等级列举表达从属关系。《中图法》简表A马、列、毛、邓理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书F经济F0经济学F1世界各国经济概况、经济史、经济地理F2经济计划与管理F20国民经济管理F21经济计划F22经济计算、经济数学方法F23会计F230会计学F231会计簿记方法F232会计设备F233会计工作组织与制度F234各种会计和簿记F234.1社会会计F234.2成本会计F234.3管理会计F234.4财务会计F234.5国际会计…..F3农业经济F4工业经济TP自动化技术、计算机技术TP1自动化基础理论TP3计算技术、计算机技术TP31计算机软件TP39计算机的应用TP391信息处理(信息加工)TP391.1文字信息处理TP391.12汉字处理系统TP391.13表格处理系统TP391.14文字录入技术TP391.2翻译机TP391.3检索机TP391.4模式识别与装置TP392各种专用数据库TP393计算机网络主题词语言是以语词作为概念标识,按字顺编排的检索语言。按主题词性质不同,分为:(1)标题词语言(2)单元词语言(3)叙词语言(4)关键词语言2.3.2主题词语言(1)标题词语言标题词语言是以标题词作为文献内容标识和检索依据的一种主题语言。它是最早使用的一种主题语言。标题词,并非仅指文献“题名”中的词,而是从文献的题目、正文或摘要中抽选出来,经过规范化处理,用以描述文献内容特征的词和词组。(2)单元词语言单元词语言是采用最小的字面单元——单元词来标引文献内容,通过单元词的组配来检索文献的检索语言。单元词又称元词,是指从文献中抽取出来的、能表达文献主题内容的、最基本的不可再分的词。它一般未经规范化,也无词表。与标题词语言相比较,单元词只是构成标题词的构件,组配是单元词语言的突出特点。检索时,根据检索课题的内容特征,选取恰当的单元词进行组配检索。
(3)叙词语言叙词语言是以叙词作为文献内容标识和检索依据的一种主题语言。叙词又称描述词或叙述词,是指从文献中抽取出来的,以概念为基础,经过优化和规范化处理并具有概念组配和词间语义关系显示功能,用以表达文献主题和检索需求的名词或术语,可以是单词,也可以是词组。叙词语言——概念组配叙词在表达复合概念时,需用到概念组配
概念组配与字面组配的区别
例:香蕉苹果:香蕉-苹果×香蕉味食品-苹果√概念组配的类型:概念相交(例:时钟收音机:时钟-收音机)概念并列(例:长篇历史小说:长篇小说-历史小说)概念限定(例:刀具热处理:刀具-热处理)叙词表叙词表是准确查选叙词、提高检索效率必不可少的检索工具。按其选词的学科范围,可以分为专业性叙词表和综合性叙词表。我国的《汉语主题词表》就是一部综合性叙词表。我国自编的专业性叙词表很多,诸如《冶金专业叙词手册》、《机械工程主题表》等。国外较著名的叙词表有英国《科学文摘》使用的《INSPECThesaurus》、美国《工程索引》93年后使用的《EiThesaurus》等。叙词表构成叙词表由一个主表和几个副表(或辅助索引)组成。主表是一部叙词表的主体,包括该叙词表收录的全部叙词和非叙词。每个叙词(或非叙词)有一条款目,叙词和非叙词之间、叙词彼此之间存在着各种词义关系,也有一套参照系统,并用一套参照符号来显示这些词义关系。
叙词表副表任何一个叙词表除主表外,还有副表或辅助索引。通常有以下两种:(1)范畴索引:又称分类索引。这种索引按照叙词所属学科对叙词进行分类,便于用户从学科分类角度查找叙词。(2)词族索引或词族表:词族是一族具有等级关系的叙词。在族首词下,按照等级关系把全部同族词层层展开排列,然后,再按族首词字顺编制成词族索引或词族表。在词族索引中,由族首词可以找到其层层下属的全部同族叙词,然后再从其中选用切题的叙词进行扩检或缩检。叙词常用参照项及其符号词义关系
词类参照符号中文英文简称拼音缩写缩写原文等同关系叙词非叙词用代YDUSEUFUseUsedfor等级关系上位叙词下位叙词族首词属分族SFZBTNTTTBroadtermNarrowtermTopterm相互关系相关词参CRTRelatedterm图书馆员 D图书馆工作人员 D图书馆工作者 D图书馆馆员 D图书馆管理人员 D图书馆管理员 D图书馆人员 C图书馆工作 C图书馆领导图书馆工作人员Y图书馆员图书
D多语文图书D普通图书D书籍
●
别集
●畅销书
●丛书
●●地方丛书
●●辑佚丛书
●●自助丛书
●●族姓丛书
●单行本
●电子图书
●多卷书
●复本书……《汉语主题词表》示例《冶金专业叙词表手册》主表释例
转炉炼钢(此条为叙词款目)ConvertersteelmakingS转炉熔炼F氧气侧吹转炉炼钢氧气底吹转炉炼钢氧气顶吹转炉炼钢Z熔炼*C氧气熔炼熔炼能力(此条为非叙词款目)SmeltingcapacityY生产能力+熔炼C熔化速率(4)关键词语言关键词语言是以关键词作为文献内容标识和检索依据的一种主题语言。关键词是直接从文献的题目、摘要或正文中抽取出来,未经规范化处理的自由词汇,又称自由词,属自然语言范畴。用词的自由性是关键词与标题词、叙词等人工语言的最大区别之处。关键词大大方便了标引工作,提高了标引速度,降低了标引成本。但是由于它是一种基本上未经过规范化处理的自然语言,因此存在着多义性、同义性、模糊性特性,检索用词无法一一对应,故会造成文献信息的漏检和误检。但是在计算机检索功能高效运行的条件下,人们对关键词语言的缺点有所“忽视”,反而充分发挥出了它的简便易用的优点,大量用于网络环境下的信息检索,已成为当前互联网最主要的检索语言。关键词选取的原理一般来说,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。以前的研究表明,无论哪一种类型的文献,若对文献中出现的词进行频率统计的话,会发现所有的词可分为三类:i.文献中出现频率最高的词是冠词、介词和连词等,即其本身没有具体含义的词,如a、an、the、this、that、or、and、in、on、with等;ii.绝大部分词在文献中出现的频率较低;iii.在文献中出现的频率既不高也不低的词,约3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为能表达文献主题的关键词。3信息检索技术查全率
查全率即从数据库内检出的相关信息量与总相关信息量的比率。
查全率=检出的相关信息数量/数据库内的相关信息总量×100%查准率
查准率即从数据库中检出的相关信息量与检出的信息总量的比率。
查准率=检出的相关信息数量/检出的信息总量×100%两个重要的指标常见的信息检索技术(方法)逻辑算符位置算符禁用词截词符“?”基本检索字段标识符限定检索逻辑算符逻辑“与”:and;*逻辑“或”:or;+逻辑“非”:not;-逻辑算符1)“与”――逻辑乘用于表达两个或两个以上检索词之间的相交关系或限定关系运算。逻辑“与”检索能增强检索的专指性,使检索范围缩小。
用符号“and”或“*”表示,其逻辑表达式为:A*B或AandB(交集)例如:查找有关“英语歌曲在英语教学中的应用”的文献:
“
英语歌曲*英语教学”或“英语歌曲AND英语教学”
逻辑算符2)“或”――逻辑和用于表达两个或两个以上检索词之间的并列关系。逻辑“或”检索扩大了检索范围,提高检索信息的查全率。
用符号“or”或“+”表示其逻辑表达式为:AorB或A+B(并集)如逻辑式“enterpriseORcompany”或者“enterprise+company”
表示文献中只要含有检索词中任何一个或两个同时存在的文献为命中文献.逻辑算符3)“非”――逻辑差用于表达两个或两个以上检索词之间排除不需要的检索词的运算可以缩小检索范围,增强检索的准确性。此运算适于排除那些含有某个指定检索词的记录。用符号“not”或“-”
其逻辑表达式为:AnotB或A-B
如逻辑式“英语语法NOT构词法”表示检索除构词法以外的、有关英语语法方面的文献逻辑算符逻辑算符的运算次序:在有括号的情况下,先执行括号内的运算;有多层括号时,先执行最内层括号中的运算,逐层向外进行。例如:(A+B)*C-D在没有括号的情况下,And、Or、Not的运算次序,在不同的系统中有不同的规定。位置算符词级位置算符包括(W)、(N)算符,表示检索词之间的顺序关系
(W):W是with的缩写,表示两个词必须紧挨着,且词序不可颠倒,(W)算符也可用空括号()代替。例:solar()energy
(nw):表示两个词之间可插入n个词,且词序不可颠倒。例:solar(3w)energy(N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。例:fiber(N)optic(nN)表示两个词之间最多可插入n个词,词序任意。例:fiber(4N)optic位置算符(S):S为subfield或sentence的缩写,表示两个词必须在记录中的同一个句子或同一个子字段中出现,且词序可变。子字段含义由数据库定义。例:color(S)pigment(F):F为field的缩写,表示两个词必须在记录中的同一个字段中出现,且词序可变。有了逻辑算符和位置算符,即可编制较为完整的检索提问。在检索时应注意:①位置算符优先于逻辑算符②位置算符的执行顺序是按语句中位置算符的输入顺序从左至右执行的。如有括号,则优先执行括号内的位置算符。禁用词在数据库中,下列九个词不能作为检索词使用,这些词称为禁用词。禁用词有:AN、AND、BY、FOR、FROM、OF、TO、THE、WITH截词符截词检索:利用检索词的词干或不完整词形进行查找的过程。可以起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间。尤其在英文检索系统中检索时,若遇到名词的单复数形式,词的不同拼写法,词的后缀变化时,均可采用此方法。如:comput*截词符常用的截词符有:*,#,?,!,$
★注:不同的数据库所用的截词符不一样,使用前应先查一下各数据库的帮助加以确认截词符截词的方式有多种,可以分为有限截词、无限截词有限截词——一个符号表示一个字母
如:wom?n可检索出:woman,women(中间截断)无限截词——一个符号表示任意多个字母
如:comput*可检出:Computer,computers,computering截词符按照截词的位置,可分为:1)后截断、前方一致Comput*——computer,computers,computing……2)前截断、后方一致
*computer——minicomputer,microcomputer,……3)中间截断、前后一致
Fib*board——fiberboard,fibreboard基本检索字段标识符字段
后缀代码Abstract文摘
…/ABDescriptors叙词
…/DETitle题目
…/TIIdentifiers标引的自由词
…/IDFullDescriptors完整的叙词(单元词)…/DF
限定检索相同的字段在不同的数据库,代码可能不同,检索时需要参阅数据库使用指南。
前缀代码名称例子AU=Author(作者)AU=MIRO,R?CS=CorporateSourceCS=HARVARDAND(机构名称)MEDICINECO=CompanyName(公司名称)CO=FORDMOTOR?JN=JournalName(期刊名称)JN=ScientiaScincaLA=Language(文种)LA=ENGLISHPY=PublicationYear(出版年代)PY=1999注:使用限定检索时“=”后不留空格。4检索词的确定4.1原则a、反映信息概念的准确性古代语言演变=古代语言+语言演变=古代语言+演变(X)b、反映信息内容的全面性协同设计+协同工作Collaborativedesign+cooperativedesignCollaborativework+cooperativeworkc、注意检索词的多样性轨道铁轨微型计算机微机电脑4.2方法
a、命名法对于一个事物,人们首先要给他命名。(1)属性命名法命名的名称用词往往取自能描述该事物特征或相关属性的词汇,由于事物具有多种特征或多种相关属性,因此可以产生多种名称。如:乌贼墨斗鱼遮阳伞太阳伞(2)比喻命名法如:计算机:又称“电脑”;(3)来源命名法根据发现者或发明者命名,“X射线”又称“伦琴射线”。4检索词的确定4.2方法b、定义法是将事物及其名称同化到已有的概念体系中,它将事物归入某一类属并用其他相关词、限制词对其加以说明和区别。定义的方法有:(1)抽象化
“调温设备”可抽象化为“温度控制设备”;(2)具体化电脑微型计算机(3)反义词
“污水处理”可称作“水净化”,“洁净环境”也可称“无尘环境”等;(4)逐字展开如“温度计”即“温度测量仪器”;(5)代称词如“二次电池”即“蓄电池”。4检索词的确定4.2方法c、变体法事物名称在不同的时间或空间中可能发生变异,通过变体分析找出词(或词组)的各种变化形式,从而可以找出较多的同义词和相关词。例如:
拼写变化meter+metre,disk+disc
分离式、合体式database+database
顺序式、逆序式抗拉性不锈钢+不锈钢抗拉性姓、名顺序英文人名检索时应写顺、逆两种形式,如:Wan,lin+Lin,Wan+Wan,L.。
全称、简称(或缩写)北京大学+北大;利废+废物利用;
单数、复数变化等。4检索词的确定4.3如何从课题名中确定检索词
切分将课题语句分割为一个一个的词。例如“计算机情报检索方法”可切分为:|计算机|情报|检索|方法|。
删除从语句切分出来的词中删除那些(1)不具有检索意义的虚词(包括介词、连词、助词、副词等)及其他非关键词;(2)过分宽泛和过分具体的不必要的限定词,过分宽泛难以触及问题实质,太狭义具体的限制词则会挂一漏万;(3)存在蕴涵关系的可合并词。“基于Web的数据库”,经删除后,Web|数据库稀土材料的研究现状及发展趋势稀土材料稀土材料钕铁硼的研究钕铁硼电磁波教学用的多媒体课件电磁波多媒体课件4检索词的确定4.3如何从课题名中确定检索词替换从课题语句中得来的词也许偏于模糊、宽泛、狭窄或不可行,不能取得所希望的结果,这时可以引入更明确、更具体、更本质、更可行的概念词来替换原词,或作为原词的同义词和相关词一并见面所。空气中细菌的计算方法空气污染的计算方法聚类即把切分、删除、替换后所得出的单元词按语义概念进行同类合并,将那些可以相互等效、相互替换、相互补充的同(近)义词、相关词归成一组。聚类的实质是进行组面分析,将语句和词转换成概念(组面)的集合。补充包括(1)补充来源词,即找出缩略词的来源词组,将两者一并作为检索词;(2)补充同义词和相关词(包括上位词、下位词和同位词等)。模拟计算机模拟计算机+模拟系统*计算机liradlirad+laserradar“毫米波”:“millimeterwave”与“millimetrewave”
限定针对一词多义导致误检的问题,需采取限定措施,即增加”限定词“。具体方法有两种,一是逻辑乘,一是逻辑非。线路线路*(电子+无线电+)线路线路-(道路+车辆+)4.3如何从课题名中确定检索词5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届天水市重点中学高考仿真模拟语文试卷含解析
- 江苏省苏州苏州星海中学2025届高三下学期第五次调研考试语文试题含解析
- 2025届辽宁省大连大世界高中高考英语五模试卷含解析2
- 2025届江苏省常州市溧阳市高考仿真卷英语试题含解析
- 河南平顶山舞钢一高2025届高三下学期联合考试语文试题含解析
- 广东省珠海市示范名校2025届高三最后一卷英语试卷含解析
- 2025届湖南省郴州市一中高考考前模拟英语试题含解析
- 新疆兵团农二师华山中学2025届高三下学期第五次调研考试语文试题含解析
- GB/Z 44859-2024武术太极剑
- GB/T 22750.1-2024外科植入物陶瓷材料第1部分:高纯氧化铝陶瓷材料
- 医院信息系统安全等级保护建设方案
- 状态空间平均法建立小信号模型
- 三叉神经痛ppt
- 新三年级数学家长会
- 多层喷射沉积技术
- 四级汉译英段落翻译技巧(课堂PPT)
- 《月迹》课堂实录全面版
- 法语常用动词变位(完整版)
- 测量放大器设计
- 尔雅超星语言与文化
- 医疗器械质量体系不合格品处理单模板
评论
0/150
提交评论