信息检索技术基础知识讲义课件_第1页
信息检索技术基础知识讲义课件_第2页
信息检索技术基础知识讲义课件_第3页
信息检索技术基础知识讲义课件_第4页
信息检索技术基础知识讲义课件_第5页
已阅读5页,还剩187页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索技术基础信息检索与利用1信息检索与利用1主要内容2.1信息检索语言2.2信息检索技术2.3检索效果评价2.4检索词的确定2.5信息检索策略及策略式2.6信息检索步骤2.7科技查新2主要内容2检索语言:在信息的存储和检索过程中,为使信息在用户和系统间有效传递,各种检索工具使用专门的语言体系来描述信息的内部特征和外部特征,同时要求用户依此构造检索提问式来进行信息检索,这种专门的语言体系成为检索语言。2.1信息检索语言3检索语言:在信息的存储和检索过程中,为使信息在用户和系统间有检索语言描述文献内容特征分类语言主题语言描述文献外表特征题名(书名、刊名、篇名)著者出版事项代码/序号关键词语言叙词语言标题词语言2.1信息检索语言单元词语言4检索描述文献分类语言主题语言描述文献题名(书名、刊名、篇名)主题语言(内容特征)按照主题性质的不同可分为:标题词单元词叙词关键词2.1信息检索语言5主题语言(内容特征)2.1信息检索语言5标题词语言:是表征文献内容特征的、经过规范化处理的名词术语(包括词和短语)。例如:飞机:plane、airplane、aeroplaneaircraft用aircraft来表示所有“飞机”概念,以此作为规范词.使用aircraft一词的检索结果将包括全部有飞机概念的文献.单元词:指从信息内容中抽出的最基本的词汇。关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。2.1信息检索语言6标题词语言:是表征文献内容特征的、经过规范化处理的名词术语(叙词语言叙词:指从信息的内容中抽出的、能概括表达信息内容基本概念的名词或术语,它是经规范化处理的自然语言词汇。叙词受叙词表控制,有组配功能。通常使用的叙词表有:国内《汉语主题词表》,英国《科学文摘》使用的《INSPECThesaurus》,美国《工程索引》使用的《EiThesaurus》等。

运输飞机设计运输飞机设计运输飞机飞机设计7叙词语言叙词:指从信息的内容中抽出的、能概括表达信息内容基EI(Thesaurus)8EI(Thesaurus)8作用检索词用来组织信息(信息工作者)对文献信息内容进行标引;对内容相同或相关的信息加以集中或揭示其相关性;对信息进行系统化、有序化;检索词用于检索(检索用户)进行主题检索进行分类检索进行外表特征检索检索词是信息资源组织与检索者检索提问的桥梁,在数据库中,对应为检索点、检索入口2.1信息检索语言9作用2.1信息检索语言9对文献信息内容进行标引特征1特征2特征3特征4特征5特征n10对文献信息内容进行标引特征1特征2特征3特征4特征5特征n1字段名数据库中文献的记录方式11字段名数据库中文献的记录方式112.2.1布尔逻辑2.2.2截词检索2.2.3限制检索2.2.4位置逻辑2.2.5检索策略式2.2信息检索技术122.2.1布尔逻辑2.2信息检索技术12在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配。用“与”(AND)、“或”(OR)、“非”(NOT)来表达。2.2.1布尔逻辑检索13在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关布尔逻辑检索:在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配。

布尔逻辑算符有三种:逻辑与、逻辑或、逻辑非用“与”(AND)、“或”(OR)、“非”(NOT)来表达。2.2.1布尔逻辑14布尔逻辑检索:在进行信息检索时,检索项之间概念有相交关系、同逻辑“与”在计算机信息检索时,“与”用于表示概念的交叉、限定关系逻辑符号:and、﹡、还可用空格表示表达形式:AandB、A*B、或AB具有缩小检索范围和提高专指性的功能。例:computerandcontrol(SCI)computer*control(Dialog)computercontrol(Google)

AB15逻辑“与”在计算机信息检索时,“与”用于表示概念的交叉、限定逻辑或逻辑“或”算符,用来表示概念的并列、平行、等同关系代表符号:“or”、“+”表达形式:AORB或A+B具有扩大检索范围,减少漏检的功能。例:AIRPLANEORAIRCRAFT(Google)

或AIRPLANE+AIRCRAFTAB16逻辑或逻辑“或”算符,用来表示概念的并列、平行、等同关系AB逻辑“非”算符,是具有概念包含关系的一种组配,可以从原检索范围中排除某一内容。表达形式:AnotB、A-B具有缩小命中范围,提高查准率,增强检索的专指性,减少输出量的作用。

例:Energynotnuclear逻辑非AB17逻辑“非”算符,是具有概念包含关系的一种组配,可以从原检索范布尔逻辑检索技术逻辑或(OR):扩大检索范围,有利于提高查全率。逻辑与(AND):缩小检索范围,有利于提高查准率。逻辑非(NOT):缩小检索范围,有利于提高查准率。ABAB逻辑与A*B

逻辑或A+B逻辑非A-BAB18布尔逻辑检索技术逻辑或(OR):扩大检索范围,有利于提运用“布尔算符”的注意事项:

布尔逻辑运算符运算顺序为:

not→and→or运算符遵循数学运算法则;

(a)括号优先;(AorB)andCnotD

(b)在检索式中只有and或or前后的检索标识可以交换;

(c)检索式中有not时前后检索词不能交换。

备注:()必须在半角和英文状态下输入

2.2.1布尔逻辑19运用“布尔算符”的注意事项:2.2.1布尔逻辑19布尔逻辑检索表达式的特点布尔检索表达式式目前信息检索系统中使用最多的一种方法。优点:表现直观清晰,方便扩检和缩检。易于计算机实现。缺点:没有反映文献内容(或信息需求)所涉及的多个概念的相对重要性。没有反应概念之间的内在语义关系。20布尔逻辑检索表达式的特点布尔检索表达式式目前信息检索系统中使写出下图的布尔逻辑检索式21写出下图的布尔逻辑检索式21截词(truncation):是指检索者将检索词在认为比较合适的地方截断,也称模糊检索,又称词干检索法截词检索,用截断的词的一个局部进行的检索即利用检索词的词干加上截词符号去数据库中进行检索。(模糊检索)截词符号:一般为“?”或

“*”。各种检索系统有不同规定,没有统一标准。截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。2.2.2截词检索22截词(truncation):是指检索者将检索词在认为比较合截词的分类按位置分类:前截词中间截词后截词按取代数量分:有限截词无限截词

23截词的分类按位置分类:前截词23后截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。词尾的有限截断相同字符串后可能变化一个字符时,则在其后使用一个“?”,常用来表示检索词的单复数变化。例如用system?可以查出sytem和systems的文献。相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如,??表示两个字符,???表示三个字符,以此类推如表示九十年代;199?如表示20世纪:19??后截词24后截词,也称前方一致。它是将截词符放在一串字符的后面,用以表词尾的无限截断相同字符串后可能变化任何字符串时,则在其后使用一个“?”或“*”。这种方法可以查找出含有相同字符串的所有检索词。例如,comput*可查出compute,computer,computing,computation,computerisation等如physic*可检出:physical,physic,physicalism

physician,physicists,physicochenistry,physics等.即相当于为上述各检索词的逻辑OR运算后截词25词尾的无限截断后截词25中间截词:可变化的字符出现在单词的中间位置。例如:“woman”和“women”,可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。查找英美不同拼法最有效中间截词26中间截词:可变化的字符出现在单词的中间位置。中间截词26前截断:将截词符号放在一个字符串的左方是后方一致的检索。

例如:*physics可检physics、astrophysics

、biophysics……..

*Chem*

可检chemical,electrochemic,chemistry,thermochemistry……..很少使用前截断27前截断:将截词符号放在一个字符串的左方是后方一致的检索。*——EiVillage,WebofScience,Elsevier,EBSCOJane‘s航空数据库?——PQDD,INSPEC,Dialog截词28*——EiVillage,WebofScience限制检索是限定检索词出现在数据库记录中某一字段范围的一种检索技术。检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。基本检索字段标题、文摘、叙词、自由标引词

Title、abstract、descriptor、identifier辅助检索字段作者、刊名、语种、年代、专利号等

author、journal、language、publicationyear、patentnumber2.2.3限制检索29限制检索是限定检索词出现在数据库记录中某一字段范围的一种检索字段检索常用代码30字段检索常用代码30目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。如题名字段Ei中,用highwaytransport*withinTI来表示;OCLCFirstsearch中,用TI:highwaytransport*来表示。在进行字段检索时,应先看一下该数据库的使用指南。例:EiCPXWeb网络版数据库主要字段的字段代码如下:

CVEi叙词表受控语

TI题名AB文摘AU著者姓

AF著者机构名称ST连续出版物名称PN出版时间注意31目前各个检索系统所设立的字段是各不相同的,即同一例:检索2005年以后在《情报学报》上发表的有关信息价值计算方法的文献限定范围:2005以后;《情报学报》检索词:信息价值、计算时间上的限定,有“=”、“>”、“<”、“>=”、“<=”。例如:PY>=2004表示检索2004年以来(包括2004)发表的文献。检索式:(年>=2005)*(刊名=情报学报)*(主题=信息价值*计算)32例:检索2005年以后在《情报学报》上发表的有关信息价值计算33333434Searchwithinaspecificfieldusing"wn"{testbed}wnALLAND{atmnetworks}wnTI

(windowwnTIANDsapphirewnTI)ORSakamoto,K*wnAU

35Searchwithinaspecificfield利用位置算符来表示检索词之间的位置关系,以实现位置逻辑检索功能。特征这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。可表达复合内容属于提高专指度的方法引入位置算符的目的是增加检索式的灵活性,表达复杂专深的概念,从而提高检索的专指度,弥补布尔逻辑算符难以表达某些复杂提问的不足。2.2.4位置逻辑36利用位置算符来表示检索词之间的位置关系,以实现位置逻辑检索功分类:记录级检索:要求检索词在同一记录中有L字段级检索:要求检索词在同一字段中,有

F子字段或自然句级检索:要求检索词出现在同一子字段或同一自然句中,有S,词位置检索:要求词之间相互位置满足某些条件,有

W,NW,N.nN

等2.2.4位置逻辑37分类:2.2.4位置逻辑37(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为()。例如:Aircraft()design可检索出含有Aircraftdesign的文献记录。Computer()aided()design可检索出含有Computeraideddesign的文献记录(Dialog为例)(1)(W)—With38(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空(nW)表示在此算符两侧的检索词之间最多允许间隔n个词(实词或虚词),且两者的相对位置不能颠倒。例如:laser(1w)printer可检出含有laserprinter和lasercolorprinter的文献记录Computer(1w)animation可检出Computerassistedanimation(Dialog为例)(2)(nW)—nWords(W),(1W),(nW)39(nW)表示在此算符两侧的检索词之间最多允许间隔n个词(实Wn如:W8——EBSCO

例:taxW8reformADJ——Elsevier两词按指定顺序排列,相当于短语例:remoteADJeducationPRE/n——PQDD例:militaryPRE/1weapons常见的另外的表达形式40常见的另外的表达形式40(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。例如:computer(N)network可检出含有computernetwork、networkcomputer形式的文献记录。例ECONOMI*(1NEAR)RECOVER*可包含多重组合和含义(Dialog为例)(3)(N)—Near41(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。(nN)表示此算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。例如computer(2N)system可检出含有computersystem,computercodesystem,computeraideddesignsystem,systemusingmoderncomputer等形式的文献记录。(4)(nN)—nNear(N),(1N),(nN)42(nN)表示此算符两侧的检索词之间允许间隔最多n个词,且两Nn例:

taxN5reform

(EBSCO)

NEAR[N]例:remoteNEAR[5]ducation(Elsevier)W/n例:intelligentW/10buildingsPQDD常见的另外的表达形式43Nn例:taxN5reform(EBSCO)邻接符号F(field),表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序不限。检索式为A(F)B。例如:computer(F)control,只要这两个词在一个字段同时出现就算命中。例如:water()pollution(F)control表示在同一个字段中(如篇名、文摘、叙词等)同时含有waterpollution和control的文献记录均可检索出来。(5)(F)—Field44邻接符号F(field),表示其两侧的检索词必须是在文邻接符号S(sentence),表示其两侧的检索词必须是在文献记录的同一子字段中,用(S)连接的两个词都出现在同一个子字段中词序不限。检索式为A(S)B,(S)在文摘字段中,一个句子就是一个子字段,用句号或豆号结束。例如computer()control(s)system可检出文摘中含有“Thispaperisconcernedwithanapplicationofthecomputercontroltechniqueinaintelligentsystemfortestinginnerwallsofpipes.”这样一句话的文献记录。(6)S-sentence45邻接符号S(sentence),表示其两侧的检索词必须是2.2.4位置逻辑检索精确度排序(W)(nW)(N)(nN)(S)(F)高低462.2.4位置逻辑检索精确度排序(W)(nW)(N)(nNL表示所连接的两个词之间有一定丛属关系,后者修饰、限定前者,两者为主从关系。如主题表中的主题词和副主题就具有丛属关系。在EI,MEDLINE中使用如:SOLAR(L)ENERGY系统会自动到叙词字段查找和太阳能相关的文献。(7)L-link47L表示所连接的两个词之间有一定丛属关系,后者修饰、限定前者,检索执行的优先顺序括号中的检索词高

W,N,或L,F,NOTANDOR低48检索执行的优先顺序括号中的检索词信息检索效果是评价一个信息检索系统性能优劣的质量标准,它始终贯穿信息存储和检索的全过程。衡量信息检索效率的指标:查全率、查准率、漏检率、误检率。理想的检索效果是查全率和查准率同时达到100%。但事实上很难达到全部检出和全部检准的要求,而只能达到某个百分比。2.3检索效果评价49信息检索效果是评价一个信息检索系统性能优劣的质量标准,它始终查全率:检索结果中相关记录数与数据库中总的相关记录数的比值即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查全率高说明有用的东西都被你检中了,但对于数量巨大的数据库而言,要达到100%的查全率是不可能的,在网络条件下尤其如此。查全率=检索出相关文献总数系统中的相关文献总数X100%2.3检索效果评价50查全率:检索结果中相关记录数与数据库中总的相关记录数的比值查查准率:检索结果中相关记录数与检索结果总数的比值查全率和查准率之间存在近似于互逆关系在查全与查准两个方面一般难以两全,为了获得很多有用的东西(达到高的查全率),需要较少的限制检索条件,但这样检出的无用的东西就会很多(查准率不高),反之亦然。在计算机检索中,一般认为查准率为60—70%、查全率为40—60%是较为理想的。查准率=检索出相关文献总数检出文献总数X100%2.3检索效果评价51查准率:检索结果中相关记录数与检索结果总数的比值查准率=检索

扩检方法:1)准确把握检索对象及目的,选择合适的数据库。2)降低检索词或分类号的专指度,可选上位词和相关词加入其中。3)调整检索式的网罗度,删除不重要的概念面。4)更多地采用学科分类途径来扩大检索范围。5)减少逻辑“与”及逻辑“非”的使用。6)增加逻辑“或”及截词检索技术的使用。7)采用“全文检索”。8)不限定检索对象的文献类型、时间段、文种等。提高查全率的主要方法52扩检方法:提高查全率的主要方法52

缩检方法1)准确把握检索对象及目的,选择合适的数据库。2)提高检索词或分类号的专指度。3)更多地采用专用名词及特性检索的途径。4)选择逻辑“与”及逻辑“非”的使用。5)减少或不采用逻辑“或”及截词检索技术的使用。6)限定检索词出现的字段及在段落、文句中的位置。7)不选“全文检索”.8)限定检索对象的文献类型、时间段、文种及其它特征。提高查准率的主要方法53缩检方法提高查准率的主要方法532.4检索词的确定必须明确所需信息涉及的主题范畴选择合适的主题词注意关键词与标题词、叙词的区别注意关键词中的同义词、近义词的选择注意用数据库自带的词表选择合适的检索词注意检索词的上下位概念词的选择注意选择已输入的检索词的相关复合检索词注意有些数据库有禁用词:the、about、on等等542.4检索词的确定必须明确所需信息涉及的主题范畴54专业技术词典词表利用数据库自带的词表利用搜索引擎选择2.4检索词的确定55专业技术词典2.4检索词的确定55利用搜索引擎选择检索词搜索引擎是关键字、词、词组、复合词组的检索搜索引擎能检索各种语言的信息,特别是中英文检索可以利用搜索引擎对已检索的内容进行字词的选择,特别是英文词的选择当有些数据库(SCI、ScienceDirect)没有检索词表可以选择,搜索引擎对词的选择将是主要可参考的途径2.4检索词的确定56利用搜索引擎选择检索词2.4检索词的确定56课题:大型船舶运输安全的风险评估方法与决策技术检索前对课题检索词分析:船舶运输、船舶maritimetransportation,Vessel,ship,boat危险可操作性分析、危险与可操作性分析HazardandOperabilityAnalysis,HAZOP评估、评价Evaluate,evaluation,assess,assessment,assessing,appraisal,estimate安全评估、风险评估SafetyAssessment,safetyevaluation,RiskAssessment、hazardassessment,exposurerating、……利用搜索引擎选择检索词57课题:大型船舶运输安全的风险评估方法与决策技术利用搜索引擎选用搜索引擎查看可以利用的检索词,发现除了“船舶运输”外,还可以用“海上运输”。而英文词方面,有maritimetransport、maritimetransportation两种

利用搜索引擎选择检索词58用搜索引擎查看可以利用的检索词,发现除了“船舶运输”外,还可此处检索所得词是:危险与可操作性分析结论:前后两次检索说明“危险与可操作性分析”、“危险可操作性分析”都可以是检索的对象59此处检索所得词是:危险与可操作性分析59利用数据库功能选择检索词利用数据库查看这些词的可靠性(是否常用、规范,有无其他用法)利用CNKI数据库查看所选词的其他相关词并利用利用维普数据库查看同义词利用外文数据库功能查看、选择检索词(CSA、EI、Ebsco)60利用数据库功能选择检索词利用数据库查看这些词的可靠性(是否常中国学术期刊网61中国学术期刊网6162626363利用维普数据库的同义词库,可以查询出有关检索词的同义、近义词。在检索中,这些同义词与近义词都要用来检索,才不至于“漏检”由于清华同方、万方数据库中没有同义词查看功能,因此要充分利用维普数据库这一功能,将查看到的词用于其他数据库检索中。64利用维普数据库的同义词库,可以查询出有关检索词的同义、近义词6565666667676868在EI数据库的“受控词汇”索引中,选择合适的、规范化的检索词。使用时,只要在上方对话框中输入自身的检索词,查对一下数据库合适的、受控的检索词。用“受控词汇”检索,更能检索到符合内容的信息69在EI数据库的“受控词汇”索引中,选择合适的、规范化的检索词词表最合适的检索词查看词表词序浏览相关性检索词的查看70词表最合适的检索词查看词表词序浏览相关性检索词的查看702.5检索策略及检索策略式检索策略式:它将各种检索点用逻辑算符、位置算符、截词符等组配符连接起来,形成完整的检索概念和检索顺序。检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。关键:构造能够确切表达信息需求的检索式。

712.5检索策略及检索策略式检索策略式:它将各种检索点用逻辑课题1:查找有关面包添加剂方面的文献资料可有两种检索途径分类途径:分类号主题途径:主题词检索字段及检索标识:分类号字段:TS202.3(食品添加剂)、TS213.21(面包类)题名、文摘、关键词字段:面包、添加剂72课题1:查找有关面包添加剂方面的文献资料可有两种检索途分类检索表达式:分类号:(TS202.3*TS213.21)主题检索表达式:题名:(面包*添加剂)题名或关键词:(面包*添加剂)分类、主题组配检索表达式:分类号:(TS202.3)*题名:(面包)分类号:(TS202.3)+主题:(添加剂))*题名:(面包)主题:中国知网数据库中的一个组合字段,表示在题名、关键词和文摘三个字段中进行检索73分类检索表达式:73课题2:“论企业生产线的优化”企业*生产线*优化

(企业+工厂)*(生产线+流水线)*(优化+计算机控制+在线控制+智能控制)74课题2:“论企业生产线的优化”企业*生产线*优化(1)选词切分、删除例:神经网络在旋转机械故障诊断中的应用研究切分:神经网络、在、旋转机械、故障诊断、中、的、应用、研究删除:在中的应用研究最终:神经网络、旋转机械、故障诊断替换将表达不清晰、概念不明确的词替换掉如:酸洗费液的处理处理:“回收”、“再生”提取概念例如:公司劳动奖励、职工培训和养老保险制度管理的理论和实践"公司","劳动奖励","职工培训","养老保险","制度","管理“劳动力资源管理:劳动奖励、职工培训和养老保险最终:“劳动力资源”,“管理”2.5检索策略式751)选词替换提取概念2.5检索策略式752)扩展补充进行同义词、近义词、上位词、相关词等的扩充中英文同义、近义词上位词、相关词

-神经网络:上位词:人工智能

-故障诊断:相关词:故障定位、故障检测上位词:容错技术2.5检索策略式762)扩展补充上位词、相关词2.5检索策略式762)扩展补充截词方法当某些检索词词干相同、词义相近,但词尾或词中间有变化时(多数英语单词的单复数变化和英美不同拼写形式),可以采用截词方法扩展检索词。在词干后使用截词符。2.5检索策略式772)扩展补充2.5检索策略式773)组合把检索词用组配符连接起来,组合成检索式例:神经网络在旋转机械故障诊断中的应用研究(神经网络or人工智能)and(旋转机械)and(故障诊断or故障定位or故障检测or容错技术)2.5检索策略式783)组合2.5检索策略式78制定检索式时要注意:

主要检索词放在最前面,并且限制在基本索引字段里。正确使用各种算符。检索式应简单不复杂。2.5检索策略式79制定检索式时要注意:2.5检索策略式79例:亚音速飞机在飞行控制方面的研究检索词:亚音速、飞机、飞行控制

检索式:摘要=(亚音速*飞机+亚音速飞机)*飞行控制外文检索词:subsonicvelocity;aircraft(s)、airplane(s);subsonicaircraft(s);flightcontrol检索式:AB=((subsonic()velocity)*(aircraft??+airplane??)

+(subsonic()aircraft??))*(flight()control)2.5检索策略式80例:亚音速飞机在飞行控制方面的研究检索词:亚音速、飞机、飞总结:提高查准率从以下几个方面着手检索结果多时采用“AND”缩小检索范围检索下位词时不使用上位词使用“NOT”

将不需要的检索标识排除将“AND”改为更精确的狭隘的位置符使用限定符限定检索标识所在字段81总结:提高查准率从以下几个方面着手检索结果多时采用“AND”练习1写出下列课题的中文检索式:

2005年后在《信号处理》上发表的有关雷达抗干扰检测方面的文献2描述下列检索式的含义:工作单位=(南京航空航天大学OR北京航空航天大学)AND关键词=(无人机OR无人驾驶飞机)82练习1写出下列课题的中文检索式:82练习1写出下列课题的中文检索式:

2005年后在《信号处理》上发表的有关雷达抗干扰检测方面的文献摘要=(雷达AND抗干扰)AND刊名=信号处理AND出版年>=2005

83练习1写出下列课题的中文检索式:83练习2描述下列检索式的含义:工作单位=(南京航空航天大学OR北京航空航天大学)AND关键词=(无人机OR无人驾驶飞机)含义:南京航空航天大学和北京航空航天大学发表的有关无人机研究的文献84练习2描述下列检索式的含义:84分析课题选择检索系统确定检索途径确定检索方法整理检索结果获取原始文献。2.6信息检索步骤85分析课题2.6信息检索步骤85分析课题明确检索目的:

1)需要关于某一课题的系统详尽的信息(博硕士论文、申请课题、科技查新)

2)课题最新信息(跟踪课题)

3)了解一些片段信息,解决一些具体问题课题涉及的学科范畴明确课题的主题或主要内容主题内容的科学属性,在整个科学体系中的位置?86分析课题明确检索目的:86分析课题的方法

老课题首选手册、百科全书、专著等三次文献。有高度、深度和广度,对该领域的研究有一种全局的了解和把握,同时可以对背景知识和相关名词术语作全面的了解。

新颖课题直接由学术数据库、网上资源,作为检索起点。课题属理论探讨性质——侧重查学术会议录、学会刊物、大学学报、学术性期刊。课题属尖端技术——侧重查科技报告课题属工艺革新、发明创造——侧重查专利文献课题属定型产品的设计、生产造型——侧重查技术标准、产品样本87分析课题的方法老课题首选手册、百科全书、专著等三次文献。8选择检索系统——联机检索系统:多个数据库同时检索,Dialog——搜索引擎:google、scirus——学术数据库88选择检索系统——联机检索系统:多个数据库同时检索,Dialo确定检索途径、检索方法检索途径外部特征:题目(Title)、

作者(Author)

作者单位、

摘要(Abstract)、

关键词(KeyWord)、正文(Text)、

参考文献内容特征:分类途径、主题途径检索方法常规法:顺查法、倒查法、抽查法引文法:追溯法、索引法、综合法89确定检索途径、检索方法检索途径89

检索策略输入检索系统后,系统响应的检索结果有时不一定能满足课题检索的要求,例如:或者检出的篇数过多,而且不相关文献所占比例很大,或者检出的文献数量太少,有时甚至为零,这时就需要调整检索策略。

整理检索结果,调整检索策略90检索策略输入检索系统后,系统响文献检索的步骤分析课题选择检索系统确定检索途径确定检索方法整理检索结果获取原始文献根据调整检索策略后的检索结果,适当调整课题方向91文献检索的步骤分析课题根据调整检索策略后的检索结2.7科技查新定义科技查新是以文献检索为基础,以手工检索和计算机检索为手段,采用综合分析对比的方法,为科研项目的立项、鉴定、申报成果等科研活动提供事实依据的一种信息服务方式。科技查新的性质A.查新是对项目的新颖性作出结论B.查新有别于文献检索C.查新有别于专家评审922.7科技查新定义92进行什么工作需要查新?

立项查新成果鉴定查新技术开发查新技术转让查新专利申请查新专利纠纷查新谈判、销售、关键技术查新标准资料等查新93进行什么工作需要查新?立项查新93查新步骤94查新步骤94查得的相关文献进行对比分析

文献中的研究与查新人的研究异同之处,查新人的研究是否国内无相同或相似研究报道,是否国际上无相关研究报道.最终从查得结果作出国内或国际领先,具有新颖性的结论.95查得的相关文献进行对比分析95上机作业:用户名:jiansuo02密码:jiansuo0296上机作业:96信息检索技术基础信息检索与利用97信息检索与利用1主要内容2.1信息检索语言2.2信息检索技术2.3检索效果评价2.4检索词的确定2.5信息检索策略及策略式2.6信息检索步骤2.7科技查新98主要内容2检索语言:在信息的存储和检索过程中,为使信息在用户和系统间有效传递,各种检索工具使用专门的语言体系来描述信息的内部特征和外部特征,同时要求用户依此构造检索提问式来进行信息检索,这种专门的语言体系成为检索语言。2.1信息检索语言99检索语言:在信息的存储和检索过程中,为使信息在用户和系统间有检索语言描述文献内容特征分类语言主题语言描述文献外表特征题名(书名、刊名、篇名)著者出版事项代码/序号关键词语言叙词语言标题词语言2.1信息检索语言单元词语言100检索描述文献分类语言主题语言描述文献题名(书名、刊名、篇名)主题语言(内容特征)按照主题性质的不同可分为:标题词单元词叙词关键词2.1信息检索语言101主题语言(内容特征)2.1信息检索语言5标题词语言:是表征文献内容特征的、经过规范化处理的名词术语(包括词和短语)。例如:飞机:plane、airplane、aeroplaneaircraft用aircraft来表示所有“飞机”概念,以此作为规范词.使用aircraft一词的检索结果将包括全部有飞机概念的文献.单元词:指从信息内容中抽出的最基本的词汇。关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。2.1信息检索语言102标题词语言:是表征文献内容特征的、经过规范化处理的名词术语(叙词语言叙词:指从信息的内容中抽出的、能概括表达信息内容基本概念的名词或术语,它是经规范化处理的自然语言词汇。叙词受叙词表控制,有组配功能。通常使用的叙词表有:国内《汉语主题词表》,英国《科学文摘》使用的《INSPECThesaurus》,美国《工程索引》使用的《EiThesaurus》等。

运输飞机设计运输飞机设计运输飞机飞机设计103叙词语言叙词:指从信息的内容中抽出的、能概括表达信息内容基EI(Thesaurus)104EI(Thesaurus)8作用检索词用来组织信息(信息工作者)对文献信息内容进行标引;对内容相同或相关的信息加以集中或揭示其相关性;对信息进行系统化、有序化;检索词用于检索(检索用户)进行主题检索进行分类检索进行外表特征检索检索词是信息资源组织与检索者检索提问的桥梁,在数据库中,对应为检索点、检索入口2.1信息检索语言105作用2.1信息检索语言9对文献信息内容进行标引特征1特征2特征3特征4特征5特征n106对文献信息内容进行标引特征1特征2特征3特征4特征5特征n1字段名数据库中文献的记录方式107字段名数据库中文献的记录方式112.2.1布尔逻辑2.2.2截词检索2.2.3限制检索2.2.4位置逻辑2.2.5检索策略式2.2信息检索技术1082.2.1布尔逻辑2.2信息检索技术12在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配。用“与”(AND)、“或”(OR)、“非”(NOT)来表达。2.2.1布尔逻辑检索109在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关布尔逻辑检索:在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配。

布尔逻辑算符有三种:逻辑与、逻辑或、逻辑非用“与”(AND)、“或”(OR)、“非”(NOT)来表达。2.2.1布尔逻辑110布尔逻辑检索:在进行信息检索时,检索项之间概念有相交关系、同逻辑“与”在计算机信息检索时,“与”用于表示概念的交叉、限定关系逻辑符号:and、﹡、还可用空格表示表达形式:AandB、A*B、或AB具有缩小检索范围和提高专指性的功能。例:computerandcontrol(SCI)computer*control(Dialog)computercontrol(Google)

AB111逻辑“与”在计算机信息检索时,“与”用于表示概念的交叉、限定逻辑或逻辑“或”算符,用来表示概念的并列、平行、等同关系代表符号:“or”、“+”表达形式:AORB或A+B具有扩大检索范围,减少漏检的功能。例:AIRPLANEORAIRCRAFT(Google)

或AIRPLANE+AIRCRAFTAB112逻辑或逻辑“或”算符,用来表示概念的并列、平行、等同关系AB逻辑“非”算符,是具有概念包含关系的一种组配,可以从原检索范围中排除某一内容。表达形式:AnotB、A-B具有缩小命中范围,提高查准率,增强检索的专指性,减少输出量的作用。

例:Energynotnuclear逻辑非AB113逻辑“非”算符,是具有概念包含关系的一种组配,可以从原检索范布尔逻辑检索技术逻辑或(OR):扩大检索范围,有利于提高查全率。逻辑与(AND):缩小检索范围,有利于提高查准率。逻辑非(NOT):缩小检索范围,有利于提高查准率。ABAB逻辑与A*B

逻辑或A+B逻辑非A-BAB114布尔逻辑检索技术逻辑或(OR):扩大检索范围,有利于提运用“布尔算符”的注意事项:

布尔逻辑运算符运算顺序为:

not→and→or运算符遵循数学运算法则;

(a)括号优先;(AorB)andCnotD

(b)在检索式中只有and或or前后的检索标识可以交换;

(c)检索式中有not时前后检索词不能交换。

备注:()必须在半角和英文状态下输入

2.2.1布尔逻辑115运用“布尔算符”的注意事项:2.2.1布尔逻辑19布尔逻辑检索表达式的特点布尔检索表达式式目前信息检索系统中使用最多的一种方法。优点:表现直观清晰,方便扩检和缩检。易于计算机实现。缺点:没有反映文献内容(或信息需求)所涉及的多个概念的相对重要性。没有反应概念之间的内在语义关系。116布尔逻辑检索表达式的特点布尔检索表达式式目前信息检索系统中使写出下图的布尔逻辑检索式117写出下图的布尔逻辑检索式21截词(truncation):是指检索者将检索词在认为比较合适的地方截断,也称模糊检索,又称词干检索法截词检索,用截断的词的一个局部进行的检索即利用检索词的词干加上截词符号去数据库中进行检索。(模糊检索)截词符号:一般为“?”或

“*”。各种检索系统有不同规定,没有统一标准。截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。2.2.2截词检索118截词(truncation):是指检索者将检索词在认为比较合截词的分类按位置分类:前截词中间截词后截词按取代数量分:有限截词无限截词

119截词的分类按位置分类:前截词23后截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。词尾的有限截断相同字符串后可能变化一个字符时,则在其后使用一个“?”,常用来表示检索词的单复数变化。例如用system?可以查出sytem和systems的文献。相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如,??表示两个字符,???表示三个字符,以此类推如表示九十年代;199?如表示20世纪:19??后截词120后截词,也称前方一致。它是将截词符放在一串字符的后面,用以表词尾的无限截断相同字符串后可能变化任何字符串时,则在其后使用一个“?”或“*”。这种方法可以查找出含有相同字符串的所有检索词。例如,comput*可查出compute,computer,computing,computation,computerisation等如physic*可检出:physical,physic,physicalism

physician,physicists,physicochenistry,physics等.即相当于为上述各检索词的逻辑OR运算后截词121词尾的无限截断后截词25中间截词:可变化的字符出现在单词的中间位置。例如:“woman”和“women”,可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。查找英美不同拼法最有效中间截词122中间截词:可变化的字符出现在单词的中间位置。中间截词26前截断:将截词符号放在一个字符串的左方是后方一致的检索。

例如:*physics可检physics、astrophysics

、biophysics……..

*Chem*

可检chemical,electrochemic,chemistry,thermochemistry……..很少使用前截断123前截断:将截词符号放在一个字符串的左方是后方一致的检索。*——EiVillage,WebofScience,Elsevier,EBSCOJane‘s航空数据库?——PQDD,INSPEC,Dialog截词124*——EiVillage,WebofScience限制检索是限定检索词出现在数据库记录中某一字段范围的一种检索技术。检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。基本检索字段标题、文摘、叙词、自由标引词

Title、abstract、descriptor、identifier辅助检索字段作者、刊名、语种、年代、专利号等

author、journal、language、publicationyear、patentnumber2.2.3限制检索125限制检索是限定检索词出现在数据库记录中某一字段范围的一种检索字段检索常用代码126字段检索常用代码30目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。如题名字段Ei中,用highwaytransport*withinTI来表示;OCLCFirstsearch中,用TI:highwaytransport*来表示。在进行字段检索时,应先看一下该数据库的使用指南。例:EiCPXWeb网络版数据库主要字段的字段代码如下:

CVEi叙词表受控语

TI题名AB文摘AU著者姓

AF著者机构名称ST连续出版物名称PN出版时间注意127目前各个检索系统所设立的字段是各不相同的,即同一例:检索2005年以后在《情报学报》上发表的有关信息价值计算方法的文献限定范围:2005以后;《情报学报》检索词:信息价值、计算时间上的限定,有“=”、“>”、“<”、“>=”、“<=”。例如:PY>=2004表示检索2004年以来(包括2004)发表的文献。检索式:(年>=2005)*(刊名=情报学报)*(主题=信息价值*计算)128例:检索2005年以后在《情报学报》上发表的有关信息价值计算1293313034Searchwithinaspecificfieldusing"wn"{testbed}wnALLAND{atmnetworks}wnTI

(windowwnTIANDsapphirewnTI)ORSakamoto,K*wnAU

131Searchwithinaspecificfield利用位置算符来表示检索词之间的位置关系,以实现位置逻辑检索功能。特征这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。可表达复合内容属于提高专指度的方法引入位置算符的目的是增加检索式的灵活性,表达复杂专深的概念,从而提高检索的专指度,弥补布尔逻辑算符难以表达某些复杂提问的不足。2.2.4位置逻辑132利用位置算符来表示检索词之间的位置关系,以实现位置逻辑检索功分类:记录级检索:要求检索词在同一记录中有L字段级检索:要求检索词在同一字段中,有

F子字段或自然句级检索:要求检索词出现在同一子字段或同一自然句中,有S,词位置检索:要求词之间相互位置满足某些条件,有

W,NW,N.nN

等2.2.4位置逻辑133分类:2.2.4位置逻辑37(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为()。例如:Aircraft()design可检索出含有Aircraftdesign的文献记录。Computer()aided()design可检索出含有Computeraideddesign的文献记录(Dialog为例)(1)(W)—With134(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空(nW)表示在此算符两侧的检索词之间最多允许间隔n个词(实词或虚词),且两者的相对位置不能颠倒。例如:laser(1w)printer可检出含有laserprinter和lasercolorprinter的文献记录Computer(1w)animation可检出Computerassistedanimation(Dialog为例)(2)(nW)—nWords(W),(1W),(nW)135(nW)表示在此算符两侧的检索词之间最多允许间隔n个词(实Wn如:W8——EBSCO

例:taxW8reformADJ——Elsevier两词按指定顺序排列,相当于短语例:remoteADJeducationPRE/n——PQDD例:militaryPRE/1weapons常见的另外的表达形式136常见的另外的表达形式40(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。例如:computer(N)network可检出含有computernetwork、networkcomputer形式的文献记录。例ECONOMI*(1NEAR)RECOVER*可包含多重组合和含义(Dialog为例)(3)(N)—Near137(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。(nN)表示此算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。例如computer(2N)system可检出含有computersystem,computercodesystem,computeraideddesignsystem,systemusingmoderncomputer等形式的文献记录。(4)(nN)—nNear(N),(1N),(nN)138(nN)表示此算符两侧的检索词之间允许间隔最多n个词,且两Nn例:

taxN5reform

(EBSCO)

NEAR[N]例:remoteNEAR[5]ducation(Elsevier)W/n例:intelligentW/10buildingsPQDD常见的另外的表达形式139Nn例:taxN5reform(EBSCO)邻接符号F(field),表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序不限。检索式为A(F)B。例如:computer(F)control,只要这两个词在一个字段同时出现就算命中。例如:water()pollution(F)control表示在同一个字段中(如篇名、文摘、叙词等)同时含有waterpollution和control的文献记录均可检索出来。(5)(F)—Field140邻接符号F(field),表示其两侧的检索词必须是在文邻接符号S(sentence),表示其两侧的检索词必须是在文献记录的同一子字段中,用(S)连接的两个词都出现在同一个子字段中词序不限。检索式为A(S)B,(S)在文摘字段中,一个句子就是一个子字段,用句号或豆号结束。例如computer()control(s)system可检出文摘中含有“Thispaperisconcernedwithanapplicationofthecomputercontroltechniqueinaintelligentsystemfortestinginnerwallsofpipes.”这样一句话的文献记录。(6)S-sentence141邻接符号S(sentence),表示其两侧的检索词必须是2.2.4位置逻辑检索精确度排序(W)(nW)(N)(nN)(S)(F)高低1422.2.4位置逻辑检索精确度排序(W)(nW)(N)(nNL表示所连接的两个词之间有一定丛属关系,后者修饰、限定前者,两者为主从关系。如主题表中的主题词和副主题就具有丛属关系。在EI,MEDLINE中使用如:SOLAR(L)ENERGY系统会自动到叙词字段查找和太阳能相关的文献。(7)L-link143L表示所连接的两个词之间有一定丛属关系,后者修饰、限定前者,检索执行的优先顺序括号中的检索词高

W,N,或L,F,NOTANDOR低144检索执行的优先顺序括号中的检索词信息检索效果是评价一个信息检索系统性能优劣的质量标准,它始终贯穿信息存储和检索的全过程。衡量信息检索效率的指标:查全率、查准率、漏检率、误检率。理想的检索效果是查全率和查准率同时达到100%。但事实上很难达到全部检出和全部检准的要求,而只能达到某个百分比。2.3检索效果评价145信息检索效果是评价一个信息检索系统性能优劣的质量标准,它始终查全率:检索结果中相关记录数与数据库中总的相关记录数的比值即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查全率高说明有用的东西都被你检中了,但对于数量巨大的数据库而言,要达到100%的查全率是不可能的,在网络条件下尤其如此。查全率=检索出相关文献总数系统中的相关文献总数X100%2.3检索效果评价146查全率:检索结果中相关记录数与数据库中总的相关记录数的比值查查准率:检索结果中相关记录数与检索结果总数的比值查全率和查准率之间存在近似于互逆关系在查全与查准两个方面一般难以两全,为了获得很多有用的东西(达到高的查全率),需要较少的限制检索条件,但这样检出的无用的东西就会很多(查准率不高),反之亦然。在计算机检索中,一般认为查准率为60—70%、查全率为40—60%是较为理想的。查准率=检索出相关文献总数检出文献总数X100%2.3检索效果评价147查准率:检索结果中相关记录数与检索结果总数的比值查准率=检索

扩检方法:1)准确把握检索对象及目的,选择合适的数据库。2)降低检索词或分类号的专指度,可选上位词和相关词加入其中。3)调整检索式的网罗度,删除不重要的概念面。4)更多地采用学科分类途径来扩大检索范围。5)减少逻辑“与”及逻辑“非”的使用。6)增加逻辑“或”及截词检索技术的使用。7)采用“全文检索”。8)不限定检索对象的文献类型、时间段、文种等。提高查全率的主要方法148扩检方法:提高查全率的主要方法52

缩检方法1)准确把握检索对象及目的,选择合适的数据库。2)提高检索词或分类号的专指度。3)更多地采用专用名词及特性检索的途径。4)选择逻辑“与”及逻辑“非”的使用。5)减少或不采用逻辑“或”及截词检索技术的使用。6)限定检索词出现的字段及在段落、文句中的位置。7)不选“全文检索”.8)限定检索对象的文献类型、时间段、文种及其它特征。提高查准率的主要方法149缩检方法提高查准率的主要方法532.4检索词的确定必须明确所需信息涉及的主题范畴选择合适的主题词注意关键词与标题词、叙词的区别注意关键词中的同义词、近义词的选择注意用数据库自带的词表选择合适的检索词注意检索词的上下位概念词的选择注意选择已输入的检索词的相关复合检索词注意有些数据库有禁用词:the、about、on等等1502.4检索词的确定必须明确所需信息涉及的主题范畴54专业技术词典词表利用数据库自带的词表利用搜索引擎选择2.4检索词的确定151专业技术词典2.4检索词的确定55利用搜索引擎选择检索词搜索引擎是关键字、词、词组、复合词组的检索搜索引擎能检索各种语言的信息,特别是中英文检索可以利用搜索引擎对已检索的内容进行字词的选择,特别是英文词的选择当有些数据库(SCI、ScienceDirect)没有检索词表可以选择,搜索引擎对词的选择将是主要可参考的途径2.4检索词的确定152利用搜索引擎选择检索词2.4检索词的确定56课题:大型船舶运输安全的风险评估方法与决策技术检索前对课题检索词分析:船舶运输、船舶maritimetransportation,Vessel,ship,boat危险可操作性分析、危险与可操作性分析HazardandOperabilityAnalysis,HAZOP评估、评价Evaluate,evaluation,assess,assessment,assessing,appraisal,estimate安全评估、风险评估SafetyAssessment,safetyevaluation,RiskAssessment、hazardassessment,exposurerating、……利用搜索引擎选择检索词153课题:大型船舶运输安全的风险评估方法与决策技术利用搜索引擎选用搜索引擎查看可以利用的检索词,发现除了“船舶运输”外,还可以用“海上运输”。而英文词方面,有maritimetransport、maritimetransportation两种

利用搜索引擎选择检索词154用搜索引擎查看可以利用的检索词,发现除了“船舶运输”外,还可此处检索所得词是:危险与可操作性分析结论:前后两次检索说明“危险与可操作性分析”、“危险可操作性分析”都可以是检索的对象155此处检索所得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论