第二讲 网络信息检索基本方法_第1页
第二讲 网络信息检索基本方法_第2页
第二讲 网络信息检索基本方法_第3页
第二讲 网络信息检索基本方法_第4页
第二讲 网络信息检索基本方法_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

IEEE可以为学生提供什么?需要参加IEEE国际会议的支助需要IEEE学生奖学金想参加IEEE论文竞赛或者创意大赛想和IEEE

Fellow交流…1IEEE.ORG学生奖学金与竞赛信息:///web/membership/students/scholarshipsawardscontests/SAG_homepage.html2英语类1.听力特快英语节目:空中美语、空中英语听力2.普特英语3.大耳朵英语网每天都有听力更新,可以直接点击收听,听英语播送时,在下面的原文可以划词,随时翻译,网站会自动将所划得词加到生词本里。每天的记单词、单词测试4.旺旺英语32021-9-13第二讲网络信息检索根本方法4【目的与要求】掌握布尔逻辑检索等网络信息检索的根本技术。熟悉网络信息检索的途径和步骤。【重点】布尔逻辑语言、邻近检索、截词检索【难点】邻近检索5影响信息检索质量的因素信息资源本身的质量对信息检索的影响〔鱼龙混杂,参差不齐〕检索软件对信息检索的影响〔不同的搜索引擎,数据库系统〕用户水平对信息检索的影响6网络信息检索的根本技术网络信息检索的根本途径网络信息检索根本步骤网络信息检索基本方法

7MACTH计算机将检索提问词文献记录标引词信息检索过程的实质:8一、网络信息检索的根本技术

1.布尔逻辑检索〔booleanlogic〕逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。逻辑检索的根底是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符〔booleanlogicoperator〕,它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元〔或检索标识〕组配成一个具有复杂概念的检索式,以满足课题检索的要求。主要运算符有“和(and,*)〞、“或(or,+)〞、“非(not,-)〞。9运算优先级顺序为NOT、AND、OR,可以用括号“〔〕〞改变它们的运算顺序。如Aand(BorC),检索顺序为先B或C,然后再与A10逻辑算符举例

①查找关于“动物保护〞的文献:“动物AND保护〞②查找有关冬虫夏草的文献:“冬虫夏草or冬虫草or虫草〞③查找关于能源方面的文章,但关于“核能〞的不要:“energynotnuclear〞(energy-nuclear)④检索西红柿种植技术的相关文章:(西红柿+番茄)*(种植+栽培+培育)11Exercise1:

查找电子图书的标准(DigitalbookORelectronicbookORe-bookORonlinebook)ANDstandard12Goolge的默认运算符就是逻辑“与〞,用空格、“AND〞和“+〞都表示,而逻辑“非〞只能用“-〞而不能用“NOT〞表示。百度的默认运算符是逻辑“或〞,空格、“OR〞均表示逻辑“或〞。在ISIWebofKnowledge平台上,逻辑算符“AND〞、“NOT〞、“OR〞不区分大小写,但不支持以“*〞、“-〞、“+〞代替。在ScienceDirect中,逻辑“非〞是用“ANDNOT〞表示,而不是我们常用的“NOT〞。132.词组检索〔phrasesearch〕通常在所检索词上加“〞对所检索词视为词组处理,表示检索与“〞内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精确检索〞〔exactsearch〕。例如:“动物保护〞,表示动物保护是个词组,检索结果动物和保护不能分开。假设不加“〞,检索结果可以是动物保护、动物多样性保护、动物栖息地保护、动物资源保护等形式。14ScienceDirect用双引号“〞表示宽松短语检索,标点符号、连字符、停用字等会被自动忽略,如检索式为“heartattack〞会检出包含“heartattack〞和“heart-attack〞的检索结果。在该数据库中,精确检索是用“{}〞表示。15

邻近检索有时又被称为位置算符检索。因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也是如此。163.邻近检索〔proximitysearch〕布尔逻辑运算符和词组检索虽然能有效的扩大和缩小检索范围,但无法对检索词之间的相对位置进行限制文献记录中词语的相对次序或位置不同,所表达的意思可能不同又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特定位置关系同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。Eg:“粉末的掺合与颜料包装〞17①(W)—WITH算符

表示两个检索词紧挨着,词序必须按此前后的顺序排列,顺序不能颠倒,中间不能有其他词,但可以有空格和标点符号。也可以用〔〕表达式:A〔W〕BAB两词靠近,次序为A先B后。举例:communication(w)satellite或者communication〔〕satellite,只检索出communicationsatellite,communication-satellite的记录需要特别提示的是:词组检索与WITH算符有所不同,其间不允许有任何符号。例如:digitallibrary,假设用digital〔w〕library,检索结果中会出现digital-library,而用“digitallibrary〞,那么只会检出digitallibrary的记录。18②〔nW)算符表示两个检索词之间插有n个词,但顺序不能颠倒。表达式:A〔nW〕BAB两词靠近,次序为A先B后,中间最多可加n个词。举例:communication(2w)satellite,只检索出communicationsatellite、communication-satellite,communicationthroughsatellite、communicationonthesatellite词组的记录。

19③〔N〕(Near)算符

表示两个检索词为相邻关系,两个词之间不能插入任何词,但词序可以颠倒。表达式:A〔N〕B:AB两词靠近,次序可变。举例:building(N)construction可检索出building–construction,constructionbuilding,construction-building的记录20④〔nN)算符

表示两个检索词之间可以插入n个词并且词序可以颠倒表达式:A〔nN〕B:AB两词靠近,次序可变,中间最多可加n个词。举例:information(1N)retrieval可检索出informationretrieval,informationandretrieval,retrievalofinformation的记录。information(3N)retrieval,可检出informationretrieval,retrievalinformation,retrievalofinformation,retrievaloflawinformation,retrievalofChineselawinformation等,retrieval和information最多可插入3个词。21⑤〔F〕——Field〔F〕表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。22⑥(S)算符

(S)算符表示在此运算符两侧的检索词必须同时出现在文献记录的子字段或同一段话中,两个词次序不限,中间插入词的数量也不限。234.截词检索(truncation/wildcat)

截词检索又称局部一致检索,是指在检索标识中保存相同的局部,用相应的截词符代替可变化局部。检索中,计算时机将所有含有相同局部标识的记录全部检索出来。截词符用“?〞或“*〞标识。截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不同形式等。24常用的截词法有左截、右截、中间截断和中间屏蔽4种形式,而目前用的较多的是以下三种形式:〔1〕前截词〔左截〕——同根词检索*ology〔2〕中间截词——用于中美拼写不同和单复数输入wom?n,可检出woman,womencolo?r可检出的词为colour(英音)、color(美音)。〔3〕后截词〔词尾截词〕Cat?,检出cat,cats〔有限截断〕——用于单复数Cat*,检出Cat,Cats,catalog,catalogue,category……〔无限截断〕——同根词检索25特别提示:“*〞、“?〞的比较“*〞,无限截词,代表0-无数个字符如regard*,代表regard,regarding,regardless等。“?〞,有限截词,代表0-1个字符,如library?,library,librarys。265.字段限制检索技术〔fieldlimiting〕

组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。一般来说,数据库的记录根本包括以下字段:题名〔TI,title)、关键词〔KW,keyword)、主题词〔DE,descriptor)、文摘〔AB,abstract)、全文〔FT,Fulltext)、作者〔AU,author)、作者机构〔CS,CoporateSource〕期刊名称(JN,Journal)、出版国(CO,Country)、出版年份(PY,PublicationYear)、语种(LA,Language)27字段限制检索就是通过限制字段和限制字段的范围来缩小检索结果,到达精确检索的方法。检索方式主要有:限定字段检索和限定范围检索〔1〕限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。①前缀方式,将检索词放在所限定的字段代码之后,如用在著者〔AU〕、刊名〔JN〕、出版年〔PY〕、语种〔LA〕等字段后,例如:AU=Evans,A.,LA=Chinese②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in或/;如:Furniture/TI即家具一词出现在题目中。28〔2〕限定范围检索:是通过使用限定符来限制信息的检索范围,以到达优化检索的方法。不同的检索系统略有不同,常通过使用的有:“=、<=、>=、<、>、:〞等。表达式:字段名=〔<=、>=、<、>、〕例如:PY>=1995

即限定出版年份为1995及以后的文献;PY=1996:2005即1996年至2005年的文章29思考:比较3个检索式检索结果的不同“Informationretrieval〞/TIInformationANDretrieval/TIInformation(F)retrieval不仅要求在题名字段中,还要求两者必须与输入的形式完全相同只要求在题名字段中,而不严格限制它们是短语,如“informationorganizationmethodsforeffectiveretrieval〞只需要在同一个字段中30Exercise2:查找华中科技大学罗俊院士1999年以来发表的文章?AU=LuoJunAND〔CS=HuazhongUniv*〕ANDPY>=1999查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。“Thelegislationofhumancloning〞orhumancloneandlegislat*andLA=EnglishandPY=200231大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在特定的范围中,如:标题〔title〕图像〔image〕文本〔text〕统一资源定位符〔url〕网站〔site〕链接〔link〕3233举例:url:govLink:site:346.区分大小写检索〔case-sensitive〕

china--china,China,CHINAChina—ChinaWindows,windows357.模糊检索〔fuzzysearch〕又称概念检索〔相关检索〕。当我们输入一个检索词时,搜索引擎不仅反响包括了该关键词的网址,同时也发来与关键词意义相近的内容。如“检索〞,查找,寻找,找寻,找一找…….如“土豆〞,模糊检索的检索结果中会返回包括“土豆〞、“马铃薯〞、“洋芋〞等含义相近或相关的内容。现在大多数搜索引擎都有这种功能,只不过模糊程度不同。368.自然语言检索〔naturallanguagesearch〕

即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。智能检索CouldyoupleasegivemesomeinformationonEnglishliterature?这种智能检索也是搜索引擎开展的趋势。37实际检索时,需要将上述各种方法综合使用才能获得最正确检索效果。如“查找2000年以来PeterSuber教授撰写的关于开放存取〞的论文?可以构建检索式为:OpenAccessOROAOR*freeresourcesOROpenSource)AND〔AU=PeterSuber〕ANDPY>=2000。检索式的构建不是一蹴而就的,需要根据检索结果的多寡和精准程度进行不断调整。另外需要特别注意的是,不同的检索系统所使用的算符类型和符号各异,本文拘于篇幅无法一一列举,因此使用检索系统尤其是数据库前必须浏览帮助系统,详细了解字段及算符的设置情况,以确定最适宜的途径进行检索。38Playtime:找的就是你VS游戏规那么:1.至少使用两种以上的检索技术,如:字段名+布尔逻辑+截词检索2.检索式至少由三段构成,如〔位置=〕+〔衣服颜色=〕+〔性别=〕3.猜中方得分;猜不中那么出题方得分4.双方轮流出题,每方5题为限5.被猜者继续出题6.不能简单使用在教室的位置39二.网络信息检索的根本途径即我们常说的检索点AccessPoint检索点即是检索信息或文献时所通过或使用的渠道,而检索工具提供的检索点是多种多样的,它以检索的对象文献的特征而定。科技文献有两方面的特征,一是外表特征——文献载体的外表上记明的易见的线索;二是文献的内容特征——即从文献内部包含的知识信息中的内隐的潜在的线索。401.按文献外表特征的检索途径:

名称途径——即根据书名、刊名、篇名来查找文献信息的途径,它是把文献名称按照字顺排列起来成为一个体系,构成书名检索点、刊名检索点和篇名检索点。著者途径——以著作者〔个人著者、团体著者、专利创造人、专利权人、合同人及机构等〕,提供以作者字顺为途径的检索点,以实现对知名专家或专业学术机构研究成果和科技成果的检索。序号途径——指通过号码〔包括报告号、合同号、专利号、标准号、馆藏号、索取号、排架号等〕查找文献的途径,这种途径主要是利用各种号码索引来组织检索,号码索引一般是按照字母顺序和号码顺序编排。412.按文献的内容特征的检索途径

以文献的内容特征作为检索途径。即按照课题要求来查找文献的方法,更宜于用来检索未知线索的文献。①分类途径—按学科体系查找文献的途径,主要利用分类目录或分类索引的方法,通过利用专业知识确定所研究的课题所需文献属于什么类别,它在个学科体系中的地位,再进行检索的方法。②主题途径—通过文献资料的内容主题进行检索的途径,即利用从文献资料

中抽出来的或经过人工标准化的能代表文献资料内容实质的标

引词来检索,检索词可分为关键词、标题词、元词、叙词等几

种类型。综合来说,分类途径和主题途径是文献检索的常用途径,但一些检索工具还提供了分子式索引、环系索引、化学物质索引、会议索引、图书索引等,作为某些专业与学科检索用的辅导性检索途径。421.2.3.从文献特征选择检索途径,如果事先文献名称、著者、序号等条件,应相应采用名称索引、号码索引或有关的目录索引。从检索工具提供的索引选择检索途径。从课题检索要求选择检索,课题学科范围要求广的应用特性检索主题途径,范围窄的采用分类途径。3.选择检索途径的原那么43三.网络信息检索根本步骤思考:我们想想完成一个检索任务,哪些要素必不可少?检索词、检索式〔检索策略〕、检索途径、检索系统44

检索前的准备工作1.网络信息检索根本步骤示意图课题分析2.选择检索系统3.确定检索途径和检索方法4.确定检索词6.实施检索、分析检索结果、索取原文5.制定检索策略,编制检索式7.调整检索式,优化策略45

主要指明确检索目的与要求。①分析课题的主要内容及所涉及学科范围,以便确定有关检索标识〔分类〕、检索途径和选择适宜的检索工具。②分析课题所需信息的类型、文献量、年代范围、涉及语种、有关著者、机构等。③确定课题对查新、查准和查全的指标要求,例如:假设要了解某学科、理论、课题等最新进展和动态,那么要检索最近的文献信息,强调“新〞字;假设要解决研究中某具体问题,找出技术方案,那么要求检索有针对性、能解决实际问题的文献信息,强调“准〞字;假设要撰写综述、述评或专著等,要了解课题、事件的前因后果、历史和开展,那么要检索详尽、全面、系统的文献信息,强调“全〞字。1.课题分析462.选择检索系统

①主要是根据课题的检索要求选择适宜的检索工具或数据库,如:查找图书可用OPAC书目数据库;查学科术语或数据等可用事实型数据库、参考工具书或网络搜索引擎;撰写学位论文、申请研究课题尽可能选用一些收录年份较长的综合型和专业数据库。47②考虑权威性数据库;③数据库的学科专业范围是否与课题的学科相吻合;④需要的是题录、文摘信息还是全文信息,还是事实、图形、数据等;⑤数据库收录的文献类型、年限、更新周期,所需文献信息在国别和语种是否符合检索需求等。483.确定检索途径和检索方法

①检索途径主要有:分类、主题、著者、序号。分类途径:按文献内容的学科分类体系查找文献的途径。在印刷型检索工具中主要有分类目录和分类索引。在计算机检索系统中,那么把文献按分类聚类,通过层层点击进行检索,或利用系统提供的分类号进行检索。主题词/关键词途径:按表达文献主题内容的主题词或关键词作为标识查找文献的途径。题名途径:是根据文献的标题或名称,包括书名、刊名、篇名等来查找文献的途径著者途径:是根据文献著〔编、译〕者的名称查找文献的途径。代码途径:如标准号、专利号、ISSN号等时间途径:以文献的时间范围查找文献的途径。49②检索方法一般有直接检索法、间接检索法、追溯检索法和循环检索法四种。①直接检索法又称浏览法,是通过广泛阅读、浏览近半年的各类文献资料来获得所需的最新信息。同时,在课题确定后,可阅读百科全书、专业手册、年鉴等参考工具书,了解课题的相关背景知识。缺点:费时费力,具有一定的盲目性和偶然性。②间接检索法又称系统检索法,指借助于检索工具或系统查找所需文献的方法。常用的有顺查法、倒查法和抽查法。顺查法:是以所查课题的起始年代为起点,由远而近按时间顺序查找文献的方法,适合于大课题的检索。优点是查全率高,缺点是工作量大。倒查法:是由从最新的文献开始,由近到远进行查找的方法。特点是效率高,查得的文献比较新颖,时常用于科技查新。抽查法:是根据检索需求,抓住课题研究开展迅速、出版文献较多的时间段进行集中检索。用这种方法能获得一指具有代表性、反映学科开展水平的文献。50③追溯法:利用文献末尾所附的参考文献为线索查找文献的方法,这种检索方法基于文献之间的引用和被引用揭示了文献主题之间存在着某种内在的联系。追溯引文法:先查出一批与检索课题有关的文献,再以这批文献后面的参考文献作为线索,查找文献的方法。引文索引法:利用引文索引,从被引文献开始查找引用它的全部论文的方法。④交替检索法:间接检索法和追溯法的结合。先利用检索工具查得一批相关文献,然后再利用这批文献所附的参考文献进行追溯查找,如此交替使用,直至满足检索需求为止。514.确定检索词

①概念的分析:任何一个特定的检索课题,往往都是用假设干个概念表达的,将检索课题从不同角度对课题内容进行概念分析,并针对每一个概念,选择尽可能多的检索词。主题概念转化而成的检索词应能准确、完整地表达检索课题的内容。如:检索课题:“土壤环境条件对豆科作物固氮作用的影响〞土壤环境、豆科作物、固氮作用——漏检我们应利用自已所学的专业知识对课题进行深入细致的分析,把那些与课题关系密切、能全面、准确表达课题内容实质的词一起作主题词。决定土壤环境条件的温度、湿度、PH值等;豆科作物中的大豆、花生等;固氮作用中起重要作用的根瘤菌、固氮菌等。52②隐含概念的分析

课题的隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能够提炼出能够确切反映课题内容的检索概念。如:检索“人造金刚石〞方面的文献,其中“人造〔manmade〕的含义包括有“人工合成〔synthetic〕在内,单项选择用“manmade〞检索会漏掉许多有用的文献;检索“古代家具设计〞的相关文献古代包括明代、清代、宋代等朝代,不能仅以古代作为检索词。53③确定检索词的规那么

a.要用哪些词?同义词应尽量选全:同一概念的几种表达式同一名词的单数、复数、动名词、过去分词等用截词解决,如:child,children标准称谓、俗称、全称、简称等,如:盘丽鱼俗称七彩神仙鱼充分利用选定主题概念的上位或下位概念,找不到课题对应的主题词时,可采用最近一级的上位词。如:“山核桃产品加工〞方面的文章,如果“山核桃加工〞没有检索记录的话,就得选“核桃加工〞作检索词充分考虑相关的词,如研究三带双锯鱼的生活习性,假设找不到相关的文献,可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论