计算机信息检索基础知识_第1页
计算机信息检索基础知识_第2页
计算机信息检索基础知识_第3页
计算机信息检索基础知识_第4页
计算机信息检索基础知识_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机信息检索基础知识第一页,共五十九页。计算机检索是指检索者在计算机终端上,将检索提问式按特定的检索指令输入计算机,计算机检索系统将检索提问式与数据库中的文献特征项进行匹配比较,并将符合检索提问式的文献记录输出,由计算机显示或打印的过程。第二页,共五十九页。计算机技术用于信息检索的历程:单机批处理检索阶段:1946年,世界上第一台数字式电子计算机诞生,1951年,美国麻省理工学院开始对利用计算机代码化文摘进行可行性研究。这一阶段也称为脱机检索时期,一是单机由专人操作,用户不能人机见面;二是只能进行批处理不能即问即答。联机检索阶段

1960年,美国国家医学图书馆开始建立“医学文献分析与检索系统”。网络化检索阶段

20世纪80年代中期,美国国家科学基金会计算机网络(NSFnet)将各地的一些大学、科研机构及政府机构的局域网络联结成一个全国性的计算机信息网络。

进入90年代,世界各国在仿效NSFnet建立全国性文献信息计算机网络基础上,设法与美国联网,因而产生了国际计算机互联网络——Internet。第三页,共五十九页。第一台计算机

1946年,世界上第一台数字式电子计算机ENIAC发明成功,标志着人类信息革命的开始。但它尚不成熟,主要用于科技计算,而且计算处理结果并不完全可靠。第四页,共五十九页。计算机检索工具检索工具:指的就是二次文献或二次文献数据库。是用以报道、存储和查找文献信息的一切工具与设备。文献数据库:以各种类型的原始文献为素材,在广泛收集、筛选、分析的基础上,用选定的检索语言进行描述和标引,并按特定规则组织编排而成。第五页,共五十九页。计算机检索特点(1)检索速度快:与手工检索相比,计算机检索能提高检索效率,节省时间和人力。例如:利用DIALOG联机系统检索美国“化学文摘(CA)”从1967至今的数据库,一般一个课题只用3-4min左右,用光盘数据库检索也不超过10-15min,但用手工检索《CA》的累积索引和卷期索引,一个至少要花上几天的时间。第六页,共五十九页。计算机检索特点(2)检索途径多:因为计算机检索系统对数据库记录的许多字段都做了索引,有的系统甚至对每个字段都做了索引,所以这些字段均可作为检索入口。

第七页,共五十九页。计算机检索特点(3)使用方便:因为计算机检索采用灵活的逻辑运算和后组式组配方式,便于进行多元检索和多途径检索。检索者可选定文献记录的任何可检字段作为检索途径,而且有些字段(如篇名、文摘字段)采用了文中自由词查找的方式,更是便于用户掌握。第八页,共五十九页。计算机检索特点(4)检索范围广:计算机检索能提供远程检索,所以检索数据库的范围不仅仅局限在本馆所拥有的数据库。另外,联机联网系统中含有大量的数据库,其主题涉及各个学科和生活的各个领域。例如:dialog联机检索系统中有数百个数据库,一个数据库收有数百万,甚至上千万条纪录。OCLC联机检索系统中拥有多种类型的数据库,收有数万种期刊、图书、会议记录等文献记录。第九页,共五十九页。计算机检索特点(5)检索内容新、时效性强:联机检索系统的数据库定期更新数据,且更新的周期也逐步加快。有每月更新,每周更新,有的数据库甚至每天更新。第十页,共五十九页。计算机检索技术布尔逻辑算符:与、或、非位置算符:W、N截词符:无限截词符、有限截词符制定计算机信息检索策略检索效果的评价:评价指标第十一页,共五十九页。BA

A∩B

A*BAandB交集A∩B与 and*

属于集合A且属于集合B的元素组成的集合。布尔逻辑运算“与”第十二页,共五十九页。举例查找“计算机控制啤酒生产过程”课题的相关信息。检索的文献记录中必须同时含有A(计算机)、B(控制)、C(啤酒)才算命中,其检索式为:A*B*C或:AANDBANDC第十三页,共五十九页。CNKI高级检索—逻辑“与”演示第十四页,共五十九页。CNKI高级检索—逻辑“与”演示第十五页,共五十九页。ABA∪BA+BAORBAB并集A∪B或OR+属于集合A或者属于集合B的元素组成的集合。布尔逻辑运算“或”

第十六页,共五十九页。举例查找国外有关电视机的资料则检索式为:television+TV(televisionORTV)文献记录中只要有television或TV、或者二者兼有,均符合检索条件。第十七页,共五十九页。NSTL—逻辑“或”检索演示第十八页,共五十九页。NSTL—逻辑“或”检索演示第十九页,共五十九页。BA

A-BANOTB差集A-B非NOT-属于集合A而不属于集合B的元素组成的集合。布尔逻辑运算“非”第二十页,共五十九页。举例查找“除蛋白酶外的各类酶制剂”的资料。检索的文献记录中必须含有A(酶),而不含有B(蛋白酶)才算命中其检索式为A-B(ANOTB)。第二十一页,共五十九页。NSTL—逻辑“非”检索演示第二十二页,共五十九页。NSTL—逻辑“非”检索演示第二十三页,共五十九页。逻辑算符优先次序注意:利用布尔逻辑三种算符检索时,有时会同时用上,计算机会按优先顺序自动完成算符运算。其中NOT优先级最高,AND次之,OR的最低改变优先级可在检索式中添加括号。例:(计算机OR电脑)AND控制AND啤酒第二十四页,共五十九页。位置算符检索与位置算符位置算符:是在检索式中用于表示检索词之间位置关系的符号。包括在记录中的顺序和相对位置。它能避免布尔逻辑算符不考虑检索词位置关系而引起的检索误差。布尔逻辑检索考虑的是:检索词在命中记录中是否出现,而不考虑其位置关系。第二十五页,共五十九页。位置算符例如:要查找“食品添加剂的制备”的相关文献用逻辑算符与列出检索式为:“食品AND添加剂AND制备”命中记录中既有“食品添加剂制备”的文献,也有“含有添加剂食品的制备”的文献,结果2与检索要求不附。如果通过与位置算符配合使用,可以减少检索误差。请注意:不同的联机检索系统所使用的位置算符的种类和功能有时不完全相同。第二十六页,共五十九页。常用的位置算符有以下几种①(W)算符(WITH)表示两词相邻,词序不能颠倒,中间不得插入其他词、字母或代码,但允许有空格或标点符号。

②(nW)算符(nWORD)表示两词中间可插入n个词,但它们之间的顺序不可颠倒。

③(N)算符(NEAR)表示两词相邻,不得插入其他词,但词序可以颠倒。④(nN)算符(nNEAR)表示两词中间可以插入n个词,且词序可以颠倒。第二十七页,共五十九页。例如Computer(W)aided(W)design可检索出含有Computeraideddesign的文献记录Laser(1W)printer可检索出含有Laserprinter和lasercolorprinter的文献记录Computer(N)network可检索出含有Computernetwork、networkcomputer形式的文献记录第二十八页,共五十九页。截词符检索与截词算符截词符检索:计算机检索外文数据库时,运用检索词的词干或不完整词形进行查找的过程称为截词检索。在英文词汇中,只要在词干上加上不同的前缀或后缀,就可以派生出许多相近或不同的词汇。检索者将词干相同、意思相近的词全部输入计算机,既麻烦又容易出错。计算机检索系统采用了截词检索功能,即在检索词的词干上加一个截词符号,以表示对该词干的各种词性的一系列词进行检索。第二十九页,共五十九页。截词方式按截断字符数量分:有限截词无限截词按截断部位分:前方一致后方一致中间一致中间不一致第三十页,共五十九页。有限截词符①有限截词用“?”作截词符,将n个截词符“?”放在检索词的词干中或词尾可能变化的位置上。n个“?”表示截词的位数为0~n个字符。例如:stud?--则检出有study等的记录。stud??--则检出有studio等的记录。stud???--则检出有studentstudied等的记录。第三十一页,共五十九页。无限截词②无限截词:在检索词干后加一个“*”(也有的数据库用“?”),表示该词词尾允许变化的字符数不受任何限制。例如:

“comput*”,则可检出有computer、computing、computers、computeriation等词的记录。

第三十二页,共五十九页。液化:LiquefactionLiquefyLiquescence液体:LiquitLiqu*第三十三页,共五十九页。计算机检索策略(难点和重点)计算机检索策略:是指利用计算机进行检索时,为实现检索目标而制订的检索方案或对策。手工检索过程是由人们用手查、眼看、脑子作判断而完成的,它往往只存在于检索者的脑子里,所以不必写成书面的表达语句,并且可以边查找边考虑,灵活地改变检索策略。第三十四页,共五十九页。计算机检索策略计算机检索信息时,检索提问与文献标识之间的对比匹配工作是机器进行的,必须拟定周密的检索策略,用计算机能够理解和运算的形式加以表达,然后交计算机执行。因此机检时检索策略的正确与否就显得尤为重要。(例如)吸铁石—磁石---磁铁第三十五页,共五十九页。磁铁第三十六页,共五十九页。第三十七页,共五十九页。第三十八页,共五十九页。实施计算机检索过程:(1)认真分析课题,明确课题含义(2)选择数据库(3)确定检索途径和检索词(4)组配各检索词第三十九页,共五十九页。认真分析课题,明确课题含义:明确课题含义例如:“计算机声音身份识别技术”是指利用说话者的声音的声纹、频率等特征确定其身份,该技术用于案件侦破等,不是根据记录的声音由电脑识别理解其含义;“电子垃圾的处理回收”指的是废弃电脑、手机的处理,不是“垃圾电子邮件的处理”。明确自己的情报需求和检索目的即明确自己研究的课题是攻关型的还是探索型的,对信息查找的指标要求是查准、查全还是查新。同时还要弄清所需文献信息的类型、文种、时间范围等。第四十页,共五十九页。选择数据库:根据上述分析,结合各数据库的收录数量、年代范围、标引质量、有无全文等情况,选择适合的一个或多个数据库。第四十一页,共五十九页。

在检索词相同的条件下,选择不同检索途径的结果差异很大,因此在要求尽可能多的查出文献的情况下,往往需要同时使用多种检索途径。确定检索途径第四十二页,共五十九页。一般数据库都提供多种检索途径例如:文章篇名(标题)、摘要、关键词、主题词、全文、作者、作者单位、文献类型等,检索某一课题的文献,应当根据数据库的具体情况和检索目的确定检索途径。中文一般选择“篇名”或“关键词”外文一般选择“摘要”。第四十三页,共五十九页。数据库提供多个检索项(入口,检索途径)第四十四页,共五十九页。检索词的选择检索词的选择:原则上要选择能代表课题含义的检索词,必要时可以先查阅有关工具书理解课题含义或手检几篇相关文献作为机检选词的参考。对一个课题,不应该只从现成的课题名称中抽取检索词或词组,应对课题名称进行切分、删除、替换、补充,确定真正能代表课题意义的检索词,从而达到最佳检索效果。第四十五页,共五十九页。切分(1)切分:是对检索课题包含的词进行最小单元的分割。例如:对课题“条形糖果包装机的设计”进行词的最小单元切分:

条形糖果包装机的设计

↓切分

条形糖果包装机的设计

注意有的词拆分后将失去原来的意思时,不应拆分。如北京大学不可拆分为“北京”和“大学”。第四十六页,共五十九页。删除(2)删除:对过分宽泛、无实质意义的连词、虚词应予以删除。如“条形糖果包装机的设计”中的“的”、“设计”。与“设计“类似的词有:“研究”、“探讨”、“方法”等,另外,也要删除那些存在蕴涵关系的词,如“心脏病患者的治疗”中的“患者”。第四十七页,共五十九页。替换补充(3)替换:对表达不清晰或容易造成检索误差的词予以替换。如“绿色包装”中的“绿色”可替换成“环保”、“可降解”等表达明确、不易造成混淆的词。(4)补充:进行同义词、反义词、相关的扩充,这些词的加入,会避免检索过程中的许多漏检情况。此外,还要找出隐含的检索词(概念)。第四十八页,共五十九页。举例例如“西安事变的起因和影响”隐含着“张学良”和“抗日民族统一战线”等。经过上述步骤后,确定了检索词。第四十九页,共五十九页。(4)组配各检索词:利用检索符号将检索词组配起来,设计出计算机可识别、执行的检索表达式。

(聚氯乙烯orPVC)and加工工艺许多数据库的“高级检索”就起这个作用,可以同时选择“检索词”,“检索运算符号”和“检索途径”。

第五十页,共五十九页。(5)执行检索指令:对数据库进行查找,并输出检索结果。(6)分析检索结果,完善检索表达式:

重新确定检索词;选用“上位词”或“下位词”:选用其他相关检索词;更换检索途径等,然后再执行检索,直到获得满意的检索结果为止。第五十一页,共五十九页。检索“企业无形资产评估”的相关文献,检索式是:

企业*无形资产*评估为了扩大检索,可以再用下列检索式:

企业*商标*评估企业*知识产权*评估“知识产权”和“商标”是“无形资产”的下位词“无形资产”是“知识产权”和“商标”的上位词第五十二页,共五十九页。(7)如果检索结果是没有全文的二次文献,而且本院图书馆也没有收藏原文,还要根据文献线索用一定方法获得一次文献,也就是”全文”,其方法有:检索全文数据库检索联合目录或专门进行原文提供服务的机构(如:国家科技图书文献中心)的目录,找到收藏原文的地点(其他图书馆等)联系得到全文检索其他图书馆目录,确认收藏后联系获得。

第五十三页,共五十九页。检索效果的评价在实际检索时,我们总是希望将检索系统中与所需信息相关的全部记录都检出来,同时这些记录均是我们所需要的,这就涉及到检索效果的问题。所谓检索效果:是指检索系统检索的有效程度,它反映检索系统的能力,包括技术效果、经济效果。技术效果:指检索系统在检索时满足检索要求的有效程度。经济效果:主要指检索系统完成检索服务的成本及时间。第五十四页,共五十九页。检索效果的技术评价指标常用技术指标:查全率和查准率

查全率:反映所需文献被检出的程度;查准率:则反映系统拒绝非相关文献的能力。两者结合起来反映检索系统的检索效果。查全率与查准率之间存在互逆关系,即提高系统的查全率,会使查准率下降,反之亦然。第五十五页,共五十九页。如何计算?查全率:

检出的相关文献量

a

R=---------------------×100%=——×100%

检索系统中相关文献总量

a+c

查准率:

检出的相关文献量

a

P=---------------------×100%=———×100%

检出的文献总量

a+ba:检出的相关文献量

b:检出的非相关文献c:未检出的相关文献量第五十六页,共五十九页。提高查全率的方法提高检索词的泛指度(热水器-燃气热水器)选全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论