计算机信息检索基础课件_第1页
计算机信息检索基础课件_第2页
计算机信息检索基础课件_第3页
计算机信息检索基础课件_第4页
计算机信息检索基础课件_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文献信息检索

InformationRetrieval第二讲计算机信息检索基础1“信息爆炸”知识的门类和数量迅速倍增知识的载体和传输方式日新月异每日新增网页近百万张最新统计:全球网站数量愈突破2.5亿个

文献增速70年代每7年翻一番

1999年每1年半翻一番

2010年每10小时翻一番2利用计算机对信息和数据的高速处理能力来实现信息的存储与检索。3一、计算机信息检索原理计算机信息检索:用户利用数据库获取所需信息的过程。即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。4计算机信息检索特点检索速度快效率高检索方便实现资源共享检索内容新数量大手段灵活途径多样快速准确地获得结果5缺点:收费、有时间限制、回溯性差,无法查久远的或最新的文献。6二、检索软件类型检索软件即用户与系统对话的界面,

可分为以下两种:指令型通过直接输入指令进行检索菜单型通过屏幕菜单引导完成检索。7指令检索示例肝肿瘤and(铜or铁)andpy>=20058菜单检索示例9三、数据库数据库定义数据库结构数据库类型101.数据库定义相互关联的数据在计算机外存储器上有序的集合.112、数据库结构

FrameworkofDatabase数据库文档文档记录记录记录记录题名字段作者字段刊名字段地址字段题名字段刊名字段地址字段作者字段主题词字段关键词字段主题词字段关键词字段12字段名称及代码基本字段:

字段名称段码文摘(Abstracts)AB题目(TitleWord)TI主题词(Descriptor)DE标识词(Identifier)ID辅助字段:

作者(Authors)AU

作者单位(CorporateSource)CS

刊名(JournalName)JN

年代(PublicationYear)PY

133、数据库类型

typesofdatabases文献数据库数值数据库事实数据库多媒体数据库14文献数据库书目数据库全文数据库15书目数据库(bibliographicdatabase)存储二次文献,其检索结果是文献的线索而非原文。如BKSY16全文数据库(fulltextdatabase)存储一次文献提供原始文献全文

17数值数据库(numericdatabase)主要存储用数值表达的量化信息

WHO的世界卫生统计数据18事实数据库(factdatabase)主要存储三次文献(what、where、when、who、why、how)类信息《中国大百科全书》MarriamWebsterDictionary提供的《大不列颠百科全书》免费查询1920多媒体/超文本数据库

multimedia/hypertextdatabase同时存储声音、图像、文字等的超文本信息。21检索者如何让计算机实现自己的检索意图?22四、检索提问表达式检索提问表达式=检索词+运算符23(一)、检索词数码类

2007(年)

C19H33NO2HCL(分子式)

343.94(分子量)D665.2(分类号)

GNGY(基因代码)54-16-089(化学物质登记号)

字词类

获得性免疫缺陷综合征

AIDS

刘伟中国行政管理云南大学

3一乙酰基一5一羟甲基24布尔逻辑符字段限定符位置运算符通配符

短语符(二)、运算符25questions铁(痕量元素);李铁(人名);铁道医学杂志(刊名);上海铁道医学院,铁路医院(作者地址)……查找作者“黎明”的文章,结果包括了“…黎明”及“黎明…”的文章英语单复数的变异、英美拼法的不同、同义不同性词(词干相同后缀不同);音译外来词中文取词的不同26名称运算符逻辑关系举例作用逻辑与AND

*限定AANDB缩小逻辑或OR+等同AORB扩大逻辑非NOT-排斥ANOTB缩小布尔逻辑运算符

BooleanOperators27逻辑与ABAANDBA*B缩小检索范围,提高专指性。28示例糖尿病与高血压AB糖尿病高血压AANDB29逻辑或AORBA+BAB扩大检索范围,提高查全率。30示例政治、经济、宗教与伦理学的关系ACB(AORBORC)ANDD(A+B+C)*DD政治经济宗教伦理学31逻辑非ABANOTBA-B缩小检索范围,提高查准率。32示例非共产主义人生观B821.2(人生观、人生哲学中除共产主义人生观外的那一部份)A:人生观、人生哲学B:共产主义人生观AnotBA-B33逻辑运算次序布尔逻辑运算次序

布尔逻辑的运算就象数学中的四则运算的“先乘除后加减”一样,也有优先级的问题,它的优先级从高到低依次为:非(NOT)→与(AND)→或(OR)当然,括号最优先。因此,括号也称为优先符。优先符可以改变布尔逻辑的正常运算次序。如:信息+情报

NOT经济(信息+情报)NOT经济检索结果不同。34示例胃炎、胃溃疡、胃肿瘤与幽门螺杆菌的相关性(不要cagA,vagA)(胃炎or胃溃疡or胃肿瘤)and(幽门螺杆菌or幽门弯曲杆菌)not(cagAorvagA)35布尔逻辑的运算可以进行同类项的合并。如:A*B+A*C=A*(B+C)然而,在使用布尔逻辑时,必须注意以下几条交换规则:

A*B=B*AA+B=B+AA-B≠B-A362.截词检索以符号取代检索词(中、尾)的部分字符,从而检出相同词干和相同词根的词。截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:

截词符?中截一字符,后截断n个字符如wom?n可以检索出:woman,women又如computer?——以computer词干开头的词可以检索出:computer、computers、computing、computerize、computerise注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的截词符,大多数为“?”。37词中替代:名称运算符逻辑关系举例结果截词“?”(WildcardSymbol)替代单个字符曲安?德曲安耐德曲安奈德“*”TruncationSymbol替代任意多个字符肝炎*疫苗肝炎灭活疫苗肝炎减毒活疫苗示例138示例2词尾截断:

名称运算符逻辑关系举例结果截词符“*”TruncationSymbol替代任意多个字符computer、computers、computing、computerize、computerise

Comput*393、限制检索

在信息检索系统中,为了满足某种检索条件或达到某种精确程度,通常使用一些缩小或限定检索结果的方法。针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。后缀限制符例如:

/TI限在题目中查

/AB限在文摘中查

/DE限在叙词标引中查前缀限制符例如:

AU=限查特定作者

JN=限查特定刊名

LA=限查特定语种

PN=限查特定专利号

PY=限查特定年代40网络信息检索中可对文献信息类型进行限制

如在谷歌和百度搜索引擎中检索特定的文献类型:

“报告filetype:pdf”检索指定网址内的信息:

“报告site:”

以后会看到一些数据库通常都有年代/类型等的选择414.短语检索符(phrase)检索符“”用于检索固定短语或专有名词在短语或专有名词前后加双引号,系统将其按词组对待,不再将其分割按单词检索。

42示例“4-methoxy-salicylaldehyde”(4-甲氧基水杨醛)“文科文献信息检索”43运算符小结计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。布尔逻辑检索、截词检索、短语检索、字段检索几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。44五检索策略什么是检索策略在分析检索课题需求的基础上明确检索范围,选择检索途径,确定检索词和构建检索式的逻辑组配方法,通过试检或反馈进行调整,使检索结果体现用户目标的整个计划过程。45编制检索策略的过程1、分析课题,明确目的2、选择检索系统和数据库3、确定检索词及检索途径4、制定提问检索式5、调整检索策略461、分析课题,明确目的分析检索课题的基本方法与技巧:(1)分析检索课题的内容实质,界定范围必须准确充分地表达检索课题所需的实质性内容,如果表示的概念过大,必然造成大量误检;而表达的概念过小,则会发生大量漏检。例如,查找“中国新农村建设”方面的文献通过分析研究,检索人员了解到该课题实质上是要查找有关“农村医疗保障制度”的参考文献,如果按原题检索,由于概念太大,必然会造成大量误检。471、分析课题,明确目的(2)找出隐性的主题概念,并将抽象的主题概念转化成具体的概念如:“城市生活垃圾的处理”:处理一词在这包含了具体的处理方式:回收、再生等如:“中国-东盟自由贸易区成员国经济政策协调研究”协调一词也可以通过调和协和、妥洽、融合

、调解、协作等来表示,同时还可以利用(文莱、菲律宾、印度尼西亚、马来西亚、泰国、新加坡、越南、老挝、柬埔寨、缅甸)等相关概念来查找文献信息,对于英文文献的查找还要考虑到同义或词性变化的问题,如:coordinate、coordinated、coordinating、co-ordinated、conpatible、keeping、gowith等481、分析课题,明确目的(3)找出核心概念,排除无关概念和重复概念,简化逻辑关系以提高检索效果。如:排除课题中那些检索意义不大而且比较泛指的概念词,如“展望”、“发展趋势”、“现状”、“近况”、“生产”、“研究”、“应用”、“作用”、“方法”、“影响”、“效率”、“制造”、“结果”等等。例如:“干洗剂的近况及其使用”课题其核心概念是干洗剂491、分析课题,明确目的(4)明确概念之间的逻辑关系分析出单元概念后,还要搞清它们之间的逻辑关系,即不同概念之间是逻辑与的关系,而相同概念之间为逻辑或的关系。例:协作联盟联手联动协同开发orororor502、选择检索系统和数据库应根据课题分析结果、信息需求的各项要求,综合考虑检索系统的特点、学科范围、文献类型、数据库的专业范围、存储年限、检索费用、使用方法以及现有的检索系统和数据库资源,选用合适的检索系统和数据库。513、确定检索词及检索途径检索词是构成检索式的基本单元,是文献记录中的文献特征标识,可以说反映文献内容特征的主题词、自由词等。也可以是反映文献外表特征的作者、篇名等。检索途径即检索入口,计算机检索系统的检索途径也可分为反映文献信息内容特征和反映文献信息外部特征的两类检索途径。选择检索途径是与确定检索词相对应的,确定了检索词也就意味着选择检索途径。524、制定提问检索式检索式是检索策略的具体表述,是通过逻辑算符、位置算符、截词算符等把表达主题概念的各检索单元组配连接起来既能表达主题内容,又能为机器识别和执行的命令形式,也是决定检索策略的质量和检索效果的重要因素。53制定提问检索式实例检索“电子商务中的税法研究”方面的资料检索词:电子商务electroniccommerce,e-commerce

税法、税收taxlaw检索表达式:电子商务*(税法+税收)(electronicwcommerceORe-commerce)ANDtaxwlaw54制定提问检索式实例分析检索“中国城乡收入差距

”方面的文献检索词:城乡、城镇、区域:RuralandUrbanAreas,dualeconomicstructure收入差距:IncomeGap,IncomeInequality,incomedisparity,incomeallocation检索式:(城乡+城镇+区域)*收入差距(“RuralandUrbanAreas”OR“dualeconomicstructure”)AND(incomeGapORincomeInequalityORincomedisparityORincomeallocation)55制定提问检索式小结在编制中,应注意以下几点:第一,要仔细斟酌检索词。选词太专指,查全率低;太泛指则不能准确地表达提问的实质,查准率低。第二,根据检索词之间的逻辑关系和词之间关系,用适当的运算符把检索词连接组配起来。第三,要了解所查数据库的索引体系和检索用词规则。第四,要符合检索系统的功能及限制条件的规定。56制定提问检索式小结第五,要注意概念的分析。(算符使用正确但不能达到应有检索效果的例子很多。)例如,一个查找欧洲政府行政体制改革的题目,在列出检索词时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论