计算机信息检索基础_第1页
计算机信息检索基础_第2页
计算机信息检索基础_第3页
计算机信息检索基础_第4页
计算机信息检索基础_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 计算机信息检索基础 陈 强“信息爆炸信息爆炸”知识的门类和数量迅速倍增知识的载体和传输方式日新月异 每日新增网页近百万张 2010年全球网站数量突破11亿,2012年16.44亿 文献增速 70年代每7年翻一番 1999年每1年半翻一番 2013年每8小时翻一番一、一、 计算机信息检索原理计算机信息检索原理v 计算机信息检索:用户利用数据库获取所需信息的过程。计算机信息检索:用户利用数据库获取所需信息的过程。即:计算机将输入机检系统的用户提问标识(检索词)与已即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹存贮在系统中数据库内的文献

2、特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。中文献。v 缺点:收费、有时间限制、回溯性差,无法查久远的或最收费、有时间限制、回溯性差,无法查久远的或最新的文献。新的文献。检索特征标识检索特征标识 = = 系统中的信息特征标识系统中的信息特征标识 检索标识检索标识系统标识系统标识匹配一致匹配一致二、检索软件类型二、检索软件类型 检索软件即用户与系统对话的界面,检索软件即用户与系统对话的界面, 可分为以下两种:可分为以下两种:指令型指令型通过直接输入指令进行检索菜单型菜单型通过屏幕菜单引导完成检索。指令检索示例

3、指令检索示例肝肿瘤 and (铜 or 铁) and py=2005菜单检索示例菜单检索示例三、数三、数 据据 库库数据库定义数据库定义数据库结构数据库结构数据库类型数据库类型1.1.数据库定义数据库定义v相互关联的数据在计算机外存储器上有序的集合.2、数据库结构、数据库结构 Framework of Database数据库数据库文档文档文档文档记录记录记录记录记录记录记录记录题名字段题名字段作者字段作者字段刊名字段刊名字段地址字段地址字段题名字段题名字段刊名字段刊名字段地址字段地址字段作者字段作者字段主题词字段主题词字段关键词字段关键词字段主题词字段主题词字段关键词字段关键词字段文档(文档(

4、File)v数据库中一部分记录的集合综合性数据库多按学科划分文档记录记录(Record)v 数据库的基本信息单元,每条记录都描述了原始信息的各项外表特征和内容特征。字段(字段(Field)v组成记录的数据项(检索项),一个字段代表一项特征。文档记录字段字段名称及代码字段名称及代码基本字段: 字段名称 段码文摘(Abstracts) AB题目(Title Word) TI主题词(Descriptor) DE标识词(Identifier) ID辅助字段: 作者 (Authors) AU 作者单位(Corporate Source) CS 刊名(Journal Name) JN 年代( Public

5、ation Year ) PY 3 3、数据库类型、数据库类型 types of databases文献数据库文献数据库数值数据库数值数据库事实数据库事实数据库多媒体数据库多媒体数据库文献数据库文献数据库书目数据库书目数据库全文数据库全文数据库书目数据库书目数据库(bibliographic database)v存储二次文献,其检索结果是文献的线索而非原文。 如BKSY全文数据库(全文数据库(full text database)v主要存储一次文献v 提供原始文献全文 数值数据库(数值数据库(numeric database)v主要存储用数值表达的量化信息 WHO 的世界卫生统计数据事实数据库

6、(事实数据库(fact database)v主要存储三次文献(what、where、when、who、why、how)类信息中国大百科全书Marriam Webster Dictionary提供的大不列颠百科全书免费查询多媒体多媒体/ /超文本数据库超文本数据库multimedia/hypertext databasev同时存储声音、图像、文字等的超文本信息。检索者如何让计算机实现自己的检索者如何让计算机实现自己的检索意图?检索意图?四、检索提问表达式四、检索提问表达式检索提问表达式检索词检索提问表达式检索词运算符运算符(一)、检索词 数码类 2007(年) C19H33NO2HCL(分子式)

7、 343.94 (分子量) D665.2(分类号) GNGY(基因代码)54-16-089 (化学物质登记号) 字词类 获得性免疫缺陷综合征 AIDS 刘伟 中国行政管理 云南大学 3一乙酰基一5一羟甲基布尔逻辑符布尔逻辑符字段限定符字段限定符位置运算符位置运算符通配符通配符 短语符短语符(二)、运算符(二)、运算符 questions 铁(痕量元素);李铁(人名);铁道医学杂志(刊名);上海铁道医学院,铁路医院(作者地址) 查找作者“黎明” 的文章,结果包括了“黎明”及“黎明”的文章 英语单复数的变异 、英美拼法的不同、同义不同性词(词干相同后缀不同);音译外来词中文取词的不同名 称运算符逻

8、辑关系举例作用逻辑与 AND AND * *限定A AND B缩小逻辑或OR OR + +等同A OR B扩大逻辑非NOT NOT - -排斥A NOT B缩小1.布尔逻辑运算符布尔逻辑运算符Boolean Operators逻辑与逻辑与ABA AND BA*B缩小检索范围,提高专指性。示例示例糖尿病与高血压AB糖尿病糖尿病高血压高血压A AND B逻辑或逻辑或A OR BA+BAB扩大检索范围,提高查全率。示例示例v政治、经济、宗教与伦理学的关系政治、经济、宗教与伦理学的关系ACB(A OR B OR C) AND D(A+B+C)*DD政治政治经济经济宗教宗教伦理学伦理学逻辑非逻辑非ABA

9、 NOT BA-B缩小检索范围,提高查准率。示例示例v 非共产主义人生观 B821.2(人生观、人生哲学中除共产主义人生观外的那一部份)A:人生观、人生哲学B B:共产主义人生观:共产主义人生观A not BA-B逻辑运算次序逻辑运算次序v 布尔逻辑运算次序 布尔逻辑的运算就象数学中的四则运算的“先乘除后加减”一样,也有优先级的问题,它的优先级从高到低依次为: 非(NOT)与(AND)或(OR) 当然,括号最优先。因此,括号也称为优先符。优先符可以改变布尔逻辑的正常运算次序。 如:信息+情报 NOT 经济 (信息+情报)NOT 经济 检索结果不同。示例示例v胃炎、胃溃疡、胃肿瘤与幽门螺杆菌胃炎

10、、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性的相关性 (不要(不要 cagA ,vagA)(胃炎 or 胃溃疡 or 胃肿瘤) and (幽门螺杆菌 or 幽门弯曲杆菌) not (cagA or vagA) 布尔逻辑的运算可以进行同类项的合并。 如:A*B+A*CA*(B+C) 然而,在使用布尔逻辑时,必须注意以下几条交换规则: A*B=B*A A+B=B+A A-BB-A2. 截词检索截词检索v 以符号取代检索词(中、尾)的部分字符,从而检出相同词干和相同词根的词。v 截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:v 截词符截词符? 中截一字符,后截断中截一字符,

11、后截断n个字符个字符 v 如如 wom?n 可以检索出:可以检索出: woman, women v 又如又如 computer?以以computer词干开头的词词干开头的词 可以检索出:可以检索出:computer、computers、computing、computerize、computerisev 注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的截词符,大多数为“?”。 % *v 后方一致(前截断):“%国庆国庆” 将检索出所有字段为将检索出所有字段为张国庆张国庆、欧阳国庆欧阳国庆、国国庆庆等的记录。等的记录。 v 前方一致(后截断) :如:如:“热电材料热电材料% ”将检索

12、出将检索出热电材料梯度化热电材料梯度化、热电材料及热电材料及其梯度化其梯度化等的记录。等的记录。词中替代:名称运算符逻辑关系举例结果截词“?”(Wildcard Symbol)替 代 单 个字符曲安?德曲安耐德 曲安奈德“ * ”Truncation Symbol替代任意多个字符肝炎*疫苗肝炎灭活疫苗 肝炎减毒活疫苗示例示例 1 1示例示例 2 2词尾截断: 名称运算符逻辑关系举例结果截词符“ * ”Truncation Symbol替代任意多个字符computer、computers、computing、computerize、computerise Comput* 以Dialog Medl

13、ine 数据库为例: With 运算符为“()” 表示检索词紧密相连,中间不能插入任何字母或词,但允许有“ ” 或“”,前后顺序不能颠倒。 如 X()ray 表示 X ray 或 X-ray由于逻辑算符不能限定检索词的位置关系,因此有些数据库和因特网检索系统采用了位置算符来加以限制3、 邻近检索邻近检索(2)word 运算符为(nW)(n为自然数) 表示两词之间最多可插入0-n个词 前后顺序不能颠倒。 如:control(1w)system可以检索出“control system” “control in system”等的信息。(3) near 运算符为“(nN)” 表示检索词相邻,中间可插

14、入0n个词,前后顺序可以颠倒 如 infusion(1n)urokinase 表示: infusion of urokinase urokinase infusion(4) sentence 运算符为“(S)” 表示检索词出现在同一个句子中.(5) field 运算符为“(f)” 表示两个词必须出现在同一字段内.Example 1vHealth(s)environment?vRecently environmental control is regarded as important for good human health conditions and toxic substances,

15、including carcinogens and endocrine disruptors should be eliminated from our living environment Example 2vHealth(f)environment? vAbstract: Effects of environmental changes in a stair climbing intervention: generalization to stair descent is available for human health v这些位置算符可以一起使用,顺序为(W)(S)(F) 。v实践上

16、这些算符都是扩大检索范围。 邻近检索小结邻近检索小结4、 限制检索限制检索 在信息检索系统中,为了满足某种检索条件或 达到某种精确程度,通常使用一些缩小或限定检索结 果的方法。针对特定年代、特定类别、特定检索点等 作限制,包括前缀限制符和后缀限制符。后缀限制符例如:后缀限制符例如:/TI /TI 限在题目中查限在题目中查/AB /AB 限在文摘中查限在文摘中查/DE /DE 限在叙词标引中查限在叙词标引中查前缀限制符例如:前缀限制符例如:AU= 限查特定作者限查特定作者JN= 限查特定刊名限查特定刊名 LA= 限查特定语种限查特定语种PN= 限查特定专利号限查特定专利号PY= 限查特定年代限查

17、特定年代 字段限制符字段限制符v数据库中主要用于指定检索字段数据库中主要用于指定检索字段 类型运算符逻辑关系格式精确检索= = 精确限定代码代码= =检索词检索词AU=AU=黎明黎明模糊检索inin 包含限定检索词检索词 in in 代码代码黎明黎明 in AUin AUv网络信息检索中可对文献信息类型进行限制 如在谷歌和百度搜索引擎中 检索特定的文献类型: “报告 filetype:pdf ” 检索指定网址内的信息: “报告 site:” 以后会看到一些数据库通常都有年代/类型等的选择5. 短语检索符短语检索符 (phrase)v检索符 “ ”v用于检索固定短语或专有名词v在短语或专有名词前

18、后加双引号,系统将其按词组对待,不再将其分割按单词检索。 示例示例v“4-methoxy-salicylaldehyde”(4-甲氧基水杨醛)v“PCR”6、 网络检索网络检索v 短语检索(半角双引号)v 自动纠错检索(如:李熬,你是不是要检索李敖)v 自动转换检索(如:汉语拼音转换成文字)v 自然语言检索v 概念检索(同义词/近义词/狭义词,如搜索引擎Excite)v 相关检索7、 其它检索的表述其它检索的表述v 二次检索/在结果内检索v 精确检索v 模糊检索v 跨库检索/一站式检索v 扩展检索(类似搜索引擎的概念检索)v 一般检索/高级检索/专家检索/命令检索运算符小结运算符小结v 计算机

19、信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。v 布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索、网络信息检索v 几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。五、其他检索功能五、其他检索功能加权检索加权检索聚类检索聚类检索扩展检索扩展检索全文检索全文检索扩展检索扩展检索v 系统基于词表,自动或半自动地对多个检索词执行逻辑 “或” 运算,扩展检索包括:同同义义词词扩扩展展下下位位词词扩扩展展-下位词扩展上位词上位词下位词下位词上位词扩展检索上位词扩展检索 Computer(主题词) v电脑电脑v计算机计算机同同义义词词-同义词扩展全文检索全文检索v以原始记录中的词语为检索对象v直接使用自由词v位置运算符

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论