




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章计算机检索理论基础计算机检索定义 简称机检,指利用计算机查找文献信息的过程 。原理 计算机将输入机检系统的检索提问特征标识(检索词)或用布尔逻辑运算符(and、or、not)联结起来的检索提问式与已存储在系统中的文献特征标识(标引词如:主题词、分类号和类目名称等)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。 优点:速度快,效率高(CA、BA等尚在印刷中就已输入数据库了);检索途径多(除了主题、著者、分类外,还有出版年、著者单位、文献类型、特征词等);用户界面友好,使用方便(可对任意个检索词进行逻辑组配,并且进行自动扩检);资源更新快(网上资源可以每日更新);直接
2、输出检索结果(打印或拷贝);信息内容的广泛、访问快速且搜索具有网络性。中国学术期刊网缺点:检索费用较高;缺乏思维能力和灵活性;文献回溯检索能力不强;网上检索,线路紧张时速度慢。一、计算机信息检索的发展历程 脱机检索阶段联机检索阶段 光盘检索阶段网络化检索阶段脱机检索阶段(Offline Retrieval)时间:20世纪50年代60年代1954年,美国海军军械实验站图书馆研制出计算机信息检索试验系统。检索人员检索策略成批检索用户不足: 地理上的障碍;时间上的迟滞;封闭式的检索联机检索阶段(Online Retrieval )时间:20世纪60年代80年代1964年,美国医学图书馆开始了MEDL
3、ARS联机信息检索系统商业化服务,使计算机信息检索进入了新的历史发展阶段。用户 检索策略“人机对话” 获取所需信息 著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。 联机检索(Online Retrieval )联机检索的优缺点优点 检索速度快,效率高; 检索范围广泛、全面; 检索途径多,方便、灵活; 检索内容新,实时性强; 检索辅助功能完善(人机对话、检索结果输出方式灵活,输出格式多样等)。缺点 检索费用高; 对检索系统及其文档(数据库)的收录、标引、特点等问题较难了解、熟悉; 检索技术
4、和技巧不易掌握。光盘检索阶段时间:20世纪80年代以来1985年,美国研制出第一个推向市场的光盘产品BiblioFile (LC-MARC)数据库及其编目软件系统,它收藏了美国国会图书馆自1965年以来的全部英语文献书目,以及19001964年的部分书目记录。 1986年,我国国家海洋局海洋科技情报研究所首次引进光盘数据库ASFA(水科学与渔业文摘) 。 储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),可随时修改检索策略而具有很高的查全率和查准率等优点。CA、BA、SCI、CAJ光盘检索阶段单机光盘检索 联机光盘检索光盘库(2-6个
5、光驱,多达500光盘)/光盘塔(8-64个光驱)网络化检索阶段时间:20世纪60年代,90年代以来1972年,MEDLINE率先加入TYMNET通信网,然后又加入TELENET通信网。随后,DIALOG、ORBIT等系统也相继进入网络,从而使信息检索进入到网络检索阶段。联结了一百多个国家、几万个信息网络、几百万台主机、几千万个终端用户,并能够跨越时空,进行实时信息检索、资源共享的国际性超级计算机网络。目前,90%的国际联机检索系统都已进入INTERNET,世界上许多国家(包括中国)都从INTERNET上获取重要的科技和经济信息资源 。二、检索理论基础 1.检索技术及其实现 检索技术包括基本布尔
6、逻辑组配、截词、位置算符、字段检索等。布尔逻辑(boolean operators)组配是现行计算机检索的基本技术,主要通过“和(and,*)” 、“或(or,+)”、“非(not, -)”等将检索词联络起来,常见运算次序是() and not or 截词(truncation)用截词符号“?”、“*”、“$”加再检索词的前后和中间,以检索一组概念相关或词根相同的词。后截断 EG:librar*,可检library、libraries、librarian等 主要用于: 词的单复数,company、companies; 年代检索,199?; 词根检索,socio*,可检sociobiology、
7、socioecology、sociolinguistics、sociology等20多个词汇。有限截断和无限截断截词(truncation)前截断 EG:*magnetic,可检electro-magnetic、 electromagnetic、thermo-magnetic、thermomagnetic等,使用很少。中截断 EG:organi?ation,可检organization、organisation,查找英美不同拼法最有效。EBSCO数据库在Dialog系统中,用?作为截词符,主要有: ? wom?n women woman ? comput? Computer位置算符A(W)B
8、AB两词相连且按照输入顺序排列。 EG:education(W)school education school, education schoolsA(nW)B AB中间最多允许插入n个词顺序不变 EG: education(1W)school education school, education schools education and music schoolA(S)B AB两词在同一子字段中。 EG:education SAME school 位置算符A(N)B AB相连,可颠倒顺序 EG:education(N)school education school, education
9、schools school of educationA(nN)B AB两词最多相隔n词且顺序不限 EG: education(1N)school education school, education schools school of education, education and music school school of music and educationFirstSearch数据库字段检索字段检索即指定检索词出现的字段,包括前缀限制符和后缀限制符。常用前缀限制符:AB、AU、 CS 、DT、FT、ISSN、JN、KW、LA 、PY、TI;后缀限制符将字段代码放在检索词后。EG
10、:JNWall Street education(W)school/ABFirstSearch数据库三、计算机检索基本程序 其一般流程是: 分析课题 选择数据库 列出检索词设计检索提问式上机检索 不满意 设计可能需要的修整方案1.分析课题(1)弄清用户信息需求的目的和意图。(2)分析课题涉及的学科范围、主题要求。分析课题的内容实质 ; 析出误假主题概念 ; 析出被隐匿的主题概念 ;(3)课题所需信息的内容及其特征。(4)课题所需信息的类型,包括文献类型、出版类型、年代范围、语种、著者、机构等。(5)课题对查新、查准、查全的指标要求。2.选择数据库(1) 数据库收录的信息内容所涉及的学科范围 ;
11、收录文献的来源、学科特点(2) 数据库收录的文献类型、数量、时间范围以及更新周期;(3) 数据库所提供的检索途径、检索功能和服务方式。收费标准及能否索取到原文3.列出检索词(1) 先选用主题词。当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词,从而可获得最佳的检索效果。注意上位、下位,关键词:注意同义词、近义词、英美不同拼法 和禁用词(2) 选用数据库规定的代码。许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。例如,世界专利文摘数据库中的分类代码,化学文摘数据库中的化学物质登记号。(3) 选用常用的专业术语。在数据库没有专用的词表或词表中没
12、有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索词。(4) 选用同义词与相关词。同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。4.设计检索提问式构建检索提问式时,应正确运用逻辑组配运算符:(1)使用逻辑“与”算符可以缩小命中范围,起到缩检的作用,得到的检索结果专指性强,查准率也就高。(2)使用逻辑“或”算符可以扩大命中范围,得到更多的检索结果,起到扩检的作用,查全率也就高。(3)使用“非”算符可以缩小命中范围,得到更切题的检索效果,也可以提高查准率,但是使用时要慎重,以免把一些相关信息漏掉。另外,在构建检索提问式时,还要注意位置算符、截词符等的使用方
13、法,及各个检索项的限定要求及输入次序等。5.上机检索,调整检索策略1)检索结果信息量过多产生检索结果信息量过多的原因可能有以下两点:一是主题词本身的多义性导致误检;二是对所选的检索词的截词截得太短。在这种情况下,就要考虑缩小检索范围,提高检索结果的查准率。调整检索策略的方法如下:(1)减少同义词与同族相关词;(2)增加限制概念,采用逻辑“与”连接检索词;(3)使用字段限定,将检索词限定在某个或某些字段范围;(4)使用逻辑”非”算符,排除无关概念;(5)调整位置算符,由松变严,(F) (W)。2)检索结果信息量过少造成检索结果信息量少的原因有以下几点:首先,选用了不规范的主题词或某些产品的俗称,商品名称作为检索词;其二,同义词、相关词、近义词没有运用全;其三,上位概念或下位概念没有完整运用。针对这种情况,就要考虑扩大检索范围,提高检索结果的查全率。调整检索策略的方法如下:(1)选全同义词与相关词并用逻辑”或”将它们连接起来,增加网罗度;(2)减少逻辑“与”的运算,丢掉一些次要的或者太专指的概念;(3)去除某些字段限制;(4)调整位置算符,由严变松,(W) (F)。6.输出检索结果根据检索系统提供的检索结果输出格式,选择需要的记录以及相应的字段(全部字段或部分字段),将结果显示在显示器屏幕上、存储到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文具批发商的市场营销预算编制方法考核试卷
- 油墨市场分析考核试卷
- 棉花仓储环境适应性分析考核试卷
- 文化用品租赁业务客户投诉处理考核试卷
- 煤制清洁燃料技术发展趋势考核试卷
- 汽车发电机轴承与整流器维修考核试卷
- 教育数据分析仪器考核试卷
- 涂料品牌定位与市场差异化考核试卷
- 市场调研与数据分析技巧考核试卷
- 测绘技术在国家公园规划中的应用考核试卷
- 《基于拉曼分布式光纤传感的高压电缆温度监测研究》
- 五年级下册书法教案范文(7篇)
- 荧光-光谱完整版本
- 《起重机械安全技术规程(第1号修改单)》
- 专精特新战略导向赋能中小企业成长的机制研究
- 小学生主题班会开学第一课奥运(课件)
- 辽宁大连2023年中考语文现代文阅读真题及答案
- 2024年信息安全系统管理系统规章制度
- 人工智能教学设计《图像识别教学设计》
- 公司场地分割协议书的
- Unit4OurWorldTopic3SectionD教学设计2024-2025学年仁爱版英语八年级上册
评论
0/150
提交评论