计算机信息检索原理_第1页
计算机信息检索原理_第2页
计算机信息检索原理_第3页
计算机信息检索原理_第4页
计算机信息检索原理_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算机检索原理计算机检索原理与与检索方法检索方法计算机检索原理计算机检索原理 信息检索实质上包括信息存贮和信息检索两 个过程:l信息存贮过程是依据检索语言对原始信息进行处理和标引,形成信息特征标识,为检索提供经过整序的信息集合的过程。l信息检索是参照检索语言体系对检索课题进行分析,形成检索提问标识,从信息集合中检出相关文献信息的过程。原始信息信息分析、著录和标引信息检索系统l信息检索原理图检索课题课 题 分 析检 索语 言检索结果信息存贮信息检索提问标识标引标识q概念 为了使检索的过程,即信息的标引标识和检索的提问用语的对比进行顺利,两者都需要用一定的语言来表达。这就是检索语言。作用 把信息的

2、存贮和检索联系起来,以保证检索和存贮的一致性,使文献的标引者和检索者取得共同理解,从而实现信息检索。l1 描述文献外表特征的检索语言 如文章题名、作者姓名、语种、刊名等l2 描述文献内容特征的检索语言 包括分类语言和主题语言。l1 人工语言 主要有分类语言和主题语言l2 自然语言 如关键词l类是许多具有共同属性事物的集合。l分类语言是以科学分类为基础,运用概念划分的方法,对人类知识进行区分与类集。l分类语言是用分类号来表达学科体系的各种概念,将各种概念按学科性质进行分类和系统排列。l如 “网络浏览器” TP393.092l中国图书馆图书分类法即中图法 是我国文献分类标引工作的国家标准l中国科学

3、院图书馆图书分类法 即科图法l国际十进分类法 主题语言是一种描述性语言,直接用语词表达文献的主题,这些语词就是表达主题概念的标识。将这些用作标识的语词按字顺排列并使用参照系统来间接表达各种概念之间的关系的检索语言就是主题语言。信息检索的类型信息检索的类型数值检索 特征:以特定的数值为检索对象。 比如,查找某一统计数据,某一数学公式,某一材料的成分、性能,某种元件的型号、参数等。解决方案:利用手册、年鉴等参考工具书或数值型数据库来检索。 事实检索特征:以特定的事实为检索对象。 比如,查找名词术语的解释,了解某人或某机构的简况,或考证某一事件发生的前因后果等。解决方案:利用辞典、百科全书、年鉴、名

4、录等参考工具书或事实型数据库来检索。文献检索特征:以特定的文献为检索对象。 比如,查找有关某一研究课题的一定年限内的相关文献,或从事一项发明创造而需要文献查新等。解决方案:利用文摘、题录等各种手检工具书或书目文献型数据库来检索。l手工检索l计算机检索 -光盘检索 -联机检索 -网络检索l硬件 计算机及存贮、打印设备l软件 信息系统(数据库)及检索软件l通讯设备 网卡、网线等l信息使用权 大型商业数据库系统是有偿使用的,有些学术团体内部的信息资源仅限其认可的成员使用,需要签订协议获得使用权l数据库是在计算机存贮设备上按一定方式存储的相互关联的数据集合。是信息检索的重要资料来源。l按照载体的不同,

5、可分为 -联机数据库 -光盘数据库 -网络数据库l书目型数据库 以文档的形式组织起来,提供文献的题录、文摘等书目信息。l全文型数据库 存储文献全文或其中的主要部分的源数据库。l指南型数据库 供查询某一客体的基本信息或简况,包括名录、传记等数据库。l数值型数据库 提供各类数值型数据l图象数据库 以图形、图象为记录单位l综合性数据库 收录多个学科或专业的信息资料。如中国期刊网l专业性数据库 收录单一学科或专业的信息资料。l专题性数据库 收录某一特定专题的信息资料 字段:文献著录的基本单元,反映文献外部特文献著录的基本单元,反映文献外部特征和内容特征的每一项目,在数据库中就称为征和内容特征的每一项目

6、,在数据库中就称为字段。如:题名、作者。字段。如:题名、作者。基本字段:描述文献的内容特征。如:关键词描述文献的内容特征。如:关键词KWKW、 题名题名TITI、文摘文摘ABAB、全文等全文等辅助字段:描述文献的外部特征。如:作者描述文献的外部特征。如:作者AUAU、刊名刊名JNJN、出版时间出版时间PYPY、语种语种LALA等等 记录: 由若干不同字段组成的文献单元,一条记录在由若干不同字段组成的文献单元,一条记录在数据库中代表一篇文献。数据库中代表一篇文献。 数据库(文档): 由若干数量的记录构成的数据的集合。大型的由若干数量的记录构成的数据的集合。大型的数据库检索系统中称为文档。数据库检

7、索系统中称为文档。中国期刊网字段示例可检索字段可检索字段 计算机信息检索方法计算机信息检索方法明确需要查找那一方面的文献;对文献的类型、时间、语种等要求; 最好选择几个辅助或扩充备用数据库。选选定定检索检索詞詞编制检索式编制检索式l可利用数据库提供的不同级别 的检索界面进行检索 -初级检索 -高级检索l不满意l满意l檢查檢索名詞的拼写 l增加檢索名詞的準確性 - 查閱工具如 詞表,字典, 分類表及字彙表, 刪除誤導的名詞 l審查被檢索的數據庫 查閱數據庫之說明及期刊列表以確定是否覆蓋你所要的主題 l設限制條件至特定欄位及年代 l增加檢索名詞的準確性 - 查閱工具如 詞表,字典, 分類表及字彙表

8、 l增加檢索策略的準確性 增加使用 ANDs; 減少使用 ORs l檢查檢索名詞的併字 l增加檢索名詞的普遍性 -查閱工具如 詞表,字典, 分類表及字彙表 l擴闊檢索策略 減少使用ANDs; 使用Ors於同義字及替代拼字上 l增加被檢索的數據庫 確定其他數據庫是否覆蓋你所要的主題 l是否已全是否已全获获取所需取所需? ? 打印、Email 或 存盘l需否取得題需否取得題录录錄相錄相关关的全文的全文 ? 连接全文工具或通过全文服务计算机检索常用算符计算机检索常用算符常用的逻辑运算有三种:与、或、非。 逻辑与:机检的输入符号为“*”或“and”。如: A*B 逻辑或:机检输入符号为“+”或“or”

9、。如:A+B逻辑非:机检的输入符号为“-”或“not”,如:A-B “与”算符用于描述概念间的交叉关系和限定关系。l含义:检出文献中必须同时包含被其连接的所有词或词组。l作用:缩小检索范围,提高查准率。例如:concrete dams and arch dams power plants and design“或”算符可描述概念间的并列关系和相关关系,用来组配同义词或相关词等。l含义:检出文献中包含有被其连接的任意一个词或词组。l作用:扩大检索范围,提高查全率。例如:dams or hydraulic structure CAD or computer aided design“非”算符用于描

10、述概念间的排斥关系和特殊限定关系。l含义:检出文献中必须包含这个算符前的词,必须不含这个算符后的词。l作用:缩小检索范围,提高查准率。例如:energy not nuclear也叫通配符或字符替代符,利用其保留检索词中的相同部分,允许检索词有一定范围的变化,提高文献的查全率。 如:comput*(computer、 computers computing) dam* (dam, dams) 又称为邻近度算符。 文献中词语的相对次序或位置不同,所表达的含义可能有所不同,而同样一个检索式中词语的相对次序不同,其表达的检索意图也不一样。 位置算符的作用是对用作检索词的词组或短语中的各个单词之间的相对位置进行描述。常用的有(W)算符、(ADJ)算符、(N)算符等。如steel(w)pipe 表示steel pipe 而不是 pipe steel又如 computer(n)a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论