计算机信息检索_第1页
计算机信息检索_第2页
计算机信息检索_第3页
计算机信息检索_第4页
计算机信息检索_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 计算机信息检索计算机信息检索主要内容v一、计算机信息检索的基本原理;v二、常用算符及检索功能;v三、检索课题的取词方法及检索技巧;v四、优化检索策略的方法;v五、网络搜索引擎。计算机检索的发展第一节 计算机信息检索的基本原理同手工检索相比:字段一条记录.记录号数据库的构成数据库的构成数据库由“文档文档记录记录字段字段”三个层次构成。robot/TI 检索用英文发表的机器人控制系统方面的文献(robot and (control system)/TI and LA=English.AU=Li siguangDevelopment of impedance-sensing techn

2、ology and an intelligent control system for robot-automated processing of flexible andnatural objects(题名)Gu,Jianhua ScottGu,Jianhua Scott, PhD(著者)THE UNIVERSITY OF BRITISH COLUMBIA (CANADA), 1999, 271 pages(出处) 001 汽车尾气对环境的污染 主题词:汽车、尾气、环境污染 002 汽车的维修 主题词: 汽车、 维修 003 汽车与运输 主题词: 汽车、 运输 004 汽车噪音对环境的污染

3、主题词: 汽车、 噪音、环境污染 环境污染 001 004 汽 车 001 002 003 004 维 修 002 尾 气 001 运输 003 环 境 污 染 汽 车 001 002 003 004 001 004 顺排文档 倒排文档 001 004 汽车环境污染 第二节第二节 常用算符及其检索功能常用算符及其检索功能ABA B截词检索截词检索 在检索时使用词的一个局部进行检索,凡满足这个局部中的所有字符(串)的纪录,均为命中结果。 截词检索需要使用专门的符号叫截词符。 注意!注意! 在不同的系统中,使用的符号及其含义在不同的系统中,使用的符号及其含义有所不同。有所不同。右截断右截断v使用前

4、方一致的截词方法时注意: 避免检索词的词干截得过短,否则会检出大量不相关文献。第三节、检索课题的取词方法第三节、检索课题的取词方法 与检索技巧与检索技巧Y检索结果评价课题分析选择数据库确定检索途径确定检索词制定检索式实施检索计算机处理数据库待检课题用户N分析概念,选择检索词connection between smoking and heartdisease概念词:smoking 、heart disease概念 1:smoking,smoker,tobacco概念 2:heart disease,heart attack 如果所选数据库带有规范化词表,还可考虑从词表中选词进行补充。v3、利用

5、各种专业辞典、指南、手册、百科全书、多语种对照辞典、同义词辞典等参考工具将词的不同表达方式一一列出,作为关键词或相关词。 以查准为目标的检索策略制定以查准为目标的检索策略制定 提高检索词的专指度,增加或换用下位词,使用专业领域中的通用术语,使用多元词。 增加用 AND、NOT 连接的概念组面。 用“扩展”指令选取最实用的存取点。 使用位置算符,使检索更到位。 采用加权检索,从定量角度加以控制。 二次优化检索。 (5)(5)进行数据库检索。进行数据库检索。 ?S(smok?or tobacco)and(heart(w)disease or heart(w)attack?) S1 47 分步输入:

6、 ?S smok? Or tobacco S1 252 smok? Or tobacco ? S heart(w)disease or heart(w)attack? S2 59 heart(w)disease or heart(w)attack? ? S S1 and S2 S3 47 S1 and S2 第四节第四节 优化检索策略的方法优化检索策略的方法检索效果检索效果(Retrieval Effectiveness)评价评价 指检索系统检索的有效程度,它反映检索系统的能力,包括技术效果、经济效果。 评价检索效果最常用的指标是查全率(Recall Ratio)和查准率(Precision

7、Ratio) 、漏检率(omission factor) 、误检率( 也叫检索噪音,noise factor)以及新颖率、检索速度等。检索系统各参量的关系检索系统各参量的关系系统中相关文献总量 ( a + c )系统中非相关总文献量( b + d )检出的文献总量 ( a + b )检出的相关文献量 ( a )检出的非相关文献 ( b )未检出的文献量( c + d )未检出的相关文献量 ( c )未检出的非相关文献 ( d )%100%100 caaR量检索系统中相关文献总文献量检出的相关查全率%100%100baaP检出的文献总量检出的相关文献量查准率.RcaacacM%100%)1001

8、 (%100%100量检索系统中相关文献总未检出的相关文献量漏检率PbaababN%100%100)1 (%100%100检出的文献总量检出的非相关文献量误检率第五节 网络搜索引擎v搜索引擎(search engine):互联网信息搜索工具的通称,是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,将处理后的信息显示给用户。v检索结果庞杂,取舍困难。v建议:进行学术性文献检索时最好使用专业数据库。两个常用的搜索引擎v谷歌();v百度()。谷歌v1998年9月7日正式成立;v多语言网络搜索引擎;v页面设计简单、干净;v搜索结果相关性较好。谷歌学术搜索(Googl

9、e Scholar) http:/Google ScholarvGoogle Scholar 除可以搜索普通网页中的学术论文以外,还可以搜索同行评议文章、学位论文、图书、预印本、文摘、技术报告等学术文献,文献来源于学术出版物、专业学会、预印本库、大学机构、内容横跨多个学术领域。v需要注意的是,google学术搜索是一个跨库检索平台,其检索涉及到多种专业数据库,目前利用google学术搜索检索到的论文除可免费直接获得论文的题录、摘要等信息外,一般不能直接打开全文。用户可将google学术搜索作为二次文献工具使用,再利用专业全文数据库查找获取全文。检索功能v基本检索:直接输入检索词执行检索;v高级检索:按照作者、出版物名称、出版 日期范围,对检索词进行文章 标题全文限定、可选择页面显 示检索结果数量。基本检索:基本检索:高级检索:高级检索:逻辑“与”精确检索逻辑“或”逻辑“非”检索结果处理v检索结果将显示某文献被引用、相关文章、网页搜索、图书馆搜索、同组文章等信息的链接。检索结果处理v被引用次数:引用该组文章的其它论文;v图书馆搜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论