计算机信息检索基本策略讲义_第1页
计算机信息检索基本策略讲义_第2页
计算机信息检索基本策略讲义_第3页
计算机信息检索基本策略讲义_第4页
计算机信息检索基本策略讲义_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算机信息检索基本策略讲义 一、一、检索策略的实施技巧检索策略的实施技巧v检索策略:为实现检索目标而实施的方法。检索策略:为实现检索目标而实施的方法。 计算机信息检索,实质上由计算机将输入的检索策略计算机信息检索,实质上由计算机将输入的检索策略与系统中存贮的文献特征标识及其逻辑组配关系进行类比、与系统中存贮的文献特征标识及其逻辑组配关系进行类比、匹配的过程。由于信息需求本身具有不确定性,加之对数据匹配的过程。由于信息需求本身具有不确定性,加之对数据库中的文献特征标识不能充分了解,以及系统功能的某些限库中的文献特征标识不能充分了解,以及系统功能的某些限制,都会不同程度地影响检索效果。但是只要遵循

2、一定的检制,都会不同程度地影响检索效果。但是只要遵循一定的检索步骤,制定良好的检索策略,便可以减少各种不利因素的索步骤,制定良好的检索策略,便可以减少各种不利因素的影响,尽可能地使检索提问标识与信息需求和检索系统保持影响,尽可能地使检索提问标识与信息需求和检索系统保持良好的一致性,从而在系统中检索出满足用户需求的信息。良好的一致性,从而在系统中检索出满足用户需求的信息。 v信息需求是人们客观上或主观上对各种情报信息的一种需信息需求是人们客观上或主观上对各种情报信息的一种需求。这种需求是人们索取情报信息的出发点,也是计算机求。这种需求是人们索取情报信息的出发点,也是计算机信息检索时选择数据库、确

3、定检索策略以及评价检索效果信息检索时选择数据库、确定检索策略以及评价检索效果的依据。的依据。v不同类型的课题,其信息需求的范围和程度也不尽相不同类型的课题,其信息需求的范围和程度也不尽相同。例如,申请发明、申报成果奖励、鉴定及立项类同。例如,申请发明、申报成果奖励、鉴定及立项类的查新课题,往往需要全面地收集某一主题范围的文的查新课题,往往需要全面地收集某一主题范围的文献信息,这类课题具有普查、追溯的特点,应着眼于献信息,这类课题具有普查、追溯的特点,应着眼于查全;而对于科研、生产中为解决某一特定问题的攻查全;而对于科研、生产中为解决某一特定问题的攻关课题,往往只要求检出的信息对自己的研究有所帮

4、关课题,往往只要求检出的信息对自己的研究有所帮助,而对查找的文献范围不需要很广。因此,这类课助,而对查找的文献范围不需要很广。因此,这类课题则要求查准。题则要求查准。 v检索策略制定的原则:检索策略制定的原则: (1)快,即从检索请求的提出到检索结果快,即从检索请求的提出到检索结果的提交要快速:的提交要快速: (2 2)准,即检索结果要准确,避免检索出)准,即检索结果要准确,避免检索出过多无关内容;过多无关内容; (3 3)全,检索结果全面,满足用户的需求;)全,检索结果全面,满足用户的需求; (4 4)效益原则,即以最低的费用获取所佳)效益原则,即以最低的费用获取所佳的信息。的信息。五、五、

5、 计算机信息检索的具体步骤计算机信息检索的具体步骤 1 分析检索课题,制定切实可行的检索策略分析检索课题,制定切实可行的检索策略 ( (这是检索的出发点,依据这是检索的出发点,依据) )2 2 利用检索系统特定的指令正确实施检索利用检索系统特定的指令正确实施检索3 3 通过人通过人- -机对话的方式不断调整、修改、机对话的方式不断调整、修改、检索策略检索策略4 4 根据查找的文献线索获取原始文献根据查找的文献线索获取原始文献(实例分析与说明实例分析与说明 课题一课题一 GIS技术的可视化研究技术的可视化研究v课题分析:课题分析: 二十一世纪是一个信息大爆炸的时代,随着二十一世纪是一个信息大爆炸

6、的时代,随着“信息信息论论”,“控制论控制论”及及“认知论认知论”等理论的产生,作为一门古老等理论的产生,作为一门古老的学科的地图学也在这些新兴理论的指导下,在这个信息的学科的地图学也在这些新兴理论的指导下,在这个信息时代产生了新的发展点,时代产生了新的发展点,“数字地球数字地球”的提出为地图科学提的提出为地图科学提出了更新更高的要求,出了更新更高的要求,GIS作为处理地理信息的一种技术,作为处理地理信息的一种技术,应运而生。应运而生。 GIS是一种采集,加工,分析,访问及表是一种采集,加工,分析,访问及表达空间数据的信息系统。作为数据本身是抽象达空间数据的信息系统。作为数据本身是抽象的,不易

7、直观接受的信息,因此研究如何对数的,不易直观接受的信息,因此研究如何对数据进行加工和可视化表达,对于用户来说是十据进行加工和可视化表达,对于用户来说是十分必要的。分必要的。目前的目前的GIS可视化的研究正方兴未艾,对可视化的研究正方兴未艾,对DEM,DTM和和DLG等数据模型特别是等数据模型特别是DEM的研究进展飞速,的研究进展飞速,而三维可视化的表达方式又成为其中最热门的方向,而三维可视化的表达方式又成为其中最热门的方向,通过通过DEM生成的等高线,地貌晕渲土,三维透视景生成的等高线,地貌晕渲土,三维透视景象,三维地形漫游及交互式三维可视系统在地图学象,三维地形漫游及交互式三维可视系统在地图

8、学界开始发挥其强大的效用,并将在界开始发挥其强大的效用,并将在GIS技术中占有技术中占有三分天。三分天。 数字高程模型数字高程模型(DEM)作为数字地形模作为数字地形模拟的重要成果已经成为国家空间数据基础拟的重要成果已经成为国家空间数据基础设施设施(NSDI)的基本内容之一,其相关学科的基本内容之一,其相关学科有数据库,软件工程,遥感与航测等。在有数据库,软件工程,遥感与航测等。在不久的将来,随着虚拟现实技术与不久的将来,随着虚拟现实技术与GIS的融的融合,必然为地理信息学科带来翻天覆地的合,必然为地理信息学科带来翻天覆地的变化。变化。检索关键词与表达式中文关键词:地理信息系统或GIS(上位)

9、数字高程模型,可视化,三维,虚拟现实(下位)基本表达式:关键词=(地理信息系统OR GIS)AND (可视化)AND (三维 OR 虚拟现实)英文Topic Words:GIS or Geography Information System3D,DEM,VR,visualizationBoolean Expression:kw= GIS AND visualization AND (3D OR DEM)城市生活污染研究城市生活污染研究v关键词:城市(都市、城区)关键词:城市(都市、城区)v生活污染(生活污水、生活垃圾、电磁辐射生活污染(生活污水、生活垃圾、电磁辐射污染等)污染等)v检索式检索式

10、(城市城市 or 都市都市 or 城区)城区)and(生活(生活污染污染 or 生活污水生活污水 or 生活垃圾生活垃圾 or 电磁辐射污电磁辐射污染)染)了解有关国内近十年来室内装修污染方面的研究了解有关国内近十年来室内装修污染方面的研究v关键词:室内、装修、污染关键词:室内、装修、污染v同义词或近义词:同义词或近义词: 室内(住宅、居室、房屋)室内(住宅、居室、房屋) 污染(放射性、化学、氡气、甲醛、苯等)污染(放射性、化学、氡气、甲醛、苯等)v确定学科范畴等辅助信息:环境科学。中文库为主,确定学科范畴等辅助信息:环境科学。中文库为主,十年期限。十年期限。v以室内环境污染检测,危害和处理等

11、方面研究为主以室内环境污染检测,危害和处理等方面研究为主v选择专业数据库选择专业数据库 和各类型综合数据库为主,以和各类型综合数据库为主,以google等网络资源为辅等网络资源为辅 计算机检索逻辑表达式举例计算机检索逻辑表达式举例:例例1:GPS在建筑事业中的应用在建筑事业中的应用 主题词主题词:A:全球定位系统;:全球定位系统;B:建筑测量;组配词:建筑测量;组配词: C:应用:应用 表达式表达式:A AND B AND C例例2:加拿大遥感活动展望:加拿大遥感活动展望 主题词主题词:A:遥感;:遥感;B:测绘科技活动;组配词:测绘科技活动;组配词:C:加拿大;:加拿大;D:展望:展望 表达

12、式:表达式:(A OR B)AND C AND D例例3:Peter教授在测量平差理论方面的研究教授在测量平差理论方面的研究 主题词主题词:A:测量平差;组配词:测量平差;组配词:B:理论;:理论;C:研究;:研究;D:Peter表达式表达式:A AND( B OR C ) AND D 例例4:Batson关于土地规划与地籍测量方面的论述关于土地规划与地籍测量方面的论述 主题词主题词:A:土地规划;:土地规划;B:地籍测量;组配词:地籍测量;组配词:C:评论;评论;D:Batson; 表达式表达式:(A OR B)AND C AND D 例例5:专题测图用于土地利用制图和植被制图:专题测图用于

13、土地利用制图和植被制图主题词主题词:A:专题测量仪;:专题测量仪;B:土地利用制:土地利用制图;图;C:植被制图:植被制图; D:测绘仪器;:测绘仪器;E:地图制图;:地图制图;F:专题制图:专题制图表达式表达式:(A OR D )AND (B OR C OR E OR F )例例6:新型的自动化数字制图软件的开发与利用:新型的自动化数字制图软件的开发与利用主题词主题词:A:机助制图系统;:机助制图系统;B:系统软件;:系统软件; C:软件技术;:软件技术;D:自动化测图:自动化测图组配词组配词:E:开发;:开发;F:应用:应用表达式表达式:(A OR D)AND (B OR C )AND (

14、E OR F )例例7:利用人造卫星数据及地理信息分析森林:利用人造卫星数据及地理信息分析森林 用用途途主题词主题词:A;卫星影象;卫星影象;B;卫星遥感;卫星遥感;C;地理信息地理信息系统;系统;D:森林遥感:森林遥感;E;森林判读;森林判读;F;森林调查;森林调查;G;森林监测;森林监测;H;数据处理数据处理表达式表达式:(A OR B)AND C AND(D OR E OR F OR G)AND H注意注意 在检索过程中,由于可以随时修改检在检索过程中,由于可以随时修改检索策略,因此一方面要以制定的检索式为索策略,因此一方面要以制定的检索式为基础,要服从检索式,但不要过多地受构基础,要服

15、从检索式,但不要过多地受构造检索式的限制,要把条件适当放宽一些,造检索式的限制,要把条件适当放宽一些,逐步缩小检索范围,多次试验,以找到最逐步缩小检索范围,多次试验,以找到最佳检索式佳检索式 课题二课题二 课题五课题五 课题六课题六 课题七课题七 二二、 检索效果的评价检索效果的评价v查全率与查准率是检索质量的两个重要的评查全率与查准率是检索质量的两个重要的评价指标。价指标。v查全率查全率(recall ratio)=检出的相关文献量检出的相关文献量/检索检索系统中相关文献总量系统中相关文献总量即检出文献中合乎需要的文献数量占数据库即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有

16、文献的比例。查中存在的合乎该需要的所有文献的比例。查全率高说明有用的东西都被你检中了,但对全率高说明有用的东西都被你检中了,但对于数量巨大的数据库而言,要达到于数量巨大的数据库而言,要达到100%的查的查全率是不可能的,在网络条件下尤其如此。全率是不可能的,在网络条件下尤其如此。v查准率查准率(precision ratio)=检出的相关文献量检出的相关文献量/检出的文检出的文献总量。指检出文献中合乎需要的文献数量占检出文献献总量。指检出文献中合乎需要的文献数量占检出文献全部数量的比例。全部数量的比例。 准确率高说明你检出的东西都是有用的东西。一般地说,准确率高说明你检出的东西都是有用的东西。

17、一般地说,很少能达到很少能达到100%的查准率。的查准率。v在查全与查准两个方面一般难以两全,为了获得很多在查全与查准两个方面一般难以两全,为了获得很多有用的东西(达到高的查全率),需要较少的限制检有用的东西(达到高的查全率),需要较少的限制检索条件,但这样检出的无用的东西就会很多(查准率索条件,但这样检出的无用的东西就会很多(查准率不高),反之亦然。在计算机检索中,一般认为查准不高),反之亦然。在计算机检索中,一般认为查准率为率为6070、查全率为、查全率为4060是较为理想的。是较为理想的。 n n为检索系统中文献总量,为检索系统中文献总量,m m为检索输出的文献量,为检索输出的文献量,a

18、 a为为n n中与中与检索课题有关的文献量,检索课题有关的文献量,b b为为m m中与检索课题有关的文献量中与检索课题有关的文献量( (检准检准文献量文献量) ),则,则n n、m m、a a、b b之间的关系如图所示。之间的关系如图所示。 图1.4 文献总量与检出文献之间的关系 文献总量与检出文献之间的关系文献总量与检出文献之间的关系 令令R R表示查全率、表示查全率、P P表示查准率、表示查准率、M M表示漏检率、表示漏检率、N N表示表示误检率,则误检率,则R R、P P、M M、N N定义如下:定义如下:R=b/aR=b/a* *100100 P=b/mP=b/m* *100100 M=(1-b/a)M=(1-b/a)* *100100=100=100-R -R N=(1-b/m)N=(1-b/m)* *100100=100=100-P-P v在一个具有在一个具有10001000篇文献的试验性机检系统中篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时检索某课题,用一特定检索策略查该课题时输出文献输出文献6060篇。经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论