信息检索知识点92382_第1页
信息检索知识点92382_第2页
信息检索知识点92382_第3页
信息检索知识点92382_第4页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。存储起来, 并根据信息用户的需要找出有关2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。 存储过程主要是利用检索语言对文献进行

2、标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径; 检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识, 再按照存储所提供的检索途径, 将检索提问标识与文献特征标识进行比较。检索过程是存储过程的逆过程。 因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。4.信息检索的方法( 1)顺查法( 2)倒查法( 3)抽查法( 4)追溯法( 5)循环法5.信息检索的途径( 1)内部特征途径a) 分类途径b) 主题途径( 2)外部特征途径a) 题名途径b) 着者途径c) 文献编号途径d) 目录检索途径e) 机构检索法

3、f) 引文检索途径6.布尔模型的优缺点优点:( 1)简单,形式简洁,易于理解;( 2) 可操作性强,应用广泛;( 3) 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;( 4) 能处理结构化提问。缺点:( 1)表达用户复杂需求效果欠佳( 2)准确匹配无法提供定量比较( 3)匹配标准不尽合理( 4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话

4、从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。 实质上计算机信息系检索是利用计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合。9.计算机信息检索的类型:(1)根据检索系统的工作方式,可分为:a).脱机信息检索脱机信息检索是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索。b).联机信息检索联机信息检索是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信息检索系统的数据库中进行检索并获取信息的过程。联机检索模式是主从式,即为所有的工作都在主机上进行,主机负担

5、重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高。c).光盘信息检索d).网络信息检索(2)根据信息的服务方式,可分为:a).定题检索定题检索是用户根据课题的要求,事先编写出逻辑检索提问式,并将存储在计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能及时得到最新的文献信息。具有定期性、新颖性和批处理性的特点。b).回溯检索回溯检索是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息。也可以查找最新的信息,可以适应多数用户的查询需要。c).日常检索10.计算机信息检索技术初级检索6 个1) 布尔逻辑检索2)

6、位置限制检索3) 短语检索4) 截词检索5) 字段限制检索6) 区分大小写检索11.计算机信息检索技术高级检索6 个1) 加权检索2) 自然语言检索3) 相关信息反馈(相似检索)4) 概念检索5) 模糊检索6) 聚类检索布尔逻辑检索(1)逻辑与用 AND 或*表示 检索式写作 A AND B 或 A *B(2)逻辑或用“ OR”或“ +”表示(3)逻辑非用 NOT或表示ANOTB( A 当中除去 B 所剩下的)字段名称及缩写AB abstractTItitleAU authorJN journal nameLA languagePYpublication yearSP source publi

7、cation分类和聚类的异同相同点:基于“类”的思想进行检索。不同点:( 1)分类基于分类法,其类目体系主要是先组式,有系统性的。类目与文献之间具有相对独立性。 而聚类则先有文献后聚类, 类的性质及整体类目体系完全由系统中的文献决定。( 2)从类目形成过程看,分类是总到分,聚类由分到总。会构建检索式(主要是积木型)12.计算机信息检索策略含义狭义的计算机信息检索策略是指检索提问式的构建,即运用系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式。广义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索目标的基础上,选择检索工具, 确定检索途径与检索用词, 以及检

8、索词之间逻辑关系与查找步骤最佳方案的一系列科学安排。13.计算机信息检索策略类型(即联机检索五原则)( 1) 最专指面优先:从最专指的概念入手( 2) 最低登录量面优先( 3) 积木型( 重点掌握,会构建此检索式 )( 4) 引文珠型增长( 5) 逐次分馏14.网络信息资源的评价方法:( 1) 定性评价法:是指按照一定的评价标准从主观角度对网络信息资源所做的优选和评估,主要有指标体系法和调查表法。( 2) 定量评价法:国内外比较典型的定量评价方法有信息计量法、层次分析法和对应分析法等三种。( 3) 综合评价法:是定性评价和定量评价相结合的一种方法,有包括分析法、模糊综合评价法等。( 4) 分类

9、方法:分为第三方评价法、用户评价法和网络计量法。15.搜索引擎的类型:( 1) 按检索机制划分:检索型、目录型和混合型检索工具( 2) 按检索内容划分:综合型、专题型和特殊型检索工具( 3) 按包含检索工具数量划分:单独型和集合型检索工具( 4) 按检索资料类型分:万维网检索工具和非万维网检索工具16.元搜索引擎的含义所谓元搜索引擎, 是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作。17.元搜索引擎的特点:( 1) 虚拟索引数据库( 2) 查全率高( 3) 用户界面友好( 4) 适宜二次加工( 5) 扩展性好搜索

10、引擎 118.元搜索引擎的工作原理输 入 查选 择 搜提交查搜索引擎 2整理返询条件索引擎询请求回结果搜索引擎 319.实现跨语言信息检索的方法:( 1)提问式翻译方法( 2)文献翻译方法(唯一结果是源语言描述)( 3)提问式文献翻译方法(将查询语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语言描述的信息。 检索结果一般选择部分翻译,这样工作量较小,容易提高翻译的效率和质量,部分翻译一般是对结果文本的前两行、文摘或文本中重要的词进行翻译,在重要词的翻译中,如何确定重要词是决定这种方法效果的关键。( 4)中间语种翻译方法(

11、 5)非翻译方法20.语义网的应用( 1) Web 服务( 2) 智能信息检索( 3) 基于语义的网页搜索引擎( 4) 企业数据管理21.Ei 收录论文的两个层次( 1) Compendex 数据。数据的内容全面,主要包括:论文标题;作者;作者单位;英文文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等。其中:分类码;主题词需要专业人员单独给出。( 2) Page One 数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名称;卷,期;论文页码;少数数据带有英文文摘。不需要任何专业人员再做工作。22.Compendex 数据和 Page One 数据的主要区别在于:数据中

12、是否有分类码和主题词;有这两项内容的数据是Compendex 数据,反之是Page One 数据。有没有主题词和分类号是判断论文是否被Compendex 数据正式收录的唯一标志。23.主题指南按字母顺序列出与分类表中类目名称相关的主题词, 并注明相关的分类号, 实际上是分类表的主题索引, 是从分类途径检索文献的指南。 便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码。24.SCI (科学引文索引)的编制结构及检索方法( 1) 引文索引( 2) 来源索引( 3) 机构索引( 4) 轮排主题索引25.如何决定收录期刊的数量和种类?(1)“加菲尔德文献集中定律”确定适宜的期刊

13、数量显示查询结果该定律认为:在几万种科技期刊中,最重要的期刊(即核心期刊)不过一千种,甚至可能还不足 500。因而,把收录期刊的范围定在 3000 种以内,足以把重要的科技文献包括在内。(2)“费用效果原则”用来选择每一种期刊,具体方法是“引用频率统计法”先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其他因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高。通过上述两个指标决定了收录期刊的数量和种类26.什么是专利?这种受法律保护的发明就称专利。含义:专利权法律受专利法保护的发明创造专利技术专利说明书等专利文献文献这三层含义的核心是受专利法保护的发

14、明,而专利权和专利文献是专利的具体表现。27.什么是同族专利?同族专利指同一个发明为了在不同国家得到保护,而在这些国家分别申请的一系列内容相同或基本相同的专利。 由于同族专利或相同专利都具有相同的优先权项, 所以通过优先权项可以方便、快捷地检索出有关同一发明的全部相同专利或同族专利。28.专利的类型( 1) 发明专利( 2) 实用新型专利( 3) 外观设计专利( 4) 植物性专利( 5) 防卫性专利知识产权:工业产权和着作产权29.学位论文的文献价值:( 1) 较高价值的一次文献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实验方法到数据获取、分析结论论述翔实。( 2) 珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最新成果,论文的使用者可以跟踪名校导师的科研进程。( 3) 综述性二次文献: 对相应研究领域有系统深入的讨论和综述,拥有详尽的参考文献,可得到课题研究现状综述。( 4) 写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路和研究方法,学习学位论文的写作方法。30.信息检索评价方法(1)测试文档集合法(2)人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论