计算机信息检索02139自考资料_第1页
计算机信息检索02139自考资料_第2页
计算机信息检索02139自考资料_第3页
计算机信息检索02139自考资料_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章信息检索概述信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。信息检索的基本原理通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。信息检索语言信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三者统称为计算机信息检索。与手工检索相比,计算机信息检索的特点表现在:速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息;检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都可以成为信息源;检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助光盘和通信网络查询所需信息。信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。数据库由字段、记录和文档构成。根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。信息检索系统评价的核心是检索性能评价。检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。评价检索效果的最主要的指标:查全率和查准率。查全率查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查准率查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。第二章网络信息检索的方法与技术布尔逻辑检索的主要运算符布尔逻辑检索的主要运算符有:逻辑与("AND)、逻辑或(“OR”)、逻辑非(“NOT)。它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT后面的检索词。邻近检索邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。短语检索:短语用"”表示,检索出与内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精确检索”截词检索是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用?”或“*裳示,但不同的数据库中有所差别。常用的截词检索方法有前截词、中间截词和后截词。在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制检索。模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、下位词进行检索,以达到扩大检索范围、避免漏检的目的。信息检索的主要技术有:(1)全文检索技术;(2)多媒体信息检索技术;(3)超文本及超媒体检索技术;(4)智能信息检索技术;(5)可视化信息检索技术;(6)跨语言信息检索技术;(7)文本聚类技术。(8)智能信息检索的最大特点是在检索过程中引入了资源对象的语义处理。检索策略检索策略是为实现检索目标而制订的全盘计划或方案,是就一个问题检索一个或多个数据库所输入的全部检索式的集合。信息检索的一般步骤(主要流程):分析信息需求。即要确切了解所要查询的目的和要求,确定检索问题的关键词、涉及学科、信息类型、查询方式、查询范围、查询时间等。选择合适的检索工具。选择合适的检索工具主要从检索工具的类型、收录范围、检索问题的类型、检索具体要求等方面综合考虑。确定检索点与关键词。应尽量选专指词、特定概念或专业术语,避免冷僻词汇和太泛的词。正确构造检索式。利用搜索工具支持的检索运算、允许使用的检索标识和各种限定,正确构建检索式。及时调整检索策略。当检索结果为零或检索结果太少,需要扩大检索范围;检索时如果得到太多的检索结果,或检索结果不相关,需要缩小检索范围。检索结果的输出。第三章搜索引擎搜索引擎是一种基于Web上应用的软件系统,它以一定的策略在Web上搜索和发现信息,在对信息进行处理和组织后,为用户提供web信息查询服务。搜索引擎有三个功能模块:网页搜集;预处理;查询服务。搜索引擎的工作原理:搜索引擎的三个功能模块形成了搜索引擎工作的三个阶段。(1)网页搜集。系统在一定时间内定向向网站派出“蜘蛛”程序,扫描网站的所有网页并将相关信息存入数据库。(2)预处理。主要包括关键词的提取;重复网页或转载网页的消除;链接分析;网页重要程度的计算。(3)查询服务。搜索引擎接受用户提交的查询请求后,按照用户的要求检索索引数据库,找到用户所需要的资源,并返回给用户,列表显示摘要结果。按信息内容的组织方式,搜索引擎可划分为目录式搜索引擎和机器人搜索引擎。(1)目录式搜索引擎。是以人工方式或半自动方式搜集信息,由搜索引擎的编辑员查看信息之后,依据一定的标准对网络资源进行选择、评价、人工形成信息摘要,并将信息置于事先确定的分类框架中而形成的主题目录。(2)机器人搜索引擎。是由一个被称作“蜘蛛”的计算机程序依据一定的网络协议以某种策略自动在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。Yahoo是目前最流行的目录式搜索引擎,提供主题目录检索。按专业范畴划分,可将搜索引擎划分为综合性搜索引擎和专业性搜索引擎。综合性搜索引擎内容涵盖各个学科和生产生活的各个领域,可检索图片、音频、视频等多种资源类型,适用对象广泛。常用的综合性搜索引擎包括哪些,专业性搜索引擎包括哪些按检索功能划分,可将搜索引擎划分为独立搜索引擎和元搜索引擎。元搜索引擎是多个独立搜索引擎的集合,通过一个统一的用户界面,可同时对多个搜索引擎进行检索操作。调查显示,截止2009年6月底,中国网民人数已达3.38亿。其中约2.35亿网民使用过搜索引擎,中国网民用得最多的搜索引擎是百度。在全球范围内,2009年7月,搜索引擎用户已达1137亿次,其中Google市场份额最高。综合性搜索引擎的评价指标主要有:(1)收录范围。即搜索引擎收录的范围是否完备充分。(2)分类。即搜索引擎的分类是否科学合理,分类的广度与深度是否合适。(3)检索功能与效果。检索手段是否完善,检索效果是否好。(4)对检索结果的处理。结果的排序方式是否多样、是否有去重功能、能否按照用户反馈动态调整和显示检索结果。(5)页面组织。页面组织是否清晰、类目设置是否合理、界面是否友好。(6)其他功能与服务。能否满足用户多方面的信息需求。第四章国内重要的综合性信息检索系统中国知网CNKI的《中国期刊全文数据库》(CAJ)是目前世界上最大的连续动态更新的中国期刊全文数据库,收录了国内1994年至今的8200余种综合性期刊与专业特色期刊的全文。中国知网CNKI提供了导航检索、逻辑式检索、智能辅助检索三种类型。中国知网的源数据库资源主要有:中国学术期刊全文数据库,中国博士学位论文全文数据库,中国优秀硕士学术论文全文数据库,中国重要会议论文全文数据库,中国重要报纸全文数据库,中国年鉴网络出版总库,中国工具书网络出版总库。维普资讯网VIP的前身是科学技术部西南情报中心的情报分析网站,目前已发展成为集外文献、企业咨询、动态新闻服务、行业信息资源等多种服务为一体的科技文献知识资源门户网站。维普资讯网的主要资源有:中国科技期刊数据库,中文科技期刊引文库,外文科技期刊数据库,中国科技经济新闻数据库,中国科学指标数据库。维普资讯网设有专门的“专业检索首页”,为中文期刊专业文章提供一站式的检索服务。检索方式有快速检索,传统检索,高级检索,期刊导航。国家科技图书文献中心NSTL是经国务院领导批准,于2000年6月12日成立的一个基于网络环境的科技信息资源服务机构。国际科学引文数据库(DISC)是国家科技图书文献中心(NTSL)于2006年首创的集文献发现、引文链接、原文传递为一体的信息服务系统。它提供快速检索,期刊浏览,来源文献检索,引文检索。中国高等教育文献保障系统CALIS是经国务院批准的我国高等教育“211工程”、“九五”、“十五”总体规划中三个公共服务体系之一。它的数据资源主要有中文数据资源、外文数据资源两大类。中国高等教育文献保障系统(CALIS)中的联合目录公共检索系统(OPAC)选择多库分类检索,OPAC中的数据按照语种划分,可分为中文、西文、日文、俄文四个数据库。中国科学院国家科学数字图书馆(CSDL)建设以来非常重视信息服务,其中:论文查收查引检索及评价服务是根据用户需要,在国内外权威数据库中检索其论文被收录和被引用的情况,并出具相关检索证明报告。定题、专题检索服务是针对用户事先选定的专题,定期或不定期地进行文献跟踪检索,把经过筛选的最新检索结果,以书目、索引、全文等方式提供给用户。科技查新服务是根据用户提供的有关科研资料查证其研究结果是否具有新颖性,并做出结论。在线参考咨询服务是用户可按专业、机构或所处地理位置选择专家提问,可在线提交咨询表单。第五章国外重要的综合性信息检索系统学术资源整合平台(WOK)是基于互联网建立的动态的学术信息资源整合平台,提供自然科学、工程技术、社会科学、艺术与人文等多个领域中高质量的学术信息。学术资源整合平台(WOK)支持的运算有布尔逻运算,截词检索,短语检索。在截词检索中,通常运用*代表多个字符,运用?代表一个字符。引文检索是指从被引著者、被引文献入手检索文献的被引用情况。美国Dialog系统是世界上最早和最大的专业情报检索系统,也是我国科技界广泛使用的系统。美国Dialog联机检索系统支持的运算有布尔逻运算,位置限制检索,短语检索和截词检索。SDOL采取浏览与检索相结合的方式,主要有期刊论文浏览、快速检索、高级检索、专家检索。联机计算机图书馆中心(或OCLC)创立于1967年,是全球最大的不以赢利为目的、维护和管理电子资源系统并提供计算机图书馆服务的会员制合作和研究组织。PowerSearch2.0检索平台支持对Gale的2万多种出版物的浏览,提供5种检索方式,包括基本检索、主题词浏览、出版物浏览、高级检索、异构跨库检索。CSAIllumina是一个多学科、多信息类型的信息服务平台,目前由美国Proquest公司提供服务,具有多语种文字检索界面。第六章国外专业性书目信息检索系统SciFinder是美国化学学会的分支机构推出的基于网络的文献检索系统。在SciFinder检索窗口最上方的主工具栏中列出了3种检索模式:ExploreReferences,ExploreSubstances,ExploreReactionso在数据库CASREACT中检索化学反应及相关信息。检索化学反应仅有1种检索途径。用化学结构式检索化学反应,可以用反应分类,报道反应信息的文献来源,文献出版年和反应步数加以限定,以缩小检索范围。在数据库CASRegistry中检索化合物及相关信息,系统提供3种检索途径:化学结构检索,分子式检索,物质检索.BP主界面上提供6种检索方式:基本检索,高级检索,题录检索,检索工具,字段检索,多字段检索。工程索引(EngineeringVillage)系统所提供了5种检索方式:简单检索,快速检索,专家检索,词表检索,标签检索。PubMed提供概要、简介、文摘、引文、MEDLINE等5种显示检索结果内容的记录格式。PubMed可以全部或部分保存文献记录,既可保存当前页,又可以保存其中的几条记录。保存方式有:网页格式和纯文本方式。荷兰医学文摘(ExcerptaMedica,简称EM)创刊于1947年美国教育资源信息中心(ERIC)的检索方法有:初级检索,高级检索,ERIC叙词表检索。美国教育资源信息中心(简称ERIC)包括两部分内容:教育资源和当前教育期刊索引。LexisNexis公司的数据库产品有:律商联讯、法律数据库、国会大全、统计大全、环境大全和学术大全。进入LexisNexis中文网站后,可见4个资源子库:法律子库,新闻和商业子库,企业界信息子库,在线查询库LexisNexis在线服务数据库主页的特点是无检索框。LexisNexis系统默认的是Search方式,这种方式最符合用户的检索习惯。第七章Internet上多媒体信息的检索多媒体信息检索是指对包括图像和音频、视频等在内的多媒体信息进行特征元数据提取、索引建库,同时根据用户的检索需求,将用户的信息需求表达与多媒体索引库进行相似度匹配运算,识别和返回用户所需信息,并通过与用户之间的反馈,不断优化、调整显示结果的过程。目前,主流的多媒体信息检索方式主要分为基于文本的和基于内容的多媒体信息检索两类。现在,主流搜索引擎都有基于文本的图像检索功能,具有基于内容的图像检索功能的搜索工具还不多见。基于内容的图像检索的原理是:首先根据分析图像的内容,提取其颜色、形状、纹理,以及对象空间关系等信息,建立图像的特征索引库,而后将用户的检索提问与特征索引库进行匹配计算,返回检索结果。常见的图像检索系统有10个:QBIC,WebSEEK,TinEye,Titomo,VAST,ImageRover,Scour,AmazingPictureMachine,Lycos,ImageSurferQBIC:QBIC是基于内容的图像检索系统的简称,是旧MAlmaden研究中心开发的第一个商用的基于内容的图像及视频检索系统,主要为旧M的DB2大型数据库提供图像检索,并支持基于Web的图像检索服务。它提供了对静止图像及视频信息基于内容的检索手段,是标准的基于内容特征检索图像的工具。WebSEEK的检索途径有3种:一是使用关键词进行自由全文检索,但不支持短语检索;二是利用不同的类目等级进行主题浏览;三是在检出图像的基础上利用其可视属性进行进一步检索。视觉语义图像查询系统提供4种功能,分别是:(1)文本查询功能:可以直接在文本检索框中输入想要查询的文本关键字;(2)示例查询功能:在示例图像框中输入想要查询的样例图像,或者点击浏览选择图片;(3)综合查询功能:在示例图像框中输入想要查询的样例图像,或者点击浏览选择,同时在文本检索框中输入想要查询的文本关键字;(4)相关反馈:在进行文本查询后,如果满意结果中的某张图片,可以点击该图片下面的反馈链接,系统将返回与此图片相似且与文本关键字相关的图片集。基于内容的视频检索通常有基于属性和基于对象两种方法,可以通过颜色、纹理、形状、空间联系、原始语义、客观属性、主观属性、动作、文本和领域概念来表征视频信息。基于内容的视频检索,其检索过程分为数据库建立和视频检索两个阶段,前一阶段的任务主要是侦测视频片段边界、选择关键属性和提取诸如颜色、纹理、形状等低级别的空间特征,后一阶段则致力于通过颜色、形状或颜色与其他类目的组合,来进行用户需求向量与已有资源向量空间的相似度匹配。现有的基于内容的视频信息检索工具主要有6个:VisualSeek,Informedia-IIDigitalVideoLibrary,GoogleVideoSearch,YahooVideoSearch,OpenV,VideoQ音频信息的检索可通过同音比较、听觉或知觉特征的提取、个人语言的主观特征描述和拟声法4种方式来实现。八专题信息的检索专利包含三层含义,分别是专利权、专利技术和专利说明书。专利权是指国家专利主管机关依据专利法授予申请人的一种实施其发明创造的专有权。我国专利法将专利分为三种,即发明、实用新型和外观设计。专利信息是指以专利文献作为主要内容或以专利文献为依据,经分解、加工、标引、统计、分析、整合和转化等信息化手段处理,并通过各种信息化方式传播而形成的与专利有关的各种信息的总称。专利信息可分为5种:技术信息、法律信息、经济信息、著录信息、战略信息。专利文献是包含已经申请或被确认为发现、发明、实用新型和工业品外观设计的研究、设计、开发和试验成果的有关资料,以及保护发明人、专利所有人及工业品外观设计和实用新型注册证书持有人权利的有关资料的已出版或未出版的文件(或其摘要)的总称。专利文献的类型有一次专利文献,二次专利文献,专利分类资料。专利分类是按专利文献的技术内容或主题进行分类,以便于查找,各国曾有不同的专利文献分类法。中国专利说明书的编号体系包括:申请号,专利号,公开号,授权公告号专门检索专利的搜索引擎有:FreePatentsOnline,IP-Discover,免费专利在线商标是区别商品或服务来源的一种标志,每一个注册商标都是指定用于某一商品或服务上的。商标信息检索的途径有:分类检索,关键词检索,图像检索商标信息的主要来源有:商标主管部门提供的商标信息,商业性的商标数据库,专门的商标搜索引擎,某企业的商标数据库。专门的商标搜索引擎有:Trademarkia,桑尼维尔专利和商标中心,托马斯网商业性的科技报告数据库:万方数据中的科技成果类数据库,NSTL的国外科技报告数据库,NTIS美国政府报告数据库。科技报告按保

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论