![计算机信息检索(第3版)PPT完整全套教学课件_第1页](http://file4.renrendoc.com/view/849daa32d24b0a49ea2c4547c5654a93/849daa32d24b0a49ea2c4547c5654a931.gif)
![计算机信息检索(第3版)PPT完整全套教学课件_第2页](http://file4.renrendoc.com/view/849daa32d24b0a49ea2c4547c5654a93/849daa32d24b0a49ea2c4547c5654a932.gif)
![计算机信息检索(第3版)PPT完整全套教学课件_第3页](http://file4.renrendoc.com/view/849daa32d24b0a49ea2c4547c5654a93/849daa32d24b0a49ea2c4547c5654a933.gif)
![计算机信息检索(第3版)PPT完整全套教学课件_第4页](http://file4.renrendoc.com/view/849daa32d24b0a49ea2c4547c5654a93/849daa32d24b0a49ea2c4547c5654a934.gif)
![计算机信息检索(第3版)PPT完整全套教学课件_第5页](http://file4.renrendoc.com/view/849daa32d24b0a49ea2c4547c5654a93/849daa32d24b0a49ea2c4547c5654a935.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机信息检索
计算机信息检索的过程结构化、半结构化、非结构化信息资源检索系统专题数据库、OPAC、一般和多元搜索引擎、智能代理、国际联机系统,多媒体检索系统
第一章信息概述信息的特征客观性:信息是客观事物运动与状态的反映。动态性:客观事物的变化是永恒的,持续断的。相对性:信息对于信息用户永远是相对的。依存性:必须依附于一定的物质形式(声波、物质载体等)。可传递可干扰:可跨越时空传递,但是传递过程中时刻被干扰。可加工性:可以被分析、综合、扩充和浓缩。共享性:信息可以被一个用户反复使用、或多个用户同时使用。信息的类型(按信息表达形式划分)文字信息:用文字表达其内容的信息资料,如各种书刊读物;声像信息:通过声频信号负载和传递的信息,如电影、广播等;实物信息:通过实物来传递的信息,如样品等;机读信息:通过计算机阅读的信息,如磁盘、光盘等;信息的类型(按信息加工的层次划分)一次信息:以信息制作者的研究成果为依据创作(撰写)的,未经信息加工的原始信息,如图书、期刊论文、学位论文等二次信息:汇集大量的信息,用科学的方法整序,以简练的语言揭示信息的内容和外部特征,并提供一定的检索途径的检索系统,如目录、索引、文摘、数据库、搜索引擎等三次信息:将大量的一次信息全面系统的再度选择、分析和综合,编制成使用目的更明确,效果更理想的检索系统。如综述、百科全书、年鉴。零次信息:未经记录或未公开发表的最原始信息,其本身无法通过载体在较大范围内传播的信息。如口头交流、会议文献、学位论文、手稿等。一次、零次信息是知识的创造,是信息检索的对象;二次、三次信息是知识的重组,是信息检索的工具。信息的价值和作用信息是使人原有的知识结构发生变化的那一小部分知识:
K(S)+
I=K(S+
S)
一个人原有的知识结构(K[S])在受到某些信息增量(
I)的作用后,便可形成新的知识结构(K[S+
S])信息动机的形成与转化内在条件:在生活、学习和工作过程中遇到问题时感到缺乏信息的状态,一旦达到较强的程度,被用户意识到,就会转化为信息动机外在条件:施加于个体之上的各种有形或无形的刺激,其中尤以信息环境和信息意识的影响最为显著。用户的信息行为从用户的角度出发,人的信息行为主要表现为信息查询行为、信息选择行为和信息使用行为。穆尔斯定律:易用性和可近性。信息的选择行为信息选择是从某一信息集合中把符合用户需要的一部分(子集合)挑选出来。“符合用户需要”是信息选择的基本原则。其核心是:
1)相关性:(和查全率有关)信息交流过程中来源与终点之间接触效率的量度,凡是论述同一主题或属于同一领域的文献信息都可以认为是相关的,而不考虑其水平高低;
2)适用性:(和查准率有关)用户对查询结果的价值判定,它反映了特定时间查询结果满足用户客观信息需要的程度,它受选择顺序和时间推移等多种因素作用,其判断的有效范围是非常短暂的。计算机信息检索的原理广义的信息检索是指将大量信息进行人工、或机器的概念分析,通过标引(分类、主题、题名、作者、代码、字段等),依据标引组织成计算机信息系统;信息用户则利用计算机,依据标引在信息系统中检索有关信息。所以它通常被称为“信息存贮与检索”。狭义的信息检索指广义的信息检索的后半个过程。如果用最简洁的文字表达,那么就是信息的“存”和“取”。计算机信息检索的本质就是用户的信息需求与存储在计算机检索系统中的信息进行比较和选择,即匹配(Match)的过程。也就是对计算机信息集合体(系统)采用一定的技术手段,根据一定的线索与准确找出(命中)相关信息。计算机信息检索的必备条件1物质条件从检索的过程来看,计算机信息检索的物质条件由数据库、通信系统和检索终端三部分组成。2人员条件
1)对检索课题的了解的程度;
2)对检索系统(包括计算机和数据库)的掌握程度;
3)语言(检索语言、检索策略调整以及外语水平)的掌握程度。计算机信息检索系统的构成
1)信息数据的选择、处理、录入、维护子系统
2)词表和标引子系统
3)检索子系统
4)系统用户接口子系统
计算机信息检索的类型1根据检索的内容可以划分为:
1)数据检索:其检索结果为数据,例如,从统计数据库中检索人口增长率
2)
事实检索:其检索结果为事实。例如,从《中国科技名人数据库》中查询某一位科学家的生平与业绩。
3)文献检索:其检索结果是能够满足用户需求的文献线索或全文,例如,从《中国学位论文数据库(CDDB)》中检索学位论文。检索类型的综合分析:检索课题:循证医学信息管理系统的实践运用分析关键词:循证医学信息系统循证医学(运用)实践
1)利用“中国大百科全书”数据库,查询“循证医学”的概念;
2)利用美国著名的医学数据库(Medline)检索“循证医学”和传统医学在治愈率上的比较;
3)利用SpringerLink数据库检索“循证医学”的论文情况。
手工检索和计算机检索的比较信息检索的本质没有变化,变化的只是检索手段、检索对象、信息表示的方式、存储信息的结构和匹配的方法手工检索:检索点少、费时、效率低,但查准率高,经济等。计算机检索:检索点多、省时、效率高,但查准率低,费用高等。
计算机信息系统的组织
定义:按计算机信息存储的方法建立起来的、供用户检索信息的一种有层次的体系,是表征有序信息特征的集合体。在这个集合体中,对所收录的信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录(即款目)都标明有可供检索用的标识,按一定序列编排,科学地组织成一个有机的整体,同时应具有多种必要的检索手段。特征:信息集合、信息描述、概念标识科学编排、多检索途径类型:OPAC、各类专题、网络数据库、搜索引擎、国际联机系统等职能:报道信息、存储信息和检索信息评估指标:信息的收录范围;信息特征标识的详略;摘录及标引的质量;信息报道的时效;检索功能的完善。信息系统的组织方法字顺组织:
音序:根据汉字的读音及读音的符号的顺序组织信息;形序:根据汉字的形体结构的某些共同之处加以排序;号码组织:按照信息被赋予的号码次序或大小顺序排列的方法;如专利号;自然组织:
时序组织:按信息发生的时间顺序组织信息;
地域组织:按信息发生的地域、区划等地理顺序组织信息字段组织:由若干数据项组成的记录来构成数据库的文档,通常可分为基本字段和辅助字段,每个字段都可以作为检索入口。超文本组织:非线性的、联想的、跳跃式的、多角度多层次的信息组织方法通过基本机构由结点的链组成,把信息中产生联想的内容组合起来。元数据组织:通过对网络信息(Web页面)外部特征和内容特征的描述,并按照某一特征的规则组织信息的方法。
数据库的字段组织
数据库组成:符合某一目的需要的若干文档的集合
文档:若干个逻辑记录构成的信息组合
字段:用来描述实体的具体属性
记录:对某一实体的全部属性进行描述的结果
数据:对具体属性的表达
元数据信息组织实例:
<html><head><metahttp-equiv=“Content-Type”content=“text/html;charset=gb_2310-80”><metaname=“beginpackage”
content=“DublinCore”><metaname=“DC.Title”
content=“DigitalLibraries:ResourcesandProjects”><metaname=“DC.Creator.Name”
content=“上海科文工作室”><metaname=“Email”
content=“shuzic@”><metaname=“DC.Subject”
content=“digitallibraries,digitallibrary,virtuallibrary,electroniclibrary,librarie”><metaname=“DC.Publisher”
content=“IFLANETAdministration”><metaname=“DC.Contributors”
content><metaname=“DC.Date”
content=“Beginning:1998-periodicallyupdated”><metaname=“DC.Type”
content=“Bibliography-FindingAid-ElectronicResourceListing”><metaname=“DC.Format”
content=“text/html”><metaname=“DC.Identifier”
content=“http://www./dlib”><metaname=“DC.Source”
content><metaname=“DC.Language”
content=“cn”><metaname=“DC.Relation”
content=“/digilib/”><metaname=“DC.Coverage”
content><metaname=“DC.Right”
content><metaname=“GENERATOR”
content=“MicrosoftFrontPageExpress2.0”><title>元数据</title><linkrel=“SCHEMA.dc”
href=“/metadata/dublin_core”></head><body>…[页面体信息省略]…</body></html>
元数据概述即关于数据的数据,它是对数据内容的描述。都柏林核心集(DublinCore)通过电子资源提供者对WEB资源属性信息的描述,依据规范的款项对网络信息资源内容进行标引,依此提高网络资源的检索效率。
特点:简易:只有15个元素且都具有一个能够普遍理解的语义。通用:不针对某个特定的学科或领域,支持对任何内容的资源进行描述,增加了跨学科的语义互操作性的可能兼容:通过内嵌在HTML语言中来实现其对Web资源的描述。可扩展:提供能够扩展描述的方法,即限定词的使用。:模式体系(SCHEME)、语言种类(LANG)、类型(TYPE),即所谓的“堪培拉限定词”。
计算机信息检索语言定义:精选于自然语言并加以规范化的词汇符号,用以对信息内容进行概括其内容或外在特征的概念及其相互关系的概念标识体系。在信息的存储和检索过程中,它起着重要的语言保障作用。它既是沟通信息存储和检索过程信息标引和信息利用桥梁,又是检索系统表达信息主题概念和检索课题概念的人工语言。概念:
1)等同关系:同义:自行车和脚踏车、单车;斯里兰卡和锡兰;准同义(近义):实验和试验;法律制度和司法制度;
2)从属关系:经济和工业、农业经济;文学和中国文学;
3)相关关系:交叉:概念的一部分外延相重合,如市场文化学;
矛盾:概念外延上的互相排斥,它们的外延之和等于其共同上位概念外延的关系,如女性与男性;
对立:概念外延上的互相排斥,而它们的外延之和不等于其上位概念外延的关系,如法制和犯罪;并列:是同一上位概念下的几个下位概念间的关系检索语言在表达各种概念及相互关系时,普遍地应用了上述概念逻辑的原理,并且利用了概念的划分与概括,概念的分析与综合这两种逻辑方法来建立自身的结构体系。检索语言的类型:分类语言(C912、F715)
反映信息内容特征
主题语言(关键词、叙词等)
题名、篇名
著者、团体著者
反映信息外部特征出版事项(出版单位、时间等)
代码、序号(ISBN、专利号等)
其他(区域、时代、年代等)分类语言定义:建立在科学分类的基础上,运用概念划分与概括的方法,将概念进行层层划分,逐级划分就产生许多级别的下位类目,层层隶属,形成一个严格有序、层次分明的知识门类等级体系。每个类目分别以不同的符号作标志,每个分类号都是表达特定知识概念的语词,即分类语言的语词,如:
C910社会学理论C913.1家庭婚姻
C8统计学C912社会关系C913.2老年问题
C社科总论C91社会学C913社会问题
C913.3酗酒
C92人口学C915社会工作C913.4性问题
C93管理学C917社会保障C013,5青少年犯罪分
C913.9其他社会问题使用分类语言的检索步骤1)分析研究所需要查找信息的内容主题。
2)判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查到具体类目(或有关类目),记下类号为止。
3)根据检索到的类号在检索工具中检索,便可查得所需信息。例如,欲查有关税收理论方面的信息。先进行分析得出主题是“税收”。由于专业范围窄,概念内涵较深,可概括为财政,财政又可概括为经济,然后再层层往下演绎。如:经济
财政金融财政财政理论财政收入与支出税收,分类号为F810.42。按此号到检索系统中去查找即得。主题语言定义:用自然语言中的名词、名词性词组描述事物概念的中心语义。也就是说,它以语言文字为基础,以反映特定事物为中心,不论学科分野和科学技术的逻辑序列,直接借助于自然语言的形式,作为信息内容的标识和检索依据的一种以主题字顺体系为基本结构的检索语言。包括关键词语言、叙词语言和标题词语言。例如:网络资源利用中知识产权的法律思考主题词:知识产权资源利用网络资源
监狱管理中心理学实践的理论分析
主题词:心理学实践(运用)监狱管理主题语言包含两个内容:
1)指表达信息内容特征的、经过规范化的名词术语;
2)指把这些名词术语按字顺排列成主题记号表或标题词表,以此作为规范语词标引和检索信息的工具。
使用主题语言的检索步骤
1)对检索课题进行主题分析。如,中国税收理论方面的信息,其主题概念是中国税收理论,转换成主题词:税收、中国。
2)将所得出的主题概念转换成主题词;
3)再按查出的主题词字顺去翻检目录、索引或输入计算机数据库
4)注意选取最专指的主题词,再利用主题词找出相应的主题词。因为选取上位类,范围过宽,缺乏查准率,反之选取下位类,范围过窄,缺乏查全率。
5)应将主标题与副标题、说明语联系起来,如“社会主义空想”,应逆读为“空想社会主义”,“《资本论》传播”,应顺读为“《资本论》的传播”。
6)使用主题词检索信息时,还应充分考虑和选择该词的同义词、近义词作为检索入口,这样才能保证查全率。计算机信息检索的一般技术1布尔逻辑算符指通过标准的布尔逻辑关系词来表达检索词与检索词之间逻辑关系的检索方法,也是现代信息检索系统中最常用使用的一种方法。常用的布尔逻辑算符有三种:
逻辑与:算符AND*
示例:刑事犯罪*女性
computerAND
law
释例:同时含有*前后两者概念的信息
作用:缩小检索范围,提高检索的查准率逻辑或:算符OR+
示例:WTO+世贸组织+世界贸易组织
carORautomobile
释例:符合+前后概念其中之一即可
作用:扩大检索范围,提高检索的查全率
逻辑非:算符NOT—示例:知识产权—
版权
automobileNOTtruck释例:满足前者概念,同时必须剔除后者作用:缩小检索范围,提高检索的查准率2截词符(truncation)截词是指检索者将检索词在合适的地方截断,局部进行检索的一种方法,即凡满足这个词截断部分中的所有字符(串)的信息,都为命中信息。在西文中,使用截词方法可以解决一个词的单复数问题,词干相同而词尾不同的问题(例如,由同一词根派生出来的名词、动名词、形容词和副词等)以及英美单词拼写差异等问题。
截词必须适可而止,截去部分过多会大大增加误检率。绝大多数的检索工具都支持截词功能。有的是自动截词(如Lycos),有的是在一定条件下才能截词(如Altavista)。使用最多的是右截词(如comput*),部分支持中截词(如wom*n),左截词则少见(如*physics)。后截词:edit*、computer*
可以检索到:edit、editing、edition、editor和computerized、computerization等前截词:*market*physics
可以检索到:supermarket、internet-market等*physics,可以检索到astrophysics、biophysics、chemo-physics、geophysics等中截词:wom*n,可以检索到:woman、women等。需要注意的是:
按截断的字符数量来分开分为有限截断和无限截断两种类型。在不同的检索系统中对截断符号的表示具有不同的规定,例如,Dialog系统使用“?”,而BRS系统使用“$”,Orbit系统使用“#”等。
使用布尔算符需要注意的是:
1)表达方式有异:
符号型:“
+”、“*”、“
-”;
字母型:“and”、“or”、“andnot(not)”;
菜单型:“matchallterms”、“matchanyterm”;
文字型:“MUSTcontain”、“MUSTNOTcontain”2)部分支持布尔算符如Yahoo!不支持逻辑非、如HotBot、Infoseek等不支持复合布尔算符,却允许用户根据自己意愿组配布尔算符。3)布尔算符的局限性显而易见。匹配标准僵化、相关度难以描述、输出信息不排序、难以构建理想的提问式等。尤其是公共检索系统更难以面对最终用户。所以各类系统均出现一系列方法来部分弥补其不足。如英国的Okapi系统采用词频加权模式,部分地弥补布尔算符的不足。3限制检索:限定检索的条件多种多样,主要和常用的是字段限制,它是限定检索词必须在数据库记录中规定的字段范围内出现。如
Computer/AB(后缀:基本字段使用)、
LA=English(前缀:辅助字段使用)等。其余可以限定的有:
1)限定范围,即限定关键词必须是处于页面中的某个字范围内的。如限定在标题、URL、链点文字、网页文字、特定站点等部分;
2)限定网页深度(即网页层次);
3)限定在某一专题内。如新闻组、黄页、电邮地址、股票等;
4)限定在某一分类类目内;如经济、文学、艺术、军事等
5)限定首先在5%最优站点范围内检索;
6)限定网络资源类型(网站类型)。如个人网页、商业、教育等;
7)限定网络资源类型。如文件、声音、图像、HTML、编程语句等;
8)限定日期。如特定日期前、后、最近某段时间内建立等等;
9)限定地区或域名。4邻近检索
(nW):要求所连接的两个检索词在结果中相互距离不超过n个词(中文则不超过n个字),而且前后顺序不能颠倒。如:检索式second(W)world(W)war就只能检索出那些包含词组“secondworldwar”的结果,而不会检索到包含“secondwarintheworld”
(nN):用途略逊一筹。作用相同,但前后顺序可以变换。如:Environment(2N)protection就可检索出包含
“environmentprotection”
“protectionofforestenvironment”
“protectionoftheenvironment”
“protectionofwaterenvironment”
总的来说,(W)和(N)关系对提高检索的查准率有着不可低估的功用。如果SE能支持更多其他邻近检索关系,如DIALOG的(L)和(F)关系,查准率可进一步提高。
检索效果的分析和评估检索效果:是指计算机信息系统检索信息的有效程度,反映了数据库系统的检索能力。检索效果包括检索的技术效果和经济效果。技术效果:信息系统完成其功能的能力,主要指性能和质量。经济效果:信息系统完成其功能的价值确定,主要指成本和时间。查全率:是衡量系统检索出与课题相关信息的能力;查准率:是衡量系统拒绝非相关信息的能力。两者结合起来,即表示信息系统的检索效率。查全率查准率
一系列实验表明:查全和查准之间存在互逆关系。同时提高查全率和查准率是有难度的,对任何一个检索系统,在两者间存在一个最佳的比例关系,即查全率在60-70%,查准率在40-50%。关于检索步骤
检索课题检索结果分析研究课题选择检索系统确定检索途径调整检索策略选定检索方法初步检索结果获取原始文献制定检索策略NY关于检索词和关键词关键词:就是从检索课题的题目、摘要和内容中抽取出来,能够充分表达信息主题内容的具有检索意义的关键性词汇。例如:检索课题:计算机领域犯罪心理的剖析关键词:计算机犯罪犯罪心理(学)
computercrime;criminalpsychology
检索课题:家庭破裂和社会问题的内在联系关键词:离婚社会问题
divorcesocialproblem
检索课题:监狱管理中的社会学原理运用关键词:社会学(原理)监狱管理
sociology;prisonmanagement检索课题关键词的概念分析1)一般关键词的分析关键词分析就是分析出课题所涉及的主要概念,并选择能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。尤其值得注意的是对于新学科、交叉学科和边缘学科的课题,清楚概念关系就显得尤为重要。概念分析的结果应以概念组为单元的词或词组形式列出,以便制订检索策略。例如,检索课题:网络资源的知识产权保护关键词:知识产权保护网络资源2)隐含关键词的分析有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的关键词。例如“知识产权保护”的概念中就隐含着“版权”、“著作权”等概念。3)核心概念的选取有些关键词已经含有的某些概念,在概念分析中应予以排除。例如。“社会保障”包含“养老保险”、“失业保险”、“医疗保险”、和“社会救济”等下位概念及同位概念“社会保险”。所以,如果需要检索“养老保险”方面的信息,应直接使用养老保险做关键词最确切。如果有些检索概念已经体现在所使用数据库中,这些概念也应该予以排除。例如,在使用法律文摘数据库(lawabstracts)时,“法律(law)”这一概念一般可以排除;而computer一词在计算机数据库(TheComputerDatabase)中一般也应予以排除。另外有一些比较泛指、检索意义不大的概念,如“发展”、“趋势”、“现状”等在不是专门查找综述类信息时也予以排除。关键词的判断和选择关键词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配基本单元。正确的主题分析是制定检索策略的保证,它决定了检索策略的质量和检索效果的好坏。1)使用通用性的术语切忌使用国际上并不通用的术语,例如,“第三世界”、“下岗”等查找国外数据库。要尽量使用本学科在国际上通用的、国外文献上出现过的术语,避免使用冷僻词和自选词2)选择概念表达最确切的词语关键词的选择不仅从课题名称中分析,更要从学科专业和检索目的的角度,概括出能够反映课题实质内容的检索词,以便提高检索的切题程度。3)从相应的规范词表中选定所需的关键词很多数据库都有自己的主题词表,所以应该优先选用词表中的规范词,以便能使检索获得最佳的效果。在计算机检索系统中一般都备有联机查询指令供检索者联机确定关键词使用。关键词的扩展处理在确定关键词时,除了要考虑到被选用关键词的缩写词及不同拼法的词,还要考虑反映主题概念的同义词、近义词等相关词,以便在编制检索式时考虑到这些因素,避免漏检有关的信息。
1)同义词的判断和选择如:学名和俗名:激光(镭射)、马铃薯(土豆)、简称和全称:TV(television)、澳州(澳大利亚)、WT
英美方式:“catalog”(catalogue)、“color”(colour)。2)近义词的判断和选择如:合同纠纷(合同争议)、国际矛盾(国际冲突)跨国公司(跨国企业)、法律监督(司法监督)等。3)概念为单位,构成组面关键词例如:检索课题:经济领域犯罪的心理分析关键词:经济犯罪犯罪心理心理分析关键词的选取应该考虑一些其他因素:例如:关于经济领域的诈骗行为的心理剖析关键词:经济诈骗诈骗心理(分析)这里有个概念的重叠和拆分的问题,如果关键词为“经济领域诈骗行为心理剖析”,显然没有达到简洁、切题的要求。例如:家庭、婚姻裂变和青少年犯罪的内在联系关键词:离婚(单亲家庭)青少年(未成年人)犯罪这里有个常用概念、相近概念需要考虑,如果关键词标引为“婚姻裂变青少年犯罪”,检索结果的查全率一定将大大降低。检索点的确认课题名称:1998-2000年度邓伟志先生在报刊上发表的有关社会学家庭婚姻的论文有多少?检索点:
1998-2000报刊论文邓伟志社会学家庭婚姻(时间)(范围)(人物)(学科)(主题)检索课题的分析和研究
这是指在着手查找信息前对课题进行分析,明确学科或专业的范围,弄清检索的真正意图及实质。它包括了解课题的内涵概念范围和外延概念范围,以便确定检索标识(检索词、分类等);明确课题所需信息的内容、出版国别、语种和年限;同时还要在分析的基础上形成主题概念,包括所需信息的主题概念有几个?概念的专指度是否合适?哪些是主要的?哪些是次要的等。1)专业范围:确定该课题涉及哪些专业及其相关的学科。2)时间范围:确定该课题需要检索信息的年代范围。3)地理范围:了解课题在哪个国家处于领先地位。4)语种范围:该课题在哪国占优势,选择该国母语的检索工具。5)信息类型:选择与课题有关的、针对性强的检索工具。检索策略的制定检索策略,即将课题的提问及其检索词与检索工具的收录内容、编排特点相匹配而确定的检索方案或程序。制定检索策略的主要内容是,在分析检索课题的基础上,确定要利用哪些检索工具,确定查找年限和专业范围的选择,确定检索用词并判明各词之间的逻辑关系与查找步骤等事项的科学安排。如C913.5*G=青少年犯罪*E=2001制定检索策略的关键环节1)对检索课题的标引要准确。2)选择收录全面、年限长、地域广,学术权威性高,编排方法科学,功能较多,易于使用的检索系统,这样才能提高检索效果。3)全面、综合地考虑选择检索途径,取长补短;
综上所述,详尽分析检索课题,从而确定检索目标,是制定良好检索策略的基础;选择适当的检索工具,是使合理的检索策略得以实施的前提条件;检索途径的确定和检索词的调节,是检索过程的关键环节。只有使这些环节达到最优化,才能优化检索策略。
选择检索系统
要根据课题要求,选择与所查课题相适应、质量较高、检索手段比较完善的检索系统须了解和掌握其适用范围、收录特点,然后可通过三次信息的选择和检索,如“SubjectGuidetoDialogDatabase”、《数据库目录》等工具指引到二次信息检索工具。例如,美国E.P.Sheehy编著的《GuidetotheReferenceBooks》,它介绍多种工具书,是目前世界上主要的指导使用工具书的工具书。
在选择检索工具时,要考虑的主要问题如下:1)内容和时间上,考虑数据库内容对课题内容的覆盖面和一致性2)手段和技术上,机检具有较高的检索效率,但查准率低,缺乏回溯性,选择时需掌握其收录信息的年代范围,才能获得满意的结果;手检效率低,却具有良好的查准率。3)考虑价格和可获得性,应选择就近容易获得的检索系统。
检索途径是进入检索的入口。1)反映信息内容特征的(主题、分类)途径:2)反映信息外部特征的(著者、题名、代码等)途径。上述两类途径构成了信息检索的整个检索途径体系。在计算机信息系统中,检索途径还有很多,几乎信息的每一个特征(如出版社、出版年代等)都可作为检索途径。显然,检索途径的多少直接关系到检索的便利。
每种检索途径各有特色,不可偏废。应根据检索要求、已知条件、设备是否齐全等因素,尽量综合利用各种途径,取长补短,进行优化选择,以提高检索效果。例如:为了解某一学科的发展历史、研究现状和发展趋势,为了制定战略决策和进行预测而搜集有关信息,应以分类途径为主,辅以主题检索途径;为研究解决某一具体问题或攻克某一技术难关,应以主题途径为主,辅以分类途径;如果已知检索课题的外部特征,则应选择题名、著者、代码等检索途径;如果已知检索课题的内容特征,则应选择主题途径或分类途径。选择检索方法(1)追溯法:1)传统追溯法;2)引文追溯法工具法:1)顺查法;2)倒查法;3)抽查法交替法:1)直接交替法;2)间隔交替法检索方法的选择原则:1)检索条件在没有检索工具可供利用的前提下,采用追溯法较为实际。虽检索效率不高,费时费力,但比逐期或逐年翻查原始信息要快得多。在原始信息收藏比较丰富的前提下,可查得一批有用信息;在有检索工具可利用时,以采用工具法为佳。其检出率要比追溯法高,所以工具法是最常用的检索方法。2)检索要求信息检索的一般要求是:广、快、精、准。若课题检索的目的在于系统收集信息,进行综合分析和研究,这样就需要评论性、战略性信息,以便供决策某一问题参考,即“普查”型检索。对信息的选择检索方法(2)
系统性、全面性要求较高,一般不能有重大遗漏。在检索时间比较宽裕时,可以采用顺查法,利用检索工具进行检索。如果检索的目的是解决与某一课题有关的关键性技术问题,即“攻关”型检索。这种情况要求既“快”,又“准”地提供关键性信息。由于时间紧迫,无疑不能采用顺查法,而宜用倒查法迅速查得最新技术信息。3)学科特点要考虑检索课题的学科发展特点。新兴学科,起点年代不长,又有准确的可供查考的起始年代,可采用顺查法,也可采用倒查法;年代久远的学科,只能采用倒查法。但是历史悠久的传统学科,其发展过程总是波浪起伏地发展,在兴旺时期,信息量多,反之亦然检索信息时,可重点抽查学科发展的高峰时期,当然,这种考虑、学科特点的检索原则同样地适用于专业特点、行业特点或技术特点的情况。检索策略的调整
检索过程是一个动态的随机过程,在某些检索环节中,会不可避免地产生一些和检索目标相差甚远的现象。检索词过宽泛或偏窄而造成扩检和漏检,检索词不规范而引起的误检等。所以有必要在评价检索效果的基础上,对检索效果进行信息反馈,便于重新修正检索策略,调整检索手段,进行新一轮的循环检索,从而实现检索目标的完善。
以SKBK为例:C913.5*G=青少年犯罪*E=2001C913.5*(G=青少年犯罪+G=未成年人犯罪)*(E=2001+E=2002)C913.5*(G=青少年犯罪+G=未成年人犯罪+B=青少年犯罪+B=未成年人犯罪)*(E=2001+E=2002)《SKBK》数据库检索举例学号:123456姓名:XXX检索课题:现阶段青少年犯罪的现象分析关键词:青少年犯罪(未成年人犯罪)检索对象:《SKBK》数据库检索对象简介:SKBK是《全国报刊索引》电子版。收录了全国社科期刊,报纸,内容涉及社会科学各个学科。收录原则为核心期刊全收、非核心期刊选收的原则,年更新量约20余万条,为目前国内特大型文献数据库之一。检索步骤:1)C913.5234(篇)2)C913.5+D917675(篇)3)C913.5+D17+D697.51455(篇)
………………(作业不能省略)N)(C913.5+D17+D697.5)*(G=青少年犯罪+G=未成年人犯罪)*E=1997–D=北京法制报67(篇)
【序号】1382【分类】D669.5【题名】市场经济的负效应与青少年犯罪【著者】鲁雪英【出处】安徽大学学报:哲社版.-1997.(3).-61-64【年份】1997【主题】青少年犯罪;市场经济【序号】16962【分类】D669.5【题名】对25名青少年吸毒引发犯罪的分析【著者】王循【出处】北京检察.-1997.(5).-31-32【年份】1997【主题】青少年犯罪;吸毒;案例分析
【序号】18343【分类】D669.5【题名】对门头沟区未成年人犯罪情况的调查及预防对策【著者】吴世芳【出处】北京警院学报.-1997.(2).-31-35【年份】1997【主题】青少年犯罪;预防犯罪;调查报告;北京市
检索结果复制五条打开数据库输入检索表达式在索引词典文档中比较和匹配从记录号倒排文档中调取记录号集合记录号集合之间的逻辑运算从顺排文档中调取记录输出命中信息结束检索另选数据库重新输入检索标识结果不匹配篇数不合要求重新调整检索策略记录内容不合要求数据库检索原理数据库的检索原理注释:在输入检索词后,系统主要操作的对象是顺排、倒排文档在输入单个检索词的情况下(如“软件”),系统首先查找索引词典倒排文档,并在显示器上响应,给出含有“软件”一词的记录数,同时将这些记录的地址调入内存。在系统接到用户显示命中记录的指令后,调用记录号倒排文档,根据记录号从顺序文档中读取并显示记录。有的系统则在接受用户检索词后,顺次搜索索引词典文档、记录号文档和顺排文档,用户可同时看到命中的记录数和首记录的全部内容。在输入两个以上检索词的情况下,系统除了进行上述操作外,还要对记录号集合之间进行布尔逻辑运算。
以下三种情况,可以通过或者换用其他数据库,或者重新输入检索词,或者调整检索策略的办法予以解决。
1)
对输入的检索词,系统响应为“0”,即检索词与索引词典中标识词不匹配;
2)
对输入的检索词,系统响应的篇数或者太多,或者太少;
3)
对输入的检索词,系统最后给出的记录并不合乎课题要求。数据库检索的过程介绍例如,检索课题:计算机在监狱事务方面的运用数据库检索的具体过程:
1)先把课题编制成检索策略输入系统,系统中的索引文档对检索策略中的“计算机”和“监狱事务”分别与存储标识进行匹配,显示出“计算机”的信息有1299条,“监狱事务”的信息有392条。
2)系统分别到存取号倒排文档中找出这两个词对应的地址号(如12和90),同时找到了含有“计算机”和含有“监狱事务”的所有信息的存取号,并把它们调入内存单元进行组配运算。
3)组配运算的结果,有23条信息符合要求,显示各自的存取号。
4)系统到顺排文档中按存取号调取命中的三篇记录,并将记录打印输出给用户。
数据库分类可以将信息数据库划分为二大类。
1)参考数据库(ReferenceDatabase)还需要进一步查找原文或其他资料的一类数据库。它包括书目数据库:向用户提供信息线索,只能检索出信息的标题、出处、著者、主题等。可分为文摘和索引数据库指南型数据库:能提供用户参考、指南的各类信息,如企业、机构等名称、地址电话、人物、出版物、项目、活动等简要描述信息
2)源数据库(SourceDatabase)数值型数据库:提供数据或数值类信息。术语数据库:存储和检索名词术语信息,如电子词典等;图像数据库:存储和检索各种图像或图形信息及文字说明资料;全文数据库:存储和检索文献全文或其中主要部分的信息;超文本数据库:存储内容分割为若干独立利用的结点,使用链路连结点等方式进行存取,形成了特殊的存取模式;
高级检索功能
1加权检索
1)类似布尔,即用“+”号或选择“mustcontain”表示某检索词“一定要出现”在检索结果中,如“+亚洲+金融风暴”,即检索结果中必须同时含有“亚洲”和“金融风暴”这两个词)。即用“-”号或选择“mustnotcontain”表示某检索词“一定不能出现”在检索结果中。不加符号或选择“shouldcontain”表示某个检索词“可以出现”在检索结果中。
2)加权(阈值),即对每个检索词根据其重要程度赋予一定的权值,设定某阈值,检索结果的权值超越该阈值就算命中如,检索词计算机、用户、软件,权值分别为5、8、4。阈值为9。计算机、用户、软件权值和=17大于9,命中。计算机、用户权值和=13大于9,命中。计算机、软件权值和=9等于9,命中。用户、软件权值和=12大于9,命中。用户权值和=8小于9,不命中。2自然语言检索系统利用非用词词表排除非关键词后检索。如pleasefindformesomethingaboutautomobilesaleinNewYorkstate,系统会排除“禁用词”、“检索提问词”后将“NewYorkstate”、“automobilesale”作为关键词进行检索。3相关信息反馈检索希望得到类似检索结果中某一结果而采取的方法,如Google中的“类似网页”,Excite中的“searchformoredocumentslikethisone”,Lycos中的“MoreLikeThis”.4模糊检索允许被检索信息和检索词之间存在一定的差异。如监狱管理、管理监狱、监狱的管理等。也包括用户的输入错误,以及格某些词汇在不同国家的不同形式,例如“catalog”、“catalogue”.5概念检索借助于一个同义词表对输入的检索词自动添加同一概念的词汇集合(同义、近义、广义和狭义词等),有助于提高查全率,但不会降低查准率。例如检索“automobile”、能同时包含“van”“bus”、“automobile”、“car”、“truck”,等任一词汇的结果。又如在检索“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检索到。例如Excite.需要指出的是:
1)检索技术的逐步改善能在一定程度上提高查准率,却减弱了检、索词的易用性。
2)上述技术中,布尔检索、加权检索、限制检索和按相关度排列检索结果是主要的检索技术。
3)选择一定数量、质量高的检索工具,在各自的检索结果中选定10%(结果罗列前面的),整理去重,无疑是一个提高检索效果的好办法。联机公共书目检索(OPAC)联机公共书目检索系统是供读者查询馆藏数据的联机检索系统。特点:数据丰富、界面友好、检索方式灵活、服务周到。检索字段选择检索字段选择布尔逻辑举例检索符号说明检索模式选择搜索引擎概述
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。因特网数据库信息用户搜索引擎搜索引擎的工作原理:双向的服务器结构检索结果检索词检索软件搜索所有的网页搜索相关的网页编制进数据库RobotSpider
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、OpenDirectory、GoGuide等。2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。多元搜索引擎的信息检索
用户在实际使用中,为了满足搜索的查全率,往往需要同时使用多个具有不同数据收集范围、具有不同搜索特色的搜索引擎。此外,每个搜索引擎都有自己的搜索规则和使用不同的检索符号,使得信息用户必须记住那些繁琐的检索符号,为此人们往往只是使用自己最熟悉的搜索引擎。正是在这样的背景下,为了便于用户在各个搜索引擎间进行灵活快捷的切换,产生了多元搜索引擎。多元搜索引擎没有自己的网页索引数据库,只提供一个集成的查询界面,用户的查询要求经它加工处理后转发给相应的多个相关的独立搜索引擎完成(这个过程可以是自动完成,也可以是由用户个性化选择来完成),返回的检索结果经它处理后以统一的显示格式提供给用户。常用的国外多元搜索引擎有:
Mamma、AskJeeves、Search、Profusion、ByteSearchMetaGrawler、SavvySearch等。搜索引擎的选择对搜索过程的分析展示单个搜索引擎A多元搜索引擎的主页单个搜索引擎B单个搜索引擎C……单个搜索引擎N
把多个搜索引擎的检索结果综合起来,从中选取与用户查询相关度较大的,排除掉重复的和相关度较低的检索结果,并将检索结果以统一的界面呈现给用户。
哈!我再以不必为每种搜索引擎不同的搜索规则而头痛了!多元搜索引擎的工作原理特点:
1)无需数据库的建立和维护,集中精力投入检索结果的处理;
2)避免在多个系统之间的切换、重复输入检索要求;
3)省略各搜索引擎在检索语法、规则、显示格式上的差异;
4)可以根据自己的检索习惯配置成具有个人风格的Web检索工具
5)实现了检索系统和索引数据库的分离类型:
1)并行处理:将用户的查询要求同时转送给它链接的多个独立搜索引擎进行查询处理,可以提高查询的效率,是主要的模式。
2)串行处理:它将用户的查询要求依次转送给所链接的每一个独立的搜索引擎进查询处理。人工智能技术在信息检索上的运用引言:信息检索的基本原理就是要完成对信息集合和需求集合的匹配与选择。一个完整的信息检索系统,其基础工作是:1)对信息进行采集、标引、存贮、处理,形成信息集合体,如数据库等(见图中“信息处理部分”);2)提供能表达用户信息需求的检索模型机制,便于用户清楚、准确地以此来描述自己的信息需求,进而形成需求集合,如提供布尔逻辑算符、截词符、权值等(见图中“信息库部分”);3)
以优良的匹配选择算法完成信息和信息需求的匹配,选择与匹配机制是信息检索系统中匹配与查找技术的集合,经过匹配后的结果提供给用户(见图中“选择与匹配机制部分”);4)表达用户信息需求,形成提问模型;把检索结果进行适当加工后送给用户;用户对检出的结果进行相关性判断,调整或修改检索策略,返回反馈信息,重新检索,直到检出满意的结果为止(见图中“人—机接口部分”)。信息处理部分信息源信息标引
信息库部分数据库管理系统数据库选择与匹配机制人—机接口部分构造提问模型构造提问模型
检索结果加工
数据库从以上结构分析中,可以看出传统信息检索系统的功能特点1)在文本处理部分所采用的语言是人工标引语言,对文本信息也只是特征描述,没有涉及到语义层次;2)在人—机接口部分,用户也不能使用自然语言来表达自己的信息需求,而是使用与所用标引语言相符的表达方式;3)用户需求的表达完全依靠用户本身对自己需求的描述,系统只是被动地、僵硬地执行命令;4)在选择与匹配部分,系统只是机械地把用户需求与信息集合进行相符性比较,无任何创意、变通。反馈
人工智能实质上是模仿人的大脑而展开的,其特色在于知识的逻辑推理,即以较完整的推理系统为核心,对知识进行组织、再生和利用。基于规则的推理思想是人工智能的本质特征。以人工智能方法所建立的系统的特色就在于对知识的逻辑推理。它以较完整的推理体系为核心,实现对知识的组织、再生和利用。基于规则的推理思想就是其中的一个典型。两者的共同点:
检索系统目前还没有达到在知识层次上进行加工、处理,但它至少也是在通过间接的途径实现对知识的处理。两者在对知识的处理中均以知识的获取、存储、利用为其主要研究内容,这就为构造人工智能技术与信息检索技术相融合提供了结合点。两者的差异:主要表现在对知识处理的理论方法和侧重点有所不同。对于信息检索而言,信息检索系统具有智能特性,对完成信息检索系统的最终目标——最好地满足用户信息需求,将无疑具有质的帮助,这也是信息检索系统的发展趋势——智能信息检索系统。l
智能检索系统与传统检索系统的比较
1)传统的信息检索系统要求用户将其信息需求用规范化的语言来表达,并以严格的格式输入系统;
而智能信息检索系统能理解、分析用户的自然语言提问,并产生合适的提问模型,用户与系统间可以进行自由、充分的反馈交流,直到获得满意的结果。
2)传统的信息检索系统中,信息标识是根据词频统计得出的,标引时只利用了信息的字符形式,未涉及信息的内容本身,所以标识往往不能反映信息的真实内容;
而智能信息检索系统具有处理自然语言文本的能力,它利用知识库中的有关知识进行语法、语义分析,从内容上真正理解并准确描述信息所论述的主题。
3)传统的信息检索系统不能够很好地处理主题概念、标识之间的各种联系和因果关系;
而智能信息检索系统则可以在知识库中使用语义网络、框架等各种知识表示方法来充分体现这些关系。
4)传统的信息检索系统的检索结果只是一些信息线索,指引用户去获得原始信息,
而智能信息检索系统可以将部分信息内容以知识形态存放于目标知识库中,通过对知识库的搜索和推理,得出用户能够直接加以利用的信息。
5)传统的信息检索系统缺乏适当的人机交互。这种交互只限于“YES”、“NO”或“菜单式”。信息检索实质上是用户询问和信息集合之间的匹配,用户的参与应该是整个信息检索过程的中心,只有用户充分地参与了信息检索过程,才能取得满意的效果。
而智能信息检索系统采用自然语言实现人机通讯,检索过程中用户和计算机之间可以不断地进行自由、充分、多方面的反馈交流,具有较高的人机交互水平。l
智能信息检索系统的类型
1)智能接口检索系统利用人工智能技术,改善现行检索系统的接口,建立智能接口系统或称智能中间人系统(见下图)。对用户来说,使人—机界面友好,可以主动地帮助用户选词、选库,构造提问模型,优化检索策略,并进一步根据用户的反馈信息调整检索策略,以获得更优的检索效果;对系统标引人员来说,可以通过智能接口对原始信息进行加工处理,保证信息的质量,使其充足且不失真。而完全基于知识表示的智能信息系统则完全抛弃原有的存储方式,而建立起一种用知识表示为集合的知识库,系统的服务项目也不再是间接的知识服务而是直接的、针对问题或任务的服务。该知识库以其特有的知识库管理系统作为支持,对它的利用可以是直接的,也可以通过一定的推理来间接地利用。
智能接口检索系统主要由三部分组成:
①
智能接口部分智能接口是用户与系统之间的通道。它的主要功能是对自然语言查询的处理;作为智能终端建立用户兴趣档案;加工检索结果。
②
知识库部分知识库是智能检索系统的核心。它也由三个子系统构成、知识库系统、数据库系统、检索推理系统。
③信息处理部分信息处理系统就是利用计算机自动处理自然语言形式的信息输入。它利用知识库中的语言学知识、科学知识和其他知识,对信息进行语法、语义分析,从内容上理解信息所论述的主题,并把它们表示成知识库中的知识和数据库中的数据元素,不断地丰富目标知识库和数据库。信息处理部分信息源自然语言标引
数据库部分数据库管理系统数据库推理与检索机制人机接口部分
数据库
知识库部分知识库管理系统数据库知识库构造提问模型检索结果加工自然语言反馈人工智能与检索系统的结合智能接口系统:CANSEARCH系统案例分析这是连接于联机检索系统MEDLINE的中间人系统。它不要求用户具有特定的知识或经过特殊训练,也不需要任何中间人(如图书馆员)的帮助,可供医生描述提问,检索有关癌症方面的文献。
它采用专家系统技术和抽词空间原理,应用规则表示法,利用触感终端与菜单选择的交互方式,使用PROLOG逻辑程序设计语言的编程方法,在美国利兹大学医学图书馆的肿瘤信息服务部实现。它具有良好的检索专家的检索经验与技术,将之纳入检索系统,可使具有专业知识的人无须为检索知识与技巧而锁眉,从而使检索具有高度的友好性与易用性。比如,它能模式化人类专家的查找处理过程,实现许多人类辅助功能,诸如提供主题专门知识、辅助用户选择检索词、消除检索词间的不一致性及其它错误,根据用户的要求形成查找描述,基于部分结果和评价,修改查找描述,等等。智能接口系统:CANSEARCH系统评价
由于无须改变原有信息系统的存贮方式及结构方式,而只是在原有系统的基础上,加入一个知识库及其管理系统,通过该知识库中的检索专家的知识,并依此展开推理,从而使信息检索系统具有智能接口的性质,因此,简便易行,开发费用不大,而且能充分利用现有检索系统的资源,这是其优点所在。另一方面,由于这种结合方式的数据来源仍是原有数据库,而这种库又非智能数据库,故提供给用户的数据也只能是现有数据库中固有的数据,不可能创造出新数据供用户使用,所以这种信息检索系统的智能因素是非常有限的。GeneCards-Web网上智能检索系统案例分析包含有HUGO/GDB(HumanGenomeOrganization/GenomeDatabase)人类基因有关数据的Web网上智能检索系统,由以色列的Weizmann研究所基因组研究中心和生物信息学中心共同开发,到2002年止,共收录了近万种基因的有关数据,其特点有以下几个方面:1)智能检索接口系统它直接向用户提供检索策略的咨询和检索后的反馈调节如系统在你开始进行检索前,提供检索示例帮助你确定检索策略;如你输入一条检索条目,在系统中检索不到任何结果,系统将进一步提供改进检索策略的方案,和/或直接链接到其他与你检索有关的数据库的检索引擎,并提供有关数据库相关数据的简要说明。例如你检索有关乳腺癌(Breastcancer)基因的研究情况,用户将得到如下服务:1)提供检索策略示例,供用户参考当用户进入系统(可从http://bioinfor.weizmann.ac.il/cards进入)时,系统提供关于检索策略的各种示例,供用户参考,如TP54和BRCA1基因的标准检索示例,以及“apolipoproteinANDmRNAediting”和“Stupidity”等多种示例供用户参考;2)辅助用户选词、选库、选择检索途径和构造检索式等例如,当用户输入“breastcancer”进行检索时,系统将返回该查询的零匹配的结果,“GuidanceSystem”提供建议:检查“cancer”的拼写方法,并提供相关的可供扩检的词,如“caorcan”等等;系统建议你修改检索策略后,再进一步查询;3)提供与其它数据库的动态链接如检索“stupidity”,系统提示GeneCards未检索到有关数据,但它提供了与其它数据库的链接,如与NCBI’SMEDLINE的链接,如选择相应的项目,将立刻检索出相应的文献,现可检索到文献15篇。使用户在利用多个数据库时,如同使用一个数据库一样。2)直接提供有关的知识信息,而不是简单让用户获得文献源它利用其具有处理自然语言文本的能力,对从其它数据库中自动提取的文本自动地进行语法和语义分析,对有关基因和相应疾病的各个方面进行概括性描述,为用户提供相应的知识信息。如你检索“BRCA1”基因,你将得到有关该基因的功能和亚细胞位置,以及该基因相应疾病的描述,同时提供该基因的染色体位点,并提供该基因在临床方面的应用介绍。这样用户就象翻阅百科全书一样,可以直接获得大量的知识信息,而其内容又是最新的。3)Web网上多数据库的动态链接当用户进行检索时,该系统自动地与这些数据库进行链接,同时从这些数据库中提取与检索提问相匹配的数据,返回相应各种数据的概要说明,用户只需选择相应的说明项,便可获得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中图版(北京)八年级地理上册2.2《主要的气候类型》听课评课记录
- 人教版七年级地理上册:1.1《地球和地球仪》听课评课记录3
- 2025年高性能铁氧体一次料合作协议书
- 星球版地理八年级上册《第一节 合理利用土地资源》听课评课记录3
- 人教版历史八年级下册第13课《香港和澳门的回归》听课评课记录
- 鲁教版地理七年级下册9.1《自然特征与农业》听课评课记录1
- 五年级数学下册听评课记录《第4单元 3分数的基本性质》人教版
- 粤人版地理八年级上册《第三节 水资源》听课评课记录1
- 湘教版数学七年级下册1.3《二元一次方程组的应用》听评课记录1
- 苏科版九年级数学听评课记录:第80讲期中期末串讲
- 小学五年级英语20篇英文阅读理解(答案附在最后)
- 学校安全隐患排查治理工作台账
- GB/T 8151.13-2012锌精矿化学分析方法第13部分:锗量的测定氢化物发生-原子荧光光谱法和苯芴酮分光光度法
- 2023年辽宁铁道职业技术学院高职单招(英语)试题库含答案解析
- GB/T 23800-2009有机热载体热稳定性测定法
- T-SFSF 000012-2021 食品生产企业有害生物风险管理指南
- 2023年上海市闵行区精神卫生中心医护人员招聘笔试题库及答案解析
- 水库工程施工组织设计
- 气流粉碎机课件
- 梁若瑜著-十二宫六七二象书增注版
- SJG 74-2020 深圳市安装工程消耗量定额-高清现行
评论
0/150
提交评论