第2章__信息存储与检索基础_第1页
第2章__信息存储与检索基础_第2页
第2章__信息存储与检索基础_第3页
第2章__信息存储与检索基础_第4页
第2章__信息存储与检索基础_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2章 信息存储与检索基础l本章重点:本章重点:l信息存储与检索得基本概念、原理l信息存储基本形式及发展l信息检索模型l信息存储与检索得基本类型l索引的概念及其类型划分l2.1 信息存储与检索原理l2.1.1 信息存储与检索概念l2.1.2 信息存储形式l2.1.3 信息存取模型l2.2 信息存储与检索类型l2.2.1按存取活动的执行主体划分l2.2.2按查询信息的特征划分l2.2.3按检索系统的工作方式划分l2.2.4依检索策略划分l2.2.5依照系统载体划分l2.3 索引款目的结构与类型l2.3.1 索引款目结构l2.3.2 主要索引类型2.1.1 2.1.1 信息存储与检索概念信息存储与

2、检索概念l信息存储与检索(简称为信息检索或信息存取)是信息存储与检索(简称为信息检索或信息存取)是信息检索的全称形式或广义的信息检索,它既包括着采用多种形式记录信息、排序信息的信息存储过程,也包括着通过一定的设备、采用一定的手段与技巧从信息系统中快速、准确地搜寻所需信息的方法与活动。l信息检索的基本原理:信息检索的基本原理:为了促进信息资源的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得特定需要的信息资源,必须要对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储,以建成各种信息存取系统。用户则根据检索需要,将需求转变为系统所能识别的检索式,再与存取系统中表征信息资源特征的标

3、识进行逐一的相符性匹配与比较,两者完全一致或部分一致时,即为命中信息,可按用户要求从存取系统中输出。l信息存储与检索走过了文献检索文献检索、情报检索情报检索的历程,并且正在向着知识检索知识检索的领域迈进。l从信息需求与查询结果信息需求与查询结果看,信息检索通常包括四种类型:1.关于文献的检索2.关于某事实或事项的知识检索3.关于数值或数据的情报检索4.关于图像信息的信息检索l信息检索信息检索一般是通过信息存取系统(亦称检索工具)来实现的,任何一种存取系统都包括有信息存储子系统和信息检索子系统,它们是同一事物中两个相互对立的方面,如图21所示: l存储子系统存储子系统的建设,要求根据一定的原则记

4、录和描述信息或知识载体的内容与形式特征,然后按特征序化成各类信息集合并组织成系统。信息存储部分是揭示信息特征、整序信息、建设系统的过程。检索子系统检索子系统的主要功能是根据信息用户的需求,利用一定的设备与技术查询特定信息的过程。但是只有经过记录、描述与组织序化的知识集合,才能提供有效的信息检索。因此,信息存储是基础,信息检索是目的。2.1.2 信息存储形式l根据存储介质及其存储技术划分:根据存储介质及其存储技术划分:(1)信息的印刷存储)信息的印刷存储l由于纸张上的文字、图形信息直观易读、携带方便,直到今天仍然是用户所乐于接受的最常使用的信息载体。纸张载体的弊端是存储信息的密度太小、占用空间大

5、、存储速度慢、印刷周期长,难以实现信息内容的快速传递;此外,纸张载体易受温度、湿度、光线、灰尘、蛀虫影响,难以长期保管。(2)信息的微缩存储)信息的微缩存储l微缩存储是微缩摄影技术的简称,主要利用摄影机将印刷资料微缩拍摄到感光胶片上,冲洗微缩胶片后保存起来,以供拷贝发行、检索与阅读之用。l微缩存储的主要的特点有:存储容量大、密度高;体积小、重量轻;忠实于信息原件、不出差错;成本低、价格便宜;保存时(3 3)信息的磁存储)信息的磁存储l磁存储的主要类型有计算机磁带,硬盘,软盘,温盘。l磁存储的主要特点有:1. 能够存储一切可以转换成电信号的信息,如文字、声音、图像等。 2.可长久保存在磁带中,可

6、重复使用,可随时抹去重新记录新信息。3. 能同时进行多路信息的存储,并保证信息之间的时间和相位关系。4. 存储频带宽广,可存储直流2兆赫以上的信号。5.可根据需要或高速存入高频信息慢速复放,或慢速存入低频信息快速复放。l磁带存储磁带存储的主要优点是:价格便宜、存储量大、占用空间小、性能价格比高。其缺点是只适用于顺序存储,而且速度有限;工作时由于磁头与磁带表面的接触容易损坏磁表面层;磁带存储器的顺序存储方式决定了其特别适用于大批量的回溯检索。l磁盘存储器磁盘存储器的最大优点是,能够随机存储所需数据,数据传输速度快,适合作为计算机大容量的外部存储设备。l软盘软盘的优点是:驱动器体积小、重量轻、结构

7、简单、价格低,缺点是存储容量小,存取速度与数据传输率较低,容易携带病毒。l温盘温盘存储具有以下特点:l(1)采用组合件方法消除影响磁头定位精度的机械变动因素;l(2) 采用密封防尘结构减少浮动高度和有效记录磁道宽度;l(3)采用体积小、重量轻、负荷小的磁头和表面润滑的磁盘,从而消除磁头集中加载对盘面的冲击可能造成的头盘损伤;l(4)采用薄的高性能的磁盘媒体提高读写能力;l(5)采用读用集成电路,并尽可能把它安装在靠近磁头处,以改善高频信号的传输质量l (6)温盘的上述特征增加了系统的稳定性与可靠性,对于提高磁盘机的性能价格比起到了重要的作用。(4 4)半导体存储)半导体存储l半导体存储(Sem

8、iconductor memory)是采用集成化的技术将存储单元电路及其外围电路直接置放在半导体芯片上制成的。按照半导体存储器的功能可分为随机存取存储器和只读存储器。l(1)随机存储器RAMlRAM(Random Access Memory)是易失性存储器,一旦去掉电源,信息将全部丢失。RAM工作的特点是:可以按照需要随时向其任一存储单元写入信息,也可以随时从其任一存储单元读出信息。l(2)只读存储器ROMlROM(Read-only memory)是非易失存储器,去掉电源,信息仍保持不变。ROM的工作特点是:存储的信息一般不变,可以随时读取任一存储单元的信息,但不能随时写入信息。(5 5)光

9、盘存储)光盘存储l光盘是用聚焦成直径小于1微米的激光束在记录介质上写入与读出信息的高密度存储载体,其基本结构分为三层:基体、信息层和保护层。l光盘载体的主要优点光盘载体的主要优点: : 1.信息存储密度极高、容量大2.价格低廉,便于复制3.具有随机存储特性,便于和计算机接口4.可以存储和显示多种信息5.光盘坚固耐用,存储寿命长l光盘载体的主要缺点:光盘载体的主要缺点:误码率比较高,核对误码需占20%30%的光盘空间。 l光盘的类型:光盘的类型: l只读型光盘l写一次型光盘l可擦型光盘(6 6)计算机的存储技术与设备)计算机的存储技术与设备l计算机信息存储技术近几年发展非常迅速,各种新产品、新技

10、术层出不穷,但从总体上看它们呈现出一种类似金字塔的结构,其中塔尖为CPU,距离CPU越近则存储速度越快、每兆字节的存储成本越昂贵,容量也小;反之则存储速度越慢、每兆字节的存储成本越低,容量也越大。如图2-2所示。(7 7)网络存储)网络存储a. a.直接连接存储直接连接存储l又称附服务器存储(Sever Attached Storage,简称SAS)。这是最为基本的一种存储结构,是如今在校园网或办公环境中最常见的一种。存储器通过一个通用服务器连接在网络上,存储器与服务器之间通过传统的I/O总线通讯。客户机如需要访问存储器的数据,首先必须给文件服务器发送一个请求消息,文件服务器解析这个请求并给存

11、储器发送访问消息,存储器访问数据发送至文件服务器的内存,最终由服务器把数据传给客户机。l这种结构的缺点:这种结构的缺点:1.客户机访问的所有数据都需要通过通用文件服务器存储转发,严重占用服务器的内存、CPU和I/O总线等系统资源,并产生严重的I/O瓶颈。2.这种存储结构可扩展性差,其扩充网络存储容量的方法是为服务器增加更新、更快的盘。a. a.附网存储附网存储l 附网存储是计算机信息存储领域中的最新技术之一,可以简单、可靠、经济有效地在网络中添加共享存储区,从而使各部门和工作组可以通过网络快速访问数据,并实现多人同时访问。这种方案中的存储设备与网络设备直接相连,有利于客户机与存储器之间直接传送

12、数据,减轻服务器的工作负载,大大改善服务器的工作性能。NAS之所以对设备的要求低且易于维护,是由于它采用了瘦服务器这项最新技术。c. c.存储区域网络存储区域网络(SAN)(SAN)lSAN是一种数据存储设备及服务器间通信的专用网络,能够提供几乎无限的信息交换能力。lSAN基于一个极为简单的原则,即任何一个服务器可以与任何存储设备直接进行数据交换,而不受NAS体系结构的限制。SAN不仅可以容纳Web服务器、Extranet及Intranet上的所有信息,而且可以在一个中心节点上完成对所有数据的管理。(8 8)存储技术发展趋势)存储技术发展趋势l各种信息存储技术将在较长的时期内并存,互为补充;l

13、各项信息存储技术的相互结合:2.1.3 信息存取模型信息存取模型 l所谓信息存取模型(也叫做检索模型)信息存取模型(也叫做检索模型),是用于描述信息(文档)表示,用户查询及其相互关系(主要指相关性和度量)的框架形式,它是存取系统中用于实施查询的相关性的度量模式前后描述的一致性问题l以用户查询信息的行为用户查询信息的行为为标准,可以将信息存取模型划分为两大类:即检索模型和浏览模型。l检索模型又可以进一步划分:l基于文档内容文档内容的检索模型和基于文档结构文档结构的检索模型l基于文档内容文档内容的检索模型检索模型常用的有布尔逻辑模型、概率统计模型和矢量空间模型三种类型,如表21所示: l1. 1.

14、 布尔逻辑模型布尔逻辑模型l这是一种基于集合理论和布尔代数原理的检索模型,其查询可以由and、or、not布尔符号连接多个索引项或检索词组成。检索结果是这些索引项或检索词相互匹配的布尔组合。布尔逻辑模型的主要优点是模型描述的形式化与操作简单,主要缺点是精确匹配所导致的结果文档过多或丢失。l2.2.概率统计模型概率统计模型 l概率统计模型是在布尔逻辑模型的基础上,为解决检索过程中存在的一些不确定性而引入的。它利用概率论的原理,通过赋予标引词的概率值来表示这些词在相关文档集合或无关文档集合中出现的概率,然后计算某一给定文档与给定查询之间的相关概率,存取系统据此做出检索决策。l3. 3. 矢量空间模

15、型,也称向量空间模型。矢量空间模型,也称向量空间模型。l鉴于布尔模型“准确匹配”策略上所产生的检索弊端,20世纪60年代后期,美国的萨尔顿(G. Salton)在其开发的试验存取系统SMART中提出并采用线性代数理论和方法构建了一种新型的信息存取模型,这就是著名的向量空间模型(Vector Space Model,简称VSM)。这种基于部分匹配框架的矢量空间模型采用了非二值的索引项权重,将文档和用户查询用t维权重矢量来表示,通过计算这两个矢量之间的相似度对返回的结果进行排序。l它主要包括以下几种具体的模型:1.并列链表模型并列链表模型2.层次邻接模型层次邻接模型3.平面浏览模型平面浏览模型4.

16、目录导航模型目录导航模型5.网状结构模型网状结构模型2.2.1按存取活动的执行主体划分l按存取活动存取活动的执行主体划分:l手工存取(手工存取(Manual RetrievalManual Retrieval)l计算机存取(计算机存取(Computer-based RetrievalComputer-based Retrieval)2.2.2按查询信息的特征划分按查询信息的特征划分 l按查询信息查询信息的特征划分:l书目存取(书目存取(Bibliographic RetrievalBibliographic Retrieval)l数据存取数据存取(Data Retrieval)(Data Re

17、trieval)l事实存取事实存取(Fact Retrieval)(Fact Retrieval)l全文存取全文存取(Full Text Retrieval)(Full Text Retrieval)l图像存取图像存取(Image Retrieval)(Image Retrieval)l多媒体信息存取多媒体信息存取(Multimedia Data Retrieval)(Multimedia Data Retrieval)2.2.3按检索系统的工作方式划分按检索系统的工作方式划分 l按检索系统的工作方式工作方式划分:l脱机存取(脱机存取(Off-line RetrievalOff-line Re

18、trieval)l联机存取(联机存取(On-line RetrievalOn-line Retrieval)l光盘存取(光盘存取(CD-ROM RetrievalCD-ROM Retrieval)l国际互联网络存取(国际互联网络存取(Internet RetrievalInternet Retrieval)2.2.4依检索策略划分依检索策略划分 l依检索策略检索策略划分:l布尔逻辑存取检索布尔逻辑存取检索(Logical Operator Retrieval)(Logical Operator Retrieval)l截词存取(截词存取(Truncation RetrievalTruncatio

19、n Retrieval)l位置逻辑存取位置逻辑存取(Proximate Operator Retrieval(Proximate Operator Retrievall限定存取限定存取(Range Retrieval)(Range Retrieval)l加权存取加权存取Weighting Retrieval)Weighting Retrieval)2.2.5依照系统载体划分依照系统载体划分 l依照系统载体系统载体划分:l印刷型文本系统存取(印刷型文本系统存取(Printed Text RetrievalPrinted Text Retrieval)l缩微磁带存取缩微磁带存取(Microfilm

20、 Retrieval)(Microfilm Retrieval)l光盘系统存取光盘系统存取(CD-ROM Retrieval)(CD-ROM Retrieval)l计算机存取计算机存取 (Computer-based Retrieval)(Computer-based Retrieval)2.3.1 索引款目结构l索引(索引(IndexIndex)是存取信息资源“地址”或“出处”的标识系统,是信息存储与检索的基本形式。索引的基本功能是指示知识点在正文或文献款目中的位置。传统的文本式检索工具通常由两部分组成,即文摘正文部分和辅助索引部分。l索引款目索引款目是有关信息资源所涉及的主题、事物及其它特

21、征的信息单元,并指向其地址的一条记录。它取决于索引系统的算法或模型,取决于索引的编制目的和对索引形式的要求。索引款目是构成索引的基本单元,一般只起指示特定信息单元地址的作用,不报道信息内容。l索引款目索引款目一般由索引标题词、说明语和地址参照项组成,而简单的索引款目往往只有索引标题词和地址参照项两部分内容。l1. 1.索引标题词索引标题词l索引标题词亦称标目、索引键、索引标题等,一般处于索引款目中最醒目的位置,是索引款目的核心,也是信息资源外部特征与内容特征的标志。l2.2.说明语说明语l说明语,也称为上下文或修饰语,通常位于索引标题词的右边或下面,是用来说明、解释、限定索引标题词含义的辅助项

22、目,说明语可用来区别同一索引标题词的不同意义。l3.3.地址参考项地址参考项l地址参考项位于索引标题词和说明语之后,索引地址所指明的是索引标题词所在的页码或在检索系统中的文献顺序号、分类号或文献号等,即索引标题词的出处。2.3.2 主要索引类型l索引的类型是由索引标题词的性质确定,不同性质的索引标题词构成了不同类型的索引。l依据索引标题词性质索引标题词性质划分:有揭示信息资源内容特征的主题索引、分类索引、关键词索引、分子式索引、结构式索引;有揭示信息资源形式特征的题名索引、人名索引、物名索引、代码索引和引文索引。l依据索引标题词的排序方式索引标题词的排序方式划分:有按照标题词字顺组织的主题索引

23、、题名索引、人名索引、关键词索引、语词专用索引等;有按照文献代码组织的报告号索引、合同号索引、专利号索引、标准号索引、分类号索引等;按照其它排序方式组织的有网络信息自动索引、重量索引、速度索引、专用索引等等。l按照检索方式检索方式划分,有先组式索引和后组式索引;l按照索引所包括的对象划分索引所包括的对象划分,有综合索引(包括多种标题特征的索引)和专门索引(单一特征索引)等等。1. 1.题名索引(题名索引(Title IndexTitle Index)l题名索引,是将信息资源的题名特征(书名、刊名、篇名)选作为索引标题词所编制的索引系统。l例如: 未来的地球人/王佃亮 31l 解构爱因斯坦/一茗

24、 32l 一流大学校长必须是教育家等6则/睦依凡 36l 宇宙是什么颜色等6则 /本刊资料室 42 l说明:索引标题词(题名) 文献作者 地址参照项(所在页码)2.2.人名索引(人名索引(People Name IndexPeople Name Index)l人名索引,是以文献上署名的著者、译者、编撰者、注释者以及文献中所论述的人物名称作为索引标题词所编制的一种索引系统。l例一:Sadykov,A . A lChemical Study of Persica 91:135089kl例二: Harris,A . E 001536l例三:伽利略 (Galilei,Galilei) B503.922

25、l例四:梁启超(1873-1929) B259.1l说明:索引标题词 说明语(原文名、生卒年)地址参照项(文摘号、文献号、分类号)3.3.文献序号索引(文献序号索引(Document Number IndexDocument Number Index)l文献序号索引,是根据信息资源的外表特征文献排序号所编制的索引。在一些特定类型的文献资源中,每一份文献都有一个特定的专门排序号。l例一 :合同/基金号索引(CONTRACT/GRANT NUMBER INDEX)lMIPR-FY7616-02-00394lCold Regions Research and Engineering Lab. Han

26、over. NHlAD-A121 330/5 933lMIPR-82-504lVaval Research Lab. Washington,DClAD-A121 087/1 714l说明: 合同基金号 执行机构 报告号 索引地址号4.4.引文索引(引文索引(Citation IndexCitation Index)l引文索引是近30年来出现的一种新型的索引形式。其特点是,把一系列具有引用与被引用关系的科学文献以多向线性的方式联系起来,提供一个以引证关系为依据来检索文献的新途径。l引文索引的主要职能是,回答某作者的论文曾经被哪些人的文章所引证,这些文章何时发表在何种刊物上。5.5.分类索引分类索

27、引(Classification Index)(Classification Index)l这是一种以文献内容的学科范畴的分类标识(又称分类号)为依据编制而成的索引系统。l6.6.主题索引(主题索引(Subject IndexSubject Index)l主题索引,是将表征文献主题内容的主题词作为索引标题词,其后注明地址(或页码)编制而成的索引系统。l例一:lParallel access computer, in self-organizing 1234.6533.4211l(并行存取计算机) (自组织系统中的)l例二:lSword, Manufacture, review on, 6385

28、.4246.5367l(刺刀)(制造) (有关评论)l例三:l反义词 ,汉语现代 H136.2l例四:l反潜飞机 V271.4; TJ85l说明:索引标题词 说明语(修饰语) 地址参照7.7.关键词索引(关键词索引(Keyword IndexKeyword Index)l又称键词索引,属于广义的主题索引。这是从文献题名、文摘、原文或网站、网页、网址甚至网页正文中抽取的,对于表述信息资源的主题内容具有关键意义的名词或名词性词组,作为索引标题词,其后注明出处所组成的索引。l关键词索引按形式划分关键词索引按形式划分有题内关键词索引(KWIC Index)、题外关键词索引(KWOC Index)与单纯

29、关键词索引等类型。l(1)题内关键词索引题内关键词索引 (Keyword in Context Index,简称KWIC Index),又称上下文关键词索引,其特点是将选作为索引标题词的关键词放在索引款目的中间位置,上下文作为说明语放在关键词的两边,索引标题词的地址参考位于右端。l(2)题外关键词索引题外关键词索引(Keyword out of Context Index, 简称KWOC Index),是针对KWIC索引易读性差进行改进而产生的索引系统。其具体做法是将作为索引标题词和关键词抽出列于文献题名的首位或提行,其后是文献题名,并在题名中将索引标题词所在位置采用“*”或“+”代替。l例一

30、例一:文献“Microcomputer for Information Management 0367”可构成两条题外关键词款目:lMICROCOMPUTERl* for Information Management 0367lINFORMATION MANAGEMENTl MICROCOMPUTER FOR * 0367l(3)轮排关键词索引轮排关键词索引(Permuted Keyword Index),又称标字索引,即将文献题目中的每个关键词或词组轮流作为索引标题词排在款目之首,题目中的其它词语根据其相互之间的语义关系进行轮排,以便用户研读与理解。l例如例如:文献Resources for

31、 Information about Distance Education and Its Providers(关于远程教育提供机构的信息资源)。l除开题目中的for, about, and, Its几个非关键词,其它均为关键词,所构成的轮排索引款目如下:lResources for Information about Distance Education and Its Providers 67883lInformation, Resources,about Distance Education and Its Providers, for 67883lDistance Education

32、and Its Providers, Resources for Information, about 67883l(4 4)单纯关键词索引)单纯关键词索引(Keyword Index),所谓单纯关键词索引即简单关键词索引。其特点是在索引款目中不包含非关键词,单纯地由若干个关键词构成,其后注明文献地址。l例如例如文献“病理学家和畸形学家用以评定毒物危害的计算机技术(设文献代号为00386)”即可形成四条单纯关键词索引款目。l 病理学家 畸形学家 毒物危害 计算机技术 00286l 畸形学家 毒物危害 计算机技术 病理学家 00286l 毒物危害 计算机技术 病理学家 畸形学家 00286l 计

33、算机技术 病理学家 畸形学家 毒物危害 00286l(5 5)挂接主题索引)挂接主题索引(Articulated Subject Index),又称为题外关键词索引,是由英国谢菲尔德大学的林奇(Lynch)和阿米塔奇(Armitage)设计出的一种便于计算机操作的印刷形态索引,其索引数据均由标引员根据文献的主题范围编写而成,每一条索引款目则是由若干名词词组与介词构成的一个描述性短语。l例如例如,一条文献代号为00436的经过加工的名词短语为: “Organization of Knowledge in the age for Information Economy”,可从中抽出4个索引标题词:

34、l“Organization”(k1),“Knowledge(k2)”, “age(k3)”, “Information Economy(k4)”l即可编写成:(Organization )of( Knowledge) in the (age) for (Information Economy) 00436l然后交给计算机去自动挂接排列,便可形成以下5种款目形式:lOrganizationlof Knowledge in the age for Information Economy 00436lKnowledgelOrganization of, in the age for Information Economy 00436lAgelOrganization o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论