论信息存储与检索技术_第1页
论信息存储与检索技术_第2页
论信息存储与检索技术_第3页
论信息存储与检索技术_第4页
论信息存储与检索技术_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论信息存储与检索技术

信息存储和检索技术是信息存储的重要组成部分。信息存储方式设计检索效率,检索语言和检索效率密切相关,它在信息检索过程中起着语言保障的作用,是沟通信息的存储和检索两个过程以及标引人员和检索人员双方思想交流的桥梁。随着网络信息资源的日益丰富和复杂化,为满足不同用户能够检索到所需信息,检索语言必然朝着自然语言、用户界面友好的方向发展,这给存储与检索技术提出了更高的要求。因此,我认为有以下问题值得深入研究:1网络搜索引擎检索机制计算机处理的数据量呈指数增长,随着数据信息库积累的数据和主题越来越多,怎样快速、有效、经济地检索某个主题的所有信息,就成为一个十分热门的课题。解决这个难题的方法之一是采用智能搜索技术。网络信息检索系统的核心是搜索引擎,它需要从纷繁复杂的大量信息中,筛选出符合用户需求的信息。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型等。布尔型信息检索模型是最简单的信息检索模型,用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎根据事先建立的倒排文件结构,确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关,查询结果一般不进行相关性排序。与布尔型信息检索模型不同,向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。根据向量空间的相似性,排列查询结果。向量空间模型不仅可以方便地产生有效的查询结果,而且能提供相关文档的文摘,并进行查询结果分类,为用户提供准确定位所需的信息。基于贝叶斯概率论原理的概率模型不同于布尔和向量空间模型,它利用相关反馈的归纳学习方法获取匹配函数。虽然不同检索模型使用的方法不同,但所要达到的目标是相同的,即按照用户要求,提供用户所需的信息。事实上,大多数检索系统往往将上述各种模型混合以达到最佳的检索效果。搜索引擎构成信息检索系统的核心,搜索引擎信息检索系统还包括对索引信息文档格式的预处理、索引信息的分析、信息索引和用户信息检索等几个阶段:①信息预处理包括信息格式转换和信息过滤两个不同层次。信关作为访问不同信息的机构访问不同组织形式的数据信息,同时过滤不同格式的文档,这使得搜索引擎不仅能够检索正文文档,而且能够检索原始格式的文档信息;②信息索引就是创建文档信息的特征记录,使用户能够检索到所需信息。建立索引需要进行下列处理:信息语词切分和语词词法分析,识别出各个语词的词干,以便根据词干建立信息索引;进行词性标注及相关的自然语言处理,也就是在切分的基础上,利用基于规则和统计方法进行词性标注,识别出重要的短语结构;建立检索项索引,一般使用倒排文件的方法建立检索项相关信息,以易于文档信息的更新处理;③查询扩展处理的目的是提高信息检索的精度和召回率。所谓精度是指检索结果中相关信息文档数与查询结果总数之比;所谓召回率是指实际检索出的相关信息文档数与信息库中总的相关信息文档数之比。为了提高信息检索的召回率,需要根据同义词词典和语义蕴涵词典扩展查询检索项;而提高信息检索的精度,可利用向量空间模型实行相关查询反馈处理,即用户从初次查询的结果中,选择内容重要的文档或文档片断,让搜索引擎依据所选文档的特征,重新进行查询,从而提高查询精度;④信息分类和摘要,即根据文本检索项的统计特征,对查询结果进行分类和摘要,便于用户从多种途径找到相关信息。搜索引擎除了被动搜索外,也可以利用智能代理技术进行主动信息检索。信息检索系统智能用户代理,可根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件、数据库信息变化等,并将用户所需的信息,通过电子邮件或其它方式,主动提供给用户;用户无须反复搜索所需信息,这样将大大减少用户检索信息的时间。目前信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言在信息检索中的应用,将会提高信息检索的精度和相关性。2人工语言与自然语言世界著名咨询研究公司Gartner集团于1999年1月20日发表的未来技术发展十大趋势预测曾明确指出:“自然语言信息检索未来两年内将取代目前的关键字检索而成为最重要的搜索技术”。张琪玉教授也认为:在计算机的系统中,人工语言与自然语言、先控制与后控制的界限可淡化或取消。信息检索的语言模式包括:①纯人工语言模式在标引中使用人工语言,检索中也使用人工语言,即标引控制+检索控制的模式;②纯自然语言模式在标引中使用自然语言,检索也使用自然语言,即标引不加控制,检索也不加控制,不使用任何控制工具(分类表或词表)的模式;③人工语言+自然语言接口模式在标引中使用人工语言,机内存有一部“自然语言—人工语言对应表”,标引只使用人工语言,检索则既可使用人工语言,也可使用自然语言表达检索提问,通过对应表自动转换成人工语言进行检索;④自然语言+后控制词模式,标引只使用自然语言,检索是既可直接使用自然语言不加控制,也可使用后控制词表加以控制;⑤人工语言与自然语言混合模式,标引或者使用具有大量自然语言人工词的人工语言词表(相当于增加了自然语言—人工语言对应表功能),并允许同时使用自然语言进行标引(不象使用自由词那样作双重标引)。或者使用后控制词表作为人工语言词表的代用品,将属于真正等同关系的自然语言词自动转换成控制词。检索则既可使用控制词,也可使用自然语言词。具有大量自然语言入口词的人工语言词表,其主要功能就是将自然语言词转换成人工语言词。而作为人工语言系统的自然语言接口的自然语言—人工语言对应表,其功能也是要检索时将用户所使用的自然语言检索用语转换成检索系统所使用的人工语言标引用语,以便使两者能进行相符性比较。所以在自然语言系统中,将属于真正等同关系的部分自然语言词通过这两种工具使其自动转换成控制词用于标引文献是完全可能的。将自然语言词转换成控制词作为标引用词,可以简化检索过程中的相符比较。但是,对于在人工语言中意义上并非真正概念等同的词作了等同关系处理的专指词、近义词等,可能不易于检索;若保留自然语言原词不作转换,则可提高检准率。所以,在计算机系统中采用人工语言与自然语言混合模式,标引用词既有控制词,也有自然语言词,控制工具是开放、灵活的,无疑具有更多的优点。人工语言与自然语言、先控制与后控制的界限在计算机系统中淡化或取消,实际上井没有削弱对标引、检索过程的控制,相反可提高检索效率。其前提条件是纯人工语言模式检索系统所用词表应大量增加入口词,或配备自然语言接口。纯自然语言模式检索系统应配备后控制词表,检索软件应有自动转换功能。3数字图书馆的检索技术数字图书馆所包含的内容和涉及的领域非常广泛,其检索技术五花八门,但基本上集中在两个方面,一是解决目前Internet上信息检索问题,二是多媒体信息的检索。当前,Internet上的信息检索模式是在交互的过程中进行浏览和自由词全文检索。自由词是指检索的关键词由用户自由选择,不受任何限制。客户端的WWW浏览和全文查找分别是在服务器端的HTTP服务器和由WebCrawler等自动搜索软件产生的索引表的支持完成的。面对网上巨大的信息量,目前的浏览方法费时费力,网络门户的分类索引难以从根本上解决问题。全文检索的自由词,也就是无控词,可能来自于文献的标题、作者、文摘或全文;而用户所选择的词又有很大的随意性。这样的全文查找,其查准率之低是难以避免的,更不要说查找图像、声频、视频等多媒体文档了。造成上述问题的主要原因有:①自动搜索及索引软件只是进行关键词匹配,而信息检索需要的是概念匹配;②网上电子文献的无结构性。当前网络上的电子文献以HTML为主,HTML基本上是无结构的,其主要功能是提供资源的超级链接;③在传统图书馆中,用户的文献查找过程是在图书馆员的协助下完成的,他们帮助用户确定准确的检索词,选择查找的信息源。而现在的网络检索机制没有提供相应的支持。改进的方法有两个:第一是实现结构检索,第二是加强语义检索。为了实现结构检索,需要在服务器端对信息资源进行良好的组织和结构化,将所有的信息文档按照统一的方式进行标识、存储和索引。在此基础上,利用文档中的结构化描述实现高精度的检索。首先,要利用SGML来标记文档的结构,包括全文、章节、图表、公式、文摘和参考引文,借助一套规范的元数据和标签来实现,将文档对象化并保存在有组织的对象集合,并带有索引和视图,索引支持查找,视图支持显示,对分布式的仓储进行链接操作,并利用这种结构导引跨数据库的查找。然后,按照每个查找的需求调整查找界面,用户可以用布尔连接符来指定一个短语或多个短语,用不同的邻近度来限定,并使用SGML将查找限制在文档的某个指定部分。在用户的全文查询界面中进行交互式的术语提示,提供主题词表和同现词表,用户可以从任一词表中选取词汇进行全文查询。最后,状态网关要保留WEB交互的状态信息,通过网关提供会话历史。关于语义检索。信息检索的目的是在信息收藏中查找包含用户所需的信息内容的文档,这里有两个问题需要解决:一是描述文档的信息内容,二是表达用户的信息需求。传统的解决方法是受控词匹配,其优点是双方参照统一词表选用相同的词语表达概念,缺点是受限于词表。当前的网络信息系统采用自由词匹配,其优点是灵活,缺点是有大量的误匹配和漏查。未来的信息系统应当是概念匹配,又称为语义检索,即自动抽取文档的概念,加以标引;用户在系统的辅助下选用合适的词语表达自己的信息需求,然后在两者之间执行概念匹配。语义检索只有在相应的信息基础结构上才能实现,实现语义检索的概念匹配是数字图书馆所面临的最大挑战。从技术角度看,语义索引首先要识别并抽取表达文档内容的概念,其方法是上下文同现统计分析,分析哪些词一同出现在同一句中,并统计其频率,构造同现词概念图,然后用抽取出来的这些概念词对文档自动标引。语义互操作即跨专业领域的词汇切换,在不同学科领域的同现概念图之间交叉互连,这样就提供了一条在不同图书馆间进行概念映射的途径,实现跨专业、跨图书馆的语义互操作。完全的语义检索有待于人工智能技术和自然语言理解技术的成熟。未来的期盼是将概念空间纳入到网络信息系统的基础体系结构中,实现全网的无缝语义检索。4多媒体检索技术的发展数字图书馆检索技术研究的另一个热点是多媒体信息检索技术,如地图、航测照片、声频、视频等基于内容的检索。影像是一种与文本完全不同的媒体类型,影像的组织、存储、检索、传递与利用,需要一系列新的技术,其中的核心问题是如何表示影像的内容。其次,数字影像需要大量的存储空间,影像含有丰富的内容,这些借助视频信号和声频信号来传达的信息用基于文本的处理技术很难处理,无法想象用关键词等人工标引方法来解决。怎样对影像进行有效的索引是数字影像图书馆要解决的一个关键问题。20世纪70年代,人们就对图像数据库进行研究,方法是利用人工输入图像的各种属性,建立图像的元数据库来支持查询。但是,随着20世纪90年代多媒体技术的发展,可获取的图像和其它多媒体数据越来越多,数据库容量不断增大,而这种用人工输入属性和注释的方法就暴露出了它的缺点。其一是人工注释需要大量的人力;其二是人工注释难以解决蕴藏在多媒体数据中丰富的内容以及内容感知描述的主观性;其三是对于实时流媒体的处理,手工处理是完全不可行的,必须用计算机进行实时的内容分析。由此,基于内容的多媒体信息检索研究应运而生。实现多媒体信息检索,影像内容的理解和分段是影像处理的关键所在。由于影像数据的复杂性,对上述问题的完全解决方案,即从影像中自动抽取语义信息或通用的视觉识别系统,目前还难以实现。唯有全方位地综合应用文字描述、图像处理、语音识别、自然语言理解、视频分析等技术才是一条可行的途径。也就是尽可能地收集与影像有关的文字描述,利用语音识别尽可能采取声频信息中所包含的文字和语音信息源,提供自然语言理解,利用图像处理技术理解影像的关键内容等。20世纪90年代初,国际上就开始了对基于内容的多媒体信息检索的研究。从基本的颜色检索,到综合利用多种多媒体特征进行检索,该项技术已经发展到了高级阶段,大量原型系统已经推出,同时多媒体内容描述标准MPEG-7也正在制定当中。用户习惯于通过概念来提交查询。概念查询的一种实现方式是基于文本式的描述,用关键词、关键词逻辑组合或自然语言来表达查询的概念。当词语难以足够形象而准确地描述视觉和听觉感知时,用户就需要利用媒体呈现的视觉和听觉特性来查询。多媒体内容可以在多个层次上说明:概念级内容利用文本形式描述,感知特性包括视觉特性和听觉特性用逻辑关系表示音视频对象的时空关系,信号特性通过信号处理方法获得媒体区分特征等等。获得媒体内容的方式可以是人工方式或自动方式,最好采用半自动方式,使人和计算机各自发挥特长,通过交互和学习获取媒体的内容。多媒体内容的处理分为三个部分:一是内容获取,二是内容描述,三是内容操纵。这也可将其看成是内容处理的三个步骤,即先对原始媒体进行处理,提取内容,然后用标准形式对它们进行描述,以支持各种内容的操纵。内容获取是通过内容结构化和特征抽取获得媒体内容的过程。多媒体数据具有时空特性,内容的一个重要成分是空间和时间结构。内容结构化就是分割出图像对象、视频的时间结构、运动对象以及这些对象之间的关系。特征抽取就是提取显著的区分特征和人的视觉、听觉方面的感知特征来表示媒体对象的性质。内容描述是指描述在以上过程中获取的内容,目前MPEG-7专家组正在制定多媒体内容描述标准。内容操纵包括摘要、查询、索引、检索、浏览、过滤等技术。5全文检索的发展目前,全文检索技术的应用领域主要包括:企业信息门户、媒体网站、政府网站、数字图书馆、搜索引擎及商业网站。所谓全文检索,就是以各类数据诸如文字、声音、图像等为主要处理对象,根据数据资料的内容,而不是外在特征来实现的信息检索手段。通过提供快捷的数据管理工具和强大的数据查询手段,帮助人们进行大量文档资料的整理和管理工作,使人们能快速方便地查找到他们想要的任何信息。全文检索在技术上日趋成熟。目前看来,无论是软件的商品化发展,还是技术都取得了较大进步,国内厂商自主开发的全文检索系统市场占有率已经超过90%。尽管如此,要在整体上提高全文检索系统的水平和可用性,仍需要在以下几个方面争取有更大的突破。①中文自然语言处理技术。无论从数据挖掘角度来提高全文检索的查全率和查准率,还是提供更易使用的自然语言查询接口方面,中文自然语言处理仍然是关键因素。没有领先的中文自然语言处理技术,信息检索就无法实现检索效果“质”的突破,这里首先要解决的是中文字/词索引问题。②全文检索系统的评价。我国全文检索技术的研究和系统开发缺乏科学的评价,国际上TRECConference()被认为是最具有权威的信息检索技术评测规范,很多实验室系统、商业系统均积极参加。我国也应研制信息检索技术评测规范标准。③系统的可靠性和响应速度。应该分析用户检索表达式的使用频度,加速在子集里检索的速度,因为用户经常只在某

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论