




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络信息检索技术现状、问题及未来趋势分析曹子倩 1010330012【摘要】目前网络信息检索技术主要有资源定位检索技术、超链接搜索技术、网络搜索 引擎技术及通用信息检索技术,制约网络信息检索技术发展的瓶颈是图像音频视频检索、 汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索技术、多媒体检索技术、新一 代搜索引擎技术、自然语言检索技术和基于内容的检索技术是网络信息检索技术发展的核 心与关键。【关键词】网络信息信息资源信息瓶颈信息检索检索技术【中图分类号】G20【文献标识码】A引言:随着计算机技术与通信技术的快速发展人类社会进入信息时代 谁最先掌握了信息谁最先使用了信息谁就获得主动权,而正是这
2、 样,伴随着的便是网络技术的发展,网络信息检索工具也取得了十足 的发展,那么信息检索的技术现状,面临的瓶颈和趋势如何?本文将 试着加以探讨。1网络信息检索技术的现状1资源定位检索技术Internet是以TCP/ IP(传输控制协议/互联网协议)和HTT P(超文本传 送协议)为核心而发展起来的。URL ( Uniform Resource L ocator),俗称网 址,是描述网络信息资源的字符串一一统一资源定位符。它包括传输协议、信 息资源的主机IP地址和主机目录及文件名的具体地址三个部分。网络数据库、 网上出版物、网络机构等有固定的URL。联机数据库检索中心,期刊、报纸等电 子出版物,图书
3、馆、高校、企业、政府等机构都有唯一明确的网址。利用网络浏 览器(如IE)查找网址,可以快捷、方便地获得针对性极强的“对口”网络信息。2 “超链接”搜索技术Web信息以超文本链接方式组织,基本组织单元是信息节点而不是字符串, 信息节点之间通过链接进行联系。超链接是网页必不可少的一个元素,同一主题 或相关的信息因超级链接构成了庞大的无形的跳跃式的信息网。超文本信息检索 技术,以超文本信息节点之间的多种链接关系为基础,根据思维联想或查找信 息的需要,通过链接从一个信息节点转到另一个信息节点。超级链接,犹如印刷 型文献的参考文献,提供全面的回溯信息源。人们可以根据它顺藤摸瓜,在网上 自由地浏览信息,边
4、浏览点击边分析筛选,一步一步根据链接跳转查阅,直至 获得令人满意的结果。3网络搜索引擎技术搜索引擎(Search Engine),也称导航站点。搜索引擎技术集中体现在四 个方面:访问、阅读、整理Web信息的信息采集,建立包含关键信息的索引数据 库,根据用户请求查找索引数据库相关文档的搜索软件,以及为用户提供可视 化的查询输入和结果输出界面的用户接口。目前,实现网络信息检索的搜索引擎 技术可以分为两类。1. 3. 1 网站分类目录技术网站分类技术,就是专家对网站进行主题归纳和树状分类。它为网络信息导 航带来了极大的方便,但难以描述网站的内部细节,因此用户不能查询网站内 部的重要信息。以Yahoo
5、和Magellan为代表的基于分类的目录式搜索引擎,分 类索引项由人工编辑,索引库由人工管理,分类目录数据库由编辑人员在访问、 分析与归类网站后建立或者根据各网站管理员提供的站点描述而建立。这种分类 导航网站的资料库,搜集保存的是各网站的站名、网址及内容提要。分类目录搜 索引擎以超文本链接方式将不同学科、专业或区域的信息按照分类或主题目录方 式进行组织,提供可供检索和查询的等级式主题目录。电话号码簿式的网站名称 和网址链接再加上一个查寻框,分类浏览与网站检索功能强大,使用十分方便。 1. 3. 2 全文索引检索技术全文检索技术处理的对象是文本,能够对大量文档建立由字(词)到文档(网 页)的倒排
6、索引,用户可以通过关键词匹配把含该关键词的相关网页查出来,但 是返回的信息量太大,“忠实表达”和“表达差异”问题也难以解决。以AltaVista 为代表的基于全文的索引式搜索引擎(基于机器人的搜索引擎,robot- based search engine),不是靠人工发现和甄别信息,而是利用“蜘蛛Spider( Robot 或Crawler)”全文数据采集技术,沿着HTML文档链接自动漫游,搜集网页内容 建立索引或进行主题分类。索引数据库根据“蜘蛛”的漫游周期自动更新。显然, 基于全文的搜索引擎资料库,搜集保存的是Internet各网站网页的内容;用户 的检索结果不是站名与网址,而是与查询的关
7、键词相关的网页集合与文字节录。 全文索引搜索引擎提供关键词、主题词或自然语言查询,用户在搜索框中输入检 索词或检索表达式,搜索引擎会返回一组指向相关站点的超链接。4通用信息检索技术通用信息检索技术,就是计算机把检索入口词与信息库进行匹配并返回检 索结果的信息查询技术。首先根据用户信息需求选择恰当的检索入口词,如题 名、著者、主题、关键词、分类号、ISBN号、ISSN号等;其次利用同位词、同 义词、上位词、下位词及截词等词控方式控制检索词的专指度;然后运用布尔逻 辑、位置逻辑及截词技术等进行检索词组配,辅以文献外表特征、加权检索、规 范主题词及二次检索等方法进行限定检索并返回结果。通用信息检索技
8、术,包括 截词技术、词位限定检索、字段限定检索、范围检索技术、布尔查询技术、全文 检索技术、倒排索引检索技术、概率推理模型和空间向量模型技术等,最终目的 是避免漏检与误检,提高检全率与检准率。2网络信息检索技术的瓶颈1图像音频视频检索计算机技术、数字化技术、高密度存储技术为非文本信息一一图像、声频、 视频等多媒体信息提供了广阔的发展舞台,图文声并茂的多媒体信息已逐渐成 为Web的主流。信息检索技术正在从传统的线性文本检索向超文本支持的非线性 多媒体检索发展,然而图像、声频、视频的检索技术却还是襁褓中的婴儿,需要 特别的关心与爱护。目前,图像检索技术主要借助于文本的信息检索,一般不涉及图像自身特
9、 征的分析处理,即用户从反映图像内容的文字性描述(如题名、类别、主题等) 角度来入手检索图像,而以图像本身的颜色、纹理、形状、轮廓、时空关系等基 本特征为入口进行检索的技术还处于研究之中。基于内容的图像检索瓶颈有:对 图像进行基于内容的识别和解释,图像特征的提取在检索中占有重要地位;图 像的许多特征并不能用简单的数值和字符来精确表达,需要能表达图像内容特 征的查询方式及用户接口 ;具有时空关系的多媒体数据必须确保各对象间的时 空同步,它直接影响到数据库的数据模型和索引方式。2汉语自动切分语词是信息表达的最小单位,是信息检索技术中匹配的基本元素。英语等西 方语种有空格作为分隔符,基本上不存在语词
10、切分问题。汉语字词之间没有分隔 符,而对信息资源的标引与对用户检索输入的“理解”都必须进行正确的语词 切分,汉语切词已成为全文检索技术的瓶颈。虚假组配很多,垃圾信息不少,误 检率相当高,无关结果较多,检全率和检准率难以控制,是目前汉语切词检索 的通病。汉语在词法、句法、语义、语用中都可能存在不同程度的歧异现象,词与词 素及词组之间界限模糊导致分词词典中的词条选择困难,对分词词典未收录的 概念词适应能力差,这些都制约着汉语分词技术的发展。现在,常用的汉语语词 切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想- 回溯法、全自动词典切词,以及近年来基于神经元网络的和专家系统的分词
11、方 法、基于统计和频度分析的分词方法等,但是这些分词技术的效果还不是很理 想。3搜索引擎缺陷分类目录搜索引擎采用人工干预技术,信息分类不规范,没有一个统一的控 制词表和参照标准,分类目录差别较大;搜索范围较小,数据库更新慢,查询 交叉类目时容易遗漏;如果用户检索请求没有对应的分类目录,则无法进行查 找;信息遗漏不可避免,查全率低。关键词式全文搜索引擎采用机器人搜索技术, 自动标引不完善,数据库更新快,检索功能强,但是信息关联难以控制且重复 链接信息较多,查准率低。搜索引擎互相覆盖,输出信息重复,检索结果太多且 不一定与用户需求相关。搜索引擎索引库中全部或部分下载的网页中有许多无用 或暂时信息,
12、影响了索引速度,也浪费了网络通信资源;站点、网页的内容经常 变化,实时性难以保证。现有搜索引擎在信息维护、信息重复、网络及站点负载 方面还存在很大的不足,索引数据库往往很大,检索的查准率不高。同时,信息 资源层出不穷,无人组织控制,查全率无法得到保证。另外,搜索引擎的截词技 术、词位限定检索、字段限定检索或范围检索技术应用十分有限,信息检索结果 不太令人满意。3网络信息检索技术发展趋势1智能检索技术智能检索技术就是采用人工智能进行信息检索的技术。它可以模拟人脑的思 维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快 速、高效的信息检索。智能检索技术主要体现在语义理解、知识管
13、理和知识检索 三个方面。它利用语义分析模块自动智能分词,进行用户请求和知识库“数据” 的语义理解,最终把知识库中匹配的信息筛选、整序后提供给用户。基于智能技 术基础的智能搜索引擎,拥有机器学习技术、智能代理技术、知识发现技术,基 于自然语言理解;拥有智能化的检索、分析和反馈功能。其中,智能代理技术 Agent是一些智能化的程序,能够学习用户的需求,并利用搜索引擎等系统提 供的现有服务来检索用户所需信息;Push技术采用主动服务新模型,直接向用 户推送他感兴趣的信息,而无须用户查找。总之,智能检索以用户信息需求为基 点,建立用户检索智能模型,检索过程、检索结果、检索反馈和数据库维护智能 化、自动
14、化,还能够实现信息定期和定题检索以及根据用户反馈自动对知识库进 行维护和更新。2知识检索技术信息检索过程,就是把用户请求与索引库匹配,寻找与请求关联的网页并 返回排序的命中信息的过程。运用截词、词位限定、布尔逻辑运算等技术可以控 制用户请求与数据库匹配的精度,但是信息检索难以避免丢失相关信息或产生 大量冗余信息,即出现信息漏检与误检。信息检索效率是衡量信息检索效果的重 要指标,是检验信息检索技术成熟与的否标准。知识是信息加工与序化的产物, 是高浓度的有序化的信息;知识检索必然是高层次的信息检索。知识发现技术也 称数据挖掘技术,包括数据库技术、统计技术、机器学习、模式识别技术以及信 息检索技术。
15、知识处理系统以人工神经网络、传播激活模型、联想网络及并行分 布处理等处理方法进行自我处理,通过大量的处理节点及其相互联系之间的交 互达到一种智能行为;知识学习系统从样本中自动学习,最常用的知识学习算 法有归纳学习算法、多层前向反馈神经网络和遗传算法等。知识发现技术的信息 检索,模拟人的思维行为模式,认知信息概念、潜在信息及相关成分;同时,以 知识为单元,可以使检索结果深入到知识单元,提高信息检索的针对性。3多媒体检索技术多媒体信息是文本、图像、声频和视频的混合体,多媒体信息检索技术是信 息检索研究的热点o MPEG-7专家组正在制定多媒体内容描述标准,内容操纵包括 摘要、查询、索引、检索、浏览
16、、过滤等技术。MPEG-7(“多媒体内容描述接口”, Multimedia Content Description Interface)标准由描述符(D,Descriptors)、 描述方案(DS, Description Schemes)、描述定义语言(DDL, Description Definition Language)以及系统工具等四个部分构成;通过MPEG- 7所定义的 D、DS和DDL,可以对各种形式存储的多媒体内容进行结构化的描述,对多媒体 信息的这种描述使用户在资源检索的过程中具有更加灵活的资源过滤方式。以位串形式存储的数字化多媒体信息,与数据描述之间缺乏对应关系,需 要特殊
17、的检索处理技术,即多媒体信息检索技术的关键是图像、声频和视频检索 技术。信息特征是联系信息标引与信息检索的唯一桥梁,图像、声频与视频信息 的检索也是以其自身的形式与内容特征描述为基础。图像信息包括描述对象的主 题,颜色、纹理、形状、轮廓等视觉概念,著者、发行地、发行时间等制作信息, 位置、移动及组合等相互关系;声频信息包含音频、音调、响度、频宽、音色和 节奏等;视频信息则是指对象的镜头、场景及视场的运动等。基于内容的多媒体 信息检索技术的基理:a.计算机自动抽取多媒体信息特征,编制多媒体信息特 征倒排档索引数据库;b.从用户接口获得多媒体信息检索标识,诸如输入草 图、轮廓图、音频、镜头或从检索
18、库中调用的相似多媒体信息;c.计算机“理 解”用户多媒体信息查询请求标识(查询样本)并与索引数据库中的对象进行相 似匹配;d.排序与输出多媒体信息检索结果。3. 4新一代搜索引擎技术现有搜索引擎漏检、误检率较高,检索效率不甚理想。新一代搜索引擎技术 必须具有:信息发掘功能,数据零点更新,即及时链接新增的信息,剔除被删 除的站点;多途径检索功能,用户进行交互式检索,控制信息输出,获得满意的 结果;信息推荐功能,按信息关联程度排序,重要而准确的信息排在前列;高 检索效率功能,虚假信息和垃圾信息被过滤,真实信息不遗漏,检准率和检全 率最佳化;智能检索功能,自动分析、理解与处理检索词,为用户提供所需信
19、息; 协作检索功能,信息检索系统协同作业,不同地区、专业、语种、类型的搜索引 擎应当实现数据库有条件共享或互相满足对方的信息检索请求。元搜索引擎和分 布式搜索引擎是新一代搜索引擎技术研究的代表。元搜索引擎(Meta search engine,亦称集合型搜索引擎)是关于搜索引擎的搜索引擎,首先对用户检索请 求进行格式转换等预处理,递交给若干个底层搜索引擎查询,然后把其它搜索 引擎返回的检索结果进行去重、组合、排序等后处理并显示,譬如MetaCrawler 可以同时检索Yahoo, L ookSmart, AltaVista等9个主要的搜索引擎;分布式 搜索引擎则按区域、主题或其它标准创建分布式
20、索引服务器,索引服务器之间可 以相互交换中间信息。新一代搜索引擎技术,运用查询分派、数据库选择、文本 选择和结果综合等技术,将多个搜索引擎有机整合,网络信息搜索能力和覆盖 面空前增大。3. 5自然语言处理技术自然语言是非受控语言,除语法的限制外其它束缚较少,信息标引直接从原 始信息中抽取词组(包括新语词),因而标引错误少、准确度高、时效性强。同时, 使用自然语言检索,用户不必考虑检索规则,信息检索极其方便。但是,自然语 言的词义模糊、词间关系不清容易造成漏检和误检,难以获得满意的检索效果, 必须建立系统内关键词词典、类主题词典和后控制词表等自然语言处理系统。自然语言的处理主要依靠人工智能技术由
21、计算机自动进行,自动分词、人名 和机构名的自动识别技术、自动标引技术等,其它像信息抽取、自动文摘、文档 自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等复杂技术 必不可少。现在自然语言处理对信息检索的应用仍停留在简单语言的处理上,例 如确认词根和词组等。另外,汉语计算机处理字符集和内码体系不统一,中国大 陆、新加坡使用简体,港澳台使用繁体;大陆采用国标码(gb),台湾用采用大 五码(big5)。因此,中文自然语言处理技术面临两大艰巨的任务:汉语自动切 分与编码自动转换。尤里卡中文智能搜索引擎,利用先进的自然语言理解技术, 解决了 “表达差异”和“忠实表达”的难题,信息检索和导航服务智能化,用户 输入口语化的查询请求,就能立即得到翔实、准确、直接的答
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论