2022《信息检索技术》课程报告:《网络信息检索技术现状、瓶颈及趋势分析》3000字_第1页
2022《信息检索技术》课程报告:《网络信息检索技术现状、瓶颈及趋势分析》3000字_第2页
2022《信息检索技术》课程报告:《网络信息检索技术现状、瓶颈及趋势分析》3000字_第3页
2022《信息检索技术》课程报告:《网络信息检索技术现状、瓶颈及趋势分析》3000字_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络信息检索技术现状、瓶颈及趋势分析摘要:目前网络信息检索技术主要有资源定位检索技术、超链接搜索技术、 网络搜索引擎技术及通用信息检索技术,制约网络信息检索技术开展的瓶颈是 图像音频视频检索、汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索 技术、多媒体检索技术、新一代搜索引擎技术、自然语言检索技术和基于内容 的检索技术是网络信息检索技术开展的核心与关键。关键词:网络信息;信息资源;信息瓶颈;信息检索;检索技术.网络信息检索技术现状资源定位检索技术Internet是以TCP/IP(传输控制协 议/互联网协议)和HTTP(超文本传送协议) 为核心而开展起来 的。URL( Uniform Re

2、source Locator),俗称网址,是描述网络 信息资源的字符串一一统一资源定位符。它包括传输协议、信息资源的主机IP 地址和主机目录及文件名的具体地址三个局部。网络 数据库、网上出版物、网 络机构等有固定的URL。联机数据库检索中心,期刊、报纸等电子出版物图书 馆、高校、企业、政府等机构都有唯一明确的网址。利用网络浏览器(如ffi)查 找网址可以快捷、方便地获得针对性极强的对口”网络信息。“超链接搜索技术Web信息以超文本链接方式组织,基本组织单元是信息节点而不是字符串, 信息节点之间通过链接 进行联系。超链接是网页必不可少的一个元素,同一主 题或相关的信息因超级链接构成了庞大的无形的

3、跳跃式的信息网。超文本信息 检索技术以超文本信息节点之间的多种链接关系为基础根据思维联想或查找信 息的需要通过链接从一个信息节点转到另一个信息节点。超级链接,犹如印刷 型文献的参考文献,提供全面的回溯信息源。人们可以根据它顺藤摸瓜在网上 自由地浏览信息,边浏览点击边分析筛选一步一步根据链接跳转查阅直至获得 令人满意的结果。网络搜索引擎技术搜索引擎(Search Engine),也称导航站点。搜索引擎技术集中表达在四个方 面:访问、阅读、整理Web信息的信息采集建立包含关键信息的索引数据库,根 据用户请求查找索引数据库相关文档的搜索软件,以及为用户提供可视化的查 询输入和结果输出界面的用户接口。

4、目前,实现网络信息检索的搜索引擎技术 可以分为两类。通用信息检索技术,就是计算机把检索入口词与信息库进行匹配并返回检 索结果的信息查询技术。首先根据用户信息需求选择恰当的检索入口词如题名、 著者、主 题、关键词、分类号、BBN号、ISSN号等其次利用同位词、同义 词、 上位词、下位词及截词等词控方式控制检索词的专指度;然后运用布尔逻辑、位 置逻辑及截词技术等进行检索词组配辅以文献外表特征、加权检索、规范主题 词及二次检索等方法进行限定检索并返回结果。通用信息检索技术,包括截词 技术、词位限定检索、字段限定检索、范围检索技术、布尔查询技术、全文检 索技术、倒排索引检索技术、概率推理模型和空间向量

5、模型技术等最终目的是 防止漏检与误检,提高检全率与检准率。.网络信息检索技术现状、瓶颈图像音频视频检索计算机技术、数字化技术、高密度存储技术为非文本信息一一图像、声频、 视频等多媒体信息提供了广阔的开展舞台,图文声并茂的多媒体信息己逐渐成 为Web的主流信息检索技术正在从传统的线性文本检索向超文本支持的非线性多媒体检索开展然而图像、声频、视频的检索技术却还是襁褓中的婴儿需要 特别的关心与保护。汉语自动切分语词是信息表达的最小单位是信息检索技术中匹配的基本元素。英语等西 方语种有空格作为分隔符,基本上不存在语词切分问题。汉语字词之间没有分 隔符,而对信息资源的标引与对用户检索输入的“理解”都必须

6、进行正确的语词 切分,汉语切词已成为全文检索技术的瓶颈。虚假组配很多,垃圾信息不少, 误检率相当高无关结果较多,检全率和检准率难 以控制,是目前汉语切词检索 的通病。搜索引擎缺陷分类目录搜索引擎采用人工干预技术,信息分类不规范没有一个统一的控 制词表和参照标准分类目录差异较大;搜索范围较小,数据库更新t曼查询交叉 类目时容易遗漏如果用户检索请求没有对应的分类目录那么无法进行查找;信息 遗漏不可避兔查全率低。关键词式全文搜索引擎采用机器 人搜索技术,自动标 引不完善数据库更新愧检索功能强,但是信息关联难以控制且重复链接信息较 多,查准率低。搜索引擎互相覆盖,输出信息重复,检索结果太多且不一定与

7、用户需求相关搜索引擎索引库中全部或局部下载的网页中有许多无用或暂时 信息影响了索引速度也浪费了网络通信资源;站点、网页的内容经常变化,实时 性难以保证。现有搜索引擎在信息维护、信息重复、网络及站点负载方面还存 在很大的缺乏,索引数据库 往往很大检索的查准率不高。同时,信息资源层出 不穷,无人组织控制,查全率无法得到保证。另外,搜索引擎的截词技术、词 位限定检索、字段限定检索或范围检索技术应用十分有限信息检索结果不太令 人满意。.网络信息检索技开展趋势智能检索技术智能检索技术就是采用人工智能进行信息检索的技术。它可以模拟人脑的 思维方式,分析用户以自然语言表达的检索请求自动形成检索策略进行智能、

8、 快速、高效的信息检索。智能检索技术主要表达在语义理解、知识管理和知识 检索三个方面。它利用语义分析模块自动智能分词进行用户请求和知识库数 据”的语义理解,最终把知识库中匹配的信息筛选、整序后提供给用户。知识检索技术信息检索过程就是把用户请求与索引库匹配,寻找与请求关联的网页并返 回排序的命中信息的过程。运用截词、词位限定、布尔逻辑运算等技术可以控 制用户请求与数据库匹配的精度但是信息检索难以防止丧失相关信息或产生 大量冗余信息即出现信息漏检与误检。信息检索效率是衡量信息检索效果的重 要指标是检验信息检索技术成熟与的否标准。知识是信息加工与序化的产物, 是高浓度的有序化的信息;知识检索必然是高

9、层次的信息检索。新一代搜索引擎技术现有搜索引擎漏检、误检率较高,检索效率不甚理想新一代搜索引擎技术 必须具有:信息开掘功能数据零点更新,即及时链接新增的信息剔除被删除的站 点;多途径检索功能,用户进行交互式检索,控制信息输出,获得满意的结果; 信息推荐功能,按信息关联程度排序,重要而准确的信息排在前列;高检索效率 功能,虚假信息和垃圾信息被过滤真实信息不遗漏检准率和检全率最正确化;智能 检索功能,自动分析、理 解与处理检索词,为用户提供所需信息;协作检索功能, 信息检索系统协同作业不同地区、专业、语种、类型的搜索引擎应当实现 数据 库有条件共享或互相满足对方的信息检索请求自然语言处理技术自然语

10、言是非受控语言,除语法的限制外其它束缚较少,信息标引直接从 原始信息中抽取词组(包括新语词),因而标引错误少、准确度高、时效性强。 同时,使用自然语言检索,用户不必考虑检索规那么,信息检索极其方便。但是, 自然语言的词义模糊、词间关系不清容易造成漏检和误检难以获得满意的检索 效果,必须建立系统内关键词词典、类主题词典和后控制词表等自然语言处理 系统。.结论网络信息检索不受时空限制检索速度快,检索功能强大。智能化、知识化、 多媒体、自然语言、基于内容等多途径一体化网络信息检索技术,为人们跨越 信息时空描绘了波澜壮阔的蓝蜀参考文献1吴慰慈.网络环境下信息存储与检索技术的开展J.四川图书馆学报.2003(01)2李村合.新一代中文智能搜索引擎尤里卡研究J.情报科学.2003(01)3李瑞勤.MPEG-7促进多媒体信息检索领域的革命J.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论