网络信息检索

上传人：s*** IP属地：天津上传时间：2022-08-09 格式：DOCX 页数：6 大小：18.55KB 积分：12 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、网络信息检索技术现状、问题及未来趋势分析曹子倩 1010330012【摘要】目前网络信息检索技术主要有资源定位检索技术、超链接搜索技术、网络搜索引擎技术及通用信息检索技术，制约网络信息检索技术发展的瓶颈是图像音频视频检索、汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索技术、多媒体检索技术、新一代搜索引擎技术、自然语言检索技术和基于内容的检索技术是网络信息检索技术发展的核心与关键。【关键词】网络信息信息资源信息瓶颈信息检索检索技术【中图分类号】G20【文献标识码】A引言：随着计算机技术与通信技术的快速发展人类社会进入信息时代谁最先掌握了信息谁最先使用了信息谁就获得主动权，而正是这

2、样，伴随着的便是网络技术的发展，网络信息检索工具也取得了十足的发展，那么信息检索的技术现状，面临的瓶颈和趋势如何？本文将试着加以探讨。1网络信息检索技术的现状1资源定位检索技术Internet是以TCP/ IP（传输控制协议/互联网协议）和HTT P（超文本传送协议）为核心而发展起来的。URL （ Uniform Resource L ocator）,俗称网址，是描述网络信息资源的字符串一一统一资源定位符。它包括传输协议、信息资源的主机IP地址和主机目录及文件名的具体地址三个部分。网络数据库、网上出版物、网络机构等有固定的URL。联机数据库检索中心，期刊、报纸等电子出版物，图书

3、馆、高校、企业、政府等机构都有唯一明确的网址。利用网络浏览器（如IE）查找网址，可以快捷、方便地获得针对性极强的“对口”网络信息。2 “超链接”搜索技术Web信息以超文本链接方式组织，基本组织单元是信息节点而不是字符串，信息节点之间通过链接进行联系。超链接是网页必不可少的一个元素，同一主题或相关的信息因超级链接构成了庞大的无形的跳跃式的信息网。超文本信息检索技术，以超文本信息节点之间的多种链接关系为基础，根据思维联想或查找信息的需要，通过链接从一个信息节点转到另一个信息节点。超级链接，犹如印刷型文献的参考文献，提供全面的回溯信息源。人们可以根据它顺藤摸瓜，在网上自由地浏览信息，边

4、浏览点击边分析筛选，一步一步根据链接跳转查阅，直至获得令人满意的结果。3网络搜索引擎技术搜索引擎（Search Engine）,也称导航站点。搜索引擎技术集中体现在四个方面：访问、阅读、整理Web信息的信息采集，建立包含关键信息的索引数据库，根据用户请求查找索引数据库相关文档的搜索软件，以及为用户提供可视化的查询输入和结果输出界面的用户接口。目前，实现网络信息检索的搜索引擎技术可以分为两类。1. 3. 1 网站分类目录技术网站分类技术，就是专家对网站进行主题归纳和树状分类。它为网络信息导航带来了极大的方便，但难以描述网站的内部细节，因此用户不能查询网站内部的重要信息。以Yahoo

5、和Magellan为代表的基于分类的目录式搜索引擎，分类索引项由人工编辑，索引库由人工管理，分类目录数据库由编辑人员在访问、分析与归类网站后建立或者根据各网站管理员提供的站点描述而建立。这种分类导航网站的资料库，搜集保存的是各网站的站名、网址及内容提要。分类目录搜索引擎以超文本链接方式将不同学科、专业或区域的信息按照分类或主题目录方式进行组织，提供可供检索和查询的等级式主题目录。电话号码簿式的网站名称和网址链接再加上一个查寻框，分类浏览与网站检索功能强大，使用十分方便。 1. 3. 2 全文索引检索技术全文检索技术处理的对象是文本，能够对大量文档建立由字（词）到文档（网页）的倒排

6、索引，用户可以通过关键词匹配把含该关键词的相关网页查出来，但是返回的信息量太大，“忠实表达”和“表达差异”问题也难以解决。以AltaVista 为代表的基于全文的索引式搜索引擎（基于机器人的搜索引擎,robot- based search engine）,不是靠人工发现和甄别信息，而是利用“蜘蛛Spider（ Robot 或Crawler）”全文数据采集技术，沿着HTML文档链接自动漫游，搜集网页内容建立索引或进行主题分类。索引数据库根据“蜘蛛”的漫游周期自动更新。显然，基于全文的搜索引擎资料库，搜集保存的是Internet各网站网页的内容；用户的检索结果不是站名与网址，而是与查询的关

7、键词相关的网页集合与文字节录。全文索引搜索引擎提供关键词、主题词或自然语言查询，用户在搜索框中输入检索词或检索表达式，搜索引擎会返回一组指向相关站点的超链接。4通用信息检索技术通用信息检索技术，就是计算机把检索入口词与信息库进行匹配并返回检索结果的信息查询技术。首先根据用户信息需求选择恰当的检索入口词，如题名、著者、主题、关键词、分类号、ISBN号、ISSN号等；其次利用同位词、同义词、上位词、下位词及截词等词控方式控制检索词的专指度；然后运用布尔逻辑、位置逻辑及截词技术等进行检索词组配，辅以文献外表特征、加权检索、规范主题词及二次检索等方法进行限定检索并返回结果。通用信息检索技

8、术，包括截词技术、词位限定检索、字段限定检索、范围检索技术、布尔查询技术、全文检索技术、倒排索引检索技术、概率推理模型和空间向量模型技术等，最终目的是避免漏检与误检，提高检全率与检准率。2网络信息检索技术的瓶颈1图像音频视频检索计算机技术、数字化技术、高密度存储技术为非文本信息一一图像、声频、视频等多媒体信息提供了广阔的发展舞台，图文声并茂的多媒体信息已逐渐成为Web的主流。信息检索技术正在从传统的线性文本检索向超文本支持的非线性多媒体检索发展，然而图像、声频、视频的检索技术却还是襁褓中的婴儿，需要特别的关心与爱护。目前，图像检索技术主要借助于文本的信息检索，一般不涉及图像自身特

9、征的分析处理，即用户从反映图像内容的文字性描述（如题名、类别、主题等）角度来入手检索图像，而以图像本身的颜色、纹理、形状、轮廓、时空关系等基本特征为入口进行检索的技术还处于研究之中。基于内容的图像检索瓶颈有：对图像进行基于内容的识别和解释，图像特征的提取在检索中占有重要地位；图像的许多特征并不能用简单的数值和字符来精确表达，需要能表达图像内容特征的查询方式及用户接口；具有时空关系的多媒体数据必须确保各对象间的时空同步，它直接影响到数据库的数据模型和索引方式。2汉语自动切分语词是信息表达的最小单位，是信息检索技术中匹配的基本元素。英语等西方语种有空格作为分隔符，基本上不存在语词

10、切分问题。汉语字词之间没有分隔符，而对信息资源的标引与对用户检索输入的“理解”都必须进行正确的语词切分，汉语切词已成为全文检索技术的瓶颈。虚假组配很多，垃圾信息不少，误检率相当高，无关结果较多，检全率和检准率难以控制，是目前汉语切词检索的通病。汉语在词法、句法、语义、语用中都可能存在不同程度的歧异现象，词与词素及词组之间界限模糊导致分词词典中的词条选择困难，对分词词典未收录的概念词适应能力差，这些都制约着汉语分词技术的发展。现在，常用的汉语语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法，联想- 回溯法、全自动词典切词，以及近年来基于神经元网络的和专家系统的分词

11、方法、基于统计和频度分析的分词方法等，但是这些分词技术的效果还不是很理想。3搜索引擎缺陷分类目录搜索引擎采用人工干预技术，信息分类不规范，没有一个统一的控制词表和参照标准，分类目录差别较大；搜索范围较小，数据库更新慢，查询交叉类目时容易遗漏；如果用户检索请求没有对应的分类目录，则无法进行查找;信息遗漏不可避免，查全率低。关键词式全文搜索引擎采用机器人搜索技术, 自动标引不完善，数据库更新快，检索功能强，但是信息关联难以控制且重复链接信息较多，查准率低。搜索引擎互相覆盖，输出信息重复，检索结果太多且不一定与用户需求相关。搜索引擎索引库中全部或部分下载的网页中有许多无用或暂时信息，

12、影响了索引速度，也浪费了网络通信资源；站点、网页的内容经常变化，实时性难以保证。现有搜索引擎在信息维护、信息重复、网络及站点负载方面还存在很大的不足，索引数据库往往很大，检索的查准率不高。同时，信息资源层出不穷，无人组织控制，查全率无法得到保证。另外，搜索引擎的截词技术、词位限定检索、字段限定检索或范围检索技术应用十分有限，信息检索结果不太令人满意。3网络信息检索技术发展趋势1智能检索技术智能检索技术就是采用人工智能进行信息检索的技术。它可以模拟人脑的思维方式，分析用户以自然语言表达的检索请求，自动形成检索策略进行智能、快速、高效的信息检索。智能检索技术主要体现在语义理解、知识管

13、理和知识检索三个方面。它利用语义分析模块自动智能分词，进行用户请求和知识库“数据” 的语义理解，最终把知识库中匹配的信息筛选、整序后提供给用户。基于智能技术基础的智能搜索引擎，拥有机器学习技术、智能代理技术、知识发现技术，基于自然语言理解；拥有智能化的检索、分析和反馈功能。其中，智能代理技术 Agent是一些智能化的程序，能够学习用户的需求，并利用搜索引擎等系统提供的现有服务来检索用户所需信息；Push技术采用主动服务新模型，直接向用户推送他感兴趣的信息，而无须用户查找。总之，智能检索以用户信息需求为基点，建立用户检索智能模型，检索过程、检索结果、检索反馈和数据库维护智能化、自动

14、化，还能够实现信息定期和定题检索以及根据用户反馈自动对知识库进行维护和更新。2知识检索技术信息检索过程，就是把用户请求与索引库匹配，寻找与请求关联的网页并返回排序的命中信息的过程。运用截词、词位限定、布尔逻辑运算等技术可以控制用户请求与数据库匹配的精度，但是信息检索难以避免丢失相关信息或产生大量冗余信息，即出现信息漏检与误检。信息检索效率是衡量信息检索效果的重要指标，是检验信息检索技术成熟与的否标准。知识是信息加工与序化的产物，是高浓度的有序化的信息；知识检索必然是高层次的信息检索。知识发现技术也称数据挖掘技术，包括数据库技术、统计技术、机器学习、模式识别技术以及信息检索技术。

15、知识处理系统以人工神经网络、传播激活模型、联想网络及并行分布处理等处理方法进行自我处理，通过大量的处理节点及其相互联系之间的交互达到一种智能行为；知识学习系统从样本中自动学习，最常用的知识学习算法有归纳学习算法、多层前向反馈神经网络和遗传算法等。知识发现技术的信息检索，模拟人的思维行为模式,认知信息概念、潜在信息及相关成分；同时，以知识为单元，可以使检索结果深入到知识单元，提高信息检索的针对性。3多媒体检索技术多媒体信息是文本、图像、声频和视频的混合体，多媒体信息检索技术是信息检索研究的热点o MPEG-7专家组正在制定多媒体内容描述标准，内容操纵包括摘要、查询、索引、检索、浏览

16、、过滤等技术。MPEG-7(“多媒体内容描述接口”， Multimedia Content Description Interface)标准由描述符(D,Descriptors)、描述方案(DS, Description Schemes)、描述定义语言(DDL, Description Definition Language)以及系统工具等四个部分构成；通过MPEG- 7所定义的 D、DS和DDL,可以对各种形式存储的多媒体内容进行结构化的描述，对多媒体信息的这种描述使用户在资源检索的过程中具有更加灵活的资源过滤方式。以位串形式存储的数字化多媒体信息，与数据描述之间缺乏对应关系，需要特殊

17、的检索处理技术，即多媒体信息检索技术的关键是图像、声频和视频检索技术。信息特征是联系信息标引与信息检索的唯一桥梁，图像、声频与视频信息的检索也是以其自身的形式与内容特征描述为基础。图像信息包括描述对象的主题，颜色、纹理、形状、轮廓等视觉概念，著者、发行地、发行时间等制作信息，位置、移动及组合等相互关系；声频信息包含音频、音调、响度、频宽、音色和节奏等；视频信息则是指对象的镜头、场景及视场的运动等。基于内容的多媒体信息检索技术的基理：a.计算机自动抽取多媒体信息特征，编制多媒体信息特征倒排档索引数据库；b.从用户接口获得多媒体信息检索标识，诸如输入草图、轮廓图、音频、镜头或从检索

18、库中调用的相似多媒体信息；c.计算机“理解”用户多媒体信息查询请求标识(查询样本)并与索引数据库中的对象进行相似匹配；d.排序与输出多媒体信息检索结果。3. 4新一代搜索引擎技术现有搜索引擎漏检、误检率较高，检索效率不甚理想。新一代搜索引擎技术必须具有：信息发掘功能，数据零点更新，即及时链接新增的信息，剔除被删除的站点；多途径检索功能，用户进行交互式检索，控制信息输出，获得满意的结果；信息推荐功能，按信息关联程度排序，重要而准确的信息排在前列；高检索效率功能，虚假信息和垃圾信息被过滤，真实信息不遗漏，检准率和检全率最佳化；智能检索功能，自动分析、理解与处理检索词，为用户提供所需信

19、息; 协作检索功能，信息检索系统协同作业，不同地区、专业、语种、类型的搜索引擎应当实现数据库有条件共享或互相满足对方的信息检索请求。元搜索引擎和分布式搜索引擎是新一代搜索引擎技术研究的代表。元搜索引擎（Meta search engine,亦称集合型搜索引擎）是关于搜索引擎的搜索引擎，首先对用户检索请求进行格式转换等预处理，递交给若干个底层搜索引擎查询，然后把其它搜索引擎返回的检索结果进行去重、组合、排序等后处理并显示，譬如MetaCrawler 可以同时检索Yahoo, L ookSmart, AltaVista等9个主要的搜索引擎；分布式搜索引擎则按区域、主题或其它标准创建分布式

20、索引服务器，索引服务器之间可以相互交换中间信息。新一代搜索引擎技术，运用查询分派、数据库选择、文本选择和结果综合等技术，将多个搜索引擎有机整合，网络信息搜索能力和覆盖面空前增大。3. 5自然语言处理技术自然语言是非受控语言，除语法的限制外其它束缚较少，信息标引直接从原始信息中抽取词组（包括新语词），因而标引错误少、准确度高、时效性强。同时，使用自然语言检索，用户不必考虑检索规则，信息检索极其方便。但是，自然语言的词义模糊、词间关系不清容易造成漏检和误检，难以获得满意的检索效果，必须建立系统内关键词词典、类主题词典和后控制词表等自然语言处理系统。自然语言的处理主要依靠人工智能技术由

21、计算机自动进行，自动分词、人名和机构名的自动识别技术、自动标引技术等，其它像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等复杂技术必不可少。现在自然语言处理对信息检索的应用仍停留在简单语言的处理上，例如确认词根和词组等。另外，汉语计算机处理字符集和内码体系不统一，中国大陆、新加坡使用简体，港澳台使用繁体；大陆采用国标码（gb）,台湾用采用大五码（big5）。因此，中文自然语言处理技术面临两大艰巨的任务：汉语自动切分与编码自动转换。尤里卡中文智能搜索引擎，利用先进的自然语言理解技术，解决了 “表达差异”和“忠实表达”的难题，信息检索和导航服务智能化，用户输入口语化的查询请求，就能立即得到翔实、准确、直接的答

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网络信息检索

文档简介

温馨提示

最新文档

评论