信息检索综述_第1页
信息检索综述_第2页
信息检索综述_第3页
信息检索综述_第4页
信息检索综述_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索综述学号姓名专业信息检索综述摘要: 本文介绍了信息检索技术的发展过程,分析了信息检索的主要技术方法,说明了信息检 索的重要性,并对信息检索的发展趋势做出总结和分析,达到对信息检索的更深层认识。 关键词:信息检索;文献信息;搜索引擎Review of Information RetrievalAbstract:The paper introducts the development of information retrieval technique, analyzes the main techniques of information retrieval,illustrates th

2、e importance of information retrieval,and summarizes the development trend of information retrieval.The paper has achieved a deeper understanding of information retrieval. Key words: information retrieval; literature information; serch engine前言信息检索(Informa tion Re trieV有广义和狭义之分。广义的信息检索全称为“信息的存 储与检索”

3、,是指将信息按一定的方式存储和组织起来,并根据用户的需要找出有关信息的 过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息 搜索”,是指从信息集合中找出用户所需要的有关信息的过程1。本文主要从信息检索的概念、发展历史、主要检索方法及信息检索的发展趋势作一般概 述。信息检索的分类及发展历史按检索对象划分,信息检索可分为:文献检索、数据检索和事实检索。按检索手段划分, 信息检索可分为手工检索、机械检索和计算机检索。本部分主要从检索手段的角度来划分信 息检索,并介绍了它们的发展过程。手工检索方式信息检索方式主要以手工操作为主,其中包括纸质文献的检索和缩微式检索。我国最早

4、 的检索工具是西汉刘向、刘歆父子整理编撰的摘要性书目别录和七略,世界上第一 种文摘性科学期刊是1665年1 月5 日在巴黎创办的学者周刊以及著名的美国工程索 引、科学引文索引、科学会议录索引等都属于手工检索工具2。这种检索方式既费时 费力,而且检索效率也很低。脱机检索方式信息检索逐步实现了计算机检索中的单机批处理检索,包括计算机可读文献磁带和磁盘 检索以及光盘数据库检索。机读磁带、磁盘检索实现了一种输入多种输出。光盘数据库比磁 带和磁盘有更大的存储空间,且存储速度更快,如中国专利检索光盘、中国学术期刊全 文数据库光盘版等,这是计算机检索的第一阶段3。计算机联机检索方式进入20 世纪70年代,计

5、算机软、硬件技术不断进步,分组数字通信技术和实时操作技 术发展迅速,出现了一台主机带多个终端的系统。用户可以利用计算机检索终端设备,通过 拨号、电信专线及计算机互联网络,从联机服务中心的数据库中检索出自己所需要的信息, 从而实现了计算机联机检索。它属于计算机检索中的第二阶段4。网络化信息检索方式由于网络技术的普及,加上超文本传输技术的出现,联机检索进入了当前新的发展阶段网络化信息检索,这是计算机检索的第三阶段。网络信息检索是指利用计算机设备和国际 互联网(Internet)检索网上个服务器站点的信息。目前国内网上数据库有:国家科技图书中心、 中国学术期刊数据库、万方数据库、重庆维普数据库、中国

6、专利文献数据库、中国标准数据 库以及超星数字图书馆、书生之家等全文数据库;国外网上数据库则更多,如美国科学索 引(SCI),工程索引(EI),化学文摘(CA), SpringerLink数据库、EBSCO数据库等5。现状分析如今最主要的信息检索方式是网络信息检索。网页是因特网最主要的组成部分,也是人 们获取网络信息的最主要来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这 类检索工具的发展最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分 类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动 给网页上的某些或全部字符做上索引,形成目标摘要格式文

7、件以及网络可访问的数据库,供 人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,他不会将整个网络中每 个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目 中,网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不 变人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少得多。但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对 的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。信息有用性

8、评价困难。一些站点在网页中大量重复某些关键词,使得容易被某些著名的 搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信 息。网络信息日新月异的变更,人们总是希望挑出最新的信息,然而网络信息时刻变动,实 时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。随着网 上信息资源的膨胀发展,一种搜索引擎,无论它多么完美都不可能满足一个人所有的检索需 求,如果遇到文献普及、专题查询、新闻调查与追溯、软件及mp3下载地址搜索等情况, 人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决登录搜索引擎,在各搜索 引擎中分别多次输入同一检索需求(检索字串

9、)等繁琐操作,于是基于网络检索工具诞生了。目前这列检索工具只有两种:集成搜索引擎和元搜索引擎6。所谓集成搜索引擎是在一个检 索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要 求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是 利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时随所链 接的搜索引擎进行增删调整及及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成 链接,深受特定用户群欢迎。例如国内天网搜索和百度搜索,国外比较著名的有“搜索之家”、 “网际瑞士军刀”等。另一个是元搜索引擎,用户只需交一次

10、检索请求,由元搜索引擎负责 转换处理后 提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一 的格式呈现在用户面前。国外 2010 年主流的元搜索引擎有 Google、 Yahoo、 MSN Search、 AOL Search、Netscape Search、Lwon等。目前国内还没有见到真正意义上的元搜索引擎。信息检索的重要性信息检索是获取知识的捷径 美国普林斯顿大学物理系一个年轻大学生名叫约翰.菲利普,在图书馆里借阅有关公开资料,仅用四个月的时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒 球大小),重量轻(7.5 公斤),威力大(相当广岛原子弹3/4威力)

11、,造价低(当时仅需两千美 元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。二十世纪七十年代,美国核专家泰勒收到一份题为制造核弹的方法的报告,他被报 告精湛的技术所吸引,惊叹地说道:“至今我看到的报告中,它是最详细、最全面的一份。” 但使他更为惊异的是。这份报告竟出于哈佛大学经济专业的青年学生之手,而这个四百多页 的技术报告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得 的。信息检索是科学的向导 美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早

12、在十多年前, 就有人研究出来了,方法非常简单,只需在甲醇中加入 2%的水即可,检索这篇文献的时间 是 10 多分钟。在科研开发领域里,重复劳动在世界各国都不同程度的存在。据统计,美国 每年由于重复研究所造成的损失,约占全年研究经费的38%,达 20亿美元之巨。日本有关 化学化工方面的研究课题与国外重复的,大学约占40%、民间占47%、国家研究机构占40%, 平均重复率在40%以上7; 我国的重复率则更高。信息检索是终身教育的基础学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和 组织管理能力。UNESC0指出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够

13、培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。5信息检索的发展趋势5.1智能化智能化是信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机 器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用 户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将 彻底从繁琐的规则中解脱出来。近几年来,智能信息检索 (intelligent information retrieval)作为人工智能(AI)的一个独立研究分支得到了迅速发展。在Internet技术迅速 普及的今天,面向Internet的信息获取与精化技术

14、已成为当代计算机科学与技术领域中迫 切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与 突破口。可视化可视化(visualization)的历史可追溯到2400多年前。哲学家柏拉图指出,我们通过看 来识别物体。据统计,人获取信息有70%-80%靠视觉,20%靠听觉,10%靠触觉。用图像(visual) 取代文字帮助人们检索的优点在于:图像的表达方式生动、形象准确、效率更高,能从更多 角度揭示,而纯文字的表达方式是模糊的、一维的。简单化未来家用电脑将朝着智能化、网络化、人性化和绿色环保的方向发展;操作系统的用户 友好性将不断增强,如微软和苹果公司都致力于操作系统网络

15、化研究,以便使其中的任一应 用程序都能“连接”进行“网络检索”并与网络“交互”;各搜索引擎检索界面更加“傻瓜 化”,使用户学习和进行网络信息检索更加容易;网上自动标引、自动文摘、自动跟踪、自 动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推拉等技术逐步发展、完善, 会越来越方便用户及时准确地检索信息。这些硬件与软件技术的发展都有利于网络信息检索 的简单化。多样化这主要表现在可以检索的信息形态有文本、声音、图像、动画等,这样,就必须开发出 可查询图像、声音、电影等的检索工具来适应这一需求。同时,检索工具已不仅仅是单纯的 检索工具,正在向其它服务范畴扩展,如向用户提供站点评论、天气预报、

16、新闻报道、股票 点评、航班和列车时刻表、地图等全方位信息服务及提供免费电子信箱,并以多种形式满足 用户需要。信息提供的深入化信息检索深入化包括两个方面:一是检索深度的提高。在现阶段,网络检索大多实行相 关性检索,其结果往往是海量的,这会分散用户的注意力,背离原有目的。为避免这种情况, 就要求提高检索深度,由相关性检索向直接性检索发展。另一方面是检索内容的综合化与专 业化相结合,针对用户要求,一些检索工具不再片面追求加大收录标引量,而是突出专业性 特色,方便用户对一些专业性、学术性或较深入的核心数据库进行访问。这样,用户就可以 预先选择自己的信息源,向各种用户满意的信息源提问索取特定类型的信息。

17、还可以对命中 结果进行进一步限定,要求仅提供权威性的可靠结果,从而提高查准率。友好化它主要包括两个方面:一是用户界面友好化,例如利用窗口、图标浏览器和超文本等用 户友好界面技术,使用户不必知道所要查找的信息在网络存放的位置,也不必掌握许多操作 命令,同样能得到满意的检索结果。另一方面是更好的检索结果提供方式,使用户方便地进 行浏览、选择和利用。综上所述,以上是网络时代信息检索的六大发展趋势。可以预见,随着现代信息技术和 传播手段的改进,信息载体类型的不断更新变化,信息检索必将有更大的发展。6.总结如何检索和利用信息资源,是一门学问,是现代人才的必备素质,也是一个人知识 和能力可持续发展的重要条

18、件。教育部和国家教委早在1984 年就要求各高校开设信息检索 课程,作为必修课,目的就是培养大学生的信息意识和获取信息的技能8。 近几年,随着计 算机和通信技术的发展,社会信息进程加快,信息、物质、能源称为人类社会的三大财富, 谁能拥有信息谁就拥有财富,信息对于经济和社会的发展、科技文化的进步都起着重要的作 用,谁掌握了信息,谁就掌握了主动权。参考文献:张丽君.文献信息检索技术综述.四川冶金,2008,(6):58-61梁红妮,何晓萍.信息检索技术的发展与教育的探讨.情报检索,2005,(1):32-34黄媛.传统信息检索与现代信息检索的比较研究.中小学图书馆报世界,2006,(1): 123-124张继玲,阎敏.数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论