版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络信息膨胀与信息
膨胀问题的解决1.1信息与网络信息1.2网络信息膨胀及其带来的负面影响1.3信息膨胀问题产生的原因分析1.4解决信息膨胀问题的基本思路
1.1
信息与网络信息1.1.1信息概述1.1.2网络信息1.1.3网络信息与非网络信息的比较1.1.1
信息概述为了科学地理解信息的本质,必须区分信息、消息、信号、符号的不同涵义。信息与信号、符号、消息在科学涵义上是根本不同的。信号是携带信息的各种物理过程,同一信息可以用各种信号来携带和传递;符号则是语言、文字、图像、密码、指令、程序等的统称,是人类用来表示信息的各种标志,是非物理性的,同样的信息也可以用不同的符号来表征;各种信号都可以与某种符号集合建立起对应关系;信号系列和符号系列构成了消息,消息是信息载体或表达者,消息和信息是形式和内容的关系。所以,信息是一个社会概念,它是社会共享的、人类的一切知识、学问以及从客观现象提炼出来的各种消息的总称,信息反映了客观世界中各种事物的特征和变化的组合,是一种有用的知识。信息具有以下几方面的特性:1.普遍性
普遍性是指从空间分布上讲,信息是无处不在的。信息普遍存在于自然界、人类社会以及人类的思维或精神领域;从时间上讲,尽管具体的某个信息是有时效的,但是由于人们对世界的认识是无限的,因此,就整体而言信息是无限的。从社会学的角度看,信息一开始就直接联系于社会应用,真正意义上的信息离不开社会。2.时效性
具体的信息都有时效性。在某一特定时刻所获得的关于某一事物的信息仅仅反映了这一时刻事物自身所处的状态和环境状况,一般不能反映事物这一时刻之后所产生的问题。时效性是信息的重要特征。
3.传递性
信息可以脱离开某一具体事物而载荷到别的事物上,从而可以被转移、被复制、被记录、被存储、被传送。信息的这种特性使信息借助于一定的载体从一地传递到另一地,在人们之间进行传播,从而实现信息巨大的潜在效用。
4.可替代性信息的物质载体形态是可以互相转移变换的。即指信息的描述可以有多种不同的方法,这些不同的描述方法之间只需保持某种对应关系,这种对应关系称为信息变换关系。5.可转化性信息中包含有知识,使人们对某个事物的运动状态和其变化方式由不了解到了解,使知识由少变多。由此,人们利用信息就可以提高工作效率的质量,从而降低经济成本。因此说,信息的这种可转化的特性,是信息被正确利用所产生的社会和经济效益的依据。6.共享性信息可以同时为众多的接收者共同使用。在信息的扩散和用户分享信息的过程中,信息载体本身的信息量并不因此过程而减少,各用户分享的信息不因分享的人的多少而受影响。这是由于信息不是事物本身,而是事物运动状态及其变化的描述,信息可以脱离开产生它的那个事物,从而可以实现信息的转移、传播和复制,达到信息的共享。人类生存与发展离不开信息。信息是人类进化和社会发展中一种不可缺少的前提和推动社会进步的重要因素,信息的根本作用在于消除人们认识的不确定性和增强世界的有序性。信息的运行环境,直接影响着人类利用信息的程度。随着现代信息技术的不断发展进步,先进的信息技术被广泛应用,促使信息的运行环境、管理技术逐步现代化。计算机技术、电子技术、通信技术在信息的搜集、存储、加工、传递、交换、管理等方面的普遍应用,从根本上改变了信息的存取与传播方式。计算机、网络已成为传播文化知识,获取信息资源的重要手段。1.1.2网络信息1.互联网的产生与发展互联网的出现是20世纪最伟大的科学成就之一,其发展速度远远超过世界上其他科学技术的发展速度。互联网与它所负载的海量信息,正在对社会经济生活、对人们的价值观念和生存方式产生着强烈的冲击。互联网最初起源于ARPAnet(阿帕网)。目的是通过该网络把美国的几个军事及研究用计算机主机联接起来,形成一个新的军事指挥系统。1981年,美国全国科学基金会开发了有五个超级计算机中心相连的网络。当时的全国许多大学和学术机构把已经建成的一批地区性网络与五个超级计算机中心相连,形成了一个新的大的网络——NSFnet,该网络上的成员之间可以互相进行通讯,从而开始了互联网真正发展的阶段。采用Internet的名称是在MILnet(由ARPAnet分出来)实现和NSFnet连接后开始的。随后,其他联邦部门的计算机网相继并入Internet,NSF巨型计算机中心则一直肩负着扩展Internet的使命。Internet在20世纪80年代的扩张不单有量的改变,也带来质的某些变化。由于多种学术团体、企业研究机构、甚至个人用户的进入,Internet的使用者不再限于“纯粹”的计算机专业人员。新的使用者逐步把Internet当作一种交流与信息传递的工具,而不仅仅只是共享NSF巨型计算机的运算能力。1991年,GeneralAtomics、PerformanceSystemsInternational、UUNetTechnologies等3家公司组成了“商用Internet协会”(CommercialInternetExchangeAssociation),宣布用户可以把它们的Internet子网用于任何的商业用途。其它Internet的商业子网也看到了Internet用于商业用途的巨大潜力,纷纷做出类似的承诺,Internet商业化服务提供商的接连出现,使工商企业可以真正地进入Internet。大量商业机构的进入带来了Internet发展史上一次质的飞跃。到1994年年底,Internet已通往全世界150个国家和地区,联接着3万多个子网,320多万台计算机主机,直接的用户超过3500万,成为世界最大的计算机网络。数据库技术的发展,特别是分布式数据库技术的进步使得大量的信息内容被放入计算机网络,从而使得人们能够迅速地从网络上检索和得到他们所需的信息。特别是环球网技术的出现,人们可以使用超文本格式把文字、图像等信息汇于一体,放入数据库中,极大地丰富了互联网中的信息资源。目前,互联网上的信息涉及到现代社会生活的各个方面。通过信息在网上的传播,人们可以方便地从互联网上获取各种不同需求的信息。对于企业来说,可以从互联网上获取市场信息,还可以通过创建本企业的主页(Homepage),在网上发布企业信息,宣传企业形象,推销企业产品,进行技术支持和售后服务等。2.网络信息的类型、特点与传播方式信息可根据其载体形式和传递方式分为文献信息和网络信息两大类型。文献信息是指传统的介质(纸张)和现代介质(如磁盘、光盘、缩微胶片等)记录和存贮的知识信息。文献信息的载体形式主要有图书、报纸、期刊,政府报告、会议资料以及光盘资料和缩微资料等。文献信息资源具有较强的系统性、连续性和稳定性特点。网络信息一般可以理解为“通过计算机网络可以利用的各种信息”,即通过国际互联网可以利用的各种信息,它包括:科技数据库、时事评论、社会科学、文学艺术、历史资源等方面丰富的文献资料和一些公用软件。网络信息具有内容的广泛性、访问的快捷性、搜索的网络性和资源的动态性等特点。(1)网络信息的类型1)按信息的时效分类:网上出版物。即在网上出版的报纸,期刊等。动态信息。如政府机构发布的消息、政策法规、会议消息,以及论文集、科研成果、产品目录、新闻及广告、交通、股市行情等。联机馆藏书目数据库。在互联网中,图书馆目录正发展成为OPAC(OnlinePublicAccessCatalog,即联机公共目录检索系统)。已有上万个电子图书馆的馆藏机读书目数据库,包括大学图书馆、公共图书馆和专业图书馆的馆藏。联机数据库。许多国际联机检索系统都开设了与互联网的接口,用户通过远程登录或互联网均可进行检索。2)按所对应的非网络信息分类:馆藏书目数据库。电子书刊。即完全在网络环境下编辑、出版、传播的书刊,以及印刷型书刊的电子版。参考工具书。这是一些传统的和现代的参考工具书的网络版。如大不列颠百科全书、牛津大辞典等。数据库。指联入互联网的数据库,数据库的内容涉及不同领域和不同专业。其他类型。如个人主页、电子邮件、电子公告、新闻组、用户组等也成为信息交流的重要渠道,并成为网络信息的重要组成部分之一。3)按人类信息交流的方式分类:非正式出版信息。如电子邮件、电子会议、专题组和论坛、电子公告板新闻等。半非正式出版物。一些无法从正式出版物查询到的信息。如各种学术团体和教育机构、企业、国际组织和政府机构、行业协会等的网址或主页上发布的信息。正式出版物。即用户可以查询到的各种数据库、联机杂志、电子版工具书、报纸、专利信息等。4)按信息存取方式分,可分为邮件型、揭示板型(如网络新闻、匿名FTP等)、广播型、图书馆型以及书目型。从网络信息检索角度,按信息查询方式对网络信息进行分类:1)互联网(WWW)信息。互联网上的信息是分布于网络各处的文字、图像、声音和多媒体超文本信息。由于检索方便、灵活、快捷,因此,发展迅速,已成为互联网信息的主流。2)FTP信息。FTP以发布、传递软件和长文件见长。3)Telnet信息。使用Telnet用户可以使用远程计算机上对外开放的信息资源,尤其是图书馆目录系统。4)USENET/Newsgroup信息资源。USENET利用网络环境,为用户提供专题讨论服务。5)USTSERV/MailingList信息。即电子邮件群和邮件列表。6)Gopher信息。是一种类似互联网的分布式客户机/服务器形式的信息资源体系。(2)网络信息的特征1)数据量大,增长迅速。2)内容丰富,形式多样。互联网已发展成为当代信息存储与传播的主要媒介之一,存储着不同学科,不同领域、不同地域、不同语言的各种信息,是一个巨大的信息资源库。3)变化快,质量参差不齐。互联网上的信息地址、信息连接、信息内容均具有动态性,信息资源的更迭、消亡无法预测。4)信息分散、无序。互联网是一个基于TCP/IP协议的联结各国、各机构数以万计的计算机网络的通信网,对网络信息资源本身的组织管理无统一标准和规范,网络信息分散于不同国家、不同地区服务器上,采用不同的操作系统及数据结构,字符界面、图形界面、菜单方式、超文本方式等缺乏集中统一的管理机制。(3)网络信息的传播方式1)利用环球网传播图、文、音并茂的信息。2)利用电子邮件传播信息。3)利用远程登录(Telnet)使用远程计算机的有关信息资源。4)利用网络论坛Usenet传播信息。5)利用FTP传播信息。3.中国网络信息用户使用分析到目前,全世界互联网上的用户已超过6.5亿。20世纪90年代初,互联网进入中国。从1997年到2002年,上网用户总数已从62万人达到5910万人,增长了94.3倍。截止到2002年12月31日,中国WWW站点数为371600个,和2001年同期相比增长34.1%。在我国,网络用户的范围十分广泛,年龄和受教育程度有着很大的差别,知识结构、认知能力也不相同;上网的目的和利用网络信息的种类也存在明显的差异。年龄18岁以下18--2425--3031--3536--4041--5050岁以上比重(%)1997年10月5.60%36.30%29%13.20%4.3%6.80%4.80%比重(%)2003年1月17.5%10.2%14.9%16.5%14.4%16.7%9.8%(1)用户年龄分布从1997年10月到2003年1月,中国互联网用户人数已从62万发展到5910万,其年龄分布如表1-1。表1-1中国互联网用户的年龄分布资料来源:中国互联网络中心.中国互联网络发展状况统计报告,因特网:(2)用户性别统计资料来源:中国互联网络中心.中国互联网络发展状况统计报告,因特网:
从右表可以看出,女性用户1999年1月比1998年7月增长100%,而2003年1月已增至四成以上。中国女网民的增加非常明显。一方面说明近几年来中国女性对互联网的关注在增多,另一方面也说明中国女性的知识层次和收入水平也在提高。充分利用这方面的信息,有利于女性市场的开拓。表1-2中国互联网用户的性别统计(3)用户文化程度在中国互联网用户的文化结构中,从1999年到2003年,大专、本科学历的用户占60%左右,且变化不大。这说明,在中国,上网用户主要集中在学历层次较高的人群中。另外在上网用户中高中及高中以下学历的占10%左右,它比高学历人数(硕士、博士)还要高出5-10个百分点,原因是这部分人大多比较年轻,有很强的求知欲和接受能力。相比之下硕士、博士学历的上网人数仅占到不足3%,可见,高学历人才在我国数量还很少,这部分人是我国目前很缺乏的人才。他们大多是从事科研、教育的工作者,上网的目的也多是为了获取科技、经济、教育等方面的信息。这也反映出网络没有为高层次人才提供足够的有用信息,不能满足他们的需求,这是网络信息亟待解决的问题之一。(4)用户行业分布情况分析表1-3用户的行业分布(不包括军人、学生和无业人员)资料来源:中国互联网络中心.中国互联网络发展状况统计报告,因特网:表1-4用户的职业分布资料来源:中国互联网络中心.中国互联网络发展状况统计报告,因特网:(5)用户上网目的从CNNIC1999年7月~2003年1月以来的统计报告看,占用户上网目的第一位的是查询信息,占用户的50%左右。之外主要是用于学习、工作需要及获得各种免费资源等目的的占到了用户总数的14%左右。所以,在网民中广泛普及、推广网络信息查询技术,最大限度地利用网络信息资源,应当成为我国推进信息化建设的一项极为重要的工作。(6)用户最常使用的网络服务网络服务主要是指互联网提供的一些基本服务,如电子邮件,专题讨论,远程登录,信息发布,文件传输和信息检索等。在1999年7月~2003年1月CNNIC发布的统计报告中电子邮件始终排在第一位,2003年1月调查显示为92.6%的用户常用这一服务。搜索引擎排在第二位,有68.3%的上网用户常用这一服务,排在第四位的是各类信息查询,使用这项服务的用户占42.2%。这说明,互联网已经成为继报纸、广播、电视之后,很重要的信息传播媒体。(7)用户在网络上主要获取哪方面信息表1-5用户在网络上主要获取信息的比例资料来源:中国互联网络中心.中国互联网络发展状况统计报告,因特网:1.1.3网络信息与非网络信息的比较1)信息的发布。与非网络信息相比,网络信息的数量多,质量也较难控制。2)信息的传播。随着光纤技术、交换技术的发展和网络的迅速普及,使通信速度迅速提高而通信费用显著下降。这使得计算机网络正在成为人们重要的通信工具,通信的快速、廉价使人们能够获得超地域的相互沟通能力,极大地扩大了人们的联系。3)信息的变化频率。网络信息,包括信息地址、信息链接、信息内容经常处于变动之中,非网络信息一般变化较慢。4)信息的扩充性。指已发布的信息的扩充性。非网络信息一经出版,就有了固定的样式,一般较难加以扩展和扩充,而网络信息则可以根据实际需要,随时加以扩充。
5)形式多样性。网络信息在形式上包括了文本、超文本、图像、声音、软件、数据等多种形式;在存取与利用方法上也具有多样性。这也是与非网络信息的一个很重要的区别。6)关联程度。非网络信息的关联能力较差,主要通过参考文献、引用文献等方式来进行关联,而网络信息可以利用超文本技术,通过链接方式直接指导用户去查阅所引用的原始文献。1.2网络信息膨胀及其带来的
负面影响1.2.1网络信息膨胀的含义及表现1.2.2信息膨胀带来的负面影响1.2.1网络信息膨胀的含义及表现1.信息膨胀和网络信息膨胀的含义信息量与信息价值存在着正比关系,即信息越多,从中获得的价值越大。信息量与信息价值的正比关系存在着一个临界点,到达临界点之后,信息量越大,总体价值却反而开始降低,这就是信息膨胀。信息膨胀问题已经成为我们生活中难以避免的一个问题。网络信息膨胀是指网络信息随着现代信息技术的发展急剧增加,过量的“垃圾”信息充斥网络站点,网络信息的检索成本不断上升,网络信息自身的价值随着网络信息量的增加而贬值,二者呈现出反比关系。2.网络信息膨胀的表现1)信息失实2)信息冗余3)信息超载4)信息过时5)淫秽信息6)电脑病毒1.2.2信息膨胀带来的负面影响1.查询时间延长2.经济损失严重3.查询结果不理想1.3信息膨胀问题产生的原因分析1.3.1信息本身在急剧膨胀1.3.2网络信息的传播方式导致信息膨胀1.3.3网络信息的发布方式导致信息膨胀1.3.4法律规范的滞后导致信息膨胀1.3.1信息本身在急剧膨胀世界各地的信息通过各种渠道快速的相互传播,全球的各类信息量都在成数十倍数百倍甚至更多的数量增长。在这一过程中,大量冗余的、无价值的信息混杂在各类信息当中。在全球信息系统中,信息垃圾比例不低于50%,有的学科领域甚至占到80%!同时,由于科学技术飞速发展,知识更新速度不断加快,知识老化现象明显。此外,虚假信息传播者有意识地传递的虚假错误信息,误导、诱骗消费者;甚至还有一些无从证实的传闻、流言、诽谤等恶意传递的污垢信息;所有这些都充斥在信息社会中,成为人们信息处理的负担。1.3.2网络信息的传播方式
导致信息膨胀传播速度快、范围广,是网络传播的最大特点,也是其最大的优势,然而,又反过来造成了信息的膨胀和过剩。信息作为一种产品,其最大特点是复制成本极低。并且在绝大多数情况下,信息产品具有非排他性,具有一定的公共产品的特征。另一方面,影响信息产品扩散的还有信息的传播成本,互联网的出现使信息的传播成本也得到了大幅度的降低。
网络外部性(NetworkExternalities)网络外部性是指一件产品由于其他相同产品的使用而获得额外的价值。在互联网领域里,网络的外部性表现的十分明显,特别是在一些侧重与交流的虚拟社区类的网站中:网站每“销售”出一件信息产品,它就同时获得了在未来“销售”更多产品的可能。通过对网络外部性的内部化,使互联网有可能表现出边际收益递增的特征。并且网站的交互性越强,这种边际收益递增就越明显。边际收益递增的信息生产也导致了互联网信息产品的生产过剩。信息过剩不仅仅是过剩,与之相伴随的还有信息的质量问题,信息的信用问题等等。这些对于互联网的发展都带来了不利的影响,又反过来对信息使用者带来不便。1.3.3网络信息的发布方式
导致信息膨胀互联网可以使人人都成为出版人。一方面是在互联网上发表一篇文章,由于占用的磁盘空间少,使发布信息的成本很低,这使得任何人都可以在网上发表自己的作品或资料,而不会有什么发布上和经济上的困难,这种信息发布的便利性使得网络信息的数量迅速增加。另一方面,在互联网上发表任何文章不需要经过任何人或部门的审查和批准。由于这两方面的原因,各种任意夸大、缩小、捏造、剪辑、畸弯、拼凑、克隆得到的信息,低水平重复、老化失效、无限泛滥和内容不健康的无效信息都可以不受限制的在互联网上发布,这就使得网络信息的真实性和可靠性无法得到保障。1.3.4法律规范的滞后导致信息膨胀法制规范的滞后,使得各类网站的建设无法可依,信息发布处于无序状态,重复信息、无用信息充斥网络,造成大量信息失实、冗余、超载,信息膨胀问题严重。一个健全的网络法律体系应该包括通信与信息服务,电子商务和知识产权等各方面。在涉及的信息内容方面,应包括信息采集、处理,互联网信息、电子出版新闻等;在网络信息安全方面,包括信息网络安全、信息网络保密、电子签名与认证等;既要制订管理性的法律法规,又要制订促进信息技术发展的法律法规。1.4解决信息膨胀问题的基本思路1.4.1加强网络信息检索新技术的开发1.4.2网络信息检索机制及应用的研究1.4.3本书网络信息检索的解决办法1.4.4预期达到的效果1.4.1加强网络信息检索新技术的开发1.发展自然语言处理技术自然语言,是指作者的书面用语,采用自然语言。可以减少概念间转换产主的误差,检索入口词多,操作简单、方便、灵活,也适合专业人员之外的广大用户群。对自然语言进行适当控制的方法有事先控制法和事后控制法。由于各种数据库采用的检索语言不同,试图用一种检索语言统一各种数据库的不同分类体系及叙词法是不现实的。采用中介语言来实现多种语言的兼容是一种新的尝试。通过标准化手段实现各种检索语言的兼容也是一种尝试。标准化是检索语言兼容的最高层次。2.大力发展智能化检索技术智能化是网络信息检索工具的发展方向。实现检索手段智能化的技术主要包括:蜘蛛(spiders)软件的智能化。它可以对网页上文献的相关性及其所含链接的质量作出判断,筛掉不相关的网页。智能搜索引擎技术(如AskJeeves)。其功能是:先通过模拟传统检索过程的咨询协商,索取有关检索数据,再到大型知识库中进行检索。智能搜索引擎还具有推理能力、调整用户检索策略、提高检索效率和提供用户定制服务等功能。3.建立以用户为核心的技术服务模式对现代信息技术的深层次开发,创建和支持以用户为核心的技术服务模式,是网络检索服务研究的重要内容。“推”技术,是指根据网上用户个人需求的特征,运用“筛选”、“过滤”机制。将信息不断、主动地提供给用户的一系列软件技术的总称。网络信息的查询是一个设计、发现、归纳、总结的过程。信息的获取,除了必要的技术条件外,还必需有相应的检索方法与之配合。开展网络环境下的信息检索方法研究就成了一项非常的重要的工作。这项工作做好了,我们就可以建立一套从实际需要的角度出发,以一定的查询目的为起点,通过多种检索途径获取所需资料的方法,更快、更多、更准确地在网络上获取信息,尽可能的减少或避免信息膨胀所带累的负面影响。1.4.2网络信息检索机制及应用的研究针对WWW网站资源的组织过程与方式,理论界提出了检索机制的三个组成部分,即采集标引机制、数据组织机制和用户检索机制。其中,以Robots为核心的网络信息资源自动采集,旨在以HURL、HTTP为基础,集中不同类型的信息产品,使全球范围内的各种信息资源能实时及时地进入信息系统。自动采集机制提供的网页样本,为网络检索工具的量化标引、量化评价提供理论根据。数据组织机制以数据采集为依据,直接对网上索引数据库系统的动态维护与管理产生影响。用户检索机制涉及用户界面友好、检索策略的合理程度、检索执行以及检索结果的相关性处理等。目前,用户可以直接使用的网络检索方法已有很多种类。现有的检索方法按照信息内容组织方式可以划分为分类范畴搜索引擎和词语搜索引擎两大类。按照专业范畴可以划分为通用性和专业性查询引擎两类。按照检索功能划分为常规(或单一)查询引擎与多元查询引擎。此外,从功能角度可划分为目录式、索引式、指南式三大类。网络信息检索工具的优劣主要集中在系统功能设置、用户界面、数据库内容结构与更新,以及对国内外搜索引擎的准确性、易用性,可选择性、检索效果等方面。对信息检索工具的评价主要是对数据库资源和搜索引擎性能的评价。网络信息还应当使用户了解信息发布的权威性、信息的广度与深度、主页链接的可靠性、版面设计质量、信息时效性,主页的可操作性以及读者对象等。在网络信息检索策略方面,网上各类型搜索引擎所采用的检索策略除个别特定符号规定外,大部分都认同布尔逻辑、截词手段、相邻度检索、位置逻辑检索、字段检定、加权检索以及自然语言检索、相关信息反馈等的使用。全面了解这些策略对检索入门至关重要,但灵活运用则主要取决于用户的直觉、经验和逻辑思维。用户可以采用网上各种搜索引擎规定的特定检索策略标记符号及组配原则,利用不同的搜索引擎,浏览、查询自己需要的信息。应根据不同的搜索引擎的特点选用搜索引擎。如一般性查询选用Yahoo,自然语言查询用Infoseek,不确切知道关键词时用excite进行概念检索,全文检索用Open-Text和excite,反向检索用WebCrawler,短语检索用Open-Text,查询期刊论文选用TheElectricLibrary等。1.4.3本书网络信息检索的解决办法首先,为用户设计一个网络信息检索体系,为不同用户设计不同的信息检索方法,包括网络信息检索的基本原理和方法,网络信息搜索工具和计算机信息检索系统。其次,介绍相应的网络信息处理技术,包括信息获取技术、信息推送技术和数据挖掘技术。同时,介绍搜索引擎的基本原理。再次,对用户已经获取的网络信息进行管理。从信息资源组织、信息平台协调、用户及其权限管理、安全防范策略等方面进行集成化协调管理,包括网络信息管理的基本技术、个人数据库的建立、网络信息的整理和个人网络信息查询系统的设计。最后,从普通用户、科研用户和企业用户的不同需要出发,列举不同用户不同目的的检索实例。第二章网络信息检索系统2.1网络信息检索概述2.2WorldWideWeb(WWW)检索系统2.3常用中英文搜索引擎及检索策略2.4网上多媒体信息检索系统2.5经济信息检索系统2.6互联网科技信息资源检索类型2.1网络信息检索概述2.1.1计算机检索特点2.1.2网络信息检索工具及原理2.1.3网络信息检索工具的发展趋势2.1.1计算机检索特点随着计算机技术、高密度海量存储器技术和现代通信技术的发展,计算机检索系统已经成为世界上最先进的信息检索系统。它具有检索速度快、检索范围广而全面、检索途径多、质量高、检索内容新等特点。由于计算机具有上述特点,所以它广泛应用于信息管理中,如情报信息管理、图书馆资料管理、档案馆文件管理等方面。计算机信息检索系统能存储大量的信息,并对信息条目进行分类、编目或编制索引;还可以根据用户要求从已存储的信息库中调取出特定的信息,并提供插入、修改和删除某些信息的能力。1.计算机检索系统的发展过程第一阶段,1971年以前,开始建立计算机信息检索系统,并取得了一定的进展。这一阶段的数据存取与数据通信能力都比较差。第二阶段,1971年以后,产生并发展了联机情报检索系统。这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较差。第三阶段,20世纪80年代以后,出现了以Internet为标志的网络信息检索系统。系统大多采用分布式的网络化管理,其信息资源的主要特点是:数字形式表达、多媒体和多载体、内容覆盖面广、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求高等。第四阶段,进入21世纪后,随着连续性语音识别技术的不断发展,计算机信息检索系统跨入一个新的阶段。在前三个阶段的基础上,信息检索技术正向两个新的方向发展:一是传统信息检索向全文文本、多媒体等新型信息检索发展,在深度上应能对提问的内容进行分析和理解,提高查准率,探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等解决方案,提高管理和组织信息的能力;二是信息资源的网络化和分布化,主要面对Internet中浩瀚无垠的资源,提高查全率。2.基于概念的信息检索系统基于概念的信息检索是通过对文献中的原文信息进行语义上的自然语言处理,析取各种概念信息,并由此形成一个知识库。然后,根据对用户提问的理解,检索知识库中相关的信息,以提供直接的回答。(1)概念信息检索的特性概念信息检索具有分析和理解自然语言的能力。无论是向知识库的自然语言输入,还是对系统的自然语言提问,概念信息检索都可以通过分析和理解,得到自然语言原文的内容。概念信息检索可以对输入的原文根据其概念内容进行组织和安排,而不是根据关键词检索。概念信息检索可以进行语义层次上的自然语言处理,以析取相关的概念信息和范畴知识;然后,通过记忆机制将它们存储到知识库中,以备检索之用。概念信息检索的记忆机制能够自动补充与更新。同时,存储在知识库中的概念信息和范畴知识也能得到补充与更新,且补充与更新的新信息与新知识能恰当地归类到相应的范畴之中。概念信息检索具有使用自然语言回答用户提问的能力。这种能力包括从自然语言原文的概念内容中析取检索要点,通过记忆机制检查某个特别的范畴,以获取必需的背景知识,以及通过对知识库中存储的其它概念信息进行分析和理解,并回答用户的提问。(2)概念信息检索系统的结构概念信息检索系统的结构一般分为:记忆机制部分。存储原文内容或概念,能自动更新。语言分析机制部分。运用自然语言处理技术,从语义层次上分析和理解文本内容及用户提问内容。知识库部分。通过分析机制和记忆机制,获取关于检索和推理的知识。人机接口部分。输入原文内容及用户提问,输出自然语言形式的检索结果。(3)应用系统CyFr系统。CyFr系统是Schank、Kolodner和DeJong于1981年根据概念信息检索理论建立的系统,用于处理与美国前国务卿范斯(Vance)有关的新闻。Researcher系统。由Lebowitz于1983年在哥伦比亚大学研制,用于阅读和理解用自然语言形式输入的专利文献摘要。还有由McCune和Tong研制的Rubric系统,是用来检索与恐怖行为概念有关的文献。美国通用电器公司人工智能研究室的Ran1987年建立的SCICOR系统、美国卡内基梅隆大学机器翻译中心1991年完成的FERRET系统。3.超文本信息检索系统以超文本网络为基础的文献检索系统。正文信息是以节点而不是以字符串作为信息的基本单元,节点间通过链进行连接。在检索文献时,节点间的多种链接关系可以动态地选择性激发,从而可根据思维联想或新信息的需要,通过链从一个节点跳到另一个节点,由此形成随着人们思维和需要的流动而构成的数据链,体现出一种完全不同于过去顺序检索方式的联想式检索。(1)设计思想一般是基于引导浏览的检索系统。其设计思想是:屏幕上的窗口与数据库中的卡片相对应,卡片是数据库中的基本信息单元,即节点。卡片间通过链路即数据库中的指针相连接,在窗口中则以高亮度的关键字为标志。(2)超文本系统结构与模型超文本系统结构模型主要采用Combell、Goodman及Dexter模型。其中Combell与Goodman模型都具有表现层、抽象机制和数据库层三层结构,而Dexter模型的结构则为运行层、表现描述层、存储层、锚定点机制及内部组件层五层。从描述超文本信息的组织结构来看,可分为基于图论的模型、基于网论的模型、基于逻辑模型、基于集论的模型。(3)应用系统目前已建立了多个基于超文本的信息检索系统,如AltaVista、WebCrawler、Yahoo!、Lycos、OpenText、Infoseek等著名的网络检索系统。这些系统检索速度快,数据资料新,具备多种查询方式,极大地方便了用户使用Internet,提高了全文检索的查全率。4.计算机全文检索的进一步研究全文检索(FullTextRetrieval)是指以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。全文检索技术应用领域主要包括:企业信息门户、媒体网站、政府网站、数字图书馆、搜索引擎及商业网站。2.1.2网络信息检索工具及原理1.网络信息检索工具发展概述
20世纪70年代,开发了许多种类的情报(信息)检索软件,形成了软件开发研究和情报科学研究的一个相对独立的分支:情报检索。随着Internet的不断扩张,网络信息检索工具(NetworkedInformationRetrievalTools)的新型检索工具便应运而生了。网络检索工具的研究与开发,使原来的“情报检索”这一学科分支产生了新的分支“网络信息检索”(NIR,NetworkedInformationRetrieval)。Internet上信息资源的迅猛增长使主管Internet的技术问题的Internet工程特别工作小组(IETF,InternetEngineeringTaskForce)对网络信息检索给予了充分重视。IETF与欧洲科研网络协会(RARE-AssociationofEuropeanResearchNetworks)和网络信息联盟(CNI-CoalitionforNetworkedInformation)联合组建了“网络信息检索工作小组”(NIRWorkingGroup)。主要任务是:收集和发布网络信息检索工具及其研究团体的信息;鼓励合作开发网络信息检索工具;协调网络信息检索工具开发单位、有关联网机构和网络信息检索工具的生产销售厂商的行动。目前在Internet上运行的网络检索工具可分为三大类:交互式信息提供服务(InteractiveInformationDeliveryServices);名录服务(DirectoryServices);索引服务(IndexingServices)。目前在互联网运行的交互式信息服务软件主要基于WWW和Gopher,名录服务软件主要基于WHOIS、NETFIND和X.500,索引服务软件主要基于Archie、Veronica、Jughead和WAIS。交互式信息检索工具一般为用户提供友好的交互操作界面,并具备交互浏览信息的功能,信息在网络上的存放方式以及如何取得信息,对使用者都是透明的。菜单式查询系统Gopher是Internet上较早出现的一种交互信息查询工具。WWW系统是近年来发展的最重要的一种交互信息查询工具,也是迄今用户最多和使用最为方便的工具。索引式信息检索工具是通过对信息资源文件建立的索引查找文件的所在位置,以便用其他检索工具进一步获取信息文件。此外,Internet上还产生大量基于电子邮件交换的信息。这类信息获取系统包括电子公告板系统、电子邮件通信组、网络专题消息、电子刊物以及网络广告等。2.菜单式查询系统(Gopher)Gopher是一种按“菜单”形式组织的分布式文档查询系统,1991年在美国Minnesota大学发展起来。开始用于校园网,后来推广到Internet。Gopher为用户查询信息提供一个多级的菜单界面,只需按照菜单指示的路径就能获取想要的信息,使用非常方便。3.广域信息服务系统(WAIS)WAIS(WideAreaInformationSystem)以各种文本数据文件为检索对象(信息源),融汇了Archie、newsgroup等的信文件在内的各类信息。目前,Internet上已建立了几千个提供检索服务的WAIS服务器,成为整个Internet网络文本式信息资源的检索工具。用WAIS检索信息可分两步进行:第一步,先从信息源(文件题目)列表选择检索对象;第二步,在选定范围内通过文件的关键词查找文件。4.网络文件搜索系统(Archie)由于Internet所包含的信息量惊人,用户很难了解某类信息在Internet上的分布情况,或者某个具体软件存储在哪一个主机结点上。Archie可以使用户能够查询信息资源的存放地址,以便能够从特定场所的服务器中获取各种感兴趣的或者有用的信息。Archie与WAIS不同,后者除查询信息存放地址之外,还可以进一步显示与浏览信息文件的内容。2.1.3网络信息检索工具的发展趋势目前,网络信息检索技术正在向两个方向发展:一是传统信息检索向全文文本、多媒体等新型信息检索发展,在深度上能对提问的内容进行分析和理解,提高查准率,探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等解决方案,提高管理和组织信息的能力;二是信息资源的网络化和分布化,面对Internet中浩瀚无垠的资源,提高查全率。网络信息检索工具的发展趋势突出表现出以下特点:支持主题指南的搜索引擎。增加特色服务,提供全方位的信息服务。本地化服务。提供多媒体检索功能。多语种检索。推广利用信息新技术。商业化发展趋势。2.2WorldWideWeb(WWW)
检索系统2.2.1WWW发展简介2.2.2WWW上的“搜索引擎”2.2.3搜索引擎的类型与特点2.2.4中文搜索引擎的现状及发展2.2.1WWW发展简介WWW是一种基于超文本(Hypertext)文件的交互式浏览型检索工具。WWW是1989年由欧洲核物理研究中心(CERN)的TimeBerners-Lee提出的一个研究项目,其目的是向国际高能物理研究界提供一个在计算网上用超文本方式传送文件和相互进行通信的工具。1990年底,第一个WWW软件被安装在一台NeXT机器上。用户可用它在Internet网上浏览、传递和编辑超文本格式的文件。1992年以后,经过Tim本人的不懈努力,WWW概念日益深入人心。全世界有数百名志愿者无偿地投入开发和推广WWW软件的工作。现在WWW已成为全球性的软件开发项目。由于全世界软件人员的共同努力,WWW软件不断完善,并且增加了多媒体功能,成为具有超媒体(Hypermedia)功能的、网上最先进的信息检索工具。由于WWW的优异性能,其用户数量有了“爆发性”的增长。1996年,WWW的通信量已稳居第一。许多原来只能通过Telnet、Gopher、Wais才能获得的信息现在都可以通过WWW方便地获得。2.2.2WWW上的“搜索引擎”1.“搜索引擎”原理简介
在美国,搜索引擎(SEARCHENGINE)通常指的是基于互联网的搜索引擎,这种引擎收集互联网上几千万到几亿个网页数量不等,并且每一个网页上的每一个词都被搜索引擎所收录,也就是“全文检索”。典型的互联网搜索引擎包括AltaVista、Inktomi、Infoseek、Google等。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还有“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。在中国,搜索引擎通常指的是基于网站目录的搜索服务或是特定网站的搜索服务。前者如搜狐、新浪等公司开发的网站搜索服务,后者如《人民日报》、《文汇报》网站上提供的全文检索服务。2.网络搜索引擎的发展过程(1)第一代搜索引擎1)
Altavista(/)2)Infoseek(/)3)Excite(/)4)Lycos(/)(2)第二代搜索引擎只做后台技术提供者与大量应用人工智能是第二代搜索引擎的标志。第一代的搜索引擎公司后来演变成了门户网站,而第二代的搜索引擎厂商则成为像Inktomi、Google那样给网站提供技术与服务的ASP,或是在技术上采用了人工智能技术的厂商,如Askjeeves、Directhit等。第二代搜索引擎厂商的特点是只做后台技术的提供者。
1)Inktomi(/)
2)Askjeeves(/)
3)Goto(/)
4)Google(/)3.搜索引擎面临的挑战搜索引擎对自然语言提问没有理解能力;所有著名的搜索引擎都不支持中文或是对中文的支持极弱;搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾;搜索引擎无法与电子商务紧密结合;搜索引擎对多媒体内容的处理尚不成熟。4.新一代搜索引擎的特点AskJeeves。巧妙地将用户提问转化为系统已知的问题,然后对已知的问题进行回答,降低了对自然语言理解技术的依赖性;B。第一个为中国人写的商业化的互联网搜索引擎,信息量大,相关性好,刷新率高,速度快;G。最先将拍卖的概念引入搜索引擎服务,当用户检索某些词时,广告商可以通过竞拍使自己的网站在搜索结果中的排名提前,这就把电子商务的概念轻松地引入了搜索服务。MySimon。这是一个完全面向电子商务的搜索服务,它对同一种商品按价格的高低进行排序;Ditto。这是一个多媒体的搜索引擎,目前主要提供网上图像的搜索,已收集了超过200万个图像,并且大多经过人工的筛选,因而搜索结果质量较高。5.搜索引擎的未来从1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段:对网上的超链结构进行分析,如Infoseek和Google;对用户的点击行为进行分析,如Directhit(该公司被AskJeeves收购);与网站目录相结合。最新的趋势则是搜索的个性化和本地化:2.2.3搜索引擎的类型与特点目前发展最为迅速、最受人们欢迎的信息检索工具是WWW(互联网)上的检索工具,主要分为两类:主题指南和搜索引擎。其它检索工具,有Gopher、Archie、WAIS等,它们分别用来查询Gopher资源、FTP资源和WAIS资源。这些不同的工具为查询各种信息提供了多种途径。从最初的主题指南发展到独立型搜索引擎、混合式搜索引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引擎功能不断改进、性能日趋完善、更趋向智能化的检索特征。1.主题指南主题指南是搜索引擎的最初表现形式。是人工建立的、结构化的互联网网址主题类目和子类目,按照字母、时间、地点、主题等顺序进行排列,使用户通过浏览网络站点列表,检索有关信息。较为典型有Yahoo!、LookSmart、InfoMine等。主题指南由人工编制和维护,因此在信息的收集、编排、HTML编码以及信息注解等方面花费大量的人力和时间。它强调的是浏览功能,优点是采用人工干预提高了主题指南返回结果的相关性;缺点是很难检索到较深的信息,难于控制主题等级类目的质量,信息更新速度相对较慢,收录信息数量相对不足。主题指南主要适用于:用户进行笼统或较笼统的主题浏览和检索。当用户尚未形成很精确的检索概念时,采用主题指南作为检索起始点非常有效。除综合性主题指南之外,为了适应网上各种类型信息的发展变化,又出现了某些专业的主题指南,它由某一领域的专家编制和维护,在信息准确性和易于理解方面比综合性主题指南要好。2.独立型搜索引擎独立搜索引擎也叫关键词检索工具。这种搜索引擎实际上是定期搜索互联网(以WWW为主)并收集新网页信息的计算机程序。每个搜索引擎都有自己独有的搜索系统和一个包容互联网资源站点的独有数据库。其数据库由称为“Robots”(或Spiders、Crawler)的自动检索程序建立,不需人工干预。这是它与主题指南的最大区别。它具有检索面广、信息量大、信息更新速度快等优点,非常适用于特定主题词的检索。但因其检索噪音较大,为检索带来负面影响。3.混合式搜索引擎随着搜索引擎技术的不断发展,独立型搜索引擎多与主题指南合二为一,演化为兼具有分类浏览和关键词检索功能的混合式搜索引擎。混合式搜索引擎是目前占据搜索引擎主导地位的一种搜索引擎,具有分类浏览和关键词检索功能。4.元搜索引擎元搜索引擎(又称集成搜索引擎,MegaSearchEngine,MultipleSearchEnginge)是一种集成化搜索引擎,它是多个独立型搜索引擎的集合体。与独立搜索引擎的区别在于,元搜索引擎没有自己独立的数据库,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的甚至是同时利用多个搜索引擎实现检索操作。5.分布式搜索引擎分布式搜索引擎是基于搜索机器人的搜索引擎。其基本思想是:根据地域、主题、IP地址或其他的划分标准,将全网划分成若干自治域,在每个自治区内分设检索服务器。由于分布式搜索引擎将索引数据库划分到几个分散的数据库中,每个数据库变小了,但所有搜索引擎覆盖的范围则变大了,且很少有信息重复。而作为分布式系统特性之一的可扩充性也是分布式搜索引擎的优点之一。2.2.4中文搜索引擎的现状及发展1.中文搜索引擎发展现状
目前中文引擎共有约80多个,可以分为两类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎。内码问题:由于历史原因,目前世界上使用中文的国家与地区在中文语言的使用上有较大差别,体现在计算机处理上也有很大不同,其中最重要的区别是采用不同的字符集及内码体系。分词问题:西文单词用空格分隔相当清晰,而此法对中文的字词则行不通,因此就产生了不同的处理方法。一种是完全单汉字全文检索。另外一种即根据一定的原则和手段对文章进行自动分词,然后按词建库,对检索结果按词汇匹配进行查询。目前的中文搜索引擎还不能很好地解决中文名词分词这个难题,从而严重地影响搜索引擎的查准率。除了以上的两个原因之外,国内的搜索引擎技术与国外相比差距依然很大。目前国内搜索引擎能够检索2000万个网页,而国外能做到检索上亿个,其差距主要是在蜘蛛软件与搜索器的设计上,而国内能够研发大容量与大访问量的系统和软件方面的人才相当少。此外,国内有些中文网站的网页搜索服务长期外包给一些在境外的ASP服务器,这也是查询速度缓慢的原因之一。2.中文集成搜索引擎及特点单个的搜索引擎只能从数据库提取信息,具有很大的局限性。为用户创造更为便利的检索条件,必须发展性能更优越的新型引擎搜索技术,集成搜索引擎便应运而生。集成搜索引擎(meta-searchengine),也称元搜索引擎、多搜索引擎、索引搜索引擎等,是居于搜索引擎之上的搜索引擎。中文搜索引擎的发展方向就是在现有的搜索引擎的基础上运用和增设多元搜索。中文集成搜索引擎是将整个互联网作为一个超大型的动态数据库,并采用了一系列的优化运行机制,能够在尽可能短的时间内提供相对全面、准确的信息,即使不能完全满足用户需求,仍可以作为相对可靠的参考源进行扩展搜索,因此逐渐成为网络信息检索的首选入口。目前,有多家中文网站采用了集成搜索引擎,这些集成搜索引擎的突出特点是:智能化的中文语言处理技术大大提高了搜索的准确性与查全率;可扩展的搜索技术保证最快最多地收集网络信息,构建大规模索引库;高效的搜索算法和本地服务器保证最快的响应速度,一个检索的平均响应时间小于0.18秒;支持动态网页的检索。2.3常用中英文搜索引擎及检索策略2.3.1常用中文搜索引擎2.3.2常用英文搜索引擎2.3.3特殊的专门搜索引擎2.3.4网络信息检索策略2.3.1常用中文搜索引擎1.搜狐
搜狐(/)提供分类目录网站检索,搜集范围以中国为主,收录较丰富,还加入了部分英文网站,分类较科学,类目缜密。它也是第一个针对国内中文网页的搜索引擎,此外它还包括新闻信息、多媒体文件下载、网上调查、免费电子邮件等其他服务。图2-1是搜狐的主页。图2-1“搜狐”搜索引擎的主页2.新浪新浪(/)提供分类目录、网站检索以及全文检索,搜集范围遍及全球中文网站,收录非常丰富;分类规范,层次合理;全文检索为AltaVista、IPO提供支持;但复杂条件查询较弱;可提供热门关键词查询等新方式。图2-2是新浪的主页。图2-2“新浪”搜索引擎的主页3.网易网易(/)提供较丰富的分类目录、网站检索及FTP检索,范围以中国为主收录富,目录较严密;提供新闻等其他服务,网易主站另有“网站导航”栏目,分类列举推荐网站。图2-3是网易的主页。图2-3“网易”搜索引擎的主页4.263搜索263搜索(/)。属首都在线所有,提供分类目录和网站检索,资料较丰富,复杂条件查询功能强――可限制时间、语言(简、繁)、查询网站或提要等,并可直达所查到的网站;另提供新闻及检索等服务。图2-4是263的主页。图2-4“263”搜索引擎的主页5.其他中文搜索引擎天网(:8000/gbindex.htm)悠游(/)搜索客(/)常青藤(/)中国导航(/)“我是野虎”(/)若比邻(/)1608搜网(/)hi2000(/)2.3.2常用英文搜索引擎1.Yahoo!Yahoo!搜索引擎之王,是最早的目录索引之一,也是目前最重要的搜索服务网站,在全部互联网搜索应用中所占份额高达23%左右。其数据库中的注册网站无论是在形式上还是内容上质量都非常高。图2-5是YAHOO!的主页。图2-5YAHOO!的主页2.AltaVistaAltaVista是功能全面的搜索引擎,是最重要和功能最完善的搜索引擎之一,属于全文搜索引擎。提供常规搜索、高级搜索和主题搜索,主题包括图象(Images)、MP3/Audio&Video等。允许以25种不同的语言进行搜索,并提供英、法、德、意、葡萄牙、西班牙语双向翻译。其他特色服务包括重大新闻(发生于6小时至14天之间),新闻组及购物查询。图2-6是AltaVista的主页。图2-6AltaVista搜索引擎的主页3.ExciteExcite数据库中存有2.5亿张网页及媒体文件,并且检索Usenet新闻。此外还提供总数达15万种的主题分类查询(实际上是定制的关键词搜索)。提供常规及高级搜索。操作界面提供了11种语言供选择,此外还可以在国别列表中选定某个国家或地区,以及限定域名后缀(如“cn”或“tw”等)进行一定区域范围的搜索。Excite提供了很好的概念延伸查询,能列出比输入的关键词更具体的相关领域供用户选择查询。图2-7是excite主页。图2-7Excite搜索引擎的主页4.GoogleGoogle是现在非常流行的搜索引擎之一,它具有很多独特的优点。有关中文Google的使用方法将在本书第五章中介绍。图2-8Google搜索引擎的主页5.其他英文搜索引擎(1)LookSmart也是主要的目录索引之一,向包括MSN、AltaVista、Excite等在内的其他搜索引擎提供搜索内容。与ODP一样,其注册网站在合作伙伴搜索结果中排位往往也靠前。LookSmart在网站结构和内容上与其他目录索引大同小异,其目录中的网站排列也是根据字母顺序。它使用Inktomi的数据库提供二级网页搜索。图2-8是LOOKSMART搜索引擎的主页。图2-8LOOKSMART搜索引擎的主页(2)LYCOS搜索引擎中的元老,是最早提供信息搜索服务的网站之一。Lycos整合了搜索数据库、在线服务和其他互联网工具,提供网站评论、图象及包括MP3在内的压缩音频文件下载链接等等。提供常规及高级搜索。高级搜索提供多种选择定制搜索条件,并允许针对网页标题、地址进行检索。具有多语言搜索功能,共有25种语言供选择。首页下部显示部分OpenDirectory的目录索引。图2-9是LYCOS搜索引擎的主页。图2-9LYCOS搜索引擎的主页2.3.3特殊的专门搜索引擎1).tw:8080/news(新闻组搜索)2).tw/service/nslookup2.phtmlIP(地址查询)3).tw/cd/(古典CD搜索)4).tw/search/search/search.htm(世界歌手搜索)5).tw/search/(商业贸易搜索)6)/gb/(全球华人寻人)7)/chig/home.html?language=1(中华大黄页)2.3.4网络信息检索策略1.基本指导思想
要完成一个有效搜索,首先应当确定要搜索的是什么。当检索概念较泛,尚未形成一明确专指的检索概念时,可先用主题指南的合适类目进行逐级浏览,直到发现最相关的网址。如需进一步检索,再从这些网址中寻找合适的检索词,利用元搜索引擎或独立搜索进行缩检。当用户已知检索词,但对独立搜索引擎不熟悉或想节省在多个独立搜索引擎之间的转换时间,可选用元搜索引擎作试探性的起始检索,了解网上是否有相关信息以及在哪里可找到这些信息,然后再利用独立搜索引擎进行更全面、更深入的检索。2.查询策略不同目的的查询应使用不同的查询策略,这主要取决于是想得到一个问题的多方面信息还是简单的答案。要进行有效的搜索,最好输入与主题相关的、尽可能精确的词或词组。提供的词组越精确,检索结果就越好。同时,应通过不同词组的检索,逐渐缩小搜索范围。在使用搜索引擎时,掌握常用搜索引擎的特性,充分利用它们各自的优点,往往可以得到最佳及最快捷的查询结果。3.分步细化逐步接近查询结果如果我们想查找某一类信息但又找不到合适的关键词时,就可以使用分类式搜索逐步深化,这样也可以得到的较为满意的结果。4.模糊查询和精确查询模糊查询又称为智能查询。当我们输入一个关键词时,搜索引擎不但反馈包括了关键词的网址,同时也发来与关键词意义相近的内容。模糊查询往往反馈来大量不需要的信息,如果想精确地只查某一个关键词,则可以使用精确查询功能。精确查询一般是在文字框中输入关键词时,加一对双引号。用逻辑条件限制这一功能允许我们一次输入多个关键词,而且,各关键词之间的关系可以是“和”、“或”、“非”(and、or、not)等基本布尔操作符。图2-10扬子人才热线的模糊检索及相关符号使用说明5.网络信息检索的流程(1)基本检索途径:1)利用网页上列出的分类目录进行检索。2)利用关键词进行检索。3)利用机构检索网站。(2)条件检索1)简单条件检索。所谓简单条件检索,即用鼠标点选检索框下方所列出的几组简单的检索条件。2)区域条件检索。所谓区域条件检索,即在检索前选择一定的区域或条件。3)参数条件检索所谓参数条件线索,即由检索词与检索运算符组成检索表达式进行查询。检索运算符主要有:“+”:表示多个关键字间“逻辑与”的关系。“—”:表示多个关键字间“逻辑非”的关系。“”:表示多个关键字间或的关系。“*”:通配符。例如,输入:“上海*大学”,则检索结果包含符合“上海某某大学”的记录。在关键词前加“T:”:表示仅搜索网站、网页的名称。在关键词前加“U:”:表示仅搜索网站、网页的URL。(3)渐进检索1)基于目录的渐进检索。从搜索引擎网站主页选择类目进入,输入检索词后按“渐进”按钮,则检索范围即为“当前目录”而非“全部目录”。2)基于前次检索结果的渐进检索。即在前次查询结果的范围内,再进一步进行指定检索词的查询。在键入检索词后,按下“渐近”按钮即可。(4)高级检索1)同义词检索。同义词检索功能指系统会按你所输入的检索词及其同义词检索符合条件的记录。2)上位词检索。上位词检索功能指系统会按所输入的检索词或其上位词进行检索符合条件的记录。2.4网上多媒体信息检索系统目前的多媒体信息检索水平还很低,还脱离不了文字检索的查询功能都很强,但检索图像和声音仍然固定思路。尽管现在的全文检索和结构化受到很大限制。在这种情况下,就需要开发专门的图像和声音的检索系统。由于信息网络化、资源多媒体化日渐深入的原因,网络检索新技术的研究和应用也日新月异,必将极大地促进网络多媒体信息检索技术的发展。2.5经济信息检索系统2.5.1我国经济信息网络化的现状2.5.2经济信息数据库移植上网2.5.1我国经济信息网络化的现状1997年以来,我国经济信息网的发展表现出以下特点:1)经济信息网数量多。2)覆盖面广。首先是地域覆盖面广,其次是行业覆盖面广。3)类型多样。我国现已建成并开始提供服务的经济信息网既有综合性的又有专业性的,既有公益性的又有商业性的,既有提供一次经济信息服务的又有提供信息分析预测服务的。2.5.2经济信息数据库移植上网20世纪90年代,我国开展了以数据库为重点的信息资源调查,结果表明我国当时已有1038个自建的数据库,其中经济类数据库297个,数据库在数量、质量、容量等各方面指标较以往有了长足的进步。随着Internet的发展与应用,我国的经济信息数据库才开始纷纷移植上网,开展联机服务等。这在一定程度上,克服了光盘检索的不足,扩大了数据库的规模及服务范围,使经济信息共享更加充分。Internet丰富的信息资源,快捷的信息传播以及庞大的用户群,也给企业提供了无限商机。企业利用网络搜集并发布经济信息,能使企业在市场上获得更多的有效信息以及更大的主动性等,因此,有战略眼光的企业纷纷在网上建立自己的站点,宣传本企业的文化形象,提高企业的知名度。虽然我国经济信息网数量多、规模和内容的侧重点也各不相同,但却存在信息交叉重复的问题,给经济信息的查询与利用造成了不少障碍。因此,建立界面友好、检索方便、内容详尽准确的我国的网络化经济信息导航系统迫在眉睫。这类网站的建立可以大大提高我国网络化经济信息资源的利用效率,也为我国下一步经济信息网络化的发展提供可靠动力。2.6互联网科技信息资源检索类型2.6.1国外科技资源站点2.6.2国内科技资源站点2.6.1国外科技资源站点1.Clearinghause互联网学科资源指南Clearinghause的互联网学科资源指南是美国密执根大学图书馆和情报学院(SILS)联合提供的服务,它收集和整理了互联网上的科技资源和信息,并按学科分类向用户提供各种资源的指南。该指南的URL地址是:Gopher:gopher:///1/inetdirs
路径为Guides
On
the
scienceWWW:/lou.chome.html该指南所包括的学科分为人文科学、社会科学和自然科学3大类,指南信息来源于互联网用户以及SILS参加“发掘互联网资源”研究项目的学生。2.OCLC(OnlineComputerLibraryCenter,联机计算机图书馆中心)OCLC(/)是一个非营利的成员组织,其存在的目的是为了促进世界各地成千上万所图书馆和信息中心的合作,并存取全世界的信息。OCLC是世界上最大的图书馆及信息中心,拥有世界上最大的书目数据库,提供文献记录和馆藏地点信息,以帮助数万家OCLC用户更好地进行联合编目和资源共享。3.美国专利书目数据库SPIE(USPatentBibliographicDataBase)的InCite数据库SPIE的InCite数据库(/)收集了20世纪90年代SPIE(包括期刊、会议两部分)的论文和文摘,数据量超过9万条。4.科学引文索引科学引文索引(/)是美国科学情报研究所出版的《科学引文索引(SCI)》(ScienceCitationIndex)的网站,对世界上的3300多种学科的著名科学以及技术期刊上的论文进行了收录,是检索某个作者的论文被其他论文引用情况的一种重要索引。并且某篇论文被别人引用的次数的多少以及能否被SCI收录,已被公认为评价该论文学术水平高低的一个指标。2.6.2国内科技资源站点1.中国科技信息网(CSTNet)
中国科技网的服务(/)主要包括网络通信服务、域名注册服务、信息资源服务和超级计算服务。中国科技网的科技信息资源有科学数据库、中国科普博览、科技成果、科技管理、技术资料、农业资源和文献情报等,总数据量达数百GB(1GB=1024MB)可以向国内外用户提供各种科技信息服务。第三章网络信息处理技术3.1信息网络的技术特征3.2网络信息获取技术3.3网络信息推送技术3.4数据挖掘技术3.1信息网络的技术特征3.1.1网络的技术构成3.1.2网络信息文化是多种技术的汇集3.1.3信息在网络中的运作方式3.1.1网络的技术构成计算机网络技术是通信技术与计算机技术、微电子技术、光通信技术等相结合的信息技术,它包含计算机网络中的语言、计算机网络体系结构等几个方面。1.计算机网络中的语言通信是在人们之间传递消息,一次通信要3个因素:通信双方有通信的愿望和要求;通信双方之间有通信的信道;通信双方遵循彼此认可的通信规则,即通信协议或网络协议。网络协议作为计算机之间通信的规范也有3个要素:语法,即信息格式;语义,某些信息组合的含义;同步,即收、发双方能分辨出通信的开始和结束。2.计算机网络体系结构一个复杂的系统往往划分为若干个层次,每个层次独立地实现相应的功能,层与层之间有接口衔接,通过接口传递参数,下层为上层提供服务,从而完成复杂的功能,通信系统也不例外。以两个人之间的自然语言通信为例,可以认为分为3个层次:
1)传输层。2)语言层。3)知识层。网络体系结构采用层次结构,TCP/IP网络体系结构就是层次结构,分为4个层次,网络接口层(NetworkInterfaceLayer)、网络层(InternetLayer)、传输层(TransportLayer)和应用层(ApplicationLayer)。网络接口层用于控制对本地局域网或广域网的访问;网络层负责解决一台计算机通过网络到另一台计算机的通信问题;传输层负责端到端的通信;应用层包括若干网络应用程序。3.本书涉及到的计算机网络术语1)IIS(InternetInformationServer):互联网信息服务2)ISP(InternetServiceProvider):互联网服务供应商3)RFC(RequestFileComment):征求意见稿(评注)4)IAB(InternetActivitiesBoard):Internet工作委员会5)GII(GlobalInformationInterconnection):全球信息互连网络6)电子邮件(E-mail):通过计算机网络发送和接收电子邮件7)页面(page)和主页(homepage):WWW是由庞大的、世界范围的文档集合组成,这些文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 60747-15:2024 RLV EN Semiconductor devices - Part 15: Discrete devices - Isolated power semiconductor devices
- 2024年大学学生会工作总结参考模板(三篇)
- 2024年小学数学教研工作计划(三篇)
- 2024年学校交通安全管理制度(四篇)
- 2024年商铺门面租赁合同标准样本(二篇)
- 2024年大学班主任新学期工作计划(二篇)
- 【《房屋建筑工程施工现场进度及质量管理探究》2800字】
- 【《J信托公司X房地产信托情况及项目风险现状探析》11000字(论文)】
- 2024年学校安全上墙制度样本(二篇)
- 2024年学期工作总结参考范本(二篇)
- 绵阳市高中2022级(2025届)高三第一次诊断性考试(一诊)地理试卷
- 四川省成都2023-2024学年高二上学期期中物理试题(含答案)
- 中国港口行业投资前景分析及未来发展趋势研究报告(智研咨询发布)
- 湘文艺版八年级音乐下册第4单元《红旗颂》教学设计
- 广东省广州市天河区2023-2024学年高一上学期11月期中考试化学试题
- 海尔智家财务报表分析报告
- 2024-2030年中国泳装(泳装)行业市场发展趋势与前景展望战略分析报告
- 国开2024年秋《生产与运作管理》形成性考核1-4答案
- 临床病理诊断报告管理制度
- CATTI汉英词汇手册
- 《无人机法律法规知识》课件-第1章 民用航空法概述
评论
0/150
提交评论