信息检索原理_第1页
信息检索原理_第2页
信息检索原理_第3页
信息检索原理_第4页
信息检索原理_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索原理信息与信息源在人类社会的演变和发展过程中,人类的信息活动从来没有间断过,信息一直在积极地发挥着人类意识到或没有意识到的重要作用。20世纪以来,随着科学技术的空前进步,信息、物质和能量已构成现代社会文明的三大支柱。我们随时随地都在自觉不自觉地接受、传递、存储和利用各种信息,毫无疑问,人类已经进入信息时代。为了提高大学生的全面素质以适应信息时代的要求,许多国家将信息素养(InformationLiteracy)教育作为培养新世纪人才的重要内容,而信息检索课则是实施信息素养教育的必修课程,其目的是培养学生的信息意识、信息检索能力、信息吸收能力和信息整合能力,最终提高学生的信息利用能力和知识创新能力。一、信息概述(一)信息的含义早在古代,人类就已经认识到信息是可以寻觅和获取的。这从我国的文学作品中可见一斑。比如,南唐诗人李中曾在《暮春怀古人》中写下“梦断美人沉信息,目穿长路倚楼台”[1]的佳句;唐朝诗人许浑也在《寄远》中喟叹“塞外音书无信息,道傍车马起尘埃”[2]。这里的“信息”指消息和音讯。不过,科学家将信息作为一门严密的科学来研究,已经是20世纪了。这主要归功于信息论的奠基人、美国数学家克劳德•香农(ClaudeE.Shannon),他1948年发表的貌岸然《通信的数学理论》一文轰动全球。香农指出“信息是用来消除不确定性的东西”[3]。也就是说,信宿(信息接受方)未收到消息前不知道信源(信息产生方)发出什么信息,只有在收到消息后才能消除信源的不确定性。如果没有干扰,信宿得到的信息量与信源的不确定性相等。简单地说,信息是指有新内容、新知识的消息。消息是信息的载体,其形式是具体的,如语言、文字、图像等,而信息是指包含在具体消息中的抽象内容。在接受者看来,信息必须是事先不知道其内容的新消息。信息的这一定义用在信息科学的通信领域是恰当的,但它没有体现出信息的本质特征。控制论的创始人、美国科学家维纳(N.Wiener)对信息的含义做了进一步的阐述。也在《控制论》一书中表明:“信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容的名称”[4]。维纳的信息概念是从信息在发送、传输和接收的过程中,客体和接收(认识)主体之间的相互作用来定义的。显然,维纳把人与外部环境交换信息的过程看作是一种广义的通信过程。由上可见,在通信领域对信息的研究取得了重大进展。但是随着科技的发展和计算机的出现,信息的概念也在不断地拓展与丰富。笔者在比较了中外众多的信息定义后,倾向于中国学者钟义信对信息的解释:信息是事物运动的状态与方式,是物质的一种属性[5]。在这里,“事物”泛指一切可能的研究对象,包括外部世界的物质客体,也包括主观世界的精神现象;“运动”泛指一切意义上的变化,包括机械运动、化学运动、思维运动和社会运动;“运动方式”是指事物运动在时间上所呈现的过程和规律“;运动状态”则是事物运动在空间上所展示的形状与态势。钟义信认为信息不同于消息,消息只是信息的外壳,信息则是消息的内核;信息不同于信号,信号是信息的载体,信息则是信号所载荷的内容;信息不同于数据,数据是记录信息的一种形式,同样的信息也可以用文字或图像来表述;信息也不同于情报和知识。该定义具有极大的普遍性,我们称其为本体论层次的信息。它不仅能涵盖其也的信息定义,还可以通过引入约束条件转换为其也的信息定义。例如,引入认识主体这一约束条件,可以转化为认识论意义上的信息定义,即信息是认识主体所感知或所表述的事物运动的状态与方式。这个定义告诉我们,信息必须通过主体的主观认知才能被反映和揭示。这一概念比本体论层次的概念具有更为丰富的内涵,因为人们只有感知事物存在的方式和运动状态,才能真正掌握并利用该事物的信息。引入的约束条件越多,信息的内涵就越丰富,适用范围也越小,由此构成相互间有一定联系的信息概念体系。对本书的读者而言,更具有意义的应是认识论层次上的信息定义。它的引入告诉我们,若要获取和利用信息,必须具备对信息的认识能力,其中包括信息意识、信息查找技能和信息的分析评价能力等。(二)信息的特征通过对信息含义的阐述与分析,我们不难总结出信息具有以下几个特征。1.客观性信息不是虚无缥缈的事物,它的存在可以被人们感知、获取、传递和利用。信息是现实世界中各种事物运动与状态的反映,其存在是不以人的意志为转移的。客观、真实是信息的最重要的本质特征。2.时效性由于事物是在不断变化着的,那么表征事物存在方式和运动状态的信息也必然会随之改变。在现代社会中,信息的使用周期越来越短,信息的价值实现取决于对其及时地把握和运用。如果不能及时地利用最新信息,信息的价值就会贬值甚至毫无价值,这就是信息的时效性,即时间与效能的统一性。它既表明了信息的时间价值,也表明了信息的经济价值。3.载体性信息必须依附于一定的载体(如声波、电磁波、纸张、化学材料、磁性材料等)才能流通和传递,否则,信息的价值就不能体现。信息可以存储在不同的载体上,但其内容并不因记录手段或物质载体的改变而发生变化。例如关于筑路机械的信息,不论是刊登在报刊上、发布在电视节目中还是存储在光盘数据库中,其信息内容和价值是同样的。4.传递性信息依附于一定的物质载体后,其传递和流通便成为可能。信息的传递性是指信息从信源出发,经过信息载体的传递被信宿接收并进行处理和利用的特性。不同载体的信息可以通过计算机、人际交流、文献交流或大众传媒等手段传递给信息用户,这种跨越时空的传递特性是实现信息资源共享的基础,是将信息最大化利用的保证。5.可塑性信息在流通和使用过程中,人们借助于先进的技术,可以对其进行综合、分析及加工处理。也就是把信息从一种形式变换成另一种形式,如可以将一本图书加工为题录或文摘等形式,从而方便用户的选择和利用。不过,在信息的加工过程中,信息量会减少或增加。用户可根据检索需要选择不同的信息形式。6.共享性共享性是指同一信息同时或不同时被多个用户使用,而信息的提供者并不因此而失去信息内容和信息量。信息的共享性可以提高信息的利用率,人们可以利用他人的研究成果进一步创造,避免重复研究,节约资源。二、信息源信息广泛存在于自然界、生物界和人类社会。随着科学技术的进步,信息的表现形式呈多样化态势,了解信息的不同形式不仅有助于我们加深对信息内涵及其特征的认识,也为利用信息打下了坚实的基础。信息的载体形式信息可通过不同的手段记录存储在不同的载体中,其载体形式可分为印刷型、缩微型、声像型及电子型信息。仁印刷型信息(PrintedForm)印刷型信息又称书本型信息。它是以纸张为载体、以印刷为记录手段而产生的一种传统的信息形式,如图书、期刊、报纸、印刷型的检索工具等。其优点是便于阅读和流通,符合人们的阅读习惯。缺点是存储密度低,收藏和管理需要较大的空间和人力。2.缩微型信息(Microforms)为了弥补印刷型信息的不足,缩微型信息应运而生。它是一种以缩微胶片或平片为载体,利用缩微摄影技术为记录手段而产生的信息形式。随着激光和全息摄影技术的应用又出现了超级缩微胶片和特级缩微胶片,一张全息胶片可存储20万页文献。其优点是体积小、存储密度高、保存期长、便于收藏和管理。缺点是必须借助缩微阅读机才能阅读。声像型信息(Audio-visualForm)声像型信息又称视听资料。这是一种以磁性和感光材料为存储介质,借助特殊的机械装置直接把图像和声音记录下来的一种信息形式。主要载体有录音带、唱片、激光唱盘、录像带、电影胶片、幻灯片等。其优点是既能闻其声又能观其像,直观、亲切,表现力强。与印刷型信息相比,声像型信息更能提高人们理解信息的能力。电子型信息(ElectronicForm)电子型信息是指以数字代码方式将图、文、声、像等信息存储到磁、光、电介质上并通过计算机阅读的信息。如各种电子图书、电子期刊、联机数据库、网络数据库、网络新闻、光盘数据库等。该类信息在计算机与网络技术的支持下,通过编码和程序设计,将信息变为数字语言和机器语言并存储在磁带、光盘、磁盘等介质上,从而建立起相应的文献数据库。其特点是存储量大,出版周期短,传递迅速,存取速度快,可以融文本图像、声音等多媒体信息于一体,易复制,共享性好。随着计算机技术与通信技术的发展与融合,又产生了一种新型载体的文献信息源,这就是多媒体型(Multi-media)信息。多媒体即多种信息媒体,它采用计算机、通信、数字、超文本(Hypertext)或超媒体(Hypermedia)技术,不仅实现了文字、图像、动画、声音等的多位一体及人机交互对话,而且使全球信息共享成为可能。多媒体型的文献信息源实际上是以上数种载体形式的混合型,是一种立体式的信息源。信息的级别由于信息出版量的急剧增长,再加上信息类型的多样化和信息分布的离散状态等因素,信息用户要想准确而快捷地从大量无序的原始信息中获取相关信息就如同大海捞针一样困难。我们知道,信息具有“可塑性”,为了便于人们利用信息,信息工作者将信息加工处理为不同的等级,如图1-1所示。图1-1信息级别示意图1次信息(PrimarySources)一次信息又称原始信息。它是指以著者本人的研究成果为依据撰写并公开发表或出版的信息。主要包括专著、期刊论文、科技报告、会议论文、专利说明书、学位论文等。一次信息是检索的主要对象。信息检索的最终目的就是查找到最适用的一次信息。二次信息(SecondarySources)一次信息的数量极为庞大,在内容上是分散的、无系统的,也就是“无序”的,不便于管理和利用。为了方便用户选择和利用,信息工作者对一次信息进行再加工,通过整理、提炼和浓缩,并按其外部特征(如题名、著者等)或内容特征(如分类号、主题词等)将其“有序化”,形成另一类新的信息形式,如印刷型的目录、索引、文摘、题录或电子型的书目数据库、文摘数据库及题录数据库等就属于二次信息。通过阅读二次信息可以快速地了解一次信息的大致内容,选择并查找所需的一次信息。信息检索主要讲述的就是二次信息的编排体系和使用方法。三次信息(TertiarySources)利用二次信息,选择有关的一次信息加以分析、综合而编纂出的第三层次的信息形式为三次信息,如专题报告、综述,以及词典、手册、百科全书、年鉴等工具书。三次信息具有系统性、综合性、知识性和概括性的特点,因此,要在浩瀚的信息中查找所需的特定的一次信息,往往离不开二次和三次信息。信息的出版形式根据出版形式的不同,信息可以划分为以下类型。1.图书(Book)图书是历史最悠久、最传统的信息类型。其内容是总结性的,具有全面、系统、成熟的特点,但出版周期长,传递信息的速度较慢,老化速度快。近年来增长迅速的电子图书可在一定程度上弥补印刷型图书的不足。期刊(Periodical)期刊比图书的出版周期短,刊载文献速度快、数量多、内容新,能及时反映某一研究领域的学术发展水平,所以很受用户的重视。随着电子信息资源的大量涌现,信息用户将主要通过期刊全文数据库实现检索目的。会议论文(ConfereneePaper)会议论文又称会议文献。它是将学术会议或专业会议上交流的论文编辑出版的信息。会议论文内容新颖、专业性和针对性强,传递信息迅速,能及时反映某个专业领域的研究水平和动向,是了解学科发展的一种重要的信息源。但不经出版者公开发行的会议文献一般难以获得。专利文献(PatentDocument)专利文献又称专利说明书,是一种集经济、技术与法律为一体的信息形式。它是专利申请人向专利机构提交的说明该项发明的目的、优点、技术原理和专利权限的书面文件。也就是说,专利文献是发明的书面形式。一项新的专利代表着一个科研领域的最高水平。毋庸置疑,专利说明书包含了丰富的技术情报,有极高的含金量。据统计表明,全世界新技术的90%〜95%是通过专利文献公布于世的[6。专利说明书主要由专利文献馆和省级以上科技信息所收藏。5.科技报告(Sci-TechReport)科技报告又称为技术报告、研究报告。有些科技报告是由政府部门出版的,所以也称之为政府报告。技术报告是记录研究工作和开发调查工作的成果或进展情况的一种信息类型。科技报告的内容新颖、详尽、专深,出版及时,报道科技成果的速度要快于期刊及其他文献。大部分科技报告是保密或控制发行的,只有少数可以公开或半公开发表,不易获取原文,因此它又被称之为“灰色文献(GreyDocument)”。最著名的科技报告是美国的四大报告:(1)PB报告(土木建筑、城市规划、环境污染、生物医学等);(2)AD报告(军事、航空航天、物理、材料工程技术等;)(3)NASA报告:航空和空间科学等);:4)DOE报告:能源保护、矿物燃料、核能、太阳能等)在我国,国家图书馆、上海图书馆、中国科技信息研究所和国防科技信息研究所等收藏有较全面的科技报告。6.标准(Standard)标准主要指技术标准,是对各种产品、元件、工程建设质量、规格、检验方法等作业的技术规定,具有约束性、时效性和针对性,是各类生产建设工作的共同依据。标准对于产品更新换代、工艺水平的改进、产品质量的提高以及市场竞争力的加强,可以起到非常重要的作用。中国标准化综合研究所标准馆、省级技术监督部门的文献馆、科技信息所以及图书馆收藏有标准文献。7.学位论文(Dissertation)学位论文是高等学校或研究机构的学生为获得某种学位而撰写的科学论文。一般指学士论文、硕士论文和博士论文。不过学位论文的质量参差不齐,其中,博士论文的参考价值较大。学位论文一般不出版发行,通常只在学位授予单位的图书馆和按国家规定接受呈缴本的国家版本图书馆保存有副本。8技术档案(TechnicalRecords)技术档案是在技术活动中形成的,是某个工程对象的技术文件、图样、图表、照片或原始记录等。其内容真实、详尽,准确可靠,是科研和生产建设工作的重要依据。它可以重复实践或改进后重复实践,而且具有明显的保密性,具有很大参考价值。国家级和省级的档案馆是保存档案的重要场所。除以上介绍的信息类型外,信息的出版形式还包括产品资料、报纸、计算机软件等。第二节信息检索原理一、信息检索的含义“检索(Retrieval)”即“查找”之意。广义的“信息检索(InformationRetrieval)”包括信息的存储过程和查找过程,而狭义的信息检索仅指信息的查找。

我们可以这样定义“信息检索”:从信息集合中迅速、准确地查找出所需信息的程序和方法。这里所说的信息集合指的是有组织的信息整体。它可以是数据库的全部记录,也可以是某种检索工具,还可以是某个图书馆的全部馆藏。信息检索也就是从数据库、检索工具以及馆藏中查找所需信息的活动。二、信息检索原理广义的信息检索包括信息的存储和检索两个过程。信息的存储就是将搜集到的一次信息,经过著录其特征(如题名、著者、主题词、分类号等)而形成款目,并将这些款目组织起来成为二次信息的过程。信息的检索是针对已存储好的二次信息库进行的,是存储的逆过程。存储是为了检索,而为了快速而有效地检索,就必须存储。没有存储检索就无从谈起。这是存储与检索相辅相成、相互依存的辩证关系。然而,由于职业、知识水平、个人素质甚至习惯等因素的差异,信息存储人员(标引者)与信息检索用户(检索者)对同一信息的分析、理解也会存在不同。比如《计算机在生物化学中的应用》一文,标引者可能将其归入“生物化学”类,而检索者则可能在计算机”类查找该文。这样,标引者与检索者之间发生了标引错位,存储的信息就无法检索到。怎样才能保证信息存得进又取得出呢?那就是存储与检索所依据的规则必须一致也,就是说,标引者与检索者必须遵守相同的标引规则。这样,无论什么样的标引者,对同一篇文献的标引结果一致,不论是谁来检索,都能查到这篇文献。信息存储与检索共同遵循的规则称之为信息检索语言(详见第二章)。只要标引者和检索者用同一种检索语言来标引要存入的信息特征和要查找的检索提问,使它们变成一致的标识形式,信息的存储过程与检索过程就具备了相符性。相应地,存入的文献也就可以通过信息检索工具(系统)检索出来。如果检索失败了,那么就要分析一下检索提问是否确切地描述了待查课题的主题概念?在利用检索语言标引时是否出了差错,从而导致检索提问标识错误?只有检索提问标识和信息特征标识一致时,相关的文献才能被检索出来。信息检索正是以信息的存储与检索之间的相符性为基础的,如图1-2所示。如果两个过程不能相符,那么信息检索就失去了基础。检索不到所需的信息,存储也就失去了意义。存储过斤检索过程图1-2存储过斤检索过程图1-2信息检索原理图三、信息检索类型掌握了信息检索的原理,就有必要了解信息检索的类型。按照不同的标准,信息检索可划分为不同的类型,其特点也各自不同。(一)依检索内容划分1.文献信息检索(DocumentRetrieval)凡是利用目录、文摘或索引等二次信息查找某一课题、某一著者、某一地域、某一机构、某一事物的有关信息以及这些信息的出处和收藏单位等,都属于文献信息检索范畴。其检索的结果是文献信息。例如,“设计人行天桥的参考文献有哪些?”便属于该类命题。数据信息检索(DataRetrieval)凡是利用参考工具书、数据库等检索工具检索包含在文献中的某一数据、参数、公式或化学分子式等,统称为数据信息检索。其检索结果为数据信息。例如,“某一新型载货汽车的载重量是多少?百公里油耗是多少?”就属于数据检索。事实信息检索(FactRetrieval)凡是利用百科全书等检索工具从存储事实的信息系统中查找出特定事实的过程称为事实信息检索。其检索结果是基本事实。例如,“世界上最长的斜拉桥是哪座?该桥位于什么地方?何时建成?”等。文献信息检索是一种相关性的检索,检索的结果是文献线索,还必须进一步查找才能检索到有关的一次信息;数据与事实信息检索是一种确定性检索,检索的结果是可供用户直接利用的信息。一般情况下,文献信息检索通过二次信息来实现,而数据与事实信息检索则通过三次信息来完成。(二)依信息存储和检索的方式和技术划分1.手工检索(ManualRetrieval)手工检索简称“手检”,是指人们通过手工的方式来存储和检索信息。其使用的检索工具主要是书本型、卡片式的信息系统,即目录、索引、文摘和各类工具书。检索过程是由人工以手工的方式完成的。2.计算机检索(Computer-basedRetrieval)计算机检索简称“机检”,是指人们利用数据库、计算机软件技术、计算机网络以及通信系统进行的信息存储和检索,其检索过程是在人机的协同作用下完成的。计算机会从其存储的大量数据中自动分拣出与用户提问相匹配的信息,而用户则是整个检索方案的设计者和操纵者。其检索的本质没有发生变化,发生变化的只是信息的载体形式、检索手段、存储方式和匹配方法。计算机的产生使信息检索发生了革命性的变化,大大提高了信息的处理和检索能力。不过计算机检索有很强的技巧性,用户需要具备一定的“机检”知识(详见第六篇)。四、信息检索的意义信息检索的作用与意义主要体现在以下三方面。(一)避免重复研究或走弯路

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论