信息检索 第一讲 信息概述_第1页
信息检索 第一讲 信息概述_第2页
信息检索 第一讲 信息概述_第3页
信息检索 第一讲 信息概述_第4页
信息检索 第一讲 信息概述_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论一、信息的定义二、信息的分类三、信息的特征一、信息的定义某海军陆战队在原始森林进行为时一个月左右的生存实验,具体要求如下:第一,每个队员除了身上穿的衣服外,随身只能带三件物品,每件物品不能超过二公斤;第二,队员都是由飞机空降到半径为1000公里原始森林的中心地带,要求在一个月时间内从森林里走出来。问题:队员带哪三件物品合适?理想的答案:钢刀、火石、指南针。钢刀能获取猎物;火石可以取火;指南针可以指明方向。人类要在世界上生存与发展要获取物质、能量、信息三大要素。对于物质、能量大家比较好理解,对于但是对于信息与人类的关系,大家就比较难解了。上面例子中的“指南针”就是我们获取信息的一种工具,有了它,陆战队员们就可以用它获取走出原始森林的方向,没有它,可能一辈子都走出原始森林。而指南针向指的方向就是一种信息,即方向信息和方位信息。冰消雪融、草木发芽,是自然带给我们季节变换的信息;新闻报道、商品广告,这是社会带给我们的信息;闹钟的铃声把我们从睡梦中叫醒,这是生活中的信息。我们无时无刻地与信息有联系。生活充满了信息。听课、看书读报、看电视、听广播、我们接受信息,同时我们点头、摆手、跺脚、摸鼻子、说、唱等,一举一动都在发出或传递信息。人与人间传递信息可通过:肢体语言、口头语言、书面语言等。综上所述:信息无处不在,无时不有,无人不用。信息就在你边,今天已成为使用频率最高的词汇之一!那么信息到底什么是呢?它的定义是什么呢?一、信息的定义古今中外许多学者都对信息概念和定义进行了科学的探讨。但是,对于信息是什么,对于信息的概念和定义的解释,至今仍是众说纷纭、莫衷一是。据不完全统计,信息的定义有100多种。下面我们看看钟义信、香农、维纳等对信息的定义:钟义信介绍

1940年2月出生江西龙南人

1962年北邮无线电通信专业毕业

1965年北邮信息论专业研究生毕业

1979年至1981年英国伦敦大学帝国理工学院访问学者,现为北京邮电大学副校长、教授、博士生导师、校学术委员会主席

主要研究领域:通信理论、信息理论、信息科学、人工智能神经网络、决策科学、信息经济学

播种信息学的人—钟义信主要学术成果:

《信息科学原理》(1996)

《信息技术通论》(1994)《智能理论与技术—人工智能与神经网络》(1992)

《伪随机编码通信原理与应用》(1978)。在其研究领域内,先后出版学术著作16部。在国内外学术刊物和学术会议上发表学术论文380多篇。具有重要创新意义的学术贡献主要包括:“全信息理论”,“意识机模型”,“信息科学原理与方法论”,“信息基础结构理论模型”。

返回香农数学家、科学家香农1916年生于美国,信息论创始人。1940年获得麻省理工学院数学博士学位和电子工程硕士学位位。1941年起,他加入了贝尔实验室数学部,1956年之后,香农博士被聘为著名的麻省理工学院的教授。2001去世,享年84岁。香农的大部分时间是在贝尔实验室和MIT(麻省理工学院)度过的。他的两大贡献:一是信息理论、信息熵的概念;另一是符号逻辑和开关理论信息论之父—香农(申农)返回(一)信息的定义维纳维纳(1894—1964)1894年生于的哥伦比亚。维纳的父亲是语言学家,又有很高的数学天赋。维纳是一个名符其实的神童:他三岁能读会写,13岁就会好几种语言,十四岁毕业于塔夫茨学院,十八岁获得哈佛大学的科学博士学位。1948年发表了代表作《控制论》,标志着这门学科的正式诞生。控制论的创始人-维纳

维纳在其50年的科学生涯中,先后涉足哲学、数学、物理学和工程学,最后转向生物学,在各个领域中都取得了丰硕成果,称得上是恩格斯颂扬过的、本世纪多才多艺和学识渊博的科学巨人。他一生发表论文240多篇,著作14本。他的主要著作有《控制论》(1948)、《维纳选集》(1964)和《维纳数学论文集》(1980)。维纳还有两本自传《昔日神童》和《我是一个数学家》。他的主要成果建立维纳测度、阐述位势理论、开创维纳信息论、创立控制论等八个方面。数学神童维纳的年龄

你今年多大啊?我今年岁数的立方是个四位数,岁数的四次方是个六位数,这两个数,刚好把十个数字0、1、2、3、4、5、6、7、8、9全都用上了,不重不漏……?其实这个问题不难解答,但是需要一点数字“灵感”。不难发现,21的立方是四位数,而22的立方已经是五位数了,所以维纳的年龄最多是21岁;同样道理,18的四次方是六位数,而17的四次方则是五位数了,所以维纳的年龄至少是18岁。这样,维纳的年龄只可能是18、19、20、21这四个数中的一个。

剩下的工作就是“一一筛选”了。20的立方是8000,有3个重复数字0,不合题意。同理,19的四次方等于130321,21的四次方等于194481,都不合题意。最后只剩下一个18,是不是正确答案呢?验算一下,18的立方等于5832,四次方等于104976,恰好“不重不漏”地用完了十个阿拉伯数字,多么完美的组合!

返回钟义信的描述:信息是事物运动的状态与形式,是事物的一种属性

。香农博士的描述:信息是熵的减少。信息是用以消除随机不确定性的东西。著名的美国数学家、控制论创始人之一维纳的描述:信息就是信息,既不是物质也不是能量

一、信息的定义信息定义之所以呈现多样化,主要有

三个方面的原因

第一,信息本身的复杂性,它是一个多元化、多层次、多功能的综合物;第二,信息科学是一门新兴科学,它的许多分支学科仍在随着社会、经济和科学技术的发展而发展,其内涵和外延不很明确;第三,人们出于不同的研究和使用目的,从不同的角度或层次出发,对信息概念就会作出不同的解释。信息的定义结合信息检索的特点,我们认为信息的含义有广义和狭义之分。广义的信息狭义的信息自然界和一切人类活动所传达出来的信号和消息,是事物表现的一种普遍形式经过搜集、记录、处理和存储的可供检索的文献、数据和事实。

另外,对于信息概念的认识,我们还可以从以下几个方面来理解:(1)信息是使人们对事物不确定性的减少或消除的东西;(2)信息是与外界相互交换的内容;(3)信息是事物变化和差异的表现;(4)信息是系统的组织程度和有序程度的结合。

二、信息的分类信息源随着科学技术的发展,(文献)信息源的表现形式呈现多样化态势。了解信息源的不同形式,有助于加深对信息内涵及其特征的认识,为信息的利用打下坚实的基础。信息源划分示意图记录型实物型零次智力型载体形式处理级别印刷型

缩微型

声像型

电子型一次信息

二次信息

三次信息编辑出版形式图书期刊

报纸

专利文献会议文献科技报告学位论文标准文献技术档案产品资料信息源从不同层面、不同角度、不同学科领域出发,根据不同的分类标准,可以对信息的类型进行不同的划分。1.基于广义信息概念的信息分类:(1)按信息产生的客体:自然信息、社会信息、生物信息;(2)按信息的运动状态:自在信息、自为信息、再生信息;(1)按信息产生的客体分类自然信息:是自然界中的事物变化、特征以及事物之间的内在关系的反映,如自然景观等。生物信息:生物体中包含的全部信息,如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。社会信息:指人类在社会实践活动中,为生存、生产和社会发展而产生、处理和利用的信息,是人类对外界事物的反映、人的思想和情感、人与人之间的联系等。一般情况下,我们说的信息更多的是指社会信息;(2)按信息的运动状态分类自在信息:指没有进入人的认识领域,未被反映和把握的纯自然状态信息;自为信息:指人这个认识主体所感知的信息,是已被把握的自在信息;再生信息:主体对自在信息经过加工制作后向外界输出的信息,是主体反映客体而形成的观念性信息和思维信息。2.基于狭义信息概念的信息分类(1)按信息的载体形式:印刷型信息、缩微型信息、视听型信息、机读(电子)型信息;(2)按信息的加工处理程度:零次信息、一次信息、二次信息、三次信息;2.基于狭义信息概念的信息分类(3)按信息的出版形式:常见文献信息(如图书、期刊、报纸)、特种文献信息(如会议文献、学位论文、专利文献等)。(4)按信息内容:经济信息、科技信息、政务信息、文化信息、教育信息、军事信息、生物信息等;(1)按信息的载体形式分类印刷型即书本型,也称纸介型是一种以纸介质为载体、以书写或印刷方式为记录手段而形成的文献类型。它是一种技术含量低、对个人使用相当方便的一种文献,人们对它司空见惯,是最常用的一种文献载体。上千年来它在人类的阅读、信息的流通中功不可没。

优点:缺点:

易携带性信息密度低易阅读性容量小易标记体积庞大个人可支付占有大量存储空间可存档不易长久保存可占有可保存微缩型,以光学材料和技术生成的文献形式,经历了一百多年的历史。在全息照相技术出现之前,一般只是将文字、图象等信息符号进行一种等比的缩放。缩微媒体还可作为计算机数据的存取载体,分别有输入胶卷和输出胶卷。缩微图象可复制,传送设备能将扫描的缩微图象在异地的打印机或传真机等设备上输出。缩微型资料本身的数字化被认为是一种趋势。(1)按信息的载体形式分类声像型,也称视听型,它使用电、磁、声、光等原理、技术将知识、信息表现为声音、图象、动画、视频等信号,给人以直观、形象的感受。比起文字信息来,人们更乐于并容易接收视听信息,它是人们认知、学习、文化娱乐的重要来源。在科学技术领域中,它在描述自然现象和实验现象方面具有不可替代的表现力,比如大至天体星云,小至原子结构。在语言学习方面,这类文献也有其独到之处。(1)按信息的载体形式分类电子型,

也称为机读型,所谓“机”现指的就是计算机、微机。通过计算机对数据的存取与处理,完成文献信息的数字化,形成电子型文献及形形色色的电子出版物,它们包括电子图书、电子报刊、电子新闻、电子会议录等等。机读型的版本也是多样的,有磁带版、磁盘版、光盘版、联机版以及最新的网络版。电子型文献不仅具有存储密度高、存取速度快的特定,而且具有电子加工、编辑、出版、传送等种种功能。(1)按信息的载体形式分类(2)按信息的加工处理程度:一般说来:一次信息是基础,是检索的对象;二次信息是检索一次文献的工具;三次信息是一次、二次信息的浓缩和延伸。

零次信息:指在人际交流中口头携带和传播的信息,包括交谈、聚会、参观以及人与人之间通过其他直接接触方式形成的信息。通俗解释就是没有经过考证,尚无任何依据的,经过人的眼、耳、鼻、口等器官在人们的头脑中形成的思维及其表象形式。例如:一个物体在运动,人们眼睛看到这一现象且传输到头脑中形成思维,说明这个物体在运动的这个过程,就是零次信息形成的过程,其表象形式可能就是具体的一句话:“这个物体在运动。”这一句话,就是一个零次信息。其出现和传递都带有很大的偶然性,且未经加工和记录,不便于积累和检验,因而获取难度大。(2)按信息的加工处理程度:一次信息(文献)

一般指以知识的直接生产者记录的最初发现、发明、新理论、新方法、新见解为内容出版的原始文献,包括期刊论文、研究报告、会议录、专利说明书、学位论文等。具有价值高、数量大特点,是基本的信息,对科学研究和社会实践具有重要的参考和使用价值。(2)按信息的加工处理程度:二次信息(文献)

二次文献是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,著录其特征(著者、篇名、分类号、出处、文摘等),并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。其主要类型有目录、书目、索引和文摘等。有时也称二次信息为检索工具。二次信息具有传递信息、报道信息的功能,更重要的是为查找一次信息提供线索,具有系统性、工具性特点。(2)按信息的加工处理程度:目录:指对图书、期刊或其他单独出版文献的特征进行揭示和报道,并按照一定的方法加以编排的二次信息;一般只记录文献的外部特征,如书名(刊名)、作者、出版地、出版社、出版时间等,例如综合目录、专题目录、馆藏目录、联合目录等。文摘:以单篇或单本文献为报道单位,不仅记录一次信息的外表特征,还要客观地阐明深入的信息内容,它是对原始信息的浓缩,有助于我们对原文的了解;索引:是将原始信息中的各种知识单元进行抽取,按照一定的原则和方法进行排列的二次资源,这些知识单元可以是篇名、人名、名词术语、关键词等等。(2)按信息的加工处理程度:三次信息(文献)是选用大量有关的文献信息,经过综合、分析、研究而编写出来的文献信息。它通常是围绕某个专题,利用二次文献信息检索搜集大量相关文献,对其内容进行深度加工而成。属于这类文献的有综述、评论、评述、进展、动态、手册、指南、年鉴、百科全书等。这些对现有成果加以评论、综述并预测其发展趋势的文献,具有较高的实用价值。在学习和学术研究中,可以充分利用反映某一领域研究动态的综述类文献信息,在短时间内了解其研究历史、发展动态、水平等,以便能更准确地掌握学习和学术研究领域的技术背景等。主要分为:综述和述评两类。(2)按信息的加工处理程度:综述:即综合性叙述,将大量分散的有关特定课题的文献、事实和数据进行归纳、分析、综合、筛选,以简练的文字扼要叙述出来,内容十分概括,“述而不作”。述评:指针对某一学科或某一问题,全面系统地总结各种情况、观点和数据,并给予精辟的分析评价,“有述有评”。综述和述评能够帮助人们用较少的精力和较短的时间,对有关课题的内容、意义以及历史、现状等有一个简明的了解。(2)按信息的加工处理程度:信息处理级别示意图述评综述词典年鉴手册百科全书知识的产生记录档案学位论文标准科技报告专利说明书会议论文期刊论文专著一次信息二次信息文摘索引目录三次信息传播信息的利用俗称全文信息(3)信息的出版形式十大传统文献信息源常见文献信息1.图书2.期刊3.报纸特种文献信息4.学位论文5.会议文献6.专利文献7.标准文献8.科技报告9.技术档案10.产品资料多种信息源的载体:

A电子文献B数据库(3)信息的出版形式十大传统文献信息源常见文献信息1.图书2.期刊3.报纸特种文献信息4.学位论文5.会议文献6.专利文献7.标准文献8.科技报告9.技术档案10.产品资料多种信息源的载体:

A电子文献B数据库信息的出版形式---图书论述或介绍某一领域知识的出版物。图书又可分为三类:一类是消遣、教科书、科普读物和一般生产技术图书,属阅读性的图书;一类是辞典、手册和百科全书等,属工具性的图书;另一类是含有独创性内容的专著,它属原始信息(文献)。图书往往是著者在收集大量第一手资料基础上,经分析归纳后编写而成的。其特点是内容比较系统、全面、成熟、可靠,但出版周期较长,报道速度相对较慢。图书主要用于需对大范围的问题获得一般性的知识或对陌生的问题需要初步了解的场合。补充:什么是著录著录就是把文献信息的各种内部、外部特征记录下来的过程,其结果就是形成一条目录信息。文献信息被著录后能有利于被识别、交流和传播。通过著录的目录信息能方便地指向原始信息。信息的出版形式---期刊一般是指名称固定、开本一致的定期或不定期连续出版物。期刊论文内容新颖,报道速度快,信息含量大,是传递科技情报、交流学术思想最基本的文献形式。据估计,期刊情报约占整个情报源的60-70%,因此,受到科技工作者的高度重视。大多数检索工具也以期刊论文作为报道的主要对象。对某一问题需要深入了解时,较普遍的办法是查阅期刊论文。信息的出版形式---杂志杂志,像期刊和报纸一样,是连续出版物的一种,但是它的内容一般是通俗性的,或者娱乐、新闻等。信息的出版形式---报纸下列情况会用到报纸

1.找关于国际、国内和本地事件的最新消息;

2.找社论、评论、专家或者大众的观点。(作者.

题名[N].

报纸名,

年-月-日(

版次

)

报纸著录:国务院新闻办公室.中国的粮食问题[N].人民日报,1996-10-25(2)报纸:连续出版物的一种,通常每天或每周发行,它收集了时事和新闻和相关评论的各种文章。特例:还有一天出版5次的报纸。报纸最大的优势是时效性强。信息的出版形式---学位论文学位论文的获取一般通过专门的数据库或学位授予单位的图书馆。学位论文:是指为申请学士、硕士、博士等学位而提交的学术论文。学位论文的质量参差不齐,但都是就某一专题进行研究而作的总结,多数有一定的独创性。学位论文是非卖品,除极少数以科技报告、期刊论文的形式发表外,一般不出版。信息的出版形式---会议文献是在学术或专业会议上交流的论文和会议资料编辑出版的信息。特点:内容新颖、专业性和针对性强,传递信息迅速,能及时反映某个专业领域的研究水平,新发现、新成果、新成就以及学科发展趋向,是了解有关学科发展动向的重要信息源。信息的出版形式---专利文献主要由专利说明书构成。所谓专利说明书是指专利申请人向专利局递交的有关发明目的、构成和效果的技术文件。它经专利局审核后,向全世界出版发行。专利说明书的内容比较具体,有的还有附图,通过它可以了解该项专利的主要技术内容。由于只有符合新颖性、创造性和实用性的发明创造才能获得专利权,所以专利说明书对于工程技术人员,特别是产品工艺设计人员来说,是一种切合实际、启迪思维的重要情报源。信息的出版形式---标准文献标准化工作的文件。其中主要为工业产品和工程建设的质量、规格和检验方法等的技术规定文件。作为一种规章性文献,它具有一定的法律约束力。一个国家的标准文献反映着该国的生产工艺水平和技术经济政策,而国际现行标准则代表了当前世界水平。国际标准和工业先进国家的标准常是科研生产活动的重要依据和情报来源。国际上最重要的两个标准化组织是国际标准化组织(ISO)和国际电工委员会(IEC)。。信息的出版形式---科技报告指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告。报告的出版特点是各篇单独成册,统一编号,由主管机构连续出版。在内容方面,报告比期刊论文等专深、详尽、可靠,是一种不可多得的情报源。信息的出版形式---技术档案

指科研生产活动中形成的,有具体事物的技术文件、图纸、图表、照片和原始记录等。详细内容包括任务书、协议书、技术指标、审批文件、研究计划、方案大纲、技术措施、调查材料、设计资料、试验和工艺记录等。这些材料是科研、生产工作中用以积累经验、吸取教训的重要文献。技术档案一般为内部使用,不公开出版发行,有些有密级限制,因此在参考文献和检索工具中极少引用。信息的出版形式---产品资料指产品目录、产品样本和产品说明书一类的厂商产品宣传和使用资料。产品样本通常对定型产品的性能、构造、用途、用法和操作规程等作具体说明,内容成熟,数据可靠,有的有外观照片和结构图,可直接用于产品的设计制造中参考。产品技术资料一般向厂商直接索取,在情报所可以查到一部分,有些以汇编形式正式出版的可以在图书馆查到。十大传统文献信息源常见文献信息1.图书2.期刊3.报纸特种文献信息4.学位论文5.会议文献6.专利文献7.标准文献8.科技报告9.技术档案10.产品资料多种信息源的载体:

A电子文献B数据库(3)信息的出版形式多种信息源的载体:A、电子文献电子出版(网络出版)形式:网络信息源

载体形式的变化,引发了新的内容出版形式:如网页、博客、播客、数字出版等形式。下列情况会用到www信息源1.了解时事新闻;2.获得企事业单位或各级政府的信息;3.获取免费的学术资源;4.参与BBS讨论,发表自己对某一问题的看法,也了解别人的相关意见。5.生活、工作、学习中的信息查询、网络导航等。

载体类型标志代码

磁带(magnetictape)

MT

磁盘(disk)

DK

光盘(CD-ROM)

CD

联机网络(online)

OL

多种信息源的载体:B、数据库含义:可以被视为能够进行自动查询和修改的数据与信息的集合。数据库是文献信息检索的主要工具,有各种各样的数据库如期刊全文、电子图书、产品资料库、公司名录、标准法规等。数据库一般都由数据库商提供,通常限度在一定的范围内使用,通常可以在图书馆网站上看到有使用权的大量的数据库。数据库定义:欧盟将数据库定义为“以系统或者有序安排,并可以通过电子或其他手段单独进行访问的独立作品,数据或其他材料的集合。美国HR3531法案对数据库下的定义是“指经系统或有序安排的、以现有的或将来开发的任何形式或介质体现出来的作品、数据或其他材料的集合、汇集或汇编。”

1)文献类型和标志代码

文献类型标志代码

普通图书M

会议录C

汇编程序G

报纸N

期刊J

学位论文D

报告R

标准S

专利P

数据库DB

计算机程序CP

电子公告EB

2)电子文献载体和标志代码

载体类型标志代码

磁带(magnetictape)MT

磁盘(disk)DK

光盘(CD-ROM)CD

联机网络(online)OL

(4)按信息内容分类经济信息:指与有关国民经济各部门、各行业的生产情况和特点,以及各行各业彼此影响制约关系的信息,包括一切经济活动中产生的信息;科技信息:指与科学技术有关的信息;政务信息:指一切产生于政府活动中的信息;文化信息:主要来自文化领域,包括文学、艺术、出版等。教育信息:从教育活动中形成;军事信息指与国防军事相关的信息;三、信息的特征

(1)客观性因此,信息是客观存在的,不以人们的意志为转移的。它是现实世界中各种事物运动与状态的反映,它可以被人们所感知、处理、存储和使用。它的客观性还表现在反映客观世界变化的信息包含在各种物质之中。

三、信息的特征

(1)客观性

地震,花草树林的发芽、生长和枯萎,广播电视、网络的新闻、广告等等发出的信息,不管你知道不知道,感知不感知,它都是客观存在。只要有物质存在,就有信息的存在。(2)时效性朝鲜战争与兰德咨询公司故事在美国出兵朝鲜之前,美政府曾请美国著名的咨询机构兰德公司做一预测:如果美国出兵中国会不会出兵?兰德公司请了大批资深专家,从中共历史、军力、国际关系、甚至中共领袖性格等各方面做了精深的分析,最后得出结论是:“中国将出兵朝鲜”。其主题词只有7个字,要价150万美元。美国国防部认为是敲诈,不予理睬,在自认为中共不敢出兵的假设下,冒险出兵,结果“在错误的时间,在错误的地点,与错误的敌人进行了一场错误的战争”。三、信息的特征

一直到前些年,美国政府检讨当年决策错误时,向兰德公司付了一大笔款,表示对科学预测的重新估价与信服。很明显,如果美国政府当年尊重科学预测,相信中共会出兵,他是决不敢冒这个险的,那朝鲜历史将重新改写,抗美援朝也就不存在了。由上例可以看出信息是具有较强时效性的。客观事物总是不断地发展变化,因而信息也会发展变化,如果信息不能适时地反映事物存在的方式和运动状态,那么,这一信息就失去其效用。(3)传递性大庆油

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论