信息检索导论课件_第1页
信息检索导论课件_第2页
信息检索导论课件_第3页
信息检索导论课件_第4页
信息检索导论课件_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章信息检索导论1.1信息素养与信息检索1.2信息检索的概念和类型1.3信息检索的研究对象与研究方法1.4信息检索的发展历史1.5信息检索需求1.6小结1

1.1信息素养与信息检索一、信息、信息社会与信息素养二、信息检索教学的主要意义三、信息检索教学的基本内容2一、信息、信息社会与信息素养

信息社会的基本特征1、信息数量的激增2、信息职业的扩大3、信息资源的显化4、信息应用的泛化5、信息意识的强化3信息信息的概念信息的基本特征信息的基本类型51、信息·

日常生活概念在日常生活中,信息与符号、数据、消息、事实、新闻、情报、知识等概念混用,核心义项是消息。李中(924~975)在《碧云集》之《暮春怀故人》一诗中最早提出了“信息”一词。“梦断美人沉信息,目穿长路倚楼台。”符号是指人类感官接受外界刺激后,大脑中产生的刺激的组合;数据是各种事实、数字和字符等符号的集合;信息是指语法特征上相互关联的数据对象的集合;知识是有语法、语义关联的信息结构;而智能则是知识精华的集合。6数据知识信息智能信息与数据、知识和智能的关系7信息·科学概念科学概念根植于理性的理论框架中,并与不定性、概率、熵、有序化、变异度等概念密切相关。L.V.R.Hartley:信息是选择的自由度(1928);C.E.Shannon:信息是用来减少随机不定性的东西(1948);N.Wiener:信息是指人们适应外部世界,并使这种适应为外部世界所感知的过程中,同外部世界交换的东西的名称(1948);L.Brillouin:信息就是负熵,是系统组织结构和有序程度的度量(1951);W.R.Ashby:信息是集合的变异度(1956)。

一般说来,设随机事件X(x1,x2,…,xn),每个事件(状态)发生的概率为P(p1,p2,…,pn),那么这一随机事件提供的信息量为I(xi)=﹣㏒Pi,而整个信源的信息熵为H(X)=﹣∑Pi㏒Pi。9信息·哲学概念在对信息进行哲学探讨时,信息与物质、能量、运动、反映、意识等概念息息相关。信息是一切事物运动状态和方式的表象或表征。这里,“事物”泛指一切可能的研究对象,可以是外部世界的物质客体,也可以是主观世界的精神现象;“运动”泛指一切意义上的变化;“运动状态”是指事物运动在空间上所展现的性状和态势,是事物的静态特征;“运动方式”则是指事物运动在时间上所呈现的过程和规律,是事物的动态特征。“表象”说明信息并不是事物本身;而“表达”则是认识论上的主体所感知并能够表示的、与人类生活有关的东西,这是上述本体论意义上的信息引入认识主体这一约束条件后的产物。10信息的基本特征和属性

普遍性与无限性客观性与相对性

抽象性与依附性

动态性与异步性传递性与共享性11客观性。信息的客观性源于客观存在的物质运动的特征。信息不是虚无飘渺的东西,也不是可以随意想象和“创造”的事物,它是现实世界各种事物运动的状态和方式,有非常具体和真实的品格。各类信息的表达、存贮、传递、转换和利用等都必须以客观存在的物质载体为依托。相对性。由于认识能力、认识目的及其所储备的先验信息各不相同,各个认识主体从同一事物中获取的信息及信息量(实得语法信息量、实得语义信息量和实得语用量)并不相同。假定事物X的实在信息量I(X)是常数,在这样的条件下,第i个观察者Ri的实得信息量I(X;Ri)就为:I(X;Ri)=I(X)-Io(X;Ri)。既然各个观察者的先验信息量Io(X;Ri)各不相同,它们的实得信息量当然也就各有差异。13抽象性。信息本身是看不见摸不着的,我们所能够看得见摸得着的只是信息载体(包括语言、文字、图画、符号、纸张、磁带和光盘等)而非信息内容。依附性。任何信息都必须以某种物质的特定的运动形式表现出来,即信息必须依附于一定的物质载体上,用文字、语言、图像、符号等把信息记录下来,并寄载在纸张、磁带、胶卷和光盘等介质上,通过声波、光波、电波等物质载体进行传递。信息的依附性是抽象性的延伸,是信息具有可传递性、可转换性、可贮存性和可处理性的基础,是信息能够实际利用的前提;正是因为有了这些载体,信息才能变为一种广泛的资源和财富。14动态性,或称信息的时效性。信息的时效是指信息从产生、传递到接收利用的时间间隔及效率,而时效性就是指信息的内容和信息量大小都会随时间的变化而不断得到更新、充实、积累或取舍。在我们考察物质运动规律时,所取的空间界面和时间区段不同,所得到的有关信息的时效就会有所不同。异步性。异步性是动态性的延伸,包括滞后性和超前性两个方面。信息脱离源物质后需要经过输入、处理、传递和输出等过程才能为人们所理解和掌握,而此时源物质已发生新的变化,这些信息因而就成为“过时”的信息,它们所反映的已是某一时刻之前的源物质运动的状态和方式。换言之,任何信息总是产生、传递在事实之后,即先有事实而后有关于该事实方面的信息等,这是由于人的认识与客观事物运动的异步性造成的,并导致信息都有一定的滞后性和不完全性。另一方面,人们在掌握大量信息的基础上,又可以通过计划、预测等方式测知未来的信息,超前于现实,因而信息又具有超前性。15信息的基本类型1以认识主体为依据对信息进行的划分2以信息的生成领域对信息进行的划分3以信息的媒体形式对信息进行的划分4以信息的逻辑意义对信息进行的划分171以认识主体为依据对信息进行的划分客观信息,是指对事物不加判断的如实和公正的报道,即关于认识对象的信息。主观信息,一般是依据事实和分析,阐明个人对论题的观点和见解,是经过思维主体加工的信息。182以信息的生成领域对信息进行的划分自然信息,非生命物质的自然信息,是无机界事物属性及事物之间内在联系的表征。自然信息是融合式的、特殊的、弥漫的。生物信息,包括生物与外界联系时做出的反应以及生物体内传递的信息。生物信息是信号形态的信息。社会信息,人类活动和社会发展的信息以及人类接收并破译的自然信息。它以符号信息为特征。思维信息,以人脑为载体,以语言为外壳,以各种感觉器官为接收器,对各种外界信息进行加工、转换,并实现思维分析、语言表达的过程。思维信息是社会信息运动的主体源泉,而社会信息则是思维信息运动的外化和现实化的结果。194以信息的逻辑意义和利害关系划分有益信息:对社会发展有积极作用的、能够消除人们对未知事物不确定性的信息,它是人类社会的资源和财富。无用信息:指对信息使用者所从事的某种活动没有作用的、多余的信息。衡量无用信息可以使用以下3个指标:一是德国文献学家瓦斯提出的废页率。二是美国信息科学家彭德尔伯里和加菲尔德等提出的不引率。三是信息冗余度,即信息中超出完整要求而在传递中属于多余的内容。信息的冗余度R=1-H/Hmax。有害信息:指对社会发展和信息用户有消极和阻碍作用的不真实或庸俗、媚俗的信息,主要有虚假信息和色情信息等。21二、信息检索教学的主要意义1、一个平台:培养信息意识,提高自学能力和独立研究能力。

1992年国家教委高教司在《文献检索课教学基本要求》的通知中指出:“文献检索课是培养学生掌握利用图书文献/情报检索,不断提高自学能力和科研能力的一门科学方法课。”

2、一个引擎:促进信息资源的开发利用,使文献信息机构成为社会信息化发展的智力引擎。

信息资源是人类最宝贵的智慧资源,具有可再生性、可建设性、价值的潜在性等特征,是人类所有依赖的资源中最重要的资源。随着自然资源的日益减少甚至枯竭,信息资源的重要性表现得更为明显。3、一个工具:避免科研劳动的重复浪费,协助管理者做出正确的决策。22

1.1信息素养与信息检索一、信息、信息社会与信息素养二、信息检索教学的主要意义三、信息检索教学的基本内容23

1.2信息检索的概念和类型251.2.1信息检索的若干基本概念信息检索InformationRetrieval信息存储与检索InformationStorageandRetrieval信息存取InformationAccess信息发现InformationDiscovery

文献检索DocumentRetrieval事实检索FactRetrieval数据检索DataRetrieval

文本检索数值检索声频与视频检索26CalvinN.Mooers,1919~1994穆尔斯(CalvinN.Mooers,1919~1994)在1948年提出此术语时,把它定义为一种“延时性通讯形式”。其特点是:发信者在某一时刻发出信息,而接收者可以在晚一些时刻才收到该信息;发信者必须发出一切可能的信息,而接受者必须有某种检索装置以便从大量发送的信息中筛选出适合自己需要的信息。Mooerscoinedtheterms"informationretrieval"anddescriptors"inhisMITMaster'sthesisin1948.HethenwentontodeveloptheZatocodingsystemofsuperimposedrandomcoding.MooersfirstdevelopedtheTRACprogramminglanguagebetween1959-1964.Mooerswasanearlyadvocateoftheuseofintellectualpropertylaw,includingcopyrightandpatents,toprotectcomputerprogramminglanguages.291.2.3、信息检索的类型1、按照存贮与检索的对象进行划分2、按照存储的载体和查找的技术手段进行划分3、按照存贮文献的时间进行的划分4、按照检索系统的结构进行的划分301、按照存贮与检索的对象进行划分1.1Documentretrieval:以文献为检索对象的信息检索,是指将文献按一定的方式存贮起来,然后根据需要从中查出有关课题或主题文献的过程。书目检索:以文献线索为检索对象。换言之,检索系统存贮的是书目、专题书目、索引和文摘等二次文献。全文检索:以文献所含的全部信息作为检索内容,即检索系统存贮的是整篇文章或整部图书。1.2Dataretrieval:以具有数量性质并以数值形式表示的数据为检索内容的信息检索,或称数值检索。1.3Factretrieval:以文献中抽取的事项为检索内容的信息检索,或称“事项检索”。312、按照存储的载体和查找的技术手段进行划分2.1Manualretrieval:用人工方式查找所需信息的检索方式。2.2Mechanicalretrieval:利用某种机械装置来处理和查找文献的检索方式。穿孔卡片检索:Punchcard是一种由薄纸板制成的、用孔洞位置表示信息,通过穿孔或轧口方式记录和存储信息的方形卡片。缩微品检索:把检索标识变成黑白点矩阵或条形码,存储在缩微胶片或胶卷上,利用光电效应,通过检索机查找。2.3Computer-basedretrieval322.3Computer-basedretrieval计算机检索是指把信息及其检索标识转换成电子计算机可以阅读的二进制编码,存储在磁性载体上,由计算机根据程序进行查找和输出。脱机检索:成批处理检索提问的计算机检索方式。联机检索:检索者通过检索终端和通信线路,直接查询检索系统数据库的机检方式。1964年,美国国家医学图书馆开始MEDLARS联机情报检索系统商品服务。光盘检索:以光盘数据库为基础的一种独立的计算机检索,包括单机光盘检索和光盘网络检索两种类型。1983年首张高密度只读光盘存储器诞生;1984年美国、日本和欧洲开始利用CD-ROM存贮科技文献。网络检索:利用E-mail、、Archie、WAIS、Gopher、Veronica、WWW等检索工具,在Internet等网络上进行信息存取的行为。333、按照存贮文献的时间进行的划分3.1SelectiveDisseminationofInformation:它是预先把用户需要的有关文献存贮在计算机的存贮器中,定期按用户提问要求从存贮器中检索出用户所需要的最新文献,发给用户,使用户能定期得到所需要的文献信息。(定题服务)3.2RetrospectiveSearch:它是根据用户提出的课题,提供某一时间以前文献的检索方式。(回溯检索)344、按照检索系统的结构进行的划分4、1Serial:它是以每篇文献为单位,按照文献号(如文摘号)的大小依次存贮在存贮介质上,构成顺排文档。检索时,也是按文献号的顺序依次检索。4、2Inverted:它是将顺排文档再按主题词、分类号、文献名称、作者等检索途径编排成一个索引系统,这个索引系统称之为倒排文档。检索时,先查倒排文档,然后再从顺排文档中抽出文献内容。35

讨论题Topic你了解哪些信息需求和信息系统?Topic你在学习方面的信息需求的分布状况(按降序或升序排列)?Topic你查寻信息的基本途径有哪些?36Topic你在学习方面的信息需求的分布状况?类型上:教科书、专著、工具书、研究报告、专利文献等;内容上:专业文献、课外读物(文学、管理、经济、政治等)等;地域上:本单位、外单位、外地等;语种上:中文、外文、少数民族文字等。37Topic你查寻信息的基本途径有哪些?检索即是一种交流,它可以是内向的,也可以是外向的。2、同行同事3、中介4、技术5、已记载的知识1、生存环境38附录:我国企业人员获取信息的方式企业类型获取方式大中小总体情况(利用比例)经济管理人员技术人员经济管理人员技术人员经济管理人员技术人员经济管理人员技术人员利用图书情报部门7.6918.5018.9924.0412.6317.2713.1019.91国内参观7.6910.008.868.2411.5810.999.389.74国内会议9.637.0010.138.9612.6313.1910.809.72自行阅读文献17.3110.007.608.979.749.8911.469.62通过相关人员15.399.5011.398.9610.539.8912.449.45通过单位情报服务5.7711.008.869.687.376.597.339.09国内调研3.858.002.537.894.2110.993.538.96通过情报信息网3.856.006.335.744.215.504.805.75国内信函11.545.508.864.305.266.598.555.46实地收集信息11.534.506.333.946.326.598.065.01利用技术市场1.923.003.803.238.4204.712.08国外信函01.001.272.531.90国外考察学习1.922.002.531.741.63国外(际)会议01.5001.080000.86其它方式1.922.502.530.722.1102.191.0739Chap1思考题与课题思考题:1、如何理解信息的概念、基本特征和主要类型?2、说明信息、情报、知识和文献之间的相互关系。3、信息社会有哪些基本特征?4、如果理解信息检索的概念和基本原理?5、谈谈信息检索教学的主要内容和重要意义。6、什么是信息素质?如何提高个体和整个社会的信息素质?7、在信息检索中,如果认识和解决信息污染的问题?8、谈谈信息检索发展的主要阶段及其内容。9、分析现代社会用户信息需求的基本特征及其实现方式。10、如何理解信息检索的基本类型及其特征。课题:山东师范大学本科一年级学生信息需求状况调查报告401.3信息检索的研究对象1.3.1主要研究问题◆信息检索理论:例如检索语言、检索模型、标引理论、相关性理论、知识表示理论等;◆信息检索工具/系统:包括系统的结构、功能、设计开发、管理运营、应用评价等;◆信息资源及其收集、加工◆检索技术与方法◆用户研究(检索需求、查询行为等)◆其他411.3.2相关学科领域◆计算机科学(ComputerScience)◆数学(Mathematics)◆语言学(Linguistics)◆认知科学(CognitiveScience)42

1.4信息检索的发展历史431、文献信息检索阶段(前两千年~1954)。

公元前两千年,类似文摘的东西首先出现在封装美索不达米亚人用楔形文字写成的文献的陶制封套上。2、脱机信息检索阶段(1954~1964)。1954年,美国海军军械实验站图书馆研制出计算机信息检索试验系统。3、

联机信息检索阶段(1964~1972)。1964年,美国医学图书馆开始了MEDLARS联机信息检索系统商业化服务,使计算机信息检索进入了新的历史发展阶段。4、网络信息检索阶段(1972~目前)。1972年,MEDLINE率先加入TYMNET通信网,然后又加入TELENET通信网。随后,DIALOG、ORBIT等系统也相继进入网络,从而使信息检索进入到网络检索阶段。5、光盘信息检索阶段(1985~目前)。1985年,第一张商品化的CD-ROM数据库Bibliofile,即美国会图书馆的MARC问世,标志着光盘信息检索异军突起,并大有与网络信息检索平分秋色之势。

441.4信息检索的发展历史1.4.1手工检索阶段以印刷型文献为主要检索对象◆初创时期◆成熟稳定时期(1830----1940s)◆全面发展时期(1940S----1970s)1.4.2计算机化检索阶段◆脱机批处理检索时期Off-lineBatchProcessing(1954---1964)◆联机实时检索时期On-lineRealTime(1965---1975)◆联机网络化与多元化检索时期(1976---1990)◆Internet网络化检索时期(1990---至今)45◆脱机批处理检索时期-------输入计算机的信息(文献的题录、文摘等)几乎全部存储在磁带上,检索提问穿成纸带或卡片,检索结果不能立即获得,必须等待成批或定期检索处理。

◆计算机技术背景硬件方面软件方面

◆主要事件和系统NASA系统MEDLARS系统KWIC索引46◆联机实时检索时期-------信息中心的主机借助于电话线与远距离终端相连,形成联机实时检索系统。用户可在检索终端进行人机对话或检索。◆计算机技术背景集成电路时代分时处理技术磁盘与磁盘机的应用◆主要事件与系统DIALOG系统ORBIT系统BRS系统ESA/IRS系统47◆联机网络化与多元化检索时期------联机实时检索系统利用世界上主要的数据通讯网,发展成为国际性的联机检索系统,联机网络和检索服务市场从北美扩展到欧亚大陆和拉美地区。PC机的出现,光盘的应用,更使得联机检索服务行业竞争加剧,呈现出多元化发展态势。

◆计算机技术背景

●大规模集成电路和超大规模集成电路时代●微机作为智能终端出现(1981)●数据库技术的发展●现代通讯技术的发展●光盘技术及其应用(1985)

48◆联机网络化与多元化检索时期◆

主要事件和系统

●数据通讯网的商用TYMNET1977DATAPAC1976(加)TELENET1975EPSS1977(英)EURONET1980TRANSPAC1978(法)●家庭化检索DIALOG系统的KnowledgeIndex(1982)BRS系统的AfterDark(1982)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论