第一讲:信息检索基础_第1页
第一讲:信息检索基础_第2页
第一讲:信息检索基础_第3页
第一讲:信息检索基础_第4页
第一讲:信息检索基础_第5页
已阅读5页,还剩110页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2014-03信息检索与利用殷丽,QQ群:274827141《信息检索与利用》

课程说明

2014.3本学期课程情况——学时学分1学分6周(3-9周),24学时(1学时=50分钟)14学时6次课8学时上机考试时间4月15日中午课程情况——考核方式上机考试(一般1小时)上机作业、大作业

20

平时成绩(课堂作业、考勤等)10民族特招生成绩给定根据相关文件,平时成绩占50%70%30%课程情况——学生选课和退选试听2次,第2周前可补选和退选补选:学生到学院或教务处申请退选:建议去学院处理,如名单未取消按缺考处理注意事项ftp账户/(右击)登陆名和密码nuaayinli

课件下载作业上传上机和考试安排等/eol(和教务处密码相同)请各班登记负责人姓名、电话7课程主要内容第一讲信息检索概论第二讲检索语言与检索技术第三讲中文数据库检索与通用技巧第四讲外文数据库与网络信息资源检索第五讲搜索引擎的使用第六讲信息资源综合利用与论文写作我们的信息环境1、每个月GOOGLE发生超过27亿次的查询2、人们每天发送和接收的短信超过全球总人口(70.6亿)目前每天大约出版3000本新书据统计,一周泰晤士报的信息量,相当于18世界一个普通人一生所获得的信息量对于目前一个四年制的大学生来说,他们在第一年所学的东西,有一半在第三年就过时了职业发展变化现在十大高热门的行业,十年前还不存在:1、同声传译,年薪30-40W2、3G工程师,年薪15-20W3、网络媒体人才,10-12W4、物流师,10W5、系统集成工程师,10-20W6、环境工程师,8-10W7、精算师,12-15W8、报关员,10W9、中西医师/医药销售,6W10、注册会计师,10W21世纪中国大学毕业生就业情况研究信息对人们的职业发展具有不可估量的价值,它是现代社会个人或组织赖以生存的基础性资源,信息不仅是知识的载体,也是机遇的化身。信息隐含着许多机遇信号,职业人员要想谋取理想的职业岗位,充分发挥职业才能,不仅取决于学识技术能力和社会经济需求等因素,也取决于求职者能否掌握足够的职业信息。文献检索需要解决的问题……如何从信息的海洋中获取我需要的知识?我们被信息的海洋包围着,但是却被知识饿死了!

素质教育评价21世纪学生能力素养评价的五个方面:

基本学习技能(指读、写、算)

信息素养创新思维能力人际交往与合作精神实践能力

——美国教育技术CEO论坛2001年第4季度报告信息素养信息素养包括:信息知识信息意识信息能力信息道德信息素养是一个内容丰富的概念,他不仅包括利用信息工具和信息资源的能力,还包括选择、获取、识别信息,加工、处理、传递信息并创造信息的能力。信息道德定义:是指信息创造者、信息服务者、信息使用者在信息活动中普遍认同和共同遵守的符合社会一般要求的行为和伦理规范。当人类进入到信息社会,特别是随着以网络为核心的信息技术的快速发展和普及以及信息资源的不断扩张,信息道德问题日益加剧,并成为阻碍社会健康发展的严重问题信息道德缺失的表现1、有意造成网络交通混乱或擅自闯入网络及其相连的系统2、商业性或欺骗性的利用大学计算机资源3、盗窃资料、设备或智力成果4、未经许可查看他人文件5、在公共场合作出引起混乱或造成破坏的行为6、伪造电子邮件信息7、虚假医疗信息、虚假新闻信息8、……信息素养的特点1、信息素养具有知识性2、信息素养具有技能性3、信息素养具有创新性4、信息素养具有普及性5、信息素养具有操作性信息素养的评价标准1、识别信息需求,知道完整和准确的信息是制定明智决策的基础2、在信息需求的基础上系统的提出问题的能力3、识别潜在信息源并制定成功检索策略的能力4、检索信息源的能力5、评价信息和信息源的能力6、为实际应用组织信息,将信息整合到现有的知识体系中,并以最恰当的方法传递和交流的能力7、批判性的利用信息并解决问题的能力Page

22一、信息检索的重要性(一)信息检索可以避免重复研究、走弯路(二)信息检索可以节省研究人员的时间和精力(三)信息检索是获取新知识的捷径二、需要用到信息检索的地方:完成课程作业、毕业设计科研论文写作申请科研项目提出系统开发方案完成创业计划书、风险投资计划书提交开发项目企划书……占有资料,掌握信息,提出方案第一讲信息检索概论一、信息相关概念二、信息检索概念与原理三、信息源四、信息检索途径和方法五、信息检索步骤六、信息检索语言七、著录信息识别

一、信息以及与信息相关的几个概念1、信息的概念概念有很多,但至今没有一个统一的概念广义的信息:客观世界中各种事物的存在方式和他们的运动状态的反映狭义的信息:反映事物存在和运动的差异,能为某种目的带来有用的、可以被理解的或被接受的消息和情况等信息的定义申农:信息是用来减少随机不定性的东西。维纳:信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交流的内容的名称。现代通讯理论--信息论的创始人、影响人类社会进程的科学家

美国数学家,控制论的创始人

自然信息:湖光山色风云雷电生物信息:鸟语花香体温升降社会信息:语言、文字、图形符号机电信息:脉冲信号无线电波人类认识世界的过程,实际上就是不断从外界获取信息、加工信息和传递信息的过程。信息、能源、材料被视为社会经济发展的三大支柱,是促进社会经济发展的重要战略资源。信息的基本属性:普遍性和客观性时效性中介性共享性知识知识是人们对客观事物存在和运动规律的认识。知识是建立在信息的基础上经过加工而形成的,是系统化、理论化的信息。

信息是知识的源泉和基础,知识是信息的升华。《辞海》:信息对消息接受者来说是指预先不知道的报道。

知识的类型:“知事(Know-what)”“知因(Know-why)”“知道怎样做的知识(Know-how)”“知道谁能提供知识(Know-who)”情报情报是特定对象为特定目的而搜集的有使用价值的知识或信息。知识性与信息性实用性:为了获取实际效益或解决特定的问题。传递性:只有在传递、交流、运动过程中活化了的知识与信息才能成为情报。它是情报的本质特征,情报传递效果直接影响其使用时效性:特定的情报只有在合适的时间内传递和利用才会产生更大的效用。过时的情报就会成为失效情报。针对性:情报是针对特定用户、特定需求提供的有使用价值的知识与信息,具有很强的针对性。文献

凡属于人类的知识,用文字、图形、符号、声频、视频等手段记录保存下来,并用以交流传播的一切物质形态的载体都统称为“文献”。

一切记录有知识的载体。三要素:知识:文献的实质内容载体:文献的外在形态,如甲骨、青铜器、纸介型、胶片,磁带,磁盘,光盘等记录:将两者联系起来的重要手段知识、文献、创新的知识的关系

知识文献

创新的知识记录传递应用信息、知识、情报、文献之间的关系图知识:是人类认识世界的成果和结晶情报:能为我们所用的知识和信息文献:记录有知识的一切载体信息知识文献情报二、信息检索概念与原理信息检索(InformationRetrieval):就是将信息(文献信息)按一定的方式组织、存贮起来,并针对用户的需要找出所需信息的过程。因此从广义上讲,信息检索包含了信息的存贮和检索两个部分。信息检索的类型文献检索:查找出用户所需文献的线索或原文的检索。数据检索:查找出用户所需特定数据的检索。事实检索:以特定的事实为检索对象的一种检索。信息检索原理三、信息源按文献载体形式划分按文献信息加工深度划分按出版形式划分非文献信息源1.按载体形态划分:印刷型、缩微型、视听型、电子型2.按加工级次划分:一次文献、二次文献、三次文献、零次文献3.按出版形式分:图书、期刊、报纸、科技报告、会议文献、标准文献,学位论文等。非文献信息源:实物信息源,口头信息源1、按文献载体形态分类印刷型:也称为纸介型(paper-based),传统的文献形式缺点:存贮密度低,体积庞大,加上纸张的化学、物理特性,难于收藏保存。

缩微型(microform)以感光材料为载体的文献记录形式,有缩微胶片,缩微平片等.优点:体积小、存贮密度高,便于传递、保存可节省书库面积达90%以上。缺点:不能直接阅读,必须借助阅读机。

声象(视听)型(audio-visualform)

通过特定设备,将信息表现为声音、图像、影视及动画(sound,image,video&animation)等形式。

优点:直观、形象电子型(electronicform)通过计算机对电子信息进行存取处理。电子信息存于磁盘、磁带或光盘等媒体中电子出版物,如电子图书期刊,各种联机信息库,光盘数据库,电子邮件等。2、按加工的深度分类:

一次文献(原始文献):指一切以本人的研究成果为基本素材而创作(或撰写)的原始文献,是信息检索的主要对象。

二次文献:(参考性文献)

对一次文献进行加工,归纳,简化,将其组织成为系统的、便于查找的资料,也就是目录,题录,文摘,索引等检索工具,以提供一次文献的线索。三次文献(工具书):

根据一定的需要与目的对一次文献和二次文献进行综合浓缩,提炼出来的成果,如百科全书词典、年鉴、手册等工具书。零次文献(手稿)指未以公开形式进入社会流通使用的实验记录、会议记录、论文草稿、文章草稿、未经发表的名人手迹等。文献结构示意图书目题录索引文摘词典名录指南手册年鉴综述评述论文丛集百科全书二次文献原始文献(一次文献)三次文献3、文献信息源类型(出版形式划分)1.图书2.期刊3.报纸4.专利文献5.标准文献6.会议文献7.学位论文8.科技报告9.技术文献10.产品资料多种信息源的载体:

A网络信息源

B数据库四、信息检索途径和方法信息检索途径1.外表特征:题名途径、责任者途径、号码途径;2.内容特征:分类途径、主题途径信息检索方法顺查法、倒查法、抽查法、引文法、综合法(P22)五、信息检索步骤1.分析检索课题确定最终要获得文献源的相关信息出版形式(文献类型)、文献语种、年代范围等。归纳特征线索2.选择检索工具检索工具选择恰当与否,直接影响检索结果。根据具体情况,要考虑以下因素:检索工具报道文献的学科专业范围报道的文献类型收录文献的语种提供的检索途径3.确定检索途径在利用检索工具查找文献时,主要是利用检索工具的各种索引,即通过各种检索途径来查找文献线索。4.选择检索方法追溯法:利用文献末尾所附的参考文献线索进行追溯查找的方法。工具法:利用各种检索工具来查找文献信息的方法。它又可分为顺查法、倒查法和抽查法。综合法:是前两种方法的相互结合。5.优化检索策略依检索结果的满意度进行调整。6.索取原始文献根据文献线索,查阅各种馆藏目录或联合目录、数据库、搜索引擎等,去获得文献原文。六、信息检索语言1、信息检索语言概念信息检索语言是用来描述文献特征和表达信息提问,沟通信息存贮人员和信息检索者双方思想的一种人工语言。信息存贮过程——检索标识信息检索过程——提问标识。作用1、保证不同标引人员表征文献信息的一致性。2、使内容相同及相关的文献集中化。3、保证检索提问与文献信息标引的一致性。4、保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。信息检索语言类型示意图信息检索语言描写文献外部特征描写文献内容特征分类语言体系分类语言组配分类语言混合分类语言题名语言著者语言号码语言主题语言单元词语言标题词语言关键词语言叙词语言按文献出版特征外表特征语言书名/刊名著者/团体著者出版事项出版日期出版者名称编号引文内容特征语言分类语言

各种分类法主题语言

叙词标题词关键词代码语言分子式结构式一)分类检索语言分类检索语言是指用分类号表达各种概念,并将各种概念以学科性质为主加以划分和系统排列的检索语言。按编制方式可分为体系分类语言和组配分类语言,目前信息检索采用的大多为体系分类语言。

体系分类语言是以科学分类为基础,运用概念划分的方法,把具有某种或某些共同属性的事物集合划分为一类,用概括该类事物所共有的本质属性的概念作为类目,并给出相应的标记符号作为分类号。体系分类语言集中体现了学科的系统性,反映事物的从属、派生关系,从上至下、从总体到局部层层划分、展开。国内

《中国图书馆分类法》[中图法]

《中国科学院图书馆图书分类法》[科图法]

《中国人民大学图书馆图书分类法》[人大法]

《中国图书分类法》台湾赖永祥编订国外

《杜威十进分类法》[DDC]

《国会图书馆分类法》[LCC]《中图法》采用“五分法”形成五大部类。依据:首先是毛泽东关于知识分类的论述,即世界上的知识只有自然科学、社会科学和哲学三大部类;其次强调马列主义的指导作用,将马列主义、毛泽东思想经典作家的著作及相关文献独立为一个基本部类;最后是由于文献的特殊性,即存在一些内容庞杂,无法具体归入某一学科的文献,将其概括为“综合性图书”作为一个部类。在五大部类之下,层层细分,划分出22个基本大类,分别为:见课本27页索书号=分类号/种次号TN14/1005,TP303/1009,A81/1010,B848/1561,F712.4/1150,G0/1007分类语言优点(1)分类语言是以学科划分类目,符合人们认识事物的规律和处理事物的习惯,容易被人们掌握和应用。(2分类语言强调知识的系统性,方便人们按学科、专业系统检索有关文献资料,能够达到族性检索,可以获得较高的查全率。(3)便于组织图书馆资料排架。分类语言的不足之处(1)检索信息时首先必须了解课题的学科体系才能顺利查找到相应的类目,如果不熟悉学科体系,会有一定难度。(2)分类语言采用尽量列举类目的方法,但受到类目数量的限制,缺乏专指性,查准率不高。(3)由于分类表的结构是固定的,不便于随时修订和增设新的类目。它总是落后于科学技术的发展,难于及时反映新兴学科和边缘学科的内容。(4)分类语言采用分类号作为检索标识,检索文献时,需要将检索文献的主题内容转换成分类号,转换过程中,容易产生误差,造成误检。①不适用于特性检索,查准率比主题词低【实例】

多功能昆虫鸣声信号采集和分析系统及其在褐飞虱鸣声研究中的应用?【题解】

这类课题仅仅采用分类号无法准确表达课题,用分类号只能粗略表达,并且分到两个类目,不易归类,适宜用主题途径检索。【关键词】:昆虫insect鸣声信号acousticsignal信号采集signalacquisition信号分析signalanalysis褐飞虱brownplanthopper水稻rice害虫pest②不能适应学科发展中的变化,难以反映新学科和新名词术语【实例】食品风险分析风险分析的目标在于保护消费者的健康和促进公平的食品贸易,在分类上暂时归入[R155.5]食品卫生与检验和[TS201.6]食品安全与卫生。没有一个专门的“食品风险分析”分类号。③人的认识不统一,往往造成分类不一致及排检错误,不易反映交叉学科。【实例】管理心理学心理学的一个分支,主要是研究企业中人的心理活动规律,用科学的方法改进管理工作,充分调动人的积极性的一门学科。但是,人们很可能误解为归入管理学。【实例】《新世纪英汉计算机词典》如何归类?一般读者不知道分入计算机类TP3还是英语类H31。实际归入计算机类TP3-61/19。二)主题检索语言主题:论述的对象和研究的问题定义:以文献信息内容特征和科学概念的词语为检索标识,并按字顺组织起来的一种检索语言。直观、专指性强、使用灵活、适合计算机检索,使用最为频繁。在现阶段,按照选词方式划分,主要有标题词语言、单元词语言、叙词语特点:直接用词语来表达各种概念。它以词汇规范化为基础,通过概念组配用以表达任何专指概念。直指性强,专指度高,便于特性组配检索。不必从知识体系的角度去判断所需文献属于什么学科,只要根据课题研究对象、直接使用表征文献内容的主题词查询同一篇文献可用多个主题词标引,扩大了检索途径。

主题法检索优点使检索具有直接性与直观性;适合于从事物出发按专题进行特性检索缺点:缺乏按学科进行族性检索的能力;缺乏表述专指度较高的复杂概念的能力;72叙词语言:最有代表性的主题语言,由规范化的概念及其指代关系组成。叙词表常用主题语言标题词语言:题目、摘要、原文中出现的,对表述文献主题内容有实质意义的词汇,是未经规范化的自然语言词汇。主题语言标题词语言单元词语言叙词语言叙词语言(descriptor)以叙词作为信息单元主题标识和检索的主题语言叙词又称描述词或叙述词,是指从信息的内容中抽出的,以概念为基础,经过优化和规范化处理并具有概念组配和词间语义关系显示功能,用以表达文献主题和检索需求的名词或术语。包含多个主题的文献可以用多个叙词进行标引。在检索时可由多个叙词形成任意合乎逻辑的组配,构成多种组合方式。如有关汽车发动机制造方面的文献,可用汽车、发动机、制造三个叙词来标引。叙词的这一优点很适合于计算机检索。74叙词表(thesaurus):由叙词按一定的规则编制而成的词表。它是对文献进行主题标引的依据。1959年美国杜邦公司编制了第一部叙词表,其后,随着计算机的应用,叙词表的编制迅速发展,叙词语言成为受控信息组织和检索的主要语言。国内外叙词表的数量不下千种,我国叙词表已超130多种常见的叙词表:《汉语主题词表》、《中国分类主题词表》、《教育分类叙词表》、英国《科学文摘》的《INSPEC叙词表》、《EIThesaurus叙词表》、美国《政府报告和索引》的《NTIS叙词表》、《ASM冶金词表》等。叙词表成为规范各学科或某一专业领域名词术语的工具概念组配是叙词语言的基本原理。概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:

字面组配模拟+控制-->模拟控制香蕉+苹果-->香蕉苹果

概念组配模拟+控制-->模拟控制香蕉味食品+苹果-->香蕉苹果76叙词词表中的关联关系

Y(用)USE指引正式主题词

D(代)UF指引非正式主题词

S(属)BT指引上位主题词

F(分)NT指引下位主题词

C(参)RT指引相关主题词

Z(族)CC指引族首主题词

(最上位词)参照系统揭示主题词之间关系《汉语主题词表》是我国第一部大型的综合性叙词表,1980年正式出版,主表分为社会科学、自然科学和附表3卷。全表收录主题词108568个,非正式主题词17410个主题词的语义性:主题词之间存在的含义上的相互关系(同义关系、属分关系、相关关系)同义关系论理学02H逻辑学02H

Y

逻辑学D

论理学

(正式主题词)(非正式主题词)属分关系师范学校08E

F

幼儿师范学校(下位概念)

S

专业教育(上位概念)

Z

学校(族首词概念)相关关系标准化20.P2D(款目主题词范畴(分类)号)

C

规格化通用化系列化(相关概念)标题词语言(subjectheading)是主题检索语言中最早出现的一种语言。标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。代表:EI中《工程主题词表》(简称SHE)电脑见(see)计算机局域网参见(seealso)计算机网络

一种先组式的规范词语言,即在检索前已经将概念之间的关系组配好。具有较好的通用性、直接性和专指性,但灵活性较差。常用的标题词表有《美国国会标题词表》(LibraryofCongressSubject)、《医学主题词表》(MedicalSubjectHeadings)。①用同义词标引导致漏检。如“天线”的常用英文标引词有“antennas”和“aerials”。若想查全避免漏检,则需将所有表达“天线”的词汇作为同义词进行检索;②多义词标引导致误检。如多义词cell既可表示“细胞”,也可表示“电池”。当用cell一词查找有关细胞方面的文献时,检出的电池类文献即为误检。主题途径的优缺点优点:适合特性检索,查准率高

例如主题词“C语言—程序设计”就比分类号TP312表达得更准缺点:通常不适合族性检索,查全率比分类号低。由于很规范,非专业人士难以掌握

例如图书《C++Builder5程序设计》应该用“C语言—程序设计”作为主题词。检索大学教材,“大学”不能作为主题词,应该用“高等学校”作为主题词。非专业人士不知道哪些词汇能作为主题词。用自由词在篇名、文摘甚至全文中查找信息比用主题词更有优越性,直接、简明,是科技人员易为接受、较为常用的一种方法。特别适合不懂得主题词的一般用户。在检索网络信息时一般使用自由词。【获取主题词的技巧】

在图书的版权页可以找到主题词和分类号码或者在图书馆的馆藏数据找到主题词。例如查找《C++Builder5程序设计》一书的版权页可以找到主题词是“C语言—程序设计”等84主题词(或规范关键词)与关键词的区别——主题词是经过规范化处理后作为文献标识的;关键词则是直接使用自然语言,较少规范化处理。

关键词单车、自行车、脚踏车世贸组织、世界贸易组织自然资源、天然资源土豆、马铃薯、洋芋储藏、储存、收藏、保管发动机、马达信息检索、情报检索、文献检索自行车世界贸易组织自然资源马铃薯储藏发动机情报检索主题词或规范关键词主题词与关键词的区别85主题词的选词原则为避免使用主题词检索可能造成的查全率低的问题,选择准确、规范的主题词很关键。应注意下列选词原则①选择事物名称或过程名称作为主题词。例如“蘑菇保鲜技术”,其中“蘑菇”是事物的名称,“保鲜”则是一种处理过程,这两个词均适合选择作为主题词。②避免使用泛指性词。如上例中的“技术”一词即属于泛指词,没有任何专指度,不适合作主题词。③适度专指性。检索是一般选词的专指度越强,查准率越高。但有些过于偏窄的词不适合作为主题词。如果出现没有检索结果的情况,应放宽专指度。④保证选词的通用性信息检索最大的问题是……….误检漏检总结,分类语言与主题语言的异同分类语言主题语言以学科和专业集中文献能将不同学科的信息集中到一起适宜族性检索适宜特性检索不利于新兴学科、交叉学科和边缘学科的检索不利于新兴学科检索查准率不高查全率不高相同点:都是一种规范化的人工语言不同点:三)其他分类语言1、自然语言1)关键词语言:关键词是指从文献的篇名、文摘和正文中抽出的对表达文献主题有实质意义并在揭示和描述文献主题内容上起关键作用的词和词组。不经过规范化处理;适用用于电子计算机自动抽词标引,编制各种类型的关键词索引。2)自然语言检索2、引文语言七、信息著录识别ProceedingsoftheInternationalConfere

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论