




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、12022-4-26信息检索基本知识及技巧 The principles and skills on information retrieval主 讲 人 :施 亮Lecturer :caesar, shi22022-4-26目录 outline1信息检索的定义、分类及其作用二 检索语言三 检索的效率、手段和方法32022-4-261信息检索的定义、分类及其作用1.1 信息检索的定义 信息检索(Information Retrieval):,是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索(Information Storage
2、and Retrieval),这是广义的信息检索。 狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。42022-4-261.2 信息检索的手段(1)手工检索 eg:美国工程索引(2)光盘检索 eg:medline (3)网络检索 eg:springerlink52022-4-261.3 信息检索的对象(1) 文献检索(Document Retrieval) : 是以文献(包括题录、文摘和全文) 为检索对象的检索。可分为全文检索 和书目检索两种。(2) 事实检索 (Fact Retrieval) :
3、是以某一客观事实为检索对象,查找某一事物 发生的时间、地点及过程的检索。(3) 数据检索(Data Retrieval) :是以数值或数据(包括数据、图表、公式等) 为对象的检索。62022-4-261.4 信息检索的作用(1) 信息检索是获取知识的捷径 eg:princeton的学生 约翰菲利普 利用图书馆公开资料设计原子弹。 (2) 信息检索是科学研究的向导 eg:(美)阿波罗飞船的燃料箱的重复研究问题。 (3)信息检索是终身教育的基础 unesco:可以防止知识老化,不断更新知识72022-4-26二 信息检索的要素 (1)前提信息意识/信息素养 information literacy
4、新闻阅读:武汉的士起步价调为两公里16元 12月1日起执行 看到标题,能联想到什么? 从信息认知、信息情感 和 信息行为 三个方面进行分析!82022-4-26(2)基础信息源A、信息的载体: 印刷型 缩微型 机读型 声像型92022-4-26B、信息的内容和加工级次: 一次文献 二次文献 三次文献102022-4-26C、信息的出版形式:图书期刊会议资料学位论文专利标准报告百科全书、类书112022-4-26图书的检索途径主要用到: 书名 作者 出版社 ISBN 关键词 期刊的检索途径主要用到: 刊名 篇名 作者 关键词 ISSN122022-4-26 会议论文的检索途径主要用到: 会议名称
5、 主办单位 会议地点 关键词 作者 会议文章篇名 学位论文的检索途径主要用到: 作者 学位授予单位 导师姓名 关键词 论文篇名132022-4-26 专利资料的检索途径主要用到: 关键词 专利权人 发明人 国际专利分类号 公开号 标准资料的检索途径主要用到: 标准编号 标准名称 发布单位 发布日期 关键词142022-4-26 报告资料的检索途径主要用到: 报告号 关键词 作者 报告单位 合同户报告代码 百科全书、类书资料的检索途径主要用到: 音 形 义152022-4-26(3)核心信息利用能力掌握各种信息源掌握检索语言熟练使用检索工具对检索结果的评价,判断162022-4-26附:期刊的指
6、数计算(1)影响因素=该年引用该刊前两年文章的总次数当年该刊所发表文章的总数即年指标前两年该刊所发表文章的总数=一特定年度对该刊当年发表文章的引用次数影响因素是一种期刊中论文的平均被引率特定年度的影响因素用于测度一种期刊被利用的速度,也是测度期刊重要性的依据即年指标172022-4-26自引率与被引率 自引率是指一种期刊中引用本刊的参考文献对全部参考文献之比;被自引率是一种期刊被本刊中文章引用的次数与该刊被引用的总次数之比。=自引率某刊自引的引文量该刊全部引文量被引率 =某刊自引的引文量某刊被引用的总次数182022-4-26二 检索语言2.1 按表现形式划分的检索语言 外表特征语言 内容特征
7、语言192022-4-26外表特征:就是文献上记明的、显而易见的特征。 外表特征语言(书目引文语言)题名(书名、篇名)著者姓名文献序号(如:ISBN、ISSN、专利号、报告号等)书目引文出版事项文献类型202022-4-26 内容特征语言非句法语言句法语言等级制体系分类法标题词关键词叙 词单元词加标志的叙词组面词(如:组面分类法)短 语文献全文的自然语言212022-4-262. 2 按应用功能划分的检索语言 分类语言 主题语言222022-4-262.21 分类语言 是用分类号和相应的分类款目名称来表达信息内容的主题概念,并按学科体系的逻辑次序将信息资源系统地加以划分和组织的语言。 分类语言
8、能反映事物的从属派生关系,便于按学科门类进行族检索。232022-4-26杜威十进分类法 Dewey Decimal Classification ,DC/DDC美国M.杜威编制的综合性等级列举式分类法。分为详、简两种版本,详本于1876年问世,取名为图书馆图书小册子排架及编目适用的分类法和主题索引,1951年的第15版改名杜威十进分类法000总论 100哲学 200宗教 300社会科学 400语言 500自然科学和数学 600技术(应用科学) 700艺术、美术和装饰艺术 800文学 900地理、历史及辅助学科 第一层展开层630农业 631农业经营 631.5作物栽培 242022-4-26
9、通用十进制图书分类法 Universal Decimal Classification UDC十进制图书分类法由两位比利时书目专家(Paul Otlet、Henri la Fontaine)19世纪末在杜威十进制图书分类法的基础上继续研发的分类方法。此种分类方法由数字和特殊符号组成,把涉及各种知识体系及学科的书籍予以分类。介于数字和符号无语言障碍的特性,该分类法在世界各地的图书馆中被广泛应用。 总分类 0 总汇 1 哲学,心理学 2 宗教,神学 3 社会学,政治,经济,法律,教育,人类学 4 暂无(由图书馆具体添加) 5 自然学科,数学 6 实用学科,医学,科技,企业经济学,计算机 7 艺术,
10、手工艺品,音乐,竞技,体育 8 语言学,文学 9 地理,生物,历史 252022-4-26附加 + :并列符(例:178.1+33 酒精主义者 和 国民经济国民经济) :关系符(例:178.1:33 酒精主义对国民经济的影响) / :包含符(例:592/599 系统动物学,从592到599) = :语言符(例:=71 拉丁语) (0.) :书类符(例:(042)演讲,讲义) (.):地域符(例:(234.3) 阿尔卑司阿尔卑司) 262022-4-26美国国会图书馆图书分类法 Library of Congress Classification 272022-4-26第一层282022-4-2
11、6末层292022-4-26中国图书馆图书分类法Chinese Library Classification, CLC 中国图书馆分类法,简称中图法。包括“马列主义、毛泽东思想,哲学,社会科学,自然科学, 综合性图书五大部类,22个基本大类,具体如下:302022-4-26中国科学院图书馆图书分类法简称科图法。1958年由中国科学院图书馆编写,1974年、1979年、1994年分别进行了修订。分为25大类。中国科学院图书馆图书分类法312022-4-26国际专利分类法 International Patent Classification , IPC 关于国际专利分类斯特拉斯堡协定与1975年
12、10月7日生效,它为发明专利,包括出版的专利申请书、发明证书说明书、实用新型说明书(一下简称为“专利文献”)提供了一种共同的分类。 分类表示使各国专利文献获得统一分类的一种工具。它的基本目的是作为各专利局以及其他使用者在确定专利申请的新颖性、创造性(包括对技术先进性和实用价值作出评价)而进行的专利文献检索是的一种有效检索工具。 322022-4-26332022-4-26342022-4-26352022-4-26362022-4-26372022-4-26382022-4-26392022-4-26402022-4-26412022-4-26422022-4-26432022-4-26442
13、022-4-26技术主体的分析452022-4-262.22 主题语言 462022-4-26472022-4-26 INSPEC 叙词表举例: Locomotive NT diesel-electric locomotive BT vehicles TT vehicles RT rail traffic railways traction CC B8520-n C3360D FC b8520-n c3360De DI January 19731、下位叙词2、上位叙词3、族首词4、相关词5、INSPEC数据库 使用的分类号6、输入到INSPEC 数据库使用的 分类号7、该叙词的启用日期英国电气
14、工程学会(Institute of Electric Engineering 简称 IEE)下设的国际物理和工程信息服务部(International Information Services for the Physics and Engineering Communities,简称 INSPEC )482022-4-26三 检索的效率、手段和方法3.1 检索效率评价492022-4-263.2 索引语言中改善查全率的措施(1)同义词控制法 是指当一个概念具有多个同义词的时候,为了保证标引与检索的一致性,避免文献的分散和漏检,指引词汇的使用者从其他的同义词找到一个被专门选择作为正式主题词的词
15、的用法。 例如: 用符号 USE、SEE、Y (用) 从正式词引见非正式的词,则用 USE FOR、D(代)502022-4-26(2)词的关联法索引词的关联,最普通的形式是等级上的关联。例如:A、由专指词到较泛指的词,使用符号 BT (broader term),或者 S (属) B、由泛指词到较专指的词,使用符号 NT (narrower term),或者 F (分) C、由指向近义的词,使用符号 RT (related term),或者 C (参),或 see also (参见) 512022-4-26汉语主题词表词的关联举列 交流发电机F 同步发电机 异步发电机S 发电机 交流换向电机
16、D 交流整离子电机S 交流电机Z 电机C 调速电动机 异步电动机522022-4-26(3)字形的控制法 即把具有同一词根的字组合在一起。当然这不是提供标引的措施,而是提供检索用的辅助手段。在计算机检索中,是采用截词实现的:例如: “反射”、“反射波”、“反射性”、“反射望远镜” 等。 都有 reflect,用 reflect 进行截词检索,就能检索出与“反射”有关的 所有文献。532022-4-26(4)聚类法 在对检索词进行统计的基础上,将有关的索引次进行聚类,可以查出更多的文献,从而改善查全性。例如:“枯萎” 是与 “庄稼”、“植物生长” 联系在一起的,如果 “锈菌”也是常与 “植物生长
17、”等词联系在一起的话,我们就可以推断 “枯萎” 与 “锈菌” 之 间存在某种联系。542022-4-263.3 索引语言中改善查准率的措施组 配即两个或两个以上概念的组合,有两种组配形式,先组和后组。 先组式是指概念之间的组合是在词表编制阶段就已经定义好的,组配后的符合概念成为供标引的完整索引词。 心理声学(是心理学与声学的组配) 蒸发冷却(是蒸发与冷却的组配) 后组式是指在检索阶段把两个或两个以上的有关索引词进行组合。 “计算机” 与 “设计” 552022-4-26 先组式有助于提高索引词的专指度,减少标引到每个词的文献数量,减少和避免假组配,从而有利于查准率。但是先组式的词在数量上是有限
18、的,不能适应各种角度和深度的符合概念检索。 后组式便于各种角度和深度的检索,有利于查准率的提高,但是可能出现假组配,致使误检的增多。对于先组和后组式的评价562022-4-263.4 计算机检索语言(1)布尔逻辑检索功能逻辑或(OR、+)检索项 A、B 若用 “逻辑或” 组配,则逻辑式为 “A OR B”,或者 “A + B”AB表示被检索的文献只要包含有其中的一个检索项,或者同时含有这两个检索项,那么它就会被命中。572022-4-26逻辑与(AND、*)检索项 A、B 若用 “逻辑与” 组配,则逻辑式为 “A AND B”,或者 “A * B”AB表示被检索的文献必须同时含有两个检索项才能被命中582022-4-26A逻辑非(NOT、)检索项 A、B 若用 “逻辑与” 组配,则逻辑式为 “A NOT B”,或者 “A B”B表示被检索的文献在含有A检索项而不含有B检索项是才能被命中。592022-4-26(2)截词符截词符可以避免逐词输入带来的麻烦,还可以扩大查全率,截词可以 截前、截后、中间截断。例如:?S Comput ?结果为: computable computation compute computer?S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年元宇宙社交平台虚拟社交场景构建与用户体验研究
- 2025年智慧物流技术应用对仓储管理创新与变革的影响报告
- 2025年医院电子病历系统优化提升医疗信息化建设效益报告
- 消费与零售2025年宠物用品市场深度研究报告001
- 2025年医药行业CRO模式国际化战略与本土化管理研究报告
- 家居新零售:2025年线上线下融合模式创新市场趋势分析报告
- 2025年医药企业研发外包(CRO)模式下的质量控制与监管报告
- 2025年医药企业供应链管理与成本控制报告001
- 社区团购平台用户流失预警系统构建与留存策略报告001
- 工业互联网平台雾计算协同机制在虚拟现实增强现实中的创新应用报告
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案
- 2022年西双版纳傣族自治州景洪教师进城考试笔试题库及答案解析
- 公路改建工程边施工边通车安全专项施工方案
- 施工总平面图布置图及说明
- 道路交通安全法律法规知识测试题
- 国际篮联记录表
- 大学生亲社会行为量表(前测)问卷正式版
- 煤矿培训:自救器课件
- 空心玻璃微珠项目资金申请报告写作模板+
- 药品管理学概论(药品管理学)
- 重复测量资料统计分析
评论
0/150
提交评论