




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索与分析利用,信息检索基础,本章主要内容 信息的概念 信息检索的相关知识,信息的概念,信息的定义: 信息(information),意思是通知、报道或消息。我们的汉语词典将它解释为“一切音信和消息” (拉丁词源) 维纳:信息既不是物质,也不是能量,它是人类在适应外部世界的过程中,同外部世界交换的内容的总称。(控制论) 申农 :“信息是能够用来消除不确定性的东西”。(信息论) 日本有学者:信息是把我们不明确的知识弄清楚后,整理成章再传递给需要获取信息之人。” (英语词源) 国内学者:信息普遍存在于自然界、人类社会和思维活动中的一种现象,它是信息源存在方式和运动状态在与外部世界进行交流的过程中所使用的一种信号。(哲学角度) 我们认为:信息是人类在对外部世界进行感知和认识的过程中所用到的一切数据、事实和消息。,信息的概念,信息的主要特征: (1)差异性 (2)时效性 (3)再生性 (4)普遍性 (5)与可识别性 (6)可传递性与共享性,与信息相关的几个概念,知识 经过实践活动和人的思维加工的(系统化的)信息,即为知识,因此,从外延上看,知识包含在信息之中。 情报 情报是特殊的信息,是指在一定时间内为达到一定目的而传递给一定对象的有用的新知识或新信息。 文献 “文献是记录有知识的一切载体”。是信息、知识、情报的存储载体和重要的传播工具,也是信息、知识和情报存在的主要方式。 *文献的构成二方面要素: 所记录的知识,即文献的内容;用于记录知识的载体,如竹简、纸张、胶片、磁带、磁盘、光盘等;,与信息相关的几个概念,文献、知识、情报和信息之间的关系 信息、知识、情报、文献之间既有区别又有联系,它们之间的关系主要表现在以下两方面: 1信息、知识、情报、文献之间的转换关系,与信息相关的几个概念,信息、知识、情报、文献之间的范畴关系,1、是尚未被认识的信息区; 2、是未被记载和传递的知识区; 3、是非实物型载体情报区; 4、是未被利用的文献区; 5、是信息+知识+情报+文献的统一区。,信息资源的类型,研究重点,存 在 状 态,什么是信息资源: 信息资源就是经过人类加工处理后的、有序化的、大量的有用信息的总称。,文献信息资源的分类,信息资源按载体形式可分为: 刻写型 包括印刷术发明之前的古代文献和当今尚未正式付印的手写记录和草稿。,甲骨文 商晚期兽甲骨文,竹简 临沂汉墓出土竹简,石鼓文 我国最早的石刻文字,文献信息资源的分类,信息资源按载体形式可分为: 印刷型 以纸张为存储载体,通过各种印刷手段(油印、铅印、胶印、复印),将文字固化在纸张上所形成的文献。,谰言诗钞全四册,文献信息资源的分类,信息资源按载体形式可分为: 缩微型 缩微型文献是以感光材料为存储载体,以光学摄影技术为记录手段而生产出来的一种文献形式。,蒋介石日记,文献信息资源的分类,信息资源按载体形式可分为: 声像型 (视听型) 指利用声频、视频等多媒体手段来记录声音、图像信号的信息载体,如录音带,录像带、幻灯片、电影拷贝等。,文献信息资源的分类,信息资源按载体形式可分为: 电子型(数字化文献) 指通过编码技术将信息转换为计算机可识别的语言,并可通过计算机阅读或利用的文献。,文献信息资源的分类,信息资源按内容加工深度可分为: 零次信息 指作者在进行发明创造活动的过程中积累的原始记录。如笔记、手稿、文稿、电脑上的记事、实验记录等。 一次信息 又称原始信息资源。一般指公开出版的图书、期刊论文、科技报告、会议文献、学位论文、发明专利等。 二次信息 又称检索工具或搜索引擎。二次信息是对一次信息加工、整理而成的。如目录、文献、索引等各种书目数据库是二次信息的核心。 二次信息的形成是信息从分散、无序到集中、有序化的书目控制过程。 三次信息 三次信息是围绕某一专题,对一、二次信息综合、分析等深加工的产物。如评论、进展报告述评、百科全书、年鉴、指南、期刊目录。,文献信息资源的分类,按文献信息的出版类型划分 图书 特征标识:ISBN号 如:ISBN 978-7-03-026985-0 连续出版物期刊、报纸 特征标识:期刊名称,卷号,期号 专利文献 有表示专利的词(Patent)、专利号 会议文献 有表示会议的专门用词,地点、届次、时间 学位论文 专用词(Thesis,Dissertation),*作者所在学校的名称 标准文献 专用词(standard、recommendation)等、标准号 科技报告 有表示报告的词,如Report、Memorandum等;有报告号 产品技术资料 专用词(Catalog,Guide book,Master of)等,公司名称 政府出版物 档案,信息检索的概述,信息检索的概念(Information Retrieval) 信息检索的概念有广义和狭义之分: 广义的信息检索 包括信息的存储及其检索过程。 狭义的信息检索 仅指信息的查找过程。 信息存储: 是对有关信息进行收集、标引并使信息有序化,进而形成信息检索工具的过程。 信息检索: 利用一定的检索工具和检索算法,从大量的信息集合中找出用户所需信息的过程。,信息检索的原理,从原理上讲,我们可以把整个信息检索过程刻画为三个方面:即信息的存储与组织、信息的检索实施、信息的展示。其中的关系如下图所示:,信息检索的类型,按存储和检索的内容,可分为: 文献(document)检索 将存储于数据库中的关于某一主题文献的线索查找出来的检索。 数据(data) 检索 将经过选择、整理、鉴定的数值数据存入数据库中,按照需要查出可回答某一问题的数据的检索。 事实(fact) 检索 将存储于数据库中的有关某一事件发生的时间、地点、经过等情况查找出来的检索。,信息检索工具及其类型,定义 信息检索工具是用于报道、存储与查找信息的工具。它是经过对信息进行搜索整理、特征分析和组织加工后的产物,同时也是信息检索的主要手段和条件。 类型 通常按信息的著录特征可将信息检索工具划分为以下几类: 目录 题录 文摘 参考工具书 全文数据库 搜索引擎,信息检索工具的类型,目录 目录(Catalog)是对一批相关文献外部特征的提示和报道,是有序的文献清单。 特点: 1、一般只记录外部特征,如书名、著者、出版项、出版时间等。 2、以完整的出版单位或收藏单位为基本的著录单位,以“本”、“种”、“件”为报道单位。,信息检索/刘俊熙、王立义编著.北京:北京图书馆出版社,2002.10 233页;16cm ISBN 7-5013-1953-7 I.信 II.刘; 王III. 情报检索 .G252.7,目录著录格式,信息检索工具的类型,题录 题录(Bibligraphy),(可以理解成我们通常所说的“某本杂志的目录”),是对单篇文献外部特征的揭示和报道。题录一般是以内容上独立的文献作为著录单元,如一篇文章或书中某一部分。 特点: 著录简单 按篇报道,具有广、全、快等特点,是用来查找最新文献的重要工具。,信息检索工具的类型,文摘 文摘(Abstract)是也是以单篇(文章)或单本(书)为报道单位,除描述文献的外部特征外,而且还揭示文献的内容特征,是带有“内容提要”的题录,与题录相比,文摘多出了摘要(即内容提要)部分。如:,文摘又分为以下三种: 指示性文摘:指示性文摘是对原文的简介。 报道性文摘:是指对原文的浓缩。 评论性文摘:即在上述款目内容的基础上,还包括文摘评论员的分析和见解。,信息检索工具的类型,参考工具书 包括字词典、百科全书、各种年鉴等。 全文数据库 是以原始文献为著录单元,信息用户可以得到文献的全文或者某个具体的章节。 搜索引擎 搜索引擎是以网页为著录单元的一种新兴的检索工具。,信息检索途径及其选择,内容特征检索途径 主题途径 指通过能表达文献内容的主题词来检索文献的一种途径。是信息检索的一种主要途径。 【如何提取检索词】: 1、切分 切分就是以词为单位划分句子和词组。 例:高校|扩招|对|劳动力|市场|及|教育|收益率|影响|的|研究 要点:A.词是语义切分的最小单元,也是检索的最小单元。切分必须彻底,必须“到词为止”。如:“信息检索”可切分为:“信息|检索”。 B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统”切分为“操作|系统”,如何提取检索词,2、删除 将课题转换成关键词的集合 A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽泛而不具有检索意义,如:http,com等) B.删除过分宽泛和过份具体的限定词 (太宽泛) 自动熔化极气体保护弧焊的可控硅电源可控硅电源(太狭义) 删除具有包含关系的其中一个 教学用的信息检索课多媒体课件信息检索*多媒体*课件 3、替换 用更本质的概念替换表达欠佳的概念 西部地区社会发展状况(社会发展状况=文化教育+医疗卫生+工业水平+农业水平+) 水果营养(水果fruit=梨pear+橙orange+苹果apple+),如何提取检索词,4、补充 A、补充还原词组:WTO世贸组织世界贸易组织 B、补充同义词或相关词: 计算机病毒(计算机+电脑)*病毒 C、增加限定词(解决一词多义现象): 杜鹃杜鹃(动物)、杜鹃(植物) 【获得主题词的技巧】: 1、利用google关键词工具; 2、利用数据库的检索词扩展功能。,检索途径及其选择,分类途径 指根据文献所属的类别,利用特定的分类号来检索文献的途径。 优点:能够从学科或专业角度广泛地获得较系统的文献,能够达到较高的查全率。当所需要的信息范围比较宽泛或涉及内容复杂,仅用几个词语已无法涵盖检索需求时多采用分类途径。 例:检索中药材“黄莲”中的微量元素的分析的中文信息,该用何种途径? 分析:A、如果明确知道所指的微量元素是特定的几种,而且知道具体名称,就用主题途径; B、如果课题所指的微量元素不是特定的几种,而是多种,也不知道具体的名称,就用分类途径。,检索途径及其选择,著者途径 即根据已知文献著者来查找文献的途径。 【排列规则】 1、统一采用姓+名的顺序。英文的人名需实行倒置! 如:Arrow BSmith (阿罗B史密斯) Smith,Arrow.B. 2、复姓作者,将复姓作整体看待 例: Margaret Martin-SmithMartin-Smith,Margaret 【中文翻译成英文的处理】 3、音译:直接用汉语拼音。 西南交通大学Xi nan jiaotong university 4、意译:通常有多种写法,检索式必须列举各种写法,才能保证查全率。 例:原西南师范大学在欧洲专利数据库中就有三种写法:Southwest China Normal Uniwersity/Southwest University/Xinan Teachers,University 【拼写形式】 如:张建国Zhang JG或Zhang JianGuo(通常),Zhang J(有时),Jianguo Z(偶尔),检索途径及其选择,其他途径 题名途径 即直接利用图书的书名、期刊的刊名、标准文献的标准名来查找所需停息的方法途径。 机构名称途径 主要包括作者所在的单位,以及图书期刊的出版发行单位等。 代码途径 如专利号、标准书号(ISBN)、标准刊号(ISSN)、馆藏号等。在已知文献特定代码的前提下,利用代码途径检索文献是最为快捷的方法之一。 引文途径 从被引论文去检索引用论文的一种途径。,检索式的表达,常用检索技术(P62-P65): 布尔逻辑检索 *截词检索 字段检索,常用检索字段表,例:论|高校|扩招|对|劳动力|市场|的|影响|研究 中文:(高校+大学)*扩招*劳动力*市场 外文:(University OR college) AND (enrollment expansion OR enlarg* enrollment) AND (labor market OR labour market) 【实例】要检索张启发院士刊登在分子植物育种上关于水稻基因表达方面的论文。,检索式的表达,信息检索一般按分析检索课题、选择检索工具、确定检索策略、调整检索策略、获取原文等五个步骤进行。,信息检索的一般步骤,信息检索的一般步骤,1、分析检索课题、明确检索要求 分析研究课题,是实施检索中最重要的一步,也是影响检索效果和效率的关键因素。在课题分析中,要明确以下几个问题。 (1)明确研究课题所需的信息内容,提出能准确反映核心内容的主题概念。 (2)确定课题需要查找的文献类型、语种及出版年代等方面的要求。 (3)明确课题对查新、查准、查全的指标要求及其侧重点。,信息检索的一般步骤,分析检索课题的具体实例: 例:我校一老师就课题“保土、治水、移民”查找文献,应如何确定具体的检索点? 1、拆分大主题为小主题。经过与用户的交流,我们将课题拆分为如下几个检索点: 1、近代以来我国森林覆盖率、区域覆盖变化情况及其原因; 2、我国历代移民概况; 3、建国以来中央领导人关于我国移民问题的讲话; 4、黄河、长江水是何时由清变混的? 2、明确课题要求的各种限制条件 检索文献:期刊、学位论文、报纸、图书 时限要求 3、查询的指标要求:查全,信息检索的一般步骤,2、选择检索工具 在明确了课题的检索范围和要求后,就要据此来选择检索工具。首先,根据检索要求和检索工具的学科特点和收录范围,初步选择一些符合要求的检索工具,然后,再根据这些工具的质量、性能以及检索人员以往使用的经验,来最终确定一个或几个合适的检索工具。选择检索工具应参考的原则是: (1)考虑学科范围和数据量 (2)了解收录的信息类型(图书、期刊、学位论文) (3)考虑信息的时间范围 (4)考虑检索工具的检索功能(易用性,是否熟悉) (5)检索工具的检索费用(中文:一般为0.5元/页或2元/篇),信息检索的一般步骤,3、确定检索途径、检索方法 检索途径是开始查找的入口点。常用的有分类检索途径、主题检索途径、著者检索途径、题名检索途径。 采取哪种检索途径,要从课题检索要求出发。 如果课题检索要求泛指性强,所需文献范围较广,则最好选择分类途径; 如果课题检索要求专指性强,所需文献比较专深,则最好选择主题途径、题名途径、分子式途径等进行检索为好; 知道著者的姓名,则可以采用著者途径; 同时根据用户检索的目的,期望的文献数量以及有关主题在学科中的状况,选用适当的检索方法。 常规方法:按时间顺序获取文献(顺查法、倒查法、时间抽样法) 引文法:利用文献后所附的参考文献、引文注释查找相关文献。 交替法:常规法+引文法,信息检索的一般步骤,4、调整检索策略 确定了具体的检索方法后,就要利用所用的检索工具,在一定的年代范围内具体查找,以获得文献线索。 在具体的检索过程中,当结果中出现了太少(1000)的相关记录时,则需要对我们的检索策略进行调整和优化。 5、获取原文 信息检索的最终目的是获取有用的原始文献。原文获取的方式主要有以下几种: 利用全文数据库直接获取。现在有许多全文数据库,通过检索均可直接获得原文。如“中国期刊全文数据库”、万方数据化期刊等 。 利用文摘数据库传递系统获取。 利用OPAC检索系统,进行馆际互借。,优化检索效果的方法,一、提高查全率的方法(扩检让结果更多) 增加对相关领域(如边缘学科和交叉学科)的检索 放宽检索途径,全文主题摘要篇名/关键词 放松或取消某些限定条件,如信息的类别、语种、年代范围等 降低检索词的专指度,如用“教育”取代“高等教育” 增加同义词或近义词,并用逻辑“或”将它们
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中相见欢(金陵城上西楼)教案
- 六年级上册Unit 4 I have a pen pal Part B教案
- 七年级英语下册 Module 6 Around town Unit 1 Could you tell me how to get to the National Stadium第1课时教学设计 (新版)外研版
- 超市员工激励培训
- 六年级下册数学教案6.1 数与代数-人教新课标
- 风筒火险安全培训
- 餐厅厅面员工培训大纲
- Conefor Sensinode 2.6用户手册(中文版)
- 七年级英语下册 Unit 12 What did you do last weekend Section A 2(Grammar Focus-3c)教学设计(新版)人教新目标版
- 人教版三至四年级第一节 跑教案设计
- 东北三省三校2025届高三下学期第二次联合模拟考试物理试题及答案
- 2025年山东省济南市莱芜区中考一模地理试卷(原卷版+解析版)
- 2025陕西金融资产管理股份有限公司员工招聘(26人)笔试参考题库附带答案详解
- 2025年中国经纬仪行业市场调查研究及投资前景展望报告
- 杭州2025年浙江杭州余杭区余杭街道招聘编外劳务派遣人员25人笔试历年参考题库附带答案详解
- 2024-2025学年度四川省达州市达川区铭仁园学校高一第二学期3月月考历史试题(含答案)
- 2025年全球美容与美容个护趋势报告:中国篇
- 2025年安阳学院单招职业技能考试题库必考题
- 2025年陪玩培训考试题及答案
- 农村电工安全培训课件
- 竞彩考试试题及答案
评论
0/150
提交评论