




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息检索基础理论第1页,共77页,2022年,5月20日,16点38分,星期一信息源是指信息的来源,熟悉信息源的分布情况,有利于信息用户高效得获取信息。1.信息源的类型文献信息源文献是知识的一切载体,因此,文献是重要的信息源。了解文献出版的类型及特点,熟悉文献载体及制作方式,对于及时有效的获取信息至关重要。文献的类型第2页,共77页,2022年,5月20日,16点38分,星期一2.按照文献的结构等级(文献的加工程度)划分即是按文献中信息量变化情况来划分,可分为四个等级(1)零次文献:指那些未来得及记录下来,尚未发表或不宜公开和大范围内交流的比较原始的素材、底稿、手稿、工作总结、考察记录、调查稿
2、、原始统计教据、科技档案及各种口法交流的知识、经验、情报、意见以及各种操作规范性方面的知识等。如实验记录、手稿、原始录音、原始录像、谈话记录等。零次文献在原始文献的保存、原始数据的核对、原始构思的核定(权利人)等方面有着重要的作用。第3页,共77页,2022年,5月20日,16点38分,星期一特点:不拘形式、成文迅速、大多为原始素材、记录,可直接与当事人接触、具有很强的针对性,并且直观形象,更具有启发性,也更容易接受。但也因其自身原因,造成传播途径少、流通范围窄,或因保密或限制使用,使其极少被人们关注。近几年,随着信息业飞速发展,人们开始重视它的存在与价值。例如:录音、录像、图片、图表等第4页
3、,共77页,2022年,5月20日,16点38分,星期一(2)一次文献primary document):是指人们以自己的经验、研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现,均属一次文献。大部分期刊上发表的文章和在科技会议上发表的论文均属一次文献。特点:一般论述比较详细、具体而系统,有观点、有事实、有结论。他直接在科研、教学中祈祷参考和借鉴作用,是主要的情报源。包括:期刊论文、科技报告、专利说明书、会议论文等。例如:维普中文科技期刊数据库第5页,共77页,2022年,5月20日,16点38分,星期一(3)二次文献(secondary
4、 document):是指文献工作者对一次文献进行加工、提炼和压缩和组织之后,形成的系统的、便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。检索工具书和网上检索引擎是典型的二次文献。特点:有组织、有系统包括:目录、题录、文摘、索引等例如:工程索引Ei,科技会议录索引ISTP等第6页,共77页,2022年,5月20日,16点38分,星期一(4)三次文献tertiary document):在利用二次文献的基础上,对检索到的一次文献进行广泛、深入的分析研究后,选用先关一次文献再次经加工编写出来的成果。如综述、述评等。特点:从新的高度和深度揭示相关一次文献,是一次文献的浓缩,是情报信息重要
5、来源。例如:各种词典、百科全书、年鉴、综述、专题述评等。第7页,共77页,2022年,5月20日,16点38分,星期一文献间的相互关系零次文献:文献形成其它文献的基础一次文献:是文献的基本形式,是检索的主要对象,是二次和三次文献的基础;二次文献:是检索一次文献的工具;三次文献:是一次文献的浓缩,是对众多文献分析、综合归纳、整理而形成的。总体来说:科技文献经过加工压缩,从零次文献到三次文献,是科技文献有分散到集中,有无组织到系统第8页,共77页,2022年,5月20日,16点38分,星期一3.根据文献编辑出版形式划分(1)图书: 工具书、普通图书(2)特种文献: 科技报告、专利文献、学位论文、标
6、准文献、会议文献、政府出版物、产品资料(3)连续出版物: 期刊、报纸第9页,共77页,2022年,5月20日,16点38分,星期一图书:凡篇幅达48页以上,并构成一个书目单元的文献成为图书。识别点:ISBN号;书名;作者;出版社名称、地点;出版年;页数期刊:指定期连续出版,有固定的刊名并编有时序号或数序号的出版物。识别点:ISSN号;刊名;年、卷、期号;页码期刊论文:是从期刊中析出的文献识别点:ISSN号;刊名;年、卷、期号;页码第10页,共77页,2022年,5月20日,16点38分,星期一科技报告:有关科研工作记录或成果的报告。科技报告是科技工作者围绕某个课题研究取得成果的正式报告,或对某
7、个课题研究过程中各个阶段进展情况的实际记录。识别点:报告号例如:朱家荷,韩调.铁路区间通过能力计算方法的研究R.北京:铁道部科学研究院运输及经济研究所,1989第11页,共77页,2022年,5月20日,16点38分,星期一会议文献:是在各种学术、专题会议上发表的论文和报告。识别点:会议名称;会议录出版时间;会议时间;会议地址例如:徐竹青.编码在计算机与信息科学中的地位和作用的新探讨A。见:2001全国计算机新科技与计算机继续教育学术会议论文集C.北京:中国见算计学会,2001.166-169第12页,共77页,2022年,5月20日,16点38分,星期一专利文献:形成过程中产生的一系列官方文
8、件和有关出版物的总称识别点:专利号;专利国别;专利权人;专利有限日期等例如:冯其波.一种激光多自由度测量系统与方法:中国,ZL2003105126.XP.2003-09-03第13页,共77页,2022年,5月20日,16点38分,星期一标准文献:经过工人的权威当局批准的以文件形式表达出的统一规定。包括技术标准、技术规格和技术规则等文献的总称。识别点:标准号例如:GB/T 166642-1996 计算机集成制造系统体系结构S.北京:国家技术监督局,1996.第14页,共77页,2022年,5月20日,16点38分,星期一学位论文:高等学校或研究院所的学生在导师指导下从事某一学术课题的研究,未获
9、得某中学为而撰写的学位论文。识别点:学位;学位论文名称;颁发学位的单位及其地址;授予学位的时间。例如:阮小波.90年代以来中国大众文化研究的回顾与反思硕士论文.浙江:浙江师范大学,2006.第15页,共77页,2022年,5月20日,16点38分,星期一政府出版物:指各国政府部门及其所属机构所发表、出版的文件。其内容广泛,概括可以分为行政性文献和科技文献两大类。识别点:有数;报告;会议录等多种形式产品资料:指国内外各厂商为推销产品而一发的一种商业性宣传资料。包括产品样本、产品目录、产品说明书、厂商介绍、技术座谈资料等。第16页,共77页,2022年,5月20日,16点38分,星期一技术档案:指
10、企业或科研机构在技术工作中形成的有一定工程对象的技术文件。如任务书、协议书、技术经济指标和审批文件、研究计划方案大纲等。其它文献:包括广播、电视、报纸等大众传媒、科技电影、卫星资料等第17页,共77页,2022年,5月20日,16点38分,星期一各类型出版物的特点比较内容新颖性:科技报告 专利 期刊 会议文献 图书信息报道速度:科技报告 期刊 会议论文 专利流通范围广度:期刊 图书 会议文献 专利 政府出版物发行量:期刊 专利 图书 会议文献具有法律性:专利、标准 易于获得程度:期刊 图书 会议文献 专利 标准 政府出版物 学位论文 科技报告第18页,共77页,2022年,5月20日,16点3
11、8分,星期一2.政府信息源是国家机关及其所属部门颁发的文件,包括政府报告、政策法令、规章制度、会议纪要、调查统计资料等。随着我国的政府公开条例的实施与电子政府的大力推进,我国通过网络公开的政府信息资源日渐丰富。中央政府门户网站(1)中华人民共和国中央人民政府门户网站)是国务院和国务院各部门,以及各省、自治区、直辖市人民政府在国际互联网上发布政府信息和提供在线服务的综合平台。第19页,共77页,2022年,5月20日,16点38分,星期一中央政府门户网站第20页,共77页,2022年,5月20日,16点38分,星期一(2)四个基础信息库人口基础数据库由公安部牵头,国家计生委、国家统计局、民政部等
12、部门参与建设,以公民身份标志码为唯一标志的人口基础信息库和查询服务系统,实现人口信息计算机管理和联机查询,为各电子政务业务系统提供人口信息服务。法人单位基础信息库自然资源和地理空间基础信息库宏观经济基础数据库(3)其他的政府信息资源法律法规:专利:标准:商标:统计数据与经济金融信息:科研信息:企业信用信息:贸易信息:产品质量信息第21页,共77页,2022年,5月20日,16点38分,星期一政府信息资源第22页,共77页,2022年,5月20日,16点38分,星期一统计数据与经济金融信息第23页,共77页,2022年,5月20日,16点38分,星期一产品质量信息第24页,共77页,2022年,
13、5月20日,16点38分,星期一3.行业协会信息源指介于政府、企业之间,商品生产业与经营者之间,并未其提供服务、咨询、沟通、监督、公正、自律、协调的社会中介组织,是一种民间性组织,它不属于政府管理机构系列,它是政府与企业的桥梁和纽带。据民政部消息,截至2004年12月,我国31省(市、区)(未含港澳台)各类行业协会已达45 736家。截至2008年8月13日,被中央政府网()收录的全国性行业协会共299家。协会一般都建有自己的网站,查找该内网站的方法是搜索引擎,搜索词为“行业名称协会网”;或直接用“行业名称网”。第25页,共77页,2022年,5月20日,16点38分,星期一上海市汽车行业协会
14、第26页,共77页,2022年,5月20日,16点38分,星期一4.公益信息服务部门信息源主要包括国家图书馆及各省、市、县、乡镇公共图书馆,各高等院校图书馆、中国科学院几个分院文献中心、中国社科院几个分院文献中心,中央党校及各省市党校图书馆,中国科技信息研究所及省市县科技信息研究所,国家档案馆所及各个省市县档案馆,中央各部委及省市各委局的信息中心等。公益信息服务机构或联合体,拥有大量的信息资源,承担为公众提供服务的责任。第27页,共77页,2022年,5月20日,16点38分,星期一公益信息服务部门第28页,共77页,2022年,5月20日,16点38分,星期一公益信息服务部门第29页,共77
15、页,2022年,5月20日,16点38分,星期一公益信息服务部门第30页,共77页,2022年,5月20日,16点38分,星期一公益信息服务部门第31页,共77页,2022年,5月20日,16点38分,星期一5.内容信息服务商新信息源商业综合网站,如搜狐、腾讯、新浪、网易各种电子商务网站,如淘宝、阿里巴巴、支付宝等搜索引擎,如百度、google等商业数据库,如维普、万方数据库等其他内容信息服务商所开发运营的网站、数据库等第32页,共77页,2022年,5月20日,16点38分,星期一综合网站第33页,共77页,2022年,5月20日,16点38分,星期一搜索引擎第34页,共77页,2022年,
16、5月20日,16点38分,星期一商业数据库第35页,共77页,2022年,5月20日,16点38分,星期一6.信息咨询及中介咨询机构信息源会计师事务所律师事务所市场信息调查机构咨询服务机构(公司)生产力促进中心7.个人信息源是指居民个人拥有的可为他人提供服务的信息资源。主要包括个人学术网站、个人博客、个人播客、个人威客、专家在线咨询、人肉搜索引擎的等。第36页,共77页,2022年,5月20日,16点38分,星期一 普华永道会计师事务所(Price Waterhouse Coopers PLL) 第37页,共77页,2022年,5月20日,16点38分,星期一咨询服务机构(公司)第38页,共7
17、7页,2022年,5月20日,16点38分,星期一个人信息源第39页,共77页,2022年,5月20日,16点38分,星期一8.信息保障系统信息源“在图书馆很难借到你真正需要的书,在internet上总能找到你不需要的东西。”如何打破此困境?答案是信息联合保障。中国高等文献保障系统()国家科技图书文献中心()中国高校人文社科文献中心高等学校中英文图书数字化国际合作计划国家科技基础条件平台全国文化信息资源共享工程国际联机计算机图书中心Google全球数字图书馆第40页,共77页,2022年,5月20日,16点38分,星期一中国高等文献保障系统第41页,共77页,2022年,5月20日,16点38
18、分,星期一国家科技图书文献中()第42页,共77页,2022年,5月20日,16点38分,星期一全国文化信息资源共享工程第43页,共77页,2022年,5月20日,16点38分,星期一高等学校中英文图书数字化国际合作计划第44页,共77页,2022年,5月20日,16点38分,星期一寻找信息源的方法1.按信息的生产使用者查询该信息的生产者是谁?使用者是谁?相关者是谁(管理者)?查找信息可以从上述方面进行:比如:铁路法规,制定者是全国人大,使用者是铁道部,相关者是法院和一些律师事务所,铁路法规就可以从上面网站中分别获取第45页,共77页,2022年,5月20日,16点38分,星期一2.从信息收藏
19、与传播工具进行检索比如,学术文章去专业期刊查,而你不是报纸和杂志,公开、免费信息可用网络搜索引擎检索科技商业信息可用数据库进行检索第46页,共77页,2022年,5月20日,16点38分,星期一3.从信息行业属性检索,包括行业学会、行业协会等第47页,共77页,2022年,5月20日,16点38分,星期一按信息源途径查询去哪里查询资料?图书馆搜索引擎(网络)信息(情报)所(中心)第48页,共77页,2022年,5月20日,16点38分,星期一信息检索基础理论信息检索(information retrieval)广义角度看,信息检索包括信息存储和信息获取两个过程。信息存储指通过对大量无序信息的选
20、择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之有序化信息集合的过程。获取是存储的逆过程,其实质是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。存储是获取的前提和基础,没有存储就没有获取,而获取是存储的目的,二者密切联系,互相依存,缺一不可。狭义角度看,从信息集合中迅速、准确地查找出所需信息的程序和方法,即信息获取的过程。第49页,共77页,2022年,5月20日,16点38分,星期一信息检索的原理就是将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符的信息予以输出。无论手工检索还是计算机检索,其基本原理都是一样的。也就是说
21、,检索系统对所要存储的信息,按照其外部特征和内容特征赋予特征标识,然后存入系统。检索时,将所需信息的特征标识与所存信息的特征标识进行比较,凡是两边标识一致的,就将具有这些标识的信息从检索系统中输出。具体如图:第50页,共77页,2022年,5月20日,16点38分,星期一检索流程图信息需求信息标引表达检索提问信息标知比较与匹配检索结果评价/反馈第51页,共77页,2022年,5月20日,16点38分,星期一信息检索的类型文献检索(document retrieval)是以文献(包括文献、题录和全文)为检索对象,从以存储的文献数据查找出特定文献的过程,是文献检索的核心部分。第52页,共77页,2
22、022年,5月20日,16点38分,星期一数据检索Date retrieval以数据为检索对象,从以收藏数据资料中查找特定数据的过程,包括物质的各种参数、电话号码、银行转账、观测数据、统计数据等数字数据,也包括图表、图谱、市场行情、化学分子式、物质的各种特性等非线性数字数据,是一种确定性检索,信息用户检索到各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。例如:检索2009年中国国民生产总值是什么?第53页,共77页,2022年,5月20日,16点38分,星期一事实检索Fact retrieval是通过对存储文献中已有的基本事实,或对数据进行处理后得出的事实的过程。其检索对象既包
23、括事实、概念、思想、知识等非线性数值信息,也包括一些数据信息,但需要针对查询要求,有检索系统进行分析、推理后,再输出最终结果。第54页,共77页,2022年,5月20日,16点38分,星期一信息检索的演变手工检索系统计算机检索系统网络检索阶段信息检索的未来阶段第55页,共77页,2022年,5月20日,16点38分,星期一信息检索系统信息检索系统:是指根据特定的信息需求而建立起来的一种有关信息搜索、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。包括:信息、检索技术设备、检索语言及方法构成:输入功能、存储功能、处理功能、输出功能及控制功能。一般来说,信息检索系统包括6各主要的子系
24、统:信息选择子系统信息索引子系统词表管理子系统检索子系统用户同系统之间交互子系统匹配子系统第56页,共77页,2022年,5月20日,16点38分,星期一检索语言检索语言是文献存贮和检索所遵循的一种规范。在文献组织和检索中,检索语言用来描述文献外部特征或文献内部特征,对文献进行排序及检索提问。使信息组织者和检索者达到共同理解,实现存取统一。 检索语言保证了不同标引人员表达文献的一致性,保证了检索提问与文献标引的一致性,保证了检索结果与检索要求的一致性。第57页,共77页,2022年,5月20日,16点38分,星期一检索语言分类检索语言非控制语言(非人工语言)控制语言(人工语言)题名、刊名责任者
25、姓名专利号、档案号等关键词分类号主题语言分类语言叙词第58页,共77页,2022年,5月20日,16点38分,星期一检索语言按照何种特征描述划分检索语言表述文献外表特征表述文献内容特征题名、刊名责任者姓名专利号、档案号等分类号主题语言分类语言叙词关键词第59页,共77页,2022年,5月20日,16点38分,星期一检索语言分类检索语言分类检索语言主题检索语言分类主题检索语言古代分类法现代分类法人大法科图法中图法四部分类法中图法通用复分表第60页,共77页,2022年,5月20日,16点38分,星期一分类语言分类是指依据事物的属性或特征进行区分和类聚,并将区分结果按照一定次序组织起来的活动。 分
26、类语言,(又可称为信息资源分类法、文献分类法),是使用分类方法将文献主题概念区分、归纳形成类目体系,然后以号码为基本字符,用分类号表达类目体系中每个主题概念的检索语言。按照编制的原理可分为三种类型:体系分类法分面组配式半分面分类法 第61页,共77页,2022年,5月20日,16点38分,星期一 体系分类法 体系分类法是基于以学科门类为基础,根据文献的内部和某些外部特征,运用概念划分的原则,按知识门类的逻辑次序由总体到分支、由一般到具体、由简单至复杂进行层层划分,逐级展开。一个大类或上位类每划分一次产生许多子类目,所有不同级别的子类目向上层层隶属,向下级级派生,从而形成了一个严格有序的直线性知
27、识门类等级体系。 中国图书馆图书分类法是最常用的体系分类法。 第62页,共77页,2022年,5月20日,16点38分,星期一中国图书馆图书分类法中国图书馆图书分类法(简称中图法是目前国内最常用的体系分类语言。 1975年出版第一版 1998年出版第四版 中图法以各门学科的特点和规律为基础,按照知识门类的逻辑次序,将学科划分为五个基本部类、二十二个基本大类。 中图法的五个部类为:马克思主义、列宁主义、毛泽东思想;哲学;社会科学;自然科学;综合性图书。 第63页,共77页,2022年,5月20日,16点38分,星期一体系分类法及其原理 优点:便于检索、检全某一学科、某一专业方面的文献,可根据需要
28、扩大或缩小检索范围;对于某一个学科的检索方便有效。 缺点:现代科技交叉渗透,使得 知识难以精确细分,受类目表的限制, 使得查准率降低,容易漏检。第64页,共77页,2022年,5月20日,16点38分,星期一中图法二十二个大类A 马克思主义、列宁主义、毛泽东思想B 哲学C 社会科学总论D 政治、法律E 军事F 经济 G 文化、科学、教育、体育H 语言、文字I 文学 J 艺术K 历史、地理N 自然科学总论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航空、航天X 环境科学Z 综合性图书第65页,共77页,2022年,5月20日,16点38
29、分,星期一其它体系分类法1.中国科学院图书馆图书分类法(简称科图法):分为五大部二十五大类。至今仍有使用。2.杜威十进分类法(Dewey Decimal Classification an Relative Index,简称DC或DDC)。1876年问世,将图书分为10个大类,采用单纯阿拉伯数字做标记。目前有两个版本。有电子版和网络版。是当今世界流行最广的分类法。3.美国国会图书馆图书分类法(Library of Congress Classification,简称LCC):美国国会图书馆编制。共设21个基本大类,采用字母数字混合号码标记类目。第66页,共77页,2022年,5月20日,16点
30、38分,星期一主题检索语言采用语词直接作为文献主题标识,按字顺排列主题标识,提供各种检索词语的途径。类型:标题词语言单元词语言叙词语言关键词语言特点:专指性高、直观性好、灵活性强第67页,共77页,2022年,5月20日,16点38分,星期一检索途径检索途径就是检索文献的出发点及路线,有时也称“检索点”,从文献的特征出发,将其特征值域检索系统中标引数据进行计算比较,通过匹配达到检索目的。常用检索途径:主题途径 分类途径作者途径 号码途径题名途径 引文途径其他途径第68页,共77页,2022年,5月20日,16点38分,星期一检索策略和方法检索策略:即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。检索表达式:检索表达式是检索策略的具体体现,简称检索式。检索式一般有检索词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。检索式构造的优劣关系到检索策略的成败。第69页,共77页,2022年,5月20日,16点38分,星期一检索表达式主要有:逻辑表达式、加权表达式、位置检索表达式、截词检索表达式,限制检索表达式等,其中,最为常用的是逻辑表达式。逻辑表达式:是指利用布尔
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届广东省深圳市翻身实验学校高三第六次模拟考试化学试卷含解析
- 2025年运维软件项目合作计划书
- 河北雄安新区博奥高级中学2025年高三考前热身化学试卷含解析
- 快速学习工作总结
- 2025届河北大名一中高三下学期第六次检测化学试卷含解析
- 中学网络安全知识竞赛含答案
- 云南省玉溪市第二中学2025届高考化学倒计时模拟卷含解析
- 护理岗位述职报告
- 2025年拖拉机及农林牧渔用挂车项目发展计划
- 2025年厚膜工艺电源项目建议书
- 模块三 幼儿教师职业口语训练课件 第十单元 幼儿教师教学口语
- 2024年中国劳动关系学院校聘岗位招聘考试真题
- 《劳动最光荣》名师课件
- 消防安全责任制度试题及答案
- GB/T 22474-2025果蔬、花卉酱质量通则
- 物业管理人员职业倦怠预防与心理疏导
- 电炉炼钢工职业技能知识考试题库
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蚀工程施工及验收规范
- 精神发育迟滞的护理查房
- 麦肯锡——大数据:创新、竞争和生产力的下一个前沿
- 实现秸秆发酵饲料产业化--秸秆发酵饲料技术原理与应用示范
评论
0/150
提交评论