




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、整理课件信息检索基础知识信息检索基础知识孙玉孙玉045182519545045182519545整理课件内容q信息资源概述信息资源概述q信息检索原理信息检索原理q信息检索语言信息检索语言q信息检索途径与检索标识信息检索途径与检索标识q信息检索技术信息检索技术q信息检索策略与方法信息检索策略与方法整理课件 信息资源概述 信息资源的概念信息资源的概念信息资源的特征信息资源的特征信息资源的分类信息资源的分类数字信息资源的概念数字信息资源的概念数字信息资源的特征数字信息资源的特征数字信息资源的分类数字信息资源的分类 整理课件 什么是信息资源?信息资源的基本概念:信息资源的基本概念:1、信息的概念、信息
2、的概念2、资源的概念、资源的概念3、如何认识信息资源、如何认识信息资源整理课件信息的概念p信息的概念:信息的概念: 到目前为止,人们对信息的概念尚无统一到目前为止,人们对信息的概念尚无统一 的定论的定论。中国大百科全书中的观点:信息是用来中国大百科全书中的观点:信息是用来消除不定性的东西。消除不定性的东西。整理课件信息的相关概念p与信息相关的几个概念与信息相关的几个概念u知识:人类对客观事物规律性的认识。知识:人类对客观事物规律性的认识。 从信息角度,它是系统化和精炼化的信息,是从信息角度,它是系统化和精炼化的信息,是 人的大脑通过思维重组的系统化的信息集合。人的大脑通过思维重组的系统化的信息
3、集合。u文献:记录知识的一切载体。文献:记录知识的一切载体。 具体说是用文字、图形、符号、音频、视频等技具体说是用文字、图形、符号、音频、视频等技 术手段记录人类知识的一切物质载体。术手段记录人类知识的一切物质载体。u情报:为一定目的而搜集和传递的有特定效用的知识。情报:为一定目的而搜集和传递的有特定效用的知识。 整理课件关系图 p信息、知识、文献、情报之间的关系信息、知识、文献、情报之间的关系 整理课件资源的概念p资源的概念:资源的概念: 一切对人类社会发展发挥作用的客观存在。一切对人类社会发展发挥作用的客观存在。 如土地资源、海洋资源、生物资源、环境如土地资源、海洋资源、生物资源、环境 资
4、源、人的智力、信息等。资源、人的智力、信息等。 整理课件信息资源的概念p信息资源的概念:信息资源的概念: 信息是普遍存在的,但并非所有的信息都是信息资源,信息是普遍存在的,但并非所有的信息都是信息资源,只有经过人类主观加工或处理,可以传播与共享,对只有经过人类主观加工或处理,可以传播与共享,对社会生活发挥积极作用信息才可称为信息资源。社会生活发挥积极作用信息才可称为信息资源。 整理课件信息资源概念p信息资源的概念:信息资源的概念: 我国学者邱均平在我国学者邱均平在论信息资源与社会发展的关系论信息资源与社会发展的关系一文中认为,信息资源有两种理解:一文中认为,信息资源有两种理解: 狭义的理解:信
5、息资源是指文献资源或数据资源,或狭义的理解:信息资源是指文献资源或数据资源,或者包含文字、声像、印刷品、电子信息、数据库等。者包含文字、声像、印刷品、电子信息、数据库等。但仅限于信息本身。但仅限于信息本身。 广义的理解:信息资源是信息活动中各种要素的总称。广义的理解:信息资源是信息活动中各种要素的总称。这既包括了信息本身,也包括了与信息相关的人员、这既包括了信息本身,也包括了与信息相关的人员、设备、技术和资金等各种资源。设备、技术和资金等各种资源。 整理课件信息资源基本特征p信息资源的基本特征:信息资源的基本特征:u信息资源的普遍性信息资源的普遍性u信息资源的传递性信息资源的传递性u信息资源的
6、时效性信息资源的时效性u信息资源的可转换性信息资源的可转换性u信息资源的共享性信息资源的共享性 整理课件整理课件按载体形式分类印刷型、缩微型、声像型和电子型信息资源。印刷型、缩微型、声像型和电子型信息资源。 整理课件按出版形式分类信息资源信息资源 会议文献会议文献专利文献专利文献学位论文学位论文科技报告科技报告标准文献标准文献产品资料产品资料政府出版物政府出版物科技档案科技档案 专著专著教科书教科书丛书丛书工具书工具书 期刊期刊报纸报纸 图图 书书连续出版物连续出版物特特 种种 文文 献献 整理课件国际标准书号p所有正规出版的普通图书都有一个唯一标识,即国际标准书所有正规出版的普通图书都有一个
7、唯一标识,即国际标准书号号( International Standard Book Number)( International Standard Book Number), 简称简称ISBNISBN号;号;pISBNISBN号是国际标准化组织于号是国际标准化组织于19721972年公布的一项国际通用的出年公布的一项国际通用的出版物统一编号方法;版物统一编号方法;p20072007年以前,年以前,ISBNISBN执行的是执行的是1010位数系统,自位数系统,自20072007年年1 1月月1 1日起,日起,图书图书ISBNISBN号由原来的号由原来的1010位升级到位升级到1313位,在原有
8、位,在原有1010位数字的基位数字的基础上增加了础上增加了3 3位前缀码,是国际编码协会为位前缀码,是国际编码协会为ISBNISBN分配的专用编分配的专用编码码978978(979979)。除此之外的)。除此之外的1010位分别为地区号位分别为地区号- -出版者号出版者号- -书书序号序号- -校验号。校验号。整理课件图书标准书号如如ISBN 978-7-5628-1950-9:ISBN 978-7-5628-1950-9:“978”“978”是前缀码;是前缀码;“7”7”是地区号,又叫组号,最短的只有一位数字,最长的达五位是地区号,又叫组号,最短的只有一位数字,最长的达五位数字,大体上兼顾文
9、种、国别和地区。如数字,大体上兼顾文种、国别和地区。如7 7是中国出版物使用的是中国出版物使用的代码;代码;“5628”5628”是出版社号,由国家或地区的是出版社号,由国家或地区的ISBNISBN中心设置并分给各个出中心设置并分给各个出版社;版社; “1950”1950”是书序号,是出版者分配给每一个出版物的编号;是书序号,是出版者分配给每一个出版物的编号; “9”9”是计算机校验码,校验码是是计算机校验码,校验码是ISBNISBN号的最后一位数值,它能够号的最后一位数值,它能够校验出校验出ISBNISBN号是否正确。校验码只能是号是否正确。校验码只能是1 1位数,当为位数,当为1010时,
10、记为时,记为罗马数字罗马数字X X; 整理课件国际标准期刊号p每一种期刊在注册登记时,都会得到一个国际标准连续出版每一种期刊在注册登记时,都会得到一个国际标准连续出版物号(物号(International Standard Serial NumberInternational Standard Serial Number),即),即ISSNISSN号。号。pISSNISSN号是号是ISDSISDS(国际连续出版物数据系统)国际中心为在该(国际连续出版物数据系统)国际中心为在该系统登记的连续出版物分配的号码。系统登记的连续出版物分配的号码。ISSNISSN号由八位数字构成,号由八位数字构成,分前
11、后两段,段与段之间用分前后两段,段与段之间用“- -”相连。相连。 一个一个ISSNISSN号只对应一个刊名,一个刊名也只有一个号只对应一个刊名,一个刊名也只有一个ISSNISSN号。号。 当期刊更名,就得另申请一个当期刊更名,就得另申请一个ISSNISSN号,当期刊停刊,被删除号,当期刊停刊,被删除 的的ISSNISSN号也不会被其它期刊使用。号也不会被其它期刊使用。整理课件按加工程度分类 零次信息:零次信息: 指未经正式出版发行的最原始的记录,如书信、论文指未经正式出版发行的最原始的记录,如书信、论文 手稿、笔记、实验记录等。手稿、笔记、实验记录等。 一次信息:一次信息: 以作者本人的生产
12、和科研工作为依据而创作的原始信以作者本人的生产和科研工作为依据而创作的原始信 息。如专著、教材、学术论文等。息。如专著、教材、学术论文等。 二次信息:二次信息: 将分散的无序的一次信息进行加工整理后,使之成为将分散的无序的一次信息进行加工整理后,使之成为 系统有序的信息。系统有序的信息。 如书目、引文索引、搜索引擎的如书目、引文索引、搜索引擎的 搜索结果等。搜索结果等。 三次信息:三次信息: 根据二次信息提供的线索,利用一次信息,经过调研、根据二次信息提供的线索,利用一次信息,经过调研、 分析、综合而形成的。如百科全书、综述、述评、字分析、综合而形成的。如百科全书、综述、述评、字 词典等。词典
13、等。 整理课件信息级别示意图信息级别示意图整理课件数字信息资源的概念p数字信息资源的概念:数字信息资源的概念:u数字信息资源又称为电子信息资源,是一个以信息技术数字信息资源又称为电子信息资源,是一个以信息技术为依托的全新领域,它以数字化形式(即二进制为依托的全新领域,它以数字化形式(即二进制0 0、1 1),),把文字、图片、声音、动画等多种形式的信息存储在非把文字、图片、声音、动画等多种形式的信息存储在非印刷介质上,以光信号、电信号的形式传输,并通过相印刷介质上,以光信号、电信号的形式传输,并通过相应的计算机和其他外部设备再现出来的信息资源。应的计算机和其他外部设备再现出来的信息资源。u数字
14、信息包括包括文字、图片、声音、动态图像等,数字信息包括包括文字、图片、声音、动态图像等, 都是以数字代码方式存储在磁带、磁盘、光盘等介质都是以数字代码方式存储在磁带、磁盘、光盘等介质 上,通过计算机输出设备和网络传送出去,最终显示在上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。用户的计算机终端上。整理课件数字信息资源的特点p数字信息资源的特点:数字信息资源的特点: 与传统的信息资源形式相比:与传统的信息资源形式相比:u存储形式多样化存储形式多样化u资源数字化资源数字化u交流程度高交流程度高u提高了利用效率提高了利用效率u内容丰富内容丰富u载体容量大载体容量大 整理课件整理
15、课件 信息检索原理 信息检索的含义信息检索的含义信息检索的原理图信息检索的原理图信息检索的类型信息检索的类型整理课件 信息检索的含义u信息检索的过程涉及信息的存储和检索两个过程。信息检索的过程涉及信息的存储和检索两个过程。u信息检索就是把检索提问与存储在检索工具中的标引、信息检索就是把检索提问与存储在检索工具中的标引、标识进行比较,两者一致或信息标引的标识包括着检索标识进行比较,两者一致或信息标引的标识包括着检索提问的标识,则具有该标识的信息就从检索工具输出,提问的标识,则具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。输出的信息就是检索命中的信息。 整理课件p信息检索原理图:
16、信息检索原理图: 整理课件信息检索类型p依检索内容化分:依检索内容化分:1.1.文献信息检索:凡是利用目录、文摘或索引等二次信息查找某一文献信息检索:凡是利用目录、文摘或索引等二次信息查找某一课题、某一著者、某一地域、某一机构、某一事物的有关信息以课题、某一著者、某一地域、某一机构、某一事物的有关信息以及这些信息的出处和收藏单位,都属于文献信息检索范畴,其检及这些信息的出处和收藏单位,都属于文献信息检索范畴,其检索的结果就是文献信息。例如,索的结果就是文献信息。例如,“设计人行天桥的参考文献有哪设计人行天桥的参考文献有哪些?些?”2.2.数据信息检索:凡是利用参考工具书、数据库等检索工具检索包
17、数据信息检索:凡是利用参考工具书、数据库等检索工具检索包含在文献中的某一数据、参数、公式或化学分子式等,统称为数含在文献中的某一数据、参数、公式或化学分子式等,统称为数据信息检索。例如,据信息检索。例如,“某一新型载货汽车的载重量是多少,百公某一新型载货汽车的载重量是多少,百公里油耗是多少?里油耗是多少?” “今日人民币对美元汇率今日人民币对美元汇率”3.3.事实信息检索:凡是利用百科全书等检索工具从存储事实的信息事实信息检索:凡是利用百科全书等检索工具从存储事实的信息系统中查找出某一事实的具体答案的过程称为事实信息检索,其系统中查找出某一事实的具体答案的过程称为事实信息检索,其检索结果是基本
18、事实。例如,检索结果是基本事实。例如,“世界上最长的斜拉桥是哪座,该世界上最长的斜拉桥是哪座,该桥位于什么地方,何时建成?桥位于什么地方,何时建成?”整理课件 信息检索语言 信息检索语言的概念信息检索语言的概念中图分类法中图分类法索书号的构成索书号的构成国际专利分类法国际专利分类法标准分类法标准分类法整理课件信息检索语言的概念 u信息检索语言(信息检索语言(Retrieval languageRetrieval language)是用来描述文献)是用来描述文献的内容特征、外表特征和表达用户信息提问的一种专门的内容特征、外表特征和表达用户信息提问的一种专门语言。语言。u 当存储信息时,检索系统对
19、文献内容进行分析,概括当存储信息时,检索系统对文献内容进行分析,概括 分析出若干能代表文献内容的词语,并赋予一定的标识,分析出若干能代表文献内容的词语,并赋予一定的标识, 如题名、著者、主题词等,作为存储与检索的依据,然如题名、著者、主题词等,作为存储与检索的依据,然 后被纳入到数据库中。后被纳入到数据库中。u 当检索信息时,检索人员首先要对检索课题进行分析,当检索信息时,检索人员首先要对检索课题进行分析, 同样形成若干能代表信息需求的词语,然后通过检索系同样形成若干能代表信息需求的词语,然后通过检索系 统在数据库中匹配具有同样词语和标识的文献,找到自统在数据库中匹配具有同样词语和标识的文献,
20、找到自 己所需要的信息。己所需要的信息。整理课件信息检索语言整理课件信息检索语言检索语言检索语言的类型的类型描述内容描述内容特征语言特征语言描述外表描述外表特征语言特征语言主题语言分类语言题名责任者编号其他自然语言受控语言整理课件中国图书馆分类法p中图法中图法是按照一定的思想观点,以学科分类为是按照一定的思想观点,以学科分类为基础,结合图书资料的内容和特点,分门别类组成基础,结合图书资料的内容和特点,分门别类组成的分类表,它是我国各类图书馆普遍使用的一部综的分类表,它是我国各类图书馆普遍使用的一部综合性的图书分类法。合性的图书分类法。p中图法中图法的分类号是由英文字母与阿拉伯数字相的分类号是由
21、英文字母与阿拉伯数字相结合而成,先以字母表示大类,再以数字来进行细结合而成,先以字母表示大类,再以数字来进行细分。字母后数字的设置,采用小数制,超过三位时,分。字母后数字的设置,采用小数制,超过三位时,用小圆点用小圆点“. .”作为间隔符号隔开,如;作为间隔符号隔开,如;整理课件中国图书馆图书分类法中国图书馆图书分类法整理课件索书号索书号是图书馆赋予每一种馆藏图书的号码,每种图书的索书号是图书馆赋予每一种馆藏图书的号码,每种图书的索书号是唯一的,可借以准确地确定馆藏图书在书架上的索书号是唯一的,可借以准确地确定馆藏图书在书架上的排列位置,是读者查找图书非常必要的代码信息。排列位置,是读者查找图
22、书非常必要的代码信息。通常情况下,索书号由两部分组成通常情况下,索书号由两部分组成: :第一部分是根据图书的学科主题所取用的分类号码。如哈第一部分是根据图书的学科主题所取用的分类号码。如哈尔滨工程大学图书馆目前采用的是尔滨工程大学图书馆目前采用的是中国图书馆分类法中国图书馆分类法(第四版)。索书号中带有分类号码,使同一学科主题的(第四版)。索书号中带有分类号码,使同一学科主题的图书比较集中地排列在书架上,方便读者按类查找图书。图书比较集中地排列在书架上,方便读者按类查找图书。 索书号的第二部分是按照图书作者姓名所编排的著者号码,索书号的第二部分是按照图书作者姓名所编排的著者号码,或者是按照图书
23、进入馆藏时间的先后所取用的顺序号码。或者是按照图书进入馆藏时间的先后所取用的顺序号码。整理课件信息检索语言p索书号的构成索书号的构成u信息检索概论信息检索概论祁延莉编祁延莉编uAutoCAD 2005AutoCAD 2005建筑制图建筑制图曾维富曾维富, , 陈良陈良 等编著等编著.TU204-39/Z05.TU204-39/Z05u台球速成:新编台球速成:新编张宝荣编著张宝荣编著. . G893/Z10/(2) G893/Z10/(2) 表示我馆收藏的该作者的第二部著作表示该著作第二版整理课件信息检索语言整理课件索书号同一类分类号中带同一类分类号中带“”符的排在符的排在“0”0”符之前:符之
24、前:如:如:H-61/1 H-61/1 H0-61/1 H0-61/1 H1-61/1H1-61/1 同一种分类号先带横杠后带点:同一种分类号先带横杠后带点:如:如:H313/30 H313/30 H313-44/20 H313-44/20 H313.1/80 H313.1/80 整理课件重新排列下列索书号TP145.42/S16/(2) TP145-42/ L34整理课件国际专利分类法 国际专利分类法国际专利分类法 (International Patent ClassificationInternational Patent Classification),简称),简称IPCIPC。 世界
25、上除美国、日本和欧洲的一些国家外,大多数(包括我国)世界上除美国、日本和欧洲的一些国家外,大多数(包括我国) 实行专利制度的国家都采用实行专利制度的国家都采用国际专利分类法国际专利分类法,而且各国特,而且各国特 有的专利分类法与有的专利分类法与国际专利法国际专利法之间都有对照表。之间都有对照表。p IPC IPC是由字母和数字构成的五级分类,由部、大类、小类、主组是由字母和数字构成的五级分类,由部、大类、小类、主组 p 和分组构成的一个等级式分类系统。和分组构成的一个等级式分类系统。p IPC IPC包括可以申请专利的全部技术领域,整个分类表分成包括可以申请专利的全部技术领域,整个分类表分成A
26、 A人类人类p 生活需要(农、轻、医);生活需要(农、轻、医);B B作业、运输;作业、运输;C C化学、冶金;化学、冶金;D D纺织、纺织、p 造纸;造纸;E E固定建筑物(建筑、采矿);固定建筑物(建筑、采矿);F F机械工程、照明、加热、机械工程、照明、加热、p 武器、爆破;武器、爆破;G G物理,物理,H H电学电学8 8个部。每一个部下面都有详细的使个部。每一个部下面都有详细的使p 用说明。用说明。整理课件国际专利分类法例例:G21C1/30:G21C1/30G G部、部、2121大类、大类、C C小类、小类、1 1主组、主组、3030分组;分组;整理课件标准分类法p中国标准分类法中
27、国标准分类法(Chinese Classification StandardsChinese Classification Standards,简称简称CCSCCS)进行分类,分类法采用二级分类,一级类目的设置)进行分类,分类法采用二级分类,一级类目的设置以专业划分为主,由以专业划分为主,由2424个大类组成,使用大写字母表示,每个大类组成,使用大写字母表示,每个大类有个大类有100100个二级分类个二级分类 ,由双数字表示。,由双数字表示。p国际标准分类法(国际标准分类法(International Classification for International Classificatio
28、n for StandardsStandards,简称,简称ICSICS)采用三级类目构成:第一级分为)采用三级类目构成:第一级分为4141个个大类,每个大类以二位数字表示;全部一级类目再细分为大类,每个大类以二位数字表示;全部一级类目再细分为387387个二级类目,二级类目的类号由一级类目的类号和被圆点隔个二级类目,二级类目的类号由一级类目的类号和被圆点隔开的三位数组成;二级类目又再细分为三级类目,共有开的三位数组成;二级类目又再细分为三级类目,共有789789个,个,三级类目的类号由一、二级类目的类号和被圆点隔开的二位三级类目的类号由一、二级类目的类号和被圆点隔开的二位数组成。数组成。整理
29、课件标准分类法 例:例: 430.040.50 430.040.50 整理课件 信息检索途径与检索标识 信息检索途径的概念信息检索途径的概念信息检索标识的概念信息检索标识的概念整理课件 信息检索标识检索标识,即检索标识,即检索词检索词,是指能表达检索课题主题概,是指能表达检索课题主题概念和信息需求的名词术语、分类号、名称及代码等念和信息需求的名词术语、分类号、名称及代码等的总称,包括主题词、关键词、名称、分类号、分的总称,包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。它与检索字段相对应子式、专利号及各种号码等。它与检索字段相对应,是检索字段的具体化。,是检索字段的具体化。如主题
30、字段的检索标识就是主题词,分类字段的检如主题字段的检索标识就是主题词,分类字段的检索标识就是分类号,著者字段的检索标识是著者姓索标识就是分类号,著者字段的检索标识是著者姓名,其他依此类推名,其他依此类推。整理课件 信息检索途径检索字段,即检索字段,即检索途径检索途径,是指能表达检索课题主题,是指能表达检索课题主题概念和信息需求的名词术语、分类号、名称及代码概念和信息需求的名词术语、分类号、名称及代码等的总称,包括主题词、关键词、名称、分类号、等的总称,包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。它与检索字段相对分子式、专利号及各种号码等。它与检索字段相对应,是检索字段的具体化
31、。应,是检索字段的具体化。整理课件 检索途径中文数据库整理课件检索途径英文数据库整理课件 了解美国好莱坞女星卡梅伦了解美国好莱坞女星卡梅伦. .迪亚兹的影视作品迪亚兹的影视作品 卡梅伦卡梅伦. .迪亚兹迪亚兹 关键词关键词检索课题检索课题检索词检索词检索标识检索标识字段字段检索课题、检索词及字段整理课件 检索技巧 布尔逻辑检索(优先运算)布尔逻辑检索(优先运算) 截词符和通配符(词形变化,可选择的拼写形式)截词符和通配符(词形变化,可选择的拼写形式) 位置算符检索(邻接检索)位置算符检索(邻接检索) 短语检索(精确检索)短语检索(精确检索) 干扰或停用词干扰或停用词 大小写敏感大小写敏感整理课
32、件 布尔逻辑检索布尔逻辑检索即运用布尔逻辑算符布尔逻辑检索即运用布尔逻辑算符(AND OR NOT)对检索词进行逻辑组配,表达两个概念之间的逻辑关对检索词进行逻辑组配,表达两个概念之间的逻辑关系。系。整理课件 布尔逻辑检索当连接检索词时,很容易当连接检索词时,很容易无意间生成一个意义模糊无意间生成一个意义模糊的检索策略,为了避免这的检索策略,为了避免这种情况,许多数据库提供种情况,许多数据库提供了了( (优先算符优先算符) )检索检索女人女人 OR OR 女性女性 AND AND 均等均等机会机会 OR OR 歧视歧视 ( (女人女人 OR OR 女性女性) AND () AND (均均等机会
33、等机会 OR OR 歧视歧视) ) 整理课件 截词符和通配符用截词符号用截词符号( (通配符通配符)“)“?”“”“* *”或或“$”$”加在检索加在检索词的前后或中间,以检索一组概念相关或同一词根词的前后或中间,以检索一组概念相关或同一词根的词。这种检索技术可以扩大检索范围,提高查全的词。这种检索技术可以扩大检索范围,提高查全率,主要用于西文数据库检索。率,主要用于西文数据库检索。 通配符?:代替一个字符通配符?:代替一个字符 通配符通配符* *:代替:代替0-x0-x个字符个字符 wom?n woman, women t?th tooth, teeth, truth, tenth h*em
34、oglobin hemoglobin, haemoglobin使用截词检索可能带出不相关的词,如使用截词检索可能带出不相关的词,如 bit-bits-bite-bitbit-bits-bite-bit* * 就会一并检出就会一并检出bito bito 等等整理课件要考虑到名词复数的正常变化,也要考虑非正常要考虑到名词复数的正常变化,也要考虑非正常变化,如变化,如party-parties, thesaurus-thesauriparty-parties, thesaurus-thesauri除了复数,还要考虑到一个词的所有形式,包括除了复数,还要考虑到一个词的所有形式,包括名词、动词、形容词名
35、词、动词、形容词, ,过去时态等等。如过去时态等等。如 organize-organized-organization- organize-organized-organization- organizational-organizationally organizational-organizationally词形变化(人称、数、时态、语态)整理课件 位置算符检索位置算符检索即运用位置算符表示两个检索词间位置算符检索即运用位置算符表示两个检索词间的位置邻近关系,又叫邻接的位置邻近关系,又叫邻接(proximity)(proximity)检索。这检索。这种检索技术通常只出现在西文数据库,在全文
36、检种检索技术通常只出现在西文数据库,在全文检索中应用较多。索中应用较多。 位置算符(位置算符(NEARNEAR、ONEARONEAR) aa NEAR/4 ee aa NEAR/4 ee , aa NEAR/0 eeaa NEAR/0 ee 如果说布尔逻辑算符是表示两个概念之间的逻辑如果说布尔逻辑算符是表示两个概念之间的逻辑关系的话,位置算符表示的是两个概念间的位置关系的话,位置算符表示的是两个概念间的位置关系。关系。整理课件 短语检索(精确匹配检索)用短语检索可以提高结果的相关度,许多数据库要用短语检索可以提高结果的相关度,许多数据库要求用求用”来明确短语检索来明确短语检索检索者应该注意到数
37、据库的默认设置,对一些数据检索者应该注意到数据库的默认设置,对一些数据库来说,输入两个以上单词,系统就会自动进行短库来说,输入两个以上单词,系统就会自动进行短语检索,而另外一些数据库则执行逻辑运算语检索,而另外一些数据库则执行逻辑运算 精确匹配检索:括号、双引号精确匹配检索:括号、双引号 “International Space Station” solar energy等同与:等同与: International ONEAR/0 space ONEAR/0 station整理课件 干扰词、停用字西文数据库通常不会检索如西文数据库通常不会检索如by,but,if,within,by,but,i
38、f,within, near near等等的词等等的词, ,这些不被检索的词称为停用词。这些不被检索的词称为停用词。 停用字的检索:停用字的检索:and, or, not, nearand, or, not, near,使用括号或,使用括号或双引号。双引号。 block and tackle water craft parts and equipment near earth objects整理课件 大小写敏感西文数据库中对用户检索词所包含的大小写的西文数据库中对用户检索词所包含的大小写的处理方法,称为大小写敏感。不同的数据库处处理方法,称为大小写敏感。不同的数据库处理方式不同,区分大小写的称
39、为大小写敏感,理方式不同,区分大小写的称为大小写敏感,反之,称为大小写不敏感。反之,称为大小写不敏感。整理课件 信息检索策略信息检索策略的概念信息检索策略的概念信息检索策略的编制信息检索策略的编制信息检索策略的制定与实施信息检索策略的制定与实施实例实例整理课件信息检索策略p信息检索策略的概念信息检索策略的概念 执行一个课题的检索是有过程、分步来完成的,执行一个课题的检索是有过程、分步来完成的, 称为检索策略称为检索策略(retrieval (retrieval strategy), strategy),它是为实现检索目标而制定的全盘它是为实现检索目标而制定的全盘 计划或方案。特别是在计算机检索
40、中,策略问计划或方案。特别是在计算机检索中,策略问 题是明确提出来的,必须慎重考虑,因为它可题是明确提出来的,必须慎重考虑,因为它可 能要完成的是一个比较复杂、精细的检索课题,能要完成的是一个比较复杂、精细的检索课题, 又是在人与机器的对话、交互中实现的。又是在人与机器的对话、交互中实现的。 整理课件信息检索策略编制检索策略主要包括检索方式的选择、检索编制检索策略主要包括检索方式的选择、检索范围的限定、信息资源的取舍、确定检索词以范围的限定、信息资源的取舍、确定检索词以及利用相应检索语言编制检索表达式等环节。及利用相应检索语言编制检索表达式等环节。对于一个具体的检索过程而言,编制出一个好对于一
41、个具体的检索过程而言,编制出一个好的检索策略,使其能够确切地反映检索需求,的检索策略,使其能够确切地反映检索需求,就有可能使检索者以最短的时间和最低的成本就有可能使检索者以最短的时间和最低的成本获取最满意的检索结果。编制检索策略对检索获取最满意的检索结果。编制检索策略对检索过程能否顺利进行具有举足轻重的重要影响过程能否顺利进行具有举足轻重的重要影响。整理课件信息检索策略的制定与实施p信息检索的基本步骤:信息检索的基本步骤:u分析课题的检索要求分析课题的检索要求u确定课题的检索范围(选择检索工具,了解检索系统)确定课题的检索范围(选择检索工具,了解检索系统)u选定检索词,构造检索表达式选定检索词
42、,构造检索表达式u确定检索途径,选定检索方法确定检索途径,选定检索方法u实施检索策略,浏览初步检索结果实施检索策略,浏览初步检索结果u调整检索策略,实施并输出检索结果调整检索策略,实施并输出检索结果u索取原始文献索取原始文献 整理课件第一步:分析课题的检索要求p明确检索目的明确检索目的p明确课题的主题或主要内容明确课题的主题或主要内容p课题涉及的学科范围课题涉及的学科范围p所需信息的数量、语种、年代范围、型等具所需信息的数量、语种、年代范围、型等具体指标体指标整理课件第二步:确定课题的检索范围p检索工具的取舍检索工具的取舍p检索工具的学科范围检索工具的学科范围p检索工具的覆盖年限检索工具的覆盖
43、年限p检索工具的语种检索工具的语种整理课件第三步:确定检索词,构造检索式p确定检索词确定检索词p检索标识必须反映课题内容和信息需求;检索标识必须反映课题内容和信息需求;p检索标识和数据库的标引标识应相一致;检索标识和数据库的标引标识应相一致;p所选检索工具或系统具有叙词表或主题词表的,优先选用叙词或所选检索工具或系统具有叙词表或主题词表的,优先选用叙词或主题词作为检索词;主题词作为检索词;p要从词表规定的专业范围出发,选用各学科内具有检索价值的基要从词表规定的专业范围出发,选用各学科内具有检索价值的基本名词或术语;本名词或术语;p如选择的检索词无词表可查,或在词表中未反映时,检索词为自如选择的
44、检索词无词表可查,或在词表中未反映时,检索词为自由词,这时还应选取该词的同义词、近义词、广义词、狭义词、由词,这时还应选取该词的同义词、近义词、广义词、狭义词、分子式、分类号、登记号、专利号、化学物质俗名、商品名等,分子式、分类号、登记号、专利号、化学物质俗名、商品名等,使用多个词试检,以免漏检。使用多个词试检,以免漏检。整理课件检索词的选择p同义词同义词p上位词、下位词上位词、下位词整理课件 同义词研究者的课题或假设可能使用了某个特别的词,但是其它同研究者的课题或假设可能使用了某个特别的词,但是其它同类文章可能用了一个类似的词。在研究中不包括同义词会漏类文章可能用了一个类似的词。在研究中不包
45、括同义词会漏检相应内容检相应内容如组织的同义词:公司、社团、联盟、合伙、机构如组织的同义词:公司、社团、联盟、合伙、机构利用同义词表可以更容易确定同义词。结构化的数据库通常利用同义词表可以更容易确定同义词。结构化的数据库通常会提供一个研究者应该利用的同义词表会提供一个研究者应该利用的同义词表( (演示演示EIEI、维普、维普) )同时考虑缩写与全称;数字与日期的不同表达方式;连字符同时考虑缩写与全称;数字与日期的不同表达方式;连字符的使用;名称的更迭的使用;名称的更迭1.1930s nineteen thirtiesth century fourteenth century3.Neoclass
46、ical neo-classical4.哈尔滨军事工程学院-哈尔滨船舶工程学院-哈尔滨工程大学5.Harbin Engineering University HEU整理课件 上位词、下位词整理课件检中记录的数量太多或太少检中记录的数量太多或太少概念专指度太强概念专指度太强上位词可能太宽泛以致不相关上位词可能太宽泛以致不相关检索者应当对整体情况有全面了解以便于在上下检索者应当对整体情况有全面了解以便于在上下文中确定主题文中确定主题特殊领域的范例是必需的特殊领域的范例是必需的同一测试环境的范例是必需的,因此上下位词不同一测试环境的范例是必需的,因此上下位词不相关相关包括或排除上位词及下位词的原则有
47、:整理课件p构造检索式构造检索式p检索式(检索式(formulaformula、profileprofile、statementstatement)是检索策略的逻辑表)是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。检索式的好坏决定着检索质量。词和各种组配算符构成。检索式的好坏决定着检索质量。p组配算符(组配算符(operatoroperator)就是布尔逻辑算符、截词符(通配符)、)就是布尔逻辑算符、截词符(通配符)、位置算符、嵌套算符(优先算符)几种。前两种较为常用。位置算符、嵌套算符(
48、优先算符)几种。前两种较为常用。p利用相应的检索算符将选定的检索词表达并连结起来,构成能够利用相应的检索算符将选定的检索词表达并连结起来,构成能够准确反映检索者真实意图的可供计算机执行的检索表达式。检索准确反映检索者真实意图的可供计算机执行的检索表达式。检索表达式是检索策略的具体体现形式,其编制完成标志着检索策略表达式是检索策略的具体体现形式,其编制完成标志着检索策略的制定业已完成。的制定业已完成。第三步:确定检索词,构造检索式整理课件p所谓确定检索途径,就是确定从反映文献特征的哪一个所谓确定检索途径,就是确定从反映文献特征的哪一个侧面着手进行检索。拟好检索式以后,就要选择检索点侧面着手进行检
49、索。拟好检索式以后,就要选择检索点(access pointaccess point), ,即选择检索途径或检索入口,也称即选择检索途径或检索入口,也称检索字段(检索字段(fieldfield)。p常用的检索入口如题名、著者、主题词、关键词、引文常用的检索入口如题名、著者、主题词、关键词、引文、文摘、全文、出版年、文摘、全文、出版年、ISSNISSN与与ISBNISBN、分类号以及一些、分类号以及一些其他专业用检索点。其他专业用检索点。p检索点正确与否,决定着检索结果的数量和质量。例如检索点正确与否,决定着检索结果的数量和质量。例如使用全文检索的检索点,结果数量可能会比较大,但相使用全文检索的
50、检索点,结果数量可能会比较大,但相关性会比较差。使用题名或关键词检索点,结果数量可关性会比较差。使用题名或关键词检索点,结果数量可能会很少,但较为准确。能会很少,但较为准确。第四步:确定检索途径整理课件p所谓确定检索途径,就是确定从反映文献特征的哪一个所谓确定检索途径,就是确定从反映文献特征的哪一个侧面着手进行检索。拟好检索式以后,就要选择检索点侧面着手进行检索。拟好检索式以后,就要选择检索点(access pointaccess point), ,即选择检索途径或检索入口,也称即选择检索途径或检索入口,也称检索字段(检索字段(fieldfield)。p常用的检索入口如题名、著者、主题词、关键
51、词、引文常用的检索入口如题名、著者、主题词、关键词、引文、文摘、全文、出版年、文摘、全文、出版年、ISSNISSN与与ISBNISBN、分类号以及一些、分类号以及一些其他专业用检索点。其他专业用检索点。p检索点正确与否,决定着检索结果的数量和质量。例如检索点正确与否,决定着检索结果的数量和质量。例如使用全文检索的检索点,结果数量可能会比较大,但相使用全文检索的检索点,结果数量可能会比较大,但相关性会比较差。使用题名或关键词检索点,结果数量可关性会比较差。使用题名或关键词检索点,结果数量可能会很少,但较为准确。能会很少,但较为准确。第四步:确定检索途径整理课件p所谓调整检索策略,就是根据反馈的检
52、索结果,反复对所谓调整检索策略,就是根据反馈的检索结果,反复对检索式进行调整,直至得到满意的结果。检索式进行调整,直至得到满意的结果。p对检索数量比较少的结果,可以进行扩检,提高查全率对检索数量比较少的结果,可以进行扩检,提高查全率 (1) (1)增加一些检索词增加一些检索词 (2)(2)调整组配算符调整组配算符 (3)(3)使用截词检索使用截词检索 (4)(4)取消或放宽一些检索限定取消或放宽一些检索限定 (5)(5)增加或修改检索入口增加或修改检索入口p对检索结果数量过多的检索结果,考虑进行缩检,提高对检索结果数量过多的检索结果,考虑进行缩检,提高查准率,具体方法与扩检相反。查准率,具体方
53、法与扩检相反。第五步:调整检索策略整理课件 网络目前已经成为人们获取音乐信息资源的主要渠道之一。同样网络目前已经成为人们获取音乐信息资源的主要渠道之一。同样,小说、戏曲、报告文学、绘画等也很容易从网络上获取。对于,小说、戏曲、报告文学、绘画等也很容易从网络上获取。对于这些信息资源的检索,其检索效率与查全率、查准率越来越受到这些信息资源的检索,其检索效率与查全率、查准率越来越受到公众的关注,从一定意义上说,这也关系到界面的友好程度。因公众的关注,从一定意义上说,这也关系到界面的友好程度。因此,了解和掌握这类信息资源的检索技术,具有很大的实用价值此,了解和掌握这类信息资源的检索技术,具有很大的实用
54、价值。我们以。我们以MP3MP3歌曲的检索来讨论这个问题。通常可以使用百度、歌曲的检索来讨论这个问题。通常可以使用百度、雅虎、中搜和搜狗音乐搜索。以百度雅虎、中搜和搜狗音乐搜索。以百度MP3MP3主页为例:主页为例:应用一:MP3歌曲的检索与利用整理课件 在在“百度搜索百度搜索”栏中输入要检索的歌曲、歌手的名字,或是歌曲栏中输入要检索的歌曲、歌手的名字,或是歌曲歌词,进入搜索页面,找到想要的歌词,进入搜索页面,找到想要的MP3MP3音乐后,看清楚该文件的音乐后,看清楚该文件的类型,是否为类型,是否为MP3MP3音乐,如果音乐文件是音乐,如果音乐文件是MP3MP3类型,则在文件链接类型,则在文件
55、链接上单击鼠标右键,选中上单击鼠标右键,选中“目标另存为目标另存为”,确定保存位置,即可下,确定保存位置,即可下载。百度利用自身强大的技术实力,推出了方便易用的歌词检索载。百度利用自身强大的技术实力,推出了方便易用的歌词检索,无论歌名还是在路边听到的一句歌词片段,都可以作为寻找我,无论歌名还是在路边听到的一句歌词片段,都可以作为寻找我们想要的歌曲的依据。们想要的歌曲的依据。(1 1)准确的关键词:)准确的关键词:“晓刚晓刚” “小刚小刚”,“纠错功能纠错功能”、“提示可能的正提示可能的正 确书写形式确书写形式”。(2 2)关键词组合:)关键词组合:“眼泪眼泪 范晓萱范晓萱”(3 3)利用歌词搜
56、索)利用歌词搜索(4 4)利用网页搜索:)利用网页搜索:恋爱假期恋爱假期 主题曲主题曲 下载下载 the holidaythe holiday应用一:MP3歌曲的检索与利用整理课件课题分析:课题分析: 随着社会对科学技术和高层次人才的重视程度不断提高,很多大随着社会对科学技术和高层次人才的重视程度不断提高,很多大学生选择了报考研究生以拓宽自己的发展道路。因此,我国大学学生选择了报考研究生以拓宽自己的发展道路。因此,我国大学毕业生中的考研人数年年攀升,毕业生中的考研人数年年攀升,20062006年达到创纪录的万人。面对年达到创纪录的万人。面对这种发展态势,应该如何应对研究生考试,就成为一个备受关
57、注这种发展态势,应该如何应对研究生考试,就成为一个备受关注的问题。下面我们主要讨论考研信息怎样收集以及如何利用网上的问题。下面我们主要讨论考研信息怎样收集以及如何利用网上丰富的考研信息资源等相关问题。丰富的考研信息资源等相关问题。应用二:考研信息的检索与利用整理课件课题背景:课题背景: 按考研信息的透明程度将考研信息分为:公开信息、半公开信息按考研信息的透明程度将考研信息分为:公开信息、半公开信息等。公开信息指通过各种渠道公开传播的信息,包括国家的考验等。公开信息指通过各种渠道公开传播的信息,包括国家的考验政策、招生单位的特殊规定、专业目录、各单位招生简章、考研政策、招生单位的特殊规定、专业目
58、录、各单位招生简章、考研辅导机构的辅导信息等,考生可以通过各种渠道查询获取这些信辅导机构的辅导信息等,考生可以通过各种渠道查询获取这些信息。半公开信息是指不对外公开宣布但又不需保密的信息,例如息。半公开信息是指不对外公开宣布但又不需保密的信息,例如,录取名额中公费生与自费生比例、保送生所占录取总数的比例,录取名额中公费生与自费生比例、保送生所占录取总数的比例、专业课程的考试要求和复习材料的版本,等等。招生单位一般、专业课程的考试要求和复习材料的版本,等等。招生单位一般不会向社会发布这些消息,需要对此感兴趣的考生自行查询。不会向社会发布这些消息,需要对此感兴趣的考生自行查询。应用二:考研信息的检
59、索与利用整理课件课题背景:课题背景:在考研信息中,有在考研信息中,有4 4类信息对考生的报考、复习和类信息对考生的报考、复习和 录取非常关键,录取非常关键,具体介绍如下。具体介绍如下。(1 1)招生专业目录。专业目录是考生报考的依据,也是全部复习)招生专业目录。专业目录是考生报考的依据,也是全部复习计划的依据。一般在每年计划的依据。一般在每年8 8月底至月底至9 9月初公布,考生应及时与招生月初公布,考生应及时与招生单位联系,索取或购买招生目录,最终确定自己的报考方向。单位联系,索取或购买招生目录,最终确定自己的报考方向。(2 2)公共课考试内容与题型。这里的公共课指的是全国统考的科)公共课考
60、试内容与题型。这里的公共课指的是全国统考的科目,包括政治、英语、俄语、日语和数学。这些科目的考试知识目,包括政治、英语、俄语、日语和数学。这些科目的考试知识点和考试要求在每年六七月份出版的各科考试大纲上有详细规定点和考试要求在每年六七月份出版的各科考试大纲上有详细规定。日语、俄语、数学等科目的大纲一般变动不大,对与一些变动。日语、俄语、数学等科目的大纲一般变动不大,对与一些变动较大的科目,必须以新大纲为准进行复习。较大的科目,必须以新大纲为准进行复习。应用二:考研信息的检索与利用整理课件课题背景:课题背景:(3 3)专业课考试内容与题型。例如,某著名高校的新闻学院,在)专业课考试内容与题型。例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025新风系统购销合同范本
- 2025年:探讨合作原则下的租赁合同与违约责任研究
- 2025北京租赁合同模板
- 个人经营合伙合同样本
- 2025湖北省非全日制用工合同协议范本
- 2025人力资源外包合同书
- 公寓油烟隔绝方案范本
- 蜘蛛车专项施工方案
- 出租建筑用地合同标准文本
- 2025年上海市购销合同范本购销合同
- 2024年湖南省高等学校对口招生考试英语试卷试题真题
- 公司2025年工会工作要点
- 2025年中国煤炭地质总局社会招聘20人笔试参考题库附带答案详解
- 2025内蒙古能源集团智慧运维公司社会招聘(105人)笔试参考题库附带答案详解
- 公共卫生应急管理调研报告范文
- 【9物一模】安徽合肥瑶海区2025年中考物理一模试卷
- 2025-2030中国食品灭菌设备行业市场发展趋势与前景展望战略研究报告
- 广东省深圳市宝安区10校联考2023-2024学年八年级下学期期中数学试题(含答案)
- 2025年全国中医医师定期考核中医专业理论知识考试题库及答案(共六套)
- 餐厅点菜技巧培训
- 2024外研社英语七年级(下)词汇表
评论
0/150
提交评论