信息检索基础(研)_第1页
信息检索基础(研)_第2页
信息检索基础(研)_第3页
信息检索基础(研)_第4页
信息检索基础(研)_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索(Information Retrieval)是将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。1.1 信息检索概述1.1.1 信息检索的定义1信息检索的三个层次从信息检索技能和能力综合来看,分为三个层次:2第一层次:知道什么信息在什么地方。熟悉各种信息源的类型、内容及特点;了解课题分析的基本方法;熟悉自己的信息环境;能根据需要选择合适的信息检索数据库等。 3第二层次:从检索系统中检索出信息。 要求熟练掌握信息检索技术,并能利用这些技术从不同的信息检索数据库中检索出所需信息。第三层次:信息选取与综合利用。 该层次是信息检索的最终目的,包括信息检索结果的选择、保

2、存、分析和利用。信息检索只有对检索的结果进行综合利用,是一个知识再创造的过程,解决实际问题,才能体现信息检索的价值。 41.1.2 文献信息源(1)信息的定义: 信息就是生物以及具有自动化控制系统的机器,通过感官和相应的设备与外界进行交换的一切内容。(情报学概论武汉大学)(2)信息源 联合国教科文组织把信息源定义为:“个人为满足其信息需求而获得信息的来源。” 信息源分为文献信息源和非文献信息源。5 文献是将人类知识用文字、图形、声频、视频、信号等手段记录在一定的物质载体上的媒介。 文献信息源是以文献为载体,经过加工的信息源。它是在时间和空间上积累和传播信息的最有效的手段,是获得信息的最基本、最

3、主要的来源,是情报源的主体部分,便于广泛传播、系统积累、长期保存和直接利用,是情报搜集、存贮、检索、利用的主要对象。 文献信息源主要有纸质文献信息源和电子文献信息源两种。 (3)文献信息源的定义6(4)文献信息源的类型 1)根据文献信息源的加工层次划分: 一次文献:又称原始文献,以作者本人的研究成果为依据创作的未经情报加工的原始文献。是最基本的文献信息源,具有新颖性、创造性、系统性等特点。 二次文献:指人们对大量无序的一次文献使用一定的方法进行加工、整理,使之简化(著录文献特征、摘录文献内容要点等)后所得的产物。具有浓缩性、汇集性、有序性的特点。 三次文献:在合理使用二次文献的情况下,选用一次

4、文献内容,加以分析、综合而编写出来的文献。具有高度浓缩和深度加工的特点。72)按文献载体形式划分 印刷型,也叫纸介质文献,以纸张为载体,通过油印、铅印、影印、复印等各种印刷手段将信息记录在纸张上的文献。其特点是使用方便、易于阅读、但需要占用大量空间,不便于整理和保存。 缩微型,以感光材料为载体,利用光学技术将文字、图形、影像等信息符号按比例缩小的一种文献形式,常见的缩微型文献有缩微平片和缩微胶卷等。其特点是体积小、重量轻、存储密度高,便于收藏、保存和传递,但必须借助缩微阅读机或其他辅助设备才能阅读,不便于携带,难于普及。8 声像型,也称视听型文献,指以磁性材料或感光材料为载体,采用录音、录像或

5、摄影技术直接记录声音信息或图像信息而形成的文献。常见的有唱片、录音带、录像带、幻灯片、电影片等。其特点是直观、真切、传递速度快、存储密度高。 电子型,又被称为机读型文献,现在电子型文献有时也统称为电子信息资源、电子出版物。电子型文献包括电子图书、电子期刊、电子新闻、各种联机信息库和光盘数据库产品或软盘、磁带、磁盘等产品。电子型文献数据库是计算机信息检索的主要工具,其特点是体积小、组织有序、检索方便、直观生动、便于远距离传输,但需要借助计算机阅读、不便于携带,费用较高。网络信息资源作为新的信息资源类型,是一种非常重要的电子信息资源。 93)按文献的编辑出版形式划分(1)科技图书(Book)(2)

6、科技期刊(Journal) (3)科技报告(technical report)(4)会议文献(conference paper) (5)专利文献(patent document) (6)学位论文(thesis, dissertation) (7)标准文献(standard) (8)政府出版物(government document) (9)产品样本(products samples)(10)档案文献(records ) (11)报纸 (Newspaper)10 国际文献标准认为:凡篇幅达到49页以上并构成一个书目单元的文献叫图书。 图书的特征: 主题突出,内容系统,论述全面深入,知识成熟稳定。

7、 出版的周期长,因而其内容一般就缺乏最新的研究成果。 阅读型 :教科书、专著、文集等 工具型:词典、百科全书、手册、年鉴等(1)图书(BOOK)1112国际标准书号(ISBN)(International Standard Book Number)每一种正式出版的图书的唯一标识代码。ISBN7501312893北京图书馆出版社第一段:语区号,代表国家、地区、语种,如0,1英,2法,3德,4日,7中第二段:出版商代号,由国家或地区ISBN中心分配;第三段:出版图书号,由出版商按出版顺序所给第四段:校验位13参考文献Monograph14(2)期刊(Journal)15 期刊又称杂志,它是指定期或

8、不定期连续出版的、有统一的名称、固定的开本、版式、有连续的序号、汇集了多位作者分别撰写的多篇文章,并由专门的机构编辑出版的连续性出版物。 期刊分为: 学术性(Journal) 工具型(Abstracts,Index) 报导型(News) 综合型(Review,World, A据统计,科研人员从期刊中得到的信息约占65%以上 特点:内容新颖、信息量大、出版周期短、传递信息快、 传播面广、时效性强 用途:获取最新研究成果和动态16核心期刊少数刊载某一学科大量高质量专业论文的期刊。特点(1)刊载专业文献密度高,信息含量高;(2)水平较高,代表本学科的最新发展水平;(3)出版相对稳定,所载文献寿命较长

9、;(4)利用率和被引率较高。目前,许多单位核心期刊的判定是以中文核心期刊要目总览为标准17参考文献中期刊的著录方式18数据库中的著录格式19 科技报告是指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告。 (3)科技报告(technical report):科技报告的特点(1)反映新的科研成果迅速;(2)内容多样化;(3)质量参差不齐;(4)保密性强;(5)每份报告独立成册,有连续编号。2021(4)会议文献(conference paper)会议文献是指在各种会议上宣读、交流的论文、报告及其它有关文献。 会议文献的特点: 内容新颖、专业性和针对性强,传递信息

10、迅速,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋向。 222324 是实行专利制度的国家,在接受申请和审批发明过程中形成的有关出版物的总称。包括专利说明书、专利公报、专利分类表、专利检索工具以及与相关的法律性文件。(5)专利文献(Patent Literature) 特点: (1)内容新颖、出版迅速 (2)涉及技术领域广泛、实用性强 (3)具有法律效力 (4)重复量大2526标准:主要是对工农业产品和工程建设的质量、规格及其检验方法等方面所作的技术规定,是从事生产、建设的一种共同技术依据。(6)标准文献(Standard Literature) 标准文献:是按规定程序制订,经权

11、威机构公认或主管部门批准的在特定范围内执行的规格、规则、技术要求等规范性文件。272829标准文献的主要特点(1)标准的制订、审批程序有专门规定,并有固定的代号,格式整齐划一;(2)一个标准一般只能解决一个问题;(3)时效性强;(4)不同种类、不同级别的标准在不同范围内执行;(5)有一定的法律效力和约束力;(6)有自身的检索系统30如检索:1、图书馆收藏的“有机化学”专业的新书2、“炸药冲击损伤演化的动态过程”研究 3、申请号为02131129.3 的专利4、由陈英主编的科技信息检索一书 如何检索?1.1.3 信息检索途径311.1.3 信息检索途径内容特征途径分类途径 主题途径外部特征途径

12、著者途径序号途径名称途径其它途径32 分类检索途径分类途径:是按照文献所属的学科属性进行文献检索的途径。33中国图书馆分类法是1971年由北京图书馆倡议,全国36个单位组成的编写组集体编制的,于1975年正式出版,1980年、1990年、1997年先后修订三次。 中国图书馆分类法是我国当代具有代表性的图书分类法,被推荐为我国标准图书分类法广泛使用于图书馆和情报部门。中国图书馆分类法(中图法)34马克思主义、列宁主义、毛泽东思想、 哲学社会科学中国图书馆分类法的体系结构部类(5个)自然科学综合性图书大类(一级类目) 22 个35马克思主义、列宁主义、毛泽东思想A 马克思主义、列宁主义、 毛泽东思

13、想、邓小平理论哲学 社会科学C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历史、地理 B 哲学、宗教中国图书馆分类法的体系结构36自然科学N 自然科学总论O 数理科学和化学P 天文学地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航空、航天X 环境科学、劳动 保护科学TB一般工业技术 TD矿业工程 TE石油、天然气工业 TF 冶金工业 TG金属学、金属工艺 TJ 武器工业 TK 动力工业 TH机械、仪表工艺 TL 原子能技术 TM电工技术 TN无线电、电信技术 TP自动化、计算技术 TQ化学工业 TS轻工业、

14、手工业 TU建筑科学 TV水利工程 综合性图书Z 综合性图书37TQ 化学工业 TQ-9 化学工业经济 TQ01 基础理论 TQ02 化工过程(物理过程及物理化学过程) TQ03 化学反应过程 TQ04 化工原料、辅助物料 TQ05 化工机械与仪器、设备 TQ06 化工生产过程、产品最后处理及包装 TQ07 化工产品与副产品 TQ08 化工厂 TQ09 化学工业废物的处理与综合利用 38TQ11 基本无机化学工业 TQ12 非金属元素及其无机化合物化学工业 TQ13 金属元素的无机化合物化学工业 TQ15 电化学工业 TQ16 电热工业、高温制品工业 TQ17 硅酸盐工业 TQ2 基本有机化学

15、工业 TQ31 高分子化合物工业(高聚物工业) TQ32 合成树脂与塑料工业 TQ33 橡胶工业 TQ34 化学纤维工业 TQ35 纤维素质的化学加工工业 TQ 化学工业39 TQ41 溶剂与增塑剂的生产 TQ42 试剂与纯化学品的生产 TQ43 胶粘剂工业 TQ44 化学肥料工业 TQ45 农药工业 TQ46 制药化学工业 TQ51 燃料化学工业(总论) TQ52 炼焦化学工业 TQ53 煤化学及煤的加工利用 TQ54 煤炭气化工业 TQ55 燃料照明工业 TQ56 爆炸物工业、火柴工业 TQ57 感光材料工业 TQ58 磁性记录材料工业 TQ59 光学记录材料工业 TQ61 染料及中间体工

16、业 TQ62 颜料工业 TQ63 涂料工业 TQ64 油脂和蜡的化学加工工业、肥皂工业 TQ65 香料及化妆品工业 TQ9 其他化学工业 TQ 化学工业40TQ46 制药化学工业 TQ460.1 基础理论 TQ460.2 物理化学过程及设备 TQ460.3 化学反应过程及设备 TQ460.4 原料及辅助物料 TQ460.5 制药机械与设备 TQ460.6 制药工艺 TQ460.7 产品检验及分析鉴定 TQ460.8 制药厂 TQ460.9 三废处理与综合利用 TQ461 中草药制剂的生产 TQ462 无机化合物药物的生产 TQ463 有机化合物药物的生产 TQ464 生物制品药物的生产 TQ4

17、65 抗菌素制造 41分类检索途径的特点 分类途径较能体现学科的系统性,反映事物的隶属、平行、派生关系,能较好地满足族性检索的需要,即可提高文献的查全率。42 主题检索途径 主题途径:是按照表达文献信息主题内容的主题词进行信息检索的一种途径。 43关键词 关键词:是文献标题、文摘或原文中抽选出来的对表达文献主题内容起关键作用的、具有实质意义的词汇。 它的主要特点是:关键词属于自然语言,未经规范处理,不受词表控制,它来自文章标题或文摘、正文中,专指度高,用作检索词,查准率高,但查全率低,并适宜用计算机快速编制关键词索引。44外部特征途径著者途径序号途径名称途径其它途径451.1.4 信息检索方法

18、追溯法工具法(常用法)顺查法倒查法抽查法循环法46选择信息检索方法的原则 1、有检索工具时用工具法或综合法(循环法)。 2、无检索工具时用直接法或追溯法(引文法)。 3、新兴学科或知识更新快的学科课题,用倒查法。 4、查全率要求高用顺查法。 5、已经掌握课题发展的规律、特点,用抽查法。47参考文献回溯例:纳米接触问题的连续方法建模与计算 张锡义涂苏龙樊康旗仪器仪表学报 2005年,S2期参考文献1. ChuH.DMDTMsuper structure characterizations J. TI Technical Journals,1998:375.2. 白春礼.纳米科技及其发展前景J.科

19、学通报,2001(2):8991.3. LandmanU,LuedtkeWD,NancyAB.Atomistic mechanisms and dynamic sofadhesion, nanoidentation, andfracture J. Science,1990,248:454461.4. 居建华,夏一本,等.氮对类金刚石薄膜的微观结构内应力与附着力的影响J.物理学报,2000,49(11):23102313.481.2.1 布尔逻辑检索1.2.2 截词检索1.2.3 位置限定检索1.2.4 字段限定检索1.2 计算机信息检索技术49用于表达检索词与词之间的逻辑关系的检索。 1.2.

20、1 布尔逻辑检索50 用于两个或两个以上概念之间的相交关系或限定关系运算,表示检索结果必须满足两个或两个以上条件的单元集合。符号:AND或*表达式:A AND B(A*B)检索词A和检索词B同时出现在一条记录中。其作用是缩小检索范围,提高查准率。(1)逻辑与51用于两个或两个以上概念之间的并列关系运算;符号: OR或+表达式:A OR B (A+B)检出记录中含有检索词A或检索词B的文献如 :微机 + 电脑 + PC机 黑火药 OR 烟火药 OR 火药 OR 点火药 OR 烟火 OR 烟花 OR 发射药(2)逻辑或52NOT或-A NOT B(A-B)记录必须包含检索词A但不能包含检索词B。即

21、在含有检索词A的文献中去除含有检索词B的文献。其作用是缩小检索范围。例如检索式: 信息检索-数据检索 计算机 NOT 微机(3)逻辑非53 截词检索就是把检索词截断,取其中的一部分,再加上截词符号一起进行检索。主要用于检索词的单复数、词的词尾变化、词根相同的一类词,以及同一词的拼法变异等。 1.2.2 截词检索54 是指在检索词后截几个有限的字母,如名词的单复数,动词的词尾变化等。如输入computer? ?表示有0-1个字母变化 可检出computer和computers. 输入stud?表示截断处有0-3个字母变化 可检出 study,studies,studied,studing.(1)

22、有限截断55(2)无限截断在检索词后加一个“?“,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。 如:computer?可检出computers computering,computered,computerization56(1)前截词:也称左截词,后方一致,截词符位于词干的前边。如: ?computer可检索computer、minicomputer、 microcomputer词。 ?Chemistry 可以检索 chemistry、biochemistry、electrochemistry、 physicochemistry ?polyme

23、r 可检出polymer、copolymer、homopolymer57(2)后截词:也称右截词,前方一致,截词符位于词干的后边。如: computer? 可检索computer、computers、computerize等词 Physic? 可检出physic、physical、physican、physicalism58 (3)中间截词:截词作为通用字符位于检索词的中间,而词的前后一致,凡前后方一致的词都能检出,通常用在英美对某些词的不同拼写法。 如:wom?n可检出woman、women等。 fib?board 可检出 fiberboard、fibreboard两词。59 为了提高检索的

24、查准率,缩小检索的范围 ,将检索词限定在特定的字段中进行检索。如检索式:(1)AU=Gordon? AND PY=199? (2) chemical reaction/DE,TI(3)(minicomputer/DE, TI) OR (personal computer/ID, TI)AND (PY=2008) AND (LA=English )1.2.3 字段限定检索60常见的检索字段:题名Title TI文摘Abstract AB作者Author AU作者单位Corporate Source CS刊名Journal Name JN叙词Descriptor DE语种Language LA文献

25、类型Document Type DT61 表示两个检索词间的位置临近关系,又叫邻接检索,使用的检索算符称为位置算符。 布尔逻辑运算符表示两个概念之间的逻辑关系,位置算符表示的是两个概念在信息中的实际物理位置关系。 1.2.4 位置限定检索62例如:检索“CD-ROM”,则可用CD(W)ROM;检索式econom?(2N)recovery,可以检出:economic recovery recovery of the economy recovery from economic troubles63位置算符常用的有: (W)与(nW)算符 W是with的缩写。(W)或用( )表示其连接的两个检索词

26、必须按序出现,中间不允许插词,只能有一空格或标点、符号。如:high(W)class命中的记录中出现的匹配词可能有:high class 或high-class。64(nW)与(W)类似,只是它允许插词,插词量小于或等于n个。如:silicon(1W)sensor命中的记录中出现的匹配词除silicon sensor外,还可能有:silicon integrated sensor, silicon image sensor, silicon-based sensor等。如:silicon(2W)sensor命中的记录中出现的匹配词除上例的外,还可能会有:silicon angular rate

27、 sensor, silicon-based chemical sensor等等。65N是near的缩写。(N)表示其连接的两个检索词的顺序可以互易,但两词间不允许插词。(nN)中的n表示允许插词量少于或等于n个。如:internet(N)accessing命中记录中出现的匹配词可能有:internet accessing, accessing internet。如:internet(1N)accessing命中记录中除上例的外,还会可能有:accessing internet, accessing the internet, internet /intranet accessing等。(N)

28、与(nN)算符66位置算符在数据库中的实际应用1)EI NEAR Bridge NEAR Piling* 表示这两个词要彼此接近,前后顺序不限。W/n Pig* W/2 pine*表示两个词的距离不能超过n个单词Adj Channel adj tunnel表示含有这两个词,两个词相 邻,位置一定2)SCI 用同句算符(SAME):如Channel same tunnel,表示channel 和tunnel 出现在同一句子中才符合检索条件。67位置算符举例:Elseviertongue w/2 base检索间最多插入2个单词68直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。这种基

29、于自然语言的检索方式又被称为“智能检索”,适合不太熟悉网络信息技术的人员使用。支持自然语言检索的有中文的悠游,英文的AltaVista, Excite,Infoseek,HotBot,AskJeeves等1.2.5 自然语言检索691.3 信息检索的一般步骤1.3.1 分析研究课题,明确检索目标和范围,确定检索词1.3.2 选择合适的数据库1.3.3 选择检索途径1.3.4 编制检索提问式1.3.5 上机检索并对检索策略进行调整1.3.6 获取原文701.3.1 分析研究课题,明确检索目标和范围,确定检索词 确定检索的时间范围、语种范围、文献类型。 检索系统收录了不同类型的文献信息,课题性质不

30、同,所需要的文献类型也不同。 对基础理论研究的课题,侧重于检索期刊论文,专著和科技报告等; 搞技术应用和开发的课题,侧重于检索专利文献、标准文献; 搞产品选型设计的课题,侧重于检索产品样本资料、标准文献和专利文献等。 71 了解课题对查新、查准、查全等方面 的具体要求。 文献检索目的:科研立题、科研阶段性研究、科研成果鉴定、申请专利、撰写论文、综述、述评 (1)若要了解某学科、理论、课题、工艺过程等最新进展和动态,则要检索最近的文献信息,强调“新”; (2)若要解决研究中某具体问题,找出技术方案,则要检索有针对性、能解决实际问题的文献信息,强调“准” (3)若要撰写综述、述评或专著等,要了解课

31、题、事件的前因后果、历史和发展,则要检索详尽、全面、系统的文献信息,强调“全” 。72“臭氧氧化法处理TNT碱性废水的研究”确定核心概念:臭氧氧化法、TNT、废水 分析课题内容,找出主题概念,排除无关和重复概念,确定核心概念73例 1、检索“ 形状记忆合金作为密封元件在法兰 连接中的应用 ” 分析: 形状记忆合金在目标文献中可能以“形状记忆合金”出现,也有可能以“形状记忆效应”出现; 密封在目标文献中除了以“密封”出现,还有可能以“泄漏”出现,考虑到法兰连接中的密封元件一般为垫片或垫圈,因此目标文献中还有可能以“垫片”或“垫圈”来替代“密封”; 法兰连接一般采用螺栓连接,因此目标文献中除了可能

32、出现“法兰连接”外,也有可能出现“螺栓连接”。74 例2:检索“石质文物保护”方面的文献 分析: 一般对于石质文物的保护是采用在文物表面涂层的办法。现在常用的有两类涂层:一类是有机硅涂层,一类是聚酯涂层。所以可将涂层、薄膜作为概念提出。如果对保护材料有特殊的要求,还可以将硅、有机硅或者聚酯作为概念提出。同样,石质文物也有不少的下位概念,如石楼、石碑、纪念碑等。因此检索可依据具体要求作出灵活的调整。75关键词选取方法根据自己的专业知识确认检索词外,还可以借助一些工具和方法。同义词、近义词获取方法:通过词表、辞书、词典进行核对与扩充,可以根据词表如“汉语主题词表”确定出规范化的主题词;根据专业词典找出别名、俗名、商品名、学名等。上下位主题词获取方法:从主题词表中获得。有的主题词表,如我国国防科技主题词表,英国INSPEC主题词表等可以查得。76掌握数据库资源所覆盖的学科范围掌握各种数据库收录文献的类型查看数据库的详细介绍和说明 1.3.2 选择合适的数据库771.3.3 选择检索途径分类途径:关键是确定分类类目和分类号。主题途径:关键是确定主题词和关键词。著者途径:关键是著者书写方法和规则。序号途径:专利号、标准号、化学分子式索引和 CAS登记号等。781.3.4 编制检索提问式1.单元词检索(概念检索) 检索标识是具体的检索词或词组,每个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论