第3章 文献数据库与计算机检索ppt课件_第1页
第3章 文献数据库与计算机检索ppt课件_第2页
第3章 文献数据库与计算机检索ppt课件_第3页
第3章 文献数据库与计算机检索ppt课件_第4页
第3章 文献数据库与计算机检索ppt课件_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,文献数据库与计算机检索,.,1.文献信息数据库2.计算机信息检索基础3.检索效果评价及其优化,.,1.文献信息数据库,文献是记录知识的载体。数据库是结构化的数据集合,至少由一种文档组成并能够满足某种特定目的或特定数据处理系统需要的数据集合。当数据库记录的对象为文献信息时,就称为文献信息数据库。,.,文献信息数据库的结构,一个数据库通常由一个主文档(MasterFile)和若干个索引文档或称倒排文档(InvertedFile)组成。文档是具有某种特征的全部记录的集合。记录是构成文档的基本单元,由各种反映文献特征的字段组成。如一篇论文、一件专利、一本图书、一个标准的相关信息都能够成为文档中的一条记录。字段是记录的基本组成元素。一条记录的常见字段通常包含题名字段、著者字段、主题词字段、文献出处字段(如刊名等)多种字段。,2020/5/7,.,文献数据库中常见的字段和段码,.,文献数据库的类型,按数据库文献记载的详细度可分为书目型数据库(二次文献数据库):仅提供文献检索,读者根据其提供的线索查找文献原文。可以分为:题录型文摘型EISCI中国科学引文索引,.,文献数据库的类型,按数据库文献记载的详细度可分为全文数据库:不仅提供文献的基本信息及线索,同时还提供原始文献本身的数据库。主要包括全文数据库、术语数据库、图像数据库等等。如:CNKI万方ElsevierIEL,.,文献数据库的类型,按数据库文献记载的详细度可分为混合型数据库:数据中的数据,一部分只是提供参考数据库中的信息(文献的基本情况及线索);另一部分则可以提供全文数据库中的信息(原始文献本身)。如:EBSCO(ASPBSP),.,文献数据库的类型,按文献数据库收录信息的学科范围可分为(1)专业性文献信息数据库(CA)(2)综合性文献信息数据库(中国期刊网),.,文献信息数据库的评价标准,收录内容范围系统准确。揭示文献详略完备详细。更新速度快慢及时快速。检索字段多寡途径丰富。检索功能强弱高效完善。用户使用方便易学易用。维护服务质量及时到位。,.,计算机信息检索基础,计算机信息检索指利用计算机及相关软件和通信设施,对本地计算机、远程服务器及网上信息进行检索的过程或活动。随着信息技术的快速发展及对各种文献信息的数字化处理,计算机文献信息检索已经成为文献信息检索的主要手段。,.,计算机信息检索发展过程,脱机检索阶段(50年代中期到60年代中期)联机检索阶段(60年代中期到70年代中期)光盘数据库检索阶段(70年代中期到80年代末)网络化检索阶段(90初年代至今),.,1)分析检索课题,明确检索要求(2)选择适当检索系统(数据库)(3)确定检索途径及检索词(4)构建检索提问式(5)上机检索并调整检索策略(6)输出检索结果(具体),计算机检索的一般程序,.,计算机检索的一般程序,主题分析明确检索需求及检索目标(1)检索信息的学科范围(2)检索信息的类型(3)检索的目的选择检索系统(数据库等)(1)根据检索目的确定所需数据库的类型(2)根据信息需求的内容、专业范围选择数据库(3)根据记录来源选择数据库(4)根据熟悉程度选择数据库,.,计算机检索的一般程序,主题概念分析(注:是课题检索的重点和难点)检索目的(申报课题、开题报告、学术论文、成果查新、课程论文、商业需求以及其它需求类型等)文献类型(期刊论文、会议论文、科技报告、图书、专利、标准、网站等)?结果形式(全文、文摘、题录、数值、事实等)检索年限(如2000年以来的文献)语种(中文、外文;英文、日文)检索结果数量(100?50?),.,2.计算机检索基本技术,布尔逻辑检索技术布尔检索技术是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以检索出所需信息的方法。常用算符及含义:AND(*)OR(+)NOT(-),.,布尔逻辑检索技术,AND(*)接不相容的主题概念(或不同字段)检索结果同时出现连接的词限定,缩小范围,提高准确率。OR(+)?连接同义词,同族词,相关词检索结果至少含有其中一词或同时有扩大,检索范围,提高查全。NOT(-)缩小检索范围,起到减少文献输出量。,.,布尔逻辑检索技术,优先处理算符“()”逻辑算符OR和AND的使用方法,如果归纳成一个模式,比如有A、B、C、D四个检索词(其中A和B,C和D分别为同义概念),检索提问式为:(AORB)AND(CORD)即,同一组检索提问既含有OR算符,又含有AND算符,此时须使用优先处理算符“()”,将OR算符前后的词放入括号中,计算机将优先运算括号内的算符。,.,位置算符,位置检索可要求检索词以用户所规定的相对位置出现。比如:以词组形式表达的概念;彼此相邻的两个或两个以上的词;被禁用词或特殊符号分隔的词以及化学分子式等。位置算符是调整检索策略的一种重要手段。输入:COMMUNICATIONSATELLITE系统认为:COMMUNICATIONANDSATELLITE结果:communicationsatellite,satellitecommunication,communicationdevicesforsatellite;communicationlinkswithoutsatellite,.,位置算符,常用的位置算符及含义:(W)算符(WITH)表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、字母或代码,但允许有空格或标点符号,也可用()表示。例:COMMUNICATION(W)SATELLITE(nW)算符(nWORD)表示两个检索词中间可插入n个词,但它们之间的顺序不可颠倒。(N)算符(NEAR)表示两个检索词必须相连,不得插入其他词,但词序可以颠倒。,.,位置算符,(nN)算符(nNEAR)表示两个检索词中间可以插入n个词,且词序可以颠倒。(S)算符(SUBFIELD)表示两个检索词必须出现在同一个子句子中,但两词的词序和插入的词数不限。句子位置算符(F)算符(FIELD)表示两个检索词必须同时出现在同一个字段内,但两词的词序和中间插入的词数不限。字段位置算符(C)算符(CITATION)表示两个检索词必须出现在同一记录中,但两词的词序和所在的字段不限。(L)算符(LINK)表示两个检索词之间存在从属关系或限制关系,如果其中一个为一级主题词,另一个就为二级主题词。,.,截词检索技术,截词检索是为扩大检索范围与增加检索结果而采用的一种检索技术。常件的截词符号及含义:“*”可代表多个字符“#”代表单个的字符一个“?”或者“n?”代表0个到9个额外的字符。,.,加权检索技术,加权检索是在检索提问式中,根据每个提问词在检索要求中的重要程度,分别给予一定的加权数值加以区别,我们称这个数值为权数。同时再给出检索命中的阈值。当检索结果达到所设定的阈值时,系统将显示为命中记录。采用加权检索的目的在于提高检索结果的准确程度,.,限制检索技术,具体形式主要有:(1)字段限制检索(2)使用符号限制(3)进行范围限制(4)采用限制指令,.,字段限制检索,基本字段限制字段限制(TI,AB,DE,ID)基本字段限制的用法是在需要指定字段(题目、叙词、识别词和文摘)的检索词后加上后缀运算符“/”和段码。例如,检索策略“OPTICAL/TIANDFIBER/TI”的含义是指定在题目字段中查找含有“optical”和“fiber”两词的所有记录。字段段码可以多个连用,段码之间加“,”即可。例如,检索策略“FIB?/TI,DE”的含义是指定在题目和叙词字段中查找以“fib”为词干的所有记录。,.,字段限制检索,辅助字段限制辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符“=”。例如检索策略AU=“Robert,S.”的含义是在作者字段中查找含有“Robert,S.”的所有记录。下面是其他常用的辅助字段限制及其实例:指定著者单位字段CS=SHANGHAIUNIVERSITY指定刊物名称字段JN=APPLIEDMATHEMATICS指定语言字段LA=ENGLISH指定文献类型字段DT=JOURNAL,.,3.检索式的调整,检索表达式输入检索系统后,输出的检索结果有时不一定能满足课题的要求:检出的篇数过多,而且不相关文献所占比例很大检出的文献数量太少,有时甚至为零,需要调整检索策略。,.,调整检索策略,对于输出篇数过多的情况a.选用了多义性的检索词;b.截词截得过短;c.输入的检索词太少;d.应该使用“与(AND)”的使用了“或(OR)”;e.优先运算符“()”使用错误。,.,调整检索策略,对于输出篇数过少的情况a.检索词拼写错误;b.遗漏重要的同义词或隐含概念;c.检索词过于冷僻具体;d.没有使用截词算符;e.位置算符和字段算符使用的过多;f.使用过多的“AND”算符。,.,计算机检索实例,检索需求查找某概念的确切含义如:什么是“blog”查找某概念的背景知识如:谁最先发现青霉素查找某些事物的数值及量化指标特征型知,一般通过事实型、数值型数据库和搜索引擎获得。,.,查找某一学科的一般知识如:关于分子生物学有哪些专著查找学科专业领域的新进展如:有关纳米技术的研究综述查找课题相关的专业文献最常见的!,文献数据库,.,电子元器件的技术特性数据,可用有关的电子元器件类手册、产品目录、样本或书查找;查过去某年度某种电气电子类产品的产销、贸易、市场概况,可用有关年鉴类资料;查国内外哪些大学招收电气电子类研究生,可查大学类的机构名录或校方的招生简章资料;查“自动化”一词的概念与含义,可用百科全书、学科术语类解释辞典和相关手册;查电子产品的电路图,可用相应的电路图集或手册;查钱学森的主要论著和贡献,可用名人录;等等。,.,主题分析实例直接从检索项目中获取相关概念,例:项目“聚乙烯的合成(synthesisofpolyethylene)”主要概念:聚乙烯、合成(synthesis、polyethylene)检索式:聚乙烯and合成Synthesisandpolyethylene,.,主题分析实例排除重复无关的概念,项目“河豚毒素的液相色谱分析”从项目名称上看,其主要概念为“河豚毒素”、“液相色谱”和“分析”,但由于液相色谱本身就是一种分析方法,它隐含了“分析”这一概念主要概念:河豚毒素、液相色谱检索式:河豚毒素and液相色谱,.,主题分析实例检索词之间存在部分与整体关系,例:1.检索“欧洲能源”方面的文献按照“欧洲”;同时包括许多国家。英法德意2.国外综述,.,主题分析实例隐性概念的处理,课题:高温下使用的不锈钢“不锈钢”“耐热钢”,.,主题分析实例隐性概念的处理,项目“灌溉用的橡塑多孔管”Rubber-PlasticPorousPipeForIrrigation橡塑多孔管也称为橡塑渗灌管,其主要原料为橡胶粉(由废旧轮胎制得)和塑料(如粉状聚乙烯)。隐含概念:橡胶、塑料该产品主要用于农林、园艺等方面的灌溉。主要概念:橡胶、塑料、多孔管、灌溉检索式:(橡胶or塑料or橡塑)and多孔管and灌溉,2020/5/7,.,主题分析实例隐性概念的处理,文昌鱼的遗传多样性显性主题概念:文昌鱼遗传多样隐含主题概念:文昌鱼-头索动物遗传-基因同义近义词:基因-DNA,.,主题分析实例隐性概念的处理,项目“唐山综合防灾的研究”由于唐山是一个城市,因此该项目实际上是“城市综合防灾的研究”。该项目针对的主要灾害是地震、洪水和火灾,所采用的研究手段是决策支持系统和专家系统。防灾:地震、洪水、火灾研究:决策支持系统、专家系统主要概念:城市、地震、洪水、火灾、决策支持系统、专家系统检索式:城市and(地震or洪水or火灾)and(决策支持系统or专家系统),.,主题分析实例概念间逻辑关系的处理,同义词、近义词是或的关系上位词即扩检,如“教育心理学”下位词即缩检,如“智育心理”、“德育心理”、“美育心理”、“教学心理学”、“学习心理学”、“教师心理学”、“学生心理学”等。若多个下位词都用来检索,相对于一个上位词来说,一般是扩检。一个下位词相对于一个上位词来说,一般是缩检。,.,检索词的选择规范词,选择检索词时,一般应优先选择主题词作基本检索词,但为了检索的专指性也选用自由词配合检索。如查找“人造金刚石”的文献,很可能用“manmade(人造)”、“diamonds(金刚石)”作为检索词,但“人造”的实质是“人工合成”,检索词的范围可放宽至:synthetic(W)diamonds合成金刚石;synthetic(W)gems合成宝石;synthetic(W)materials合成材料;synthetic(W)stones合成石;synthetic(W)crystals合成晶体;artificial(W)crystals人造晶体;diamonds金刚石。检索策略:1+(2+3+4+5+6)*7,.,尽量使用代码,不少文档有自己的各种代码,如世界专利索引(WPI)文档的国际专利分类号代码IC,世界工业产品市场与技术概况文档中的产品代码PC和事项代码EC,化学文摘(CA)中的化学物质登记号RN等。如查找“20年来CA收录的锡酸钡导电机理”的文献,就应该用化学物质登记号表示,即rn12009-18-6。其检索式可为:rn12009-18-6*electric?(w)conduct?。而用如下检索式则不能保证文献查全:(barium(w)stannate+BaSn03)*eletrical(w)conductivity,.,同义词尽量选全,检索时为保证查全率,同义词尽量选全。同义词选择应主要考虑以下几点:同一概念的几种表达方式,如化学分析有chemicalanalysis,analyticalchemistry,chemicaldetermination,compositionmeasurement等。同一名词的单、复数、动词、动名词、过去分词形式等,如生产有product,production,producing,produce,productive等,词根相同时,可用截词符解决。,.,同义词尽量选全,要考虑上位概念词与下位概念词,如水果榨汁,不仅要选fruit,也应选各种水果,如pear(梨)、orange(橙)、plum(李子)、peach(桃)、apple(苹果)、pineapple(菠萝)等,反之,如某一种水果保鲜则应参考水果保鲜。化学物质用其名称也要用其元素符号,如氖,Nitrogen和N。植物和动物名,其英文和拉丁名均要选。注意选用国外惯用的技术术语查阅外文文献时,一些技术概念的英文词若在词表查不到,可先阅读国外的有关文献,再选择正确的检索词,.,同义词尽量选全,表示研究方法、技术方法的名词术语,如分析(化学)、针刺手法、有限元法、结构功能法、力学性能试验等表示工艺方法、加工技术的名词术语,如铸造、锻造、热处理、焊接、酿造、取心钻进、爆破成型、激光切割等;,.,激光加工技术在航空工业中的应用,有关激光加工;在航空工业中的应用。第一组面:激光。从词表中可以选取(1)laser(激光)(2)laserbean(激光束)第二组面:激光加工技术。3-6从词表中可以选取(3)laserannealing(激光热处理)(4)lasercutting(激光切削)(5)laserdrilling(激光钻孔)(6)laserwelding(激光焊接),.,7-10加工技术(7)Sufacealloying(表面合金化)(8)Surfacehardening(表面硬化)(9)Remelting(再溶化)(10)Radiationhardening(表面硬化)第三组面:航空工业(11)aircraft(12)aircraftindustry(13)aircraftequipment,.,拟定检索式(1+2)*(7+8+9+10)+(3+4+5+6)*(11+12+13)注意:对于复合词可以用位置算符,截词符。,.,检索效果评价的指标,评价检索效果的常用指标有:查全率(Recallratio)用R表示查准率(Precisionratio)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论