




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、文献数据库与计算机检索 1. 文献信息数据库 2. 计算机信息检索基础 3. 检索效果评价及其优化 1. 文献信息数据库 文献是记录知识的载体。数据库是结构化的数据集合,至 少由一种文档组成并能够满足某种特定目的或特定数据处理系 统需要的数据集合 。当数据库记录的对象为文献信息时,就称 为文献信息数据库 。 文献信息数据库的结构 一个数据库通常由一个主文档(Master File) 和若干个索引文档或称倒排文档(Inverted File) 组成。 文档是具有某种特征的全部记录的集合。 记录是构成文档的基本单元,由各种反映 文献特征的字段组成。如一篇论文、一件专利、 一本图书、一个标准的相关信
2、息都能够成为文 档中的一条记录。 字段是记录的基本组成元素。一条记录的 常见字段通常包含题名字段、著者字段、主题 词字段、文献出处字段(如刊名等)多种字段。 文献数据库中常见的字段和段码 2021-7-12 文献数据库的类型 按数据库文献记载的详细度可分为 书目型数据库(二次文献数据库):仅提供文献检索, 读者根据其提供的线索查找文献原文。 可以分为:题录型 文摘型 EI SCI 中国科学引文索引 文献数据库的类型 按数据库文献记载的详细度可分为 全文数据库:不仅提供文献的基本信息及线索,同时 还提供原始文献本身的数据库。主要包括全文数据库、 术语数据库、图像数据库等等。 如: CNKI 万方
3、 Elsevier IEL 文献数据库的类型 按数据库文献记载的详细度可分为 混合型数据库:数据中的数据,一部分只是提供参考数 据库中的信息(文献的基本情况及线索);另一部分 则可以提供全文数据库中的信息(原始文献本身) 。如: EBSCO (ASPBSP) 文献数据库的类型 按文献数据库收录信息的学科范围可分为 (1) 专业性文献信息数据库 (CA) (2) 综合性文献信息数据库 (中国期刊网) 文献信息数据库的评价标准 收录内容范围系统准确。 揭示文献详略完备详细。 更新速度快慢及时快速。 检索字段多寡途径丰富。 检索功能强弱高效完善。 用户使用方便易学易用。 维护服务质量及时到位。 计算
4、机信息检索基础 计算机信息检索指利用计算机及相关软件和通信 设施,对本地计算机、远程服务器及网上信息进行检 索的过程或活动。 随着信息技术的快速发展及对各种文献信息的数字化 处理,计算机文献信息检索已经成为文献信息检索的 主要手段。 计算机信息检索发展过程 脱机检索阶段(50年代中期到60年代中期) 联机检索阶段(60年代中期到70年代中期) 光盘数据库检索阶段(70年代中期到80年代末) 网络化检索阶段(90初年代至今) 1)分析检索课题,明确检索要求 (2)选择适当检索系统(数据库) (3)确定检索途径及检索词 (4)构建检索提问式 (5)上机检索并调整检索策略 (6)输出检索结果 (具体
5、) 计算机检索的一般程序 计算机检索的一般程序 主题分析 明确检索需求及检索目标 (1)检索信息的学科范围 (2)检索信息的类型 (3)检索的目的 选择检索系统(数据库等) (1)根据检索目的确定所需数据库的类型 (2)根据信息需求的内容、专业范围选择数据库 (3)根据记录来源选择数据库 (4)根据熟悉程度选择数据库 计算机检索的一般程序 主题概念分析(注:是课题检索的重点和难点) 检索目的(申报课题、开题报告、学术论文、成果查新、课程 论文、商业需求以及其它需求类型等) 文献类型(期刊论文、会议论文、科技报告、图书、专利、标 准、网站等)?结果形式(全文、文摘、题录、数值、事实等) 检索年限
6、(如2000年以来的文献) 语种(中文、外文;英文、日文) 检索结果数量(100?50?) 2.计算机检索基本技术 布尔逻辑检索技术 布尔检索技术是指利用布尔运算符连接各个检索词,然后由计算机进行相应 逻辑运算,以检索出所需信息的方法。 常用算符及含义:AND (*) OR (+) NOT (-) 布尔逻辑检索技术 AND (*) 接不相容的主题概念(或不同字段) 检索结果同时出现连接的词 限定, 缩小范围, 提高准确率。 OR (+)?连接同义词 ,同族词, 相关词 检索结果至少含有其中一词或同时有 扩大,检索范围, 提高查全。 NOT (-) 缩小检索范围,起到减少文献输出量。 布尔逻辑检
7、索技术 优先处理算符“( )” 逻辑算符OR和AND的使用方法,如果归纳成一个模式,比如有A、B、C、 D四个检索词(其中A和B,C和D分别为同义概念), 检索提问式为:(A OR B)AND (C OR D) 即,同一组检索提问既含有OR算符,又含有AND算符,此时须使用优先处 理算符“( )”,将OR算符前后的词放入括号中,计算机将优先运算括号 内的算符。 位置算符 位置检索可要求检索词以用户所规定的相对位置出现。 比如:以词组形式表达的概念;彼此相邻的两个或两个以上的词;被禁用词或特殊 符号分隔的词以及化学分子式等。位置算符是调整检索策略的一种重要手段。 输入:COMMUNICATION
8、 SATELLITE 系统认为 :COMMUNICATION AND SATELLITE 结果: communication satellite ,satellite communication , communication devices for satellite ;communication links without satellite 位置算符 常用的位置算符及含义: (W)算符(WITH) 表示两个检索词紧挨着,词序不能颠倒, 中间不得插入其他词、字母或代 码,但允许有空格或标点符号,也可用()表示。 例:COMMUNICATION(W)SATELLITE (n W)算符(n W
9、ORD) 表示两个检索词中间可插入n个词,但它们之间的顺序不可颠倒。 (N)算符 (NEAR) 表示两个检索词必须相连,不得插入其他词,但词序可以颠倒。 位置算符 (n N)算符(n NEAR) 表示两个检索词中间可以插入n个词,且词序可以颠倒。 (S)算符(SUBFIELD) 表示两个检索词必须出现在同一个子句子中,但两词的词序和插入的词数不限。 句子位置算符 (F)算符(FIELD) 表示两个检索词必须同时出现在同一个字段内,但两词的词序和中间插入的词数 不限。字段位置算符 (C)算符(CITATION) 表示两个检索词必须出现在同一记录中,但两词的词序和所在的字段不限。 (L)算符(LI
10、NK) 表示两个检索词之间存在从属关系或限制关系,如果其中一个为一级主题词,另 一个就为二级主题词。 截词检索技术 截词检索是为扩大检索范围与增加检索结果而采用的一种 检索技术。 常件的截词符号及含义: “*”可代表多个字符 “#”代表单个的字符 一个“?”或者“n?”代表0个到9个额外的字符 。 加权检索技术 加权检索是在检索提问式中,根据每个提问词在检索要求中的重要程 度,分别给予一定的加权数值加以区别,我们称这个数值为权数。同时再 给出检索命中的阈值。当检索结果达到所设定的阈值时,系统将显示 为命中记录。 采用加权检索的目的在于提高检索结果的准确程度 限制检索技术 具体形式主要有: (1
11、)字段限制检索 (2)使用符号限制 (3)进行范围限制 (4)采用限制指令 字段限制检索 基本字段限制字段限制(TI,AB,DE,ID) 基本字段限制的用法是在需要指定字段(题目、叙词、识别词和文摘) 的检索词后加上后缀运算符“/”和段码。 例如,检索策略“OPTICAL/TI AND FIBER/TI”的含义是指定在题目字 段中查找含有 “optical” 和“fiber”两词的所有记录。 字段段码可以多个连用,段码之间加“,”即可。 例如,检索策略“FIB?/TI,DE”的含义是指定在题目和叙词字段中查找 以 “fib”为词干的所有记录。 字段限制检索 辅助字段限制 辅助字段运算符的用法是
12、在需要指定字段的检索词(有时检索词须放在双 引号内)之前加上段码和前缀运算符“=”。 例如检索策略AU=“Robert, S.”的含义是在作者字段中查找含有“Robert, S.”的所有记录。 下面是其他常用的辅助字段限制及其实例: 指定著者单位字段 CS=SHANGHAI UNIVERSITY 指定刊物名称字段 JN=APPLIED MATHEMATICS 指定语言字段 LA=ENGLISH 指定文献类型字段 DT=JOURNAL 3.检索式的调整 检索表达式输入检索系统后,输出的检 索结果有时不一定能满足课题的要求: 检出的篇 数过多,而且不相关文献 所占比例很大 检出的文献数量太少,有时
13、甚至为零, 需要调整检索策略。 调整检索策略 对于输出篇数过多的情况 a .选用了多义性的检索词; b .截词截得过短; c. 输入的检索词太少; d. 应该使用“与(AND)”的使用了“或(OR)”; e.优先运算符“()”使用错误。 调整检索策略 对于输出篇数过少的情况 a. 检索词拼写错误; b. 遗漏重要的同义词或隐含概念; c. 检索词过于冷僻具体; d. 没有使用截词算符; e. 位置算符和字段算符使用的过多; f. 使用过多的“AND”算符。 计算机检索实例 检索需求 查找某概念的确切含义如:什么是“blog” 查找某概念的背景知识如:谁最先发现青霉素 查找某些事物的数值及量化指
14、标特征型知 一般通过 事实型、 数值型数 据库和搜 索引擎获 得。 查找某一学科的一般知识 如:关于分子生物学有哪些专著 查找学科专业领域的新进展 如:有关纳米技术的研究综述 查找课题相关的专业文献 最常见的! 文献数据库 电子元器件的技术特性数据,可用有关的电子元器件类手册、产品目 录、样本或书查找; 查过去某年度某种电气电子类产品的产销、贸易、市场概况,可用有 关年鉴类资料; 查国内外哪些大学招收电气电子类研究生,可查大学类的机构名录或 校方的招生简章资料; 查“自动化”一词的概念与含义,可用百科全书、学科术语类解释辞 典和相关手册; 查电子产品的电路图,可用相应的电路图集或手册; 查钱学
15、森的主要论著和贡献,可用名人录;等等。 主题分析实例 直接从检索项目中获取相关概念 例:项目“聚乙烯的合成(synthesis of polyethylene)” 主要概念:聚乙烯、合成(synthesis、polyethylene) 检索式: 聚乙烯 and 合成 Synthesis and polyethylene 主题分析实例 排除重复无关的概念 项目“河豚毒素的液相色谱分析” 从项目名称上看,其主要概念为“河豚毒素”、“液相 色谱”和“分析”,但由于液相色谱本身就是一种分析 方法,它隐含了“分析”这一概念 主要概念:河豚毒素、液相色谱 检索式:河豚毒素and液相色谱 主题分析实例 检索
16、词之间存在部分与整体关系 例:1.检索“欧洲能源”方面的文献 按照“欧洲”;同时包括许多国家。英 法 德 意 2.国外综述 主题分析实例 隐性概念的处理 课题:高温下使用的不锈钢 “不锈钢” “耐热钢” 主题分析实例 隐性概念的处理 项目“灌溉用的橡塑多孔管” Rubber-Plastic Porous Pipe For Irrigation 橡塑多孔管也称为橡塑渗灌管,其主要原料为橡胶 粉(由废旧轮胎制得)和塑料(如粉状聚乙烯)。隐含概念: 橡胶、塑料 该产品主要用于农林、园艺等方面的灌溉。 主要概念:橡胶、塑料、多孔管、灌溉 检索式:(橡胶or塑料or橡塑)and多孔管and灌溉 2021
17、-7-12 主题分析实例 隐性概念的处理 文昌鱼的遗传多样性 显性主题概念 :文昌鱼 遗传多样 隐含主题概念: 文昌鱼 -头索动物 遗传 -基因 同义 近义词: 基因 -DNA 主题分析实例 隐性概念的处理 项目“唐山综合防灾的研究” 由于唐山是一个城市,因此该项目实际上是“城市综合防灾的 研究”。 该项目针对的主要灾害是地震、洪水和火灾,所采用的研究手 段是决策支持系统和专家系统。 防灾:地震、洪水、火灾 研究:决策支持系统、专家系统 主要概念:城市、地震、洪水、火灾、决策支持系统、专家系统 检索式:城市and(地震or洪水or火灾)and(决策支持系统or专家 系统) 主题分析实例 概念间
18、逻辑关系的处理 同义词、近义词是或的关系 上位词即扩检,如“教育心理学” 下位词即缩检,如“智育心理”、“德育心理”、“美育心理”、 “教学心理学”、“学习心理学”、“教师心理学”、“学生心理学” 等。 若多个下位词都用来检索,相对于一个上位词来说,一般是扩检。 一个下位词相对于一个上位词来说,一般是缩检。 检索词的选择 规范词 选择检索词时,一般应优先选择主题词作基本检索词,但为了检索的专指性 也选用自由词配合检索。 如查找“人造金刚石”的文献,很可能用“manmade( 人造) ”、 “diamonds( 金刚石) ”作为检索词,但“人造”的实质是“人工合成”,检索词 的范围可放宽至: s
19、ynthetic(W)diamonds 合成金刚石; synthetic(W)gems 合成宝石; synthetic(W)materials 合成材料; synthetic(W)stones 合成石; synthetic(W)crystals 合成晶体; artificial(W)crystals 人造晶体; diamonds 金刚石。 检索策略:1+(2+3+4+5+6)*7 尽量使用代码 不少文档有自己的各种代码, 如世界专利索引(WPI) 文档的国际专利分类号代码IC ,世 界工业产品市场与技术概况文档中的产品代码PC 和事项代码 EC,化学文摘(CA) 中的化学物质登记号RN 等。
20、如查找“20 年来CA 收录的锡酸钡导电机理”的文献,就应该用 化学物质登记号表示,即rn 12009-18-6 。 其检索式可为:rn 12009-18-6*electric?(w)conduct? 。 而用如下检索式则不能保证文献查全:(barium (w)stannate+BaSn03)*eletrical(w)conductivity 同义词尽量选全 检索时为保证查全率,同义词尽量选全。同义词选择应主要 考虑以下几点: 同一概念的几种表达方式,如化学分析有chemical analysis, analytical chemistry,chemical determination, co
21、mposition measurement等。 同一名词的单、复数、动词、动名词、过去分词形式等,如生 产有product,production,producing,produce, productive等,词根相同时,可用截词符解决。 同义词尽量选全 要考虑上位概念词与下位概念词,如水果榨汁,不仅要选fruit ,也应 选各种水果,如pear( 梨) 、orange( 橙) 、plum( 李子) 、 peach( 桃) 、apple( 苹果) 、pineapple( 菠萝) 等,反之,如某一种 水果保鲜则应参考水果保鲜。 化学物质用其名称也要用其元素符号,如氖,Nitrogen 和N 。 植
22、物和动物名,其英文和拉丁名均要选。 注意选用国外惯用的技术术语查阅外文文献时,一 些技术概念的英文词若在词表查不到,可先阅读国外 的有关文献,再选择正确的检索词 同义词尽量选全 表示研究方法、技术方法的名词术语,如分析(化学)、针刺手法、有 限元法、结构功能法、力学性能试验等 表示工艺方法、加工技术的名词术语,如铸造、锻造、热处理、焊接、 酿造、取心钻进、爆破成型、激光切割等; 激光加工技术在航空工业中的应用 有关激光加工;在航空工业中的应用。 第一组面:激光。从词表中可以选取 (1) laser (激光) (2) laser bean (激光束) 第二组面:激光加工技术。3-6 从词表中可以
23、选取 (3)laser annealing(激光热处理) (4)laser cutting (激光切削) (5)laser drilling (激光钻孔) (6)laser welding (激光焊接) 7-10加工技术 (7)Suface alloying (表面合金化) (8)Surface hardening (表面硬化) (9)Remelting (再溶化) (10)Radiation hardening (表面硬化) 第三组面:航空工业 (11)aircraft (12)aircraft industry (13)aircraft equipment 拟定检索式 (1+2)*(7+8+9+10)+(3+4+5+6)* (11+12+13) 注意:对于复合词可以用位置算符,截词符。 检索效果评价的指标 评价检索效果的常用指标有: 查全率(Recallratio)用R表示 查准率(Precisionrat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教陕西 九年级 下册 语文 第二单元《 蒲柳人家(节选)》习题课 课件
- 人教陕西 九年级 下册 语文 第四单元《 山水画的意境》习题课 课件
- 人教版高中语文第三册伶官传序 同步练习
- 江苏省洪泽中学 学年度高二第一次段考语文试卷
- 小学四年级上册数学混合运算习题
- 中介转让房屋合同范例
- 分析装修合同范例
- 代理考核协议合同范例
- 保温施工合同范例
- 修复汽车出售合同范例
- 风力发电项目报价清单 (风机基础等)
- 《叶甫盖尼·奥涅金》41张幻灯片
- 沪教牛津版三年级英语下册全册课件
- 天府刘家漕历史的记忆
- MicrosoftOffice2016简体中文版下载及使用
- 招待所所长岗位职责内容范本
- 北师大版七年级生物下册 第8章 章末复习 课件(共18张PPT)
- 夹胶玻璃作业指导书
- NLP高效能沟通影响力集团李炫华
- 站长办公会议事规则
- 毕业设计说明书初稿-头孢曲松钠生产工艺设计
评论
0/150
提交评论