信息检索基础知识研究生课件_第1页
信息检索基础知识研究生课件_第2页
信息检索基础知识研究生课件_第3页
信息检索基础知识研究生课件_第4页
信息检索基础知识研究生课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学信息检索Medical Information Retrieval河北联合大学医学信息检索教研室第二章 信息检索基础知识 主讲教师:谈伟文图书馆信息咨询部 电话3725914/6576 Chapter 2 Information Retrieval Theoretical Knowledge Database Knowledge Computerized Retrieval Language Computerized Retrieval Techniques Approach, steps and effectiveness evaluation Chapter 2 Information

2、 Retrieval Theoretical Knowledge基础概念信息检索:是指通过一定的方法,从任一信息 集合中查出特定信息的过程。检索手段:手工检索 计算机检索检索对象:文献、事实、数值数据等Chapter 2 Information Retrieval Theoretical Knowledge手检VS机检(文献检索-手检)检索工具书检索工具书手检VS机检(文献检索-机检)Section Database knowledge 是指一定专业范围内的信息记录及其索引的集合体。是计算机信息检索系统的重要组成部分。 是信息资源,是检索的对象一次文献二次文献 信息记录001 微量元素与老年人

3、肺心病关系的探讨 王书钧; 汤兵祥; 杜鹃; 王国琳 河南医科大学第一附属医院 中华老年医学杂志 1993;12(4):247 肺心病; 痕量元素002 慢阻肺的新进展与临床 黄桂平 江西省大吉山钨矿医院 医学综述 2000;6(4):164-165 肺疾病, 阻塞性; 慢性病003 超声乳化白内障摘除术 施玉英 北京同仁医院 中国医刊 2001;36(7):11-13 超声乳化白内障吸除术 超声乳化白内障吸除术 003肺疾病,阻塞性 002肺心病 001痕量元素 001慢性病 002索引杜鹃 001黄桂平 002施玉英 003 汤兵祥 001 王国琳 001 王书钧 001医学综述 002中

4、国医刊 003中华老年医学杂志 001一、数据库的类型(Database Type) 按检索对象划分 1.文献数据库(literature Database) 又分为书目数据库、全文数据库 2.数值数据库(numeric database) 3.事实数据库(fact database) 4.多媒体数据库(multimedia database) Section Database knowledge 数据库 文档 记录 字段二、数据库的结构 1. 记录(Record) 是构成数据库的一个完整的基本信息单元,每条记录描述了一原始信息的外部特征和内容特征。 2. 字段(Field) 是比记录更小的信

5、息单元,是组成记录的数据项目。 3. 文档(File)两重含义 4. 索引(Index) 为便于检索而建的倒排文档 Section Database knowledgeMEDLINE记录样例专利数据库记录样例SERLINE记录样例文档的两重含义数据库中部分记录的集合文档的两重含义 指数据库的结构分为 顺排文档(又称主文档) 倒排文档(又称索引文档)主文档与索引文档图释001 微量元素与老年人肺心病关系的探讨 王书钧; 汤兵祥; 杜鹃; 王国琳 河南医科大学第一附属医院 中华老年医学杂志 1993;12(4):247 肺心病; 痕量元素002 慢阻肺的新进展与临床 黄桂平 江西省大吉山钨矿医院

6、医学综述 2000;6(4):164-165 肺疾病, 阻塞性; 慢性病003 超声乳化白内障摘除术 施玉英 北京同仁医院 中国医刊 2001;36(7):11-13 超声乳化白内障吸除术超声乳化白内障吸除术 003肺疾病,阻塞性 002肺心病 001痕量元素 001慢性病 002主文档(顺排文档)索引文档(倒排文档)杜鹃 001黄桂平 002施玉英 003 汤兵祥 001 王国琳 001 王书钧 001Remember the commonly used fields字段名称AbstractAffiliationAuthor Source TitleLanguage字段标识符ABADAU S

7、OTILA中文释义文摘/摘要著者单位/地址著者/作者 来源/出处篇名/题名/标题语种题录的构成AuthorTitleSource题录(citation ) Section Computerized Retrieval Language Chapter 2 Information Retrieval Theoretical Knowledge检索语言(Retrieval language) 是根据文献信息存储与检索的需要而创造的人工语言。 又称标引语言或索引语言。Section Computerized Retrieval Language第二节 信息检索 机械匹配或字符匹配举例 多词一义 艾滋

8、病爱滋病获得性免疫缺陷综合症AidsAcquire Immunodeficiency Syndrome 检索语言是根据文献信息存储与检索的需要而创造的,用来描述文献的内容特征、外表特征和表达检索提问的一种人工语言。 标引语言 文献 整序索引语言 编制 索引检索语言 文献 检索Section Computerized Retrieval Language文献的特征特征1特征2特征3特征4特征5特征n文献的外部特征: 与文献主题内容没有关系或关系不大的信息称为文献的外部特征,包括作者、作者工作单位,发表时间、专利号、报告号等。文献的内容(主题)特征 与文献主题内容密切相关的信息称为文献的内容特征。

9、文献信息内容特征主要有主题词和分类号。(一)描述信息外表特征的检索语言 文献题名、作者、作者工作单位、文献发表时间、 出处(刊名、卷、期、页)等 专利专利名称、专利号、发明人、申请时间等 歌曲曲名(字数、拼音)、歌手姓名等 药品商品名、化学名称、生产厂家等Section Computerized Retrieval Language(二)描述信息内容特征的检索语言 1. 分类检索语言 2. 主题检索语言 3. 代码检索语言Section Computerized Retrieval Language 1. 分类检索语言 用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。 等级体系

10、分类检索语言(体系分类法) 中图法 分析综合型分类检索语言(组配分类法)Section Computerized Retrieval LanguageA 马克思主义、列宁主义、 毛泽东思想B 哲学C 社会科学总论D 政治、法律E 军事F 经济 G 文化、科学、教育、体育H 语言、文字I 文学 J 艺术K 历史、地理N 自然科学总论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航空、航天X 环境科学Z 综合性图书中图法简表Example 图书期刊排架中目的分类目次例:R775眼压与青光眼该期R775类中共4篇 2. 主题检索语言 用于表达

11、文献主题内容的语词标识系统。 (1)主题词:严格规范化处理的表达文献主题概念的语词。是人工受控语言。 (2)关键词:从文献的题名、摘要、章节标题或正文中抽取出来的具有实质意义,并能表达文献的主题内容,未经严格规范化处理的语词。属自然语言的范畴。Section Computerized Retrieval LanguageExample非主题词:单车、脚踏车主题词:自行车用“单车” 检索:会漏掉所有有关“脚踏车”和“自行车”的文献用“脚踏车”检索:会漏检所有“单车”和“自行车”的文献用“自行车”检索:可查到所有相关文献 自行车单车脚踏车/mesh/meshhome.html MeSH美国国立医学

12、图书馆中国中医药学主题词表中国中医科学院中医药信息研究所放大这4篇主题索引中同上主题索引的分在R779.66青光眼外科学2篇#254、#256放大这2篇 3. 代码检索语言 根据文献信息中论述事物的代码作为标识,加以标引和排列。如用化合物的分子式编排而成的索引。专利号、标准号等。 属于自然语言的范畴。Chapter 2 Information Retrieval Theoretical Knowledge Chapter 2 Information Retrieval Theoretical KnowledgeChapter 2 Information Retrieval Theoretica

13、l KnowledgeSection Computerized Retrieval Techniques 一、布尔逻辑检索 二、截词检索 三、限定检索 四、位置检索 五、加权检索 六、二次检索Section Computerized Retrieval TechniquesABSection Computerized Retrieval Techniques 一 、布尔逻辑检索: 3个运算符 AND OR NOT逻辑“与”(积)A and B A BSection Computerized Retrieval Techniques逻辑“或”(和)A or BA BSection Compute

14、rized Retrieval Techniques逻辑“非”(差)A not B1. agedcataractand2. zincorcalcium3. apoptosisnotanimalExamples例1 老年白内障例2 有关锌和钙两种元素例3 细胞凋亡的非动物实验研究 Section Computerized Retrieval Techniques优先运算次序NOTANDOR( )可以改变上述运算顺序,先算( )里的部分例如:钙或锌与儿童发育的关系,逻辑表达式为(钙 or 锌) and 儿童发育(钙 and 儿童发育)or (锌 and 儿童发育)(钙 or 锌) & 儿童发育(钙

15、or锌) and 儿童发育机器可识别的符号* - “” ( ) ? /HIF-1 “HIF-1”kidney failure, chronickidney-failure-chronic 注 意Section Computerized Retrieval Techniques二、 截词检索( Truncated search )截词(Truncation)是把检索词从某处截断,用特定的符号(截词符或通配符)代替被截去的一个或多个字符。截词符(通配符): * ? # $ :作用:扩大检索范围 二、 截词检索( Truncated search )常用的截词符(通配符):* (0-n个字符)? (

16、0-1个字符)其他截词符(通配符):$或者 : (0-n个字符)# (1个字符)Section Computerized Retrieval TechniquesSection Computerized Retrieval Techniques二、 截词检索( Truncated search )举例:无限截 * $ :child*child、children、childish、childhoode*ologyecology、embryology、etiology、epidemiology有限截(强制) #dog# dogs wom#nwoman、 women二、 截词检索( Truncate

17、d search )举例:有限截(可选) ? $n child?child、children、childishpain? pain、pains 、paint m?nman、 mencol?rcolor 、 colour、collardog$1dog、dogs Section Computerized Retrieval Techniques二、 截词检索( Truncated search )中文数据库中的截词叶?平叶京平、叶选平肝炎*疫苗肝炎疫苗、肝炎病毒基因疫苗、肝炎减毒活疫苗、肝炎灭活疫苗注:由于汉字书写形式的缘故,中文的截词主要用于词中,词尾不需要截词,自动截词。Section Com

18、puterized Retrieval Techniques注 意1. 不要滥用截词,不要截得过短 car*cars、care、carry、cardiac、cardial、cardiant、cardia 2. 截词符号要用西文输入法3. 截词符号在外文数据库主要用于词尾和词中;而在中文数据库主要用于词中 4. ?在不同的中文数据库中有不同规定,有的代表一个汉字,有的代表一个西文字符 注意:在一些中文数据库中,在著者和刊名两个 字段中做限定检索,还有精确和模糊之别 三、限定检索(Limited Search) 1.限定字段检索 儿童 in ti; child in ti 癌症 in ta 黎明

19、in au 哮喘 in ab; asthma in ab English in la 动物 in ct ; animal in tgSection Computerized Retrieval Techniques模 糊 检 索黎明 in AU检索出的作者有:赵黎明、李黎明、黎明江、黎明癌症 in TA检索出的期刊有:癌症中国癌症杂志实用癌症杂志精 确 检 索AU=黎明检索出的作者只有:黎明 TA=癌症检索出的期刊只有:癌症Section Computerized Retrieval TechniquesCBM、CNKI的匹配模式图示2. 限定条件检索四、位置检索(临近检索Location S

20、earch) 全文检索时应用,可提高查准率 对两个检索词之间的相对位置进行限制 (W)-With 两词之间紧邻、不可倒序 (N)-Near 两词之间紧邻、可倒序 n表示两词之间可以插入若干个词 限两词在同一自然句或字段范围 其他符号如 adj 或 field、subfield 不同检索系统有不同的定义和规则Section Computerized Retrieval Techniques 五、加权检索(Weighted Search) 强调检索词必须是检索结果的核心概念。 是一种缩小检索范围,提高检准率的有效方法。Section Computerized Retrieval Technique

21、sSection Computerized Retrieval Techniques 六、二次检索 即在结果中检索,用以缩小检索范围,提高查准率。 CBM的二次检索图示Section Computerized Retrieval TechniquesCNKI的二次检索图示Chapter 2 Information Retrieval Theoretical Knowledge Section Computerized retrieval approach, steps and effectiveness evaluation(一)分类途径(二)主题途径(三)关键词途径(四)著者途径(五)引文途径(六)机构途径(七)刊名途径(八)默认途径(机检) Computerized retrieval approach, steps and effectiveness evaluation一、检索途径(Retrieval Approach)缺省检索图示(CBM为例)不同数据库的引文检索图示不同数据库的默认检索图示二、检索步骤(Ret

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论