情报检索语言:第八章 一体化医学语言系统_第1页
情报检索语言:第八章 一体化医学语言系统_第2页
情报检索语言:第八章 一体化医学语言系统_第3页
情报检索语言:第八章 一体化医学语言系统_第4页
情报检索语言:第八章 一体化医学语言系统_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、UMLS的产生背景二、UMLS的建立与发展三、UMLS的组成四、UMLS的支持性软件工具五、UMLS的应用第八章 一体化医学语言系统一、UMLS的产生背景 20世纪中叶是情报语言学研究中人工语言发展的鼎盛时期,20世纪末叶是人工语言与自然语言相结合的新兴阶段。 自然语言由于存在词汇的同义、多义现象,词汇的模糊性和不确定性,词汇量的巨大,词间关系不明晰等问题,不可能单纯使用它进行检索,所以需要用一种受控检索语言对检索和标引所用的词汇进行控制,把用户的语言和标引人员的语言统一起来。 由于信息量的扩充, 给人工语言的处理带来了很大的困难。一、UMLS的产生背景工作量大效率低一致性差词表的不完备性

2、影响了标引的质量标引人员与检索人员都必需熟悉词表才能工作,使用非常不便。二、UMLS的建立与发展目的:旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读信息资源指南系统,其目的在于提高计算机程序“理解”用户提问中生物医学词汇涵义的能力,并利用这种理解帮助用户通过多种交互检索程序,克服由于不同系统检索语言差异性和不同数据库相关信息的分散性所造成的诸多信息检索问题。二、UMLS的建立与发展原则:1.多学科、多研究小组协同开发原则 UMLS是一项规模宏大而又相当复杂的长期研究和开发项目,需要多学科专家、多研究小组参与协作研究。所以美国国立医学图书馆内部成立了一个多学科研究小组,同时以竞

3、争和合同方式组织了许多以全美各地大学为基础的医学情报研究小组。 2.集中开发与分散开发相结合的原则 UMLS的研究小组集中开发、维护和修订其产品,同时向广大用户分发其产品。只要用户同意向NLM提供反馈信息以及遵守其版权,即可免费获得。发展阶段:1986年-1988年初始阶段。研究和开发的重点是调查用户需求、开发研究工具、 确定UMLS的性能及其实施方案、界定系统组成等。在此阶段主要界定了UMLS的三个组成部分即超级叙词表、语义网络、情报源图谱,并且进行了包括MeSH、SNOMED、CMIT和PDQ词表在内的联接试验。 1989年-1991年发展阶段。开发的重点是迅速研制和发行三个UMLS产品的

4、试验版,同时继续开展用户调查和UMLS功能开发。 1992年至今应用阶段。1996年UMLS新增了一个组成部分即“专家词典”。在此阶段,许多研究机构利用UMLS 进行基于Internet的应用开发,如决策支持系统DX plain、文献检索系统Web medicine、临床Web搜索系统Clin web、医学世界检索Medical world search以及集成化的Med weaver等。二、UMLS的建立与发展(一)超级叙词表(Metathesaurus)(二)语义网络( Semantic Network)(三)情报源图谱(Information sources Map )(四)专家词典(S

5、pecialist Lexicon)三、UMLS的构成超级词表是生物医学的概念、术语、词汇及其涵义、等级范畴的集成。语义网络是为建立概念、术语间相互关系而设计的,它为超级词表中的所有概念标明了类别和语义类型。信息源图谱是一个有关各种生物医学数据库的范围、位置、词表、语法及获取条件的信息。专家词典则包括英语词汇数据库及其配套程序。相互联系,结合使用的一个整体。 超级叙词表是UMLS的核心词汇部分,其英文名称“Metathesaurus”的前缀 Meta取自韦伯氏英语词典对“Meta”前缀的第二种解释,即“更综合,卓越超常”。在多种意义上,超级叙词表的确胜过包揽的特定词表和分类表。超级叙词表是大型

6、的、多词源、多语种的生物医学词库,包括概念、术语、词汇及其等级范畴、属性以及词间关系等。(一)超级叙词表(Metathesaurus)超级叙词表在收词方面的特点: 收词量大:收录来自近200种生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等,可大致分为以下类型: 为病案记录系统而设计的各种术语表 ,如国际系统医学术语集(SNOMED); 用作统计报告和列表的大型疾病和病程分类表, 如国际疾病分类修订第 10 版及其他各版; 用于记录与精神病学、护理、医疗器械、药物副作用等数据有关的专业化词表,如:精神失常诊断和统计手册、护理诊断分类; 专家诊断系统或联机数据库中的疾病及其

7、他可查询术语 ,如麻省总医院研制开发的DX plain专家诊断系统; 情报检索系统所使用的叙词表,如MeSH表及其葡萄牙语、西班牙语、法语、德语、俄语等各种译本; 医学词典,如多兰氏图解医学辞典、医生现行工作术语; 工具性词表,如校对词表、校对词表术语的美式英语与超级叙词表概念的等同参照 。 选择性:超级叙词表对来源词表以及同一种词表的不同版本中的词均是选择性收录。例如,超级叙词表2005年AA版收录了国际疾病分类(修订第10版)(ICD-10)的词汇13490个、ICD-10美国版1107个、ICD-10澳大利亚版25588个、ICD-9临床版20176个。 动态性:从2002年开始,超级叙

8、词表进行季度更新,词汇有增有减,但总的趋势是在增长。例如,1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的能表达33万多个概念的739439个词汇;2001年12版收录了83万个概念,190万个词;2002年第13版超级叙词表收录了776940个概念共210万个词。到2011年,超级叙词表包含有260 万个概念,2016年最新版,超级叙词表包含来自199个词表的325万个概念 概念组织:三级结构模式 超级叙词表是依据概念(concept)或其涵义(meaning)组织起来的,其根本目的是将相同概念的交替名称和不同的语词形式联系在一起,并识别不同概念之间的联系。因此,可以说

9、概念是超级叙词表组织系统的中心。 表达同一概念可以有多个术语,对于同一概念的不同术语以及不同的变异形式,超级叙词表采用三级结构模式,即概念(I 级)-术语(II 级)-词串(III 级),将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念,超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。 在Meta中的每一个概念都会被指定一个概念识别符(Concept Unique Identifier , 简称CUI)。CUI本身不具意义,只用作链接的指针。而每一个表达概念含义的字符串(name or string),不管是大小写的分别或拼写上的

10、不同,凡是有差异者均视为一个独立的字符串,而分别赋予不同的字符串识别符(String Unique Identifier, 简称SUI)。由于Meta实际上是由英文款目所构成的,所以不同词型间表达相同概念的语词要能连结在一起,就必须依赖术语标识符(Lexicon Unique Identifier, 简称LUI)的指引。 Concept (CUI)Terms (LUIs)Strings (SUIs)C0004238 Atrial Fibrillation (preferred) Atrial Fibrillations Auricular Fibrillation Auricular Fibr

11、illationsL0004238 Atrial Fibrillation (preferred) Atrial FibrillationsS0016668 Atrial Fibrillation (preferred)S0016669 Atrial FibrillationsL0004327 (synonym) Auricular Fibrillation Auricular FibrillationsS0016899 Auricular Fibrillation (preferred)S0016900 (plural variant) Auricular Fibrillations在Met

12、a中展示了不同概念间的各种关系,而这些关系的建立,有些是取自原有的索引表架构,有些则是在建构Meta时所赋与的。例如“Atrial Fibrillation” (心房纤维颤动)和“Arrhythmia”(心律失常)在MeSH中是以层级架构来展示二词间的隶属关系。但“Atrial Fibrillation”在本质上也是一种“Arrhythmia” ,在MeSH中却没有被展现,此即Meta在建构时所新添的关系。另外,有时也会有来自其它词典所建立起来的概念关系应用到Meta上。例如概念词“Paroxysmal Atrial Fibrillation” (阵发性心房纤维颤动)在Meta中被指引为“At

13、rial Fibrillation” 的下位词(Narrowed term),即是取自MeSH, ICD-9, SNOMED等索引表中所建立的架构。 UMLS与传统词表概念间关系揭示的比较 语义网络是为建立概念、术语间错综复杂的关系而设计的,它为超级叙词表中所有概念提供了语义类型、语义关系和语义结构。目前,语义网络包括了134种语义类型和54种语义关系。(二)语义网络( Semantic Network)超级叙词表中的每一个概念至少被标引(分配)一种语义类型。语义类型是通过计算机程序指定的或在人工复审过程中增加的,它既是超级叙词表与语义网络之间的连接,也是超级叙词表与情报源图谱(ISM)的连接

14、之一。语义网络为超级叙词表提供了指定给每一个概念至少一种语义类型的信息,同时语义类型也指定给情报源图谱中特定的数据库,以表达情报资源之间的内在联系。UMLS的语义网络不仅运用了常规的语义控制手段,如语义等级、属分、相关关系控制,而且在语义规范和语义关系分析、延伸等多方面有许多创新。语义网络是试图建立一种语义类型及其相互关系的权威规则,用以标引每一个超级叙词概念,或表达概念之间可能存在的相互关系。语义网络的这种权威规则,既在文字上,也从等级关系或非等级关系上界定语义类型及其相互间可能存在的关系与内在涵义。 语义类型目前语义类型主要分为生物体、解剖结构、生物功能、化学、事件、客观物体、概念和观念等

15、。这些语义类型的高层分为“物”和“事”两大类,并由此层层展开形成“树形结构” 。由全部语义类型形成的等级结构中,每一语义类型除有一个树状等级号之外,还被赋予一个语义类型代码,如T071、T001等,这些代码并无实质上的含义。语义关系链将语义类型连结成为语义网络。 在UMLS语义网络中,语义类型可以看成是有层次结构的“节点”,而把这些节点连成网的连接,称为“链”(Link),“链”所表达的是语义类型之间的“关系”(Relationship)。这种“链”可分为两类: 等级关系链(H) is a 一种。上、下位概念。 相关关系链(R) :分为五大类 物理上相关(physically-related-

16、to), 空间上相关(spatially-related-to), 功能上相关(functionally-related-to), 时间上相关(temporally-related-to), 概念上相关(conceptully-related-to) 。H.等级关系链isaR.相关关系链(1)物理上相关1.的部分2.由组成3.包含4.与相连5.分开(2.)空间上相关1.位于2.与相邻3.包围,周围4.穿过(3)功能上相关1.影响1. 1管理1. 2治疗1. 3干扰1. 4并发1. 5与相互作用1. 6预防2.带来、造成 2. 1产生 2. 2引起3.执行 3. 1实施 3. 2展示 3. 3练

17、习4.发生于情况下 4. 1.的进程5.使用6.现象表达7.证实8.的结果、效果(4)时间上相关1.与同时发生2.先于发生(5)概念上相关1.的评价2.的程度、等级3.分析 3. 1分析评估的影响4.的测量值5.测量6.诊断7.的特性8.衍生的9.的发育阶段10.的方法11.的概念部分12.之中的焦点问题 Mediastinum纵隔 saccular viscus囊状脏器 esophagus食管 Left phrenic nerve 左隔神经 Heart valves心脏瓣膜 Fetal heart胎儿心脏 Angina pectoris心绞痛 Cardiotonic Agents强心剂 Ti

18、ssue Donors组织捐赠者Heart心脏Body Part,Organ or Organ Component身体部位,器官或器官组成Fully Formed Anatomical Structure完全成型的解剖学结构Embryonic Structure胚胎结构Disease or Syndrome疾病或综合症PopulationGroup人群UMLS超级叙词PharmacologicSubstance药物UMLS语义网络语义关系rel 语义类型语义关系的等级继承规则和继承阻断 在语义类型等级结构的高层节点之间的语义关系,在任何可能的情况下都是固定的,正如上例所列举的语义关系“影响”链

19、接的这些高层语义类型节点。而且高层语义类型之间的语义关系,一般地可通过等级结构(isa链)继承给这些节点的所有子类。 在有些情况下,如果按照语义类型的等级结构及链的继承规则,会使语义类型与语义关系的连接产生歧义。例如,语义关系“的进程”存在于语义类型“生物体功能”和“生物体”之间,“生物体功能”有一个子类是“心理功能”,而植物也是一种“生物体”,按照继承规则,心理过程也是一种“植物的活动、功能或状态”,显然,植物不可能有“心理过程”。不能继承的链称为阻断 。语义网络使概念之间语义关系的准确细致表达 MeSH树状范围表所表达的MeSH上位词与下位词之间的关系,只是简单的较泛指与较专指关系。例如,

20、MeSH“羊水”(Amnioticfluid)是MeSH“胚胎”(Embryo)的一个下位词: Embryo A16.254 Amniotic fluid A16.254.72 在UMLS语义网络中,Embryo标引的语义类型是“胚胎结构”(Embryonicstructure),Amnioticfluid标引的语义类型是“机体物质”(Body Substance),语义关系标引的是“周围”(Surround)。所以“羊水”与“胚胎”之间的关系就被确切地表达为“胚胎结构周围的机体物质”。 情报源图谱是一个关于生物医学机读情报资源的数据库,这些情报源多种多样,不仅涵盖生物医学研究、临床实践和生物

21、伦理学的主要书目数据库,还包括专家系统,来自医学史联机图像库、可视化人类计划等图像数据库,以及有关遗传学、蛋白质和核酸序列、药物、毒物学、环境卫生的事实数据库。 其目的是利用超级叙词表和语义网络实现以下功能:理解情报源与特定提问的相关性,以便选取最合适的情报源;为用户提供特定情报源的范围、功能和检索条件等人工可读的信息。自动链接相关情报源;在一个或多个情报源中自动检索并自动组织检索的结果。 (三)情报源图谱(Information sources Map ) 专家词典是一个包含众多生物医学词汇的英语词典。它是在美国国立医学图书馆自然语言处理专家系统项目基础上开发出来的。每个词条记录均详细描述自

22、然语言处理系统所需要的词典信息,包括句法、形式和结构的拼写信息,同时提供词典工具和程序供超级叙词表和专家词典确定英语词汇的范围以及识别生物医学术语和文本中词的词形变异,是进行检索、标引和词汇处理的有力工具。 (四)专家词典(Specialist Lexicon) 每条词汇记录均记录了它的句法、词法和字法信息。词条由词或词组组成。所有词条均共享它们的基本形式和拼写变异。词的基本形式包括词的不变形式、名词的单数形式、动词的原形以及形容词和副词的原级形式。词形变异有名词的单复形式、动词的规则与不规则变化形式、形容词和副词的原级、比较级、最高级形式等。专家词典能识别11种句法分类和引语部分:动词、名词

23、、形容词、副词、助词、语气词、代词、介词、连词、补语、定语。 专家辞典提供的自然语言处理工具如下表:(四)专家词典(Specialist Lexicon)专家词典工具1.UMLS的术语服务UTS2.UMLS的安装和定制工具MetamorphoSys3.UMLS概念的文本映射工具MetaMap4.UMLS语义表达工具SemRep四、UMLS的支持性软件工具UMLS 术语服务( UMLS Terminology Services,UTS)UMLS 术语服务于2010 年12月上线,取代了之前的UMLS 知识源服务器( UMLS Knowledge Source Server,UMLSKS) 。UT

24、S 通过基于浏览器和Web 服务客户端提供对UMLS 知识源的浏览、查询和数据获取,主要工具包括: 超级叙词表浏览器 、语义网络浏览器和SNOMED CT 浏览器,这些浏览器能够查询和获得UMLS 的概念、语义类型、语义关系和SNOMED CT的内容。2.UMLS的安装和定制工具 MetamorphoSys MetamorphoSys 是对UMLS 进行本地安装和对UMLS 进行定制化裁减的工具。用户可以通过该工具选择安装超级叙词表、语义网络、专家辞典中的一项或多项内容。当选择安装超级叙词表时,安装向导允许用户创建超级叙词表的子集,即可以选择去掉某些来源的数据文件,或者通过选项设置和过滤器进行定制和裁减,达到缩小容积、满足个性化要求的目的。3.UMLS概念的文本映射工具MetaMap MetaMap 是一个实现自由文本到UMLS 概念映射的工具,即标记出生物医学文本中所含有的UMLS超级叙词表概念。MetaMap 的应用非常广泛,如Medline数据检索,有研究表明,它能够提高Medline文献信息检索的效果;同时,MetaMap 在数据挖掘领域也有广泛的应用,包括临床发现、发现文献中的药物与疾病关系等;此外,MetaMap 也是NLM 自动标引系统的实现基础,用于为半自动和全自动标引生成推荐术语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论