版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物医学本体工程进展 基金项目:国家重大科技计划“重大新药创制”重点专项-综合性中药新药研究开发技术大平台项目子课题-中药新药发现、新药设计和信息平台(2009ZX09301-005-01);国家863项目-高效能计算机及网格服务环境-中国中医药科学数据网格服务应用(2006AA01A122);中国中医科学院基本科研业务费自主选题项目-构建中医脾系证候知识体系研究(zz060303)于 彤,杨 硕 通讯作者:杨硕,中国中医科学院中医药信息研究所副研究员,北京市东直门内南小街16号,邮编:100700,电子邮件:y1y6y3(通讯作者),李敬华,刘丽红,贾李蓉摘 要:近年来,领域本体在生物医学领
2、域广泛应用,在知识的获取、管理和检索中发挥了积极的作用。通过文献调研找出了生物医学领域中的本体,选取其中的代表性本体进行调研与分析,并讨论了存在的问题和发展趋势。关键词:生物医学;本体工程;本体;知识管理中图分类号:TP18Current status of biomedical ontology engineeringYU Tong,YANG Suo,LI Jinghua,LIU Lihong,JIA LirongAbstract:In recent years, a variety of domain ontologies have been developed in biomedical
3、 domain. They are playing an important role in the acquisition, management, and retrieval of biomedical knowledge. We identify biomedical ontologies through literature review, and select a set of representative ontologies for investigation and analysis. We also discuss the open problems and trends i
4、n this field. Key words:Biomedicine; Ontology Engineering; Ontology; Knowledge Management在信息科学领域,本体是一种用于表示领域知识的计算机模型,它定义了一组知识表示原语(primitive),如类、属性和关系等1。T.R. Gruber2将本体定义为“某一概念化的显性规范”,其中“概念化”是指我们所要表达的世界的一个抽象、简化的视图,它是所有知识库和基于知识的系统的基础。构建本体的目的,则是基于某种共享的概念化,实现程序之间的知识共享和互操作。本体在代理计算、知识管理系统和专家系统等领域发挥着重要的作用。
5、当前,在生物学和医学领域,已出现了GALEN3、UMLS4、SNOMED-CT6 7、FMA8、MED9、NCI Thesaurus10、Gene Ontology11等数百个本体,它们在文献标引和知识检索系统之中得到广泛的应用。生物医学模式作为长期占主导地位的医学模式,是从纯生物学的角度理解疾病和健康的13。受其影响,生物学和医学的知识体系之间具有密切的联系,这两个学科的本体之间也具有显著的关联。鉴于此,本文将生物学和医学领域的本体工程结合起来进行综述,并讨论了存在的问题和发展趋势,以期为生物医学本体开发人员提供参考。1 本体在生物医学领域的应用现状1.1 GALENGALEN1(Gener
6、al Architecture for Languages, Enclopedias and Nomenclatures in Medicine,医学语言、百科全书和的通用架构)是一项经典的生物医学本体工程项目,旨在为临床系统提供可重用的术语系统。GALEN的核心成果之一是通用参考模型CRM(Common Reference Model),它已成为GALEN所提供的术语服务的基础。CRM是一个使用GRAIL语言表达的通用医学概念模型,与特定电子病历系统的数据模型无关。Alan L. Rector1等人对GALEN工程的指导原则、具体方法以及遇到的问题(包括如何处理非确定性和异常,以及如何表示药
7、物相互作用、疾病等方面的知识等)进行了详细的讨论。另外,Alan L. Rector12等人于2000年发起了OpenGALEN这一开源项目,实现了GALEN CRM的免费发布,并与软件及术语开发者合作对其进行扩展,从而提升了GALEN的开放性和可用性。1.2 Unified Medical Language SystemUMLS4(Unified Medical Language System,统一医学语言系统)是由美国国立医学图书馆(NLM)开发的一套医学语言系统,用以辅助医学信息学家开发能够“理解”生物医学领域语言的信息系统。UMLS实现了一系列知识组织系统(如术语、分类框架和代码标准等
8、)的整合与传播,大大促进了医学信息系统(如电子病历系统)之间的互操作。UMLS的核心知识资源是大型术语数据库Metathesaurus,它包含来自100多个词表中的100多万个概念。UMLS的Semantic Network是一个医学领域的顶层本体5,包含135个语义类型(即节点)和54种语义关系(即节点之间的链接)。它为UMLS Metathesaurus中的概念提供了一贯的分类体系,从而大大降低了Metathesaurus的复杂性。1.3 SNOMED-CTSNOMED-CT6 7是世界上最全面的医学临床术语集,能用于完整表达病史、疾病、治疗和疗效等患者信息。从结构上看,SNOMED CT
9、包括代码系统、受控词表、分类系统和词库等部件。SNOMED CT还定义了一个巨型的语义网络,包括三十多万个医学概念和七百多万条语义关系。SNOMED CT在全世界30多个国家中得到了推广,与Cerner Millennium等商业性电子病历系统实现了整合,对电子病历系统的互操作和临床信息的语义检索提供了有力的支持,为医疗保健水平的提升做出了贡献。1.4 FMAFMA8(Foundational Model of Anatomy,解剖学基础性模型)是一个面向解剖学的领域本体,它定义了与人体组织结构相关的类和关系。FMA 已被用于整合解剖学中不同的数据,并实现生物医学领域本体的互联。在FMA的开发
10、过程中,开发人员采用了行之有效的本体构建原则,以及基于框架的知识表达方法,保证了FMA的结构完整性和逻辑严谨性。1.5 The Medical Entities DictionaryMED9(The Medical Entities Dictionary,医学实体字典)是一个基于医学概念的术语系统。MED以框架(Frame)的方式对实验、制药等领域的术语进行了形式化描述,并使用语义关系(如近义关系、种属关系等)将医学概念连接起来,从而构建了一个大型的医学语义网络。MED提供了统一的编码系统,以实现临床信息系统中数据的一体化和标准化。MED已被用于病历数据检索、专家系统、数据挖掘等实际的医学应用
11、。1.6 NCI ThesaurusNCI Thesaurus10(National Cancer Institute Thesaurus) 是一套基于描述逻辑构建的医学术语系统,旨在通过一种形式化结构将医学概念联系在一起,使人类和计算机都能利用其中的术语资源完成各项任务(包括自动推理等)。NCI Thesaurus已被用于对NCI资料库中的数据进行标注、检索和搜索,并有望支持自动索引和异构数据集成等高级应用。1.7 Gene OntologyGO11(Gene Ontology,基因本体)是一个结构化的术语系统,旨在统一各种基因产物数据库的信息表达方式。从结构上看,GO包含细胞组件(Cell
12、ular Component)、分子功能(Molecular Function)和生物过程(Biological Process)等3个子本体,它们通过“is a”和“part of”等语义关系将生物医学概念互相关联起来,构成大型语义网络。当前,国际上主要的基因组资料库都采用了GO本体所提供的术语,这使用户得以通过统一的查询来访问这些资料库。2 存在的问题和发展趋势2.1 本体工程的系统化传统上,本体开发被视为一项个人技艺,而非系统工程。长期以来,本体是由研究人员面向特定应用构建的,因而缺乏共享性和可重用性。近年来,随着方法和工具的成熟,本体开发出现了明显的工程化趋势。本体工程(Ontolog
13、y Engineering)是一个新兴的工程领域,旨在构建符合领域需求的本体,实现领域术语的标准化和领域知识的结构化,以支持知识的获取、管理与发现等应用。本体工程往往是由领域团体以协作的方式完成的,所研制的本体则在领域团体内共享。在生物医学领域,已出现了从事本体工程的专业人才和专门机构。例如,NCBO14(National Center for Biomedical Ontology,美国国家生物医学本体中心)是一个国际主流的本体工程中心,旨在开发一套逻辑严谨、相互兼容的本体,用以完整诠释生物医学领域的现实情况;IFOMIS(The Institute for Formal Ontology
14、and Medical Information Science)是一个跨学科研究团体,其成员来自哲学、计算机科学、医学和医学信息学等多个领域,旨在开发在生物医学领域具有实用价值的形式化本体。这些专业性机构聚集了大批本体工程专家,他们正在成为生物医学本体工程的中坚力量。2.2 本体的集成如上文所述,在生物医学领域已出现了大量的生物医学本体,这些本体彼此异构,难于集成。为解决生物医学本体集成的问题,Barry Smith15等人组建了OBO(The Open Biomedical Ontologies,开放性生物医学本体)团体,旨在制定本体文件的标准格式以及本体工程的统一规则,提升生物医学本体的标
15、准化程度和兼容性。OBO还对Gene Ontology等遗留本体进行了系统性重构,使其转化为标准化本体。当前,许多本体工程都采用了OBO原则,从而产生了一大批相互兼容、结构严谨的新本体。符合OBO规范的本体可以相互连通并融合起来,从而完整地反映生物医学领域的现实。2.3 语义网技术的推广使用语义网(Semantic Web)是一种新兴的Web技术,它为领域本体的开发和应用提供了全球性的技术平台。Tim Berners-Lee1617等人于2001年提出了语义网的理念,认为它将是一部人类与机器都能理解的“数据百科全书”,能显著提升机器对Web数据的处理能力。经过十余年的发展,语义网已从一个构想演
16、变为一套相对完整的技术体系,其中包括OWL(Web Ontology Language,Web本体语言)等核心技术5。语义网技术已得到NCBO等国际主流本体工程中心的认可与采用14。这方面的一个成功案例是OBI18(The Ontology for Biomedical Investigations,生物医学调查本体),它是由OBO使用OWL语言开发的新本体,为表示实验和测量数据提供了标准的框架,并支持科研数据在互联网上的发布与共享。OBI严格遵守OBO Foundry的本体开发原则,并使用OWL作为本体描述语言,因此具有良好的质量和兼容性。在生物医学领域,出现了将以传统方法(如语义网络、框架
17、等)构建的本体转换为OWL本体的显著趋势。例如,O. Dameron19将基于框架的FMA本体转换为OWL本体;Julian Seidenberg 20等人将OpenGALEN项目提供的GALEN本体转换为OWL格式,并在此基础上实现了本体分割算法;C.J. Wroe21等人将GO本体转换为基于描述逻辑的本体;Robert Hoehndorf22等人通过基于模式的方法,实现了OBO与OWL之间的转换。这些工作提升了生物医学本体的表达能力,有利于实现本体集成和逻辑推理等高级功能。3 小结本体技术主要源自人工智能(尤其是知识表达与推理)领域,也涉及哲学,语言学,术语学和认知科学等。在生物医学领域,
18、本体为知识的获取、管理、发现和展示提供了强大的知识表达和推理能力,被用于解决数据资源的异构性问题,并对各种领域实体进行语义标注。本体已成为生物医学领域的主流技术,并具有广阔的推广应用前景。参考文献 1. Gruber TR. Ontology. Entry in the Encyclopedia of Database Systems, Ling Liu and M. Tamer Özsu (Eds.), Springer-Verlag, to appear in 2008.2. Gruber TR. A Translation Approach to Portable Ontolo
19、gy SpecificationsJ. Knowledge Acquisition, 1993, 5(2):199-220.3. Rector AL, Nowlan WA. The GALEN projectJ. Comput Methods Programs Biomed, 1994, 45(1-2):75-8.4. Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical terminologyJ. Nucl. Acids Res., 2004, 32(suppl 1): D267-D
20、270.5. McCray AT. An upper-level ontology for the biomedical domainJ. Comparative and Functional Genomics, 2003, 4(1):80-84.6. Stearns MQ, Price C, Spackman KA, Wang AY. SNOMED clinical terms: overview of the development process and project status. Proc AMIA Symp. 2001:662-6.7. 董燕,崔蒙,贾李蓉等.SNOMEDCT层次
21、结构与标识符J.中国数字医学,2012,07(2):68-72.8. Rosse C, Mejino Jr JL. A reference ontology for biomedical informatics: the Foundational Model of AnatomyJ. J Biomed Inform, 2003, 36(6):478-500.9. Cimino JJ. From data to knowledge through concept-oriented terminologies: experience with the Medical Entities Dictio
22、naryJ. J Am Med Inform Assoc, 2000, 7(3):288-97.10. Hartel FW, de Coronado S, Dionne R, Fragoso G, Golbeck J. Modeling a description logic vocabulary for cancer researchJ. J Biomed Inform, 2005, 38(2):114-29.11. Consortium GO. Creating the gene ontology resource: design and implementationJ. Genome R
23、es, 2001,11(8):1425-33.12. Rector AL, Rogers JE, Zanstra PE, et al. OpenGALEN: open source medical terminology and tools. AMIA Annu Symp Proc, 2003: 982.13. Engel GL. The need for a new medical model: a challenge for biomedicineJ. Science, 1977, 196(4286): 129-136.14. Rubin DL, Lewis SE, M
24、ungall CJ, Misra S, Westerfield M, Ashburner M, Sim I, Chute CG, Solbrig H, Storey MA, Smith B, Day-Richter J, Noy NF, Musen MA. National Center for Biomedical Ontology: advancing biomedicine through structured organization of scientific knowled
25、geJ. OMICS, 2006, 10(2):185-98.15. Smith B, Ashburner M, Rosse C, Bard J, et al. The OBO Foundry: coordinated evolution of ontologies to support biomedical data integrationJ. Nature Biotechnology, 2007, 25:1251-1255.16. Berners-Lee T, Hendler J, Lassila O. The Semantic Web J. Scientific American, 2001, May.17. Allemang D, Hendler J. Semantic Web for the Working Ontologist M. Elsvier, 2011.18. Ryan R Brinkman, Melanie Courtot, D
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江鸡西市(2024年-2025年小学五年级语文)统编版摸底考试(下学期)试卷及答案
- 2024年轻质高强复合材料项目投资申请报告
- 2024年LED室内应用灯具项目投资申请报告代可行性研究报告
- 标准文本-青贮玉米中酸性洗涤纤维的测定
- 上海市县(2024年-2025年小学五年级语文)人教版综合练习((上下)学期)试卷及答案
- 新学期教师动员培训
- 医用冻干食物产业深度调研及未来发展现状趋势
- 保修索赔管理服务行业营销策略方案
- 护士鞋产品供应链分析
- 人教版英语八年级上册Units7、8单元高频考点
- 北师大版九年级物理全一册电子课本教材
- 生产管理培训课件
- 《正确对待外来文化》名师课件
- 小学语文整本书阅读《夏洛的网》导读课公开课一等奖创新教学设计
- 中医食疗药膳学智慧树知到答案2024年四川护理职业学院
- 部编版(2024)一年级语文上册第7课《两件宝》精美课件
- DL∕T 1795-2017 柔性直流输电换流站运行规程
- 上海民政局夫妻离婚协议书(2024版)
- 《医院验收总结》课件
- 工程图学(天津大学)智慧树知到期末考试答案章节答案2024年天津大学
- 2024年山东省高考生物试题答案
评论
0/150
提交评论