浙江数字医疗卫生技术研究院-医疗行业医学知识图谱:医学人工智能的基石_第1页
浙江数字医疗卫生技术研究院-医疗行业医学知识图谱:医学人工智能的基石_第2页
浙江数字医疗卫生技术研究院-医疗行业医学知识图谱:医学人工智能的基石_第3页
浙江数字医疗卫生技术研究院-医疗行业医学知识图谱:医学人工智能的基石_第4页
浙江数字医疗卫生技术研究院-医疗行业医学知识图谱:医学人工智能的基石_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

edgeGraphCornerstoneofMedicalAI知识是人类智能的象征,知识对人工智能而言有着同样重要的意义。知识表示、获取和应用一直是人工智能的重要研究方向,知识图谱则是随着人工智能的历史逐渐发展和演变出的一个概念。医学被认为是人工智能可以大显身手的领域之一,医学知识图谱也是近年来医学人工智能临床决策支持等场景。如何根据医学知识的特点,设计和构建符合医学专业逻辑的知识图谱,imit数字医学知识中心胡冉赵童肖雪1(一)知识图谱概述知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法,由节点和边组成,三元组是知识图谱的基本表示形式。在逻辑上可将知识图谱分为模式层和数据层。按领域可将知识图谱分为通用知识图谱和领域知识图谱,医学知识图谱是一种(二)知识图谱发展历史史可以发现,语义网络、本体、万维网、语义网和链接数据等概念都与其有千丝万缕的联系。在人工智能领域,知识图谱是语义网络和本体等概念的延在通用知识图谱领域,国内外发展早、积累多,国内起步晚,但在近些年也有大量的项目积累。在医学知识图谱领域,国内在数据规模、维护模式和知识整合层面相较于国外点知识有术语多样化、知识分散、知识复杂和质量参差不齐等特点,这些特点也使医学知识图谱在知识表示、知识获取和知识应。的构建和通用知识图谱类似。在构建流程上,可以分为知识建模、知识抽取、知识融合、知识存储和知识推理;在构建方式上,可分为机器构建和人工构建。在医学知识图谱的构建中,如何平衡人工与机关键。用现阶段,医学知识图谱的主要应用方向为语义搜索、知识问答和临床决策支持,同时在一些新领域,如辅助药物研发和公共卫生事。随着行业应用的深入,医学知识图谱未来在数据数量、数据质量、标准化程度和知识分级等方面应有更高的要求。医学知识图谱是医学人工智能的基石,如何准确定位,选取出适合的知识,设计恰当的构建路线,采用合适的构建技术,营造良好的行业共享互动2(一)研究背景知识图谱概念自提出以来,引起了人工智能(一)研究背景知识图谱概念自提出以来,引起了人工智能行业内的广泛关注,越来越多的通用和领域知识图谱项目也逐渐落地。医学领域的知识和知识应用场景相较于其他领域有其特殊总结出一套符合医学逻辑的知识图谱构建流程和应用方式,是知识图谱在医学领域的应(二)研究目标通过对医学领域的深入研究,归纳出医学知识图谱的特点,梳理医学知识图谱的主要构建流程和方式,总结医学知识图谱的主要应用方向,并对医学知识未来的发展提出相关展望。希望通过本期白皮书,能够为国内医(三)研究方法本研究通过对国内外相关文献和资料进行检索和整理归纳分析,同时对国内有代表性的开展医学人工智能和医学知识图谱相关企业进行调研,深入了解医学知识图本研究通过对国内外相关文献和资料进行检索和整理归纳分析,同时对国内有代表性的开展医学人工智能和医学知识图谱相关企业进行调研,深入了解医学知识图谱行业的发浙江数字医疗卫生技术研究院(简称“数浙江数字医疗卫生技术研究院(简称“数研院”,imitTM)是中国首家致力于数字与信息化技术在医疗卫生健康服务领域研发与应用的专业性非营利研究机构(NPO/NGO),院长为杨胜利院士,理事长为李石者、全球著名的医疗保健设备厂商、国内外领先的行业软件企业来共同从事该领域的研究开发、顾问咨询、认证评估、国际合作、转化等工作,并引领政、产、学、研、用、资六位一体的公益事业公共服务支撑平台,进而营造出可生存可持续发展的数字医(五)版权说明本白皮书版权属于浙江数字医疗卫生技术研究院,并受法律保护。转载、摘编或其它使浙江数字医疗卫生技术研究院”,若违反上。白皮书中所有带星号(*)的示例数据均来源于OMAHA知识库(包括“七巧板”医学术语集和“汇知”医学知识图谱),OMAHA知识库版权归浙江数字医疗卫生技3述人工智能的早期发展中可分为两个主要流派,连接主义(Connectionism)和符号主义(Symbolism)。连接主义主张用计算机模拟人脑神经网络连接的形式来实现智能,这一流派的代表为深度神经网络;符号主义则主张用计算机符号表示人脑中的知识,这一流派的代表为知识工程和专家系统。近年来,深度学习等技术的发展让连接主义在视觉、听觉等由数据驱动的感知智能领域获得了成功,但在模拟人思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。符号主义关注的核心是知识的表示和owledgeRepresentationandReasoning),它属于知识驱动的认知智能领域,可以很好地弥补连接主义的不足。作为人工智能研究中的基础,符号主义关注的知识表示和推理发展出了很多成果,其中知识图谱是人工智能发展到新阶段的符号主义代表,它的本质是一种基于图模型的结构化知识表示形式,它能够表达丰富的语义知识,同时也更易于被机器理解和处理。知识图谱是当前人工智能发展的基石。对于医学人工智能而言,医学知识图谱同样也是2]。(一)知识图谱定义2012年5月,Google首次提出了“知识图谱”的概念。虽然至今行业尚未形成统一、标准的定义,但Google知识图谱的宣传语“thingsnotstrings”揭示了知识图谱的核心。知识图谱指的是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法[3]。知识图谱由节点和边组成,节点表示实体(entity)、概念(concept)或属性值 (value);边表示实体的属性(property)或实体间的关系(relation)。●实体:又称为对象(object)或实例 (instance),指客观世界中具有可区别性且独立存在的某种事物,如2型糖尿病、二甲双胍。实体是知识图谱最基本的元素,每个实体可以用一个唯一的●概念:又称为类别(type)、类(category或class),指反映一组实体的种类或。●关系:指连接不同实体的“边”,用以描述实体之间的关联[4],如二甲双胍和2型糖尿病之间有适应证关系*。●属性:指某个实体可能具有的特征以及参数[4],如二甲双胍有医保支付类别属●属性值:指实体特定属性的值[5],如二识图谱在逻辑上分为模式层和数据层[6]。模式层一般指Schema,是知识图谱的概念模型和逻辑基础,是数据层的规范约束。数据层主要由一系列的事实组成,主要基于模式层定义的模型构建数据,以三元组形式存tail)是知识图谱数据层的一种通用表示形式,其中head是三元组的头节点,tail是三元组的尾节点,relation/property={r1,知识图谱关系和属性的集合,共包含M条关系和N条属性。三元组的基本形式主要包括(实体1,关系,实体2)和(实体,属性,属性值)。以二甲双胍为例*,其部分知识图谱示例如4石(二)知识图谱分类当前常见的知识图谱分类维度有如下几●按照知识图谱中的知识类型进行分类,●按照语言可划分为单语言知识图谱和多●按照构建方式,则可以分为全自动知识图谱、半自动知识图谱和以人工为主构●按照知识图谱所涉及的领域分为通用知按照知识图谱领域划分是行业较为常见的一种图谱分类方法。其中通用知识图谱主要以互联网开放数据作为主要来源,强调融合更多实体,可以形象地将其看成一个“结构化的百科知识库”。通用知识图谱包含大量的常识性知识,覆盖面广,但准确度一般不高,并以搜索和问答为主要应用形式[8]。领域知识图谱又称为行业知识图谱或垂直知识图谱,通常面向某一特定领域,主要基于行数据构建,对特定行业有重要的意义。由于领域知识图谱需要考虑不同的业务场景和使用人员,所以实体的关系和数据模式比较丰富,对该领域知识的深度和准确性也有着识图谱是应用最广的领域知识图谱之一,也是国内外人工智能领域研究的热点[5]。它在语义搜索、知识问答和临床决策景。5石知识图谱的发展历史可以从语义网络 (SemanticNetwork)开始溯源,期间本体论(Ontology)、万维网(WorldWideWeb)、语义网(SemanticWeb)、链接数据(LinkedData)等概念的提出都对知识图谱的产生和发展有着重要的影响[2]。语义网络概念的提出为知识图谱提供了构建思路,本体论为知识图谱提供概念模型,TimBerners-Lee提出的万维网则实现了链式网络文档,基于万维网提出的语义网技术为知识图谱研究奠定了基础,链接数据则是最接近知识图谱的概念,之后谷歌提出的以信息检索方式呈现“知识图谱”正式开启了行业对知识图谱的研究。知识图谱发展历史时间简表如图2。(一)语义网络语义网络是用实体及其语义关系来表达知识的一种知识表示方式,在数学上是一个有向图,与逻辑表示法对应。语义网络最早由Quillian于上世纪60年代以人类联想记忆的一个心理学模型提出,之后被应用于自然语言理解[9]。语义网络一般由最基本的语义概念、事件、属性、状态等,弧表示它们之间的关系,即语义关系。多个语义基元用相同的语义联系连接起来就形成了语义网络。语义网络重点在于构建词与词之间的关联,但不能明确区分概念和实例。从语义网络中(二)本体即对世界上客观事物的系统描述。20世纪90年代初,本体概念被广泛地应用于计算机领域中,是概念化和结构化的知识表示方等人进一步深化了本体的定义,于1998年式化说明”[11]。一个本体通常由概念类、关系、函数、公理和实例组成。本体注重概念层的构建,它从实例中抽象出事物的本质,统一概念,建立概念间的关联关系。本体的树状结构常被用来定义知识图谱Schema,在此基础上添加扩充实例和数据后形成知识(三)万维网&语义网代提出,利用超文本技术实现网页及网页之间的连接,但机器无法读取网页中的具体信息[12]。而语义网作为万维网的衍生物,旨在达到互联网信息互通无障碍。语义网[M].电子工业出版社,2019史6(五(五)知识图谱知识图谱最先由谷歌于2012年提出,主要石技术栈中本体构建方式实现了知识表示和推理,资源描述框架(ResourceDescriptionFramework,RDF)则是用来陈述三元组结构的数据模型[13][14]。计算机读懂每个词和概念之间的逻辑关系后,让搜索变得简单易行。知识图谱的最初理想就是将文本连接的。(四)链接数据2006年TimBerners-Lee在语义网基础上提出了链接数据。链接数据起初是用于定义如何利用语义网技术在网上发布数据,其强调在不同的数据集间创建链接,是语义网技术更简洁的描述[15]。知识图谱是对链接数据这个概念的进一步包装,或者说链接数据是通过以结构化而非纯文本的方式描述事物的属性以及事物之间的关联,解决“返回结果精准度”及“提高用户查询满意度”等问题。谷歌希望以知识图谱为基础打造出更加智能化的搜索引擎[16]。这一概念的提出引起了行业的广泛关注,随后越来越多的知识图谱项目涌现,知识图谱逐渐发展成为一个示例。用户在谷歌搜索引擎中输入某个主题的关键词后,它会将该关键词所指代的实体的相关知识结构化地显示在右侧,从而实现了从简单的字[17]。(六)小结从知识图谱的发展历史可以看出知识图谱结合了多种不同的技术方法,导致知识图谱与其它概念的定义容易混淆,尤其是与本体和传统语义网络的定义。通过分析它们之间的7本体一般定义领域内实体抽象出的概念框而知识图谱则重点关注实体间的关系和这些来指导知识图谱的构建。义网络1)传统的语义网络依靠专家总结和手动构建,规模有限。然而知识图谱依靠自动化石使得知识图谱的规模相较于传统的语义网络2)传统语义网络中侧重表现实体之间的关联关系,而知识图谱则不仅包含了实体间的关联关系,还包含了数据层和模式层之间3)传统的语义网络缺乏Schema,而知用。8介绍(一)通用知识图谱国内外较为知名的通用知识图谱有很多,行有Cyc、WordNet、ConceptNet、Dbpedia、Wikipedia、Wikidata、Freebase、BabelNet、NELL (Never-EndingLanguageLearner)、1)Cyc[18]其最初的目的是将已整理的百万条常识内容通过编码转换成机器可理解的形式进行处Cyc知识库早期由人工进行构建,近年来也开始使用一些自动构建的方法来进行知识抽取,如使用语义知识源一体化(SemanticKnowledgeSourceIntegration,SKSI)系其所需的数据。截止到目2)WordNet[19]WordNet在1985年由普林斯顿大学认知科学实验室启动建设,是一个大型英语词汇数词归类为同义词集(synsets),每个同义词集都用于表达一个不同含义的概念。同义词集之间由多种语义关系进行连接,其中最主要的是上下级关系,还包括有整体-部分关系,同义关系和反义关系等。目前已收录20万语义石3)ConceptNet[20]院媒体实验室推出的众包项目OpenMindCommonSense(OMCS),它是一个开放的、多语种的常识知识库,目的是帮助计算机理解人们日常的沟通和交流。其构建的他众包项目、专家创建和目的性游戏的方法产生。目前ConceptNet5。4)Dbpedia[21]Dbpedia在2007年由德国莱比锡大学、德国曼海姆大学和美国OpenLinkSoftware共同参与创建。它的数据主要来源于维基百科 (Wikipedia),支持语言多达140种。其核心的Dbpedia本体截止到目前已涵盖768个类,主要涉及人、地点、工作、物种、组织等,还包含用于描述的3000多属性和约482万实例。5)Wikidata[22]Wikidata由维基百科于2012年启动创建,是一个免费开放的多语言知识库,支持人和机器以三元组为基础的知识条目的多种语言的编辑。2010年谷歌将Freebase进行收购后在2016年将其关闭,并将所有的数据和API服务都迁移至Wikidata上。截止到6)BabelNet[23]BabelNet由罗马萨皮恩扎大学创建,是一个大规模且多语种的词典知识库和语义网络。它的数据主要来源于WordNet、WikiPediaWikidata将WordNet和WikiPedia的数据建立关联,利用WikiPedia的多语言链接和机器翻译实现对9WordNet多语言的支持。目前,BabelNet已发布5.0版本,覆盖500种语言、2000。7)NELL[24]NELL是2009年由卡内基梅隆大学创建的一套永不停歇的机器学习系统,具有从非结构化的网页中提取结构化信息的能力,并对自动抽取的三元组知识进行不断地学习。它自2010年1月以来一直在持续运行,已累积了1186个不同类别和关系,以及它们所8)Yago[25]创建的一个大型语义知识库,数据来源于ourceDescription顶层类和属性都来源于S[27],并采用了结构性约束语言(ShapesConstraintLanguageSHACL约束。此版本9)MicrosoftConceptGraph[28]MicrosoftConceptGraph是由微软亚洲研究院在2016年基于Probase的研究项目进行创建,目的是为了让机器能够更好的理解人类的交流语言。其数据主要来源于数十亿的网页和多年的搜索日志。它的模型构建是将真实世界的单个实例、带上下文的单个实例和短文本进行概念化,并建立概念间的ISA关系。目前最新发布的核心版本主要是将单1250万单个实例和8510万ISA关系。图谱1)OpenKG[29]OpenKG中文领域开放知识图谱社区项目,目的是通过建设开放的社区联盟来促进知识图谱数据的开放与互联。其中OpenKG.CN(开放图谱资源库)目前已收录了多个领域的186个数据集,它对这些数据进行了链接计算和融合工作,并对完成链接的数据集开源,提供免APIDump时,它还将一些开源的知识图谱构建工具进行了收集,目前已整理了60个工具集,如Protégé、2)知网(HowNet)[30]知网是在20世纪90年代由董振东和董强主持设计和构建的一个语言知识库。它是一个基于义原进行构建的语义描述体系,所有词语代表的概念含义都由最基本的、不宜再分割的最小语义单位即义原所构成,描述了概念和概念之间的关系以及概念所具有的属性关系。经过多年积累,知网已收录约23并为十几万汉语和英语词汇所代表的概念标3)CN-DBPeidia[31]CN-DBPeidia是由复旦大学知识工场实验室创建并维护的通用结构化百科知识图谱。其数据主要是通过抽取中文百科类网站(如百度百科、互动百科、中文维基百科)页面的纯文本内容结构化而产生,同时还对提取的结构化数据进行整合、补充和纠正,极大地提高了知识图谱的质量。截止到目前为止,它已收录1696万实体和2.2亿关系,4)zhishi.me[32]zhishi.me是一个中文常识知识图谱。它的数据主要来源于百度百科、互动百科和中文维基百科,主要从这些百科的数据进行结构化数据的抽取,并采用固定的规则将它们之5)PKU-PIE[33]PKU-PIE是由北京大学构建的中文百科知识图谱。它对维基百科、DBpedia和百度百科等多个来源的知识进行自动抽取,同时建立了自己的类别体系和谓词体系,并和DBpedia等常见的数据库进行了关联。PKU-PIE目前已收录90万实体、5000多6)XLORE[34]XLORE是由清华大学创建的大规模中英文双语百科知识图谱,其数据来源于中英文维基百科和百度百科,将百科知识进行结构化后用以描述客观世界的概念、实例、属性和它们之间的语义关系,并同时建立跨语言的等价链接。目前它已收录2600万实例、医学是知识图谱应用最广的垂直领域之一,当前国内外也涌现出了很多优秀的医学知识图谱。国外知名的医学知识图谱有一体化医学语言系统(UnifiedMedicalLanguage床术语(SystematizedNomenclatureofMedicineClinicalTerms,SNOMEDCT)、解剖学基础模型本体(FoundationalModel型本体(HumanPhenotypeOntology,HPO)、基因本体(Geneontology,GO)、关联生命数据集(LinkedLifeData,LLD)等;国内则有中文一体化医石学语言系统(ChineseUnifiedMedicalLanguageSystem,CUMLS)、中医药学语言系统(TraditionalChineseMedicineLanguageSystem,TCMLS)、医药卫生MedicalKnowledgeGraph,CMeKG)和OMAHA知识库(OMAHAKnowledge1)UMLS[35]UMLS是美国国立医学图书馆(TheNationalLibraryofMedicine,NLM)自1986年起研究和开发的一体化医学语言系统,旨在使信息系统能够理解生物医学领域同一概念的不同表达形式,实现计算机系统间的互操作。UMLS知识库包括超级叙词表(Metathesaurus)、语义网络 (SemanticNetwork)、专业词典和词汇处理工具(SPECIALISTLexiconandLexicalTools)三个部分,三者可以单独或一起使用。超级叙词表是一个大型的生物医学词汇库,分类表、疾病编码集、专家系统、词汇表中的术语及相关信息,如MeSH,RxNorm,1AA版本包含有25种语言、444万概念和1610万概念名称。超级叙词表以概念为核心进行组织,所有来源词表具有同样涵义的词和短语组成概念或同义词类,每个概念与其它概念之间以语义邻居方语义网络由语义类型和语义关系构成。语义类型为超级叙词表的概念提供统一的分类,被分配一个语义类型。语义关系是一组存在于语义类型之间的关系,目前共有54种,包括等级关系链ISA关系和非等级关系链的相关关系。其中相关关系分为物理上相关、空间上相关、时间上相关、概念上相关和功能上相关五大类。专业词典和词汇处理工具主要作用是为超级叙词表构建和维护提供帮助。专业词典是在NLM自然语言专家处理系统(NLP)项目基础上研发的,覆盖范围包括常见的英语单词和生物医学词汇,是一个通用的生物医学词汇库。每条词汇记录都详细描述了该词的句法、词法和字法信息。它目前包含约45万条生物医学和常用英语词汇条目以及80词汇处理工具是超级叙词表建立和维护所需的一组工具集,如原形字符串生成器 (NormalzedStringGenerator,Norm)、词索引生成器(WordIndexGenerator,WordInd)和词形变化生成器(LexicalVariantGenerator,LVG)。2)SNOMEDCT[36]2002年1月SNOMEDCT首次发布,它由两大医学术语SNOMEDRT(SystematizedNomenclatureofMedicine,ReferenceTerminology)与CTV3(ClinicalTermsVersion3)合并而来。SNOMEDCT基于本体进行构建,因其强大的概念体系成为世界最完整的临床术语集,目前已被各国或地区广泛使用。SNOMEDCT的三大核心分别是概念 (Concept)、描述(Description)和关系 (Relationship)。目前发布的最新版本包含35万概念、125万描述和116万关系。19个顶层类概念,包括有“Clinic描述(即术语)为概念提供了人类可读石的形式,一个概念可以有多个术语进行Myocardialinfarction”(心塞)这个概念包括有“Myocardialartattackyocardialinfarction关系用于表达概念之间的语义关联,包括有系,表示概念是其上位概念的一种类型,一个概念可能有多个上位概念,如“AbscessISAMassofmediastinumISA“Structuraldisorderofheart”,ofcardiovascularstructureoftrunk”。属性关系是对概念的内涵进行揭示,如structure”,Morphologicalabnormality种属性关系用于表达不同类下概念之间的语3)LinkedLifeData[37]LinkedLifeData是一个面向生物医学领域的语义数据集成平台,它集成了25种生物医学数据资源,如结构化数据库(NCBIGene、Uniprot、DrugBank、BioPAX等)、术语库(UMLS、OBO)和半结构化文档 (Pubmed、ClinicalT),共包含40多亿三元组,其知识内容涵盖基因、蛋白质、疾病、药物、分子相互作用、通路、靶点和临床试验相关信息。LinkedLifeData开发的一个重要目标就是在集成的数据集上进行推理,同时避免数据冗余,并能够推荐新的链接关系或在已知数据集上推导出潜在知识。其构建标准为:使用统一资源标识符(UniformResourceIdentiier,URI)标识所有资源,确保所有标识符都可以被人和计算机进行解析,支持W3C(TheWorldWideWebConsortium)的RDF和SPARQL(SPARQLProtocolandRDFQueryLanguage)查询语言,发布的数据需包含与使用URI标识的其他相关内容的链接。集成的数据均需采用RDF数据模型,因此先保留来源数据的原始RDF结构,对没有RDF来源的数据源使用可解析的URI以规定的形式进行构建。在所有数据都被表示成RDF格式后,必须在资源之间建立额外的链接,最终形成“linked”据。图谱1)中文一体化医学语言系统(CUMLS)[38]CUMLS是中国医学科学院医学信息研究所基于UMLS开发的中文一体化医学语言系统,其包含医学词表、语义网、构建工具与医学词表收录了医学、药学和牙科学等10余个生物医学领域内的主题词表、分类表、术语表和医学语料库,包括有《医学主题词表(MedicalSubjectHeadings,MeSH)》中文版、《中国中医药学主题词表》和来自医学文本术语的《医学语料库》等。医学词表共收录了医学主题词3万多条、入口词3万多条、医学术语10万多条和医学词汇素材30万多条。CUMLS语义网络基于美国UMLS的语义网构成。语义类型按实体和事件分类并进行相应层级关系排列。语义关系则包括有等级关系(即ISA关系)和相关关系两部分。相关关系又分为5大类,分别是物理上相关、空间上相关、概念上相关、位置上相关和功能上相关。通过语义关系建立语义类型间的关联性,实现对概念之间的语义关系的多角度描述。石构建工具与平台是为医学词表的构建、维护和发布提供保障。构建工具包括同义词识别工具、语义相似度计算工具和主题分类一体化检索维护平台等。词表发布平台则是CUMLS系统最终面向用户的可查询检索平台,为医学信息专业人员和普通用户提供服2)中医药学语言系统(TCMLS)[39]TCMLS是由中国中医科学院中医药信息研究所主持研究和创建的基于本体的中医药学术语系统。它在借鉴UMLS的框架基础上根据中医药学特有的语言特点和学科体系特色进行构建,目前已收录了约12万概念、包括有语义网络和基础词库两部分。语义网络通过其定义的语义类型和语义关系构成了TCMLS的顶层架构。语义类型是中医药学领域的概念分类体系,包括有中医特色的概和“药用物质”等;语义关系则用于表示概念间的关联关系,共58种,分为“ISA(上下位关系)”和“Associatedwith(相关关系)”,其中相关关系分为“物理上相关”、窍于”。基础词库是将收集的各个标准来源的中医药术语以概念为核心进行系统的梳理和准确描述,并建立了概念间的语义关系。3)医药卫生知识服务系统[40]医药卫生知识服务系统由中国医学科学院医学信息研究所承建,旨在建立具有公益性、开放性的医药卫生知识服务平台。其主要资源来源于世界卫生组织(WorldHealth究院(NationalInstitutesofHealth,NIH)等医药卫生领域权威网站、医药卫生领域的OA英文期刊、中国知网(ChinaNationalKnowledgeInfrastructure,CNKI)的中文文献数据、国家人口与健康科学数据共享平台的科学研究成果和国外开放科学数据资形成了约1500万条相关资源。系统围绕“重大慢性病”为主题,通过对资源的深度挖掘和关联分析,建设了医药卫生领域智能检索、医药卫生科学数据服务、重大慢性病数据智能分析和特色知识服务和应用,如医药卫生领域智能检索的服务是通过对检索词的语义扩展和中英文翻译实现对收平台目前已发布疾病和药品领域知识图谱,其中疾病涵盖心脑血管疾病、呼吸系统疾病、免疫系统疾病、消化系统疾病、肿瘤等。4)CMeKG[41]CMeKG是由北京大学、郑州大学以及鹏城实验室联合研发的中文医学知识图谱。它的构建参考了国际疾病分类(InternationalClassificationofDiseases,ICD)、药物的解剖学、治疗学及化学分类法(AnatomicalTherapeuticChemical,ATC)、SNOMEDCT、MeSH等国际标准的构建方法,同时对医疗领域相关的临床指南、行业标准、诊疗规范、医学百科等文本信息进行了收集和整理,利用自然语言处理与文本挖掘技术,基于大规模医学文本数据,以人机结合的方式进行研发。目前已发布2.0版本,包含1万多疾病、近2万中药物、1万多症状和3000种诊疗技术,描述医学知识的概念关系和属性三元组达156万。CMeKG的医学概念体系分为15大类,包括疾病、药物、诊疗技术及设备、有机体、解剖学等。基于以上医学概念分类体系,定义了各类概念的关系描述框架。关系描述框架包括有概念间的关系(概念关系)和概念与属性之间的关系(属性关系),一共有67种概念关系,如“药物类-症状类-适应石成分等。另外,2.0版本还增加了基于就诊科室的疾病分类体系和基于ICD编码的疾病分类体系,并建立了与UMLS的映射与5)OMAHA知识库[42][43]OMAHA知识库是由浙江数字医疗卫生技术研究院进行研发和构建的医学领域知识库,主要聚焦于临床医学的内容开发。OMAHA知识库基于OMAHASchema构a内外已有知识图谱(如UMLS语义网络、Schema的基础上,充分考虑中文医学知识的特点,形成的一套符合中文临床环境的医学知识图谱Schema,目前包含医学相关的称“七巧板”术语集)和“汇知”医学知识图谱(简称“汇知”图谱)两部分组成。“七巧板”术语集仅包含了Schema中用于定义相关医学概念的层级关系、属性关系和语义类型,而“汇知”图谱则包含了Schema中剩下的部分,即通过“七巧板”术语集可以将医学概念定义清晰,通过“汇知”图谱用于定义“肺癌”,此类关系存储于“七巧癌,相关检查,胸部电子计算机断层扫描)*是非定义类关系,此类关系存储于“汇知”“七巧板”术语集目前已积累发布了98万个核心构件,分别是概念、术语和关系,且都通过唯一标识符进行表示。概念表示一个临床观念(clinicalidea/clinicalthought),一个概念可以有多个父代概念;术语是对概念的语言指称,一个概念下可以有多个术语同时存在;关系用于建立概念之间的联系,包括有子类关系和属性关系,其中属性关系态学改变”、“临床过程”等。“七巧板”术语集包含17个顶层概念,涉及领域包括诊断、症状体征、手术操作、检验检查、基因、药品等;包含45种语义类型,如临床所见、疾病、操作、观测操作、生物等;病理过程、使用的器械等。同时,为了扩展“七巧板”术语集的使用场景还制定了扩展集,目前共有三种扩展集类型:与主流医学术语集如ICD-10、ICD-9-CM-3和药品医保目录等建立映射的映射扩展集;与以术语集概念体系为基础搭建的口语化疾病、症状扩展集和药品英文扩展集。扩展集还可以基于已发布的编辑指南由用户自定义创建,从而满足更多元化的需求。“汇知”图谱的知识源主要为临床指南、临床路径、药品说明书、医学书籍和医学文献等高质量医学资源。“汇知”图谱采用机器自动处理和人工审核相结合的方式进行构建,以“七巧板”术语集为基础,最大化地对实体进行了标准化和概念化。截止到目前,已发布多个以疾病为核心的图谱数据,包括15.4万实体、97.8万三元组,其中8.5万实体与“七巧板”术语集建立了映射。状分析1)数据规模从医学知识图谱规模上来说,国外医学知识图谱由于开始创建和研究时间早,因此产生的成果也更丰富,具有数量多和领域宽的特点。而国内医学知识图谱创建开始时间较晚,构建领域也多以疾病、药品为中心,数量较少,领域范围也较窄。石2)维护模式从维护模式方面来说,国外的医学知识图谱通常有相关的组织机构进行构建并有固定的维护流程、更新频率和机制,同时也会与其他知识图谱建立链接。而国内的医学知识图谱构建大多是由一些科研项目孵化,或者是由一些大数据应用相关的企业独自进行尝制,3)知识整合从知识整合方面来说,国外已经有组织对行业发布的生物医学各个细分领域的来源词表进行整合并建立关联,从而快速构建了一个大且全的知识图谱,可以适用于多种应用场景需求。如UMLS就将收录的多个来源词表进行整合,且设计了能够充分兼容各来源词表的超级叙词表的架构及元数据框架,广而国内目前发布的行业标准数量较少、结构较单一、各自分散,整个行业尚缺乏对资源的有效整合的意识,未实现对已有资源的最内容是医学知识,因此它的特点也是由医学知识决定的。医学知识主要医学术语是医学专业领域中一般概念的词语指称,广泛分布在医疗记录、医学文献和医学教科书等信息资源中。目前我国还未建立规范、统一的医学术语标准,这也就使得相关从业者在不同场景下使用医学术语较为随意,最终导致同一个医学概念存在多种术语表达方式的现象普遍存在。此外,外文翻译导致的错别字等问题,也是导致术语多样性以下2个例子可以很好地帮助了解当前的行业现状。药品概念“阿司匹林”在维基百科的别称为“乙酰水杨酸”,在A+氧基)苯甲酸”;医生在电子病历中一般用“艾滋”和“艾滋病”作为医学术语使用,在医学文献中则更多的使用“获得性免疫缺陷综合征”和“AIDS”,以上四个术语均要在医学信息或数据的使用、处理、加工等过程中达到比较好的效果,计算机就必须解决术语多样化的问题。计算机首先需要理解每一个医学术语的含义,并能识别相同含义的不同医学术语,才能解决当前普遍存在的语义异构问题,从而提升系统的语义以疾病为例,目前为止没有任何一个知识源可以涵盖针对某一疾病的所有知识。产生这一现象的主要原因有两个:一个是医学知识石更新迭代迅速,新知识无法快速地在原知识是不同的机构由于发布目的不同,导致所发布的知识源通常仅包含某小细胞肺癌诊疗指南》介绍了最新最全面的非小细胞肺癌病理诊断依据、影像诊断依据和治疗方案,但不涵盖流行病学、病因和临]。为了让医学知识更好地满足临床实践要求,作中,只有建立全面的医学知识体系,才能为诊疗是经验性总结的科学,主要分为基础医学、临床医学以及预防医学三大类学科。基础医学是研究人的生命和疾病本质及规律的然科学;临床医学是研究人体疾病发生、发展规律及其临床表现、诊断、治疗和预后的科学;预防医学则主要探索疾病在人群中发生、发展和流行规律及其预防措施[46]。三大类学科各自分工研究复杂的人体问题,相应的知识也是复杂多变。单从医学概念上就能看出医学知识的复杂性,一个医学概念往往存在多个上位概念和下位概念。以肺炎为例,肺炎不仅有肺组织炎症和肺实变两个上位概念,还有新生儿肺炎、间质性肺炎和在《原发性支气管肺癌临床路径(2019年方案:吉西他滨+顺种用药方案在《新型冠状病毒肺炎诊疗方案(试行第八版修订版)》[48]中,医学观察期间不同的.新型冠状病毒肺炎诊疗方案(试行第八版石来源:中华人民共和国国家卫生健康委员会.原发性支气管肺癌临床路径(2019年版)图5:原发性支气管肺癌临床路径(2019年版)J021,14(02):81–88图6:新型冠状病毒肺炎诊疗方案(试行第八版修订版)石可以使计算机在辅助人类开展医疗活动过程中显得更加智能,让用户获得更加全面的医众多的医学知识来源势必会导致知识质量参差不齐。临床路径、临床指南和医学教科书等资源的权威性较高,且临床指南会标识证一些互联网开放平台上的知识由于维护者身份和审核等原因,其权威性通常有争议。医学是关乎生命健康的科学,医学知识的专业性高,应用场景的容错率低,所以计算机必须拥有高质量和高可信度的医学知识库支撑才能让使用者信赖。同时,医学知识的证据等级是临床诊疗流程中十分关键的信息,也一些与通用领域不同的特征才能具有更强的适用性。医学知识图谱的特殊需求主要体现上文中提到,知识图谱通常由模式层和数据层组成,模式层定义知识图谱的模型,数据层基于模式层的模型构建数据。通用知识图谱模式层的关系类型一般比较简单,层级关系浅,但数据层的数据覆盖范围广,而医学为了解决医学术语多样化和医学知识分散的问题,医学知识图谱的模式层建议引入本体来规范医学概念的内涵,定义丰富的关系类可通过构建复合值类型(CompoundValueTypes,CTV)1进行知识的完整表达。例中的“梅克尔憩室在用憩室切除+小肠吻可以通过“梅克尔憩室临床路径”作为复合),(梅克尔疗方式,憩室切除+小肠尔憩室临床路径,治疗前检查,血常规)*来完成对该条知识的完整来源:中华人民共和国国家卫生健康委员会来源:中华人民共和国国家卫生健康委员会.梅克尔憩室临床路径(2019年版),OMAHA知识库,白皮书团队整理分析图7:《梅克尔憩室临床路径(2019年版)》中的多元关系示例CVTFreebase于表示复杂数据。例如,城市人口会随时间变化,所以城市、人CVT而可以表示清楚相同城市不同时间的不同人口[49]通用知识图谱的规模巨大,不可能人工手动构建,一般由机器高度自动化构建,但往往最终的知识图谱质量不会很高。医学领域的应用场景极为严肃,对知识质量要求严苛,医学知识图谱不可能完全依靠机器自动化构建。医学知识图谱的构建一般采用人工+机器的方式,构建全过程需要医学专家积极参与,以保证数据的准确性。此外,医学知识图谱构建过程中需要充分收录行业现行标准、教科书、指南等权威知识源,并同时补充互联网和临床病历中的医学知识,从而保证医学知识的完整性。石不同医学场景需要使用不同来源或不同证据等级的医学知识。例如在面向患者的智能问答应用场景中,基于常规教科书、指南、百科和互联网开放平台上构建的医学知识图谱就足以支撑计算机的使用。在决策支持应用场景中,当存在多个不同的决策建议时,证据等级的标识有助于医生选择最准确与最合适的方案,且需要满足医学知识更新的时效性。因此,医学知识图谱中的每条三元组都要记录医学知识的来源和相应的证据等级,以此提高医学知识图谱在不同场景的适用的构建医学知识图谱在构建路线和构建方式上与通用知识图谱的基本架构相似,但在一些细节的处理上,考虑到医学知识的特殊性会有不(一)构建流程建模、知识存储、知识抽取、知识融合和知识推理知识图谱的构建一般可以分为自下而上 (Bottom-Up)和自上而下(Top-Down)两种方式。前者是先从真实数据中抽取实体和关系,而后归纳总结出知识图谱的Schema;后者则是先归纳总结出知识图谱Schema然后再依据Schema进行实体和关系的抽取。通用知识图谱涉及的知识范围广、量级大,一般采用自下而上的方式进行构建;而垂直领域的知识图谱涉及的知识专业性强、难度高,一般采用自上而下的方进行构建。医学领域的知识专业性极强,且知识类型特殊,所以医学领域的知识图谱一般采用自上而下的方式进行构建。医学知识图谱Schema在构建过程中,有如下几点需要注1)应参考成熟的Schema国外的医学知识图谱起步较早,已有较多沉淀,例如UMLS的语义网络、SNOMEDCT的语义模型等都已比较成熟。可以在研文医学知识的特点构建Schema。2)应有医学专家充分参与医学知识专业性强,医学知识图谱Schema构建必须要有医学专家的充分参与才能保证其正确性和适用性。在整个构建过程中,让医学专家充分理解知识图谱的相关概念是一3)应充分考虑应用需求如前文所述,部分复杂的医学知识需要较复杂的Schema才可以表示清晰,例如通过复合值类型来完善知识的表示。但是复杂的Schema会给知识抽取带来更大的困难,所自身应用的需求,选取能符合自身需求的最4)应不断维护更新但不同细分领域的知识有时会有细微的差域为例,肿瘤的分期知识复杂,且分期对治疗方案有要能够表示出肿瘤的分期、治疗方案、治疗药物和用法用量等多元的关系,而其他领域的疾病的Schema一般无需定义得如此细5)应有标准化的理念医学知识图谱构建是一个庞大的工程,依靠单一机构不可能完成,因此各组织在构建Schema时应有标准化的理念,即应在一套性化的设计。基于标准化的Schema构建出的医学知识图谱才具有更好的互通性,而互通性高的知识图谱不仅使构建组织自身受石知识抽取是知识图谱构建的核心内容,根据任务类型一般可以分为实体识别、关系抽取和事件抽取。其中实体识别和关系抽取应用成熟,而事件抽取目前在医学领域内应用还较少,仅在传染病学和流行病学领域稍有涉及,本文暂只介绍前1)实体识别实体识别又称命名实体识别(NamedEntityRecognition,NER),是指识别文本中的命名性实体,并将其划分到指定类别的任务[50]。在医学领域中,主要的实体类型可解剖结构等,如何准确并快速的识别出这些实体是医学实体识别任务的关键。常见的医学实体识别技术方法可以分为两种,基于规别。a)基于规则的实体识别[51]基于规则的实体识别一般采用特征词典、分如果已有医学领域内的词典积累,可以根据完成一个简单的基于规则逆向最大匹配法、双向匹配法和最佳匹配法词方法实现的实体识别对于词典内的实体识别准确率一般较高,但无法识别出词典中未包含的实体(即未登录词)对于未登录词的识别可以采用词典+分词+疾病实体识别为例,可以构建疾病的特征词症”等,对来源语料进行分词和词性标注,即为疾病实体,利用正则表达式提取出符合规则的实体,然后对提取结果进行验证,保证规则的正确性和发现新规则。基于已提取的疾病实体,还可以归纳出疾病的修饰词的特征词典,如“急性”、“亚急性”、“慢性”、“良性”、“恶性”等,利用“修饰一步抽取更多的疾病实体。基于规则的实体识别简单流基于规则的实体识别实现的技术手段相对简单,在一些特定的场景和语料中的效果较好,准确率较高,但由于规则适用性窄,所以一般召回率稍差。同时由于规则需要根据经验总结,实践中常会出现规则盲点,造成一些结果的错误,所以需要人工不断完善。另外规则的泛化性差,不同类型实体的识别规则往往差别很大,例如前文所提识别疾病的规则就完全无法应用于药品。所以对于基于规则的医学实体识别而言,如何维护和更新大量的不同类别实体的识别规则是重点和白皮书团队整理分析随着机器学习技术特别是深度学习技术的发展,基于机器学习的实体识别是当下的主流方法。其主要思路是将实体识别问题转换为序列标注问题,需要预先对语料进行标注形成训练数据集,然后用训练数据集训练生成基于机器学习的实体识别一般可以分为基于统计模型的实体识别和基于深度学习的实体识别两种类型。基于统计模型的实体识别主要通过人工定义特征和标注语料来训练模型,通过统计学习模型来预测标签,从而完成实体识别。统计模型中标签的预测不只是单纯的与输入的特签相关,标签之间互相影响。基于统计模型的方法一般包括最大熵模型(MaximumEntropyModel,MEM)、隐马尔可夫模型(HiddenMarkovModelHMM、条件马尔可夫模型(ConditionalMarkovModel,CMM)、条件随机场模型(ConditionalRandomFieldsCRF、支持向量机(SupportVectorMachine,SVM)等。基于深度学习的实体识别是近些年实体识别关注和讨论的热点。深度学习技术应用于实体识别领域主要有卷积神经网络(ConvolutionalNeuralNetwork,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)和引入注意力机制 (AttentionMechanism)的神经网络。RNN中的长短期记忆网络(LongShortTermMemory,LSTM)目前在实体识别中应用最为广泛,常见的模型有双向长短期记忆网络(Bi-directionalLongShort-TermMemory,BiLSTM)+条件随机场。相比于统计模型中通过人工定义特征作为输入层,基于深度学习的实体识别直接通过文本石中的词或字的向量作为输入,减少了人工定义特征中对专业知识的依赖。语料中词和字的向量一般通过预训练获得,常见的词向量(WordEmbedding)预训练工具包括Word2Vec、BERT(BidirectionalEncoderRepresentationfromTransformers)和一些新的技术和方法也逐渐在实体识别领域落地和发展,如多任务学习 (Multi-taskLearning)、迁移学习 (TransferLearning)、主动学习(ActiveLearning)、强化学习(ReinforcementLearning)和生成对抗网络(GenerativeAdversarialNetwork,GAN)等[52]。相较于基于规则的实体识别而言,基于机器学习的实体识别的召回率高且泛化性好。但是基于机器学习的实体识别目前大部分都是监督学习(SupervisedLearning),需要依赖大量的标注语料来进行模型的训练。医学专业程度高,标注语料的门槛和成本都远远高于一般领域,所以如何获得大量高质量的标注语料是目前主要的瓶颈。因此,如何依靠少量的标注语料训练出一个高质量的模型2)关系抽取关系抽取是指从文本中抽取出两个或多个实体之间的语义关系,自动化的关系抽取一般可以分为基于模板的关系抽取和基于机器学基于模板的关系抽取主要是通过领域专家,总结出相应的关系规则和模板,采用模板匹配的方式进行实体关系的抽取。例如基于下面的模板即可以提取药品“X”与疾病“Y”“X”可用于治疗“Y”“X”的适应证有“Y”“X”可以治疗“Y”……基于模板的关系抽取在一些特殊的场景可以取得不错的准确率,如药品说明书中的知识抽取。但是此方法也存在很多问题,例如召回率低,规则的总结依赖于大量的人力,模与实体识别类似,基于机器学习的关系抽取也是近些年关注的重点。按实现方法,基于机器学习的关系抽取可以分为两种:Pipeline法和Joint法。Pipeline法可分为两步,即先进行实体识别然后再进行关系抽取,两步之间独立,关系抽取的结果依赖于实体识别的效果;Joint法则将实体识别和直接完成实体+关系常见的基于机器学习的关系抽取技术和实LSTM和BiLSTM等。由于关系识别的技术更加复杂,而且标注数据相较于实体识别而言更加难获取,一些只需要利用少量标注的半监督学习(Semi-SupervisedLearning,SSL)的方法也逐渐引起越来越多学者的关注,例如远程监督(DistantSupervision)和Bootstrapping等。3)医学知识抽取难点由于医学知识的特殊性,医学领域的知识抽取存在特定的难点。石●嵌套实体医学文本中存在大量的嵌套实体,例如“肌这类嵌套实体给医学实体识别带来了很大的●不连续实体医学文本中存在许多不连续实体,例如“肝●一词多义医学文本中存在一词多义的实体,例如“甲胎蛋白可以检查人体血清中甲胎蛋白的含量”,此处的两个“甲胎蛋白”前者表示一项检验检查项目,后者表示一种蛋白,两者干扰。●实体间隔远有时会出现有关系的两个实体间的间隔过远的现象,疗指南(2019年)》中,慢性腹泻”与其相关的检查“血常规”、●关系复杂多元如医学知识图谱特点中所述,一些复杂的医学知识需要借助于复合值类型来表示,但此类知识在关系标注中难以标注清晰。同时,由于知识特异性高,语料中可以标注出的该类关系的量一般较少,所以训练模型对此类诊疗指南(2019年)J:973–982图9:《慢性腹泻基层诊疗指南(2019年)》示例2)实体对齐[1]知识融合在医学知识图谱的构建中是解决数据异构和冗余的关键步骤,知识融合一般可1)Schema融合Schema融合主要发生在不同的医学知识图Schema的融合主要采用人工的方式进行以保证融合的质量。Schema融合的关键在于其中等价的语义类型和属性关系并建立等价关系。无法建立等价关系的部分,可以寻求和“操作”,语义关系“症状”和“临床表现”之间都可以建立ISA关系。若等价关系和层级关系都无法建立,则可以视具体的实体对齐是知识融合中最关键的步骤,其主要任务就是判断出的实体间的等价关系。在数据预处理的主要目的是完成数据的正规化,一般包括对实体名称上空格和标点符号的处理,大小写的统一,繁体和异体字的转换,错别字的修正等。数据分块是指根据语义类型将实体划分为不同的类别,用于保证只有相同或等价的语义类型中的实体才会进行融合。根据分块后不同类别实体的名称特点选择合适的实体对齐方法,给出合适的推荐结果,然后进行实体对齐。常见的实体间相似度计算方法包括Jaccard系数、Dice系数、编辑距离、机器学习以及近年来关注较多的知识表示学习(RepresentationLearning)的方法2。2知识图谱表示学习也称为知识图谱嵌入(KnowledgeGraphEmbedding)或知识图谱的向量表示,是指将知识图谱中包含的实体和关系都映射到连续向量空间的方法。此类方法不依赖任何文本信息,获取数据的深度特征,可以直接用数3)医学知识融合难点在Schema融合工作中,医学知识由于其专业性较高,实体间的关系类型较为复杂,所以需要大量的医学专家参与到Schema的融合过程中,如何让医学专家顺利的理解Schema和知识图谱是其中的难点。在实体对齐时,医学类实体间的一词多义的现战。例如,“肺癌”在一些场景中可以用来指代“肺部恶性肿瘤”,但实际在严谨的肿瘤形态学定义“肺部恶性肿瘤”的子类概念。一词多义问题在碰到英文缩写时会更加严重,相同的缩写可能分别指代两个无任何关联的实体,例如检验项目“甘油三酯(triacylglycerol)”和“甲状腺球蛋白 (thyroglobulin)”的英文缩写都可以写作“TG”。知识图谱的本质是三元组关系的集合,对于三元组数据而言,一般可采用关系型数据库1)关系型数据库关系型数据库出现较早,发展比较成熟。知识图谱中的三元组数据很容易利用关系型数据库来存储,常见的利用关系型数据库存储知识图谱三元组的方法有:三元组存储、水平存储、属性表存储、垂直划分存储、全索引存储和DB2RDF等。下面选取几种典型的关系型数据库存储知识图谱的方法做简单介绍[8][54][55]:只通过一张表来维护知识图谱数据,表包含所有的三元组数据都存储在一张表中。这种存储方法通用性较好,但由于所有数据都存储于一张表中,查询时会有大量的自连接操石水平存储依然是将所有三元组都存储于一张表中,三元组中的主语实体存储为数据库中1所示。该存储方式设计简单,查询单个实体时可快速展示出其所有属性值。但缺关系复杂时可能会超出数据库的上限。同时由于所有属性水平铺开,单个实体不可能在所有属性上都有值,所以必定会存在大量空值,空值不仅增加了存储的压力,同时也影响查询的效率。最关键的是,一旦一个实体的一种属性拥有多个属性值,该存储方式将大大受限,如示例中糖尿病的临床表现实际上有多个,如多食、多饮、多尿和消瘦等,存储并不适合该类多值数据存储[56]属性表可以简单的理解为将水平存储中的一张表按照实体的类型分成多张表,保证同类性大致相同,表1中的示例数据就可以依据实体类型拆分成疾病、药品和检验项目三张属性表,如表2所示。属性表的存储方式可以解决水平存储中列数过多的问题,但空值问题可以一定程度上减轻但仍无法完全避免,单属性的多值问题也仍然无法解决。由于分为多个表进行存储,所以在一些查询时需要对多个表进行关联,比较影响垂直划分的存储方法是依据属性将水平存储的表划分成不同的表,即保证每张表中三元组的属性都相同,每张表只包含两列,分别对应三元组的主语和宾语。垂直划分的存储方法有效解决了水平存储和属性表存储中的空值和单属性的多值问题,但由于表数量的增加大大增加了查询时表间连接的数量,影石谱数据示例*物型应糖尿病发热血常规尿常规染图谱数据示例*物应型染响查询性能。同时对于一些特殊查询场景,如已知三元组的主语和宾语查询谓语时,垂存储方式无法有效支持[57]2)面向RDF三元组数据库RDF是万维网联盟(WorldWideWebConsortium,W3C)提出的一组标记语言的技术标准,以便更好地描述和表达网络资源的语义关系。它是语义万维网实现的关键技术之一,也是语义信息描述的有效手段,基RDF是知识图谱开放和发布的最主要的格式之一,面向RDF的三元组数据库在存储知识图谱三元组时有格式上的优势,其可以支持RDF的标准查询语言SPARQL。常见的RDF三元组数据库包括:开源系统e3)原生图数据库图数据库是数据库领域为更好的存储和管理图模型数据而开发的数据库管理系统,其对图数据的存储和查询的效率优于关系型数据库。从数据模型角度来看,知识图谱本身是一种图数据,所以知识图谱在本质上更适合使用图数据库进行存储。常见的原生图数总体而言,关系型数据库的优势在于技术成熟,面向RDF的三元组数据库优势在于格式标准,原生图数据库优势在于存取效率。医学知识图谱的存储可以选用多种数据库同时存储的方式,分别适用于不同的管理和应用场景,但是应注意不同数据格式之间的同知识推理是知识图谱构建的重要组成部分,知识推理是指在已有的知识图谱的基础上,通过进一步挖掘出实体间隐含的知识或识别出错误关系的过程[59][60]。知识推理在知识图谱构建过程中主要应用于知识图谱补全(KnowledgeGraphCompletion)和知识图谱去噪(KnowledgeGraphCleaning)[61]。知识图谱补全是基于已知的知识图谱中的关系推理出未知的关系;知识图谱去噪则是对三元组正确性的判断和对整个知识图谱逻辑上一致性的校验。逻辑学上将推理分为演绎推理(DeductiveReasoning)[62]和归纳推理(InductiveReasoning)[63]两种方式。前者是自上而下的形式化推理,是在指定前提的情况下,推断出必然成立的结论;而后者则是自下而上的非形式化推理,是基于已有的部分观察得出一般结论的过程。例如,基于前提“肺部疾病的发病部位为肺部”和“肺炎是一种肺部疾病”,可推理出“肺炎的发病部位为肺部”,这一推理过程为演绎推理;而“大部分参与临床试验的二型糖尿病患者服用二甲双胍后显示有效”,所以推理出“二甲双胍对大部分的二型糖尿病患者有效”,这一推理过程为归纳推理。基于推理的分类方法,知识图谱的推理主要技术手段也可以分为基于演绎的知识推理和基于归纳的知识推理。常见的基于演绎的知识推理的技术有描述逻辑(DescriptionLogic,DL)、Datalog和产生式规则等;常见的基于归纳的知识推理的技术有基于图结构的推理、基于规则学习的推理、基于知识图谱表示学习的推理和基于强化学习的推理等[1]。医学知识图谱所采用的知识推理方法应以演绎推理为主。因为医学知识中包含大量的层级关系,而基于层级关系可以设计和完成大量的演绎推理。在前文所述的演绎推理例子中,可以推理出“肺部疾病”所有的子类疾病的发病部位都应该是“肺部”或“肺部”的子类。利用这一特点,可以快速地完成大石(二)构建方式当前知识图谱的构建方法主要分为机器构建和人工构建两种。机器构建的方法可快速产人工构建速度慢,但结果的质量会更高。通用知识图谱的构建由于资源多,数据量大,所以机器构建的方式是主流;但医学领域一般对知识的质量都有较高要求,所以医学知识图谱构建过程中人工的参与应更多也更加必要。在医学知识图谱的构建过程中,机器应主要用于提高效率,辅助快速产生知识,而人工则应主要用于质量的控制,所以如何在医学知识图谱的构建中,机器构建主要用于解决人工效率低的问题,所以机器构建的技术方法选择应以最大化减少人力为主要判1)技术成熟度优先知识图谱构建技术的研究和发展速度很快,大量的新理论和新技术在科研中被应用。但是构建临床实际应用级别的医学知识图谱不应执着于高新技术,技术的成熟性和稳定性2)技术按需选取医学知识图谱的构建不能寄希望于依靠单技术或少量几种技术解决所有问题,而应该更加细致地拆分任务,针对不同的细分任务选的效果。3)技术准确率优先量要求高,机器自动处理的结果中错误率过高不但会降低整体数据质量,而且人工纠错会带来更多的工作量。因抽取,人工构建医学知识图谱可以一定程度上解决机器构建的数据质量的问题,同时人工产生的标注数据也可以用于机器学习的模型训练,但人工构建的主要问题是效率相对比较低下。近些年,随着互联网技术的发展,知识型众包正逐渐发展起来。众包 (Crowdsourcing)是一种通过将工作先分配给很多非特定的参与者再合成为最终结果的模式[64]。众包相较于传统的人工方式,在效率和灵活性上更有优势,所以众包适合用于知识图谱的构建。采用众包的方式进行医学知识图谱构建有以下几点原则:1)较高的准入资质医学专业性很强,要确保众包构建出的医学知识图谱不出现质量问题,就一定要保证参与人员的资质。需要针对不同的领域,选取不同的医学从业者,如临床医生、护士、医学生和医技专业人员等,同时也要做好资质2)全面的知识培训医学知识图谱构建是一个跨学科的任务,需要医学专业人员有一定的知识图谱的基础知识。因此,在正式开始任务前,需要对任务执行者进行知识图谱基础知识的培训和讲解,然后可以安排测试,通过测试后方可正3)精细的任务划分在医学知识图谱的构建流程中,不同工作所需要的人工参与度不同。如何选取出其中最重要且最需要人工的部分来进行众包构建是关键。例如,构建Schema一定需要领域专家大量参与,知识抽取和知识融合则需要人工对机器的结果做审核和质量控制,而知识推理则一般只需要人工定义规则。石其次,尽量选取易达成共识性的知识源,从而避免在任务过程中相关专业人员因个人的临床指南、临床路径和药品说明书等权威性4)易用的协作平台医学知识图谱构建任务比较繁琐,所以搭建一个易用的协作平台很有必要。通过协作平台,任务管理者可以更简单的设置任务和分发任务,任务执行者可以更方便和简单的完成任务。例如,通过协作平台将大任务拆分成小任务,分多次的分发以保证参与度与完将选择型任务转换为判断型任务等方式来简5)健全的质控机制多,采用人工众包的方式构建医学知识图谱同样也会存在质量隐患,所以建立一个良好的质量控制体系也尤为关键。常见的方法有:相同任务安排双人独立完成后,对一致性进行检测;任务结果的人工抽样检测;与成熟的医学知识图谱对比评综上所述,医学知识图谱离不开机器与人工的配合。找到二者的平衡点,并最大化地发挥机器的能力以及减少人的工作量,同时保障数据的质量,才是快速且高质量构建医学((一)语义搜索石应用领域的随着研究的深入以及行业的发展,医学知识图谱也开始应用于药物研发、公共卫生事件传统的搜索主要为关键词搜索,当用户向搜索引擎提交关键词查询请求时,搜索引擎通过关键词匹配的方式,在数据库中检索满足用户查询请求的内容,然后将结果反馈给用户。这种搜索引擎对查询的处理局限于词的表面形式,缺乏知识处理能力和理解能力。语义搜索则不拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正搜索意图,从而更准确地返回最符合用户需求的搜索结果[65]。将知识图谱应用于搜索是当前实现语义搜索的有效解决方案。知识图谱描述了事物的分类、属性和关系,具有丰富的语义基于医学知识图谱的语义搜索目前被用于医医疗保健信息等内容的推荐。部分使用了语义搜索技术的医学信息搜索平台举例如表3索技术的医学信息搜索平台简介的内容calSearch6]WebMD[67]WebMd康服务网站,拥有全球最丰富的健康医疗立了一个网上了解和交流医疗信息的通道,其所提供的医疗资皆是业界的领导者,除了汇集全美医师的临床报告,还有最新[68]赖的医学知识。引进海外优质医病病因诊断治疗预防等医疗百科。skBobb70]识爱好者的专业医学信息网站。]急救、中医等几乎所有医学相关领域。拥有原创医疗类科普学科普视频数万集。白皮书团队整理分析石基于知识图谱的语义搜索主要包括四个步●第一步,搜索意图理解。即从用户提交的搜索内容中识别出用户希望查找的目标实体,并为执行下一步工作生成目标SPARQL)或某种计算方法在知识图谱●第三步,结果呈现。对搜索结果进行排●第四步,实体探索。拓展目标实体之外的相关内容并呈现给用户,增加搜索结以AskBob医生站(以下简称AskBob)为例来直观的了解基于知识图谱的语义搜索过第一步,通过自然语言处理,系统可以准确地识别用户想搜的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论