




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
任务书学院专业班级学号姓名指导教师设计(论文)题目基于自然语言处理的急性气胸伤情知识图谱构建研究毕业设计(论文)主要内容和要求:面对信息时代爆炸式增长的海量数据,人们对迅速获取和全面掌握信息资源提出了新的需求,知识图谱技术应运而生。一方面,知识图谱从语义角度出发,通过知识挖掘和智能决策将知识更加有序、有机地组织起来,实现了知识的智能获取和管理,对于互联网搜索、智能推荐、智能问答等具有重要作用。另一方面,知识图谱通过考虑特定领域的目标对象和应用场景,可以应用于面向特定领域的分析应用和决策支持。当前,知识图谱在医疗领域的应用被广泛关注。传统的诊断方法是通过医疗仪器对病人进行初步检查,再由医生根据检查结果和病情的描述信息进行综合分析和判断,得出诊断结果,这种诊断方式存在一个问题,即诊断结果的正确性与医生的水平息息相关。尤其是对于一些急性病来说,由于发病速度快、医疗设备不充足、场景复杂等原因,传统的医疗诊断很难发挥效用。将知识图谱应用于医疗领域,即利用现代信息技术收集并分析大量数据和信息,通过自然语言处理技术、统计学习等方法,整合医学知识,迅速找准病例的数据,以一种更加方便和简明的形式提供给广大医护人员和用户,给他们提供一定参考价值,可以提高诊断准确率,并为用户自我诊断提供参考。本文选用急性气胸这一伤情作为研究对象。急性气胸是我国临床医学上的一种常见急重症,在严重的时候会导致患者死亡,有关气胸的医疗急救服务也尤为重要。但是由于患者急性胸痛的发病速度比较快,而且病情多变,容易出现诊断不及时或者是诊断失误等情况。从理论上看,本文在相关医生提供专业指导的前提下,通过自然语言处理等技术对专业医学书籍及专业医学网站的知识进行抽取,从而构建气胸的知识图谱,实现了知识抽取与知识图谱技术的结合。本文通过挖掘相关数据,着重构建相关的知识图谱,本文的主要研究内容如下:(1)在数据的获取阶段,首先着手从《内科学第九版》《黄家驷外科学》《急诊手册第四版》几本医学专业书籍中获取相关的气胸知识,与此同时,采用爬虫技术从寻医问药专业医学网站进行相关知识的获取工作。多数据来源保证了气胸知识的完整性,有利于知识图谱的构建。(2)在知识抽取阶段,采用自然语言处理的方法对实体及实体关系进行抽取,主要分为实体识别、关系抽取以及知识融合几个方面。在实体识别过程中,需要完成分词、词性标注以及实体识别工作。在关系抽取阶段,需要完成实体间关系的抽取工作。在知识融合阶段,需要对不同来源下的气胸医学实体类型、属性等进行实体对齐、属性对齐、冲突消解,对知识抽取的谓词进行规范统一。(3)在构建图谱的阶段,将知识抽取获得的实体及实体关系根据图数据库的属性图模式规定的形式对数据进行整理,选用neo4j作为图数据库进行知识图谱的构建,进行气胸知识图谱的可视化,建立气胸的应急医疗知识图谱。毕业设计(论文)主要参考资料:[1] 汪庆生.急性胸痛患者在急诊科风险评估与诊疗中的临床分析[J].临床医药文献电子杂志,2020,7(23):32.[2] 王艺,任淑霞.医疗大数据可视化研究综述[J].计算机科学与探索,2017,11(5):681-699.[3] 舒影岚,陈艳萍,吉臻宇,等.健康医疗大数据研究进展[J].中国医学装备,2019,16(1):143-147.DOI:10.3969/J.ISSN.1672-8270.2019.01.039.[4] SinghalA.Introducingtheknowledgegraph:things,notstrings./research-papers/official-google-blog-introducingknowledge-graph-things-not-strings/,2012-01-08[5] 李涛,王次臣,李华康.知识图谱的发展与构建[J].南京理工大学学报,2017,41(01):22-34.[6] 常亮,张伟涛,古天龙,孙文平,宾辰忠.知识图谱的推荐系统综述[J].智能系统学报,2019,14(02):207-216[7] 王剑辉,朱晓波,夏正洪,何乃帅.基于知识图谱的国内空中交通管理研究可视化分析[J].交通信息与安全,2019,37(06):11-19.[8] ChenS,WenJ,ZhangR.GRU-RNNBasedQuestionAnsweringOverKnowledgeBase[M].KnowledgeGraphandSemanticComputing:Semantic,Knowledge,andLinkedBigData.SpringerSingapore,2016:80-91.[9] LiH,ChenQ,TangB,etal.AnInitialIngredientAnalysisofDrugsApprovedbyChinaFoodandDrugAdministration[J].2016.[10] AbdelazizI,FokoueA,Hassanzadeh0,etal.Large-scalestructuralandtextualsimilarity-basedminingofknowledgegraphtopredictdrug-drugin-teractions[J].WebSemanticsScienceServicesamp;AgentsontheWorldWideWeb,2017.[11] PaulheimH.Knowledgegraphrefinement:Asurveyofapproachesandevaluationmethods[J].Semanticweb,2017,8(3):489-508.[12] YuT,LiJ,YuQ,etal.KnowledgegraphforTCMhealthpreservation:Design,construction,andapplications[J].ArtificialIntelligenceinMedicine,2017,77(Mar.):48-52.[13] 袁凯琦,邓扬,陈道源,张冰,雷凯,沈颖.医学知识图谱构建技术与研究进展[J/0L].计算机应用研究,2018(07):1-11.(2017-08-18)[14] 何霆,吴雅婷,王华珍,熊英杰,孙偲,徐汉川.基于EHR的医疗知识图谱研究与应用综述[J].哈尔滨工业大学学报,2018,50(11):137-144.毕业设计(论文)应完成的主要工作:由于致命性气胸知识图谱特殊的专业性,在本文中将知识图谱构建方法与人工结合起来。通过爬取互联网医学专业网站数据,并结合专业医师的意见,设计医学知识表示方法,抽取实体和关系,知识融合,知识推理,获得准确且专业的气胸知识图谱。本论文主要完成的目标如下:知识抽取,首先从互联网专业医学网站爬取医学数据,采用自然语言处理的方法进行实体及关系的抽取;知识融合,通过人工定义的实体及关系规则,并基于知识图谱的集成实体对齐方法实现知识融合;图谱构建,并采用属性图的表示方法将医学知识图谱存储于Neo4J图数据库中,形成完整的医学知识图谱。毕业设计(论文)进度安排:序号毕业设计(论文)各阶段内容时间安排备注1论文选题2020.12.1-2020.12.30文献阅读与可行性分析2数据采集与知识抽取2021.1.1-2021.1.31算法学习及模型构建3知识图谱构建2021.2.1-2021.2.30知识抽取及结构确定4论文撰写模型评价2021.3.1-2021.3.31论文撰写及方案完善5论文结题2021.4.1-2021.5.31结果分析与结题准备课题信息:课题性质:设计论文课题来源:教学科研生产其它发出任务书日期:指导教师签名:年月日教研室意见:教研室主任签名:年月日学生签名:摘要随着大数据时代的发展,知识工程在行业中开始发挥越来越重要的作用,如何从海量的数据中提取有用的知识,是知识分析的关键。知识图谱技术提供了一种从海量文本中抽取结构化知识的手段,具有广阔的应用前景。医疗知识图谱作为人工智能在医疗领域的前沿应用技术,为做出具有高度准确性的诊断决策发挥了重要作用。本文应用自然语言处理相关技术,选用气胸为研究对象进行了知识抽取及图谱构建。在知识抽取方面,根据专业医生建议从相关医学书籍及医疗网站获取气胸数据,采用自然语言处理的方法,并通过构建知识词典以及引入依存句法和语义角色标注模型进行实体及关系的抽取。此外,从图数据库存储的需求出发,定义了一套实体类型及实体关系规则,对抽取的医疗实体及关系进行了实体对齐、属性消解等知识融合工作。在图谱构建阶段,采用属性图模式并结合相关数据库语言将知识图谱存储到Neo4j图数据库中,实现了气胸知识图谱的构建及可视化。该气胸知识图谱的成功构建可进一步应用于气胸智能问答辅助系统,对气胸患者的诊断、治疗、预防等有着重要的作用。关键词:知识图谱;自然语言处理;命名实体识别;关系抽取目录1绪论 绪论1.1研究背景及意义1.1.1研究背景从人类诞生的那一刻起,就开始不断产生知识,碍于信息技术的落后以及对于知识本身的理解不够深刻,直到1998年万维网之父Berners-Lee提出了语义网的概念,人们才对从自身文明中产生的知识有了进一步的认识与思考,并在不断进步的互联网技术以及信息存储技术发展下,才开始试着将文明发展过程中的经验与过程化为知识这一形式,存储到已有电子设备中。而在将经验转化成知识,再将知识存储进电子设备这一过程中形成了一个概念标准化的过程,这种标准化的过程形成了知识图谱的前身,也是将知识信息化的重要一步。知识图谱作为从语义网不断发展而来的一项技术,近些年来已经在各个领域展现它独特的作用,包括电子商务、医疗救援甚至是军事战略等领域。尤其是从2012年Google提出了知识图谱[1]这一概念后,将知识图谱与搜索引擎进行系统绑定后,知识图谱这一概念就走进了人们的视野,并在此之后得到长足的发展。知识图谱在一开始仅仅作为存储知识、建立知识与知识之间的联系以及对相关领域内的知识进行可视化而出现在人们的视野中。但是随着算法以及信息获取能力的提升,直到今日,知识图谱的功能已不再仅仅是提供可视化这么单一了,形如数据挖掘技术(DataMining)、自然语言处理(NLP)、机器学习技术(ML)以及信息分析技术等甚至能从图谱中挖掘出之前没有的信息,亦或是根据现有的知识单元推理出之前未被发现的新知识,不仅仅为知识存储这一领域提供了有力的科学化方法,更是为各个科研领域提供了一个研究进程、发展动态甚至是新知识推理的切实方法。而医疗知识图谱作为知识图谱在医疗领域的前沿应用技术,意在解决医疗领域中存在的诸多问题。医学知识图谱技术总共可以归纳为五部分,分别为对于医学知识的可视化展示、医疗知识的抽取、医疗知识的消歧与融合、医疗知识的推理以及知识质量评估。通过从大量的结构化或非结构化的医学数据中提取出医学相关数据,并根据图数据库建立的需求,将数据对应实体、关系、属性等知识图谱的组成元素整理数据,确定三元组,选择合理高效的方式存入知识库。然而目前市面上存在的具有医学背景的知识库,比如SNOMEDCT、早期的MYCIN系统、大肠杆菌数据库EcoCyc等,由于之前的技术原因,缺乏可操作性,已经不能满足现在医疗领域基于知识库的诸多上层研究。1.1.2研究意义面对信息时代爆炸式增长的海量数据,人们对迅速获取和全面掌握信息资源提出了新的需求,知识图谱技术应运而生。一方面,知识图谱从语义角度出发,通过知识挖掘和智能决策将知识更加有序、有机地组织起来,实现了知识的智能获取和管理,对于互联网搜索、智能推荐、智能问答等具有重要作用。另一方面,知识图谱通过考虑特定领域的目标对象和应用场景,可以应用于面向特定领域的分析应用和决策支持。当前,知识图谱在医疗领域的应用被广泛关注。传统的诊断方法是通过医疗仪器对病人进行初步检查,再由医生根据检查结果和病情的描述信息进行综合分析和判断,得出诊断结果,这种诊断方式存在一个问题,即诊断结果的正确性与医生的水平息息相关。尤其是对于一些急性病来说,由于发病速度快、医疗设备不充足、场景复杂等原因,传统的医疗诊断很难发挥效用。将知识图谱应用于医疗领域,即利用现代信息技术收集并分析大量数据和信息,通过自然语言处理技术、统计学习等方法,整合医学知识,迅速找准病例的数据,以一种更加方便和简明的形式提供给广大医护人员和用户,给他们提供一定参考价值,可以提高诊断准确率,并为用户自我诊断提供参考。本文选用急性气胸这一伤情作为研究对象。急性气胸是我国临床医学上的一种常见急重症,在严重的时候会导致患者死亡,有关气胸的医疗急救服务也尤为重要。但是由于患者急性胸痛的发病速度比较快,而且病情多变,容易出现诊断不及时或者是诊断失误等情况。从理论上看,本文在相关医生提供专业指导的前提下,通过自然语言处理等技术对专业医学书籍及专业医学网站的知识进行抽取,从而构建气胸的知识图谱,实现了知识抽取与知识图谱技术的结合。从实践上看,本文作为2022冬奥应急医疗诊断系统项目的子课题,将冬奥会中可能出现的急性气胸这一伤情作为目标情景,拟整合互联网中专业医学知识形成致命性气胸知识图谱,并基于知识图谱提供疾病诊断服务,从而有针对性的对患者进行救治,为冬奥会应急医学保障提供辅助决策支持。1.2国内外研究现状1.2.1知识抽取现状知识抽取是知识图谱构建的关键技术,主要是通过结构或者非结构化的数据,将语段中包含实体与关系的信息挑选出来,以实体-关系-实体的形式构成一个三元组形式。知识抽取主要分为命名实体识别、关系抽取、知识融合等内容,目前知识抽取主要分为了基于本体的知识抽取以及基于自然语言处理等技术的知识抽取两个研究方面。在基于本体的知识抽取方面,郑梦悦[2]等人结合知识元本体理论,构建了一个面向科技文献非结构化摘要的知识元本体模型,实现了对文献摘要中相关内容的自动抽取。张志申[3]等提出了基于领域本体获取特定领域知识的概念,并结合IDLSSD算法实现了对DBpedia领域的知识自动抽取。RaxitGoswami[4]等人利用基于规则的方法、统计方法、最短路径算法及其混合算法,应用并比较不同方法丰富了基于本体论的知识库。JunYixu[5]等人在meta-learning的启发下,整合了分布式知识,提取出与所有Agent一致的元知识。基于本体的知识抽取一般能达到较高的准确率,但由于其主要面向专有领域进行知识抽取,在本体库的构建过程中需要消耗大量的精力,且不能适应其他领域的抽取,因此具有一定的局限性。随着人工智能的发展,运用机器学习、自然语言处理等技术进行知识抽取受到了越来越多学者的关注。如李涛等[6]提出了一种融合对抗主动学习的端到端网络安全知识三元组抽取方法,并通过融合动态注意力机制的Bi20LSTM-LSTM模型实现了实体与关系的联合抽取。GuerganaK.Savova等人[7]通过自然语言处理的方法从临床文本中对癌症的临床表现进行了抽取,MarcosMartínez-RomeroRoberto等[8]使用网络刮擦和自然语言处理技术的组合,从MedlinePlus有关传染病的文章中提取诊断标准。有些学者提出了基于远程监督的抽取方式,如余小康等提出结合从句级远程监督和半监督集成学习的关系抽取方法,解决了标注数据不足的问题[9]。此外,基于神经网络[10]的知识抽取可以有效提高抽取的效率,如丁禹等人提出了基于注意力的双向长短期记忆网络和条件随机场的深度学习模型,实现了非结构化电网调控文本知识的自动抽取[11]。江川等[12]利用条件随机场和循环神经网络结合的方式,实现了基于BERT的突发公共卫生事件实体的自动抽取模型。郑光敏等[13]基于BERT-BiLSTM-CRF提出一种先抽取关系和后抽取实体自动抽取知识模型,最后通过实验,该模型可高效抽取《中国民族药辞典》中的实体和关系。LejlaBegicFazlic等人[14]通过NLP-FUZZY使用双向长短期记忆(LSTM)执行医学指南的语义提取。PeilinLi[15]等建立了用于NER和MRE任务的双向长短期记忆组合条件随机场(BiLSTM-CRF)模型的两个应用场景,并得出了该模型收敛速度更快,并且避免了诸如过度拟合之类的问题的结论。机器学习和自然语言处理方法在抽取阶段较为节省人力,但是在审查三元组的正确过程中较为费时费力,同时还要根据模型抽取的精度以及效率等问题,不断对模型进行再调整。1.2.2知识图谱现状知识图谱在我国起步较晚,但近年来国内相关的研究也在不断扩宽。如李涛等人[16]通过总结专家学者、科研机构或企业对知识图谱的研究内容,对知识图谱的发展趋势和构建方式作了全方位的详细介绍。黄恒琪等人[17]从本体构建角度出发,对知识图谱构建基础进行研究,并指出了知识图谱未来的发展方向。刘峤等人[18]从知识图谱的定义和技术架构出发,对各个阶段设计到的关键技术进行了分析,并总结了当前知识图谱构建面临的问题和挑战。漆桂林等人[19]通过对现有开放知识数据集的分析,探讨了知识图谱的实际应用及演技意义。知识图谱在国外的研究相对较早,Paulheim[20]对知识图谱的构建方法以及评估方法进行研究。Suchanek[21]等人提出的基于概率的知识融合算法PAIRS,以两个知识库作为输入,能够高效地跨本体同时对齐类别、实例、属性和关系以进行图谱的构建。Chen等人[22]从图谱应用的角度出发,通过训练递归神经网络提高图谱构建的准确性;Drumond等人[23]通过应用两两交互的张量分解模型,对知识图谱中相关知识存在的潜在关系进行了研究。Mavin[24]在现有的知识图谱的基础上,通过分布式框架进行三元组的推理工作以得到新的实体关系,丰富了知识图谱类型。近年来,有关知识图谱的应用场景及领域也在不断扩宽。邢萌[25]等人通过构建面向军事领域的知识图谱,为智能化作战场景中的特殊需求提供了技术支持。刘津[26]等人将知识图谱技术应用于电力领域,证明了知识图谱对于电力系统中智能连接、人机交互等环节有着重要作用。陆泉等人[27]以临床医学专业主干课程为研究对象,基于医学主题词表、电子教材、电子教案等医学教育数据,通过LDA模型挖掘课程中的知识主题,利用关联分析揭示课程间、知识主题间及课程与知识主题间的细粒度关联,从而构建临床医学课程知识主题图谱。吕华揆[28]等人以中国金融数据为基础,从股权结构出发进行金融知识图谱的构建,实现了金融机构持股比例和关系的可视化,为金融工作提供了新的方向。曹明宇[29]等人对成人中常见的原发性肝癌,从医学指南及SemMedDB知识库中抽取其知识三元组,构建了原发性肝癌的知识图谱。Abdelaziz等人[30]在大型的基于相似度的框架上构建知识图谱并挖掘预测药物相互作用;Weng等人[31]提出一种基于语义分析的医学知识图自动构建框架并运用高血压语料构建知识图谱。此外,知识图谱还被广泛应用于机器翻译[32]、智能问答系统[33]以及自然语言理解[34]等方面。1.3研究内容与方法本文的研究内容与方法如下:在数据来源方面,根据相关医生提供的应急医疗手册,选用了气胸这一有应急医疗需求的病情作为本文的研究对象,同时从应急医疗的需求出发,在医生的指导以及建议下,对知识抽取的实体大类进行界定,明确围绕气胸的属性、就诊、流行病学、病理生理、临床表现、诊断依据、治疗措施、预防等方面进行数据的采集工作。在数据的获取阶段,首先着手从《内科学第九版》《黄家驷外科学》《急诊手册第四版》几本医学专业书籍中获取相关的气胸知识,与此同时,采用爬虫技术从寻医问药专业医学网站进行相关知识的获取工作。多数据来源保证了气胸知识的完整性,有利于知识图谱的构建。在知识抽取阶段,采用自然语言处理的方法对实体及实体关系进行抽取,主要分为实体识别、关系抽取以及知识融合几个方面。在实体识别过程中,通过清华大学自然语言处理的社会人文计算实验室推出的THUOCL医学词典以及LTP平台训练的MEMM统计和规则模型完成了分词、词性标注以及实体识别工作。在关系抽取阶段,通过引入哈工大的语言技术平台LTP的自然语言处理模块,并结合python语言完成了构建依存句法树、剪枝、语义角色标注等工作,实现了对谓词及论元的标注以及抽取工作。在知识融合阶段,主要采用了与专家结合的方法,对不同来源下的气胸医学实体类型、属性等进行实体对齐、属性对齐、冲突消解,对知识抽取的谓词进行规范统一。在构建图谱的阶段,将知识抽取获得的实体及实体关系交付医生进行数据的确认,医学知识确认无误后,选用neo4j作为图数据库进行知识图谱的构建,根据图数据库的属性图模式规定的形式对数据进行整理,运用py2neo模块包将实体及关系进行导入处理,通过查询语言Cypher查看图谱的实体节点和实体,并通过搭载服务器的ip地址连接目标Neo4j数据库,进行气胸知识图谱的可视化,建立气胸的应急医疗知识图谱。1.4技术路线本文的技术路线如图1所示。其中包含三个大的阶段,分别为数据获取阶段,知识抽取阶段,气胸医疗图谱建立阶段。图1技术路线2相关理论及技术基础2.1知识图谱知识图谱是一种结构化的语义知识库,基于图的数据结构进行存储,用于描述物理世界中的基本概念及其相互关系。知识图谱由“实体-关系-实体”或“实体-属性-值”的三元组组成,实体间通过关系相互联结,构成网状的语义网络[35],表示为,其中,是知识库中的实体集合,共包含种不同实体,是知识库中的关系集合,共包含种不同关系,属于代表知识库中的三元组集合。知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的过程。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体-关系-实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。医疗知识图谱的构建流程一般包括,医学实体识别、医学关系抽取、知识图谱存储以及可视化等步骤。2.2命名实体识别命名实体识别是指从语料中识别任务需要的人名、地名、组织机构等命名实体,目前命名实体识别主要有三种方法。第一,基于规则和词典的方法。这种方法主要由专业领域的专家人工定义规则,选用包括关键词、指示词、统计信息等的特征,基于模式和字符串相匹配的方法,配合使用现有或专家根据语料构建的词典进行实体的识别。基于规则和词典的方法是命名实体识别中最早使用的方法。通常情况下,当文本的规则性较强,且编制的规则能较为准确地反映语料现状时,该方法是一种简单且有效的实体识别手段。但是,由于目前没有一个词典能够涵盖所有的领域,可能会造成识别效率过低的问题。第二,基于传统机器学习方法。在基于机器学习的方法中,命名实体识别被当作是序列标注问题,其原理是应用统计学并结合医疗文本的特点进行实体识别。基于传统机器学习的方法主要包括隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandomFields,CRF)等。在这四种学习方法中,最大熵模型结构紧凑,当标注的数据越多时效果越好,具有较好的通用性。但是由于数据的标注需要耗费大量有相关专业知识人员的时间和精力,采用这种方法会导致训练时间过长且成本较高。第三,基于深度学习方法。近年来,随着深度学习的不断发展,越来越多的学者尝试将深度学习的方法应用到命名实体的识别中,该技术对专业领域知识和特征工程的依赖程度较小。一方面,基于深度学习的方法可以降低人工标注的成本,另一方面,对命名实体识别的准确率也有较大程度的提升。医疗领域的命名实体识别大多是指从相关医疗数据中提取出特定类型的命名实体,例如疾病名称、疾病症状、临床表现等医学实体,通用领域的命名实体识别方法同样适用于医疗领域。如Friedman等人[36]通过自定义的语法规则对电子病历中的医学实体进行识别,龙光宇[37]将医学词典与CRF相结合,提出了一种新的医学实体识别模型,潘璀然等[38]基于句子级Lattice-长短记忆神经网络对中文电子病历中的命名实体进行识别。2.3关系抽取知识图谱的构建离不开大量的三元组,而三元组的获取除了对命名实体进行识别以外,另一个子任务就是进行实体关系的抽取。关系抽取是知识图谱构建中重要的一步,其目的在于从文本中抽取两个或多个实体之间的关联关系。目前实体关系抽取的方法主要分为三类,其一是基于触发词、字符串或者基于依存句法的模板方法(hand-writtenpatterns),其二是基于机器学习或深度学习的监督学习方法(supervisedmachinelearning),其三基于半监督或无监督学习(semi-supervisedandunsupervised)的方法,主要有Bootstrapping、Distantsupervision、Unsupervisedlearningfromtheweb等算法。医学的关系抽取主要分为两类,一是同类型的医学实体关系抽取,如疾病的“气胸”与“血气胸”是一种基于上下本体的关系,二是不同类型医学实体关系抽取,如“气胸”与“胸闷”是一种疾病与症状的关系。对于同类型的医学实体关系部分,医疗领域对这部分关系有专业的划分,通常可以在由医疗专家编制的ICD-10、SNOMEDCT等权威的医学知识库中获取,对于自动抽取而言技术难度较低,通常不是关系抽取研究的重点内容。对于不同类型的医学实体关系抽取,根据数据来源和数据类型可以分为两类。一种是来源于医疗网站、医疗数据库知识,这类数据大多是半结构化数据,语料中有关于实体和关系的具体定义,即可以通过已有的结构化数据进行转化来获取需要的三元组。另一种是来源于专业医学数据、电子病历等的非结构化数据,通常情况下这些数据中的实体和关系都不是显见的,需要结合实体关系抽取模型进行知识抽取。2.4知识图谱存储知识图谱存储就是要以怎样的方式将知识存储到数据库中,目前常见的存储方式有以下两种。第一种就是基于RDF的存储方式,这种方式主要是通过三元组的形式对数据进行存储,其应用不受领域限制,因此被广泛应用于互联网、金融、生物医药等各个领域。但是,由于这种方式会产生大量的自连接操作,面对量级数据以及复杂关系的知识存储造成了大量和空间浪费,其存储和搜索性能不能满足当前大量数据存储的需求。第二种就是基于图数据库的存储方式,也是目前知识图谱主要的存储方式。图数据库是一种以图结构进行存储和查询的数据库,它应用图形理论存储实体之间的关系信息。图形数据库是一种非关系型数据库,可以更好地解决大数据存储、计算、查询等问题。一方面,采用图或网的方式来表达现实世界的关系很直接、自然,易于建模。另一方面,图数据库提供了针对图检索的查询语言,可以很高效的插入大量数据并查询关联数据。目前通用的图数据库有Neo4j、InfiniteGraph等数据库,而现在用得较多的是Neo4j数据库。3.基于自然语言处理的知识抽取随着大数据时代的到来,海量的文本不断产生,其中非结构化的文本大多由中文自然语言句子或句子集合组成,如何从中抽取有价值的信息成为了当前的研究热点。人工抽取是指按照一定的规则收集相关信息并从中抽取知识的过程,自动抽取是利用统计方法、深度学习等相关技术从相关语料中自动提取相关信息,目前自动抽取成为了大多数学者的研究重点。将自然语言处理技术与专业领域相结合,可以显著提高知识抽取的效率和质量,其核心在于应用自然语言处理的方法从大量文本语料中准确的提取出关键信息,这就涉及到了命名实体识别、关系抽取等自然语言处理技术。本节针对气胸这一应急伤病情,从应急医疗的需求出发,一方面人工从专业医学书籍中获取相关数据,另一方面应用爬虫技术从专业医学网站获取相关的医疗信息,并结合命名实体识别和依存句法分析的相关原理,应用LTP平台提供的自然语言处理模块进行知识抽取。3.1知识抽取要素分析将知识图谱技术运用在医疗领域,可以帮助医生从病患的各项基本体征表现或临床症状入手,通过经验知识初步判断病患的患病状况,尤其是在应急医疗领域,在发生伤病情的第一时间,病患周围可能往往没有医生,那么不具备医疗知识的人就可以通过应急医疗知识图谱对伤病患采取一些最基本的施救,而且就算医生在场,在病患突然发生的地区往往缺乏专业的诊断工具。通过应急医疗知识图谱,将伤病患的大概特征与图谱内的知识进行对比,也可以得到对伤病情的基本判断。然而,现有的医疗知识图谱无法满足应急医疗需求。目前市面上存在的医疗图谱通常存在三种问题,不能为应急医疗领域的研究提供数据方面的支持。第一,早些年的图谱由医生使用人工的方法,手动从文本资料中进行知识抽取,需要花费大量的专家时间和精力,而且随着时间的推移,难以适应新的疾病或临床环境。再者,存储这些数据的介质比较老旧,不再适合现阶段基于数据的再研究,如果强行使用,并且保持数据的互通性,则需要大批量导库,十分繁琐。第二,近些年虽然也有对于医疗方面的知识图谱构建研究,但在构建过程中缺少或者是没有相关医生在旁进行指导,准确性与科学性不能保证。第三目前已有的医疗领域的知识图谱要么力求全面,试图将所有伤病情知识全部囊括,这样做的缺点是大而不精。所以综合来看这两种类型的医疗图谱都不能满足应急医疗的需求,需要另行建立专门服务于应急医疗的知识图谱。本文通过专业医生提供的应急医疗手册,以其中气胸这一应急伤情为例,进行了知识图谱的构建。因为医学知识的复杂性与专业性,本文通过分析ICD-10医学标准数据集,对气胸知识获取的实体进行了规定,主要围绕气胸的属性、流行病学、病理生理、临床表现、诊断依据、治疗措施、预防七大实体进行图谱的构建工作,并在数据整理过程中通过与专家沟通对关系的分类标准进行了界定。此外,因为研究面向应急医疗,因此本文从应急医疗的需求出发,在图谱的建立过程中重点关注临床表现、辅助检查、治疗几个方面的知识。3.2数据来源基于医学知识的专业性,一方面从医生推荐的几本医疗书籍(《内科学第九版》、《黄家驷外科学》、《急诊手册第四版》)进行气胸知识的获取,并初步对所研究气胸这一病情相关知识进行系统性学习,结果发现现有医疗手册上大多为对气胸疾病病因、生理病理等的专业性描述知识,数据类型为非结构化数据。因此,经过与专家的讨论,决定对现有的第三方医疗网站寻医问药上的知识进行爬取,以对气胸数据进行知识补充。本文采用了八爪鱼对寻医问药网站上的数据进行爬取,新建网页采集,并将其名称设置为气胸,对气胸疾病介绍页面内的病因、预防、并发症、症状、检查、诊断鉴别、治疗等进行爬取,对医院医生页面的科室、医院、医生内容进行爬取,获得了带有实体及标签的半结构化数据。3.3知识抽取及三元组融合3.3.1基于词典的实体识别通过对寻医问药网站有关气胸数据的爬取以及《内科学第九版》《黄家驷外科学》等专业医学书籍中有关气胸资料的整理,获得了气胸疾病相关的原始数据。在这些文本中,需要对疾病属性、症状、流行病学、临床表现、并发症、辅助检查等专有名词进行识别。中文分词和词性标注是命名实体识别的基础,即将一段中文通过特定的方法将其切分为单独的词或短语并进行词性标注,对于文本信息分析有重要意义。目前,基于条件随机场(CRF)的分词方法是当前分词的主流,但是这种根据序列标注的分词方法严重依赖语料库,对于特定域的标注,比如本文要研究的气胸医疗领域,则需要人工进行标注,会耗费大量的时间精力。因此本文选用了哈工大社会计算与信息检索研究中心推出的语言技术LTP平台,它提供了一个基于自定义词典的通用领域训练的序列标注模型,可以通过用户自定义词典对特定域的专有名词进行标注。本文基于清华大学自然语言处理的社会人文计算实验室推出的THUOCL医学词典,并与专业医生沟通构建了有关气胸症状、部位等的专业词典,并通过LTP平台训练的MEMM统计和规则模型对文本进行分词、词性标注以及实体识别工作。3.3.2基于语义依存的关系抽取通过文本分词、词性标注以及实体识别等步骤之后,可以得到一系列经过标注的离散的短语,为了得到文本间的语义信息,需要从相关的语料中提取出实体之间的关联关系,通过关联关系将实体联系起来,才能够形成网状的知识结构。因为本文的数据来源分为两个方面,数据结构也有所不同。对于在寻医问药网上爬取的半结构化数据,大多是以标签加文本的形式进行表述,对于专业医学书籍的数据,大多为非结构化的描述性数据。在这个基础上,关系的抽取分为两个方面,对于标签信息描述详细的数据,可以通过标签对实体及其描述信息进行提取,比如流行病学中,标签为病因的文本中出现的疾病与该病因的关系就是病因。第二就是通过文本的语义关系确定实体与实体之间的关系。由于语言表达存在句法结构,比如主谓宾、动宾结构、主从句结构等,根据这些结构可以分析出多个词之间的关系。依存句法认为谓语中的动词是一个句子的中心,即在一个句子中,谓词是对主语的陈述或说明,指出“做什么”、“是什么”或“怎么样”,代表了一个事件的核心,其他成分与动词直接或间接地产生联系,跟谓词搭配的词语称为论元。本文基于文本的语义依存关系进行实体的关系抽取,其主要分为两个部分,第一是通过依存句法分析定位到文本中的谓词并研究句子中各成分与谓词之间的关系,第二是通过语义角色标注来描述这种关系。本文通过引入LTP平台提供的依存句法分析和语义角色标注模块,其中,依存句法分析模型提供了主谓、动宾、定中等14种依存句法关系结构,详见附录1,语义角色标注模型提供了23种语义角色类型,本文主要对A0-4五种语义角色进行标注,A0通常表示动作的施事,A1通常表示动作的受事等,A2-4根据谓语动词不同会有不同的语义角色类型,比如客体、方式、状态等。LTP平台提供的自然语言处理模型可实现对句子中依存关系和语义角色的自动化标记,其主要流程如下:(1)构建一颗依存句法树,对文本中元素的依存关系进行分析。对于给定的句子“气胸的典型症状为突发性的胸痛,继之有胸闷和呼吸困难,并可有刺激性的咳嗽。”,下文记为s,其中每个元素间都存在依存关系,通过对文本的依存句法分析可得到一颗依存句法树,如图2所示。从分析结果中可以看出,每个短语之间都存在句法关系,其中主谓、动宾、并列等关系是文本关系抽取的关键。图2依存句法树(2)从依存句法树上识别出谓词的候选论元并进行剪枝。一个句子中的候选论元可能很多,候选论元剪除就是从大量的候选项中剪除那些最不可能成为论元的候选项。以文本s为例,句子的核心谓词是“为”以及两个并列结构关系的“有”。对于和谓词有直接关系的论元,如“症状”与“为”之间是主谓关系,“胸痛”与“为”之间是动宾关系,这些论元对文本的表达起了重要性作用,因此予以保留并记为主论元,对于与谓词之间有状中等其他无关的论元,如“继之”“并可”进行剪枝。对于和谓词无直接关系的论元,则分析其与主论元之间的关系,如“气胸”和“典型”是“症状”这一主论元的修饰语,“突发性”是胸痛的修饰语,进行保留,其余则进行剪枝操作。(3)通过语义角色标注为谓词的论元进行标注。具体而言,对于给定的句子,语义角色标注对剪枝操作完成后的论元进行相应的语义角色标注。在句子s中,存在“为”“有”“有”三个谓词,对于“为”而言,“症状”和“胸痛”分别标记为谓词的施事和受事,由于在剪枝过程中没有对主论元的修饰词进行剪枝,因此可得到“气胸的典型症状”—“为”—“突发性的胸痛”、“气胸的典型症状”—“有”—“胸痛和呼吸苦难”、“气胸的典型症状”—“有”—“刺激性的咳嗽”的关系,如图3所示。图3语义角色标注3.3.3知识融合知识融合包括实体对齐、属性对齐、冲突消解、规范化等,是知识图谱构建过程中的又一大难点。一方面,由于本文的数据来源两个不同的数据源,因此对气胸相关知识的描述存在一定的差异性。另一方面,由于医学文本有着独特的表述方式,通过自然语言处理的方式抽取的知识形式并不是十分标准,比如对于“疾病”—“症状”这个关系,由于谓词的表述方式不一样,既会带来不必要的冗余,也增加了理解的复杂性。因此,本文的知识融合主要分为了两个方面。一方面对不同来源下的医学实体概念、实体类型、实体属性等在同一规范下进行数据的整合、消歧和合并统一。另一方面针对实体关系进行规范,通过对提取出的谓词进行分析比较并将其分类,然后根据利于理解的专有名词对谓词的表述方式进行规范统一,并将其作为实体关系的类型。由于气胸领域的专业性,本文通过与专家沟通的形式,整理出了一套规范化的抽取规则,并通过人工的方式按照抽取规则进行了数据的消歧合并工作。首先,对气胸的实体大类以及具体的实体类型进行了划分,分别从属性、流行病学、病理生理、临床表现、诊断依据、治疗措施、预防七个大类进行定义,在确定实体类型的基础上,为了使知识图谱呈现的内容更加精准,本研究将实体大类划分为更加具体的实体类型,如将诊断依据大类划分为实验室检查、影像学检查、体格检查、其他辅助检查、病史几个实体类型,增加了知识图谱的精确性,其详细结果如表1所示。 表1实体及实体类型 实体大类实体类型举例属性伤病大类名称气胸伤病英文名称PneumothoraxICD-10J93.901定义胸部积气二级伤病名称自发性气胸三级伤病名称闭合性气胸医院北医三院科室胸外科流行病学易感人群男性易感年龄20-40岁病理生理风险因素胸部损伤好发部位胸膜腔临床表现症状呼吸困难体征叩诊鼓音鉴别诊断哮喘并发症脓胸诊断依据实验室检查肺功能检查影像学检查X线检查体格检查胸内压测定其他辅助检查胸腔镜检查病史肺大疱治疗措施急救措施清创术基础治疗充分休息药物治疗镇静镇痛药手术治疗胸腔镜手术其他疗法支气管内封堵术预后表现复查以评估疗效预防预防避免剧烈活动根据图数据库存储的需求,在知识图谱构建的过程中,节点为对应的医疗实体,标签为实体的类型,关系即实体间的关系描述。因此,除了需要明确实体所属的类型,还要明确实体之间的关系类型,本研究确定了实体间的关系,如表2所示。表2实体关系类型定义源节点(示例)源节点类型目标节点(示例)目标节点类型关系类型自发性气胸二级伤病名称气胸伤病大类名称属于闭合性气胸三级伤病名称自发性气胸二级伤病名称属于气胸伤病大类名称胸外科科室就诊胸外科科室中国人民解放军总医院第一医学中心医院推荐胸膜腔好发部位气胸伤病大类名称部位机械通气压力风险因素气胸伤病大类名称导致胸骨后疼痛症状张力性气胸三级伤病名称症状叩诊鼓音体征开放型气胸三级伤病名称体征气胸伤病大类名称哮喘鉴别诊断鉴别诊断气胸伤病大类名称皮下气肿并发症引发气胸伤病大类名称肺大疱病史检查气胸伤病大类名称肺功能检查其他辅助检查检查气胸伤病大类名称开胸手术手术疗法治疗气胸伤病大类名称阿拉坦五味丸药物治疗用药4基于图数据库的的知识图谱存储知识图谱是2012年由谷歌首次提出,是把语义网的知识库形象化的表示出来,它吸收了语义网、本体在知识组织和表达方面的理念,使得知识在计算机之间和计算机与人之间交换、流通和加工。医学知识图谱是实现智能诊断的基石,能带来更高效精准的医疗服务。构建可视化的知识图谱可使得知识更加直观的展示,能够帮助医生作出更加精确的诊断,同时也能够帮助病人合理的控制病情。通过命名实体识别、关系抽取两个子任务,当前我们已经获得了气胸医学实体与实体间的关系,关系中包含着大量的医学信息,例如临床表现与疾病间的关系,可辅助医务人员可根据病人的临床表现推断疾病,本文采用了Neo4j图数据库构建气胸知识图谱,并将之前抽取的气胸医学实体和气胸实体间的关系批量导入到图数据库中,实现气胸知识图谱的构建。4.1Neo4j图数据库介绍Neo4j是一款基于Java的可视化良好的开源NoSLQ非关系型数据库,同时支持Ruby和Python编程语言,它可以通过高速便利工具快速检索数据,效率非常高,且使用Cypher语言,可以使数据的展示效果更加直观。Neo4j是一种以图数据结构的形式来存储和查询数据的数据库,不同于关系数据库将数据存储在表中,它将数据存储在网络中。存储结构为图形结构,由节点、关系和属性组成,以实体表示节点,实体间的关系表示链接节点的有向边,属性为节点和关系提供具体信息。每个节点可拥有一个或多个关系和属性,多个节点可以有相同关系。每个节点有一个或多个标签,用于对节点进行分组,多个节点可以有相同的标签。Neo4j通过节点之间的关系发现数据间隐含的更多关系,具有可视化效果好、存储效率高和数据遍历速度快等优势。近年来,Neo4j图数据库近年来被广泛应用于金融、医药等领域,受到了越来越多学者的关注。因此,本文中使用Neo4j图数据库进行气胸医疗知识的存储及可视化。4.2属性图模型知识图谱的表示方法和存储方式是多样性的,需要根据自己知识图谱的特点,以及其应用的场景来选择存储方式和表示方法。在本文中由于各实体之间存在大量的关系,且需要频繁的查询和访问知识图谱实体和关系,所以本文采用基于属性图模型的Neo4j图数据库。在属性图中存在节点、边、属性、标签几个特征。节点(Nodes)是图中的实体,用表示其类型的0到多个文本标签进行标记,相当于实体。边(Edges)是节点之间的定向链接,也称为关系。其中对应的“fromnode”称为源节点,“tonode”称为目标节点。边是定向的且每条边都有一个类型,它们可以在任何方向上导航和查询,相当于实体之间的关系。属性(Properties)是一个键值对,顶点和边都具有属性。在气胸知识图谱中,节点为对应的医疗实体,标签为实体的类别,即伤病名称、症状、体征、检查、并发症等,属性为实体的医学描述信息,关系为实体间的关系。4.2知识图谱构建4.2.1实体及关系库构建通过命名实体识别和关系抽取两项子任务,可以获取气胸相关的医疗实体及关系的三元组结构。因为本文选用了属性图的模式对知识图谱进行存储,因此需要将数据按照实体和关系分别整理成相关的csv格式的文件进行保存。实体库如表3所示,下图展示了气胸的伤病分类实体,表中第一列为实体名称,第二列为实体类型,实体共967个。表3部分实体库实体名称实体类型气胸伤病大类名称自发性气胸二级伤病名称外伤性气胸二级伤病名称医源性气胸二级伤病名称月经性气胸二级伤病名称妊娠合并气胸二级伤病名称老年人自发性气胸二级伤病名称高压型气胸二级伤病名称原发性自发性气胸三级伤病名称继发性自发性气胸三级伤病名称闭合性气胸三级伤病名称开放性气胸三级伤病名称张力性气胸三级伤病名称关系库如表4所示,下表展示了疾病-并发症的关系,包含相关的疾病名称和类型,以及对应的并发症名称和类型,及其两者之间的关系类型,共包括1024条关系。表4部分关系库源节点源节点类型目标节点目标节点类型关系类型肋骨骨折并发症闭合性气胸三级伤病名称引发感染性休克并发症开放性气胸三级伤病名称引发胸腔积液并发症开放性气胸三级伤病名称引发脓气胸并发症开放性气胸三级伤病名称引发血气胸并发症开放性气胸三级伤病名称引发慢性气胸并发症开放性气胸三级伤病名称引发纵膈气肿并发症张力性气胸三级伤病名称引发呼吸衰竭并发症张力性气胸三级伤病名称引发循环衰竭并发症张力性气胸三级伤病名称引发心力衰竭并发症张力性气胸三级伤病名称引发皮下气肿并发症张力性气胸三级伤病名称引发4.2.2知识图谱构建知识图谱构建的过程主要是将实体表及关系表中各实体节点以及实体关系导入Neo4j数据库的过程。首先在Neo4j本地数据库下新建文件夹Project,用以存放知识图谱构建的主代码build.py以及数据源实体库、关系库两个csv文件,以下是构建知识图谱的具体流程。首先定义一个用来创建实体的函数defCreat(self),并根据实体库对应的属性列表,对实体名称NAMELIST、实体标签LABELLIST等属性进行定义。其次定义一个用来创建关系的函数defCreat_relation(self),根据关系库对应的关系列表,对头实体列表RESOURCE_LIST、头实体所属类别列表RESOURCE_LIST_LABEL、尾实体列表TARGET_LIST、尾实体所属类别列表TARGET_LIST_LABEl、对应关系类别列表RELATION_NAME_LIST等进行定义。在实体及关系导入过程中,引入Python的pandas库,使用pd.read_csv()的方法读取实体表及关系表中的数据,并将其转化为统一的DataFrame数据格式。在实体表导入过程中,定义一个for循环语句,遍历实体库中每一行的所有属性进行节点的导入。在关系表语句中,同样定义一个for循环语句,遍历关系表中的每一行关系,并通过querymatch查询匹配语句对实体之间的关系进行导入创建。4.2.3知识图数据库展示最终的气胸知识图谱存储在Neo4J图数据中,一个节点表示一个实体,实体与实体间的关系根据边来连接。启动Neo4j图数据库,并通过搭载服务器的ip地址连接目标Neo4j数据库,如下为气胸知识图谱在Neo4J中的存储方式和展现形式。如图4所示,显示了知识图谱中并发症相关的实体,该示例只包含实体,不包含实体与实体之间的关系。
图4实体节点实例如图5所示,展示了与张力性气胸疾病实体相关联的症状、治疗、并发症、鉴别诊断相关的实体。图5单个气胸疾病节点与相关实体示例如图6所示,展示了多个气胸疾病节点和相关节点的关系图。如有些症状属于气胸大类,有些症状与多个气胸相关类型疾病有关联。图6多个气胸疾病节点与相关实体示例如图7所示,展示了完整气胸医学知识图谱实体和关系的部分截图。图7完整气胸知识图谱部分示例5.结论本文以基于应急医疗应用的医学知识图谱为研究背景,主要针对气胸这一应急伤情对知识抽取及图谱构建进行了研究。首先,本文介绍了知识图谱和医疗知识图谱的发展背景和意义,并详细分析了知识抽取和知识图谱构建过程的相关技术和方法。其次,本文根据气胸这一研究对象的基本背景,从应急医疗的角度出发,从多元渠道进行了数据获取工作。在实体识别阶段,本文引入LTP平台训练的MEMM统计和规则模型,并通过构建气胸相关实体的词典进行了医疗实体的识别工作。在关系抽取方面,采用了基于依存句法和语义角色标注的模型,通过分析文本中短语的语义及角色关系,并结合python语言完成了构建依存句法树、剪枝、语义角色标注等工作,实现了对谓词(关系)及论元(实体)的标注以及抽取工作。在知识融合阶段,主要采用了与专家结合的方法,制定了一套实体类型以及实体关系的规则,并依据这套规则对不同来源下的气胸医学实体类型、属性等进行实体对齐、属性对齐、冲突消解,对知识抽取的谓词进行规范统一。在构建图谱的阶段,将知识抽取获得的实体及实体关系交付医生进行数据的确认,并选用Neo4j作为图数据库进行知识图谱的构建,并对该知识图谱进行了分析。目前,气胸的知识图谱已经构建完毕并实现了可视化。由于气胸知识图谱的构建需要较强的专业知识,在实体识别词典的构建以及知识融合方面耗费了大量的时间。对于未来的研究,一方面可以从知识抽取角度出发,训练相关模型提高知识自动抽取的效率,另一方面可以从现有的气胸知识图谱出发,以图数据库中的数据为基础构建相关的气胸智能诊疗问答系统,增加对气胸知识图谱的应用,将气胸知识图谱更好地结合当前应急医疗的需求。参考文献AMITS.IntroducingtheKnowledgeGraph[EB/OL].[2012-05-16].https://www.blog.google/products/search/introducing-knowledge-graph-things-not/FriedmanC,AldersonPO,AustinJH,etal.Ageneralnatural-languagetextprocessorforclinicalradiology[J].JournaloftheAmericanMedicalInformaticsAssociation,1994,1(2):161-174.郑梦悦,秦春秀,马续补.面向中文科技文献非结构化摘要的知识元表示与抽取研究——基于知识元本体理论[J].情报理论与实践,2020,43(02):157-163.张志申,王会勇,张晓明,艾青,孟明明.基于本体和语义距离的DBpedia领域知识抽取方法[J].现代电子技术,2018,41(13):128-132+137.GoswamiR,ShahV,ShahN,etal.OntologicalApproachforKnowledgeExtractionfromClinicalDocuments[C]//2019IEEEInternationalConferenceonBioinformaticsandBiomedicine(BIBM).IEEE,2019:1487-1491.XuJ,YaoL,LiL,etal.Argumentationbasedreinforcementlearningformeta-knowledgeextraction[J].InformationSciences,2020,506:258-272.李涛,郭渊博,琚安康.融合对抗主动学习的网络安全知识三元组抽取[J].通信学报,2020,41(10):80-91.SavovaGK,DanciuI,AlamudunF,etal.Useofnaturallanguageprocessingtoextractclinicalcancerphenotypesfromelectronicmedicalrecords[J].Cancerresearch,2019,79(21):5463-5470.Rodríguez-GonzálezA,Martínez-RomeroM,CostumeroR,etal.Diagnosticknowledgeextractionfrommedlineplus:anapplicationforinfectiousdiseases[C]//9thInternationalConferenceonPracticalApplicationsofComputationalBiologyandBioinformatics.Springer,Cham,2015:79-87.余小康,陈岭,郭敬,等.结合从句级远程监督与半监督集成学习的关系抽取方法[J].模式识别与人工智能,2017,30(1):54-63.DOI:10.16451/j.cnki.issn1003-6059.201701006.LAMPLEG,BALLESTEROSM,SUBRAMANIANS,etal.Neuralarchitecturesfornamedentityrecognition[C]//Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.SanDiego:AssociationforComputationalLinguistics,2016:260–270.DOI:10.18653/v1/N16-1030.丁禹,尚学伟,米为民.基于深度学习的电网调控文本知识抽取方法[J].电力系统自动化,2020,44(24):161-168.江川,王东波.基于BERT的突发公共卫生重大传染病事件实体知识自动抽取研究[J].科技情报研究,2021,3(02):23-35.郑光敏,易天源,唐东昕,贺松.基于BERT-BiLSTM-CRF模型的中国民族药知识抽取[J/OL].武汉大学学报(理学版):1-10[2021-03-26]./10.14188/j.1671-8836.2020.0225.FazlicLB,HallawaA,SchmeinkA,etal.AnovelNLP-FUZZYsystemprototypeforinformationextractionfrommedicalguidelines[C]//201942ndInternationalConventiononInformationandCommunicationTechnology,ElectronicsandMicroelectronics(MIPRO).IEEE,2019:1025-1030.LiP,YuanZ,TuW,etal.Medicalknowledgeextractionandanalysisfromelectronicmedicalrecordsusingdeeplearning[J].ChineseMedicalSciencesJournal,2019,34(2):133-139.李涛,王次臣,李华康.知识图谱的发展与构建[J].南京理工大学学报,2017,41(01):22-34.黄恒琪,于娟,廖晓,席运江.知识图谱研究综述[J].计算机系统应用,2019,28(06):1-12.刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(03):582-600.漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(01):4-25.PaulheimH.Knowledgegraphrefinement:Asurveyofapproachesandevaluationmethods[J].Semanticweb,2017,8(3):489-508.SuchanekFM,AbiteboulS,SenellartP.PARIS:probabilisticalignmentofrelations,instances,andschema[J].ProceedingsoftheVLDBEndowment,2011,5(3):157168.ChenS,WenJ,ZhangR.GRU-RNNBasedQuestionAnsweringOverKnowledgeBase[M].KnowledgeGraphandSemanticComputing:Semantic,Knowledge,andLinkedBigData.SpringerSingapore,2016:80-91.DrumondL,RendleS,Schmidt-ThiemeL.PredictingRDFTriplesinIncompleteKnowledgeBaseswithTensorFactorization[C]//ACMSymposiumonAppliedComputing.ACM,2012:326-331.OrenE,KotoulasS,AnadiotisG,etal.Marvin:DistributedReasoningoverLarge-scaleSemanticWebData[J].JournalofWebSemantics,2009:305-316.邢萌,杨朝红,毕建权.军事领域知识图谱的构建及应用[J].指挥控制与仿真,2020,42(04):1-7.刘津,杜宁,徐菁,刘雪莹,宋钰龙,邱丽萍,赵杨奥,孙梦园.知识图谱在电力领域的应用与研究[J].电力信息与通信技术,2020,18(01):60-66.陆泉,谢祎玉,陈静,张涵,崔浩冉,聂书源.临床医学课程知识主题图谱构建研究[J].图书情报工作,2019,63(09):101-108.吕华揆,洪亮,马费成.金融股权知识图谱构建与应用[J].数据分析与知识发现,2020,4(05):27-37.曹明宇,李青青,杨志豪,王磊,张音,林鸿飞,王健.基于知识图谱的原发性肝癌知识问答系统[J].中文信息学报,2019,33(06):88-93.AbdelazizI,FokoueA,Hassanzadeh0,etal.Large-scalestructuralandtextualsimilarity-basedminingofknowledgegraphtopredictdrug-drugin-teractions[J].WebSemanticsScienceServicesamp;AgentsontheWorldWideWeb,2017.YuT,LiJ,YuQ,etal.KnowledgegraphforTCMhealthpreservation:Design,construction,andapplications[J].ArtificialIntelligenceinMedicine,2017,77(Mar.):48-52.SimmonsRF.TechnologiesforMachineTranslation[J].FutureGenerationComputerSystems,1986,2(2):83-94.SimmonsRF.NaturalLanguageQuestionAnsweringSystems:1969[J].CommunicationsoftheACM,1970,13(1):15-30.YuYH,SimmonsRF.TrulyParallelUnderstandingofText[C]//NationalConferenceonArtificialIntelligence,July29-August3,1990,Boston,Massachusetts,USA.1990:996-1001.SowaJF.PrinciplesofSemanticNetworks:ExplorationintheRepresentationofKnowledge[J].FrameProbleminArtificialIntelligence,1991(2-3):135–157.FriedmanC,AldersonPO,AustinJH,etal.Ageneralnatural-languagetextprocessorforclinicalradiology[J].JournaloftheAmericanMedicalInformaticsAssociation,1994,1(2):161-174.龙光宇,徐云.CRF与词典相结合的疾病命名实体识别[J].微型机与应用,2017,36(21):51-53.潘璀然,王青华,汤步洲,姜磊,黄勋,王理.基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别[J].第二军医大学学报,2019,40(05):497-506.附录附录1依存句法关系类型关系类型TagDescription关系类型TagDescription主谓关系SBVsubject-verb状中结构ADVadverbial动宾关系VOB直接宾语,verb-object动补结构CMPcomplement间宾关系IOB间接宾语,indirect-object并列关系COOcoordinate前置宾语FOB前置宾语,fronting-object介宾关系POBpreposition-object兼语DBLdouble左附加关系LADleftadjunct定中关系ATTattribute右附加关系RADrightadjunct独立结构ISindependentstructure核心关系HEDhead附录2部分代码示例frompy2neoimportGraph,Node,RelationshipimportpandasaspdclassBuildGragh(object):def__init__(self):try:self.g=Graph(host="",#neo4j搭载服务器的ip地址,ifconfig可获取到http_port=7474,#neo4j服务器监听的端口号
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全球房地产市场动态试题及答案
- 精确定位营养师资格试题及答案
- 演出经纪人资格证针对性试题及答案
- 营养师资格证考试特色试题汇编
- 2025导游证资格考试文化常识试题及答案
- 2024年营养师资格证易错试题与答案解析
- 营养师考试实战经验及试题答案
- 2024年常见饮食误区试题及答案
- 2024营养师考试体验题及答案
- 演出经纪人资格证多层次解析
- 2025年合肥公交集团有限公司驾驶员招聘180人预笔试参考题库附带答案详解
- 2025年苏州市职业大学单招职业适应性测试题库完美版
- PLC应用技术课件 任务6. S7-1200 PLC控制电动机正反转
- 华能武汉发电限责任公司2025年度应届毕业生招聘高频重点模拟试卷提升(共500题附带答案详解)
- (二模)2025年宝鸡市高考模拟检测试题(二)物理试卷(含答案)
- 营销管理实践总结报告
- 基地种植合作合同范本
- 露天煤矿安全生产技术露天煤矿安全管理培训
- 2025年安徽警官职业学院单招职业倾向性测试题库标准卷
- 2025年浙江宁波市江北区民政局招聘编外工作人员1人历年高频重点模拟试卷提升(共500题附带答案详解)
- YB-T 6121-2023 钢的晶间氧化深度测定方法
评论
0/150
提交评论