版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、面向中文电子病历的NLP关键技术研究2014年4月13日Copyrights 2014 HITAll Rights Reserved蒋志鹏 关毅哈尔滨工业大学计算机学院xyf-电子病历(EMR)医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录2014年4月13日Copyrights 2014HITAll Rights Reserved中文电子病历(CEMR)对患者身体状况的半结构化专业描述2014年4月13日Copyrights 2014HITAll Rights Reserved中文电子病历(CEMR
2、)医疗大数据每天约800份每月约15000份每年约15万份2014年4月13日Copyrights 2014HITAll Rights Reserved中文电子病历(CEMR)2014年4月13日Copyrights 2014HITAll Rights Reserved目前在CEMR方面展开的研究工作CEMR句法树库构建2014年4月13日Copyrights 2014 HITAll Rights Reserved 语法标注规范制定 语法标注结果及分析 高精度词性标注系统语法标注规范制定2014年4月13日Copyrights 2014HITAll Rights Reserved基于PCTB规
3、范进行迭代修订人机互助医生协助一致性评价语法标注规范制定2014年4月13日Copyrights 2014HITAll Rights Reserved规范中一些重要修订 筛选、补充、细化PCTB词性标注规范 例如,“伴有视物模糊”中的“视物” 提出适用于CEMR的术语切分方案 PCTB:“吃饭”不切分,“吃梨”“吃桃”切分 CEMR:“持物”“抗凝”是否切分?以“抗凝”为例:语法标注规范制定2014年4月13日Copyrights 2014HITAll Rights Reserved标注质量控制表1 规范修订前后主要词性歧义项分布表2 前3次迭代分词和词性标注准确率及一致性PCTB词性标注规范
4、面向电子病历的词性标注规范歧义项数量歧义项数量NNVV89NNVV47JJLC72NNM15MLC64JJNN9NNVA63NNVA9JJNN37NDNN6迭代次数中文分词词性标注A1 F1值(%)A2 F1值(%)IAA(%)A1 Precision(%)A2 Precision(%)IAA(%)196.7692.2796.5396.6888.5389.25295.5196.9497.8997.3697.8195.18398.4996.4798.2597.8097.6095.60语法标注规范制定2014年4月13日Copyrights 2014HITAll Rights Reserved分词
5、、词性标注、句法标注规范语法标注规范制定2014年4月13日Copyrights 2014HITAll Rights Reserved标注结果 138份带有词性、句法标签的电子病历 来自神经内科和普通外科 包括出院小结和首次病程记录语法标注规范制定2014年4月13日Copyrights 2014HITAll Rights ReservedCEMR句法树库构建的主要困难:目前没有任何基于CEMR的标注语料各级标注均需要医生的参与不同医疗机构、不同科室病历差异较大CEMR句法树库构建2014年4月13日Copyrights 2014 HITAll Rights Reserved 语法标注规范制定
6、 语法标注结果分析 高精度词性标注系统语法标注结果分析2014年4月13日Copyrights 2014HITAll Rights ReservedCEMR文本语言的特点:包含大量专业术语(如“共济运动”、 “脑梗死”)、习惯用语(如“伴”、“否认”)及缩略词(如“CT”、“MMR”)常用数字、量词和形容词表示检查结果(如“100/70mmHg”)句子结构不完整,但规律性较强频繁使用并列长句,导致句法结构趋于扁平语法标注结果分析2014年4月13日Copyrights 2014HITAll Rights Reserved通用标注模型效果 词性标注 平均准确率仅为 82.35% Fig.2a 出
7、院小结各部分标注效果 Fig.2b 首次病程记录各部分标注效果 语法标注结果分析2014年4月13日Copyrights 2014HITAll Rights Reserved通用标注模型效果句法分析 F1(auto pos) :53.58% F1(gold pos) :73.19%Fig.3a 出院小结各部分标注效果 Fig.3b 首次病程记录各部分标注效果语法标注结果分析2014年4月13日Copyrights 2014HITAll Rights Reserved实验数据:训练集:56份中文电子病历调试集:14份中文电子病历实验结果:CORPUSPOS(%)PARSE(%)CEMR(grou
8、p)93.5980.68CEMR(all)93.7680.36CEMR(single)93.5380.11PCTB77.6853.58* CEMR(all)85.9468.46CEMR句法树库构建2014年4月13日Copyrights 2014 HITAll Rights Reserved 语法标注规范制定 语法标注结果及分析 高精度词性标注系统系统处理流程2014年4月13日Copyrights 2014HITAll Rights Reserved111中文分词与词性标注的联合模型2014年4月13日Copyrights 2014HITAll Rights Reserved感知器算法输入:
9、训练样本;迭代次数T 初始化:参数向量 训练过程:for t = 1.T, i = 1.n 使用beam search 算法找到当前参数下满足下面条件的标注序列 如果则更新参数向量输出:参数向量基于转移的错误驱动模型2014年4月13日Copyrights 2014HITAll Rights Reserved提出适用于CEMR的转移模板扩展经典的训练算法: 1. 以转换前为当前词的规则 2. 以转换前为条件的规则 3. 以转换后为当前词的规则 4. 以转换后为条件的规则实验结果及分析2014年4月13日Copyrights 2014HITAll Rights Reserved实验数据:训练集:
10、PCTB语料+110份中文电子病历调试集:14份中文电子病历测试集:14份中文电子病历实验结果标注模型分词(F1)词性标注(F1)WI postagger94.39%93.20%词网格模型90.45%89.05%基于字的模型90.15%88.73%管道式模型84.15%82.11%CEMR实体和实体关系语料构建2014年4月13日Copyrights 2014 HITAll Rights Reserved 实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价实体标注语料规模2014年4月13日Copyrights 2014HITAll Rights Reserv
11、edCEMR实体标注语料规模原始语料:2012全年的电子病历,共144230份,来自35个科室,87个子科室已校对语料:3085份中文电子病历,按照上述子科室平均抽取已标注语料:991份中文电子病历,包含为479420个字符,35327个实体实体标注语料科室分布2014年4月13日Copyrights 2014HITAll Rights ReservedCEMR实体标注语料分布CEMR实体和实体关系语料构建2014年4月13日Copyrights 2014 HITAll Rights Reserved 实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价标注语料
12、中实体的统计分析2014年4月13日Copyrights 2014HITAll Rights Reserved对比CEMR和开放领域语料的实体密集度开放领域语料:MET-2中的中文新闻语料,共104个文档CEMR实体和实体关系语料构建2014年4月13日Copyrights 2014 HITAll Rights Reserved 实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价实体标注语料构建团队2014年4月13日Copyrights 2014HITAll Rights Reserved语料构建团队研究室成员:2名博士生,1名硕士生主要负责标注规范初步制定
13、、实体关系标注参与标注的医生:哈医大四院神经内科医生(硕士)哈医大二院呼吸内科医生(博士)主要负责标注规范修订、实体标注和标注人员培训实体标注规范制定2014年4月13日Copyrights 2014HITAll Rights Reserved实体标注规范制定 实体标注培训The realization of Chinese interface for UMLS2022/7/252014年4月13日Copyrights 2014HITAll Rights Reserved实体标注规范制定CEMR实体和实体关系标注规范CEMR实体和实体关系语料构建2014年4月13日Copyrights 201
14、4 HITAll Rights Reserved 实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价The realization of Chinese interface for UMLS2022/7/252014年4月13日Copyrights 2014HITAll Rights Reserved实体标注结果CEMR实体标注样例The realization of Chinese interface for UMLS2022/7/252014年4月13日Copyrights 2014HITAll Rights Reserved实体标注结果CEMR实体关系标
15、注样例实体标注语料一致性评价2014年4月13日Copyrights 2014HITAll Rights Reserved正式标注质量控制实体标注语料一致性评价2014年4月13日Copyrights 2014HITAll Rights Reserved评价标准实体边界匹配实体边界、实体类型匹配实体边界、实体类型、实体修饰类型匹配IAAKappa类型修饰边界+类型+修饰186.7%98.0%95.5%73.6%293.9%97.5%95.7%85.4%394.2%98.4%96.5%86.4%其他研究工作2014年4月13日Copyrights 2014HITAll Rights ReservedCEMRPHKUMLS个性化健康信息抽取个性化健康知识表示个性化健康知识维护已录用文章2014年4月13日Copyrights 2014HITAll Rights ReservedXinbo Lv, Yi Guan, Benyang Deng. Transfer Learning based Clinical Concept Extraction
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024农产品订购合同
- 2024年广西古建施工承揽合同模板
- 2024年人力资源服务保密协议
- 2024年度城市轨道交通安全监控系统合同
- 2024年建筑内架搭建专业承包合同
- 2024年度产品研发与技术服务合同
- 2024不能强迫续订劳动合同
- 2024年度赠与合同
- 2024年废旧物品回收处理协议
- 2024商铺租赁合同适用于各类商业街、购物中心店铺
- 航站楼管理部《机场使用手册》实施细则
- 脑卒中基本知识课件
- 高效沟通与管理技能提升课件
- 消防维保方案 (详细完整版)
- 四年级上册英语课件- M3U1 In the school (Period 3 ) 上海牛津版试用版(共15张PPT)
- 档案馆建设标准
- 高边坡支护专家论证方案(附有大量的图件)
- 苏教版五年级上册数学试题-第一、二单元 测试卷【含答案】
- 人员定位矿用井口唯一性检测系统
- 电力系统数据标记语言E语言格式规范CIME
- 历史纪年与历史年代的计算方法
评论
0/150
提交评论