医学自然语言处理概述课件_第1页
医学自然语言处理概述课件_第2页
医学自然语言处理概述课件_第3页
医学自然语言处理概述课件_第4页
医学自然语言处理概述课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

M

e

d

i

c

a

l

N

a

t

u

r

a

l

L

a

n

g

u

a

g

e

P

r

o

c

e

s

s

i

n

g医学自然语言处理概述MedicalNaturalL1MedicalNaturalL医学自然语言处理的基本任务

目 录 1医学自然语言处理的基本技术2医学自然语言处理的典型问题3我院的实践与总结4医学自然语言处理的基本任务目 录 1医学自然语言处理的基本2医学自然语言处理的基本任务目 录 1医学自然语言处理的基本01医学自然语言处理的基本任务主要用途、基本任务01医学自然语言处理的基本任务301医学自然语言处理的基本任务01医学自然语言处理的基本任务医学自然语言处理的基本任务主要用途病历文本数据挖掘医疗知识库构建病历检索……NLP技术电子病历医学文献临床指南健康档案……结构化、标准化数据分析统计分析机器学习疾病诊断模式药物治疗模式预后评价模式……可分析的医疗数据标准化的电子病历医学知识库整合后的健康档案……临床应用辅助诊疗系统CDSS药物安全性检测医疗政策决策支持相似病历检索应用实践医学自然语言处理的基本任务主要用途NLP技术电子病历结构化、4医学自然语言处理的基本任务主要用途NLP技术电子病历结构化、例:− 可见多发结节影,大小约1

.

1

6

X

0

.

9

8

厘米例:− 在“肌力4+级”中“+”表示“强”“头MRI+MRA示”中“+”表示“和”医学自然语言处理的基本任务例:− 胃胀反酸、泛酸、返酸例:“无意识障碍”− 无

|

意识

|

障碍

|

意识障碍例:“细菌性痢疾”− 细菌

/n

/ng

痢疾

/

n名词名词性语素例:− 可见多发结节影,大小约1

.

1

6

X

0

.

9

8

厘米010603040502语义分析06分词01词性标注02实体识别03实体关系抽取05实体标准化04例:1.16X0.98厘米例:− 在“肌力5例:1.16X0.98厘米例:− 在“肌力02医学自然语言处理的基本技术分词、词性标注、实体识别、实体关系抽取、语义分析02医学自然语言处理的基本技术602医学自然语言处理的基本技术02医学自然语言处理的基本技术医学自然语言处理的基本技术分词分词是将一句话切分成一个个单词的过程分词工具结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件关键技术基于词典的分词方法(机械分词法)按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功逆向最大匹配法正向最大匹配法双向匹配法基于机器学习的分词方法例:−

“无意识障碍” 无意识

|障碍() 无

|

意识障碍(✓)医学自然语言处理的基本技术分词分词是将一句话切分成一个个单词7医学自然语言处理的基本技术分词分词是将一句话切分成一个个单词医学自然语言处理的基本技术设词典中词语长度的最大值为M基于词典的分词方法开始从文档末尾开始扫描,取最末端的M个字符作为匹配字段,查找字典记录分词结果,对剩余的字符串继续重复以上步骤匹配成功是否将字符串长度减少1是剩余字串的长度为零输出例:“南京市长江大桥”1. 设最长词为52. 在词典中匹配“市长江大桥”3. 匹配失败,去掉最前面一个字“市”匹配“长江大桥”,匹配成功在词典中剩余字符“南京市”,匹配成功输出结果:南京市

/

长江大桥医学自然语言处理的基本技术设词典中词语长度的最大值为M基于词8医学自然语言处理的基本技术设词典中词语长度的最大值为M基于词医学自然语言处理的基本技术词性标注在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动词等关键技术基于词典的标注方法先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注基于规则的标注方法① 简单处理,得到初标注结果② 建立转换规则,修正错误③ 得到标注结果例:细菌性痢疾胆囊壁明显增厚细菌

/n

/ng

痢疾

/n胆囊

/n

/ng

明显

/a

/v

/a名词名词性语素例:1.初标注:“他/r做/v了/u一/m个/q报告/v”2.转换规则:激活环境:该词左边第一个紧邻词的词性是量词(q),左边第二个词的词性是数词(m)改写规则:将该词的词性从动词(v)改为名词(n)3.得到标注结果:“他/r做/v了/u一/m个/q报告/n”医学自然语言处理的基本技术词性标注在给定句子中判定每个词的词9医学自然语言处理的基本技术词性标注在给定句子中判定每个词的词医学自然语言处理的基本技术实体识别医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药物、症状、检查、手术操作、器官部位等1组淋巴结、2组淋巴结、3组淋巴结关键技术基于规则的方法正则法例:清扫第1组,2组,3组淋巴结正则表达式:“%

[/d]

+

组淋巴结”基于机器学习的方法词向量表示将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法例:

“乙肝”表示为

[

0

0

0

1

0

0

0

0

0

0

0

0…]

,“肝硬化”表示为

[

0

0

0

0

0

0

0

0

1

0

0

0…]医学自然语言处理的基本技术实体识别1组淋巴结、2组淋巴结、310医学自然语言处理的基本技术实体识别1组淋巴结、2组淋巴结、3医学自然语言处理的基本技术基于机器学习的实体识别方法例:

头颅CT检查显示腔隙性脑梗死1.人工特征标注:头颅CT——检查手段;腔隙性脑梗死——疾病;2.

训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量[000001000000…]—“TES”,[00000000000010…]—“DIS”

3.模型进行训练,训练完成后对测试文本进行识别,得到机器标注结果:<头颅CT

/TES>

平扫见右侧脑室体旁

<腔隙性脑梗死

/DIS

>已标注数据人工特征标注原始文本训练集构建机器学习模型测试集测试的未标注文本输入输出机器标注结果训练特征提取医学自然语言处理的基本技术基于机器学习的实体识别方法例:头11医学自然语言处理的基本技术基于机器学习的实体识别方法例:头医学自然语言处理的基本技术实体标准化医学实体在不同的数据源中存在严重的多元指代问题关键技术基于医学标准术语库匹配的方法医学知识图谱如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高基于机器学习的方法用Word2vec模型对上下文取窗口进行训练,求解最大似然的共现概率。训练完成后,使用向量余弦相似度计算实体相似性。对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。如“首都”和“北京”的语义距离要比“上海”更近医学自然语言处理的基本技术实体标准化12医学自然语言处理的基本技术实体标准化医学自然语言处理的基本技医学自然语言处理的基本技术实体关系抽取发现文本中实体对间的各种语义关系实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关系、基因与疾病的关系等关键技术实体共现法认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么这两个实体相关的可能性很大机器学习方法将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标引语料的基础上构造分类器,再用训练得到的分类器抽取测试文本中的实体关系深度学习例如:−

患者3

天前受凉后出现咳嗽、咳痰−

高血压病史40

年,口服厄贝沙坦控制可诱因医学自然语言处理的基本技术实体关系抽取实体关系可以用于构建知13医学自然语言处理的基本技术实体关系抽取实体关系可以用于构建知医学自然语言处理的基本技术基于深度学习的实体关系抽取输入层编码层卷积层 池化层 输出层(1)输入层:需要判别关系类别的实体文本(2)编码层:预处理,使用Word2vec训练的向量模型表示实体文本对于一句话中每个单词均为

k

维的词向量,因此对于长度为

n的一句话则可用维度为

n*k的矩阵(3)卷积层:设计一个过滤器窗口W,其维度为h∗k,h表示窗口所含的单词个数,不断地滑动该窗口,每次滑动一个位置时,完成非线性激活函数的计算(4)最大池化层:为了得到最大特征,进行max-over-time操作,取出最大值(5)输出层:通过向量映射,得到待预测的类别结果医学自然语言处理的基本技术基于深度学习的实体关系抽取输入层编14医学自然语言处理的基本技术基于深度学习的实体关系抽取输入层编医学自然语言处理的基本技术语义分析在词的层次上,语义分析的基本任务是进行词义消歧在句子层面上是语义角色标注在篇章层面上是指代消歧,也称共指消解基于机器学习的消歧方法有监督:通过建立分类器,根据上下文和标注结果完成分类任务,用划分多义词上下文类别的方法来区分多义词的词义贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型无监督:使用聚类算法对同一个多义词的所有上下文进行等价类划分,在词义识别的时候,将该词的上下文与各个词义对应上下文的等价类进行比较,通过上下文对应的等价类来确定词的词义聚类算法例:病毒(计算机病毒、生物病毒)打球、打电话、打毛衣医学自然语言处理的基本技术语义分析在词的层次上,语义分析的基15医学自然语言处理的基本技术语义分析在词的层次上,语义分析的基医学自然语言处理方法总结基于词典和规则的处理方法词典匹配正则表达式基于统计的处理方法支持向量机(Support

Vector

Machine,SVM)隐马尔可夫(Hidden

Markov

Model,HMM)条件随机场(Conditional

Random

Fields,CRF)长短时记忆网络(Long

Short

Term

Memory,LSTM)卷积神经网络(Convolutional

Neural

Network

,CNN)两者融合的方法医学自然语言处理方法总结基于词典和规则的处理方法16医学自然语言处理方法总结基于词典和规则的处理方法医学自然语言03医学自然语言处理的典型问题03医学自然语言处理的典型问题1703医学自然语言处理的典型问题03医学自然语言处理的典型问题医学自然语言处理的典型问题问题一有瑕疵的或不规范的输入不同的数据来源(如病历、医学论文等)或不同的人员(如科研人员、临床医生、病人等)在表达相同或相似概念时其描述方式多种多样例:−

2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸例:冠心病、冠状动脉粥样硬化性心脏病、CAD上述现象本质上是归属于同一类问题,这类问题在通用领域称为实体对齐、实体标准化医学自然语言处理的典型问题问题一不同的数据来源(如病历、医学18医学自然语言处理的典型问题问题一不同的数据来源(如病历、医学医学自然语言处理的典型问题解决方法采用规则的方法,将实体描述经过一系列规则变换(如,简写转全称)后进行匹配采用机器学习方法,基于向量空间模型将实体表示为词向量再学习向量之间的相似性关系例:冠心病、冠状动脉粥样硬化性心脏病、CAD例:−

2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸冠状动脉粥样硬化性心脏病2型糖尿病冠状动脉支架置入术胃胀反酸医学自然语言处理的典型问题解决方法采用机器学习方法,基于向量19医学自然语言处理的典型问题解决方法采用机器学习方法,基于向量医学自然语言处理的典型问题问题二病历文档经常需要对某些概念进行否定性质的描述,因而要在病历中单纯地依赖文中有没有出现术语作为信息检索的依据并不能取得好的结果解决方法正则表达式实体关系抽取问题判断概念是否具有“否定”的上下文环境例:“否认手术史”、“未触及质硬结节”、“支气管断端未见癌”实体识别确定实体关系共现法寻找距离相近的实体抽取目标实体前后出现的否定词医学自然语言处理的典型问题问题二解决方法判断概念是否具有“否20医学自然语言处理的典型问题问题二解决方法判断概念是否具有“否医学自然语言处理的典型问题◼

问题三医学领域相关实体和实体之间的关系比较复杂,例:蛋白质之间相互作用关系、药物之间相互作用关系、药物疾病对应关系等◼

解决方案建立完备的医学知识库、知识图谱LSTM、CNN等算法,建立学习模型,识别疾病——药物之间的关系相对规范的文本记录(病理报告),可考虑基于规则的方法提取,如正则表达式例:既往史:否认肝炎、肺结核、疟疾病史,高血压10年余,糖尿病7年,口服二甲双胍治疗,血糖控制可,口服硝苯地平,血压维持在130/70mmHg左右属于实体关系抽取的一类典型问题例:送检(右肺中叶结节)淋巴结见转移癌(1/1),送检(第2组、第4组、第7组、第11组)淋巴结未见转移癌(分别为0/1、0/2、0/1、0/1)淋巴结阳性数清扫数第2组01第4组02第7组01第11组01右肺中叶结节11病史病程药物治疗高血压10年硝苯地平糖尿病7年二甲双胍医学自然语言处理的典型问题◼问题三医学领域相关实体和实体之21医学自然语言处理的典型问题◼问题三医学领域相关实体和实体之医学自然语言处理的典型问题◼

问题四电子病历中出现大量长句,需要做语义识别◼

解决方案对于长句语义识别,适合用LSTM网络模型,通过搭建多层复合LSTM网络,将原语料反向输入生成反向LSTM层,与正向LSTM层相结合,加强关键成分与上下文的关联度例:食管胃交界部小弯侧溃疡型中-低分化腺癌,部分为粘液腺癌,肿瘤大小为5x3.5x1.5cm,癌组织侵及胃壁全层,并侵犯神经,检出之上下切缘及送检(食管切缘)均未见癌keyvalue组织学类型腺癌、粘液腺癌分化程度低分化肿瘤大小5x3.5x1.5cm肿瘤部位胃食管结合部胃小弯医学自然语言处理的典型问题◼问题四◼解决方案例:keyv22医学自然语言处理的典型问题◼问题四◼解决方案例:keyv医学自然语言处理的典型问题难点问题相同的医学问题、不同的研究目的,提取规则不一样例:糖尿病提取药物史

——

降压药、降糖药从文本中直接抽取实体即可侵袭性真菌病提取抗菌药物史

——

病前30天内使用抗菌药物、长期(超过2周)使用抗菌药物 不是在文本中直接体现,需要添加复杂的语义分析病历结构化后,抽取出的信息是孤立的,丢失了大量的时间信息和因果逻辑关系例:入院记录会描述患者病情的发展情况,包含了大量时间信息,以及前后、因果逻辑关系缘于2012年4月24日车祸后出现左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,

在当地医院住院手术治疗,

出院后因左腕疼痛辗转于各诊所肌肉注射或静脉滴注各种抗生素(隔2-3天应用3-5天),达3个月;

于2012年8月出现高热,口腔内白斑,体温达40℃,伴发冷,

在某医院诊断为“真菌感染”,

打针治疗后症状无明显好转,

后转至某医院呼吸科,

诊断为“成人Still病”,

接受“氟康唑、免疫球蛋白、甲泼尼龙40mg

1/日”等治疗,体温降至正常,

出院口服“甲泼尼龙6片

1/日,

硫酸羟氯喹0.2g

2/日;

来氟米特

20mg

1/日”

于2013年12月出现左侧髋关节疼痛,

下蹲困难(蹲起时自觉双侧腘窝疼痛),

于某医院行髋关节核磁检查,

示:左侧髋臼信号异常并左侧髋关节腔积液……医学自然语言处理的典型问题难点问题糖尿病提取药物史——降23医学自然语言处理的典型问题难点问题糖尿病提取药物史——降04实践经验总结04实践经验总结2404实践经验总结04实践经验总结24病案纸解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理原始病历——零散的文件存储、纯文本格式、信息不易查询提取清洗治理后的病历——数据库形式存储、半结构化格式、显著提高电子病历利用率患者基本信息患者ID…入院记录现病史个人史家族史主诉既往史婚育史体格检查首次病程记录病例特点诊疗计划拟诊讨论…日常病程记录查房记录…病历数据库存储查询提取统计病案纸解放军总医院电子病历文本结构化进展全院电子病历文本清洗25病案纸解放军总医院电子病历文本结构化进展全院电子病历文本清洗解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理平台界面展示解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理26解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理解解放军总医院电子病历文本结构化进展基于专病的病历文本结构化处理平台不同病种需要提取的医学问题有较大差异,需要个性化定制例:胃癌手术报告需要提取:切除范围、根治度、消化道重建方式等肺癌手术报告需要提取:切口类型、切除部位、是否可见胸腔积液、胸腔粘连等1 建立标准化的语料库2辅助建立专病数据库3 建立专病知识图谱4 数据挖掘、辅助临床科研胃癌手术报告、病理报告、病程记录的结构化处理肺癌手术报告、病理报告、CT报告的结构化处理乳腺癌病理报告、超声报告的结构化处理侵袭性真菌病的入院记录结构化处理解放军总医院电子病历文本结构化进展基于专病的病历文本结构化处27解放军总医院电子病历文本结构化进展基于专病的病历文本结构化处解放军总医院电子病历文本结构化进展病历文本结构化平台AI辅助的可配置规则抽取框架基于深度网络的信息抽取模型医疗文本结构化平台可定制抽取字段、精细化要素提取标准化归一映射、智能化技术框架解放军总医院电子病历文本结构化进展病历文本结构化平台医疗文本28解放军总医院电子病历文本结构化进展病历文本结构化平台医疗文本解放军总医院电子病历文本结构化进展AI辅助的可配置规则抽取框架,高效地应对个性化提取需求AI预处理深度理解医疗文本要素及属性分析定位候选句字段值抽取归一化/标准化字段配置结构化输出字段名值肿瘤部位胃小弯,

胃体组织学类型腺癌分化程度低分化肿瘤大小8x8x1.8cmBorrmann分型局限溃疡型T分期T4a切缘阴性病历文本胃小弯及胃体后壁溃疡型低分化腺癌,肿瘤大小约为8×8×1.8cm。癌组织侵及胃壁全层、神经伴脉管内癌栓,再取上、下切缘及送检(食管下切縁)均未见癌。病历相似句扩展同义要素扩展医生AI辅助AI辅助指导解放军总医院电子病历文本结构化进展AI辅助的可配置规则抽取框29解放军总医院电子病历文本结构化进展AI辅助的可配置规则抽取框解放军总医院电子病历文本结构化进展基于深度网络的信息抽取模型,精准理解病历文本基于序列到序列的深度神经网络模型,不但可以在原文中精确定位结果,还可以对文本进行推理总结结构化输出字段名值肿瘤部位胃小弯,

胃体组织学类型腺癌分化程度低分化肿瘤大小8x8x1.8cmBorrmann分型局限溃疡型T分期T4a切缘阴性病历文本胃

,肿

8 ×

8

×

1

.

8

c

m

癌组织侵及胃壁全层、神经伴脉管

内癌栓

下结果归一切

。拷贝结果拷贝结果解放军总医院电子病历文本结构化进展基于深度网络的信息抽取模型30解放军总医院电子病历文本结构化进展基于深度网络的信息抽取模型总结与展望医学自然语言处理技术的发展水平在词法分析层面,医疗实体识别以及实体关系的抽取技术已经比较成熟,在此基础上可实现电子病历文本数据的特征提取、

病历检索例:检索条件:既往病史中有肺结核的患者特征提取需求:提取肺癌患者的吸烟史、饮酒史等在语义分析层面,NLP技术还无法实现完全理解病历中隐含的知识,难以像医生一样去理解病历例:检索条件:提取长期使用抗菌药物史、化疗后肿瘤尺寸变小的患者——“长期使用抗菌药物”“肿瘤变小”不是在文本中直接体现的,需要通过复杂的语义理解去判断难以利用一种通用模型解决所有的医学问题现阶段医疗文本结构化应用模式,大部分是带着医学问题去抽取知识,很大程度上依赖于医生对医学问题的归纳和总结相同的医学问题,在不同应用场景下,知识抽取模型不同总结与展望医学自然语言处理技术的发展水平31总结与展望医学自然语言处理技术的发展水平总结与展望医学自然语总结与展望自然语言处理未来在医疗行业的应用模式通用化模型与个性化定制相结合的医疗文本结构化工具通用化模型——解决医疗实体识别、实体关系抽取的问题个性化定制——解决特定条件、特定病种的信息抽取问题,辅助临床科研人员、数据分析人员提取文本特征,进行数据挖掘智能化的病历检索系统支持多种形式的高精度检索总结与展望自然语言处理未来在医疗行业的应用模式32总结与展望自然语言处理未来在医疗行业的应用模式总结与展望自然谢谢聆听!谢谢聆听!33谢谢聆听!谢谢聆听!33M

e

d

i

c

a

l

N

a

t

u

r

a

l

L

a

n

g

u

a

g

e

P

r

o

c

e

s

s

i

n

g医学自然语言处理概述MedicalNaturalL34MedicalNaturalL医学自然语言处理的基本任务

目 录 1医学自然语言处理的基本技术2医学自然语言处理的典型问题3我院的实践与总结4医学自然语言处理的基本任务目 录 1医学自然语言处理的基本35医学自然语言处理的基本任务目 录 1医学自然语言处理的基本01医学自然语言处理的基本任务主要用途、基本任务01医学自然语言处理的基本任务3601医学自然语言处理的基本任务01医学自然语言处理的基本任务医学自然语言处理的基本任务主要用途病历文本数据挖掘医疗知识库构建病历检索……NLP技术电子病历医学文献临床指南健康档案……结构化、标准化数据分析统计分析机器学习疾病诊断模式药物治疗模式预后评价模式……可分析的医疗数据标准化的电子病历医学知识库整合后的健康档案……临床应用辅助诊疗系统CDSS药物安全性检测医疗政策决策支持相似病历检索应用实践医学自然语言处理的基本任务主要用途NLP技术电子病历结构化、37医学自然语言处理的基本任务主要用途NLP技术电子病历结构化、例:− 可见多发结节影,大小约1

.

1

6

X

0

.

9

8

厘米例:− 在“肌力4+级”中“+”表示“强”“头MRI+MRA示”中“+”表示“和”医学自然语言处理的基本任务例:− 胃胀反酸、泛酸、返酸例:“无意识障碍”− 无

|

意识

|

障碍

|

意识障碍例:“细菌性痢疾”− 细菌

/n

/ng

痢疾

/

n名词名词性语素例:− 可见多发结节影,大小约1

.

1

6

X

0

.

9

8

厘米010603040502语义分析06分词01词性标注02实体识别03实体关系抽取05实体标准化04例:1.16X0.98厘米例:− 在“肌力38例:1.16X0.98厘米例:− 在“肌力02医学自然语言处理的基本技术分词、词性标注、实体识别、实体关系抽取、语义分析02医学自然语言处理的基本技术3902医学自然语言处理的基本技术02医学自然语言处理的基本技术医学自然语言处理的基本技术分词分词是将一句话切分成一个个单词的过程分词工具结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件关键技术基于词典的分词方法(机械分词法)按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功逆向最大匹配法正向最大匹配法双向匹配法基于机器学习的分词方法例:−

“无意识障碍” 无意识

|障碍() 无

|

意识障碍(✓)医学自然语言处理的基本技术分词分词是将一句话切分成一个个单词40医学自然语言处理的基本技术分词分词是将一句话切分成一个个单词医学自然语言处理的基本技术设词典中词语长度的最大值为M基于词典的分词方法开始从文档末尾开始扫描,取最末端的M个字符作为匹配字段,查找字典记录分词结果,对剩余的字符串继续重复以上步骤匹配成功是否将字符串长度减少1是剩余字串的长度为零输出例:“南京市长江大桥”1. 设最长词为52. 在词典中匹配“市长江大桥”3. 匹配失败,去掉最前面一个字“市”匹配“长江大桥”,匹配成功在词典中剩余字符“南京市”,匹配成功输出结果:南京市

/

长江大桥医学自然语言处理的基本技术设词典中词语长度的最大值为M基于词41医学自然语言处理的基本技术设词典中词语长度的最大值为M基于词医学自然语言处理的基本技术词性标注在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动词等关键技术基于词典的标注方法先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注基于规则的标注方法① 简单处理,得到初标注结果② 建立转换规则,修正错误③ 得到标注结果例:细菌性痢疾胆囊壁明显增厚细菌

/n

/ng

痢疾

/n胆囊

/n

/ng

明显

/a

/v

/a名词名词性语素例:1.初标注:“他/r做/v了/u一/m个/q报告/v”2.转换规则:激活环境:该词左边第一个紧邻词的词性是量词(q),左边第二个词的词性是数词(m)改写规则:将该词的词性从动词(v)改为名词(n)3.得到标注结果:“他/r做/v了/u一/m个/q报告/n”医学自然语言处理的基本技术词性标注在给定句子中判定每个词的词42医学自然语言处理的基本技术词性标注在给定句子中判定每个词的词医学自然语言处理的基本技术实体识别医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药物、症状、检查、手术操作、器官部位等1组淋巴结、2组淋巴结、3组淋巴结关键技术基于规则的方法正则法例:清扫第1组,2组,3组淋巴结正则表达式:“%

[/d]

+

组淋巴结”基于机器学习的方法词向量表示将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法例:

“乙肝”表示为

[

0

0

0

1

0

0

0

0

0

0

0

0…]

,“肝硬化”表示为

[

0

0

0

0

0

0

0

0

1

0

0

0…]医学自然语言处理的基本技术实体识别1组淋巴结、2组淋巴结、343医学自然语言处理的基本技术实体识别1组淋巴结、2组淋巴结、3医学自然语言处理的基本技术基于机器学习的实体识别方法例:

头颅CT检查显示腔隙性脑梗死1.人工特征标注:头颅CT——检查手段;腔隙性脑梗死——疾病;2.

训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量[000001000000…]—“TES”,[00000000000010…]—“DIS”

3.模型进行训练,训练完成后对测试文本进行识别,得到机器标注结果:<头颅CT

/TES>

平扫见右侧脑室体旁

<腔隙性脑梗死

/DIS

>已标注数据人工特征标注原始文本训练集构建机器学习模型测试集测试的未标注文本输入输出机器标注结果训练特征提取医学自然语言处理的基本技术基于机器学习的实体识别方法例:头44医学自然语言处理的基本技术基于机器学习的实体识别方法例:头医学自然语言处理的基本技术实体标准化医学实体在不同的数据源中存在严重的多元指代问题关键技术基于医学标准术语库匹配的方法医学知识图谱如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高基于机器学习的方法用Word2vec模型对上下文取窗口进行训练,求解最大似然的共现概率。训练完成后,使用向量余弦相似度计算实体相似性。对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。如“首都”和“北京”的语义距离要比“上海”更近医学自然语言处理的基本技术实体标准化45医学自然语言处理的基本技术实体标准化医学自然语言处理的基本技医学自然语言处理的基本技术实体关系抽取发现文本中实体对间的各种语义关系实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关系、基因与疾病的关系等关键技术实体共现法认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么这两个实体相关的可能性很大机器学习方法将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标引语料的基础上构造分类器,再用训练得到的分类器抽取测试文本中的实体关系深度学习例如:−

患者3

天前受凉后出现咳嗽、咳痰−

高血压病史40

年,口服厄贝沙坦控制可诱因医学自然语言处理的基本技术实体关系抽取实体关系可以用于构建知46医学自然语言处理的基本技术实体关系抽取实体关系可以用于构建知医学自然语言处理的基本技术基于深度学习的实体关系抽取输入层编码层卷积层 池化层 输出层(1)输入层:需要判别关系类别的实体文本(2)编码层:预处理,使用Word2vec训练的向量模型表示实体文本对于一句话中每个单词均为

k

维的词向量,因此对于长度为

n的一句话则可用维度为

n*k的矩阵(3)卷积层:设计一个过滤器窗口W,其维度为h∗k,h表示窗口所含的单词个数,不断地滑动该窗口,每次滑动一个位置时,完成非线性激活函数的计算(4)最大池化层:为了得到最大特征,进行max-over-time操作,取出最大值(5)输出层:通过向量映射,得到待预测的类别结果医学自然语言处理的基本技术基于深度学习的实体关系抽取输入层编47医学自然语言处理的基本技术基于深度学习的实体关系抽取输入层编医学自然语言处理的基本技术语义分析在词的层次上,语义分析的基本任务是进行词义消歧在句子层面上是语义角色标注在篇章层面上是指代消歧,也称共指消解基于机器学习的消歧方法有监督:通过建立分类器,根据上下文和标注结果完成分类任务,用划分多义词上下文类别的方法来区分多义词的词义贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型无监督:使用聚类算法对同一个多义词的所有上下文进行等价类划分,在词义识别的时候,将该词的上下文与各个词义对应上下文的等价类进行比较,通过上下文对应的等价类来确定词的词义聚类算法例:病毒(计算机病毒、生物病毒)打球、打电话、打毛衣医学自然语言处理的基本技术语义分析在词的层次上,语义分析的基48医学自然语言处理的基本技术语义分析在词的层次上,语义分析的基医学自然语言处理方法总结基于词典和规则的处理方法词典匹配正则表达式基于统计的处理方法支持向量机(Support

Vector

Machine,SVM)隐马尔可夫(Hidden

Markov

Model,HMM)条件随机场(Conditional

Random

Fields,CRF)长短时记忆网络(Long

Short

Term

Memory,LSTM)卷积神经网络(Convolutional

Neural

Network

,CNN)两者融合的方法医学自然语言处理方法总结基于词典和规则的处理方法49医学自然语言处理方法总结基于词典和规则的处理方法医学自然语言03医学自然语言处理的典型问题03医学自然语言处理的典型问题5003医学自然语言处理的典型问题03医学自然语言处理的典型问题医学自然语言处理的典型问题问题一有瑕疵的或不规范的输入不同的数据来源(如病历、医学论文等)或不同的人员(如科研人员、临床医生、病人等)在表达相同或相似概念时其描述方式多种多样例:−

2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸例:冠心病、冠状动脉粥样硬化性心脏病、CAD上述现象本质上是归属于同一类问题,这类问题在通用领域称为实体对齐、实体标准化医学自然语言处理的典型问题问题一不同的数据来源(如病历、医学51医学自然语言处理的典型问题问题一不同的数据来源(如病历、医学医学自然语言处理的典型问题解决方法采用规则的方法,将实体描述经过一系列规则变换(如,简写转全称)后进行匹配采用机器学习方法,基于向量空间模型将实体表示为词向量再学习向量之间的相似性关系例:冠心病、冠状动脉粥样硬化性心脏病、CAD例:−

2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸冠状动脉粥样硬化性心脏病2型糖尿病冠状动脉支架置入术胃胀反酸医学自然语言处理的典型问题解决方法采用机器学习方法,基于向量52医学自然语言处理的典型问题解决方法采用机器学习方法,基于向量医学自然语言处理的典型问题问题二病历文档经常需要对某些概念进行否定性质的描述,因而要在病历中单纯地依赖文中有没有出现术语作为信息检索的依据并不能取得好的结果解决方法正则表达式实体关系抽取问题判断概念是否具有“否定”的上下文环境例:“否认手术史”、“未触及质硬结节”、“支气管断端未见癌”实体识别确定实体关系共现法寻找距离相近的实体抽取目标实体前后出现的否定词医学自然语言处理的典型问题问题二解决方法判断概念是否具有“否53医学自然语言处理的典型问题问题二解决方法判断概念是否具有“否医学自然语言处理的典型问题◼

问题三医学领域相关实体和实体之间的关系比较复杂,例:蛋白质之间相互作用关系、药物之间相互作用关系、药物疾病对应关系等◼

解决方案建立完备的医学知识库、知识图谱LSTM、CNN等算法,建立学习模型,识别疾病——药物之间的关系相对规范的文本记录(病理报告),可考虑基于规则的方法提取,如正则表达式例:既往史:否认肝炎、肺结核、疟疾病史,高血压10年余,糖尿病7年,口服二甲双胍治疗,血糖控制可,口服硝苯地平,血压维持在130/70mmHg左右属于实体关系抽取的一类典型问题例:送检(右肺中叶结节)淋巴结见转移癌(1/1),送检(第2组、第4组、第7组、第11组)淋巴结未见转移癌(分别为0/1、0/2、0/1、0/1)淋巴结阳性数清扫数第2组01第4组02第7组01第11组01右肺中叶结节11病史病程药物治疗高血压10年硝苯地平糖尿病7年二甲双胍医学自然语言处理的典型问题◼问题三医学领域相关实体和实体之54医学自然语言处理的典型问题◼问题三医学领域相关实体和实体之医学自然语言处理的典型问题◼

问题四电子病历中出现大量长句,需要做语义识别◼

解决方案对于长句语义识别,适合用LSTM网络模型,通过搭建多层复合LSTM网络,将原语料反向输入生成反向LSTM层,与正向LSTM层相结合,加强关键成分与上下文的关联度例:食管胃交界部小弯侧溃疡型中-低分化腺癌,部分为粘液腺癌,肿瘤大小为5x3.5x1.5cm,癌组织侵及胃壁全层,并侵犯神经,检出之上下切缘及送检(食管切缘)均未见癌keyvalue组织学类型腺癌、粘液腺癌分化程度低分化肿瘤大小5x3.5x1.5cm肿瘤部位胃食管结合部胃小弯医学自然语言处理的典型问题◼问题四◼解决方案例:keyv55医学自然语言处理的典型问题◼问题四◼解决方案例:keyv医学自然语言处理的典型问题难点问题相同的医学问题、不同的研究目的,提取规则不一样例:糖尿病提取药物史

——

降压药、降糖药从文本中直接抽取实体即可侵袭性真菌病提取抗菌药物史

——

病前30天内使用抗菌药物、长期(超过2周)使用抗菌药物 不是在文本中直接体现,需要添加复杂的语义分析病历结构化后,抽取出的信息是孤立的,丢失了大量的时间信息和因果逻辑关系例:入院记录会描述患者病情的发展情况,包含了大量时间信息,以及前后、因果逻辑关系缘于2012年4月24日车祸后出现左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,

在当地医院住院手术治疗,

出院后因左腕疼痛辗转于各诊所肌肉注射或静脉滴注各种抗生素(隔2-3天应用3-5天),达3个月;

于2012年8月出现高热,口腔内白斑,体温达40℃,伴发冷,

在某医院诊断为“真菌感染”,

打针治疗后症状无明显好转,

后转至某医院呼吸科,

诊断为“成人Still病”,

接受“氟康唑、免疫球蛋白、甲泼尼龙40mg

1/日”等治疗,体温降至正常,

出院口服“甲泼尼龙6片

1/日,

硫酸羟氯喹0.2g

2/日;

来氟米特

20mg

1/日”

于2013年12月出现左侧髋关节疼痛,

下蹲困难(蹲起时自觉双侧腘窝疼痛),

于某医院行髋关节核磁检查,

示:左侧髋臼信号异常并左侧髋关节腔积液……医学自然语言处理的典型问题难点问题糖尿病提取药物史——降56医学自然语言处理的典型问题难点问题糖尿病提取药物史——降04实践经验总结04实践经验总结5704实践经验总结04实践经验总结57病案纸解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理原始病历——零散的文件存储、纯文本格式、信息不易查询提取清洗治理后的病历——数据库形式存储、半结构化格式、显著提高电子病历利用率患者基本信息患者ID…入院记录现病史个人史家族史主诉既往史婚育史体格检查首次病程记录病例特点诊疗计划拟诊讨论…日常病程记录查房记录…病历数据库存储查询提取统计病案纸解放军总医院电子病历文本结构化进展全院电子病历文本清洗58病案纸解放军总医院电子病历文本结构化进展全院电子病历文本清洗解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理平台界面展示解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理59解放军总医院电子病历文本结构化进展全院电子病历文本清洗治理解解放军总医院电子病历文本结构化进展基于专病的病历文本结构化处理平台不同病种需要提取的医学问题有较大差异,需要个性化定制例:胃癌手术报告需要提取:切除

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论