基于术语图谱的临床大数据清洗_第1页
基于术语图谱的临床大数据清洗_第2页
基于术语图谱的临床大数据清洗_第3页
基于术语图谱的临床大数据清洗_第4页
基于术语图谱的临床大数据清洗_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于术语图谱的临床大数据清洗技术创新,变革未来目录 / CONTENTS大数据价值链与临床大数据挖掘流程数据清洗流程与术语图谱的作用人机协同的、基于规范的、包含常用术语的、基 于本体的术语图谱的构建工具与算法支撑大数据价值链1.数据获取2.数据清洗3. 数据筛选和可达5. 应用设计与开发4. 方法与算法02030405010. 业务系统 数据(录入)00. 测试临床大数据挖掘具体工作数据获取医院CDR ( 各类影像和检查报告) / 分院专科医联体/ 多中心 ( 基于区块链)区域医联体 ( 政府)随访。数据清洗与转 换内容抽取 ( X S LT )自然语言结构化正则表示数据映射数据归一化数据筛选

2、和查 看病人筛选( 基于疾病/ 检查/ 手术)搜索/ 语义搜索/ 抽屉式搜索病人详细筛选队列构建方法与算法P S M , C o x , L i n e a r Re g r e s s i o n深度学习、决策树、影像识别应用科研人工智能: 辅助影像诊断/ 决策支持辅助工作数据模型高效数据存储临床真实世界研究1.0手动作业进阶2.0医院或区域健康平台中采集数据并 自动清洗临床科研中心(Research data repository )科研数据治理 (流程管理!人员管理!规范管理!)数据整体诊断数据 检验/检查数据 治疗数据 疗效数据数据质量(可用性)评估数据完整性/一致性代码和名称一致性数

3、据精确性大数据分析与挖掘算法基于深度学习的诊断、 用药预测与生存预测疾病自动分类、致 病相关因素挖掘等大数据平台数据质量问题反馈数据质量问题反馈知识库知识服务语义搜索、智能问答医疗健康知识图谱临床病历库疗效分析/风险预测模型库专病库抽取(二次建库)专病病例确定字段确定与提取文本结构化名称编码队列构建入队列条件控制变量终点事件基于PSM的对照组采样基于倾向性分析的疗效对比基于逻辑回归的显著性分析基于COX的生存分析基于KM的生存分析进阶3.0A从电子病历源头开始临床医生专科电子病历基于CRF表单设计界面前结构化与中结构化 文本结构化 自动编码知识库医疗健康知识图谱医疗术语诊疗路径数据质量控制数据

4、完整性/一致性代码和名称一致性数据精确性随访数据质量反馈 专科病例库搜索语义问答统计与分析队列构建入队列条件控制变量终点事件基于倾向性分析的疗效对比基于PSM的对照组采样基于逻辑回归的显著性分析基于COX的生存分析基于KM的生存分析对于病人来说,专科是否合理?不同专科存储的IT问题基于深度学习的诊断、用药预测与生存预测疾病自动分类、致病相关因素挖掘等基于倾向性分析的疗效对比基于机器学习的智能分诊通过病人信息辅助医生进行诊断大数据分析与挖掘算法进阶3.0B基于区块链的确权与利益共享医院 1医院 n大数据分析与挖掘算法基于深度学习的诊断、用药预测与生存预测疾病自动分类、致病相关因素挖掘等基于倾向性

5、分析的疗效对比基于机器学习的智能分诊通过病人信息辅助医生进行诊断医院 2多中心专科病例库(虚拟/真实)数据上链利益分享链数据上链数据上链基于数据来源的 贡献计算机制清洗和查询中的难点:常用术语的表达多样化症状同义词与上下位关系 (头疼,头有点疼)疾病的同义词与上下位关系 (心衰,慢性心力衰竭,PCI手术后慢性心理衰竭)药品机理与成分 (ACEI 类降压药)一致的记录数编码不在ICD10名称不在ICD10编码和名称不对应70928551343563某医院某科室10年数据 诊断代码和名称一致性检测在心衰病人信息表中,总记录数为16241,而疾病编码和疾病 名称相对应的记录数为709条。数据分布:一

6、致的记录数编码不在ICD10 名称不在ICD10 不对应目录 / CONTENTS大数据价值链与临床大数据挖掘流程数据清洗/筛选/利用要点与术语图谱的作用人机协同的、基于规范的、包含常用术语的、基 于本体的术语图谱的构建工具与算法支撑界面用于输入疾病名称和ICD 编码,为了解决术语不统一问 题,结合术语库中的同义词在 院内CDR中进行抽取病例。例如 “2型糖尿病”,在术语 库中会得到“糖尿病2型”和“型糖尿病”等相关同义词。 基于这些所有同义词抽取符合条件的病人相关信息。病例筛选类CRF表单界面, 定义专病库所需要 的内容,包括人群 特征、检验检查结 果等。专病模型定义数据清洗引擎数据清洗引擎

7、进行专病数据清洗。 可对主诉、五史、检查等自然语 言内容进行结构化。清洗方式,通过多钟不同方式, 不同清洗规则进行组合对不同数 据进行清洗。可监控清洗过程。数据清洗引擎对于自然语言处理引擎,该系统 可对症状体征、疾病、手术、化 学检验、仪器检查、药品使用等 医疗事件进行细粒度的识别。病例筛选抽屉式搜索,如通过年龄、性别 等基本信息、科室、诊断、检验、 检查、用药和手术等进行病例的 筛选,以达到复杂条件下的病例 库筛选数据筛选与转换-队列构建在全院级别、专科、专病级别快 速构造队列选择起点事件和终点 事件以及事件距离,以此构建患 者的分析队列,进行队列分析。数据应用-图表分析基于病例库的构建结果

8、,可对病 例库进行横断面分析。系统提供 人群分布、并发症分布等预设图 表。为了灵活的进行横断面分析,系 统提供了包括饼图、柱状图、线 形图、地域分布图和热力图的自 定义图表设置功能。数据应用科研挖掘如图是COX生存分析结果,可展示算法 系数及每个分析因素的系数图术语库应用1.病例筛选2.数据归一化3.自然语言处理4.文本质量评估5.语义搜索术语应用数据归一化文本结构化时,使用术语库实现自动标注术语应用文本结构化个人史【出生情况】G2P1(第2次怀孕,生产孩子1个, 人工流产1次),足月顺产,否认窒息史,否认抢 救史,出生体重3150g,身长不详。【喂养史】出生后混合喂养,7月添加辅食。否 认喂

9、养困难史。【窒息史】否认窒息史缺 失个人史(总0.1)SubClassOf出生情况喂养史SubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfP(0.01)xsd:string:1G(0.01)xsd:string:2喂养方式(0.02)xsd:string: hhwy出生体重(0.01)xsd:string: 3150g足月生产(0.02)xsd:string:1出生体长(0.01)xsd:string: null添加辅食时间(0.01)xsd:string: 7th

10、 month窒息史(0.01)xsd:string:0研究结果以某儿科医院的糖尿病个人史为例假定在本实例中其他部分都是完整的,而个人史部分 所占总权重为0.1。则本例的完整率为:临床规定糖尿病个人史中应包含以下实体数据质量评估方法语义完整性评估方法目录 / CONTENTS大数据价值链与临床大数据挖掘流程数据清洗/筛选/利用要点与术语图谱的作用人机协同的、基于规范的、包含常用术语的、基 于本体的术语图谱的构建工具与算法支撑遵循与关联国际主流标准疾病 ICD-11,ICD10症状 ? SNOMED CT (Clinical Finding)检查 ?LOINC药品 RXNORM?ATC遵循国家标准

11、选择简单结合实际业务目前和未来数据情况不給临床医生造成任何不便最大程度减少信息科和医务处工作利用大数据与人工智能自动构建 加上 人工校验形成常用语体系(补充 常用术语+术语关系+使用场景+工具参考实现)结合常用语的术语图谱方构建方法论研发术语关系集研发核心术语集研发同义词集合检验学专家临床术语团队预处理信息团队去重标准化术语化去低质量数据(如检 验指标是人名)分组整理汇总整理2009条指标+标本 数据2030条指标+标本 数据21024条指标+标本 数据专家校验检验术语构建流程2030标本+检验指标1632检验指标12324检验指标同义词检验术语集构建术语库: 区域诊断数据 链接到 ICD10

12、添加层次分 类:ICD10第一层链接 到ICD11术语校验疾病术语构建流程ICD10ICD1120756区域诊断数据(下位词)158924168区域诊断数据(同义词)1291疾病术语集遇到问题:医生校验时希望扩充ICD10的疾病计划解决方案:多轮迭代校验,先将所有申康诊断数据链入ICD10,然 后再对并列的诊断数据进一步划分层次局灶性节段性 肾小球硬化症局灶性节段性 肾小球硬化局灶性节段性 肾小球硬化症局灶性节段性 肾小球硬化新增疾病疾病库建设难点术语融合:ATC + CFDA构建药品术语分类体系:ATC 构建药品术语集:CFDA药品术语构建流程191621药品通用名药品产品名11290731

13、2248药品分类术语内科用药分类:(共6715条)祛瘀剂(药品)【ATC】解表剂(药品)【ATC】祛暑剂(药品)【ATC】泻下剂(药品)【ATC】清热剂(药品)【ATC】安神剂(药品)【ATC】温里剂(药品)【ATC】化痰、止咳、平喘剂(药品)【ATC】开窍剂(药品)【ATC】固涩剂(药品)【ATC】扶正剂(药品)【ATC】止血剂(药品)【ATC】理气剂(药品)【ATC】化浊降脂剂(药品)【ATC】消导剂(药品)【ATC】治风剂(药品)【ATC】祛湿剂(药品)【ATC】条数(579条)(378条)(117条)(72条)(1132条)(318条)(145条)(696条)(78条)(58条)(15

14、73条)(73条)(309条)(142条)(206条)(277条)(559条)药品术语集遇到的问题1、ATC分类编码无法区分中成药和西药解决方案:在原有的ATC编码首位加上相应标识符(西药为X,中成药为Z)2、不同的产品名称,相同的通用名,不同剂型(如注射液和滴眼液)解决方案:根据药物的主要成分进行ATC分类药品术语流程目录 / CONTENTS大数据价值链与临床大数据挖掘流程数据清洗/筛选/利用要点与术语图谱的作用人机协同的、基于规范的、包含常用术语的、基 于本体的术语图谱的构建工具与算法支撑标准指标实测指标(1)实体名称标准化算法医疗数据质量普遍存在“一致性” 问题,具体体现在医疗信息系统

15、异 构性、数据录入不规范等问题。医学检查指标举例:以医学检查 指标为例,同一个指标,在不同医 疗机构、甚至同一个机构内部都有 多种名称。实体名称标准化算法(I)(2)不一致的常见情况格式问题格式问题13-碳呼气试验13-碳 呼气试验别名问题B型钠尿肽脑尿钠肽相关问题血葡萄糖1小时血葡萄糖实体名称标准化算法(II)问题定义所有就诊记录,抽取其中的指标名称、缩写、参考 值、单位等字段。输入输出在指标名称后添加一个“标准化名称” 字段。指标名称缩写参考值单位脑利钠肽BNP0-100Pg/ml指标名称标准化名称缩写参考值单位脑利钠肽B型钠尿肽BNP0-100Pg/ml实体名称标准化算法(III)工作流

16、程实体名称标准化算法(IV)具体例子实体名称标准化算法(V)临床实体间上下位关系的4种类别1、下位词对上位词增加了修饰2、下位词的组成部分是上位词组成部分 的下位词3、下位词对上位词增加了修饰,其组成 部分又是上位词组成部分的下位词4、判断上下位关系时需要用到同义词推 理同义词和上下位识别算法(I)难点现有基于上下文路径的识别方法依赖于词共现语料,然而现实中的临床实 体对缺乏足够的词共现语料NP0,如NP1、NP2 NP0是NP1和NP2的上位词现有基于分布式表示的识别方法依赖于实体所在的上下文,然而现实中的临床实体缺乏足够的上下文上位词比下位词拥有更广泛的上下文解决思路充分挖掘临床实体的内部构成信息,通过对比两实体的内部构成元素来进 行上下位关系判断同义词和上下位识别算法(II)思路一(知识驱动)知识图谱构建上下位关系同义关系构成元素的细粒度识别构成元素的标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论