下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于医疗记录的个人健康档案补全方法研究
医疗数据可以有效地描述疾病过程的商业逻辑,但目前缺乏更好的方法来分析医疗数据之间的关系。例如,一名患者在不同的时间段在不同的医疗设施中进行治疗,并且患者的诊断和治疗记录在不同的数据库中。即使同时患者在不同的时间段在相同的医疗设施中接受治疗,患者的治疗记录也会分布在不同的部门和医院的信息系统中。这导致患者的历史医疗信息不完整以及错误的个人健康数据更新。针对这一问题,国内外很多学者都提出了一些方案来解决.文献本文旨在解决病人的历史诊疗信息不完整和个人健康档案数据更新不及时的问题,涉及数值聚类、对象匹配等方面的内容.目前数值聚类方法被广泛应用于各种数据挖掘和数据分析.文献为了实现对象与对象之间的匹配,不少学者做了巨大的努力,当然,对于对象匹配,最常用的就是相似度计算方法.文献但是,上述方法均没有考虑数据缺省的情况,并且在上述的方法中只是识别相同实体的记录,并没有对这些记录进行融合.因此,本文在考虑数据缺省的情况下提出了个人健康档案补全方法,基于数据库中病人的基本信息以及诊疗记录,对相同病人的诊疗记录进行融合.使用数值聚类和对实例类别匹配的方法来识别不同记录中的相同病人,针对特定医院的数据类型进行个人健康档案的补全,补全后实现了病人的诊疗记录的融合,可为今后的个性化治疗等提供帮助.1类别诊疗记录的分类针对目前的业务需求,专门针对医院数据库中病人信息表设计了个人健康档案补全方法.针对医院数据库中有关病人信息的数据库表,个人健康档案补全的方法分为4步,如图1所示.具体步骤如下:(1)第一阶段为数值聚类.即通过分析数据库中的病人的基本信息以及诊疗等信息,提取病人的姓名、年龄、性别、身份证号和疾病特征,使用改进后的K-Means聚类算法将具有类似特征值的诊疗记录归为一类.(2)第二阶段为聚类特征分析.即对于每个类别,使用文档频度的方法分析类别的特征,得出每一个类别所具有的共同特征,比如一些治疗方案等.(3)第三阶段为实例类别匹配.即根据第一阶段得到的聚类分析的结果,对于每一个新的诊疗记录,提取其姓名、年龄、性别、身份证号和疾病特征,然后利用相似度计算的方法,将这个新的诊疗记录匹配到某一个类别中.(4)第四阶段为诊疗记录的补全.即在判定了一条新的诊疗记录属于某一个类别之后,将这个类别所拥有的共同特征赋予这条诊疗记录,比如一些通用的治疗方案可以赋予这个诊疗记录对应的病人,同时,判断记录是否属于同一病人.此时有两种情况:第一种情况,若存在身份证号,相同的身份证号对应的一定是相同的病人;第二种情况,若身份证号信息缺省,则判断对于相同姓名和相同性别的记录,若在同一个聚类中,具有相同的群特征,则可以初步判定这些病人是同一个病人.此时可以进行相同病人诊疗记录的补全.由于每一条诊疗记录被赋予了群特征,这样对于医生而言,就多了一些可供参考的治疗方案,可以让医生知道之前类似的病症有哪些成功治疗的案例,医生就可以参照这些治疗方案对病人进行更加有效的治疗.2健康档案的补充方法2.1多维坐标系法通过分析数据库中数据记录的特点,找出关键属性值,利用关键属性值定义“距离”来衡量两个记录间的接近程度或相似程度,把比较接近的或类似的归为一类,而把不怎么接近或不怎么类似的分在不同的类别中.利用改进的K-Means算法实现数据库中记录的数值聚类.(1)第一步:特征提取.利用特征提取的方法对病人进行聚类,提取病人的姓名、年龄、性别、身份证号和疾病这些属性,用这5种特征来代表一个病人,即S代表一个病人,S(name,age,gender,ID,disease)即代表病人的一条记录,现有数据集S={S(2)第二步:利用多维坐标系表示诊疗记录.建立空间多维坐标系,共5个维度,分别代表5个关键属性,即姓名、年龄、性别、身份证号和疾病.年龄按0~100排列;性别用0和1表示,0表示男性,1表示女性;身份证号取前6位表示;疾病按照类别排列,用数据0~200表示,相似的疾病放到相邻的坐标位置,其值越接近,例如腰椎间盘突出和腰椎病就是类似的病,可以放到相邻的坐标位置.(3)第三步:数据记录之间“距离”的定义.由第一步得到的每条记录有5个属性,给每个属性分配一定比例的权重,姓名属性权重(w其中:|A(4)第四步:利用改进后的K-Means算法进行聚类.传统的K-Means算法简单、快速,并且可以处理大规模的数据,但是K-Means算法的第一步是随机选择K个对象作为聚类中心,这样就容易得到局部最优解,并且这个局部的最优解完全依赖于初始聚类中心的选择.同时,对于不同初始聚类中心的选择会得到不同的聚类结果,算法比较不稳定.所以这里对K-Means算法稍作改进,假设聚类的个数为K个,改进后的K-Means算法伪代码如下所述.改进的K-Means算法改变了传统K-Means算法对初始聚类中心的选择,不是随机选取K个对象作为聚类中心,而是首先选择两个距离最远的对象作为初始的两个聚类中心,接着找到第3个距离这两个对象最远的对象作为第3个聚类中心,依此类推,直到找到K个聚类中心为止.这样的初始聚类中心的选择可以最大程度地保证聚类中心分配的合理性,得到整体最优解.2.2聚类分析方法对于每一个聚类的特征分析方法的实现,利用文档频度的方法统计治疗方案,得出Top3的治疗方案作为聚类的共同特征.文档频度(documentfrequency,DF)方法其中:C为统计的集合;〈TERM2.3建立个新加进来的数据库实例类别匹配利用数值聚类的结果,将一个新的记录匹配到某一个类别中.(1)第一步:一个新加进来的数据库记录,包括了病人的基本信息以及诊疗信息,同样地,抽取病人的姓名、年龄、性别、身份证号和疾病信息,形成一个新的记录.(2)第二步:新记录类别确定.利用式(1)计算这个新记录与各个聚类中心的距离,将该记录分配到与其距离最小的聚类中.2.4相同病人的不同诊疗记录的主键诊疗记录补全阶段则利用实例类别匹配结果,判断同名病人是否为同一个人来补全诊疗记录.这里利用新生成关联表的方法来进行同一个病人的不同诊疗记录的融合.这里给出如下两个定义.定义1对于每一组相同病人的不同诊疗记录,在不同记录中时间属性值最早的那条记录定义为主记录,这条记录的主键定义为主主键.定义2对于每一组相同病人的不同诊疗记录,除了时间属性值最早的那条记录,其余记录均称为从属记录,这些记录的主键均定义为从属主键.(1)第一步:找出相同病人的不同诊疗记录.首先找出所有同名病人的诊疗记录,对于这些同名的病人,若是属于同一个类别中,则可以将其认为是相同的病人;若不属于同一个类别中,则认为是不同的病人.(2)第二步:相同病人诊疗记录的融合.对于在上一步中找到的相同病人的诊疗记录,对于同一个病人,取出其所有的诊疗记录,找到其中的主记录和从属记录、主主键和从属主键,建立主主键和从属主键之间的关联表.3案例分析与讨论3.1聚类中心聚类分析通过分析某医院的真实诊疗数据,对本文提出的个人健康档案补全方法进行了验证.(1)首先分析数据库中的每一张表的含义以及表中每一个属性的含义,得出关于病人信息方面的表有两张,分别是病人的基本信息表和病人的诊疗信息表.在此数据库中体现为两个表,分别是dbo.ab表(病人基本信息表)和dbo.cb表(病人诊疗信息表),如图2和3所示.(2)结合本文所提出的数值聚类的方法,建立空间多维坐标系,接着利用改进的K-Means算法对数据库中500条记录进行聚类,最终聚类的结果为4个类别.这里用传统的K-Means算法和改进后的K-Means算法进行聚类结果的比较.传统的K-Means算法首先选取前4条记录作为初始聚类中心,经过多次迭代,得到4个聚类和每个聚类中的记录.改进后的K-Means算法首先选取距离分别最远的4条记录作为初始聚类中心,这4个初始聚类中心分别为:S两种算法的结果比较如表1所示.由表1可以看出,两种算法的迭代次数都比较多,但是改进后的K-Means聚类算法明显提高了聚类的准确率.(3)对于聚类得到的4个类别,分析类别特征利用上述的文档频度的方法得出每个类别的Top3治疗方案:类别1(Top1:手术,Top2:仪器固定,Top3:长期青霉素注射),类别2(Top1:手术,Top2:射频靶点热凝术,Top3:牵引),类别3(Top1:人工关节置换,Top2:打石膏,Top3:中医刺穴疗法),类别4(Top1:运动疗法,Top2:中医刺穴疗法,Top3:手术).(4)通过之前的聚类和得到的聚类结果,对于新加入数据库的诊疗记录,可以利用式(1)计算该新诊疗记录属于哪一个聚类,并赋予其相应聚类的共同特征.(5)最后,进行诊疗记录补全方法的实现.找出所有诊疗记录中的同名病人,发现有17组同名病人,如图4所示.在这17组同名病人中,有16组均是两条相同姓名的记录,有1组是3条相同姓名的记录,将这17组中的姓名进行标号,姓名从A到Q依次排列,共有17组相同姓名的记录,其中A与A是相同的姓名,B与B是相同的姓名,依此类推.同时,发现这17组记录中,并不是所有的记录均提供身份证号信息,因身份证号信息缺省,无法直接利用身份证号信息识别相同的病人,所以利用上述提出的诊疗信息补全方法进行识别相同病人并补全诊疗信息.找出这17组记录所属的聚类,发现记录A、F、O均属于聚类1,记录C、H、J、M、P、Q均属于聚类2,记录D、E、G、I、L均属于聚类3,记录K、N均属于聚类4.同属于一个聚类,并且姓名相同,可以认为这是同一个人,所以聚类1中的A、F、O分别对应的是同一个人,即两条姓名为A的记录为同一个人的记录,两条姓名为F的记录为同一个人的记录,两条姓名为O的记录为同一个人的记录,其余3个聚类中的记录同理可得.但是还有一个相同姓名的两条记录,即为姓名B,其中一条记录在聚类3中,一条记录在聚类4中,不在同一个聚类中,这样可以认为这两条记录对应的不是同一个人,并且通过验证姓名B的两条诊疗记录的其他信息发现,这两条诊疗记录对应的确实不是同一个人,说明本文的识别方法是有效的.接着利用关联表将对应的同一个人的记录进行融合,即实现相同病人诊疗记录的补全.针对查准率和查全率两项评价指标,分别用本文方法、代码集迁移由表2可以看出,本文提出的方法在查全率和查准率指标上都要高于另外两种方法,说明本文方法比较好.3.2比较与讨论有不少学者针对识别和集成不同数据源的数据做了很多努力.文献由表3可以发现,本文方法具有高可用性、较高查准率与查全率等优点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外科手术前患者护理
- 电子类毕业课程设计
- 电子燃油泵课程设计
- 电子测量实验课程设计
- 装修拆除合同
- 电子杀手的研究报告
- 吞咽患者的循证护理查房
- 电子教学课程设计
- 电子控制技术课程设计
- 电子商务系统课程设计
- 专题05 说明文阅读(必考题型梳理)50题-2023-2024学年八年级语文下学期期中专题复习(上海专用)(原卷版)
- 部编版七年级语文上册第五单元任务一体会人与动物的关系《猫》课件
- 医科大学2024年12月急危重症护理学作业考核试题答卷
- 提高脓毒性休克患者1h集束化措施落实率
- 环保设施运行维护方案
- 2024年贵州省高考生物真题试卷(含答案解析)
- 2024年新版人教精通版三年级英语上册单词带音标
- 辽宁省大连市2023-2024学年高三上学期双基测试(期末考试) 物理 含解析
- 期中测试卷-2024-2025学年统编版语文六年级上册
- 初中语文2024届中考修改病句选择题练习(共15道-附参考答案和解析)
- 中国大百科全书出版社 心理健康教育 五年级下册 15 成长中的我 教案
评论
0/150
提交评论