(生物医学工程专业论文)基于数据挖掘技术的高血压疾病评估方法研究.pdf_第1页
(生物医学工程专业论文)基于数据挖掘技术的高血压疾病评估方法研究.pdf_第2页
(生物医学工程专业论文)基于数据挖掘技术的高血压疾病评估方法研究.pdf_第3页
(生物医学工程专业论文)基于数据挖掘技术的高血压疾病评估方法研究.pdf_第4页
(生物医学工程专业论文)基于数据挖掘技术的高血压疾病评估方法研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文( 2 0 0 6 ) a b s t r a c t 1 1 1 ec o n 的lo fh y p e r t e n s i o ni sab i g 、0 r l d w i d ep r o b l e mf o rp u b l i ch e a l m t h eg o a l f o rm et r e 咖e n to fh y p e n e n s i o ni st 0d e c r e a s et h eb l o o dp r e s s 眦,b u t 恤ea i mi st o r e d u c et h et 咖lr i s ko fc 删i o v a s c l l l a rd i s e a s e i nc l i n i c ,t h ec o n 仃o lo f h y p e n e l l s i o ni s n o tv e f yg o o d t kk e y 蛾塔o f o r 蹦sp f o b 王e m i s t h e l a c ko f a ne 船c t j v e m e 出o d t o c v a l u a t e 血ec a r d i o v a s c l l l a rg 眦l l so f h y p e r t e n s i v e t i l i ss t i l d ye 咖b i i s h e da ne v a l 删o nm o d e lf 研c a r d j o v a s c 川a rs t a t u sb a s e do nd a t a m “n g t h ei n p u t sa r ep h y s i o l o g i c a lp a r a m e t e f s 矗o mc l i i l i c 趾dt l l eo 呻u t sa r e e i g e n 涮u e sf o re v a 如a 廿n gt 量l es t a n 昭o f c a r 出。啷u l a rs y s t e m b a do nt t l i sm o d e l ,a m e t h o df o re v a l u a t i n gh y p e n e t l s i o nd i s e 蹴啪sf b u n d e d a c c o r m l l g l y ,也ef o l l o 、i n g t a s k sw e r ec o n l p l e t e d : 1 t h ec a r d i o v a s c u kp a r a m e t e r s w e r ea n a l y z e db yc l u s t e d n ga n a l y s i s 2 t h ep 舐p h e 蹦c 沁u l 鲥o n 删l 蚍i 锄i n d e xw 鲻c a l c l l l a t c d 矗d m 艟p c r 枇l c i r c u l a t i o np a r 锄e t e r sb ya r t 难c a ln e u r a ln e t 、 r o r k 3 - t h ec a r m r m c t i o ne v a i u a t i o ni n d e xw 鹕o b t a i n e db ya d d i n gt h ec a r d i a c f h t i o np 盯锄e t e r s 晰t h 、v c i g h t e dv a 】u e 4 髓e 籼v e 押oi n d e x e sw e m 砌i z e d t oe s 诅b l i s hap a r 锄e 把rp l a l l e t h ep l a n c w 踮d i v i d e di i 讳o9a r e a st oj n d i c a t ev a r i o l l s c a r d i o v a s c l l l a rs t a t u s e sb v y j u d e ni l l d e x , 5 - t h e 矗l z 可j o g i c 聃,a su s e dt od e s c r i b c3c o n f o u r so f 如z 巧m e m b e r s h i po n p a r a m e t e rp l a n e a l s of h z 巧m e m b e r s h i po fv a r i o u sc 盯m o v a s c m a rs t a :t i l s e s c o u l db ea c b i e v e d t h ec a r d i o v a s c m a rp 瞄哪【e t e r sw e r cd i v i d e di m op e r i p h e r a lc i r c u i a t i o np a r 锄e t e r s 趾dc 甜d i a c 劬c t i o np 耻锄e t e r ss u c c e s s 如l l y b yc l u s t e r i l l ga n a l y s i s t h er e s u l t n 浙江大学硕士学位论文( 2 0 0 6 ) o b t a i n e db yt e s t i i l g3 4 2s u b j e c t ss h o w e d l a t 也ec a r d i o v a s c l l l a fs t a t u so fn o r n lb l o o d p r c s s u r e ,p r e h y p e n e n s i v ea n dh y p e n e n s i v es u b j e c t sh a dd i s t i n c td i 嘶b u t i o no n 恤 p 删t e rp i a n e 1 1 1 e 柚a l y s i so f 砌i v i d u a lc o u j dw o r ko u t 也ec a r d i o v a s 砌a rr i s l 【 s t r a t i f i c a t i o l l m ep e r i p h e r a lc i r c u l a t i o ne v a l u a t i o ni n d e x ,t h ec a r d 主a c f i m c t i o n e v a l u a t i o n 抽d e x ,t l l ec o n s p o n d i l 玛a af 如my - o u d i l l d e x 删t l l ef u z 矽 m e m b e r s h i p o fc a r d i o v 鹤c m a rg t 缸l s t h e nt h e s ea b o v ee o 试de v a l u a t e 也e c a r d i o v a s c u l a rs t a n l so b j e c t i v e l y i nc o n c l 蜮o n ,圯m o d e lo 虢r s 姐矾g i n a li d e af o re v 龇no fh y p e n s i o nd i s e a s e a n dc o u l d 船s i s td i a 弘o s i si nc l i f l i cf o rh y p e n e i l s i a n do m e rc 蛐d i s e a s e sa f t e r i i n p r o v e m e n t k e y w o r d s :h y p e r t e n s i o nc a r d i o v a s c u l a rs y s t 眦,d a t am i n i l l g ,e 伽l 删o nm o d e 王 1 i i 浙江大学硕士学位论文( 2 0 0 6 ) 1 1 高血压疾病概述 1 1 1高血压痍病现状 第一章绪论 高血压是最常见的心血管疾病,是全球范围内的重大公共卫生问题。据世界 卫生组织预测,至2 0 2 0 年,非传染性疾病将占我国死亡原因的7 9 ,其中心血 管疾病将占首位( 卫生部,1 9 9 9 ;w a n gz e n g w u ,2 0 0 4 ) 。为了遏制心血管疾病高 峰的到来,保证人民健康,保证我国经济的可持续发展,在全国范围内大力开展 高血压病的防治,积极治疗高血压病患者,同时控制整个人群的血压水平,已刻 不容缓。 高血压的定义是:收缩压 = 1 4 0 n m l h g 或舒张压 = 9 0 m m h g 或近两周内服用 降压药( 卫生部,2 0 0 4 ) 。高血压的详细分类标准,在2 0 0 4 年推出的中国高血 压防治指南( 卫生部,2 0 0 4 ) 中有详细表述。此外,对于高血压的定义和分类 还可以参考j n c 6 ( s h e p s ,1 9 9 7 ) 、j n c 7 ( c h o b a l l i 蛆,2 0 0 3 ) 、1 9 9 9 w h 0 i s h ( c h a l m e r s ,1 9 9 9 ) 、e u r 0 2 0 0 3 ( m 柚c i a ,2 0 0 3 ) 。 2 0 0 4 年1 0 月1 2 日发布的中国居民营养与健康现状( 卫生部,2 0 0 4 ) 提 到,我国1 8 岁及以上居民高血压患病率为1 8 8 ,估计全国患病人数1 6 亿多。 与1 9 9 1 年相比,患病率上升3 l ,患病人数增加约7 0 0 0 多万人。农村患病率上 升迅速,城乡差距已不明显。我国人群高血压知晓率为3 0 2 ,治疗率为2 4 7 , 控制率为6 1 ;与1 9 9 1 年的2 6 6 、1 2 2 和2 9 相比有所提高,但仍处于较 差水平。 1 1 2高血压临床存在的问题 高血压疾病作为重大公共卫生问题,特别是在中国存在严重的“三高”( 患 浙江大学硕士学位论文( 2 0 0 6 ) 病率高、危害性高、增长趋势高) ,“三低”( 知晓率低、治疗率低、控制率低) , “三不”( 不规律服药、不难受不吃药、不爱用药) 现象和很多错误认识( 高血 压相关网站,2 0 0 6 ) 。 高血压的治疗目标是降低血压,而治疗目的是最大限度地降低心血管疾病的 发病率和死亡率( 卫生部,2 0 0 4 ) ,可见只重视降低血压是不全面的,更重要的 是改善心血管系统状态,而临床医生很容易只关注降压,忽视治疗目标和目的的 区别。 虽然很多研究机构已经在积极研究高血压的预防、诊断与治疗,积累了很多 数据和方法,并取得了一些成果,但是临床医生在传统方法下仍然存在诊断不利 ( 王文化,2 0 0 3 ) ,治疗效果不佳的问题,而造成这些问题的个关键原因是缺 乏有效的方法来定量或半定量的评估高疯压患者的心血管状态。 1 2 课题提出与研究目的 针对目前高血压疾病临床诊断与治疗中存在的问题,本课题的任务是应用数 据挖掘技术,通过心血管参数综合分析,建立一个数学模型从多角度评估高血压 患者的心血管状态,进而可以用这个结论来辅助诊断。 本课题研究将具有长远的发展前景:模型评估的结论可以进一步用于辅助诊 断;再依据现有的方法,扩展到糖尿病、冠心病、脑卒中、动脉硬化、心衰等心 脑血管疾病的辅助诊断;最终目标是抽象为建立疾病辅助诊断的技术路径。这些 研究的最终意义都是提高人们的生活质量,节省医疗开支。 需要说明的是,本课题中提及的高血压指原发性高血压,它占整个高血压的 8 0 至9 0 。课题重点分析的是高血压前期,它是一种更容易发展成高血压的心 血管状态( 卫生部,2 0 0 4 ) ,在这个阶段进行早期干预更有利于控制血压、降低 高血压发病率。 1 3 数据挖掘技术概述 生理状态的评估通常要从临床数据入手,在本课题中临床测得的心血管参 浙江大学硕士学位论文( 2 0 0 6 ) 数,这些数据中包含着被测者心血管状态的信息,评估结论的来源就在其中,所 以需要设法挖掘出其中隐含的知识。近几年产生了一项从海量数据中提取知识的 系统性技术数据挖掘,它的特点正好可以很好的解决这个问题,下面就简单 介绍一下课题要使用的数据挖掘技术。 1 3 1数据挖掘概惫 提到数据挖掘( d a t am i 血g ,以下简称d m ) ,我们必须先了解一下知识发 现的概念,该术语于1 9 8 9 年出现,全称是数据库知识发现( 鼬l o w l e d g ed i s c o v e r y i l ld a t 曲勰e ,k d d ) ,f a y y a d 将它定义为“k d d 是从数据集中识别出有效的、新 颖的、潜在有用的,以及最终可理解的模式的非平凡过程”( f a y y a d ,1 9 9 6 ) 。下 面对以上几个概念做出解释: 1 有效性,要求挖掘前要对被挖掘的数据进行仔细检查,具备该特性,才 能保证挖掘出来的信息的可靠性; 2 新颖性,要求发现的模式应该是从前未知的。该信息是预先未曾预料到 的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违 背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值; 3 。潜在有用性,是指发现的知识将来有实际效用,即这些信息或知识对于 所讨论的业务或研究领域是有效的、是有实用价值和可实现的。常识性 的结论、或已被人们掌握的事实或无法实现的推测都是没有意义的; 4 最终可理解性,要求发现的模式能被用户理解,目前它主要是体现在简 洁性上。发现的知识要可接受、可理解、可运用,最好能用自然语言表 达所发现的结果; 5 非平凡的,意思是要有一定程度的智能性、自动性,仅仅给出所有数据 的总和不能算作是一个发现过程。 k d d 处理过程可以简单概括为3 部分:数据准备、数据挖掘、结果评价( 陈 文伟,2 0 0 2 ) 。详细一点可分为9 个阶段:理解应用领域,识别k d d 过程的目标, 产生目标数据集,数据清理与预处理,数据缩减与投影,将目标与特殊数据挖掘 方法匹配,数据挖掘算法选择,数据挖掘,解释和评估所挖掘到的模式,使用所 浙江大学硕士学位论文( 2 0 0 6 ) 发现的知识( f a y y a d ,1 9 9 6 ;于长春,2 0 0 3 ) ,主要过程见图1 一l 。由此可见, d m 只是k d d 的一个处理过程,但却是k d d 最重要的环节。通常应用中对于 k d d 和m d 两个概念不作严格区分,论文以下采用d m 来表示。 图1 1 数据挖掘过程示意( f a y y a d ,1 9 9 6 ) 此外,d m 还有一些定义( 数据挖掘研究院,2 0 0 6 ) 。 s a s 研究所,1 9 9 7 年:“在大量相关数据基础之上进行数据探索和建立相关 模型的先进方法”。 b h a v a 血,1 9 9 9 年:“使用模式识别技术、统计和数学技术,在大量的数据中 发现有意义的新关系、模式和趋势的过程”。 h 锄d 等人,2 0 0 0 年:“数据挖掘就是在大型数据库中寻找有意义、有价值信 息的过程”。 1 3 2 数据挖掘方法 数据挖掘综合了各个学科技术,其主要功能( 或者说是任务) 有:分类、聚 类、关联规则和序列模式的发现、预测、偏差的检测等( 数据挖掘研究院,2 0 0 6 ) 。 数据挖掘方法大都基于机器学习、模式识别、统计学等领域知识,主要的数 据挖掘方法有下述几种( 于长春,2 0 0 3 ;d e o g u n ,1 9 9 8 ;史忠植,2 0 0 2 ) : 1 人工神经网络( a n i 丘c i a ln e r u a ln 嘶0 r k ,a n n ) :这是一种通过训练来 学习的非线性预测模型。模拟人的神经元功能,经过输入层,隐藏层, 浙江大学硕士学位论文( 2 0 0 6 ) 输出层等,对数据进行调整,计算,最后得到结果,用于分类、聚类、 回归、特征挖掘等多种数据挖掘任务。目前主要有前馈式网络、反馈式 网络和自组织网络3 大类神经网络模型。 2 关联规则挖掘:关联规则表示数据库中一组对象之间某种关联关系的规 则,如“同时发生”或“从一个对象可以推出另一个对象”。关联规则挖 掘就是通过关联分析找出数据库中隐藏的关联,利用这些关联规则可以 根据已知情况对未知问题进行推测。关联规则的发现过程可以分为两个 步骤。第一步,发现所有的大项集;第二步,从大项集中产生相关规则。 3 多层次数据汇总归纳:数据库中的数据和对象经常包含原始概念层次上 的详细信息,将一个数据集合归纳成更高概念层次信息的数据挖掘技术 称为数据汇总。其实现方法分为数据立方体和面向属性归纳法两类。 4 决策树法:决策树法是利用信息论中的信息增益寻找数据库中具有最大 信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同 取值建立树的分支,在每个分支子集中重复建立树的下层结点和分支的 过程。它以树状结构来表示模型,因此容易理解,可用于分类和预测。 常用的算法有c 灿盯、c h a i d 、i d 3 、c 4 5 、c 5 o 等。 5 统计学方法:抽样技术:我们面对的是大量的数据,对所有的数据进 行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽 样。多元统计分析:因子分析,相关分析、主成分分析、聚类分析等。 统计预测方法,如回归分析,时间序列分析等。 6 遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一 种优化技术。 7 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等, 这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维 数据的可视化。 此外还有偏差分析、最邻近技术、b a y e s i a f l 网络、模糊逻辑、粗糙集方法、 支持向量机、基于范例推理等方法,在实际应用中应根据情况选用适当的方法。 1 3 3 数据挖掘应用 浙江大学硕士学位论文( 2 0 0 6 ) 数据挖掘技术产生至今只有十几年的时间,但在零售业、制造业、财务金融 保险、通讯及医疗服务中已经得到了较为广泛的应用,取得了显著的经济及社会 效益。例如,从顾客购买商品中发现一定的关系,提供打折购物券等,提高销售 额;保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风 险,减少成本,提高利润;在制造业中,半导体的生产和测试中都产生大量的数 据,就必须对这些数据进行分析,找出存在的问题,提高质量;电子商务的作用 越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户, 提供个性化服务,优化网站设计( 数据挖掘研究院,2 0 0 6 ) 。 然而数据挖掘技术在医学领域的应用尚处于起步阶段,它是计算机技术、人 工智能、统计学等与现代医疗相结合的产物,也是提高医疗服务质量和医院管理 水平的需要。由于医学技术具有很强的实践性、实验性、统计性,是一门验证科 学,因此积极探索数据挖掘在该领域的应用具有重要的实用价值和广阔的发展前 景。目前数据挖掘在医学领域的应用主要集中在以下4 个方面:疾病辅助诊断、 药物开发、医院信息系统和遗传学( 于长春,2 0 0 3 ) 。 1 3 4 数据挖掘在辅助诊断上的应用现状 数据挖掘在疾病辅助诊断上的应用,通常要从临床数据入手,测量仪器技术 的提高使得大量医学信息可以被精确地记录下来,从而导致医学数据资料爆炸性 增长,但是大量临床数据的获得导致了“数据丰富,知识贫乏”。数据库技术的发 展解决了海量数据的存诸和数据检索的效率问题,但却无法有效提取信息并抽象 为知识。数据类型的多样性和数据量的庞大已经远远超出了人的理解能力,结果 在大型数据库中的数据变成了“数据坟墓”( d a t a t o m b s ) 。为解决这个问题,从海 量数据中提取知识的系统性技术数据挖掘,正好可以很好的勰决疾病辅助诊 断的问题。 针对高血压疾病评估的数据挖掘文献还比较少,所以这里主要了解一下数据 挖掘技术在疾病辅助诊断方面已有的应用,下面介绍一些成熟的研究方法、研究 成果等。 浙江大学硕士学位论文( 2 0 0 6 ) 1 y i i 喇i el e e 等( 2 0 0 1 ) 在精神分裂症患者的动态e e g 分析研究中用时 空相关维数预测疾病发作: 2 h a r r i sn d 和l r c l a n dr h ( 2 0 0 0 ) 在研究中运用时间序列关联分析发现, q t 间期和i 型糖尿病患者夜间血糖浓度有关,并指出修正后的o t c 可 能可以用于预警患者在夜间猝死的发生; 3 上海同济大学附属医院的冯波等人( 2 0 0 2 ) 用统计相关分析研究糖尿病 患者肌肉组织和脂肪组织含量与骨密度之间的联系,得出高肌肉和高脂 肪组织含量可降低患者髋骨骨折危险性的结论; 4 t e x a s 健康科学中心的s h a l lb ( 1 9 9 8 ) 分析了糖尿病患者年龄、性别和 跖骨骨密度之间的关系; 5 j o s e p hl 和b r e 砌tm d 等人( 年份不详) 应用粗糙集方法,对糖尿病人 的生理参数进行分析,预测病人5 年内是否会患糖尿病,发现结果优于 某些传统算法: 6 法国的舢e x 粕d r c 、k e 山o n i 等( 2 0 0 5 ) 学者应用人工神经网络,从动态 的、非稳定、非线性的e e g 信号中提取出有用的特征参数,用于分析病 人生理状态; 7 p a r k k l ,l j 和l e e k j ( 2 0 0 5 ) 运用了独立分量分析的方法( i c a ) , 从e c g 中提取出基本函数,根据其特征点来分辨信号是否正常; 8 北京工业大学的学者( 白玉峰,1 9 9 4 ) 在应用主成分加权分类的基础上, 用逐步b a y e s 判别分析结合计算机建立和数学模型,对心血管功能进行 定量的辨别和预测,辅助诊断效果较好; 9 c e l i ac b o j a r c z u l 【 h e i t o rs l o p e s 等人( 2 0 0 0 ) 使用了遗传算法辅助胸 痛诊断,分辨1 2 种胸痛疾病种类; 1 0 d o k l | rz ,0 h n e zt ( 2 0 0 1 ) 运用组合神经网络可对危及生命的心律失常进 行归类,研究中还用到了傅立叶变换、小波变换和遗传算法; 1 1 y i n g h s u a l lw h 和l i a n g y us h y l l ( 1 9 9 9 ) 在医学数据挖掘和信息处理中 利用模糊神经网络和小波变换,可以从心跳记录中提取出特征数据,鉴 别心室的过早收缩。 总的来说各种d m 算法都有很好的应用,或是分类,或是关联规则发现,或 浙江大学硕士学位论文( 2 0 0 6 ) 是模糊理论,要具体问题具体分析。而本课题是要建立评估模型,属于数据挖掘 在疾病辅助诊断上的应用,需要落实到患者生理参数分析中,下面叙述一下研究 要做的几方面内容。 1 4 本课题研究方法 根据数据挖掘的原理和流程,本课题的工作主要分为以下几个方面( 胡文丰, 2 0 0 3 ;瞿爱珍,2 0 0 2 ) 。 1 确定最终希望得到的结论一对高血压患者心血管系统状态评估,重点 分析高血压前期,结论使用何种表达形式,如何使得本课题的模型优于 现有的评估方法,最终此结论从什么角度辅助诊断; 2 具体的操作,最初的数据采集工作已经得到一定数量的样本,需要做数 据清理、预处理、筛选等准备工作,从原始数据转化为模型可以直接应 用的数据。在多种数据挖掘算法中选择并比较结果,确定模型和算法; 3 用科学的方法解释和评价模型的结论,不断改进模型; 4 应用得到的模型,具体分析被测者,尝试给出一些可以辅助诊断的结论; 具体的研究方案在第二章中有详细表述。 浙汀大学硕士学位论文( 2 0 0 6 ) 第二章评估模型的数据挖掘方案 整个课题将按照数据挖掘的典型操作步骤来执行,如图l 一1 。 2 1 数据准备 理解应用领域,识别k d d 过程的目标 这一步是要明确数据挖掘的医学对象和要得到的结果。课题要建立高血压疾 病评估模型,并应用于辅助诊断,计划重点分析被测者心血管参数,将其分为外 周血管参数和心功能参数两类,分别给出反映心血管状态的特征值,再将它们合 并起来从二维角度分析并实现结果的可视化,最终应用这些结论辅助诊断。 明确数据挖掘的医学对象,即明确要对哪些人,采集哪些数据,此工作已经 完成。这步工作还包括阅读文献,跟医学专家进行交流,并且准备出一份实现该 课题计划的步骤,可参见下文。 产生目标数据集 又可称为数据选取,为了得到最终的结果,需要生成一个完整记录病人医学 诊断信息的数据库,各个诊断系统根据不同的目标来组织其数据库。这部分工作 包括最初的数据采集,按照一定的原则,比如依据k d d 的结果,从原始数据库 中选取本课题需要的数据子集。 例如删除被测者联系方式,住址的操作。 数据清理与预处理 此步的目的是从数据中去除噪声,处理丢失数据及作其他必要的改交。本课 题中最初的原始资料可能会包括问卷信息,仪器记录的数据等,这步要做的是对 目标数据集进行重要性和相关性检验,包括矫正、去除或忽略噪声,比如删除明 显错误的记录,处理缺失值、偏离过大的值,数据归一化等操作。 例如删除一些血压数据缺失的样本;又如删除一些小于零,没有生理意义的 浙江大学硕士学位论文( 2 0 0 6 ) 数据。 数据缩减与投影 此步的目的是发现依赖于目标的有用特征值来代表数据,包括使用维数降低 或变换方法来减少有效变量数,也就是用较少数目的变量更好地代表数据。最后 得到的数据需要满足不同数据挖掘方法的需求。 比如对课题中的一系列生理参数进行主成分分析( p c a ) 以去除一些冗余, 或是把不适于直接使用的数据进行特征的提取和转换,如通过身高体重算出 b m 【,加入数据库。所以这步如何有效进行转化,就成为后续工作是否能够顺利 进行的关键。 2 2 数据挖掘过程 将目标与特殊数据挖掘方法匹配 此步的目的是决定什么数据模型可能适合搜索数据的模式,使用什么数据挖 掘方法与k d d 的目标相匹配。数据挖掘有以下几个最重要的提取数据特性的模 型:概括、聚类或分割、回归模型、分类、概念描述、相关性分析、序列分析。 结合课题的目标,比如想将心血管参数分成外周血管参数和心功能参数两 类,就适合选择聚类模型。 数据挖掘算法选择 确定模型,并根据数据挖掘方法和模型选择合适的算法,这一步尝试性较强。 比如对于心血管危险分层( n i n gg a n g i i l i n ,2 0 0 6 ) ,分类( 分类模型是一种 特殊的回归模型,所以包括一些回归) 的算法都可以尝试,如b p 网络,朴素贝 叶斯分类器等。我们将根据目标对常用算法都做简要分析并尝试,即会有大量的 预实验,再对得到的结果进行科学的评价。我们不仅要强调不同方法的特征,而 且还要注重与医学专家之间建立广泛的交流,将我们的实验结论与他们的医学经 验进行求证,以此来检验方法的合理性。 浙江大学硕士学位论文( 2 0 0 6 ) 数据挖掘 执行算法,包括确定算法细节和模型参数等。 比如确定人工神经网络的具体学习方法、层数、节点数、传递函数等等,还 有整个训练和测试的过程。 2 3 数据挖掘结果评价 解释和评估所挖掘到的模式 对数据挖掘结果可用以下的标准进行比较和评估,即正确度、计算速度、鲁 棒性、可伸缩性、可理解性等。这一步对结论进行医学上的解释并与最初的课题 目标进行比较,很可能发现问题,需要回溯到前面的某一步修改以改进模型。这 步还包括结果的可视化。 例如模型中给出的心血管二维评估中的几张隶属度等势线图并作出解释。 使用所发现的知识 这一步的目的是使医生的诊断过程更客观和容易,提高诊断效率。落实到课 题的工作中,就是要给如一个简单明了的结论,结论本身是评估,但在辅助诊断 的时候,要能够帮助医生,或预测,或诊断,或治疗等。 这里还需要对结论的实施和控制有一个详细的计划,对整个课题作详细的总 结,从中得到的教训必须在今后的实践中得到应有的重视和注意。 值得注意的是,d m 的任意步骤之间都是可以反复修正的过程,而实际操作 中也肯定需要反复修正;同时各步骤间有时并没有一条很清晰的界线,很多操作 是连为一体的。 浙江大学硕士学位论文( 2 0 0 6 ) 第三章评估模型的数据挖掘实施 3 1 课题方案实施框图 l 临床数据采集。j 。 数据预处理 生理参数聚类分析,寻找外周 血管与心功能参数的最佳分类 3 4 节 外周血管参数分析, 利用人工神经网络 等技术,提出外周血 管评估指数 心功能参数分析, 利用判断矩阵法 等技术,提出心功 能评估指数 心血管参数二维分析,利用约登 指数计算平面最佳分割,利用模 糊数学引入二维隶属度分析,重 。点分析高血压前期在平面上的 位景,发现模型优于现有心血管 状态评估方法之处 图3 一l课鼹方案实施框图 图3 一l 给出的是课题方案实施的框图,图中的标注表示框图中相应工作对 应的章节。课题首先要进行临床数据采集的工作,接下来对数据进行预处理并依 照2 0 0 4 年的中国高血压防治指南计算出所有样本的心血管危险分层,然后 萝 浙江大学硕士学位论文( 2 0 0 6 ) 对被测者的心血管参数进行聚类分析,将它们分成代表外周血管和心功能的两 类。下面对两类参数分别分析:对于外周血管参数,利用人工神经网络等技术, 计算出外周血管评估指数;对于心功能参数,利用判断矩阵法等技术,计算心功 能评估指数。最后对心血管参数进行二维分析,二维的坐标分别是外周血管评估 指数和心功能评估指数,利用约登指数计算平面最佳分割,利用模糊数学引入二 维隶属度分析,重点考察高血压前期在平面上的位真,以发现模型优于现有心血 管状态评估方法之处。 需要说明的是,本章的3 2 至3 4 节是对数据的整体分析,其中贯穿了计算 的结果,对于模型建立的关键部分3 5 和3 6 节,本章只叙述了建模过程和相关 算法,使用测试样本得到的具体结果及分析将在第四章给出。本课题实现主要借 助的软件有:m a t l a b 7 o 、e x c e l 2 0 0 3 、a c c c s s 2 0 0 3 。 3 2 临床数据采集与参数意义解释 3 2 1 临床数据采集 本课题的数据采集时间是2 0 0 4 年4 月至2 0 0 5 年4 月。数据采集对象为浙江 大学高职体检人员和普职体检人员,共9 7 0 人,1 8 0 0 余次,记录其心血管参数、 生化检查、调查问卷等信息。 高血压患者的心血管疾病危险是多因素的,患者的诊断治疗不仅根据其血压 水平,还要考虑:有无其他危险因素;有无靶器官损害或糖尿病;有无并存的临 床情况,如心、脑、肾脏病交等。因此,课题需要的信息应包括影响高血压患者 的其它危险因素,通常包括患者的病史、家族史、体格检查及实验室检查等等。 我们的数据采集系统如图3 2 所示。 按照所采集的数据来源分,有如下五类。 1 心功能检查数据;来自澳大利亚u s c 0 m 公司的心功能监测仪,它是基 于超声多普勒的非侵入式测量仪器,我们使用它来测量肺动脉血流超声 图像,可获得一系列心功能参数。 2 e c g + p p g 数据 本实验室自行研发的心电图( e l e c 加c a r d i o g r 眦,简称 浙江丈学硕士学位论文( 2 0 0 6 ) e c g ) 与脉搏波( p h o t o - p l e t h y s m o g 呐,简称p p g ) 测量仪器,从这里 可以计算获得脉搏波传播速度p w v 及其相关数据,心率变异性h r v 及 其相关数据。 3 血压数据:p 眦啪i l i c 公司的电子血压计e w 3 1 0 3 ,可以获得被测者的收 缩压、舒张压和心率。 4 问卷信息:自行设计的调查问卷,包括基本资料、个人信息、病史、家 族史、生活习惯、病人症状、主述、用药情况等。 5 生化检查数据:浙江大学校医院对相应的被测者做的生化检查,包括血 常规、尿常规和肝功能参数。 3 2 2 参数意义解释 图3 2数据采集系统示意图 这里对后文要用到的一些关键的生理参数做一些必要的解释: 体重指数b m l :b o d ym a s si n d e x ,体重( 埏) 和身高平方( m 2 ) 的比值,反映 浙江大学硕士学位论文( 2 0 0 6 ) 肥胖程度; 血流速度峰值v 仙:p e a kv e l o c 时o f b l o o dn o w ,反映心脏收缩能力,直接由 u s c o m 仪器的d o p p l e r 血流图得到; 平均压力梯度p m n :m e a i lp r e s s u r ef a d i e m ,反映心脏收缩能力,直接由 d o p p l e r 血流图得到; 速度时间积分v t i :v e l o c 毋t i n l ei i l t c g m l0 r 咖k ed i s t 柚c e d i s t a i l c eas i n 9 1 er e d b 1 0 0 dc e u 妇v e l sp e r s 拄o k e ,反映左心室收缩功能,直接由d o p p l e r 血流 图得到; 心率h r ( 来源为心功能检查数据) :b e a 招p e r 曲m e ,直接由d o p p l e f 血流 图得到; 每分距离m d m 山_ i ed i s t a n c e - t h ed i s t a l l c eas i i l 垂er e db 1 0 0 dc d l 血翟l v e l sp e r m i n u t c ,m d = v 吐h r ( 大约1 8 n l l n i n ) ,单个红细胞每分钟流过的距离, 由d o p p l e r 血流图间接推导; 射血时间比例e t p e 眦e n t ( 下文简写为e t p e r ) :e t 占一个心动周期的比例, 反映心肌做功效率e t p c f e t h r 6 0 ; 每搏输出量s v :s t r o k cv o l u m e ,一次心跳一侧心室射出的血液量,s v = v t i a ,反映心肌收缩能力,由d o p p l e r 血流图间接推导; 心输出量c o l 心脏每分钟射出的血液量c a r d i a co t n l ) u t ,c 0 = s v h r _ v t i a h r ,与机体的新陈代谢水平相适应,由d o p p l e r 血流图间接推导; 心指数c i :单位体表面积的心输出量c a r d i a ci n d e x ,c l = c 0 ,b s a ,人体静 息时的心输出量并不与体重成正比,而是与体表面积成正比,由d o p p l e r 血流图间接推导; 射血时间e t :e j e c t i o nt i m e - d 删i o no fs y s t o l e ,收缩期的持续时间,宜接 由d o p p l e r 血流图得到; 每搏指数s i :s 圩0 k ev o l u n l ei n d e x ,s i = s v b s a ,单位体表面积每搏输出; 系统血管阻力指数s 、1 阻:s y s 僦n i cv a s c l l l 盯r e s i s t a n c ei n d e x ,s v r l = 8 0 ( m a p 3 ) c i ,反映后负荷,外周血管阻力; 左心工作指数l c w i :l c = o 0 1 4 4 ( m a p 6 ) c i ,反映左心收缩能力; 脉搏波传播速度p w v :p l l l s ew h v ev e l o c 酊,表示为脉搏波传导距离除以传 浙江大学硕士学位论文( 2 0 0 6 ) 导时间,是目前为专业人士普遍接受的判断动脉硬化程度的参数之一; 硬化指数s i ( 为了和每搏指数s i 区分,今后硬化指数s i 都紧跟“硬化”以 说明) :蹦f 】甄e s si n d e x ,是大动脉硬度的重要指标; 心率h r ( 来源为e c g + p p g 数据) :由e c g + p p g 波形的周期性特征得到: 快速射血时间t l :反映心肌收缩能力; 快速射血指数i m i :r e i 与动脉弹性有关,i 也i 若增加,提示动脉顺应性降 低,外周阻力增加,反之,则提示动脉顺应性改善,外周阻力减小; t l t 2 :指快速射血期时值与整个左室射血期时值之比; 血压:收缩压s b p 和舒张压d b p ,由电子血压计测得,一个血压波动周期 中,最高点为收缩压s b p ,最低点为舒张压d b p 。 更多和更详细的参数介绍可以参考u s c o m 仪器技术文档和e c g + p p g 测 量的技术文档。 3 3 数据预处理与心血管危险标准分层 3 3 1 目标数据桑的生成 我们的操作对象是由前期采集到的所有临床数据所组成的数据库,对其 a c c e s s 文件具体操作如下; 1 删除体检参数表、h r v 表卧姿、h r v 表坐姿,因为这些表中数据缺失较 多,如采用则样本数大量减少。 2 删除基本信息表中:分类号、时间、姓名、出生年月、办公室电话、住 宅电话、手机、电子邮箱、家庭地址、预约时间,这些都是无关数据。 3 删除基本信息表中:初次发现患高血压的时间、( 当时) 血压值、收缩压 和舒张压( 这两个数值以计算参数表为准) 、具体的心血管疾病、患有肾 疾病、家族有肾疾病史、家族有糖尿病史、嗜甜、嗜咸、一般、经常运 动、偶尔运动、不运动、头痛、眩昏、视力下降、瞬时缺血休克、感觉 或运动障碍、心悸、胸痛、气短、脚踝肿胀、嗜渴、多尿、夜尿、畏寒、 间歇跛行、偶尔出汗紧张、偶尔会肌肉无力手足抽搐、近段时间的服药 浙江大学硕士学位论文( 2 0 0 6 ) 情况、所用的药、疗效、副作用、臂长、体表面积、备注。这些数据虽 含一定信息,但在当前的讨论中不会使用到,当然在今后的研究中,可 以考虑将某些评价回溯到数据库中,考察评价和症状、生活习惯、病史 家族史等的联系。 4 删除计算参数表中:随访时间( 无关数据,保留回溯讨论的可能) ;等容 收缩期、等容舒张期、左心室射血指数、脉搏波强度、血压增长指数a i 、 切角a l 、切角a 2 ( 绝大多数值为o ,无意义) ;备注、换药、m a p 、服药 种类( 有信息,但当前的研究不会使用到) ;雕( o 的无意义数据太多, 1 2 4 例,认为测量或计算不可靠) ;r h i ( o 的无意义数据太多,3 8 7 例, 认为测量或计算不可靠) ;c 1 ( 8 0 c m 或b m i 2 8 ) ;c 反应蛋白 = 1 m g d l ( 空缺, 默认正常) ;靶器官损害( 空缺,默认无) ;糖尿病( 主述是否有糖尿病) ;并存 临床情况( 空缺,默认无) 。 有了上述信息,我们就可以对样本进行标准的危险分层,量化的估计预后。 结合我们的数据,这里没有直接采用中2 0 0 4 的危险分层表格,而是采用了 改进的欧洲2 0 0 3 标准,如表3 2 : 表3 2心血管危险绝对水平分层 血压( m m h g ) ,详见表3 一l 血压水平的定义和分类其他危险因素和病史 正常血压正常高值 l 级高血压2 级高血压3 级高血压 这样的改进主要出于如下两点考虑: 首先,增加对血压小于1 4 0 ,5 i o m n l h g 的样本的分析,这样可以更加全面的考 察样本整体的心血管危险,右边三列仍然与中2 0 0 4 吻合。 其次,将欧洲标准中正常血压和正常高值下移到中2 0 0 4 的同名分类。与 中国1 9 9 9 年的指南相比,中2 0 0 4 的一个重要的区别是将正常血压确定为 0 0 1 的参数接受假设,认为它们在标准分层结 果不同时并没有明显差异,所以对区分心血管危险几乎没有贡献,删除5 个: e t 、s i 、t l 、砌、t 1 t 2 ;而肝o o l 的4 个保留:s v 融、p w v 、s b p 、d b p , 它们在标准分层结果不同时,至少有两组之间的均值有明显差异,所以认为对区 分心血管危险有贡献。从中可以看出,反映时间的参数e t 、s i 、丁1 、r e i 、t l t 2 和心血管危险相关性不大,s i ( 硬化) 也不能很好的反映心血管危险,从另个 浙江大学硕士学位论文( 2 0 0 6 ) 方面讲,这5 个参数都是从p p g 波形信号中提取出来的,很可能是检测或者算 法还有值得改进的地方。而s b p 、d b p 作为标准危险分层的一个直接因素,在 这里p = o 很好理解,预实验表明,s b p 和d b p 两个参数表达了大部分的心血 管危险信息,但只用两个血压得到的结果明显不如多参数得到的结果;p w v 是 反映动脉硬化程度的金标准( m u r a t a ,1 9 9 4 ) ,而动脉硬化和高血压又有着很大 的关联( 越a m ,2 0 0 l ;刘丽芳,2 0 0 3 ) ;此外s v r j 反映的外周血管阻力同样是 心血管危险的重要因素,另一方面s v r j 的计算公式中也包含了平均血压一项。 预实验尝试将p o 0 5 的参数删除,则增加参数s i ( 硬化) ,但最终结果无明 显区别。 接着可以选择对数据进行主成分分析( 埘n c i p a lc o m p o n e m 趾a l y s i s ,p c a ) ( j o i i i 彘,2 0 0 2 ) 。p c a 是一种统计方法,被广泛的应用于数据压缩和模式识别, 在这里我们用它来做数据约简。p c a 后再考虑删除能量贡献很小的几个,通过 p c a 可消除输入之间的相关性,但它有一个缺点,就是处理后的输入生理意义 不明确。 预实验表明,对于我们数据,是否应用p c a 最终结果无明显区别(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论