疾病诊断数学模型1知识_第1页
疾病诊断数学模型1知识_第2页
疾病诊断数学模型1知识_第3页
疾病诊断数学模型1知识_第4页
疾病诊断数学模型1知识_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、姓名班级所在学院电话(手机)是否报名全国竞赛队长李召理学院队员1黄波理学院队员2秦建新机电工程学院 疾病诊断数学模型摘要 本文解决的是如何根据就诊者体内各元素含量判别某人是否患有某种疾病和确定哪些指标是影响人们患该疾病的关键因素的问题。通过分析可知此类问题为典型的分析判别,在此我们采用元素判别和Bayes判别并应用Excel和SAS软件来对某人是否患病进行判别,并通过主成分分析法来确定患该疾病的关键因素。 对于问题一,我们采用元素判别和Bayes判别进行前60人是否患病的判别,并对其结果进行对比。对于元素判别,我们用Excel对化验结果数据进行统计并通过折线图得出其分界值,然后与是否患病的真实

2、情况进行对比,得出其准确度为95%;对于Bayes判别,通过编写SAS程序来进行判别,并得出其准确度为93.33%;考虑到诊断的实际情况和简便性最终确定Bayes判别为本文所要使用的判别方法。 对于问题二,我们利用问题一中建立的判别模型对表2中的15名就诊人员的化验结果进行检验,检验结果为:9个人为患病者,6 个人为健康人员。 对于问题三,为了确定影响人们患该病的关键或主要因素,我们选取表1中的数据作为样本,建立主成分分析模型,通过对表1中的数据进行标准化并确定相关系数矩阵,接着,求出相关矩阵的特征值和特征向量,然后通过前m个主成分的累计贡献率满足来确定主成分的个数,最后通过主成份载荷分析得出

3、最能代表主成分的原指标即所要求的主要因素为Fe、Ca、Mg、Cu。在此基础上,得到去掉K、Na、Zn的化检结果的新样本,利用Bayes判别,再对表2中的15名就诊人员的化验结果进行判别,判别结果:9个人为患病者,6 个人为健康人员。关键词: 元素判别,Bayes判别,主成分分析法,Excel,SAS软件一 问题重述.人们到医院就诊时,通常要化验一些指标来协助医生诊断。一般初步判断某人是否患病是通过观察某人体内元素的含量。通过题目给出数据可以看出,其中130号病例是已经确诊为病人的化验结果;3160号病例是已经确诊为健康人的结果。 我们需解决的问题有: 问题一:根据表1中的数据,提出一种简便的判

4、别方法,判别属于患者或健康人的方法,并检验方法的正确性。问题二:按照问题一提出的方法,对表2中的15名就诊人员的化验结果进行判别,判定他们是患该种疾病的病人还是健康人。问题三:能否根据表1的数据特征,确定哪些指标是影响人们患该疾病的关键或主要因素,以便减少化验的指标。并根据给出的结果,重复2的工作。 二 问题的分析 此题研究的是医院关于疾病确诊的数学建模问题。我们通过建立合理的数学模型,研究不同元素在人体含量的关系,确定就诊人员是否患病。我们通过对题目中所给的30组健康人和30组患者人体7种元素含量的数据分析处理,寻求好的判别方法,判别就诊人员是否患病。针对问题一:我们建立了元素判别和Baye

5、s判别两种模型。我们首先想到患病者和健康人员体内的某种或几种元素含量必然存在差异,我们用Excel图表功能对化验结果的数据进行统计分析,找到其中的差别从而建立元素判别模型。其次,我们利用模式识别广泛应用的Bayes判别,通过对患者和健康人员这两组样本进行Bayes判别分析,得到后验分布,再基于后验分布进行各种统计推断判别,由此我们建立Bayes判别模型,达到判别效果。最后我们对这两个模型进行讨论比较,发现元素判别受外界因素影响较大,故对问题一最终确定Bayes判别模型。 针对问题二:我们运用问题一中建立的最终模型,对表2中所给的15位就诊人员是否患病进行判别,我们运用SAS软件求得结果并以表格

6、呈现。针对问题三:为了确定影响人们患该病的关键或主要因素,我们选取表1中的数据作为样本,建立主成分分析模型,通过对表1中的数据进行标准化并确定相关系数矩阵,接着,求出相关矩阵的特征值和特征向量,然后通过前m个主成分的累计贡献率满足来确定主成分的个数,最后通过主成份载荷分析得出最能代表主成分的原指标即所要求的主要因素为Fe、Ca、Mg、Cu。在此基础上,得到去掉K、Na、Zn后的化验结果的新样本,利用Bayes判别模型,再对表2中的15名就诊人员的化验结果进行判别。三 模型假设 假设1: 假设题目中所给的数据是从许多确诊病例中随机抽取的,没有特殊情况,属于一般规律,可认为服从正态分布; 假设2:

7、 假设就诊人员在化验前没有吃含矿物质量较高的食物; 假设3: 假设题目中所给的数据都是真实可靠的,化验没有错误; 假设4: 题目中所给的样本只患该种疾病或者是健康人员,没有患其他疾病;四 符号及变量说明化检结果中元素的个数就诊人员体内各元素的化验结果的集合样品 样品来自组的先验概率的标准差的期望到的平方马氏距离来自的的概率密度属于的后验概率到的广义平方距离联合协方差矩阵组内协方差矩阵人体内7种元素的含量样本的相应的观测值为因素的平均数为因素的标准差.的标准化值 特征值 相关系数矩阵单位特征向量主成分载荷各主成分的得分五 问题模型建立与求解 5.1问题一的模型建立与求解对于问题一,我们建立了元素

8、判别模型和Bayes判别模型来进行某人是否患病的判别,并通过与实际情况比较来进行检验。最终得出一种较为简便的方法。 5.1.1 元素判别模型的建立 我们运用Excel的图表功能分别做出1-60号病人的Zn、Cu、Fe、Ca、Mg、K、Na的折线图: 图1通过对上面的患有疾病的病人和没有疾病的人的比对,我们可以很清楚的看出Ca元素的含量对该病的影响最大,且以1000为分界线。若某人的Ca含量大于1000则可判别其为健康,否则其可能患有该种疾病。 5.1.2元素模型的求解 通过以Ca元素为判断准则的判断结果如下表(1为患病,2为正常)表5.1病例号判断结果准确结果病例号判断结果准确结果111312

9、221132223113322411342251135226113622711372281138229113922101140221111412212114222131143221411442215114522161146221711472218214822192149222011502221115122221152222321532224115422251155222611562227115722281158222911592230116022 通过对上表的观察可知,在1-30号病例中有3例为误判,分别是18、19、23号,在对31-60号病例的判断中没有误判。 5.1.3 Bayes判别模

10、型的建立设有个组,且,又设样品来自组的先验概率为,满足等式: (5.27) 到的平方马氏距离是 (5.28)来自的的概率密度为: (5.29)利用贝叶斯理论,属于的后验概率(即当样品已知时,它属于的概率)为 (5.30)到的广义平方距离定义为 (5.31)其中, (5.32) (5.33)由此可推出属于的后验概率为: (5.34) 可采用如下的判别规则 (5.35)它可以等价地表达为 (5.36)如果,则广义平方距离将退化为上一节的平方马氏距离,即这时,判别规则(5.36)式将等同于(5.37)式,即等同于 (5.37)实际应用中,以上各式的和一般是未知的,需要通过样本进行估计,可用来估计,的

11、估计可分两种情况;当可采用联合协方差矩阵进行估计;当不全相等时,可采用组内协方差矩阵分别进行估计。若对x来自那一组的先验信息一无所知,则可认为。 5.1.4 Bayes判别模型的求解 由假设知,这些数据服从正态分布,且符合一般规律,可认为。利用proc discrim过程(见附录),计算广义平方距离函数: (5.38)并计算后验概率: (5.39) 由SAS程序得出的图(见附录)看出,结果如下表:(设有病为“1”,健康为“2”)表5.2病例号判断结果准确结果病例号判断结果准确结果1113122211321231133224113422511352261136227113722811381291

12、13912101140221111412212114222131143221411442215114522161146221711472218114822191149222011502221115122221152222311532224115422251155222611562227115722281158222911592230116012 通过对上表的观察可知,在1-30号病例中没有误判,在对31-60号病例的判断中存在误判,误判分别为32、38、39、60号。 5.1.5问题一的检验与简单模型的选择 综述以上两种判别方法,可以得到它们各自的正确率,如下表:表5.3元素判别Bayes判别

13、30例病人的准确度90%100%30例健康人的准确度100%86.67%总人数准确度95%93.33%从表中的结果可以明显看出元素判别教Bayes判别更为准确,但考虑到元素判别受环境影响较大不利于诊断,且元素判别中对确诊的病人存在误判,不利于及时治疗,而Bayes判别模型对确诊病人不存在误判,所以我们认为Bayes判别模型是这两种判别模型更为合理且简便的模型。 5.2问题二的求解问题二要求我们运用问题一中提出的简便判别方法,判别15名就诊人员是否患有该种疾病。我们采用模型一中的Bayes判别法进行判别,运用SAS软件(代码详见附录四)处理这15名就诊人员的化验结果,得到结果(见附录五),再将结

14、果整理如下:患者(号)61、62、63、64、66、67、68、71、75健康人(号)65、69、70、72、73、74即患者共9人,健康者共6人。 5.3问题三的模型建立与求解 5.3.1 主成分分析模型的建立 在诊断病人是否患肾炎时,通常要化验人体内7种元素的含量,即问题进行主成分分析的原指标有个,记为,现问题提供个学习样本,相应的观测值为。问题要求确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。 对于该问题,建立如下主成分分析过程模型:(1) 由观测数据计算及的公式分别为: (5.40) (5.41) 为因素 的平均数,为因素 的标准差.(2) 对样本数据作如下标准化:

15、 (5.42)用标准化后的代替。(3) 求特征值由相关系数矩阵 ,解样本相关矩阵的特征方程,得到个特征值,并按值从大到小进行排列其中 (5.43)为实对称矩阵。(4) 确定主成分保留个数将带入,求出单位特征向量,。 确定的值的方法是使前个主成分的累计贡献率:,即使题目所给信息的利用率达85%以上。(5) 计算因子载荷,解释主成分的意义主成分载荷的计算公式为: (5.44) 得到各主成分的载荷以后,按照计算,得到各主成分的得分。 5.3.2问题三的求解 对于问题三,通过建立主成分分析过程模型来解题,编写SAS程序,由SAS proc princomp求解出需要待求的量。可得到该病诊断各个主成分的

16、特征值及其贡献率与累计贡献率如下表所示: 表5.3主成分特征值贡献率(%)累计贡献率(%)13.129144.7044.7021.973528.1972.8930.722910.3383.2240.57038.1591.3750.28364.0595.4260.20392.9198.3370.11681.67100.00正交单位化特征向量见下表:表5.4 主成分Prin1Prin2Prin3Prin4Prin5Prin6Prin70.2559-0.38320.71860.4553-0.10930.22400.04320.48190.2038-0.1574-0.2738-0.16340.7558

17、0.16370.38530.1387-0.48670.74560.1480-0.10170.08560.5074-0.03620.1699-0.33480.3453-0.44080.53550.53170.06720.0668-0.1704-0.0978-0.2583-0.7766-0.11670.60910.35510.09500.64650.1898-0.1621-0.00310.64320.25030.1082-0.6266-0.26700.2190 由图表知,前四个主成分的累计贡献率已达91.37%,实际应用中可只取前四个主成分,即:将标准化数据计算可得,如表5.5:表5.5主成分0.

18、45260.53830.6110.34390.8524-0.2926-0.1338-0.20680.6817-0.1948-0.41380.5630.89760.05090.1444-0.25280.9405-0.09440.0568-0.1287-0.2065-0.85560.30190.0717-0.0055-0.90360.21280.0817由表5.5可知,前面四个主成分的累计贡献率已高达91.37%85%,这说明基本上反映了原来所有的信息的91.37%。并且前两种主成分占了绝大部分的比重(72.89%)。从程序的运行结果了可以得到,第一主成分主要与Mg、Ca、Cu、Fe密切相关,第二

19、主成分主要与Na、K密切相关,且为负相关,第三主成分主要与Zn密切相关,第四主成分主要与Fe密切相关。所以,我们确定的关键元素为:Fe、Ca、Mg、Cu。 5.3.3确定关键元素后,重复2的工作 在此基础上,得到去掉K、Na、Zn的化检结果的新样本(见附录),利用Bayes判别,再对表2中的15名就诊人员的化验结果进行检验,运用SAS软件(程序详见附录四)处理这15名就诊人员的化验结果,得到结果(见附录五),再将结果整理如下:患 者(号)61、62、63、64、69、67、68、71、75健康人员(号)65、66、70、72、73、74 结果比较分析,问题二和问题三的求解结果,不同之处主要如下

20、:患者(号)健康人员(号)问题二6669问题三6966为了便于分析我们从中取一些数据进行对比:表5.6病例号ZnCuFeCaMgKNa661888.2822.61208231131413726916213.219.8152116632.1133患者均值143.1012.3323.07698.17113.39201.13526.83健康人均值186.6021.9262.012511.13295.1490.37367.21 病例66,69与健康者比较,其Zn的含量正常,但是K和Na的含量严重超标,由于问题三中我们已经剔除Na,K,Zn这3种元素含量对判别不再有影响,而问题二中,我们考虑了这3种元素

21、后会使得求得的后验概率偏小,从而得出66是患者这一结论。病例69与健康人比较Zn的含量稍微偏低,K和Na含量严重偏低,其它元素含量也偏低。忽略Na,K,Zn后,我们发现其它元素的含量与患者更为接近,因而,问题三得出69为患者是预料之中的,但考虑这3种元素后,后验概率偏小,故问题二会得出69为健康。经过两次判别结果的分析比较得出,只有66和69号不一致,其余结果均一致,一致率达86.7%。六 模型评价及推广 模型评价优点:针对问题一,为提出一种简便的判别方法,我们提出元素判别和Bayes判别,并进行了准确度和可行性的比较,最终得出Bayes判别在对确诊病人的判别中,在模型假设成立的条件下的准确度

22、为100%,其符合医院的实际情况,且施行相对简便准确。针对问题二,在问题一的条件下可将待诊人员的化验结果引入到Bayes判别下的SAS程序中,得出结果,具有良好的通用性和实用性。针对问题三,我们采用的主成份分析法是通过对已知的确诊人员数据的分析,通过建立函数,从而过滤掉不利因素对诊断结果的影响,提高了准确度,并在对问题二的判别结果中与实际相符,有较高的可行性。缺点:由于题中所给数据相对较少,且化验元素种类也较少,对Bayes判别和主成份分析有一定影响,以至所得结果与实际有差别。 模型推广 Bayes判别和主成份分析法相结合不仅可以用于对某种疾病的诊断和得出其主要影响因素,而且可以用于在经济学中

23、根据人均国民收入、人均工农业产值、人均消费水平等指标判断一个国家的经济发展程度,并得出主要判断因素;在地质勘探中,根据某地的地质结构、化探和物探等各项指标得出该地的矿物类型。Bayes判别和主成份分析法的结合可以处理有较大量的数据资料,且机理不甚清楚的问题,并能够进行有效的分析和提炼出关键因素,从而找到内在规律,对问题做出科学判断。 七 参考文献1 梅长林 范金城,数据分析方法,北京:高等教育出版社,2006。2 韩中庚 数学建模方法及其应用,北京:高等教育出版社,2005。3 姜启源 谢金星 数学模型,北京:高等教育出版社,2003。4 邰淑彩 应用数理统计,武汉:武汉大学出版社,2005。

24、八 附录附录一Bayes判别法模型的程序PROC import out= WORK.shuju datafile= H:shuju.xls dbms=excel2000 replace; getnames=yes;RUN;proc discrim data=shuju testdata=shuju method=normal list all crosslist crossvalidate testlist;class leixing;var x1-x7; priors prop;run;附录二 问题二的程序data bingli;input binglihao $ x1-x7;cards;61 85.5 1.70 3.99 503 62.3 238 762.662 144 0.70 15.1 547 79.7 71.0 218.563 85.7 1.09 4.2 790 170 45.8 257.964 176 0.57 27.3 318 133 99.4 318.865 192 7.06 32.9 1969 343 103 55366 188 8.28 22.6 1208 231 1314 137267 153 5.87 34.8 328 163

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论