版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数学建模疾病的诊断现要你给出疾病诊断的一种方法。胃癌患者容易被误诊为萎缩性胃炎患者或非胃病者。从胃癌患者中抽取 5 人(编号为 1-5 ),从萎缩性胃炎患者中抽取5 人(编号为 6-10 ),以及非胃病者中抽取 5 人(编号为 11-15 ),每人化验 4 项生化指标:血清铜蓝蛋白( X1 )、蓝色反应( X 2 )、尿吲哚乙酸( X3 )、中性硫化物( X 4 )、测得数据如表 1 所示:表 1.从人体中化验出的生化指标No.12345678910X1228245200170100255130150120160X 2X31341341671501671251001171331000.20.1
2、0.120.070.200.070.060.070.10.05X 40.110.40.270.080.140.140.120.060.260.1011121314151851701651351001151251421081170.050.060.050.020.070.190.040.080.120.02根据数据,试给出鉴别胃病的方法。论文题目:胃病的诊断摘要在临床医学中,诊断试验是一种诊断疾病的重要方法。好的诊断试验方法将对临床诊断的正确性和疾病的治疗效果起重要影响。 因此,对于不同疾病不断发现新的诊断试验方法是医学进步的重要标志。传统的诊断试验方法有生化检测、 DNA检测和影像检测等方法。
3、而本文则通过利用多元统计分析中的判别分析及 SPSS软件的辅助较好地解决了临床医学中胃病鉴别的问题。 在临床医学上, 既提高了临床诊断的正确性, 又对疾病的治疗效果起了重要效果,同时也减轻了病人的负担。判别分析是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则, 建立一个或多个判别函数, 用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。首先,由判别分析定义可知,只有当多个总体的特征具有显著的差异时,进行判别分析才有意义,且总体间差异越大,才会使误判率越小。因此在进行判别分析时,有必要对总体多元变量的均值进行
4、是否不等的显著性检验。其次,利用判别分析中的费歇判别和贝叶斯判别进行判别函数的建立。最后,利用所建立的判别函数进行回判并测得其误判率,以及对其修正。本文利用 SPSS软件实现了对总体间给类变量的均值是否不等的显著性检验并根据样本建立了相应的费歇判别函数和贝叶斯判别函数,最后进行了回判并测得了误判率,从而获得了在临床诊断中模型,给临床上的诊断试验提供了新方法和新建议。关键词:判别分析;判别函数; Fisher 判别; Bayes 判别一问题的提出在传统的胃病诊断中,胃癌患者容易被误诊为萎缩性胃炎患者或非胃病患者,为了提高医学上诊断的准确性, 也为了减少因误诊而造成的病人死亡率,必须要找出一种最准
5、确最有效的诊断方法。 为诊断疾病, 必须从人体中提取4 项生化指标进行化验, 即血清铜蓝蛋白、蓝色反应、尿吲哚乙酸、 中性硫化物。 但是,从人体中化验出的生化指标,必须要确定一个精准的指标来判断疾病所属的类型。设想,使用判别分析法, 利用 SPSS软件对各个变量进行系统的分析,使该问题得到有效地解决。二、问题的分析由题意可知,目的就是为了建立一种模型,解决医学上的这种误诊问题。在该问题中,必须确定血清铜蓝蛋白、蓝色反应、尿吲哚乙酸、中性硫化物与胃癌、萎缩性胃炎的关系。衡量该四项指标的数学要点必然是相应的标准差、方差、均值等,同时,会建立一个或几个函数分析其间关系的正相关或负相关,即其具有一定的
6、相关性, 然后利用所给数据求解出一定的数学模型表达式,便可求解出胃病的鉴别方法。三、符号的说明X1:血清铜蛋白X2:蓝色反应X3:尿吲哚乙酸X4:中型硫化物N: 被调查的样本数Wilks 的 lambda:组内平方和与总平方和之比(当所有观测的组均值相等时,Wilks 的lambda值为 1;当组内变异与总变异相比小时,Wilks 的lambda值接近于0。因此,Wilks 的 lambda值大,表示各个组的均值基本相等;Wilks 的lambda小表示组间有差异。在判别分析中,只有组均值不等时,判别分析才有意义)F:F值, F分布中的统计检定值df:自由度sig.:统计显著性,即出现目前样本
7、的机率P:p值四、问题的假设1. 该四项生化指标是分别可以测得的。2. 每个生化指标都不是其他三个指标的线性组合,即两两之间无相关性。3. 被抽取的三类人员中彼此没有任何血缘关系。4. 除了本题研究的疾病外,被调查的人员无任何疾病。五、模型的建立根据以上的分析,回忆所学的知识,发现该问题符合判别分析法的要求,因此可以用判别分析法来求解, 其中,判别分析法可以分为: 距离判别法、 Fisher 判别法、Bayes判别法等。 SPSS软件是统计分析软件之一,它可以进行各种统计分析工作。另外,它所具有的强大的图形输出功能, 使运行该软件不仅可以得到各种数字分析结果, 还可以得到各种直观、清晰、漂亮的
8、统计图形。从而利用软件 SPSS,将所有的数据输入进去,便可以得到协方差矩阵、自由度、 p 值、均值、标准差等与该问题相关的有利于分析问题的数据及图形。现在主要利用 Fisher 判别法、 Bayes 判别法来处理该问题。Fisher判别法的基本思想:从 k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的构造一个线性判别函数:U (X )u1 X1u2 X 2up X pu X,其中系数 u (u1, u2 , ,u p ) 确定的原则是使得总体之间区别最大, 而使每个总体内部的离差最小。有了线性判别函数 U后,对于一个新的样品, 将它的 p 个指标值代入以上线性判别函数式中求出 U
9、 (X ) 值,然后根据判别一定的规则, 就可以判别新的样品属于哪个总体。Bayes 判别法的基本思想:设有k 个总体 G1 , G2 , ,G k ,其各自的分布密度函数f1 (x), f 2 ( x), f k ( x) 互不相同的,假设 k 个总体各自出现的概率分别为 q1 , q2 , ,qk (先k验概率), qi0 ,qi1。假设已知若将本来属于 Gi 总体的样品错判到总体 G j 时造i1成的损失为 C ( j | i) ,i , j1,2, k 。在这样的情形下, 对于新的样品 X 判断其来自哪个总体。通过这两种方式利用软件SPSS来求解,得出的数据在分析比较后,就可以得出结果
10、。六、模型的求解1.spss操作步骤如下( 1)建立数据文件在数据窗口中输入上入待分析的数据。( 2)按顺序单击分析分类判别菜单项, 如图 -1 所示,系统弹出判别分析的对话框,如图 -2 所示图 -1 先选择菜单进入判别分析对话框注: X1 :血清铜蛋白X2 :蓝色反应X3 :尿吲哚乙酸X4 :中型硫化物( 3)选择参与判别分析的变量及其他相关设置1)分组变量框:从左侧选入分类变量“类型”于分组变量框中。2)定义范围按钮:定义分类变量的取值范围。单击分类变量按钮,系统弹出一个对话框,如图 -3所示。最小值输入 1,最大只输入 3.完成设置后,单击继续按钮,返回判别分析主对话框,见图 -2.图
11、-2 判别分析的主对话框图-3 指定分类变量范围对话框3)自变量列表框:从左侧的变量列表将参与判别分析的变量“X1 X4 ”于其中,如图 -4所示。4)一起输入变量单按钮:表示选择所有变量参与判别分析,如图-4所示。图-4( 4)判别分析的统计输出设置。单击统计量按钮,系统弹出一个对话框,如图-5所示。图 -5 判别分析的统计输出设置1)描述性框:描述统计量选项组,包括3个复选框项,复选均值复选框和单变量复选框。如图 -5所示均值复选框:各类中个变量的均值、标准差和各自变量总样本的均值、标准差;单变量复选框:变量均值的单因子差异假设实验。2) 函数系数框:判别函数系数选项组,复选Fisher复
12、选框和未标准化复选框,如图-5所示。Fisher复选框:给出贝叶斯判别函数的系数。未标准化复选框:给出未标准化的Fisher判别函数的系数。( 5)指定判别分析的有关参数及有关输出结果设置。单击分类按钮,系统弹出一个对话框,如图 -6所示。图-6 指定参数与结果对话框1)先验概率框:先验概率选项组,包括两个单选项,单选所有组相等框如图-6所示。所有组相等框:个二类先验概率相等。2)输出框:分类结果选项组,包括三个复选项,复选个案结果、摘要表和不考虑该个案时的分类复选框如图 -6所示。个案结果复选项:对每个样品输出判别函数值、实际类、预测类和后验概率。摘要表复选项:输出分类小结,给出正确分类的样
13、品数、错分样品数和错分率。不考虑该个案时的分类复选项:交叉验证的判别分类结果。3)使用协方差矩阵框:分类使用的协方差矩阵,单选在组内单选项如图-6所示。在组内单选项:使用合并类内协方差矩阵。4)图框:复选合并组、分组和区域图复选框如图-6所示。合并组复选项:使出包括各个类的散点图。分组复选项:每类输出一个散点图。区域图复选项:输出领域图。所有设置完成后,单击继续按钮返回判别分析主对话框。图 -7 建立新变量对话框( 6)单击保存按钮,系统弹出一个对话框,复选预测组成员、判别得分和组成员概率复选项如图 -7 所示。1)预测组成员复选项:根据判别函数的值,按后验概率计算预测分类结果。2)判别得分复
14、选项:建立判别函数值变量。3)组成员概率复选项:建立新变量,表明每一个样品属于某一类的概率。所有设置完成后,单击继续按钮返回判别分析主对话框。( 7)上述设置完成后,单击确定按钮进行判别分析,得到输出结果。七、模型的结果( 1)描述性输出分析案例处理摘要未加权案例N百分比有效15100.0排除的缺失或越界组代码0.0至少一个缺失判别变量0.0缺失或越界组代码还有至少一0.0个缺失判别变量合计0.0合计15100.0图 -8图 -8表示有效样本及样本变量的实际情况。组均值的均等性的检验Wilks的 LambdaFdf1df2Sig.x1.888.758212.490x2.4268.074212.
15、006x3.4427.564212.007x4.7861.633212.236图-9由图 -9 可知显著水平 X2、X3最大,而 X1、X4显著水平最小。但是由于判别变量间可能相互关联,仅单独检验是不够的。 但是通过将 X1和 X4分别与 X2和X3联合后发现, 他们对判别的提高有很大的贡献。组统计量有效的 N(列表状态)类型均值标准差未加权的已加权的1x1188.600057.1384355.000x2150.400016.5015255.000x3.1380.0593355.000x4.2000.1332355.0002x1163.000053.8052055.000x2115.00001
16、4.8155355.000x3.0700.0187155.000x4.1360.0753755.0003x1151.000033.8008955.000x2121.400013.0115355.000x3.0500.0187155.000x4.0900.0678255.000合计x1167.533348.475131515.000x2128.933321.049151515.000x3.0860.052211515.000x4.1420.100941515.000图-10上表(图 -10)表示各组变量的描述统计情况,给出了各个类型的均值、标准差等统计量。通过这些数据,可以大致了解3种类型在这
17、4个指标上的差异。( 2)判别函数的检验特征值函数特征值方差的 %累积 %正则相关性12.768 a93.593.5.8572.192 a6.5100.0.402a.分析中使用了前2个典型判别式函数。图-11Wilks的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1到 2.22315.7758.0462.8391.8473.605图-12“特征值”(图 -11 )表格给出了两个典型判别函数所能解释的方差变异,其中第一个函数解释了所有变异的 93.5%,第二个函数解释了余下的6.5%。因而第二个函数的相对重要性远远小于第一个函数。“ Wilks 的lambda”(图 -12
18、 )表格用来检验各个判别函数有无统计学上的显著意义,根据该表反应的值, 这些数据表明, 第二个判别函数对判别组仍有显著贡献 (犯错概率为60.5%)。( 3)典型判别式函数摘要标准化的典型判别式函数系数函数12x1.382.011x2.567-.861x3.673.633x4.296.515结构矩阵函数12图 -13x3.670 *.314x1.208 *.178图 -14x2.673-.696 *x4.296.390 *判别变量和标准化典型判别式函“标准化的典型判别式函数系数”数之间的汇聚组间相关性表格(图 -13)是两个判别函数中各个变量的标准化系按函数内相关性的绝对大小排序数,由此可以判
19、断各的变量。构矩阵” (图 -14)给个函数主要受那些变量的影响; “结*.每个变量和任意判别式函数间出的是判别变量和标准化判别函数最大的绝对相关性之间的相关性数据,同样可以用来判断各个函数受那些判别变量的影响最大。对于判别函数1,变量 X2 、X3的判别意义最大,而对判别函数2变量 X3 、X4的判别意义最大。( 4)未标准化系数和质心函数典型判别式函数系数组质心处的函数函数函数12类型12x1.008.00012.095-.053x2.038-.0582-.873.505x317.95416.8803-1.221-.452x43.0625.327在组均值处评估的非标准化典型( 常量 )-8
20、.2045.228判别式函数非标准化系数图 -15图 -16非标准化系数在使用时可以直接通过原始变量进行计算,如图-15所示。“组质心处的函数”(图 -16 )表格给出的是各类别的重心在平面上的坐标, 如类型一的坐标是( 2.095 ,-0.053 ). 只要根据这里的典型判别函数(未标准化的) ,计算出每个观测的平面坐标,再计算它们和各类重心的距离,就可以判断其类型归属。(5) Fisher 判别函数分类函数系数类型123x1.127.104.101x2.715.569.611x368.59924.7232.328组的先验概率x44.742-1.376-7.537用于分析的案例(常量)-71
21、.993-43.041-45.525类型先验未加权的已加权的Fisher的线性判别式函数1.33355.0002.33355.0003.33355.000合计1.0001515.000图 -17图-18Fisher 判别函数的输出如图 -17 、图 -18 所示。根据分类函数系数表格可得出各类型的Fisher 判别函数为:g1( x)0.127* x10.715* x268.599* x34.742x471.993g2 ( x)0.104 * x10.569* x224.723* x31.376x443.041g3 ( x)0.101* x10.611* x22.382 * x37.537x4
22、45.525将某待诊者的四项生化指标分别带入到上述各类型对应的Fisher 判别函数,得到三个对应的 Fisher 函数值,根据 Fisher 后验概率最大这一判别规则,即所得函数值最大, 可以判断某待诊者所属的类型。( 6)典型判别的散点图图 -19图 -20图 -21以上三图给出的是胃癌、 萎缩性胃炎、 非胃病三种类型的判别函数值的散点图。第一个图形表示将类型1,即胃癌的 5 个样本分别代入两个典型判别函数,得到5 对判别函数值,从而构成散点图,其中,横坐标是第一典型判别函数值,纵坐标是第二典型判别函数值。在用 SPSS软件进行判别分析时,都可以得到类似的判别函数值散点图。以上三点图比较直
23、观地反映了各组观测的分类情况和各组的重心。图 -22上图给出了三种类型的典型判别函数值总的散点图,同样是把各类的样品分别代入两个典型判别函数,计算得到 15对判别函数值,从而构成这样的散点图,其中,横坐标是第一典型判别函数值, 纵坐标是第二典型判别函数值。从图中可以看出, 三种类型在图中有各自的分布领域,说明所建立的判别函数的判别精度不太好。( 7)每个个体的判别结果按照案例顺序的统计量案例数最高组第目P(D>d | G=g)到质心的平方Mahalanobis 距实际组预测组pdfP(G=g | D=d)离组P(G=g初始111.2732.9942.5972211.3692.9491.9
24、942311.5572.9981.1702413*.1142.5974.3361511.6582.999.8382622.4702.4871.5123722.4752.6751.4873823*.9072.516.1962922.4412.5641.63611022.5352.6161.25231132*.9992.611.00331233.9102.664.18821333.3172.7782.29721433.5082.6191.35421533.8972.614.2182交叉验证 a112*.0004.58338.0671212*.0054.91314.9501311.3904.9974
25、.1192413*.3944.8554.0892511.0044.99915.5392621*.1484.8246.7743722.5214.5353.2253823*.9754.566.4892921*.1934.9186.08431022.6994.5072.19831132*.9694.723.54631233.8744.6011.22221333.3284.6124.62621432*.5894.5262.81931532*.6314.5182.5773对初始数据来说,平方Mahalanobis距离基于典则函数。对交叉验证数据来说,平方Mahalanobis距离基于观察值。*.错误分类
26、的案例a.仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。图 -23上表中的案例数目列, 是所有个体的编号。 实际组列是每个个体实际上所在的类型。在最高组(具有最大分辨率)下的预测组列,是按照计算结果的类型。可以看到编号4经过判别分析后被判到了第三种类型中,即非胃病;编号8经过判别分析后被判到了第三种类型中,即非胃病;编号 11经过判别分析后被判到了第二种类型中,即萎缩性胃炎。上表中的最高组(具有最大分辨率)下的 P(D>d | G=g )列和 df 列,是在样本属于该类型而判别不是相应类型的条件概率及其自由度。表中 P(D=d
27、| G=g)列是判别样本属于相应类型, 而样本确实是相应类型的后验概率。 从表中可以看出后验概率还是比较大的。表中的最高组下的到质心的平方 Mahalanobis 距离列,是相应个体距类别重心的马氏距离的平方。上表中的第二最高组(具有第二大分辨率)下的组列,是把相应判为相应类型的情况。表中的第二最高组下的 P(D=d | G=g)是判别样本属于相应类型,而样本确实是相应类型的后验概率。表中第二最高组下的到质心的平方 Mahalanobis 距离列,与表中最高组下的定义相同。表中最后一列是两个典则判别函数之值。分类结果 b,c预测组成员类型123合计初始计数140152041530145%180
28、.0.020.0100.02.080.020.0100.03.020.080.0100.0交叉验证 a计数122152221530325%140.040.020.0100.0240.040.020.0100.03.060.040.0100.0a.仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b.已对初始分组案例中的80.0%个进行了正确分类。c.已对交叉验证分组案例中的40.0%个进行了正确分类。图 -24由图 -24可以得出该模型的判别正确率为80%,较低。八 模型的评价与改进方向在此模型下,我们是假设把所有存在的判别变量都选入判别
29、函数,并说明如何通过计算标准化判别函数系数, 辨认出不重要的判别变量, 但最后的判别正确率不太高,因此我们必须对模型进行改进。根据图 -11和图 -13可计算各个指标对整个判别函数总体的判别系数。对 X1,其判别系数为: 0.935*0.382+0.065*0.011=0.357885 ;对 X2,其判别系数为: 0.935*0.567+0.065* (-0.861 )=0.47418;对 X3,其判别系数为: 0.935*0.673+0.065*0.633=0.6704 ;对 X4,其判别系数为: 0.935*0.296+0.065*0.515=0.310235 。根据以上平均判别系数的数据
30、,可以发现 X3 的平均判别系数最大,判别意义最大;X4的平均判别系数最小,即其判别意义最小。因此,我们在此过程中可以考虑将X4舍去。通过以上类似过程, 我们可以得到每个个体的判别结果如图-25 和图 -26 所示,则最后的判别正确率为 93.3%。按照案例顺序的统计量最高组第P(D>d | G=g)到质心的平方案例数Mahalanobis距目实际组预测组pdfP(G=g | D=d)离组P(G=g初始111.0432.9966.3062211.6542.815.8482311.4152.9961.7603411.1332.4424.0313511.6562.999.8452622.41
31、12.4591.7791722.4742.6261.4933822.9822.547.0363922.5642.4541.14431022.5492.6251.19831132*.9532.523.09631233.8712.533.27621333.3382.6852.17221433.4592.6371.55721533.8822.531.2522交叉验证 a111.0003.93126.3602211.1913.5154.7462311.3183.9923.5243413*.2563.6794.0492511.0013.99915.5272621*.1603.8815.1733723*.3823.5173.0612822.9893.536.1233923*.5273.5762.22721022.5793.5331.96731132*.9423.567.39231233.9163.503.51221333.2303.4864.31221433.4453.5182.67221532*.6233.5911.7643对初始数据来说,平方Mahalanobis距离基于典则函数。对交叉验证数据来说,平方Mahalanobis距离基于观察值。*.错误分类的案例a.仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。图 -25由
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房地产销售积极心态培训
- 建材单店开业活动策划
- 模拟企业内部培训
- 广东省广州市天河区2024-2025学年八年级上学期语文期中测试卷(含解析)
- T-ZFDSA 04-2024 羊肉草果粥制作标准
- 甘肃省酒泉市金塔县等四地2024-2025学年高二上学期11月期中物理试题
- 信息技术(第2版)(拓展模块)拓展模块7 教案修改
- 2024年湖北省武汉市中考英语试题含解析
- 幼儿园幼儿安全教育教案9篇
- 婚礼摄影技巧与创意-婚礼摄影师工作坊
- 浙江工商大学论文开题报告PPT模板
- 外贸发票 PI 形式发票模板范例
- nio区域控制器架构与多控制器软件融合的思考
- 螺牙强度校核
- 2023年初中数学教师高级职称考试试题含解析
- 设备部-工作总结及-计划-课件
- 血氧饱和度监测技术操作考核评分标准
- 全文《八五普法》课件全文
- 2022年国家能源集团新能源院校园招聘笔试试题及答案解析
- FIDIC新版合同条件解读与应用课件
- 六年级上册英语教案-Unit8 Chinese New Year(story time)译林版(三起)
评论
0/150
提交评论