10多元统计分析.doc_第1页
10多元统计分析.doc_第2页
10多元统计分析.doc_第3页
10多元统计分析.doc_第4页
10多元统计分析.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

10 1 判别分析 10 1 1 判别分析的基本概念判别分析的基本概念 医学研究中 常根据观察到的数据资料 对所研究的对象进行分类 如根据病人的各种 症状 体征和各种检验结果 判别病人患的是哪一种疾病 根据细菌的形态和生化特征 判别其属于哪一种菌株等 判别分析是对已知有确切类别的一批样品资料 根据其判别 指标 例如症状 体征 检验结果等 应用一定的统计方法建立判别函数 或量表 进而对给定的新样品判断其归属哪一类总体 根据资料的性质 可分为定性资料的判别分析和定量资料的判别分析 根据建立判 别函数的判别准则 又有 Fisher 判别分析 Bayes 判别分析 距离判别分析等方法 本 节介绍国内常用的几种判别分析方法以及如何在 SAS 软件中实现 无论何种判别分析方法 其步骤为 以疾病诊断为例 收集训练样本 收集一批已知为 G 种不同类型的病人组成训练样本 作为训练样本的每 个个体均需经金标准确诊 根据专业测定或调查每个病人对诊断可能有影响的体征或检 测结果指标 m 项 选择判别方法 根据专业问题特性和资料的性质选择相应的判别分析方法 就训练样本 资料建立判别函数 或判别量表 并作假设检验 回代考核 将训练样本每个个体的各项指标回代到所建立的判别函数 作出类别判断 并与训练样本的原确诊类别进行比较 计算回代符合率 以考核所建立函数的判别效果 前瞻考核 当回代符合率较高时 可用已确诊的新个体的各项指标代入判别函数 计算 判别符合率 又称外推符合率 进一步考核所建立函数的效果 前瞻考核常见的方法 有两种 一是当训练样本较大时 先将训练样本分成两部分 一部分用作建立判别函数 另一部分作为前瞻考核的个体 二是用刀切法或称交叉检验 这种方法的做法是将训练 样本 1 到 N 个个体每次去掉一个 用其余 N 1 个样品拟合判别函数用以判别所去掉的 1 个样品的类别 如此求得训练样本判别函数判断与原确诊类别的符合率 10 1 2 定性资料的最大似然判别法定性资料的最大似然判别法 1 方法概述 这种方法适合于全部或大部分指标为定性或分类变量 少量定量或数值变量指标则 可转化为有序多分类变量 所研究医学问题的总体类别可以是两类或多类 各类间是一 个互斥的完备集 从理论上讲 这种判别方法要求各指标 变量 间相互独立 实际应 用中这种要求难以达到 则应尽量选择彼此独立或近似独立的指标 避免用彼此高度相 关的指标 以提高运用该法的实际效果 作定性资料的最大似然判别分析 常将资料整理成表 10 1 的形式 设研究问题有 G 2 个总体类别 记为 判别指标有 m 项记为 第 G21i y y y y m21j x x x x j 项指标有 K 种表现 或称水平 记为 j x K 2 1k xjk 对如表 10 1 形式的资料 可分别计算各类别下每项指标的各种表现的出现频率 即 为频数 当样本含量较大时 可作为条件概率的 K 1k ijkijkijk nnf ijk n ijk f y x p ijk 估计值 其意义是患第种疾病的患者出现第 j 种指标中第 k 种表现的可能性 对于第 i y 种疾病 m 项指标中每项指标均有特定表现 同一指标 不同疾病的表现也不同 因 i y 此 对于未知类别个体 根据条件概率的意义和该个体的各指标表现 可通过综合比较 各种疾病类别下所有 m 项指标的表现的条件概率 来判断该个体的疾病类别 根据概率 定理中关于独立事件的乘法定理 第类别下 m 项指标某种表现同时出现的概率等于 i y 各指标条件概率之和 类别下 m 项指标某种表现发生的可能性称为联合概率或似然 i y 值 记为 则为 i L i L 10 1 m 1j ijkimkik2ik1i y x p y x p y x p y x pL 对于某一样品 可分别求得值 比较其值大小 从中挑选最大值 Gi21 L L L L 假设为 则其样品属于类 实际应用中为简化计算常将条件概率作如下转换 i L i y 10 2 101 y x plgl ijkijk 称为评分指数 其取值在 10 10 之间 则类下的似然值为 ijk l i y m 1j ijki lL 在最大似然判别法中 再考虑各类总体类别的先验概率 则称 Bayes 公式判别法 y p i 其原理是按 Bayes 逆概率公式 当某样品在各类别指标出现其特定表现时 计算该样品 a 归属各类别的事后概率 10 3 m 1j ijk G 1i i m 1j ijki i y x p y p y x p y p a y p 由于式 10 3 中分母在各类指标是相同的 所以只比较分子大小 与式 a y p i 10 1 比较 差别在 将作如下转换 y p i y p i 10 1 y p lgl ii Bayes 公式判别法的评分指数计算公式为 10 4 i m 1j ijki llL 2 应用实例的 SAS 程序 例例 10 1 某医院放射科拟用表 10 1 所示的 12 个放射学征象来判别 4 种常见先天性心脏病 y1 房间隔缺损 y2 室间隔缺损 y3 动脉导管未闭 y4肺动脉瓣狭窄 作定性资 料的判别分析 表表 10 110 1 用作判别的用作判别的 1212 项放射学征象指标项放射学征象指标 Y1Y2Y3Y4 Xj xjk 例数 例数 例数 例数 X11 001325 513 213 8 X126093 82447 12580 62596 2 X13 0023 90000 X14 46 31223 5412 900 X1 X15 000013 200 X21 69 42345 1929 01350 0 X224976 61427 5619 4830 8 X2 X23 914 11427 51651 6519 2 X314976 64384 33110026100X3 X321523 4815 70000 X412031 351100311001661 5X4 X424468 800001038 5 X51 46 32956 91341 9623 1 X526093 81733 31445 21765 4 X5 X53 0059 8412 9311 5 X61641001325 5722 626100 X62 002345 192900 X6 X63 001529 41548 400 X713250511003110026100X7 X723250000000 X814976 62447 1001661 5 X82 46 31631 4619 41038 5 X831117 21121 6619 400 X8 X84 00001961 300 X91 34 73160 81341 913 8 X923554 71019 61341 9934 6 X9 X932640 61019 6516 11661 5 X101 0000002284 6 X102 34 73670 6825 8415 4 X1033046 947 892900 X10 X1043148 41121 61445 200 X1115890 64180 4228826100X11 X112 69 41019 631200 X121 813 839782278 626100X12 X1225086 21122621 400 SAS 程序 DATA D1 INFILE D1P10 DAT LET M 12 LET G 4 ARRAY K ARRAY Y K 1 5 K 2 3 K 3 2 K 4 2 K 5 3 K 6 3 K 7 2 K 8 4 K 9 3 K 10 4 K 11 2 K 12 2 表示各指标的水平数 DO I 1 TO DO L 1 TO K I DO J 1 TO INPUT A IF A F Wilks Lambda 0 30110510 9 2844 3 12 0 0019 Pillai s Trace 0 69889490 9 2844 3 12 0 0019 Hotelling Lawley Trace 2 32109951 9 2844 3 12 0 0019 Roy s Greatest Root 2 32109951 9 2844 3 12 0 0019 SAS 做了多种检验 所得结果相同 p 0 0019 说明两类多指标总均值向量之间差异有统 计学意义 其次 输出判别函数的常数和系数 Discriminant Analysis Linear Discriminant Function G 1 2 CONSTANT 185 05970 174 38282 X1 0 45974 0 47847 X2 0 57811 0 55062 X3 98 60300 89 26488 将两组的常数和系数相减 即得 Fisher 线性判别函数 如第二组减去第一组 得 321 x3381 9 x0275 0 x0187 0 67688 10y 将某样品的各指标值 x1 x2和 x3代入判别函数 若计算出的 y0 则判为第二类 若 y 0 则无法判断 以下输出训练样本个体样品错误分类和回代考核符合率 Discriminant Analysis Classification Results for Calibration Data D2P11 Resubstitution Results using Linear Discriminant Function Generalized Squared Distance Function Posterior Probability of Membership in each G Posterior Probability of Membership in G Obs From Classified G into G 1 2 14 2 1 0 6785 0 3215 Misclassified observation 由此可见有一例 14 号 病人错分为正常人 总的回代考核效果如下 Discriminant Analysis Classification Summary for Calibration Data D2P11 Resubstitution Summary using Linear Discriminant Function Generalized Squared Distance Function Posterior Probability of Membership in each G Number of Observations and Percent Classified into G From G 1 2 Total 1 10 0 10 100 00 0 00 100 00 2 1 5 6 16 67 83 33 100 00 Total 11 5 16 Percent 68 75 31 25 100 00 本例第一组正常人判对 10 例 错判率 0 病人组判对 5 例 占 83 33 错判 1 例占 16 67 最后输出的是刀切法 交叉有效性 考核的个体样品错分信息和外推符合率 Discriminant Analysis Classification Results for Calibration Data D2P10 Cross validation Results using Linear Discriminant Function Generalized Squared Distance Function Posterior Probability of Membership in each G Posterior Probability of Membership in G Obs From Classified G into G 1 2 1 1 2 0 3484 0 6516 7 1 2 0 3369 0 6631 14 2 1 0 9667 0 0333 Misclassified observation Discriminant Analysis Classification Summary for Calibration Data D2P10 Cross validation Summary using Linear Discriminant Function Generalized Squared Distance Function Posterior Probability of Membership in each G Number of Observations and Percent Classified into G From G 1 2 Total 1 8 2 10 80 00 20 00 100 00 2 1 5 6 16 67 83 33 100 00 Total 9 7 16 Percent 56 25 43 75 100 00 本例刀切法考核结果为第一组正常人判对 8 例占 80 第 1 例和第 7 例两例判错 病人组 第 14 例判错 判对 5 例占 83 33 10 1 4 定量资料的定量资料的 Bayes 多类判别与多类判别与 Discrim 过程过程 1 方法概述 多类Bayes判别适用于计量资料中多类判别的分类问题 当然也适用于两类判别 这种方法为概率型判别方法 理论上要求多个总体符合多元正态分布且协方差相等 设 有G类 用于判别的指标有m个 则Bayes线性判别函数为 g 1 2 G 10 13 mmg2g21g1g0gg xcxcxccplny 公式 10 13 包括了 G 个分类判别函数 其中为各类的先验概率 它是各类总体中第 g g p 类所占的比例 和为常数项 为的判别系数 和均 g pln og c m 2 1i cig i x og c ig c 为判别分析中待估的系数 若已求得和 并建立如公式 10 13 的判别函数时 要 g0 c ig c 判别样品所属类别 则把该病例的判别指标的值代入所拟合的 G 个判别函 m21 x x x 数 算得 G 个 y 值 哪个 y 值最大就判别该病例属于哪一类 该样品 记 G21 y y y 为 a 归属各类的事后概率为 10 14 G 1g gg yexp yexp a g pG 2 1g 1 Bayes 判别准则 由 Fisher 判别和最大似然法可知 按任何法则所建立的判别法均不 可避免地存在错分现象 因而不可避免地存在错分所造成的损失 Bayes 判别法求系数 并建立线性判别函数的准则是要求错分所造成的损失达到最小 记 g 类错分为类 ig c g 的概率为 其损失表示为 Bayes 判别法要求错分造成的期望损失 记为 g g p g g L I g g G 1g g g g L g g ppI 达到最小 假设任一类错分为另一类的损失相同 理论上可以证明平均期望损失最小相 当于个体归属于相应类的概率最大 2 多类Bayes 判别法的SAS软件实现 多类 Bayes 判别分析在 SAS 统计软件中可直接通过 Discrim 过程实现 若要对判别指标 进行筛选 将对类别判断有统计意义的判别变量建立线性判别函数 在 Discrim 过程前 可先作 Stepdise 过程 详见后述 2 应用实例的SAS程序 例例 10 3 某医院研究心电图指标对健康人 g 1 硬化症患者 g 2 和冠心病患者 g 3 的鉴别能力 现获得训练样本 健康人 10 人 n1 硬化症患者 7 人 n2 和冠 心病患者 5 人 n3 资料见表 10 4 表表10 4 3类类23人的心电图人的心电图4个指标数据个指标数据 GkX1gkX2gkX3gkX4gkGkX1gkX2gkX3gkX4gk 1 18 11261 0113 23 7 36216 80308 9015 11 8 49 1 29 36185 39 9 02 5 99228 68258 6914 02 7 16 1 39 85249 5815 61 6 11235 67355 5415 13 9 43 1 42 55137 13 9 21 4 35248 10476 69 7 3811 32 1 56 01231 3414 27 8 79253 71316 3217 12 8 17 1 69 64231 3813 03 8 53265 37274 5716 75 9 67 1 74 11260 2514 7210 02279 89409 4219 4710 49 1 88 90259 9114 16 9 79 1 97 71273 8416 01 8 79315 22330 3418 19 9 61 1107 51303 5919 14 8 53324 71331 4721 2613 72 1118 06231 0314 41 6 15334 71352 5020 7911 00 343 36347 3117 9011 19 358 27189 5612 74 6 94 试用 Bayes 判别法作 4 个判别指标 3 个类别的判别分析 1 SAS 程序 D3P10 PRG DATA D3 INFILE D3P10 DAT INPUT G X1 X4 PROC DISCRIM METHOD NORMAL POOL YES MANOVA LISTERR CROSSLISTERR CLASS G VAR X1 X4 PRIORS PROP RUN SAS 程序说明 本程序先建立数据文件 D3P10 dat 于当前目录中 用 INFILE 调入 变 量名 G 为组别 x1 x4 为四个判别指标 PROC DISCRIM 为判别分析过程 其选项 method pool manova listerr 和 crosslisterr 的含义同 SAS 程序 D2P10 PRG 的解释 在 run 语句前的 priors 语句为指定先验概率的语句 它有 3 种指定方法 priors EQUAL 表示各类先验概率相等 这是缺省值 priors PROP 表示各类先验概率等 于各类样本频率 priors 1 p1 2 p2 3 p3 这里 p1 p2 p3是 3 个小数 其和为 1 它 们分别表示三类的先验概率 由用户指定 2 输出结果及其解释 先输出多变量方差分析结果 Multivariate Statistics and F Approximations S 2 M 0 5 N 7 5 Statistic Value F Num DF Den DF Pr F Wilks Lambda 0 36946005 2 7421 8 34 0 0189 Pillai s Trace 0 77801799 2 8651 8 36 0 0142 Hotelling Lawley Trace 1 30748079 2 6150 8 32 0 0252 Roy s Greatest Root 0 82168294 3 6976 4 18 0 0229 NOTE F Statistic for Roy s Greatest Root is an upper bound NOTE F Statistic for Wilks Lambda is exact 本例 3 类多指标间的方差分析 据程序提示应取 Wilks Lambda 检验结果 p 0 0189 有 统计学意义 其次输出函数的常数和系数 Discriminant Analysis Linear Discriminant Function G 1 2 3 CONSTANT 20 63742 26 24656 28 39247 X1 1 73089 1 44463 1 29920 X2 0 00982 0 05205 0 01751 X3 1 01854 1 00863 1 24928 X4 1 35982 0 77764 1 78872 由此可得判别函数 43211 x35982 1 x01854 1 x00982 0 x73089 1 63742 20y 43212 x77764 0 x00863 1 x05205 0 x44463 1 24656 26y 43213 x78872 1 x24928 1 x01751 0 x29920 1 39247 28y 当程序中有 priors 语句时 常数项 constant 为 而当程序中无 priors 语句 ogg cpln 时 常数项为 建立判别函数时需增加 g0 c g pln 将某个样品的各指标值 如本例的 x1 x2 x3和 x4 代入判别函数 分别计算得到 y1 y2 y3 若 y1最大 则将该样品判为第一类 同理 y2最大 则将该样品判为第二类 若 y3最大则将该样品判为第三类 再输出训练样本的错判信息和回代考核效果 Discriminant Analysis Classification Results for Calibration Data WORK D3 Resubstitution Results using Linear Discriminant Function Generalized Squared Distance Function Posterior Probability of Membership in each G Posterior Probability of Membership in G Obs From Classified G into G 1 2 3 7 1 3 0 4253 0 0719 0 5028 13 2 1 0 7882 0 1798 0 0319 17 2 3 0 4325 0 1122 0 4553 19 3 2 0 1599 0 4662 0 3739 23 3 1 0 9660 0 0154 0 0186 Misclassified observation Discriminant Analysis Classification Summary for Calibration Data WORK D3 Resubstitution Summary using Linear Discriminant Function Generalized Squared Distance Function Posterior Probability of Membership in each G Number of Observations and Percent Classified into G From G 1 2 3 Total 1 10 0 1 11 90 91 0 00 9 09 100 00 2 1 5 1 7 14 29 71 43 14 29 100 00 3 1 1 3 5 20 00 20 00 60 00 100 00 Total 12 6 5 23 Percent 52 17 26 09 21 74 100 00 本例第一组判对 10 例 90 91 第 7 例错判为为第三组 第二组判对 5 例 71 43 第 13 例和第 17 例分别错判为第一组和第三组 第三组判对 3 例 60 00 第 19 例和第 23 例分别错判为第二组和第一组 最后输出交叉有效性检验结果和个体样品的错判信息 Discriminant Analysis Classification Results for Calibration Data WORK D3 Cross validation Results using Linear Discriminant Function Posterior Probability of Membership in G Obs From Classified G into G 1 2 3 7 1 3 0 2201 0 0768 0 7031 10 1 2 0 2262 0 4816 0 2922 13 2 1 0 8813 0 0867 0 0320 17 2 3 0 4711 0 0327 0 4963 19 3 2 0 1908 0 5374 0 2718 23 3 1 0 9969 0 0031 0 0000 Misclassified observation Discriminant Analysis Number of Observations and Percent Classified into G From G 1 2 3 Total 1 9 1 1 11 81 82 9 09 9 09 100 00 2 1 5 1 7 14 29 71 43 14 29 100 00 3 1 1 3 5 20 00 20 00 60 00 100 00 Total 11 7 5 23 Percent 47 83 30 43 21 74 100 00 本例第一组判对9例 81 82 第7 10例错判为第三类和第二类 第二组判对5例 71 43 第13 17例错判为第一组和第三组 第三组判对3例 60 00 第19 23 例分别错分为第二类和第一类 10 1 5 逐步判别分析逐步判别分析 与多元线性回归分析一样 判别分析中当判别指标较多时 也有指标筛选的问题 常用 的方法是 Bayes 逐步判别 筛选变量的方法有前进法 后退法和逐步法三种 每步引进 或剔出一个变量 其标准是通过计算 Wilks 量进而作 F 检验 因而 需确定显著性水平 和 F 值 逐步判别分析只能保证对类别判断有统计意义的变量建立判别函数 并不一定是平均错 判率最小的判别函数 逐步判别分析在 SAS 软件中可通过 STEPDISC 过程来实现 PROC STEPDISC 只选出有统计 意义的变量 但并不给出判别函数等内容 因而在用 PROC STEPDISC 选出变量后再用 PROC DISCRIM 作判别分析 这是只要在 VAR 语句中保留有统计意义的变量即可进行分析 对例 10 3 先用 PROC STEPDISC 进行变量筛选 再用 PROC DISCRIM 作判别分析 其 SAS 程序为 DATA D4 INFILE D3P10 DAT INPUT G X1 X4 PROC STEPDISC METHOD SW FW BW SLE SLS CLASS G VAR X1 X4 RUN DATA D5 INFILE D3P10 DAT INPUT G X1 X4 PROC DISCRIM MANOVA LISTERR CROSSLISTERR CLASS G VAR X2 X4 PRIORS PROP RUN PROC STEPDISC 中 method 选项可选择逐步法 SW 缺省为 SW 向前法 FW 和 向后法 BW sle 和 sls 可分别指定引入变量和剔除变量的显著性水平 隐含值为 0 15 输出结果如下 详细解释从略 Stepwise Discriminant Analysis Stepwise Selection Step 1 Statistics for Entry DF 2 20 Variable R 2 F Prob F Tolerance X1 0 1474 1 729 0 2030 1 0000 X2 0 4016 6 712 0 0059 1 0000 X3 0 2272 2 939 0 0760 1 0000 X4 0 2993 4 272 0 0285 1 0000 Variable X2 will be entered The following variable s have been entered X2 Multivariate Statistics Wilks Lambda 0 59838416 F 2 20 6 712 Prob F 0 0059 Pillai s Trace 0 401616 F 2 20 6 712 Prob F 0 0059 Average Squared Canonical Correlation 0 20080792 Stepwise Selection Step 2 Statistics for Removal DF 2 20 Variable R 2 F Prob F X2 0 4016 6 712 0 0059 No variables can be removed Statistics for Entry DF 2 19 Partial Variable R 2 F Prob F Tolerance X1 0 1576 1 777 0 1961 0 9980 X3 0 1870 2 185 0 1400 0 8685 X4 0 2610 3 356 0 0565 0 4336 Variable X4 will be entered The following variable s have been entered X2 X4 Multivariate Statistics Wilks Lambda 0 44217784 F 4 38 4 786 Prob F 0 0032 Pillai s Trace 0 659917 F 4 40 4 924 Prob F 0 0025 Average Squared Canonical Correlation 0 32995852 Stepwise Selection Step 3 Statistics for Removal DF 2 19 Partial Variable R 2 F Prob F X2 0 3689 5 554 0 0126 X4 0 2610 3 356 0 0565 No variables can be removed Statistics for Entry DF 2 18 Partial Variable R 2 F Prob F Tolerance X1 0 1077 1 087 0 3585 0 3897 X3 0 0759 0 739 0 4914 0 3473 No variables can be entered No further steps are possible Stepwise Selection Summary Variab l Number Partial F Prob Wilks Prob Step Entered Removed In Correlation ASCC 1 X2 1 0 20080792 0 0059 2 X4 2 0 32995852 0 0025 程序D5P10 PRG结果 Discriminant Analysis Multivariate Statistics and F Approximations S 2 M 0 5 N 8 5 Statistic Value F Num DF Den DF Pr F Wilks Lambda 0 44217784 4 7865 4 38 0 0032 Pillai s Trace 0 65991705 4 9244 4 40 0 0025 Hotelling Lawley Trace 1 03064253 4 6379 4 36 0 0040 Roy s Greatest Root 0 70150669 7 0151 2 20 0 0049 NOTE F Statistic for Roy s Greatest Root is an upper bound NOTE F Statistic for Wilks Lambda is exact Linear Discriminant Function G 1 2 3 CONSTANT 10 03389 17 63629 18 30927 X2 0 03075 0 06937 0 03276 X4 1 46689 0 98527 2 23068 Classification Results for Calibration Data WORK D5 Resubstitution Results using Linear Discriminant Function Generalized Squared Distance Function Posterior Probability of Membership in each G Posterior Probability of Membership in G Obs From Classified G into G 1 2 3 10 1 2 0 4295 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论