(北大)第五章判别分析ppt课件_第1页
(北大)第五章判别分析ppt课件_第2页
(北大)第五章判别分析ppt课件_第3页
(北大)第五章判别分析ppt课件_第4页
(北大)第五章判别分析ppt课件_第5页
已阅读5页,还剩177页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单击此处编辑母版标题样式 单击此处编辑母版副标题样式 *1 应用多元统计分析 4第五章 判 别 分 析 北大数学学院 第五章 判别分析 目 录 5.1 距离判别 5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法 5.3 Fisher(费歇)判别 5.4 判别效果的检验及 各变量判别能力的检验 5.5 逐步判别 北大数学学院 第五章 判别分析 什么是判别分析 判别分析是用于判断样品所属类型的一种统计分 析方法. 在生产、科研和日常生活中经常遇到如何根据观 测到的数据资料对所研究的对象进行判别归类的问题. 例如:在医学诊断中,一个病人肺部有阴影,医生要判 断他是肺结核、肺部良性肿瘤还是肺癌.这里肺结核病 人、良性瘤病人、肺癌病人组成三个总体,病人来源于 这三个总体之一,判别分析的目的是通过测得病人的指 标(阴影的大小,边缘是否光滑,体温多少)来判断他 应该属哪个总体(即判断他生什么病). 北大数学学院 第五章 判别分析 什么是判别分析 在气象学中,由气象资料判断明天是阴天还是晴天, 是有雨还是无雨. 在市场预测中,由调查资料判断下季度(或下个月) 产品是畅销、平常或滞销. 股票持有者根据某种股票近期的变化情况判断此 种股票价格下一周是上升还是下跌. 在环境科学中,由气象条件,污染浓度等判断该地 区是属严重污染,一般污染还是无污染. 在地质勘探中,由岩石标本的多种特征判断地层的 地质年代,是有矿还是无矿,是富矿还是贫矿. 在体育运动中,由运动员的多项运动指标来判定游 泳运动员的“苗子“是适合练蛙泳,仰泳还是自由泳等 北大数学学院 第五章 判别分析 什么是判别分析 判别分析是应用性很强的一种多元统计方法, 已渗透到各个领域.但不管是哪个领域,判别分析问题 都可以这样描述: 设有k个m维总体G1,G2,Gk,其分布特征已知(如已 知分布函数分别为F1(x),F2(x),Fk(x),或知道来自各 个总体的训练样本).对给定的一个新样品X,我们要判 断它来自哪个总体. 在进行判别归类时,由假设的前提,判别的依据及处 理的手法不同,可得出不同判别方法.如距离判别,Bayes 判别,Fisher判别或典型判别,逐步判别,序贯判别等. 本章介绍几个常用的判别方法. 北大数学学院 第五章 5.1 距离判别法 距离判别的基本思想是: 样品和哪个总体距离最近,就判它 属哪个总体. 距离判别也称为直观判别法. 我们在具体讨论距离判别法之前,应给 出合理的距离的定义. 北大数学学院 北大数学学院 北大数学学院 第五章 5.1 距离判别法 马氏距离 设备B生产的产品质量较分散,出现x0 为78的可能性仍较大; 而设备A生产的产品质量较集中,出 现x0为78的可能性较小. 判X0为设备B的产品更合理. 这种相对于分散性的距离就是本节介 绍的马氏距离. 北大数学学院 第五章 5.1 距离判别法 马氏距离 一般地,我们假设G1的分布为N(1),21),G2的分布为 N(2),22),则利用相对距离的定义,可以找出分界点*( 不妨设 (2) d2(X,G2)时, 待判, 当d2(X,G1) = d2(X,G2)时. 这里的距离指马氏距离.利用马氏距离的 定义及两总体协差阵相等的假设,可以简化 马氏距离的计算公式. 北大数学学院 第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法 对给定样品X,为比较X到各总体的马氏距离, 只须计算Yi(X ) : 北大数学学院 第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法 Ci 因为函数Yi(X)是X的线性函数 (i=1,2),故 北大数学学院 第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法 若考察这两个马氏距离之差,经计算可得: 北大数学学院 第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法 即 北大数学学院 第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法 则判别准则还可以写为: 判XG1, 当W(X)0时, 判XG2, 当W(X)2 ,则a为正数,W(x)的符号取决于 x或x77.5|X XG G 2 2 ( (X X N(75,4) ) N(75,4) ) = P( = P(X X-75)/2(77.5-75)/2-75)/2(77.5-75)/2 = P = PU U1.25 1.25 ( (U U=(=(X X-75)/2N(0,1) )-75)/2N(0,1) ) = = 1-1-(1.25)=(1.25)= 0.1056=P(2|1)0.1056=P(2|1) 北大数学学院 第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法(m=1时的错判率) 一般地,经计算可得: 由错判概率的公式及上图可见, 当两总体均 值靠得很近(即| 1 - 2 |很小)时,则错判概 率很大,这时作判别分析是没有意义的.因此只 有当两总体的均值有显著性差异时,作判别分 析才有意义. 北大数学学院 第五章 5.1 距离判别法 两总体判别:简例1 简例1 :记二维正态总体N2(i), )为Gi(i=1,2)(两总体 协差阵相同),已知来自Gi(i=1,2)的样本数据阵为 (1) 试求两总体的样本组内离差阵A1, A2和合并 样本协差阵S. (2) 今有样品x0 =(2,8),试问按马氏距离准则样 品x0应判归哪一类. 北大数学学院 第五章 5.1 距离判别法 两总体判别:简例1 (1)解: 北大数学学院 第五章 5.1 距离判别法 两总体判别:简例1 而且 北大数学学院 第五章 5.1 距离判别法 两总体判别:简例1 (2)解一:计算马氏距离 北大数学学院 第五章 5.1 距离判别法 两总体判别:简例1 (2)解二:计算线性判别函数Yi(X)(i=1,2) 北大数学学院 第五章 5.1 距离判别法 两总体判别:简例1 北大数学学院 第五章 5.1 距离判别法 两总体判别:简例1 (2)解三:计算线性判别函数W(X) 北大数学学院 第五章 5.1 距离判别法 两总体判别: 12 时的判别方法 当两总体协差阵不等时,按距离判别准则先分别计 算X到两个总体的距离d2(X,G1)和d2(X,G2),然后按距离 最近准则判别归类.或者类似地计算判别函数W(X),并 用于判别归类. 令 W(X)=d2(X,G2) - d2(X,G1)=Z(X)-Z0, 其中Z(X)为X的二次函数(因12 ),Z0是一常数 (具体表达式省略了).判别准则仍可以写为: 判XG1, 当W(X)0时, 或者 判XG2, 当W(X)0时, 待判, 当W(X)=0时. 判XG2, 当W(X)0时. 北大数学学院 第五章 5.1 距离判别法 两总体判别: 12 时的判别方法 当m=1,两总体为正态总体时,记Gi的均值为i,方差为 2i (i=1,2),这时马氏距离的平方根为 北大数学学院 第五章 5.1 距离判别法 两总体判别: 12 时的判别方法 分界点*把区间(2,1)分为两部分: D1=1 x * 和 D2=2 x*时, 判XG2, 当1 x*时, 北大数学学院 第五章 5.1 距离判别法 应用例子 例5.1.1(盐泉含钾性判别) 某地区经 勘探证明A盆地是一个钾盐矿区,B盆地是 一个钠盐矿区,其他盐盆地是否含钾盐有 待作出判断.今从A,B两盆地各抽取5个盐 泉样品;从其他盆地抽得8个盐泉样品, 18 个盐泉的特征数值见表5.1.试对后8个待 判盐泉进行含钾性判别. 北大数学学院 第五章 5.1 距离判别法 应用例子 北大数学学院 第五章 5.1 距离判别法 应用例子 解一 A盆地和B盆地看作两个不同的总 体,并假定两总体协差阵相等.本例中变 量个数m=4, 两类总体各有5个训练样品 (n1= n2=5),另有8个待判样品. 用SAS/STAT软件中的DISCRIM过程进行 判别归类. (1)首先用DATA步生成SAS数据集D511. SAS程序如下: 北大数学学院 第五章 5.1 距离判别法 应用例子的sas程序 data d511; input x1-x4 group $; cards; 13.85 2.79 7.80 49.60 A 2.18 1.06 1.22 20.60 B 8.85 3.38 5.17 26.10 . 15.00 2.70 5.02 64.00 . ; proc print ; run; 北大数学学院 第五章 5.1 距离判别法 应用例子的sas程序 (2) 调用DISCRIM过程对含钾和不含钾的A、B 两类盆地的10个样品特征测量值用距离判别的方 法,建立线性判别函数,并对已知类别的样品和 待判样品进行判别归类. proc discrim data=d511 simlpe pcov wsscp psscp distance list; class group; var x1-x4; run; 北大数学学院 第五章 5.1 距离判别法 应用例子中sas程序的选项 选项SIMPLE要求输出各类的简单描述统计量 (如两类各变量的均值、标准差等); 选项WSSCP要求输出各类的组内离差阵; 选项WCOV要求输出各类样本协差阵; 选项PCOV要求输出合并样本协差阵; 选项PSSCP要求输出合并的样本组内离差阵; 选项DISTANCE要求输出各组间的距离等统计量 (平方距离,F统计量值, p值等) ; 选项LIST要求输出按距离准则的判别结果. 北大数学学院 第五章 5.1 距离判别法 应用例子的结果分析 选项WSSCP 产生的结果 两总体的样本离差阵A1和A2 北大数学学院 第五章 5.1 距离判别法 应用例子的结果分析 选项PSSCP 产生的结果 选项PCOV 产生的结果 合并的样本组内离差阵 A=A1+A2 合并样本协差阵S=A/(n1+n2-2) 北大数学学院 第五章 5.1 距离判别法 应用例子的结果分析 组间马氏距离 d2(1,2)=37.03 检验H0: (1) =(2) 的F统计量 F=14.46 p=0.0059 北大数学学院 第五章 5.1 距离判别法 应用例子的结果分析 线性判别函数Y1(X)Y2(X) 线性判别函数 W(X)=Y1(X)-Y2(X) W(X)= -37.08458 + 4.74305 X1 + 4.19183 X2 - 8.58924 X3 + 0.72548 X4 北大数学学院 第五章 5.1 距离判别法 应用例子的结果分析 第2,3,6,7,8 五个盐泉为 含钾盐泉, 第1,4,5为 不含钾盐泉, 北大数学学院 第五章 5.1 距离判别法 多总体的距离判别 设有k个m维总体:G1,G2,Gk(k2). 它们的均值,协差阵分别为i,i(i=1,2, ,k).对任给定的m维样品X=(x1 , x2 , xm),要判断它来自哪个总体. 多个总体的情况,按距离最近的准则对 X进行判别归类时,首先计算样品X到k个总 体的马氏距离d 2i(X)(i=1,2,k),然后进 行比较,把X判归距离最小的那个总体. 北大数学学院 第五章 5.1 距离判别法 多总体的距离判别 i 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法 距离判别只要求知道总体的特征量(即参数)- 均值和协差阵,不涉及总体的分布类型. 当参数未知 时,就用样本均值和样本协差阵来估计. 距离判别方法简单,结论明确,是很实用的方法. 但该方法也有缺点: 1. 该判别法与各总体出现的机会大小(先验概 率)完全无关; 2. 判别方法没有考虑错判造成的损失,这是不 合理的. Bayes判别法正是为解决这两方面问题而 提出的判别方法. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法 Bayes的统计思想总是假定对所研究的 对象已有一定的认识,常用先验概率分布来描 述这种认识 .然后我们抽取一个样本,用样本 来修正已有的认识(先验概率分布),得到后 验概率分布. 各种统计推断都通过后验概率分布来进 行.将贝叶斯思想用于判别分析就得到贝叶斯 判别法. 北大数学学院 在正态总体的假设下,按Bayes判别的思 想,在错判造成的损失认为相等情况下得到 的判别函数其实就是马氏距离判别在考虑先 验概率及协差阵不等情况下的推广,故 SAS/STAT软件的DISCRIM过程中称为广义平方 距离判别法. 所谓判别方法,就是给出空间Rm的一种划 分:D=D1,D2,Dk.一种划分对应一种判 别方法,不同的划分就是不同的判别方法. Bayes判别法也是给出空间Rm的一种划分. 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-先验概率 设有k个总体G1,G2,Gk.假设事先对所研究的问 题有一定的认识,这种认识常用先验概率来描述.即已 知这k个总体各自出现的概率(验前概率)为q1,q2,qk (显然qi0,q1+q2+qk=1). 比如研究人群中得癌(G1)和没有得癌(G2)两类群体 的问题,由长期经验知:q1=0.001,q2=0.999.这组验前 概率q1,qk 称为先验概率.先验概率是一种权重(比 例).所谓“先验”是指先于我们抽取样品作判别分析 之前. Bayes判别准则要求给出qi(i=1,2,k)的值. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法-先验概率 qi的赋值方法有以下几种: (a) 利用历史资料及经验进行估计.例如某地区 成年人中得癌症的概率为P(癌)=0.001= q1,而P(无癌 )=0.999 = q2 . (b) 利用训练样本中各类样品占的比例ni/n做为qi 的值,即qi=ni/n(i=1,k),其中ni是第i类总体的样品 个数,而n=n1+ n2 + + nk .这时要求训练样本是通 过随机抽样得到的,各类的样品被抽到的机会大小就 是验前概率. (c) 假定q1=q2=qk=1/k. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-广义平方距离 在马氏距离判别的基础上,进一步考虑先验概率 及各组内协差阵的不同,可定义样品X到总体Gt的广义 平方距离 其中 () 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-广义平方距离 由 的公式可见,当 不变,而某 个qt大(即总体Gt出现的机会大)时,则 g2(t)变小,故广义平方距离也变小,进而 判X为Gt的可能性大-符合直观想法. 当i不全相等时,g1(t)=Log|St|,且马氏距 离 的公式中也考虑了i的不等,这时 广义平方距离中的g1(t)可看成是一种修正 . 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-广义平方距离 利用广义平方距离的判别法为: (后验概率及后验概率判别法将在下面介绍) 引入g1(t)后,使广义平方距离判别法的概率意义 更明显: 广义平方距离判别法后验概率判别法 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-后验概率(条件概率) 标准的Bayes方法应该计算后验概率分布. 即计算当样品X已知时,它属于Gt的概率,记为 P(Gt|X)(或P(t|X),这个概率作为判别归类 的准则,其概率意义更为直观. 假定总体Gt的概率密度函数ft(x)(t=1,k) 给定,由条件概率的定义可以导出: 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-后验概率(条件概率) 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-后验概率(条件概率) 若假设Gi(i=1,k)为m维正态总体,其密度 函数fi(x)为 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-后验概率(条件概率) 则X属于第t组的后验概率为: 其中 是X到第i组的广义平方距离. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-后验概率(条件概率) 在正态假设下按后验概率最大进行归类的准 则,等价于按广义平方距离最小准则进行归类. 而按后验概率最大准则归类的判别法就是Bayes 判别的一种情况. 一般Bayes判别即考虑先验概率的不同,还 考虑了错判损失的大小,在这里我们假定错判 损失相等. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-Bayes判别准则 所谓Bayes判别准则,就是给出空间Rm一个 划分D=D1,D2,Dk,使得当通过这个划分D来 判别归类时,所带来的平均损失达到最小. 定义5.2.1设有k个总体:G1,G2,Gk,相应 的先验概率为q1,q2,qk(qi0,q1+qk=1).如 果有判别法D*,使得D*带来的平均损失g(D*)达 最小,即 则称判别法D*符合Bayes准则,或称D*为Bayes判 别的解. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法-平均损失g(D) 有了先验概率的概念后,判别法D关于先验概 率的错判平均损失g(D)定义为 其中 rt(D)表示实属Gt的样品被错判为其 他总体的损失. L(j|i;D)(简记为L(j|i)表示样品实属第i个 总体Gi,今用判别法D判别时被错判为Gj(ji) 时所造成的损失. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法-错判概率 P(j|i;D)(或简记为P(j|i)表示用判别法 D把实属Gi的样品错判为Gj的概率. 当总体Gi的分布密度已知(记为 fi(x1,.,xm),可以计算错判概率: 错判概率P(j|i)虽可以计算,但在实际应用中 常使用估计的方法。 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法-错判概率 当样品XGi,但用判别法D判别时,把X判 归Gj(即X落入区域Dj ,ji),这时判错了. 错判概率P(j|i)估计方法有以下几种: 利用训练样本作为检验集; 可留出一些已知类别的样品不参加建立判别准 则,而是作为检验集; 舍一法(或称交叉确认法),每次留出一个已知 类别的样品,而用其余n-1个样品建立判别准则,然后 对留出的这一个已知类别的样品进行判别归类.对训 练样本中n个样品按此法逐个归类后,最后把错判的 比率作为错判率的估计. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法-错判损失 在实际问题中,错判的损失可以给出定性的 分析,但很难用数值来表示.但应用Bayes判别准 则时,要求定量地给出L(j|i). L(j|i)的赋值法常用的有以下两种: (a) 由经验人为赋值.例如 L(判癌|得肺结核)=10, L(判肺结核|得癌症)=1000. (b) 假定各种错判损失都相等. 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法-Bayes判别解 定理5.2.1:设有k个总体:G1,G2,Gk,已知 Gi的联合密度函数为fi(X),先验概率为 qi(i=1,k),错判损失为L(j|i).则Bayes判别的 解D*=D*1,D*k为 它表示把样品 X判归Gj的平均损失。 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-Bayes判别解 证明:根据定义5.2.1来证明D*带来的平均损 失最小。 kk 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-Bayes判别解 如果D=D1,Dk是Rm上的任一种划分,则它 带来的平均损失为 于是 北大数学学院 第五章 5.2 Bayes(贝叶斯)判别法 及广义平方距离判别法-Bayes判别解 根据定义5.2.1由知D*是Bayes判别的解. 判别方法: 对样品X,分别计算k个hj(X)(j=1,k),选 其最小者, 即可判定样品来自相应的总体. 由D*的定义知在D*t 上恒有 ht(X)1.47285,故判x0属G1类. 北大数学学院 第五章 5.3 Fisher(费歇)判别 CANDISC(典型判别)过程 对给定的把样品分为k个类 (k2)的一个分类变量和包含有m 个定量变量(或称判别变量)的观 测,CANDISC过程可得出区分k个 类的分类变量与这m个判别变量最 大可能多重相关的变量的线性组 合-典型变量. 北大数学学院 第五章 5.3 Fisher(费歇)判别 CANDISC(典型判别)过程 最大的多重相关叫做第一典型相关;线 性组合的系数称为典型系数;线性组合定 义的变量称为第一典型变量.第二典型相 关由与第一典型变量无关的线性组合得到 ,该组合应与区分k个组有最大可能多重 相关. 依次得到的典型变量的个数不会超过 原始变量的个数m或类的个数k减一 (r0min(m,k-1). 北大数学学院 第五章 5.3 Fisher(费歇)判别 应用例子 例5.3.2 试对表5.2中胃癌检验的生化指标 值用Fisher判别的方法进行判别归类. 解 设表5.2的数据已生成SAS数据D522.下面 先调用CANDISC过程求出两个(因k=3,m=4,典型 变量最多2个)典型变量,然后再使用DISCRIM过程 对15个观测进行判别归类. proc candisc data=d522 out=can532 ncan=2 distance simple; class group; var x1-x4; run; 北大数学学院 第五章 5.3 Fisher(费歇)判别 应用例子 symbol1 cv=reg v=square h=2; symbol2 cv=blue v=star h=2; symbol3 cv=green v=dot h=2; proc gplot data=can532; plot can2*can1=group; run; proc print data=can532; proc discrim data=can532 distance list; class group; var can1 can2; run; CANDISC过程的部分输出结果见以下输出5.3.15.3.3 北大数学学院 第五章 5.3 Fisher(费歇)判别 CANDISC过程的输出结果 输出5.3.1 典型相关及A-1B的特征值等信息 北大数学学院 第五章 5.3 Fisher(费歇)判别 CANDISC过程的输出结果 输出5.3.2 检验第i个及以后的典型相关为0的结果 北大数学学院 第五章 5.3 Fisher(费歇)判别 CANDISC过程的输出结果 输出5.3.3 原始典型系数和典型变量的各类均值 北大数学学院 第五章 5.3 Fisher(费歇)判别 应用例子的输出结果 GPLOT生成的图形 北大数学学院 第五章 5.3 Fisher(费歇)判别 DISCRIM过程的输出结果 输出5.3.1 配对平方距离及组间差异的检验 北大数学学院 第五章 5.3 Fisher(费歇)判别 DISCRIM过程的输出结果 p23=0.32310.05说明第2类和第3类没有显著性差异. 北大数学学院 第五章 5.3 Fisher(费歇)判别 DISCRIM过程的输出结果 北大数学学院 第五章 5.3 Fisher(费歇)判别 DISCRIM过程的输出结果 北大数学学院 第五章 5.3 Fisher(费歇)判别 DISCRIM过程的输出结果 北大数学学院 第五章 5.3 Fisher(费歇)判别 DISCRIM过程的输出结果 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验 以上几节介绍的判别准则,都是根据已 知观测值(即训练样本),建立判别函数,并 由判别函数给出空间Rm的一个划分D(即 判别法).建立在样本基础上的判别法则, 其判别能力显然与样本是否来自不同的总 体有关;也与所考察的m个变量(指标)是 否能区分k个不同的总体(组)有关. 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-两总体判别效果的检验 所谓两总体判别效果的检验,就是检验 两总体的均值是否有显著地差异. 一般我们提出的原假设H0为两总体的 均值是相等的.如果H0被否定,则说明两总 体G1和G2确实可以区分,建立的判别准则 是有意义的. 如果H0不能被拒绝,说明两 总体均值的差异不显著,此时来讨论判别 分析是自欺欺人,毫无意义,除非考虑其 他新的其他变量. 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-两总体判别效果的检验 假设Gi为N(i) ,i)(i=1,2).检验两总体 的均值是否有显著性差异(即检验H0:(1) = (2) )时,首先计算两总体样本均值之间的马氏 距离d 2(1,2): 其中 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-两总体判别效果的检验 故由马氏距离d 2可构造检验统计量-F统计量: 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-两总体判别效果的检验 其中ni是第i个总体的样品个数(i=1,2).在两总体 均值相等的假设成立下,F统计量服从分子自由 度为m,而分母自由度为n1+n2-m-1的F分布.利用 样本可计算F统计量的值,由该值还可求出显著 性概率值(p值). 若p值小于给定的显著性水平(常取= 0.05),则否定两总体的均值是相等的假设. 若p值大于给定的显著性水平,则两总体的 均值没有显著性的差异.这时讨论两总体的判别 问题是没有意义的.如果盲目地应用以上的方法 进行判别归类,则错判的机会将很大. 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-多总体判别效果的检验 当k2时,判别效果的检验问题包括以下两 方面:首先检验k个类的均值向量是否全都相等 ( 即检验H0:(1)= (2)= (k);若不全 相等,则进一步对k个总体两两配对,然后逐 对检验这两个总体的均值是否有显著差异(检 验H(ij)0:(i)=(j) ,ij), 也就是检验这两总体的判别效果是否显著. 具体方法仍是通过计算各总体间的马氏距离及 F统计量,并利用p值的大小来判断其判别效 果. 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-多总体判别效果的检验 (1) 假设k个总体的协差阵相同: 我们来考察样本的总离差阵T: 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-多总体判别效果的检验 其中 并称At为第t类的组内离差阵; 称为组间离差阵; A A At 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-多总体判别效果的检验 利用似然比方法可导出广义似然比统计量 其中n=n1+.+nk,是Wilks统计量,越小表明 k个总体的差异越显著. 具体检验时,因的精确分布复杂,在实际 计算中常用近似分布来代替.例如 A A 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-多总体判别效果的检验 (2) 分别检验检验 其中 假定 A, A=A1+Ak 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-多总体判别效果的检验 ,Ai分别是Gi的样本均值向量和离差阵。 故 利用F统计量对假设H0做检验. 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验 当检验k个类的均值向量是否全都相等 (即检验H0:(1)=(2)=(k)时,否定了这个 假设H0(即表明各总体的均值向量有显著性差异 ),也并不能保证其各分量均有显著差异.若第i个 分量间没有显著差异时,说明相应的变量Xi对判 别分类不起作用,应该剔除 . 关于各变量判别能力的检验问题是筛选判别 变量的理论基础,也是下面介绍逐步判别的理论 基础. 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-各变量判别能力的检验 (1) 变量判别能力的度量 在考虑 时,引入统计量(m)=|A| / |T|(T=A+B) ,(m)越小,表 明m个指标(变量)对k个总体的判别效果越好. 用消去变换法(或分块求行列式的公式)可求行 列式的值 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-各变量判别能力的检验 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-各变量判别能力的检验 以上行列式的计算是按自然顺序做消去变换, 由线性代数知识知,亦可不按自然顺序,设 (i1,i2,im)是(1,2,.,m)的任一排列,第k次取主元 (ik,ik)作消去变换(k=1,2,.,m).于是有: 所以 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-各变量判别能力的检验 (m)可以看为m个指标X1,X2,Xm对k个总体判 别效果的度量, (m) 越小,判别效果越好. 如果只考虑m-1个变量,不妨设为X1,X2,Xm-1 则 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-各变量判别能力的检验 记 并称它为给定X1,X2,Xm-1 时,变量Xm的判别能 力,它是变量Xm判别能力的一个度量.它的值愈小 ,变量的判别能力越强. 在以上记号下,有递推公式: 北大数学学院 第五章 5.4判别效果的检验 及各变量判别能力的检验-各变量判别能力的检验 (2) 变量判别能力的检验(附加信息检验) 若已知 r个变量Xi1 ,Xir(r1). (1) 计算判别式中变量Xij在其余r-1个变量给定 时的判别能力,并选出最不重要的, 记为Xi0 . (2) 检验Xi0在其余r-1个变量给定时对k个总体 的判别效果是否显著. 若不显著,则剔除变量Xi0 ; 若判别能力“最差”的变量Xi0 对区分k个总体是显著的 .不能剔除Xi0.并转入考虑可否引入新变量的步骤. 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 3. 考虑能否引入新变量的步骤 设判别式中已有r 个变量Xi1 Xi2,Xir ,考虑能 否从其余m-r个变量Xj1 Xj2,Xjm-r 中选出在给定 Xi1 Xi2,Xir 的条件下,其判别效果显著的变量. (1) 对不在判别式中的变量Xj1 Xj2,Xjm-r计算在 Xi1 Xi2 ,Xir 给定时的判别能力.并选出判别能力 最强的变量Xj0 (2) 检验新变量Xj0 对k个总体的判别效果是否 显著. 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 若新变量的判别效果不显著, 变量Xj0 不能 引入判别式,筛选变量的过程结束. 若新变量对区分k个总体是显著的,引 入新变量Xj0 , 并转入考虑能否剔除老变量 的步骤. 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 (1) 准备工作 计算各类的样本均值和总均值; 计算样本的合并组内离差阵A和总离差阵T; 规定引入变量和剔除变量显著性水平. (2)逐步筛选变量 假设已计算了若干步,在判别式中选入了L个 变量(用L表示入选变量的个数,且表示入选变量 的集合,如L=i1,i2,.,iL). 计算所有变量的判别能力Ui(i=1,m) 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 检验Xj0可否引入判别式: 若显著,则把Xj0 引入判别式,转入; 若不显著,没有变量可引入,逐步筛选变量的过程结束 .转入进行判别归类. 并由入选的变量中选出最不显著的,记为Xi0; 从没有入选的变量中选出最显著的,记为Xj0 . 检验Xi0可否从判别式中剔除: 若不显著,则把 Xi0 从判别式中剔除;转入; 否则转入下一步考虑可否引入新变量. 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 重复-,直到判别式中没有变量可剔除, 不在判别式中的变量也没有可引入时,逐步筛选 变量的计算过程结束. (3) 建立判别式并判别归类 设逐步筛选变量的过程结束后,选入判别式的 变量有L个,即Xi1, Xi2 , XiL .下面可用各种方法 (距离准则,Fisher准则,Bayes准则)来建立判别函 数并给出判别规则. 计算当前变量Xr的wilks统计量等. 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 1. 可否引入变量进入判别式 (1) 考察变量Xi(i=1,m) 对k个总体的判别能 力 U(i) (此时判别式中变量个数 r=0) (2) 检验Xi1 对k个总体的判别效果是否显著,即 检验 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 由观测数据可计算F统计量的值及相应的显著性概 率值(p值).若p值大于给定的显著性水平 (常取 =0.05)则表示判别能力“最强”的 变量Xi1对k个总体 的判别效果也不显著.逐步筛选变量的过程停止.这时所 考察的m个变量不能区分k个总体,应考虑引入新变量 a a 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 若p值小于给定的显著性水平,则否定假设H0( 表示变量Xi1 对k个总体的判别能力是显著的).把 Xi1引入判别式,并对A,T作消去变换: A(1) =Ti1(A), T(1) =Ti1(T) 2. 考虑能否剔除变量的步骤 设判别式中已有变量 Xi1 Xi2,Xir (r1).设A,T经 若干次消去变换后化为A(r) ,T(r). (1) 计算判别式中变量Xij在其余r-1个变量给定 时的判别能力(即wilks统计量) 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 (2) 检验Xi0在其余r-1个变量给定时对k个总体 的判别效果是否显著. a a 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 统计量F为 由观测数据可计算F统计量的值及相应的显著 性概率值(p值).若p值小于给定的显著性水平 ,则否定假设H0(表示判别能力“最差”的变量 Xi0 对区分k个总体是显著的).不能剔除Xi0.并转 入考虑可否引入新变量的步骤. 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 若p值大于给定的显著性水平,则假 设H0相容,表明因新变量的引入使判别式 中原有的变量Xi0 变为不能提供附加信息( 即判别效果不显著).剔除Xi0 , 并对A(r) ,T (r) 作消去变换: A(r+1) =Ti0(A(r) ), T(r+1) =Ti0(T (r) ) 并继续考虑能否再剔除变量. 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 3. 考虑能否引入新变量的步骤 设判别式中已有r 个变量Xi1 Xi2,Xir ,考虑能 否从其余m-r个变量Xj1 Xj2,Xjm-r 中选出在给定 Xi1 Xi2,Xir 的条件下,其判别效果显著的变量. (1) 对不在判别式中的变量Xj1 Xj2,Xjm-r计算在 Xi1 Xi2 ,Xir 给定时的判别能力(wilks统计量): 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 (2) 检验 由观测数据可计算F统计量的值及相应的显著 性概率值(p值). 北大数学学院 第五章 5.5 逐步判别 逐步筛选变量的基本步骤 若p值大于给定的显著性水平,则假设H0 相容(表明新变量的判别效果不显著). 变量Xj0 不能 引入判别式,筛选变量的过程结束. 若p值小于给定的显著性水平,则否定假 设H0(表示新变量对区分k个总体是显著的).引 入新变量Xj0 , 并对A(r) ,T (r)作消去变换: A(r+1) =Tj0(A(r) ), T(r+1) =Tj0(T (r) ) 并转入考虑能否剔除老变量的步骤. 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 (1) 准备工作 计算各类的样本均值和总均值; 计算样本的合并组内离差阵A和总离差阵T; 规定引入变量和剔除变量显著性水平. (2)逐步筛选变量 假设已计算了若干步,在判别式中选入了L个 变量(用L表示入选变量的个数,且表示入选变量 的集合,如L=i1,i2,.,iL);组内离差阵A和总离差 阵T经若干次消去变换化为A(L) ,T(L) . 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 计算所有变量的判别能力Ui(i=1,m) 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 检验Xi0可否从判别式中剔除 计算统计量F为 由观测数据计算F统计量的值及相应的显著性概 率值(p值).若p值大于给定的显著性水平,则 把 Xi0 从判别式中剔除,记r=i0 ,转入; a 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 若p值小于给定的显著性水平,不能剔除Xi0. 转入下一步考虑可否引入新变量. 检验Xj0可否引入判别式 计算F统计量 计算F统计量的值及相应的显著性概率值(p 值).若p值小于给定的显著性水平,则把Xj0 引 入判别式,记r=j0 ,转入; 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 若p值大于给定的显著性水平,没有变量可引入, 逐步筛选变量的过程结束.转入进行判别归类. 计算当前变量Xr的wilks统计量,并对 A(L) ,T(L)作消去变换. 对A(L) ,T(L) 同时做以(r,r)为主元的消去变 换: A(L+1) =Tr(A(L) ), T(L+1) =Tr(T (L) ) 北大数学学院 第五章 5.5 逐步判别 逐步判别的计算步骤 重复-,直到判别式中没有变量可剔除, 不在判别式中的变量也没有可引入时,逐步筛选 变量的计算过程结束. (3) 建立判别式并判别归类 设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论