已阅读5页,还剩57页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 2.1 试述多元联合分布和边缘分布之间的关系。 设 = (X1,X2,Xp) 是 p 维随机向量,称由它的 q( 0,x2 0 0 , 其他 (x 11)2 1 2 2(x11)(x22) 12 + (x22)2 2 2 = (x 11)2 1 2 2(x11)(x22) 12 + (x22) 2 2 2 + 2 (x 11)2 1 2 2 (x 11)2 1 2 =(x11) 1 (x 22) 2 2+ (1 2) (x 11)2 1 2 所以指数部分变为 1 2 (x11) 121 (x 22) 122 2 + (x 11)2 1 2 令 t= (x 22) 122 (x11) 121 dt = 1 122 dx2 f(x1 ) = f(x1,x2) + dx2= 1 212(12)1/2 exp (x 11)2 21 2 exp( + 1 2 t2) 1 12 2dt= 1 21exp (x 11)2 21 2 1 21exp (x 11)2 21 2 , x1 0 f(x1)= 0 ,其他 同理, 1 22exp (x 22)2 22 2 , x2 0 f(x2)= 0 ,其他 2.3 已知随机向量 = (X1,X2)的联合分布密度函数为f(x1,x2) = 2(dc)(x1a)+(ba)(x2c)2(x1a)(x2c) (ba)2(dc)2 ,其中,a x1 b,c x2 d。求: (1) 随机变量各自的边缘密度函数、均值与方差。 解: f(x1) = f(x1,x2)dx2 d c = 2(dc)(x1a)+(ba)(x2c)2(x1a)(x2c) (ba)2(dc)2 dx2 d c = 2(dc)(x1a) (ba)2(dc)2 + (ba) (ba)2(dc)2 2(x2 c) d c dx2 2(x1a) (ba)2(dc)2 2(x2 d c c)dx2= 1 ba 同理, f(x2) = f(x1,x2)dx1 b a = 2(dc)(x1a)+(ba)(x2c)2(x1a)(x2c) (ba)2(dc)2 dx1 b a = 1 dc b a ba dx ab xxfxxE 2 1 111111 同理可得 2 2 dc xE b a ba dx ab ba xxdxfxExxD 12 1 2 2 1 2 1111 2 111 同理可得 12 2 2 dc xD (2) 随机变量的协方差和相关系数。 E(x1) = x1f(x1)dx1 b a = x1 1 ba dx1 b a =b+a 2 E(x2) = x2f(x2)dx2 d c = x2 1 dc dx2 d c =d+c 2 E(x12) = x12f(x1)dx1 b a = x12 1 ba dx1 b a =1 3 (b 2 + ab + a2 ) E(x22) = x22f(x2)dx2 d c = x22 1 dc dx2= d c 1 3 (d 2 + dc + c2 ) D(x1) = E(x12) E(x1)2= 1 12 (b a)2 D(x2) = E(x22) E(x2)2= 1 12 (d c)2 Cov(x1,x2) = E(x1x2) E(x1)E(x2) E( x1x2) = dx1 b a x 1x2 d c f(x1,x2) dx2= 1 6 (2b + a)(d + c) + 1 6 (2d + c)(b + a) 1 9 (2b + a)(2d + c) Cov(x1,x2).= 1 36 (a b)(d c) = Cov(x1,x2) D(x1)D(x2)= 1 36(ab)(dc) 1 12(ba)(dc) = 1 3 (3) 判断是否独立。 f(x1) f(x2) = 1 (b a) 1 (d c) f(x1,x2 ) x1,x2不相互独立。 2.4 设随机向量 = (X1,X2,Xp) 服从正态分布,已知其协差阵为 对角阵,证明的分量是相互独立的随机变量。 = pp ij = 0 ,i j xi与xj不相关 又 = (X1,X2,Xp) 服从正态分布 xi与xj相互独立。 (i j,i,j = 1,2,p) 2.5 解: 依据题意,X= 5700015 4020016 2145012 27000144 1875036 12000381 219008 4500015 283508 13200190 21000138 1200026 E(X)=1 n x() 6 =1 = (35650,12.33,17325,152.5) D(X)= 1 n (x() 6 =1 x )(x() x ) = 16799000032416.67 32415.66710.8889 69768750 61400 1392529.833 6976875013925 61400029.833 30478125166562.5 166562.513912.583 注:利用注:利用 1 1 pn n 1XX, S 1 () nnn n 1 1X IX 其中其中 10 01 n I 在 SPSS 中求样本均值向量的操作步骤如下: 1. 选择菜单项 AnalyzeDescriptive StatisticsDescriptives, 打开 Descriptives 对话框。 将待估计的四个变量移入右边的 Variables 列表框中,如图 2.1。 图 2.1 Descriptives 对话框 2. 单击 Options 按钮,打开 Options 子对话框。在对话框中选择 Mean 复选框,即计 算样本均值向量,如图 2.2 所示。单击 Continue 按钮返回主对话框。 图 2.2 Options 子对话框 3. 单击 OK 按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表 2.1,即 样本均值向量为(35.3333,12.3333,17.1667,1.5250E2) 。 表 2.1 样本均值向量 在 SPSS 中计算样本协差阵的步骤如下: 1. 选择菜单项 AnalyzeCorrelateBivariate,打开 Bivariate Correlations 对话框。 将三个变量移入右边的 Variables 列表框中,如图 2.3。 图 2.3 Bivariate Correlations 对话框 2. 单击 Options 按钮,打开 Options 子对话框。选择 Cross-product deviations and covariances 复选框,即计算样本离差阵和样本协差阵,如图 2.4。单击 Continue 按钮,返回主对话框。 图 2.4 Options 子对话框 3. 单击 OK 按钮,执行操作。则在结果输出窗口中给出相关分析表,见表 2.2。表中 Covariance 给出样本协差阵。(另外, Pearson Correlation 为皮尔逊相关系数矩阵, Sum of Squares and Cross-products 为样本离差阵。 ) 2.6 均值向量和协差阵的最大似然估计量具有哪些优良性质? 1()EX,即X是的无偏估计; 11 () n E nn S,即 1 n S不是的无偏估计, 而 1 () 1 E n S,即 1 1n S是的无偏估计; 2X, 1 1n S分别是,的有效估计; 3X, 1 n S(或 1 1n S)分别是,的一致估计(相合估计) 。 ()EX lim n E( 1 ) = lim n E( 1 n 1 ) = 2.7 试证多元正态总体 的样本均值向量 证明: E( ) = E(1 n X()) = 1 n E(X()) = n n = D( ) = D(1 n X()) = 1 n2 D(X()) = 1 n2 n = n X NP(, n) 2.8 试证多元正态总体NP(,) 的样本协差阵 1 n1 为 的无偏估 计。 证明:E( ) = 1 n E( n i=1 )( ) =1 n E( n i=1 ) ( )( ) ( ) =1 n E( )( ) ( )( ) n i=1 =E( n i=1 ) n( )= 1 n (n n 1 n ) =n1 n n n1 是的无偏估计,S=n 1 n1 为 的无偏估计 2.9 设(),(),() 是从多元正态总体NP(,) 中独立抽取的一 个随机样本,试求样本协差阵 1 n1 的分布。 解: ( ) (,) ap NX ,na, 2 , 1且相互独立,则样本离 差阵 ( )( ) 1 ()() (1, ) n aap a W n SXX XX,其中 ( ) 1 1 n a a n XX 样本协差阵 1 n1 的分布为(1, ) 2.10 设 i (n i p)是来自NP(,)的数据阵,i=1,2, ,k (1)已知= = k= 且 1= = k= ,求和 的估计。 (2)已知1= = k= ,求,k 和 的估计。 这道题我对自己的答案不是很确定。 第三章 3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 其基本思想和步骤均可归纳为: 答: 第一,提出待检验的假设H0和 H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出 决策(拒绝或接受) 。 均值向量的检验: 统计量 拒绝域 均值向量的检验: 在单一变量中 当 2 已知 0 ()X zn /2 | zz 当 2 未知 0 ()X tn S /2 | |(1)ttn ( 22 1 1 () 1 n i i SXX n 作为 2 的估计量) 一个正态总体 00 H: 协差阵已知 212 000 ()() ( )Tnp XX 22 0 T 协差阵未知 2 (1)1 ( ,) (1) np TF p np np 2 (1) np TF np ( 21 00 (1)()()Tnnn XSX ) 两个正态总体 012 H: 有共同已知协差阵 212 0 ()() () n m Tp nm XY XY 22 0 T 有共同未知协差阵 2 (2 )1 (,1) (2 ) nmp FTFp nmp nmp FF (其中 21 (2)()() n mn m Tnm nmnm XYSXY) 协差阵不等mn -1 () ( ,) np n FF p np p ZS Z FF 协差阵不等mn 1 () ( ,) np n FF p np p - ZS Z FF 多个正态总体 k H 210: 单因素方差 (1) (1,) () SSA k FF knk SSE nk FF 多因素方差 ( ,1)p nk k EE TAE 协差阵的检验 检验 0 0p HI: /2 /21 exp 2 np ne tr n S S 00p HI: /2 /2 * 1 exp 2 np ne tr n SS 检验 12k 012k H: 统计量 /2/2 /2/2 11 i i kk nn pnnp kii ii nn SS 3.2 试述多元统计中霍特林T2分布和威尔克斯分布分别与一元统计中t 分布和F 分布的关 系。 答: (! )霍特林T2分布是 t 分布对于多元变量的推广。 2 221 2 () () () () n X tn XSX S 而若设(, ) p NX ,( , ) p W nS且X与S 相互独立,pn ,则称统计量T2= n( )( )的分布为非中心霍特林 T2分布。 若( , ) p NX0 ,( , ) p W nS且X与S相 互 独 立 , 令 21 Tn XS X, 则 2 1 (,1) np TF p np np 。 (2)威尔克斯分布在实际应用中经常把统计量化为 2 T统计量进而化为F统计量, 利用F统计量来解决多元统计分析中有关检验问题。 与F统计量的关系 p 1 n 2 n F统计量及分别 任意 任意 1 11 1 1 1 1( ,1) ( ,1) ( ,1) npp n F p np pp n 任意 任意 2 1 1 1 1 1( ,2) (2 ,2() ( ,2) p nnp Fpnp pp n 1 任意 任意 112 21 212 1(1,) (,) (1,) nn n F n n nn n 2 任意 任意 12 1 21 2 12 1(2,)1 (2,2(1) (2,) n nn Fnn nn n 3.3 试述威尔克斯统计量在多元方差分析中的重要意义。 答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。 012k H: 1ij Hij:至少存在使 用似然比原则构成的检验统计量为 (,1)p nk k EE TAE 给定检验水 平,查 Wilks 分布表,确定临界值,然后作出统计判断。 第四章 4.1 简述欧几里得距离与马氏距离的区别和联系。 答: 设 p 维欧几里得空间Rp中的两点 X X=(X1,X2XP)和 Y Y=(Y1,Y2YP)。 则欧几里得距 离为(Xi Yi)2 p i=1 。欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到 实际问题中量纲的影响。 设 X,YX,Y 是来自均值向量为,协方差为 的总体 G 中的 p 维样本。则马氏距离为 D(X,Y)=(X Y) 1(X Y)。 当 1 = I即单位阵时, D(X,Y)=(X Y)(X Y)=(Xi p i=1 Yi)2即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离 的推广。 4.2 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某 种最优性质,能把属于不同类别的样本点尽可能地区别开来。设 R1,R2,Rk 是 p 维空 间 R p 的 k 个子集,如果它们互不相交,且它们的和集为Rp,则称R1,R2Rp为Rp的一个 划分。判别分析问题实质上就是在某种意义上,以最优的性质对 p 维空间Rp构造一个“划 分” ,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答: 距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。 其基本思想都 是分别计算样本与各个总体的距离(马氏距离) ,将距离近的判别为一类。 两个总体的距离判别问题 设有协方差矩阵相等的两个总体G G1 1和G G2 2,其均值分别是 1 1和 2 2,对于一个新的样品X X, 要判断它来自哪个总体。计算新样品X X到两个总体的马氏距离D D 2 2( (X X,G G1 1)和D D 2 2( (X X,G G2 2) ,) , 则 X X ,D 2(X X,G G 1 1) D 2(X X,G G 2 2) X X ,D 2(X X,G 1) D 2(X X,G G 2 2, 具体分析, 22 12 ( ,)( ,)DGDGXX 11 1122 111111 111222 111 211122 ()()()() 2(2) 2() XXXX X XX X XX X 11 211212 1 12 12 2()()() 2() 2 2()2 () X X X X 记( )()WX X 则判别规则为 X X ,W(X) 0 X X ,W(X)0 多个总体的判别问题。 设有k个总体 k GGG, 21 ,其均值和协方差矩阵分别是和 k , 21 , 且 k 21 。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属 于哪个总体。 具体分析, 21 ( ,)()()DG XXX 111 1 2 2()C X X X X XI X 取 I 1 , 1 2 1 C,k, 2 , 1。 可以取线性判别函数为 ( )WC XI X, k, 2 , 1 相应的判别规则为 i GX 若 1 ( )max() i k WC XI X 4.4 简述贝叶斯判别法的基本思想和方法。 基本思想:设 k 个总体,其各自的分布密度函数)(,),(),( 21 xxx k fff,假设 k 个总体各自出现的概率分别为 k qqq, 21 ,0 i q,1 1 k i i q。设将本来属于 i G总体的样品 错判到总体 j G时造成的损失为)|(ijC,。 设k个总体相应的p维样本空间为 ),( 21k RRRR。 在规则R下,将属于的样品错判为 j G的概率为 xx dfRijP j R i )(),|( jikji, 2 , 1, 则这种判别规则下样品错判后所造成的平均损失为 k j RijPijCRir 1 ),|()|()|( ki, 2 , 1 则用规则R来进行判别所造成的总平均损失为 k i i RirqRg 1 ),()( k i k j i RijPijCq 11 ),|()|( 贝叶斯判别法则,就是要选择一种划分,使总平均损失)(Rg达到极小。 基本方法: k i k j i RijPijCqRg 11 ),|()|()( xx dfijCq k i k j R ii j 11 )()|( k , 21 k GGG, 21 kji, 2 , 1, k GGG, 21 i G k RRR, 21 k j R k i ii j dfijCq 11 )()|(xx 令 1 ( | ) ( )( ) k iij i qC j i fh xx,则 k j R j j dhRg 1 )()(xx 若有另一划分),( * 2 * 1 * k RRRR, k j R j j dhRg 1 * * )()(xx 则在两种划分下的总平均损失之差为 k i k j RR ji ji dhhRgRg 11 * * )()()()(xxx 因为在 i R上上)()(xx ji hh对一切 j 成立,故上式小于或等于零,是贝叶斯判别的解。 从而得到的划分 ),( 21k RRRR 为 1 |( )min( ) iij j k Rhh xxx ki, 2 , 1 4.5 简述费希尔判别法的基本思想和方法。 答:基本思想:从k个总体中抽取具有 p 个指标的样品观测数据,借助方差分析的思想构 造一个线性判别函数 1122 ( ) pp Uu Xu Xu XXuX 系数),( 21 p uuuu可使得总体之间区别最大,而使每个总体内部的离差最小。将新样 品的 p 个指标值代入线性判别函数式中求出 ()U X 值, 然后根据判别一定的规则, 就可以判 别新的样品属于哪个总体。 4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。 答: 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的 两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 当 k=2 时,若1= 2= 则费希尔判别与距离判别等价。当判别变量服从正态分布时, 二者与贝叶斯判别也等价。 当1 2时,费希尔判别用1+ 2作为共同协差阵,实际看成等协差阵,此与距离判 别、贝叶斯判别不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X X , W(X) lnd X X ,W(X)lnd 距离判别的判别规则是 X X ,W(X) 0 X X ,W(X) 0 即样品 X X 属于总体 4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品 牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。 销售情况 产品序号 销售价格 口味评分 信任度评分 畅销 1 2.2 5 8 2 2.5 6 7 3 3.0 3 9 4 3.2 8 6 平销 5 2.8 7 6 6 3.5 8 7 7 4.8 9 8 滞销 8 1.7 3 4 9 2.2 4 2 10 2.7 4 3 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 现有一新品牌的饮料在该超市试销, 其销售价格为 3.0, 顾客对其口味的评分平均为 8,信任评分平均为 5,试预测该饮料的销售情况。 解:增加 group 变量,令畅销、平销、滞销分别为 group1、2、3;销售价格为 X1,口味评 分为 X2,信任度评分为 X3,用 spss 解题的步骤如下: 1. 在 SPSS 窗口中选择 AnalyzeClassifyDiscriminate,调出判别分析主界面, 将左边的变量列表中的“group”变量选入分组变量中,将 X1、X2、X3变量选入自 变量中,并选择 Enter independents together 单选按钮,即使用所有自变量进行判 别分析。 2. 点击 Define Range 按钮, 定义分组变量的取值范围。 本例中分类变量的范围为 1 到 3,所以在最小值和最大值中分别输入 1 和 3。单击 Continue 按钮,返回主界 面。如图 4.1 图 4.1 判别分析主界面 3. 单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 Function Coefficients 栏中的 Fishers:给出 Bayes 判别函数的系数。 (注意:这个选项不是 要给出 Fisher 判别函数的系数。这个复选框的名字之所以为 Fishers,是因为按判 别函数值最大的一组进行归类这种思想是由 Fisher 提出来的。这里极易混淆,请 读者注意辨别。 )如图 4.2。单击 Continue 按钮,返回主界面。 图 4.2 statistics 子对话框 4. 单击 Classify按钮,弹出 classification 子对话框,选中 Display 选项栏中的 Summary table 复选框, 即要求输出错判矩阵, 以便实现题中对原样本进行回判的 要求。如图 4.3。 图 4.3 classification 对话框 5. 返回判别分析主界面,单击 OK 按钮,运行判别分析过程。 1) 根据判别分析的结果建立 Bayes 判别函数: Bayes 判别函数的系数见表 4.1。表中每一列表示样本判入相应类的 Bayes 判别函数系数。由 此可建立判别函数如下: Group1: 3761.162297.121689.11843.811XXXY Group2: 3086.172361.131707.10536.942XXXY Group3: 3447. 62960. 41194. 2449.173XXXY 将各样品的自变量值代入上述三个 Bayes 判别函数,得到三个函数值。比较这三个函数值, 哪个函数值比较大就可以判断该样品判入哪一类。 Classification Function Coefficients group 1 2 3 x1 -11.689 -10.707 -2.194 x2 12.297 13.361 4.960 x3 16.761 17.086 6.447 (Constant) -81.843 -94.536 -17.449 Fishers linear discriminant functions 表4.1 Bayes判别函数系数 根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被 正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被 正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整 体的正确率为80.0%。 Classification Resultsa group Predicted Group Membership Total 1 2 3 Original Count 1 3 1 0 4 2 1 2 0 3 3 0 0 3 3 % 1 75.0 25.0 .0 100.0 2 33.3 66.7 .0 100.0 3 .0 .0 100.0 100.0 a. 80.0% of original grouped cases correctly classified. 表4.2 错判矩阵 2) 该新饮料的0 . 31X,82X,53X,将这3个自变量代入上一小题得到的Bayes 判别函数,2Y的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重 复上述的判别过程, 并在classification子对话框中同时要求输出casewise results, 运行判 别过程,得到相同的结果。 4.9 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任) ,以决定是否给 予贷款。可以根据贷款申请人的年龄( 1 X) 、受教育程度( 2 X) 、现在所从事工作的年数 ( 3 X) 、 未变更住址的年数 ( 4 X) 、 收入 ( 5 X) 、 负债收入比例 ( 6 X) 、 信用卡债务 ( 7 X) 、 其它债务( 8 X)等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据, 根据样本资料分别用距离判别法、Bayes 判别法和 Fisher 判别法建立判别函数和判别规则。 某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58) ,对其进行信用好坏 的判别。 目前信用 好坏 客户 序号 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 已履行还 贷责任 1 23 1 7 2 31 6.60 0.34 1.71 2 34 1 17 3 59 8.00 1.81 2.91 3 42 2 7 23 41 4.60 0.94 .94 4 39 1 19 5 48 13.10 1.93 4.36 5 35 1 9 1 34 5.00 0.40 1.30 未履行还 贷责任 6 37 1 1 3 24 15.10 1.80 1.82 7 29 1 13 1 42 7.40 1.46 1.65 8 32 2 11 6 75 23.30 7.76 9.72 9 28 2 2 3 23 6.40 0.19 1.29 10 26 1 4 3 27 10.50 2.47 .36 解: 令已履行还贷责任为 group0, 未履行还贷责任为 group1。 令 (53, 1, 9, 18, 50, 11.20, 2.02,3.58)客户序号为 11,group 未知。用 spss 解题步骤如下: 1. 在 SPSS 窗口中选择 AnalyzeClassifyDiscriminate, 调出判别分析主界面, 将左边 的变量列表中的“group”变量选入分组变量中,将61XX 变量选入自变量中, 并选择 Enter independents together 单选按钮,即使用所有自变量进行判别分析。 2. 点击 Define Range 按钮,定义分组变量的取值范围。本例中分类变量的范围为 0 到 1,所以在最小值和最大值中分别输入 0 和 1。单击 Continue 按钮,返回主界面。 3. 单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 Function Coefficients 栏中的 Fishers 和 Unstandardized。单击 Continue 按钮,返回主界面。 4. 单击 Classify按钮,定义判别分组参数和选择输出结果。选择 Display 栏中的 Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击 Continue 按钮。 5. 返回判别分析主界面,单击 OK 按钮,运行判别分析过程。 1) 用费希尔判别法建立判别函数和判别规则: 未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分, 所 以该系数使用起来比标准化的系数要方便一些。具体见表 4.3 。 表 4.3 未标准化的典型判别函数系数 由此表可知, Fisher 判别函数为: 8383. 27792. 06710. 05024. 04357. 03173. 02687. 6132. 0794.10XXXXXXXXY 用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知 分类,如若与 group0 的重心距离较近则属于 group0,反之亦然。各类重心在空间中的 坐标位置如表 4.4 所示。 表 4.4 各类重心处的费希尔判别函数值 用 bayes 判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且 误判造成的损失也相等,所以距离判别法与 bayes 判别完全一致。 如表 4.5 所示, group 栏中的每一列表示样品判入相应列的 Bayes 判别函数系数。 由此可 得,各类的 Bayes 判别函数如下: 8504.377994.106723.135969. 24943. 43033. 12070.941340. 0693.1180XXXXXXXXG 8116.497133. 76182.175086. 34681. 63874. 12660.1261184. 0296.1711XXXXXXXXG 表 4.5 Bayes 判别函数系数 将各样品的自变量值代入上述两个 Bayes 判别函数,得到两个函数值。比较这两个函数值, 哪个函数值比较大就可以判断该样品该判入哪一类。 2) 在判别结果的 Casewise Stastics 表中容易查到该客户属于 group0,信用好。 4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的 化验:血清铜蛋白 1 X、蓝色反应 2 X、尿吲哚乙酸 3 X和中性硫化物 4 X,数据见 下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。 类别 病人序号 1 X 2 X 3 X 4 X 胃癌患者 1 228 134 20 11 2 245 134 10 40 3 200 167 12 27 4 170 150 7 8 5 100 167 20 14 胃 炎 患 者 萎 缩 性 6 225 125 7 14 7 130 100 6 12 8 150 117 7 6 9 120 133 10 26 10 160 100 5 10 非 胃 炎 患 者 11 185 115 5 19 12 170 125 6 4 13 165 142 5 3 14 135 108 2 12 15 100 117 7 2 解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为 group1、group2、group3,由于此题 中假设各类出现的先验概率相等且误判造成的损失也相等, 所以距离判别法与 bayes 判别完 全一致。用 spss 的解题步骤如下: 1.在 SPSS 窗口中选择 AnalyzeClassifyDiscriminate, 调出判别分析主界面, 将左边的变量 列表中的“group”变量选入分组变量中,将 X1、X2、X3、X4变量选入自变量中,并选择 Enter independents together 单选按钮,即使用所有自变量进行判别分析。 2.点击 Define Range 按钮,定义分组变量的取值范围。本例中分类变量的范围为 1 到 3,所 以在最小值和最大值中分别输入 1 和 3。单击 Continue 按钮,返回主界面。 3.单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 Function Coefficients 栏中的 Fishers:给出 Bayes 判别函数的系数。 4.单击 Classify按钮,弹出 classification 子对话框,选中 Display 选项栏中的 Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。 5.返回判别分析主界面,单击 OK 按钮,运行判别分析过程。 根据判别分析的结果建立 Bayes 判别函数: Bayes 判别函数的系数见表 4.6。表中每一列表示样本判入相应类的 Bayes 判别函数系数。由 此可建立判别函数如下: Group1: 4073. 03778. 02753. 01164. 0212.791XXXXY Group2: 4012. 03317. 02595. 01130. 0721.462XXXXY Group3: 4059. 03100. 02637. 01130. 0598.493XXXXY 将各样品的自变量值代入上述三个 Bayes 判别函数,得到三个函数值。比较这三个函数值, 哪个函数值比较大就可以判断该样品判入哪一类。 表 4.6 Bayes 判别函数系数 根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被 正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中, 有4个被正确判定, 有1个被错误地判定为非胃炎患者, 正确率为80%。 在5个非胃炎患者中, 有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。 表 4.7 错判矩阵 第五章 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有 n 个样本,对每 个样本测得 p 项指标(变量)的数据,已知每个样本属于 k 个类别(或总体)中的某一类, 通过找出一个最优的划分, 使得不同类别的样本尽可能地区别开, 并判别该样本属于哪个总 体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知 道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别 分析是在已知有多少类及是什么类的情况下进行分类, 而聚类分析是在不知道类的情况下进 行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类, 过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构 造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把 n 个样本看作 p 维空间的 n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离: 1/ 1 ( )() p q q ijikjk k dqXX q 取不同值,分为 (1)绝对距离( 1q ) 1 (1) p ijikjk k dXX (2)欧氏距离( 2q ) 2 1 / 2 1 ( 2 )() p i ji kj k k dXX (3)切比雪夫距离(q ) 1 ( )max ijikjk kp dXX (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作 p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原 则? 答: 设 dij表示样品 Xi与 Xj之间距离,用 Dij表示类 Gi与与 Gj之间的距离。 (1). 最短距离法 21 ()()() ijijij dM XXXX 1 1 ( ) p ikjk ij k ikjk XX dL pXX 1 22 11 cos ()() p ikjk k ij pp ikjk kk X X XX 1 22 11 ()() ()() p ikijkj k ij pp ikijkj kk XXXX r XXXX ij GXGX ij dD jjii , min , min ikjr krij XGXG Dd min, kpkq DD (2)最长距离法 , max ipjq pqij XGXG Dd , max ikjr krij XGXG Dd max, kpkq
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024医院临时工聘用合同参考范文
- 2024房屋转租合同简单版范本
- 2024钟点工劳动合同范本
- 2024绿化养护管理委托版合同
- 2024总经销合同范本范文
- 施工合同协议书样本
- 终止业务往来协议书
- 2024年软件变更协议书范文
- 商业秘密保护技术协议书
- 2023年高考地理重点难点考点通练-产业结构升级(解析版)
- 中药饮片处方点评表
- 《节能监察的概念及其作用》
- 综合布线系统竣工验收表
- 蔬菜会员卡策划营销推广方案多篇
- 导管滑脱应急预案及处理流程
- (精选word)三对三篮球比赛记录表
- 尿道损伤(教学课件)
- 大型火力发电厂专业词汇中英文翻译大全
- 火电厂生产岗位技术问答1000问(电力检修)
- 八年级思想读本《4.1“涉险滩”与“啃硬骨头”》教案(定稿)
- 高中语文教学课例《荷塘月色》课程思政核心素养教学设计及总结反思
评论
0/150
提交评论