


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X = (X, X2,| Xp),的联合分布密度函数是一个p维的函数,而边际分布讨论是X =(Xi,X2,|Xp),的子向量的概率分布,其概率密度函数的维数小于p。2.2设二维随机向量(Xi X2) 服从二元正态分布,写出其联合分布。/ 2 、 rIC3 d o解:设(X, X2)的均值向量为口 =(气 巴),协方差矩阵为1;,则其联I。21 G2 J合分布密度函数为f(X)二严 f 2口12 ;1 12 exp-:(x_ 以口 2 (21口2112 /討22.3已知随机向量(X1X
2、2) 的联合密度函数为f (X1,X2)2(d -c)(x1 -a) (b -a)(x2 -c) - 2(论 -a)(x2 - c)2 2(b-a) (d -c)其中 a-b , c_x2_d。求(1) 随机变量X1和X2的边缘密度函数、均值和方差;(2) 随机变量X1和X2的协方差和相关系数;(3)判断X1和X2是否相互独立。(1)解:随机变量 X1和X2的边缘密度函数、均值和方差;2(d - c)(x - a) X2(b -a)2(d -c)2d 2(b a)(x2 c) 2(xi 3)(X2 c)c(b -a)2(d -c)2dx22(d -c)(x1 -a)x2(ba)2(d -c)2
3、2(d -c)(xi -a)X22 2(ba) (d-c)所以d-c2(ba)t2(xi a)tdt(b-a)2(dc)2(b-a)t2 -2(捲-a)t22 2(ba) (d-c)由于Xi服从均匀分布,则均值为以,方差为2d _cb -a.2b-aoi2同理,由于X2服从均匀分布 打(x2)= d-c10Xi飞d 1则均值为口,2其它212(2)解:随机变量Xi和X2的协方差和相关系数;2 2(b-a) (d -c)&(%) = f 2(d c)(Xi a) +(b a)X2 c)2(Xi -a)(X2 -c) dxcov(Xi, X2)2 X2dxidx2d c 2(d 6(论-a) (b
4、 - a)(x2 -c) - 2(捲 一 a)(x2 - c)2(b-a)2(d -c)2(c-d)(b-a)36、_COV(Xi,X2)cr crXi X2(3) 解:判断Xi和X2是否相互独立。Xi 和 X2 由于 f (Xi, X2P fxi(Xi) fx2(X2),所以不独立。2.4设X =(Xi,X2,ll|Xp)服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相互独立的随机变量。解:因为X =(X1,X2,|Xp的密度函数为(1 Y , -1/21.1f(X1心话厂沏尹-以左(-叮2-1又由于艺二2-P12-112-212P丿则 f (Xi,,Xp):2r1 J_(X_ / 艺
5、=2r 1、a1212+(X- m)121 = X1n ,S=X I n 1 n1n)X其中1 n =nn|C在SPSS求样本均值向量的操作步骤如下:0111. 选择菜单项 Analyze Descriptive Statistics Descriptives 打开 Descriptives对话框。将待估计的四个变量移入右边的Variables列表框中,如图2.1。图 2.1Descriptives对话框2.单击Options按钮,打开Options子对话框。在对话框中选择Mean复选框,即计算样本均值向量,如图2.2所示。单击 Continue按钮返回主对话框。图2.2 Options子对话
6、框3.单击0K按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即样本均值向量为(35.3333,12.3333,17.1667, 1.5250E2)。M均值X1635650.0000X2612.3333X3617325 0000)(4有效的忖仔I康状杰)6152.5000表2.1样本均值向量在SPSS中计算样本协差阵的步骤如下:1.选择菜单项Analyze 宀 Correlate 宀 Bivariate,打开Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图2.3。图 2.3 Bivariate Correlations对话
7、框2.单击Options按钮,打开 Options子对话框。选择Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差 阵,如图2.4。单击Continue按钮,返回主对话框。IyH Bivariate Correlations OptionsrSttlStEfi匚Mean空 and standard cflevistions回ggpoact de 曲 low 皐 nd oqf 日曲 ncesMng vaiiisi Exclude cs?es rwiseC Exclude ewes list-wiseContinueCencelHel
8、p图2.4 Options子对话框3.单击OK按钮,执行操作。则在结果输出窗口中给出相关分析表,见表2.2。表中 Covariance给出样本协差阵。(另外,PearsonCorrelation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products 为样本离差阵。)nk2x3k4Pearson1758.975,P-.02显若性GSM】.0S1.DOI.430平肓与叉孵和1.nO9E9194500.0G04.106EB-aeuono.ooolb锻2.01 GEB38900.000B.372E7-736800.000Ns666Pearson 相君1_751764叭
9、DM(HIM】0fi1.077.朋5平肓旨取鮒和194500.00005.33383550. DOO-179.00030900.00013.06716710.00035.800N666BisPearsen相关性.975s7641.2563511 (础D-001.077.625平肓与艮鮒和4 186E883560.0001I.029E6999375.000lb肓差0.372E716710.0003.657E7199875.000N6S66x4Pearson相关性-402-.077-J5BKSf()-430.685.625平方与題鮒和-3684000 000179.000-999375.00003
10、475.500协方星736800 000-33JBOO199875.00016695.100N66662.6渐近无偏性、有效性和一致性;2.7设总体服从正态分布,X Np(口,习,有样本X1, X 2,,Xn。由于X是相互独立的正态分布随机向量之和,所以 X也服从正态分布。又E(X)=e Xi AKz E(Xi)/n= 占二卩lim / 丿 ii/i =1 /_inI nyD(X)=D|XJn =右送 D(Xi )二右瓦 y二一(g / 丿 n =n 曰 n所以 x Np(w y。1 n _ _2.8 方法 1 :?(X 匚一 X)(X 匚一 X)n 1 yn -1nE( XiXi -nXX
11、)i 4占E XiXi -nE XXn - i i 41 n艺 1石2-打命2)3。n方法 2:. (X i - X)(X i -X)i 4(1-(X - 口)n=、X i - - (X - 卩)X i- i -nn=S (Xi - 0(xi -即2瓦(Xi -讯X - / + n(X-山(X 卩X 卩)ii=1n=H (Xi - u)(Xi -以2n(X 血(X 以 + n(X-山(X 汀i dn=E (Xi - 口)(Xi - / n(X-讪(X m)i dE(-S-)n T1 E (X i n -1.id)(Xi - M -n(X- M(X - 2。M ) X i - M 卜-e X(
12、M(X mS故一M为2的无偏估计。-1试求S2.9.设X (1), X,.,X()是从多元正态分布X Np(M 2)抽出的一个简单随机样本,的分布。证明:设厂*i I (* 、*川*r= * 川*=(人)为一正交矩阵,即令 z=(z ZIII Zn)= Xi X2 川 Xn r,由于Xi (i =1,2,3,4,|( n)独立同正态分布,且r为正交矩阵所以;寸=(,-】 心|(几)独立同正态分布。且有nE(Za) =E( raj Xj)(a =1,2,3,|l|, n -1)n(1_ n二、n 厂Gj hj二 0i 4nVar( Z) =Var(为馬 Xj)jmnn八ajVar Xj =工 r
13、aj =2j 1j m所以z Z2川 Zn独立同N(0,习分布。n又因为 sf (x j 一 X)(x j 一 X)i An二 XjX j nXXj壬因为nXXnn又因为、X j X j 二 X1X 2j4X2Xn rrX n丿x、X2Z2ZnXnZ、Z2所以原式V X j X j - Z n Z n j生n=zj 1ZjZj - Z nZ n Z 1Z 1 Z 2Z 2 . Z nZ n - Zn Znn丄故S二為;jj,由于乙,Z2,|l(,Zn4独立同正态分布Np(0,艺),所以j生n -1s 冷/j Wp(n _1上)j壬2.10.设Xi(ni p)是来自Np(g,厶)的简单随机样本,
14、i =1,2,3,Hl,k.()已知山=Mk =卩且厶=工2 =工,求卩和艺的估计。(2)已知 乙=艺2 =耳=艺求凶,血,,耳和艺的估计。1k na解: (1) 1 = x 1xa,n + 02 +. + nk am ik na瓦瓦(Xia xlxf -X) ? _ a丘i丘m + n2 + + nk In L( 1(,(ik,艺)=ln (2兀)p 艺Iexpfx:-Y 占(X:- ):In L( 口,习:ln L(%,习1nj尙=XjXj, 2nj yk W- -Xij _XjXij _Xjj 4 irin2. nkIr L( g 21r1 k ra2pri心2-2羔(x a - g)2
15、-1(x a -)=-2臼+2迟迟(x :-忆)(x a -心 歼=022 a 4 inj八 才(Xj -小 0(j =1,2,.,k)i 4解之,得第三章3.1试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 其基本思想和步骤均可归纳为:答:第一,提出待检验的假设第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。统计量均值向量的检验:拒绝域 均值向量的检验:在单一变量中当匚2已知当二2未知(S2z =(X -,订CFt =
16、 (X J) nS1 r_ (Xi -X)2作为匚2的估计量)r 一 1 y|zL 乙/2|t | t:./2(r-1)一个正态总体Ho: 口 = g协差阵2已知协差阵2未知T。2 =r(X -汀2(X-也)2(p)(r -1)-p 1t2(r -1)pF(p, r - p)(丁2 =( n_ 1)、n(X -比) s-1c(x -Po)两个正态总体Ho:有共同已知协差阵有共同未知协差阵Pi = M2To2 =(X Y )2-1X Y ) 2p() n +m(n m 一2 ) 一 p 12F =T F( p n m(n m 2 ) pPl)协差阵不等n = m协差阵不等n = m(其中 t2
17、=(n m-2)n mnm( xy )(n p)n ” -iFZSZ F(p, n-p)PF =3 也 Z S-1Z F(p ,np) pSF FF F:多个正态总体 H o:丄1 = k单因素方差多因素方差SSE (n -k)A =旦=罔 A(p ,n k,k1) |T|A+E|协差阵的检验检验艺=2oexp s2化、np/2丄 S*Snf1 2 JInp = expnp/2检验厶=艺2 =川=耳Ho:厶=2 = i 11 =kkn/2._. pni/2I丨nii=1k统计量 = nnp/2口Sii =i3.2试述多元统计中霍特林 L2I分布和威尔克斯1_!分布分别与一元统计中 t分布和F分
18、布的关 系。答:(!)霍特林LJ分布是t分布对于多元变量的推广。n(X _ A)2_t22n(X- J (S2)(X-)而若设 X Np(p ,习,S Wp( n,习且X 与 S 相互独立,n启p,则称统计量的分布为非中心霍特林 t2分布。若X Np(0,习,SWp(n,习且X与S相互独立,令T2 = nXSX ,则-口T2 f (p n - p 1。 np(2)威尔克斯LJ分布在实际应用中经常把 LJ统计量化为 T统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。上与F统计量的关系pniF统计量及分别任意任意1ni 一 p +1 1 -A( p, ni,1) - (,.x
19、r 一 F(p,n 1 p十 1) pA(p, n/)任意任意2E-P jMp,n 1,2);F(2p,2(n1 p)pVA( p,-1,2)1任意任意n1 A(1,n1,n2) F(n -、 F (p, nJn2 A(1, n1,n2)2任意任意n D2 (X, G,具体分析,d2(X,G)-d2(xG)=(X - -1)艺二(X -0-(X-小艺(x _ -)=X 3七一2X+ -艺(X 1-*X 2X+ -艺-)=2 X 艺 _1( ) + 艺二-口 2 艺二-2-2 X 工(曲-1) ( -1 )工(-1 -2)2 | x I 一= -2( X -a -2a( X-记W(X)二a(X
20、一则判别规则为E G| , W(X)印,W(X)0 多个总体的判别问题。-2,和厶,艺2,艺k ,二艺k二艺。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。具体分析,D2(X,GJ =(X - g.)艺(X - 匕)=X -2-QX - .Z=X hx - 2(I X C )/ 1取 I: = ZC r可以取线性判别函数为W-.(X八 I XC-.,相应的判别规则为XGi= 1,2, ,k。:=1,2, ,k 若 W(X)= max(I :X C:)4.4简述贝叶斯判别法的基本思想和方法。 基本思想:设k个总体G11G2/ ,Gk,个总体各自出现的概率分别为q1 ,q2,其
21、各自的分布密度函数k,qk, qi -0 ,、 qifi(x), f2(x),,fk(x),假设 k=1。设将本来属于Gi总体的样品错判到总体Gj时造成的损失为C(j |i), i, j =1,2; ,k。设k个总体G1,G2 / ,Gk相应的p维样本空间为 R = (R1,R2 / , Rk)。 在规则R下,将属于Gi的样品错判为Gj的概率为i, j =1,2/ ,k i r设有k个总体G1,G2/ ,Gk,其均值和协方差矩阵分别是则这种判别规则下样品错判后所造成的平均损失为kr(i|R)八C(j |i)P(j|i,R)则用规则R来进行判别所造成的总平均损失为kg(R)qir(i,R)i 4
22、kk二 C(j|i)P(j |i,R)i j 1贝叶斯判别法则,就是要选择一种划分尺,只2,,Rk,使总平均损失g(R)达到极小。k k基本方法:g(R) q, C(j |i)P(j |i,R)7 j 4kk八 q, C(j I i) R fi(x)dxRjkkR C qiC(j |i)fi (x )dxj =1 j i 1kk令 qQ(j |i)fi(x) =hj(x),则 g(R)八.Rhj(x)dxi =4j=1 jk若有另一划分 R =(Ri,r2, ,Rk), g(R*). hj (x)dxj吕j则在两种划分下的总平均损失之差为R Jhdx) -hj(x)dxRi Rj因为在Ri上h
23、i(x) hj (x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。从而得到的划分R ( R1, R2 , Rk )为R= x 山(x)pQhj(x)i =12 ,k4.5简述费希尔判别法的基本思想和方法。答:基本思想:从 k个总体中抽取具有 P个指标的样品观测数据,借助方差分析的思想构 造一个线性判别函数U (X) ux u2X2 III UpXp = uX系数U =(U1,U2,Up) 可使得总体之间区别最大, 而使每个总体内部的离差最小。 将新样 品的p个指标值代入线性判别函数式中求出 U ( X)值,然后根据判别一定的规则, 就可以判 别新的样品属于哪个总体。4.6试析距离判别法
24、、贝叶斯判别法和费希尔判别法的异同。答:费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的 两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 当k=2时,若鬥爭则费希尔判别与距离判别等价。当判别变量服从正态分布时, 二者与贝叶斯判别也等价。 当空切时,费希尔判别用匡巴作为共同协差阵,实际看成等协差阵,此与距离判别、 贝叶斯判别不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是W(刈土曲X 戶远|,W(X)Ind距离判别的判别规则是 X 忖 &i|,W(X)刊x m,w(x)o二者的区别在于阈值点。当q =q2,C(1|2)
25、 =C(2|1)时,d =1 , Ind=:o。二者完全相同。4.7 设有两个二元总体匚和匚,从中分别抽取样本计算得到假设近习,试用距离判别法建立判别函数和判别规则。 样品X=(6,0)应属于哪个总体?甲卩=盘(耳_卫)=(#_#)1(“一 应 2(幷一山)=(b。)一=(乙函-i_1 ( 7 6-呵3彌1-2 15.8 )(知-血)=(2,3)7.6-2.1n勺即样品x属于总体旳4.8某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品 牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况产品序号销售价格口味评分信任度评分12.258畅销22
26、.56733.03943.28652.876平销63.58774.898滞销81.73492.242102.743 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增加group变量,令畅销、平销、滞销分别为groupl、2、3;销售价格为 ,口味评分为,信任度评分为 X3,用spss解题的步骤如下:1.在SPSS窗 口中选择 Analyze Classify Discriminate,调出判别分析主界面, 将左边的变量列表中的“ group”变量选入分
27、组变量中,将Xi、X2、X3变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判 别分析。2点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1图4.1判别分析主界面3.单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher:给出Bayes判别函数的系数。(注意:这个选项不是 要给出Fisher判别函数的系数。这个复选框的名字之所以为Fishe
28、r,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。图4.2 statistics子对话框4.单击 Classify-按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的 要求。如图4.3。图 4.3 classification 对话框5.返回判别分析主界面,单击OK按钮,运行判别分析过程。1)根据判别分析的结果建立Bayes判别函数:Bayes判别函数的系数见表 4.1。表中每一列
29、表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:Groupl :Y1 =-81.843 -11.689X112.297X216.7 6X3Group2 :Y2 =94.536 -10.707X113.361X217.08 X3Group3:Y3 17.4 4 9 2.1 9X14.9 6X26.4 4X3将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123x1-11.689-10.707-2.194x212.29
30、713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fishers linear discriminant functions表4.1Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整体的正确率为80.0%。Classification ResultsgroupPredicted Group Memb
31、ershipTotal123OriginalCount131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a. 80.0% of original grouped cases correctly classified.表4.2错判矩阵2) 该新饮料的X1=3.0, X2=8, X3 = 5,将这3个自变量代入上一小题得到的Bayes判别函数,Y2的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification子对话框中同时要求输出casewise results运行判别过程
32、,得到相同的结果。4.9银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(XJ、受教育程度(X2 )、现在所从事工作的年数(X3、未变更住址的年数 (X4、收入(X5、负债收入比例(X6、信用卡债务(X7 )、其它债务(X8、等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据, 根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。某客户的如上情况资料为(53 , 1, 9, 18, 50 , 11.20, 2.02, 3.58),对其进行信用好坏 的判别。目前信用 好坏客户 序号X!X2
33、X3X4X5X6X7X8123172316.600.341.71已履行还2341173598.001.812.913422723414.600.94.94贷责任43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行还7291131427.401.461.6583221167523.307.769.72贷责任928223236.400.191.2910261432710.502.47.36解:令已履行还贷责任为group。,未履行还贷责任为 group1。令(53, 1, 9, 18, 50, 11.20,2.02,
34、3.58、客户序号为11 , group未知。用spss解题步骤如下:1. 在SPSS窗 口中选择 AnalyzeClassify Discriminate,调出判别分析主界面, 将左边的变量列表中的“ group”变量选入分组变量中,将X1-X6变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为0到1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。3. 单击Statistics-按钮,指定输出的描述统计量和判别
35、函数系数。选中FunctionCoefficients栏中的 Fisher和 Unstandardizec。单击 Continue按钮,返回主界面。4. 单击Classify-按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击 Continue 按钮。5.返回判别分析主界面,单击0K按钮,运行判别分析过程。1)用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3。Carmnlcal
36、l Ddscrhrnlnaiiit FLhricIlon CaeTTlclehlsFumclion1X1aX35(43(5疣X7x8(ConstanDB.687.173-.357.024710.792-2.383 -10794表4.3未标准化的典型判别函数系数由此表可知,Fisher判别函数为:Y =-10.794-0.32X16.687X2 0.173X3 0.357X4 0.024X5 0.710X6 0.792X7 -2.383X8用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知 分类,如若与group。的重心距离较近则属于group。,反之亦然。各类重心在空间
37、中的坐标位置如表4.4所示。Fundians at 6rau 卩 CentroidsgrouFunction10-2.43712.437Unstandardized canonical discriminant functions evaluated 时 group means表4.4各类重心处的费希尔判别函数值用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且 误判造成的损失也相等,所以距离判别法与bayes判别完全一致。如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下:G0 =418.69
38、3 0.340X1 94.070X2 1.033X3 -4.943X4 2.969X5 13.723X 6-10.994X7 -37.504X8Classirficalioni Fuiicloon CoefTicieirtsgroup0J.340.194a94.07012G.66D1.0331 874K4-4943-6,581X52 9693.0EBx613.723I7.1S2k7d 0.994-7.133拠-37.504-49.116Constant-116.693-171 206Fichers linear di sc nimin ant functions表4.5 Bayes判别函数系数
39、将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。2)在判别结果的 Casewise Stastics表中容易查到该客户属于groupO ,信用好。4.10从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白X1 蓝色反应 X2、尿吲哚乙酸 X3和中性硫化物X4,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。口力类rnu胃癌患者胃炎患者萎缩性非胃炎患者xl7 3 0 5 513 0 120 0 22 117761402781411解:令胃癌患者、萎缩
40、性胃炎患者和非胃炎患者分别为groupl、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与 bayes判别完全一致。用spss的解题步骤如下:1.在SPSS窗口中选择 AnalyzeClassify Discriminate,调出判别分析主界面, 将左边的变量列表中的“group”变量选入分组变量中,将Xi、X2、X3、X4变量选入自变量中,并选择Enterindependents together单选按钮,即使用所有自变量进行判别分析。2点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值
41、和最大值中分别输入1和3。单击Continue按钮,返回主界面。3. 单击Statistics-按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients 栏中的Fisher:给出Bayes判别函数的系数。4. 单击Classify-按钮,弹出 classification子对话框,选中 Display选项栏中的 Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。5. 返回判别分析主界面,单击0K按钮,运行判别分析过程。根据判别分析的结果建立Bayes判别函数:Bayes判别函数的系数见表 4.6。表中每一列表示样本判入相
42、应类的Bayes判别函数系数。由此可建立判别函数如下:Group1 :Y1 二 一79.21 2 0.16 X10.7 5X20.7 7X3 0.0 7X4Group2 :Y2 =46.72 1 0.13 0C10.5 9 X 20.3 1 X3 0.0 1 X4Group3 :Y3 - -49.59 8 0.13X10.6 3X20.1 0X3 0.0 5X4将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classificatiuri Ftihclmn Coerriciemsqroup123对1641材,130
43、lX2753.595.637.778.317100X4073.012,吒9(CoristamO-70.212-J6.721-4S.598Fishels llin?4ir discriminnl furiclicns表4.6Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。Classmcaitio
44、n Resultsgrou fPre di ded Group MemiieisiiipTotal113Original Count4t1fi2041530145% 190. D.D20.D100.02.0eo.o20.0100.03.020.030.0100.10a. SO.D% of original grouped 日呂目宙 corrsctly表4.7错判矩阵第五章5.1判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同
45、类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知 道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别 分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.2试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类, 过程一直进行下去,每个样品(或变量)总能聚到合适的类中。5.3对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为(一)闵可夫斯基距离:pdj(q)=(送怎k 二1/qq取不同值,分为(1)绝对距离(q t)pdj(1) = E
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 期刊编辑的学术期刊版权交易考核试卷
- 燃料销售数据挖掘与分析考核试卷
- 洗涤设备的品牌推广活动考核试卷
- 成人高等教育计算机组成原理考核试卷
- 淀粉行业消费者心理研究方法考核试卷
- 文具行业国际合作与交流考核试卷
- 保证金代销合同标准文本
- 仓库修整合同范例
- 公司定时付款合同标准文本
- 建筑物拆除危化品处理与储存措施考核试卷
- 印章管理责任承诺书4篇
- 2024年度供应商管理培训课件
- 《存款保险制度》课件
- 培养内驱力培训课件
- 新建项目员工四新培训
- 期末测试卷(试题)-2024-2025学年四年级上册数学沪教版
- 全国职业院校技能大赛赛项规程(中职)新能源汽车检测与维修
- GB/T 44492.2-2024地理信息覆盖的几何与函数模式第2部分:覆盖的实现模式
- 宫颈上皮性病变的病理诊断及临床处理原则
- DBJ∕T 15-19-2020 建筑防水工程技术规程
- 2024年浙江省中考社会试卷真题(含标准答案及评分标准)
评论
0/150
提交评论