版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章判别分析4.1简述欧几里得距离与马氏距离的区别和联系。设p维欧几里得空间:中的两点X=Y=则 欧几 里得 距离 为。欧几里得距离的局限有在多元数据分析中,度量不合理。会受到实际问题中量纲的影响。设X,Y是来自均值向量为也,协方差为I EMBED Equation. 3 if*的总体G中的p维样本。则马氏距离为D(X,Y)=即欧几里得距离。位阵时,因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设
2、R1,R2, ,, Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为 :厂,则称为的一个划分。判别分析问题实质上就是在某种意义上, 以最优的性质对p维空间禹构造一个“划 分”,这个“划分”就构成了一个判别规则。4.3简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 两个总体的距离判别问题设有协方差矩阵 刀相等的两个总体 G和G2,其均值分别是卩i和卩2,对于一个新的样品 X, 要判断它来自哪个总体。计算新样品 X到两个总体的马氏距离 D2 (X, G)和
3、D2 (X, G), 则IGtX, D2 (X, G)丨D2 (X, G2)1 G2X, D2 (X, G) D2 (X, G,具体分析,D2(X,G) -D2(XG)=(X Mi) /(X w) (X M2)nt X 应)=X nx -2X nM + M 艺(X n X- 2 XM 艺M2)2X n (j2 m)* min * w2n m=2X n( M - Mi) ( Mi M)n4( Mi - M)(+ =2 Xn(Mi M2)I2丿=-2(X - M a = -2 a (X - M记W(X) = a(X -M)则判别规则为,W(X),W(X)0 多个总体的判别问题。卩2, Mk禾口厶,
4、工2 ,工k,到哪个总体的距离最小就属设有k个总体G1,G2 ,Gk,其均值和协方差矩阵分别是且厶=艺2二=厶=艺。计算样本到每个总体的马氏距离, 于哪个总体。具体分析,D2(X,GJ =(X -匕)1(X_匕)二X - 2匕艺X 巴工匕 二 X 才X- 2(1 X C )口:.艺 匕,: =1,2, ,k。可以取线性判别函数为W(X) = X C, 1,2, ,k相应的判别规则为x G若 W(x)=max( r x C )4.4简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体G1,G2i ,Gk,其各自的分布密度函数fi(x), f2(x), fk(x),假设 k个总体各自出现的概率分
5、别为qi,q2,qk,qi-0, qiim=1。设将本来属于 Gj总体的样品错判到总体Gj时造成的损失为C(j |i), i,j =1,2,k。设k个总体GG, G相应的p维样本空间为 R=(R1,R2, ,RQ。在规则R下,将属于Gj的样品错判为Gj的概率为P(j |i,R)R fi (x)dxi, j =1,2; ,k i = jRj则这种判别规则下样品错判后所造成的平均损失为kr(i|R)八C(j|i)P(j|i,R) i =12 ,kj 二则用规则R来进行判别所造成的总平均损失为kg(R)八 qir(i,R)i 二kk八 qC(j|i)P(j |i,R)i 4 j 4贝叶斯判别法则,就
6、是要选择一种划分R,R2,,Rk,使总平均损失g(R)达到极小。k k基本方法:g(R)八 C(j |i)P(j |i,R)i j仝kk八 qC(j |i) R fi(x)dxi i j ijkk(、qC(j |i) fi (x)dXj A j i 生kk令 qiC(j|i)fi(x)=hj(X),则 g(R)二為 Rhj(x)dxi 吕j d jk若有另一划分 R* =(R*,R;, ,R;),g(R*)八 R*hj(x)dxj# j则在两种划分下的总平均损失之差为k kg(R)-g(R*)八 山(x) -hj(x)dxi 二 jW R j因为在Ri上hi (x) _ hj (x)对一切j成
7、立,故上式小于或等于零,是贝叶斯判别的解。从而得到的划分(RiR,,Rk)为R珂x曲小河叮。)“12 ,k4.5简述费希尔判别法的基本思想和方法。答:基本思想:从 k个总体中抽取具有 p个指标的样品观测数据,借助方差分析的思想构 造一个线性判别函数U (X)u2X2UpXp 二uX系数u =(U1,U2,,Up) 可使得总体之间区别最大, 而使每个总体内部的离差最小。 将新样 品的P个指标值代入线性判别函数式中求出 U( X )值,然后根据判别一定的规则, 就可以判 别新的样品属于哪个总体。4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:费希尔判别与距离判别对判别变量的分布类型无要
8、求。二者只是要求有各类母体的 两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 当k=2时,若-则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。 当丄时,费希尔判别用二二-二二作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 XI GtI Ind,W(X)X,W(X)Ind距离判别的判别规则是X,W(X)I g2X,W(X)0二者的区别在于阈值点。当4=2,C(1|2) =C(2|1)时,d=1 , lnd=O。二者完全相同。4.7 设有两个二元总体5和,
9、从中分别抽取样本计算得到假设二:二,试用距离判别法建立判别函数和判别规则。样品X=( 6,0)应属于哪个总体?解:団=,赛,(xl p) = (6.0) 一(4.0.5) = (2,0.5)4.8某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品 牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况产品序号销售价格口味评分信任度评分12.258畅销22.56733.03943.28652.876平销63.58774.89881.734滞销92.242102.743 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 现有一新品牌的
10、饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增加group变量,令畅销、平销、滞销分别为groupl、2、3;销售价格为 ,口味评分为冷,信任度评分为 X3,用spss解题的步骤如下:1.在SPSS窗 口中选择 Analyze Classify Discriminate,调出判别分析主界面, 将左边的变量列表中的“ group”变量选入分组变量中,将Xi、X2、X3变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判 别分析。2点击Define Range按钮,定义分组
11、变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1图4.1判别分析主界面3.单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher :给出Bayes判别函数的系数。(注意:这个选项不是 要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher ,s是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。图4.2 statistics
12、子对话框4.单击 Classify按钮,弹出 classification子对话框,选中 Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的 要求。如图4.3。图 4.3 classification 对话框5.返回判别分析主界面,单击0K按钮,运行判别分析过程。1)根据判别分析的结果建立 Bayes判别函数:Bayes判别函数的系数见表 4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:Groupl : Y1 =81.843 -11.689X112.297X216.761X3Group2:Y2 -
13、-94.536 -10.707X1 13.361X 2 17.086X3Group3:Y3 - -17.4492.1 9 41 4.9 60C2 6.4 4 7X3将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123X1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fishers linear disc
14、riminant functions表4.1Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整体的正确率为80.0%。aClassification ResultsgroupPredicted Group MembershipTotal123OriginalCount 131042120330033%175.025.0.0100.0233.366.7.0100.03.0.
15、0100.0100.0a. 80.0% of original grouped cases correctly classified.表4.2错判矩阵2)该新饮料的X1=3.0 , X2=8, X3=5,将这3个自变量代入上一小题得到的Bayes判别函数,丫2的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification子对话框中同时要求输出casewise results运行判别过程,得到相同的结果。4.9银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(Xi )、受教育程度(X2
16、)、现在所从事工作的年数(X3 )、未变更住址的年数(X4)、收入(X5 )、负债收入比例(X6 )、信用卡债务(X7 )、其它债务(X8、等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。某客户的如上情况资料为(53 , 1, 9, 18, 50 , 11.20, 2.02, 3.58),对其进行信用好坏 的判别。目前信用 好坏客户 序号X1X2X3X4X5X6X7X8123172316.600.341.71已履行还贷责任2341173598.001.812.913422723414.600
17、.94.9443911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行还贷责任7291131427.401.461.6583221167523.307.769.72928223236.400.191.2910261432710.502.47.36解:令已履行还贷责任为groupO ,未履行还贷责任为 group1。令(53, 1, 9, 18, 50, 11.20 ,2.02, 3.58、客户序号为11 , group未知。用spss解题步骤如下:1. 在SPSS窗 口中选择 AnalyzeClassify Discri
18、minate,调出判别分析主界面,将左边的变量列表中的“ group ”变量选入分组变量中,将X1-X6变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为0到1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。3. 单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的 Fisher 和s Unstandardized。单击 Continue按钮,返回主
19、界面。4. 单击Classify按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击 Continue 按钮。5. 返回判别分析主界面,单击0K按钮,运行判别分析过程。1)用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3。Cariiotibcal Discnrrihiarit Fuiiiction CoonicieritsFuncllon1-032x2E.6B7诒173x4-.3
20、57诂.024710)(7792-2.303(Constant)-10.794unsiandardized coefflc lente表4.3未标准化的典型判别函数系数由此表可知,Fisher判别函数为:Y - -10.794 -0.32X1 6.687X2 0.173X3 0.357X4 0.024X5 0.710X6 0.792X7 -2.383X8用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group。的重心距离较近则属于group。,反之亦然。各类重心在空间中的坐标位置如表 4.4所示。Functians at Grau卩 Centroidsg
21、rouFunction10-2.43712.437Unstand a rdized canonical discriminant functions evaliiated 时 group means表4.4各类重心处的费希尔判别函数值用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且 误判造成的损失也相等,所以距离判别法与bayes判别完全一致。如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下:G0 =718.693 0.340X1 94.070X2 1.033X3-4.943X4 2.969
22、X5 13.723X 6-10.994X 737.504X 8G1 =-171.296 0.184X1 126.660X2 1.874X36.681X4 3.086X5 17.182X6 -7.133X7-49.116X8Classificarlinn Functnooi Coefficiems0Iid.340.184x294.D70126JG60x31,0331.874X4-4.S43-6.681X52.QSQ3.0S6浦1 3.723I 7.132k7-101.994-7.133xB-37.5044S.116(Cun&lanQ-118.693171.296Fi she 广占 li ne a
23、r d i$ crimin ant fu nction s表4.5 Bayes判别函数系数将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。2)在判别结果的 Casewise Stastics表中容易查到该客户属于groupO ,信用好。4.10从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白X1、蓝色反应 X2、尿吲哚乙酸 X3和中性硫化物X4,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。口力类rnu胃癌患者胃炎患者萎缩性非胃炎患者340 0
24、 22 1177640278147 3 0 5 513 0 12111解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为groupl、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与 bayes判别完全一致。用spss的解题步骤如下:1.在SPSS窗口中选择 AnalyzeClassify Discriminate,调出判别分析主界面, 将左边的变量列表中的“group”变量选入分组变量中,将Xi、X2、X3、X4变量选入自变量中,并选择Enterindependents together单选按钮,即使用所有自变量进行判别分析。2点击Def
25、ine Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。3. 单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients 栏中的Fisher s给出Bayes判别函数的系数。4. 单击Classify按钮,弹出 classification子对话框,选中 Display选项栏中的 Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。5. 返回判别分析主界面,单击0K按钮,运行判别分析过程。根据判别分析的结果建立Bayes判别函数:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 试用期销售合同范本(3篇)
- 心理疏导服务团队方案(3篇)
- 新教材高考地理二轮复习三10个长效热点综合专项训练热点3生物多样性与环境含答案
- 武汉市部分重点中学 2024-2025 学年度上学期期中联考 高二地理试卷
- 陕西省西安市曲江第一小学2024-2025学年四年级上学期期中学业水平测试科学试题(无答案)
- 2025年高考物理专项复习:机械波及光的运用(分层练)(解析版)
- 广告制作合同范本怎么写
- 2024年证券交易市场委托交易规则
- 绿色环保课程设计
- 农贸市场摊位租赁条款
- 空调设备维保前检查报告
- 入户门技术标准要求
- HXN5型机车常见故障处理指导书
- 水泵技术规格书精编版
- 《剖腹产》PPT课件
- 头颈部体格检查评分标准(共3页)
- 电子琴伴奏及音色中英文对照表
- 苏教版初中化学常见气体的检验与除杂教案
- 火灾报警系统技术规范书
- 鱼塘租赁合同
- hydac压力继电器说明书
评论
0/150
提交评论