版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章判别分析4.1 简述欧几里得距离与马氏距离的区别和联系。答:设p维欧几里得空间Rp中的两点x=和Y=则欧几里得距离为。欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到实际问题中量纲的影响。设X,Y是来自均值向量为出,协方差为IEMBEDEquation.3if,的总体G中的p维样本。则马氏距离为D(X,Y)=即单位阵时,D(X,丫尸即欧几里得距离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2 试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能
2、地区别开来。设R1,R2,Rk是p维空间Rp的k个子集,如果它们互不相交,且它们的和集为R9,则称为Rp的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间Rp构造一个“划分”,这个“划分”就构成了一个判别规则。4.3 简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。两个总体的距离判别问题设有协方差矩阵相等的两个总体G和G,其均值分别是内和N2,对于一个新的样品X,要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D2(X,G)和D2(X,G),则
3、X,D2(X,G)ID)(X,G)2,一、2,一X,D(X,G)>D(X,G,具体分析,D2(X,Gi)-D2(X,G)=(X四)。X-Mi)-(X函之。X由)=X1,X-2X七四十/、4'四(XT'X-2X2'包+/二-1思)2X(由一出)+(11A内M2A的-2X2(国一四).(内国)2(曲一国)(“+”=2X-I电)I2=2(X。a=2a(X。则判别规则为,W(X),W(X)<0多个总体的判别问题。设有k个总体G1,G2,,Gk,其均值和协方差矩阵分别是g,国,,姝和w,以,且斗=2=2k=2。计算样本到每个总体的马氏距离,于哪个总体。具体分析,D2(
4、X,GJ=(X一加5(X一心)到哪个总体的距离最小就属=X,2X-242X+电2"*也=X2,X-2(I;X+%)C:a=1,2,,k。可以取线性判别函数为Wa(X)=I联+Ca,V=1,2,k相应的判别规则为XwGj若W/X)=max(I鼠+CJ4.4简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体G1,G2,Gk,其各自的分布密度函数fi(x),fz(x),,fk(x),假设kk个总体各自出现的概率分别为q1,q2,qk,q,>0,£qi=1。设将本来属于Gj总体的样品1错判到总体Gj时造成的损失为C(j|i),i,j=1,2,,k。设k个总体G1,G2,,
5、Gk相应的p维样本空间为R=(R,R2,,Rk)。在规则R下,将属于Gj的样品错判为Gj的概率为P(j|i,R)=rfi(x)dxi,j=12,ki二jRj则这种判别规则下样品错判后所造成的平均损失为kr(i|R)-C(j|i)P(j|i,R)i=1,2,kj1则用规则R来进行判别所造成的总平均损失为kg(R)八qj(i,R)i1kk='、q-C(j|i)P(j|i,R)i1j4贝叶斯判别法则,就是要选择一种划分Ri,R2,,Rk,使总平均损失g(R)达到极小。kk基本方法:g(R)='、qC(j|i)P(j|i,R)i4j4kk='、qC(j|i)Rfi(x)dxi4
6、j3jkk八qiC(j|i)fi(x)dxRjj1ji1kk令£qQ(j|”(x)=hj(x),则g(R)=£Rhj(x)dxi1j1jk若有另一划分R=(R展,,Rk),g(R)=H;*hj(x)dxjmj则在两种划分下的总平均损失之差为kk*一一g(R)-g(R)八”,/山(x)-%(x)dx口j苴RGj因为在R上hi(x)M%(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。R-/RrRR=xm(x)minhj(x)从而得到的划分R(Ri,R2,,«)为何包112,k简述费希尔判别法的基本思想和方法。答:基本思'想:从k个总体中抽取具有pj指
7、标的样品观测数据,借助方差分析的思想构造一个线性判别函数U(X)=u1X1u2X2upXp=uX系数u=(Ui,U2,,Up)'可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。当k=2时,若=Ea=2则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别
8、也等价。当时,费希尔判别用+£2作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是XIGIInd,W(X)IG?X,W(X)<lnd距离判别的判别规则是电-X,W(X)|IGnX,W(X)<0二者的区别在于阈值点。当q1=q2,C(1|2)=C(2|1)时,d=1,1nd=0。二者完全J。,相同。设有两个二元总体G二和G?,从中分别抽取样本计算得到=/582IX:2.116)假设工1=£工,试用距离判别法建立判别函数和判别规则。样品X=(6,0)'应属于哪个总体?xcl)(乂I口)
9、=(6,01(4,0.5)=(2.0.5)即样品X属于总体G1某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况产品序号销售价格口味评分信任度评分12.258畅销22.56733.03943.28652.876平销63.58774.89881.734滞销92.242102.743根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增加group变量,令畅销、
10、平销、滞销分别为groupl、2、3;销售价格为X1,口味评分为X2,信任度评分为X3,用spss解题的步骤如下:.在SPSS®中选择AnalyzeClassify-Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X、X2、X3变量选入自变量中,并选择Enterindependentstogether单选按钮,即使用所有自变量进行判别分析。.点击DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1图4.1判别分析主界
11、面.单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher:'给出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fishers是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。图4.2statistics子对话框.单击Classify按钮,弓t出classification子对话框,选中Display选项栏中的Summarytable复选框,即要求输出错判
12、矩阵,以便实现题中对原样本进行回判的要求。如图4.3。图4.3classification对话框.返回判别分析主界面,单击OK按钮,运行判别分析过程。1)根据判别分析的结果建立Bayes判别函数:Bayes判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下:Groupl:Y1=-81.843-11.689X112.297X216.761X3Group2:Y2-94.536-10.707X113.361X217.086X3Group3:Y3-17.449-2.194(14.96X26.447X3将各样品的自变量值代入上述三个Bayes判别函数,
13、得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。ClassificationFunctionCoefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fisher'slineardiscriminantfunctions表4.1BayesRJ别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3
14、种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整体的正确率为80.0%o.一,aClassificationResultsPredictedGroupMembershipgroup123TotalOriginalCount131042120375.033.3.025.066.7.0.0.0100.0100.0100.0100.0a.80.0%oforiginalgroupedcasescorrectlyclassified.表4.2错判矩阵2)该新饮料的X1=3.0,X2=8,X3=5,将这3个自变量代入上一小题得到的Bayes判别函
15、数,Y2的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classificatio时对话框中同时要求输出casewiseresults运行判别过程,得到相同的结果。4.9银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其它债务(X8)等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法
16、建立判别函数和判别规则。某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。目前信用好坏客户序号X1X2X3X4X5X6X7X8123172316.600.341.71已履行还贷责任2341173598.001.812.913422723414.600.94.941-L*43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行还贷责任7291131427.401.461.6583221167523.307.769.721-L*928223236.400.191.2
17、910261432710.502.47.36解:令已履行还贷责任为group。,未履行还贷责任为group1。令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group未知。用spss解题步骤如下:.在SPSS®口中选择AnalyzeClassifyfDiscriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1-X6变量选入自变量中,并选择Enterindependentstogether单选按钮,即使用所有自变量进行判别分析。.点击DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为0
18、到1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher'禾1Unstandardized。单击Continue按钮,返回主界面。单击Classify按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewiseresults,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue按钮。返回判别分析主界面,单击OK按钮,运行判别分析过程。1)用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数
19、由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3。LanmicaiLUscrkTimaiitIuncflianCdeiTictciiitsFunction1<1烟2噌0BB7色17:!而IS必国,HDN2啰2.3S3(CDnctsnti10794Unfiitandan1i2«dc;o«ricivntt表4.3未标准化的典型判别函数系数由此表可知,Fisher判别函数为:丫-10.794-0.32X16.687X20.173X30.357X40.024X50.710X60.792X7-2.383X8用Y计算出各观
20、测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group0的重心距离较近则属于group。,反之亦然。各类重心在空间中的坐标位置如表4.4所示。FunctionsatGroupCentroidsFunctiongQuQ10-243712437Unstandardizedcanonicaldiscriminanrtfunctionse'lualec)atgroupmeans表4.4各类重心处的费希尔判别函数值用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。如表4.5所示
21、,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下:G0-118.6930.340X194.070X21.033X3-4.943X42.969X513.723X6-10.994X7-37.504X8G1-171.2960.184X1126.660X21874X36.681X43.086X517.182X6-7.133X7-49.116X8mWUMEnFLIril?til>lriiMTTiiiHrllEgnupj1X.340.1函x294,070125,660.口33>46681成960J.086疝13.72217.1心1090
22、47133由-37,50449116«口口如约118,633“".山匕Fifihar1:in»aricnnninanlttinctoriE表4.5Bayes判别函数系数将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。2)在判别Z果的CasewiseStastics表中容易查到t客户属于group0,信用好。4.10从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白(X1卜蓝色反应(X2卜尿口引喋乙酸(X3)和中性硫化物(X4),数据见下表。试用
23、距离判别法建立判别函数,并根据此判别函数对原样本进行回判。号e7J人病胃癌患者胃炎患者萎缩性123456789412050,4D22701001151012201412非胃炎患者19701312001解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为groupl、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。用spss的解题步骤如下:.在SPSS®中选择AnalyzerClassifyDiscriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将Xi、X2、X3、X
24、4变量选入自变量中,并选择Enterindependentstogether单选按钮,即使用所有自变量进行判别分析。.点击DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。.单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher':给出Bayes判别函数的系数。.单击Classify按钮,弓t出classification子对话框,选中Display选项栏中的Summarytable复选框,即要求输出错判矩阵,以便实现题中对原样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育工作者的先进事迹(13篇)
- 会计类实习报告5篇
- 七夕节超市促销方案(5篇)
- DB12T 490.1-2013 社区管理和服务信息化规范 第1部分:总则
- 校园演讲稿合集十篇
- 学习委员竞选演讲稿集合5篇
- 主题教学课件教学课件
- 美术课件写生教学课件
- 春雨课件教学课件
- 葫芦育种合同(2篇)
- 1kw太阳能独立供电系统解决方案
- 七年级期中考试考后分析主题班会课件
- 环境教育与公众参与-第1篇
- 北师大版六年级数学上册第五单元数据处理单元测试卷及答案
- (2024年)Photoshop基础入门到精通教程全套
- 《东北的振兴》课件
- 2024年中职《餐饮服务与管理》职教高考必备考试题库(含答案)
- 2024年中核武汉核电运行技术股份有限公司招聘笔试参考题库含答案解析
- 背景调查管理规定模版
- 房地产公司设计类技术笔试(2018-2023年)真题摘选含答案
- 误吸急救处理护理课件
评论
0/150
提交评论