多元统计分析课后习题解答第四章doc_第1页
多元统计分析课后习题解答第四章doc_第2页
多元统计分析课后习题解答第四章doc_第3页
多元统计分析课后习题解答第四章doc_第4页
多元统计分析课后习题解答第四章doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章鉴识解析4.1简述欧几里得距离与马氏距离的差异和联系。答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为。欧几里得距离的限制有①在多元数据解析中,其胸襟不合理。②会碰到实责问题中量纲的影响。设X,Y是来自均值向量为,协方差为的整体G中的p维样本。则马氏距离为D(X,Y)=。当即单位阵时,D(X,Y)==即欧几里得距离。因此,在必然程度上,欧几里得距离是马氏距离的特别状况,马氏距离是欧几里得距离的实行。4.2试述鉴识解析的实质。答:鉴识解析就是希望利用已经测得的变量数据,找出一种鉴识函数,使得这一函数拥有某种最优性质,能把属于不相同类其余样本点尽可能地区别开来。设R1,R2,,Rk是p维空间Rp的k个子集,若是它们互不订交,且它们的和集为,则称为的一个划分。鉴识解析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个鉴识规则。4.3简述距离鉴识法的基本思想和方法。答:距离鉴识问题分为①两个整体的距离鉴识问题和②多个整体的鉴识问题。其基本思想都是分别计算样本与各个整体的距离(马氏距离),将距离近的鉴识为一类。①两个整体的距离鉴识问题设有协方差矩阵∑相等的两个整体1和2,其均值分别是1和2,对于一个新的样品,GGX要判断它来自哪个整体。计算新样品X到两个整体的马氏距离2122D(X,G)和D(X,G),则X,D2(X,G1)D2(X,G2)X,D2(X,G1)>D2(X,G2,详尽解析,D2(X,G1)D2(X,G2)(Xμ1)Σ1(Xμ1)(Xμ2)Σ1(Xμ2)XΣ1X2XΣ1μ1μΣ11μ1(XΣ1X2XΣ1μ2μΣ21μ2)2XΣ1(μ2μ1)μΣ11μ1μΣ21μ22XΣ1(μ2μ1)(μ1μ2)Σ1(μ1μ2)2XμμΣ1(μμ)122122(Xμ)α2α(Xμ)记W(X)α(Xμ)则鉴识规则为X,W(X)X,W(X)<0②多个整体的鉴识问题。设有k个整体G1,G2,,Gk,其均值和协方差矩阵分别是μ,μ,,μ和Σ,Σ,,Σ,12k12k且Σ1Σ2ΣkΣ到哪个整体的距离最小就属。计算样本到每个整体的马氏距离,于哪个整体。详尽解析,D2(X,G)(Xμ)Σ1(Xμ)XΣ1X2μΣ1XμΣ1μXΣ1X2(IXC)取IΣ1μ,C1μΣ1μ,1,2,,k。2可以取线性鉴识函数为W(X)IXC,1,2,,k相应的鉴识规则为XGi若Wi(X)max(IXC)1k4.4简述贝叶斯鉴识法的基本思想和方法。基本思想:设k个整体G1,G2,,Gk,其各自的分布密度函数f1(x),f2(x),,fk(x),假设kk个整体各自出现的概率分别为q1,q2,,qk,qi0,qi1。设将本来属于Gi整体的样品i1错判到整体Gj时造成的损失为C(j|i),i,j1,2,,k。设k个整体G1,G2,,Gk相应的p维样本空间为R(R1,R2,,Rk)。在规则R下,将属于Gi的样品错判为Gj的概率为P(j|i,R)fi(x)dxi,j1,2,,kijRj则这种鉴识规则下样品错判后所造成的平均损失为kr(i|R)[C(j|i)P(j|i,R)]i1,2,,kj1则用规则R来进行鉴识所造成的总平均损失为kg(R)qir(i,R)i1kkqiC(j|i)P(j|i,R)i1j1贝叶斯鉴识法规,就是要选择一种划分R1,R2,,Rk,使总平均损失g(R)达到极小。kk基本方法:g(R)qiC(j|i)P(j|i,R)i1j1kkqiC(j|i)fi(x)dxi1j1Rjkk(qiC(j|i)fi(x))dxRji1j1kk令qiC(j|i)fi(x)hj(x),则g(R)hj(x)dxi1Rjj1k若有另一划分R*(R1*,R2*,,Rk*),g(R*)*hj(x)dxj1Rj则在两种划分下的总平均损失之差为g(R)g(R*)kk*[hi(x)hj(x)]dxRRji1j1由于在Ri上hi(x)hj(x)对所有j建立,故上式小于或等于零,是贝叶斯判其余解。R(R1,R2,,Rk)Ri{x|hi(x)minhj(x)}i1,2,,k从而获取的划分为1jk4.5简述费希尔鉴识法的基本思想和方法。答:基本思想:从k个整体中抽取拥有p个指标的样品察看数据,借助方差解析的思想构造一个线性鉴识函数U(X)

u1X1

u2X2

L

upXp

uX系数

u

(u

1,u2,

,u

p)

可使得整体之间差异最大,

而使每个整体内部的离差最小。

将新样品的

p

个指标值代入线性鉴识函数式中求出

U(X

)

值,尔后依照鉴识必然的规则,就可以鉴识新的样品属于哪个整体。4.6试析距离鉴识法、贝叶斯鉴识法和费希尔鉴识法的异同。答:①费希尔鉴识与距离鉴识对鉴识变量的分布种类无要求。两者可是要求有各样母体的两阶矩存在。而贝叶斯鉴识必定知道鉴识变量的分布种类。所从前两者相对来说较为简单。②当k=2时,若则费希尔鉴识与距离鉴识等价。当鉴识变量遵从正态分布时,两者与贝叶斯鉴识也等价。③当时,费希尔鉴识用作为共同协差阵,实质看作等协差阵,此与距离鉴识、贝叶斯鉴识不相同。④距离鉴识可以看为贝叶斯判其余特别状况。贝叶斯判其余鉴识规则是XW(X)X,W(X)<lnd距离判其余鉴识规则是X,W(X)X,W(X)<0两者的差异在于阈值点。当q1q2,C(1|2)C(2|1)时,d1,lnd0。两者完好相同。4.7设有两个二元整体

,从中分别抽取样本计算获取

,,假设

,试用距离鉴识法建立鉴识函数和鉴识规则。

样品

X=(6,0)’应属于哪个整体?解:=,=,==即样品X属于整体4.8某商场经销十种品牌的饮料,其中有四种热卖,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各样饮料的口味评分、相信度评分的平均数。销售状况产品序号销售价格口味评分相信度评分12.258热卖22.56733.03943.28652.876平销63.58774.89881.734滞销92.242102.743⑴依照数据建立贝叶斯鉴识函数,并依照此鉴识函数对原样本进行回判。⑵现有一新品牌的饮料在该商场试销,其销售价格为3.0,顾客对其口味的评分平均为8,相信评分平均为5,试展望该饮料的销售状况。解:增加group变量,令热卖、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,相信度评分为X3,用spss解题的步骤以下:1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出鉴识解析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X123、X、X变量选入自变量中,并选择Enterindependentstogether单项选择按钮,即使用所有自变量进行判别解析。2.点击DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,因此在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1图4.1鉴识解析主界面3.单击Statistics按钮,指定输出的描述统计量和鉴识函数系数。选中FunctionCoefficients栏中的Fisher:’s给出Bayes鉴识函数的系数。(注意:这个选项不是要给出Fisher鉴识函数的系数。这个复选框的名字之因此为Fisher’s,是由于按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意鉴识。)如图4.2。单击Continue按钮,返回主界面。图4.2statistics子对话框4.单击Classify按钮,弹出classification子对话框,选中Display选项栏中的Summarytable复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。图4.3classification对话框返回鉴识解析主界面,单击OK按钮,运行鉴识解析过程。依照鉴识解析的结果建立Bayes鉴识函数:Bayes鉴识函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes鉴识函数系数。由此可建立鉴识函数以下:Group1:Y181.84311.689X112.297X216.761X3Group2:Y294.53610.707X113.361X217.086X3Group3:Y317.4492.194X14.960X26.447X3将各样品的自变量值代入上述三个Bayes鉴识函数,获取三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。ClassificationFunctionCoefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fisher'slineardiscriminantfunctions表4.1Bayes鉴识函数系数依照此鉴识函数对样本进行回判,结果如表4.2。从中可以看出在4种热卖饮料中,有3种被正确地判断,有1种被错误地判断为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判断,有1种被错误地判断为热卖饮料,正确率为66.7%。3种滞销饮料均正确判断。整体的正确率为80.0%。ClassificationResults

aPredictedGroupMembershipgroup123TotalOriginalCount131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a.80.0%oforiginalgroupedcasescorrectlyclassified.表4.2错判矩阵2)该新饮料的X13.0,X28,X35,将这3个自变量代入上一小题获取的Bayes鉴识函数,Y2的值最大,该饮料预计平销。也可经过在原样本中增加这一新样本,重复上述的鉴识过程,并在classification子对话框中同时要求输出casewiseresults,运行鉴识过程,获取相同的结果。4.9银行的贷款部门需要鉴识每个客户的信用利害(可否未履行还贷责任),以决定可否恩赐贷款。可以依照贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未改正地址的年数(

X4)、收入(

X5)、负债收入比率(

X6)、信用卡债务(

X7

)、其余债务(X8)等来判断其信用状况。下表是从某银行的客户资料中抽取的部分数据,⑴依照样本资料分别用距离鉴识法、Bayes鉴识法和Fisher鉴识法建立鉴识函数和鉴识规则。⑵某客户的如上状况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用利害的鉴识。目前信用客户X1X2X3X4X5X6X7X8利害序号123172316.600.341.71已履行还2341173598.001.812.913422723414.600.94.94贷责任43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行还7291131427.401.461.6583221167523.307.769.72贷责任928223236.400.191.2910261432710.502.47.36解:令已履行还贷责任为group0,未履行还贷责任为group1。令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group未知。用spss解题步骤以下:在SPSS窗口中选择Analyze→Classify→Discriminate,调出鉴识解析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1X6变量选入自变量中,并选择Enterindependentstogether单项选择按钮,即使用所有自变量进行鉴识解析。2.点击DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为0到1,因此在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。3.单击Statistics按钮,指定输出的描述统计量和鉴识函数系数。选中FunctionCoefficients栏中的Fisher’s和Unstandardized。单击Continue按钮,返回主界面。4.单击Classify按钮,定义鉴识分组参数和选择输出结果。选择Display栏中的Casewiseresults,以输出一个鉴识结果表。其余的均保留系统默认选项。单击Continue按钮。返回鉴识解析主界面,单击OK按钮,运行鉴识解析过程。用费希尔鉴识法建立鉴识函数和鉴识规则:未标准化的典型鉴识函数系数由于可以将实测的样品察看值直接代入求出鉴识得分,所以该系数使用起来比标准化的系数要方便一些。详尽见表4.3。表4.3未标准化的典型鉴识函数系数由此表可知,Fisher鉴识函数为:Y10.7940.32X16.687X20.173X30.357X40.024X50.710X60.792X72.383X8用Y计算出各察看值的详尽坐标地址后,再比较它们与各样重心的距离,就可以得知分类,如若与group0的重心距离较近则属于group0,反之亦然。各样重心在空间中的坐标地址如表4.4所示。表4.4各样重心处的费希尔鉴识函数值用bayes鉴识法建立鉴识函数与鉴识规则,由于此题中假设各样出现的先验概率相等且误判造成的损失也相等,因此距离鉴识法与bayes鉴识完好一致。如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes鉴识函数系数。由此可得,各样的Bayes鉴识函数以下:G0118.6930.340X194.070X21.033X34.943X42.969X513.723X610.994X737.504X8G1171.2960.184X1126.660X21.874X36.681X43.086X517.182X67.133X749.116X8表4.5Bayes鉴识函数系数将各样品的自变量值代入上述两个Bayes鉴识函数,获取两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。2)在鉴识结果的CasewiseStastics表中简单查到该客户属于group0,信用好。4.10从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白X1、蓝色反应X2、尿吲哚乙酸X3和中性硫化物X4,数据见下表。试用距离鉴识法建立鉴识函数,并依照此鉴识函数对原样本进行回判。种类病人序号X1X2X3X412281342011胃22451341040癌32001671227患者417015078510016720146225125714萎胃7130100612炎缩815011776患性91201331026者10160100510非111851155191217012564胃炎13165142531510011772解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为group1、group2、group3,由于此题中假设各样出现的先验概率相等且误判造成的损失也相等,因此距离鉴识法与bayes鉴识完全一致。用spss的解题步骤以下:1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出鉴识解析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3、X4变量选入自变量中,并选择Enterindependentstogether单项选择按钮,即使用所有自变量进行鉴识解析。2.点击DefineRange按钮,定义分组变量的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论