多个总体距离判别法_第1页
多个总体距离判别法_第2页
多个总体距离判别法_第3页
多个总体距离判别法_第4页
多个总体距离判别法_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE多个总体距离判别法及其应用课程名:年级:专业:姓名:学号:目录TOC\h\z\t"大标题,1,小标题,2,小标题3,2"一、 摘要 1二、 引言 1三、 原理 13.1 定义 13.2 思想 13.3 判别分析过程 1四、 具体应用 34.1 判别分析在医学上的应用 34.2 距离判别法在居民生活水平方面的应用 94.3 判别分析软件的使用 12五、 参考文献 14六、 附录 15PAGE17摘要近年来随着信息化社会的进行,数据分析对我们来说日趋重要,为了对数据的分类进行判别,本文介绍了数据分类判别的一种方法:距离判别法。本文从多个总体距离判别法理论出发并结合例题详细介绍了多个总体距离判别法的在医学领域以及居民生活水平方面的应用,同时也简单介绍了spss软件一般判别法的具体操作。关键词:距离判别法判别分析一般判别分析引言随着科技的发展,判别分析在经济,医学等很多领域以及气候分类,农业区划,土地类型划分等有着重要的应用,本文从多个总体距离判别分析理论出发,介绍了多个总体距离判别法在医学以及人民生活方面的应用,并介绍了spss一般判别分析的应用。原理定义距离判别法:距离判别分析方法是判别样品所属类别的一应用性很强的多因素决方法,其中包括两个样本总体距离判别法,多个样本距离判别法。多个总体距离判别法:多个总体距离判别法是距离判别法的一种,是两个总体距离判别法的推广,具有多个总体,将待测样本归为多个样本中的一类。思想计算待测样本与各总体之间的距离,将待测样本归为与其距离最进的一类。判别分析过程对于k个总体,假设其均值分别为:,协方差阵分别为:,(其中i=1,2,…k),待测样本为,其中为样本的p个检测指标,假设的均值为,协方差为,判断属于哪个总体。步骤:从,k个总体中,取n个样本,分别记为总体样本,再结合上面p个指标,这k个样本可以表述如下:第j个总体样本(j=1,2…k)变量指标样本………均值…(1)当待测样本与各总体样本的均值相等时,即=……==;则相应的判别函数为:(其中i,j=1,2…k,表示X与的马氏距离);判断准则:如果对所有i≠j有成立,则,若存在i和j使得成立,则待判。当各样本总体的均值和协方差阵未知时,可以从中抽取,i=1,2…k;则和的无偏估计可以表示为:(i=1,2…,k)(其中n=1+2+……+n,)(2)当各样本总体样本的均值不相等时,相应的判别函数为:判别准则:若对所有i≠j有则,若存在i和j使得成立,则待判。具体应用判别分析在医学上的应用为了研究某地区人口死亡状况,已按某种方法将15个已知样品分为三类(如下表所示),指标及原始数据见下表,试建立判别函数并判定另外4个待判样品分别属于哪类。:0岁死亡率:1岁死亡率:10岁死亡率:55岁死亡率:80岁死亡率:平均预期寿命组别序号第一组134.167.441.127.8795.1969.30233.066.341.086.7794.0869.70332.269.241.048.9797.3068.80440.1713.451.4313.88101.2066.20550.0623.032.8323.74112.5263.30第二组133.246.241.1822.90160.0165.40232.224.221.0620.70124.7068.70341.1510.082.3232.84172.0665.85453.0425.744.0634.87152.0363.50538.0311.206.0727.84146.3266.80第三组134.035.410.075.2090.1069.50232.113.020.093.1485.1570.80344.1215.121.0815.15103.1264.80454.1725.032.1125.15110.1463.70528.072.010.073.0281.2268.30待判样品150.226.661.0822.54170.6065.20234.647.331.117.7895.1669.30333.426.221.1222.95160.3168.30444.0215.361.0716.45105.3064.20我们假设两样本的协方差相等;本题中变两个数p=6,三类总体各有5个样本,故n1=n2=n3=5;利用Matlab软件并结合Excel表格进行下列计算(具体计算见附录)计算各组的样本的均值为:=(37.9411.901.5012.25100.06 67.46)'=(39.5411.502.94 27.83 151.02 66.05)'=(38.50 10.12 0.68 10.33 93.95 67.42)'计算样本协方差:222.23 197.45 22.06 204.82 216.83 -78.73197.45 184.16 19.95 189.14 202.76 -72.48222.23 197.45 22.06 204.82 216.83 -78.73197.45 184.16 19.95 189.14 202.76 -72.4822.06 19.95 2.31 20.64 22.12 -7.70204.82 189.14 20.64 194.65 208.18 -74.58216.83 202.76 22.12 208.18 223.65 -79.32-78.73 -72.48 -7.70 -74.58 -79.32 29.09=280.39 276.83 34.25 186.34 190.63 -51.18276.83 285.55 38.83 170.97 130.24 -52.13280.39 276.83 34.25 186.34 190.63 -51.18276.83 285.55 38.83 170.97 130.24 -52.1334.25 38.83 18.07 26.89 7.03 -4.22186.34 170.97 26.89 149.80 255.81 -34.64190.63 130.24 7.03 255.81 1239.35 -85.90-51.18 -52.13 -4.22 -34.64 -85.90 14.55=446.73 412.75 37.52 404.44 511.45 -113.09412.75 385.67 35.33 379.56 471.10 -109.50446.73 412.75 37.52 404.44 511.45 -113.09412.75 385.67 35.33 379.56 471.10 -109.5037.52 35.33 3.30 34.95 42.13 -10.17404.44 379.56 34.95 374.31 460.21 -109.16511.45 471.10 42.13 460.21 600.52 -133.21-113.09 -109.50 -10.17 -109.16 -133.21 37.23=从而949.35 887.03 93.83 795.6 918.91 -243949.35 887.03 93.83 795.6 918.91 -243887.03 855.38 94.11 739.67 804.1 -234.1193.83 94.11 23.68 82.48 71.28 -22.09795.6 739.67 82.48 718.76 924.2 -218.38918.91 804.1 71.28 924.2 2063.52 -298.43-243 -234.11-22.09-218.38-298.4380.87S=S1+S2+S3=79.11 73.92 7.82 66.30 76.58 -20.2573.92 71.28 7.84 61.64 67.01 -19.517.82 7.84 1.97 6.87 5.94 -1.8466.30 61.64 6.87 59.90 77.02 -18.2076.58 67.01 5.94 77.02 171.96 -24.8779.11 73.92 7.82 66.30 76.58 -20.2573.92 71.28 7.84 61.64 67.01 -19.517.82 7.84 1.97 6.87 5.94 -1.8466.30 61.64 6.87 59.90 77.02 -18.2076.58 67.01 5.94 77.02 171.96 -24.87-20.25 -19.51 -1.84 -18.20 -24.87 6.740.85 -0.73 0.39 -0.37 -0.02 -0.50-0.73 0.84 -0.42 0.12 0.05 0.620.85 -0.73 0.39 -0.37 -0.02 -0.50-0.73 0.84 -0.42 0.12 0.05 0.620.39 -0.42 1.18 -0.29 0.01 -0.47-0.37 0.12 -0.29 0.48 -0.05 0.30-0.02 0.05 0.01 -0.05 0.02 0.05-0.50 0.62 -0.47 0.30 0.05 1.35=求判别函数,解线性方程组,得3.62 -1.42 0.69 -3.69 -0.28 -3.83-2.28 2.12 -0.50 0.84 0.15 1.97-3.62 1.42 -0.69 3.69 0.28 3.83-5.90 3.53 -1.19 4.53 0.43 5.792.28 -2.12 0.50 -0.84 -0.15 -1.975.90 -3.53 1.19 -4.53 -0.43 -5.79=从而可以求得===3.62 -1.42 0.69 -3.69 -0.28 -3.83-2.28 2.12 -0.50 0.84 0.15 1.97-3.62 1.42 -0.69 3.69 0.28 3.83-5.90 3.53 -1.19 4.53 0.43 5.792.28 -2.12 0.50 -0.84 -0.15 -1.975.90 -3.53 1.19 -4.53 -0.43 -5.79239.52-92.56-239.52-332.0892.56332.08=+对已知样本的回判:将题目中表格中个数据代入上述方程组中可得:从上表中可知判对率为100%。对待测样本进行判断,通过EXcel表格计算的下表从表格中可以看出待判样本1属于第3组,待判样本2属于第1组,带判样本3属于第2组,带判样本4属于第3组。距离判别法在居民生活水平方面的应用数据来源及说明:本例的数据来源于国家统计局网站,选择了全国20省市进行分析,数据为我国2010年城镇生活的6项重要指标,包括食品,衣着,燃料,住房及生活用品和文化生活。由于数据未进行分类,故先对其进行聚类分析,我们选择前21个省市利用spss进行K-均值聚类分析,为后面计算方便,将其分成3类,结果如下:建立表格如下:本例中变两个数为p=6;第一类有9个样本,第二类有8个样本,第三类有4个样本,即n1=9,n2=8,n3=4;三类地区个变量的均值:=(107.7521.168.6412.49 16.823.80)';=(142.9824.3014.4517.0420.41 5.13)';=(141.6633.1913.30 38.1235.904.07)';168.06 8.87 16.67 17.02 -2.12 4.138.87 14.74 -0.52 2.58 10.28 -0.8216.67 -0.52 8.27 -0.62 -0.23 0.9117.02 2.58 -0.62 36.38 2.02 1.20168.06 8.87 16.67 17.02 -2.12 4.138.87 14.74 -0.52 2.58 10.28 -0.8216.67 -0.52 8.27 -0.62 -0.23 0.9117.02 2.58 -0.62 36.38 2.02 1.20-2.12 10.28 -0.23 2.02 16.24 -2.314.13 -0.82 0.91 1.20 -2.31 1.220.01 -0.01 -0.02 0.00 0.01 -0.01-0.01 0.14 0.04 0.00 -0.11 -0.10-0.02 0.04 0.18 0.02 -0.05 -0.150.00 0.00 0.02 0.03 -0.02 -0.060.01 -0.11 -0.05 -0.02 0.17 0.28-0.01 -0.10 -0.15 -0.06 0.28 1.47求判别函数:35.8372.0835.8372.08-35.8336.25-72.08-36.25-0.18 0.20 -0.21 0.01 -0.56 -1.27-0.13 0.40 -0.14 -0.51 -1.68 -2.110.18 -0.20 0.21 -0.01 0.56 1.270.05 0.20 0.07 -0.53 -1.13 -0.840.13 -0.40 0.14 0.51 1.68 2.11-0.05 -0.20 -0.07 0.53 1.13 0.84-0.18 0.20 -0.21 0.01 -0.56 -1.27-0.13 0.40 -0.14 -0.51 -1.68 -2.110.18 -0.20 0.21 -0.01 0.56 1.270.05 0.20 0.07 -0.53 -1.13 -0.840.13 -0.40 0.14 0.51 1.68 2.11-0.05 -0.20 -0.07 0.53 1.13 0.8435.8335.8372.08-35.8336.25-72.08-36.25+对已知样本进行回判:根据判别准则,并计算可的下表从上表中可知回判率为100%;故可对带判样本进行判别分析。对待判样本进行判别归类,计算结果如下从表中可以看出新疆属于第一组,湖南和黑龙江属于第二组,江苏属于第三组。判别分析软件的使用从上面的两个例子中可发现,对于3个样本的距离判别分析计算量很大,如果对于更多的样本的情况,计算将非常复杂,下面我们以例二为例简单介绍使用spss进行一般判别分析将数据输入spss数据视图中。一般判别分析spss操作选择菜单分析→分类→判别,出现下图(1),本例中将类别选入分组变量中,并定义其变量范围为1到3(下图(2)),将食品,衣着等其他变量选入自变量中,再按需要选择其他统计量和分类等,本题中这些选项选择默认,在单击保存,并勾选预测组成员(下图(3)).(1)(2)(3)单击确认就可得到本题的结果。结果分析:我们可以从数据视图中看到分类的结果:(即表格中最后一列)Wilks的Lambda检验结果可以用于检验各个判别函数有无统计学上的显著意义,由于本例中两个sig均小于0.05,说明判别函数的作用都是显著的。从结果中还可以得到标准化函数的系数。如下表所示其余的结果在这里不再详述,有兴趣的读者可以参阅《spss统计分析与数据挖掘》(谢龙汉尚涛)。参考文献[1]王静龙,梁小筠定性数据统计分析北京:中国统计出版社,2008.7[2]任雪松,于秀林多元统计分析北京:中国统计出版社,2010.12[3]谢龙汉,尚涛spss统计分析与数据挖掘北京:电子工业出版社,2012.1[4]袁志发多元统计分析北京:科学出版社,2009.7[5]朱建平应用多元统计分析北京:科学出版社,2012.6附录均值计算如下表:的计算计算:系数矩阵a以及常数b求解的matlab程序:clear,clcA1=[-3.782-4.46-0.38-4.376-4.8681.84;-4.882-5.56-0.42-5.476-5.9782.24;-5.682-2.66-0.46-3.276-2.7581.34;2.2281.55-0.071.6341.142-1.26;12.11811.131.3311.49412.462-4.16]';S1=A1*A1';A2=[-6.296-5.256-1.758-4.938.986-0.65;-7.316-7.276-1.878-7.13-26.3242.65;1.614-1.416-0.6185.0121.036-0.2;13.50414.2441.1227.041.006-2.55;-1.506-0.2963.1320.01-4.7040.75]';S2=A2*A2';A3=[-4.47-4.708-0.614-5.132-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论