版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数理统计 主成分分析摘要:本文根据问题中的条件和要求,建立了数理统计中的主成分分析模型,运动主成分分析法研究反映每人平均生活消费支出情况的六个指标变量之间的关系。根据所给的数据以生活水平值为因变量,其余变量为自变量,做主成分回归。从而对六维变量空间进行降维处理,提取出两个能够全面反映原有变量所含信息的新指标变量,即主成分。利用原指标与主成分的相关系数即因子载荷,解释了各主成分的意义。并利用第一主成分与第二主成分对16个地区进行分类。如下表所示:各地区在第一主成分和第二主成分值(标准化后)地区北京天津河北山西第一主成分得分3.8516 0.7074 -2.0545 -2.1393 第二主成分得分
2、0.2697 1.2645 1.2167 1.5135 地区内蒙古辽宁吉林黑龙江第一主成分得分-1.2734 0.4404 0.1334 -0.7937 第二主成分得分1.0283 -0.3943 -1.4876 -0.4944 地区上海江苏浙江安徽第一主成分得分4.4150 0.26641.1474 -0.6009 第二主成分得分0.5354 -0.00110.0947 -1.5977 地区福建江西山东河南第一主成分得分-0.6727 -1.3231 -0.3028 -1.8013第二主成分得分-1.9125 -1.6677 0.7403 0.8923【关键字】:主成分分析法 回归 主成分
3、分类1. 问题重述下表1-1是我国16个地区农民在某年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试对调查资料中的16个地区的农民生活水平进行主成分分析,并利用前两个主成分对16个地区的农民生活水平进行分类。、表1-1 16个地区的农民生活水平的调查数据 (单位:元)地区食品()衣着()燃料()住房()生活用品及其它()文化生活服务()北京190.3343.779.7360.5449.019.04天津135.2036.4010.4744.1636.493.94河北95.2122.839.3022.4422.812.80山西104.7825.116.
4、409.8918.173.25内蒙古128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.7
5、56.73江西140.5421.5017.6419.1915.974.94山东115.8430.2612.2033.6133.773.85河南101.1823.268.4620.2020.504.30 2.模型的假设与符号说明模型的假设:(1)题中所给的数据真实可靠(2)符号说明:未标准化前的协方差:各地区六个指标的值。:各主成分的贡献率。:前m个主成分的累积贡献率。:主成分的值。3问题分析主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快的提取信息。主成分分析试图在力保数据信息丢失最少
6、的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。主成分回归是在主成分分析法的基础上,由个自变量选出前个主成分,他们是互不相关的;在保持因变量不变,用这个主成分作为自变量作回归;最后把所得的结果作变量代换,转化成原来因变量与自变量的关系。第一主成份的推导: 设X的协方差阵为 由于x为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵使得其中为的特征根,不妨假设。而恰好是由特征根相对应的特征向量所组成的正交阵。 设有维正交向量=当且仅当时,即 时,有最大的方差。因为 。如果第一主成分表达的信息不够,则须找第二主成分。(2)第二主成分:因为第一,第二主
7、成分线性无关所以有条件,寻找第二主成分。,因为所以。则对维向量有。所以取线性变换,则方差次大。依次类推矩阵形式为 。主成分分析把个原始变量的总方差分解成了个相互独立的变量的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称为第k个主成分的贡献率。第一主成分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。若只取m个主成分,则称为主成分的累计贡献率,累计贡献率表明综合的能力。通常使得累计贡献率达到一个较高的百分数(如85%以上)。4模型的建立与求解主成分分析的数学模型是,设6个变量构成6维
8、随机向量为。对作正交变换,令,其中为正交阵,要求的各分量是不相关的,并且的第一个方差是最大的,第二个分量的方差次之,。为了保持信息不丢失,的各分量方差与的各分量方差和相等。其数学推导为:(1)由观测数据计算得到未标准化前的协方差矩阵:设为一个6维随机向量,并假定存在二阶矩,其未标准化前的协方差记为:则1.0000 0.6635 0.3371 0.7800 0.7058 0.6346 0.6635 1.0000 -0.0810 0.6630 0.9015 0.3748 0.3371 -0.0810 1.0000 -0.0887 -0.0614 0.2542 0.7800 0.6630 -0.08
9、87 1.0000 0.8311 0.3635 0.7058 0.9015 -0.0614 0.8311 1.0000 0.3112 0.6346 0.3748 0.2542 0.3635 0.3112 1.0000(2)由协方差矩阵R得到特征值,i=1,25.,6,及各个主成分的方差贡献、贡献率和累计贡献率,并根据累计贡献率确定主成分保留的个数。可求得,矩阵R所对应的特征值y和特征向量x分别为(x的列式相应的特征向量):x = 0.4811 -0.2570 0.0445 0.2772 -0.7203 -0.3238 0.4612 0.2176 0.1001 -0.6540 -0.2379 0
10、.4957 0.0525 -0.7777 0.5488 -0.1033 0.2355 0.1584 0.4668 0.1806 0.0726 0.6571 0.2900 0.4779 0.4842 0.2438 0.2472 -0.1851 0.4634 -0.6293 0.3173 -0.4355 -0.7877 -0.1370 0.2652 0.0016对应的特征值为:3.5584 1.3163 0.6082 0.3734 0.1072 0.0365设其特征值(=1,2,6),且,对应的正则化的特征向量为(=1,2,6)则由上式可得:=3.5584 =(0.4811,0.4612,0.05
11、25,0.4668,0.4842,0.3173=1.3163 =(-0.2570,0.2176,-0.7777,0.1806,0.2438,-0.4355=0.6082 =(0.0445,0.1001,0.5488,0.0726,0.2472,-0.7877=0.3734 =(0.2772,-0.6540,-0.1033,0.6571,-0.1851,-0.1370=0.1072 =(-0.7203,-0.2379,0.2355,0.2900,0.4634,0.2652=0.0365 =(-0.3238,0.4957,0.1584,0.4779,-0.6293,0.0016(3)写出m个基本方
12、程 式中,对每一个求他所对应的基本方程组的解,然后令,从而得到用所表示的主成分这样,就把各特征向量的数值作为系数就可以写出预期的6个主成分表达式:=0.4811+0.4612+0.0525+0.4668+0.4842+0.3173=-0.2570+0.2176-0.7777+0.1806+0.2438-0.4355=0.0445+0.1001+0.5488+0.0726+0.2472-0.7877=0.2772-0.6540-0.1033+0.6571-0.1851-0.1370=-0.7203-0.2379-0.2355+0.2900+0.46340.2652=-0.3238+0.4957+
13、0.1584+0.4779-0.6293+0.0016各主成分(=1,2,6)的贡献率(第个主成分反映的信息量)和累计贡献率。(前个主成分反映的总信息量)。六个主成分的贡献率和累计贡献率分别所下表所示:主成分贡献率累计贡献率0.59310.59310.21940.81240.10140.91380.06220.97600.01790.99390.00611.0000最后,将标准化后的样本数据代入前两个主成分=0.4811+0.4612+0.0525+0.4668+0.4842+0.3173和=-0.2570+0.2176-0.7777+0.1806+0.2438-0.4355可得到各地区在第一
14、主成分和第二主成分的得分情况各地区在第一主成分和第二主成分值(未标准化前)地区北京天津河北山西第一主成分得分167.1307 121.9189 79.2343 76.7761 第二主成分得分-28.0084 -19.8101 -18.3375 -21.6388 地区内蒙古辽宁吉林黑龙江第一主成分得分93.5210 118.9345 112.4530 89.1217 第二主成分得分-27.2420 -31.1806 -41.9522 -28.5712 地区上海江苏浙江安徽第一主成分得分205.3218 118.7231137.7406 106.9547 第二主成分得分-27.4471 -28.1
15、469-31.7251 -40.5687 地区福建江西山东河南第一主成分得分102.2007 96.7189 103.5932 80.5728第二主成分得分-39.9080 -39.9484 -20.0456 -20.7458 各地区在第一主成分和第二主成分值(标准化后)地区北京天津河北山西第一主成分得分3.8516 0.7074 -2.0545 -2.1393 第二主成分得分0.2697 1.2645 1.2167 1.5135 地区内蒙古辽宁吉林黑龙江第一主成分得分-1.2734 0.4404 0.1334 -0.7937 第二主成分得分1.0283 -0.3943 -1.4876 -0.
16、4944 地区上海江苏浙江安徽第一主成分得分4.4150 0.26641.1474 -0.6009 第二主成分得分0.5354 -0.00110.0947 -1.5977 地区福建江西山东河南第一主成分得分-0.6727 -1.3231 -0.3028 -1.8013第二主成分得分-1.9125 -1.6677 0.7403 0.89235模型的结果分析与评价模型的结果分析:第一主成分中、的系数相比之下都比较大,只有的系数比较小。它反映除燃料消费低外,其它消费基本也都较高。它的贡献率为59.31%,表达出的信息量很大。第二主成分中的系数绝对值较大,它指的是反映了燃料消费的情况。它的贡献率为21
17、.94%,表达的信息较大。此时第一主成分与第二主成分的累计贡献量达到81.24%。第三主成分中的系数的绝对值较大,它指的是农民文化生活服务消费的情况,它的贡献率为10.14%,它表达的信息已经较小。此时第一、二、三主成分的累积贡献率已经高达91.38%。第四、五、六主成分的累积贡献率所占的比例非常的小,所表达的信息很小。因此对反映农民生活水平没有太大的意义,因此完全可以用第一、二主成分表达各地区的消费情况来反映农民的生活水平,因为此时第一主成分与第二主成分的累计贡献量达到81.24%,所表达的信息量很大。则利用第一主成分和第二主成分的值作出二维散点(如下图所示):未标准化前的散点图:标准化后的散点图:从图中可以看出,这些地区大体上可分为大致可以四类第一类包括:上海、北京。这些地区的农民燃料消费相对于总消费的比率比较趋中,但总体消费最高,农民生活水平较高。第二类包括:浙江、江苏、辽宁、黑龙江。这些地区燃料消费相对于总消费的比率相对趋中。总消费普遍低于北京、上海,但明显高于后两类地区。第三类包括:天津、山东、内蒙古、河南、河北、山西。这些地区燃料消费相对于总消费的比率较高,农民的总体生活水平较低,其中天津、山东的农民消费水平相对较高。第四类包括:吉林、安徽、福建、江西。这些地区燃料消费相对于总消费的比率很低。农民的生活水平比较低。模型的评价:现在农民
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度环保项目研发合作协议
- 2024临时工合同模板
- 2024年度仓储合同仓储物及仓储期限
- 2024年度软件定制开发合同
- 2024年 卫星发射与运营服务合同
- 2024年商标转让合同注意事项
- 2024年度碳排放权交易合同交易数量与交易价格
- 2(2024版)网络安全风险评估合同
- 2024年度物业管理合同:住宅小区物业管理服务
- 2024年合作伙伴寻找居间合同 with 合作意向及中介费用的规定
- 2024-2025学年上海市普陀区八年级(上)期中数学试卷
- 假期补课协议书
- 电子商务支付结算系统开发合同
- 服务质量、保证措施
- (必练)广东省军队文职(经济学)近年考试真题试题库(含答案)
- 含羞草天气课件
- 2024年安全生产知识竞赛考试题库及答案(共五套)
- 22《鸟的天堂》课件
- 农业灌溉装置市场环境与对策分析
- 新疆乌鲁木齐市第十一中学2024-2025学年八年级上学期期中道德与法治试卷
- 部编版小学五年级上册道法课程纲要(知识清单)
评论
0/150
提交评论