多元统计分析主成分分析法演示_第1页
多元统计分析主成分分析法演示_第2页
多元统计分析主成分分析法演示_第3页
多元统计分析主成分分析法演示_第4页
多元统计分析主成分分析法演示_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(优选)多元统计分析主成分分析法目前一页\总数五十八页\编于十三点思考1反映地区社会经济发展的指标体系

X1:国内生产总值(GDP)X2:人均GDPX3:第三产业产值占GDP比重X4:人均出口额

X5:工业企业劳动生产率X6:人均社会消费品零售额

X7:每万人拥有卫生技术人员数X8:每万人高等学校在校生数

X9:教育经费投入占GDP比重X10:人均货运总量

X11:人均邮电业务总量X12:每万人电话机装机数

X13:人均固定资产投资X14:人均实际利用外资

X15:地方财政收入占GDP比重X16:每万人科研机构数

X17:科研经费占GDP比重

分析全国31个地区的社会经济发展水平。目前二页\总数五十八页\编于十三点

为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。要求每个消费者对食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。思考2目前三页\总数五十八页\编于十三点

为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适?这些型号的服装应按怎样的比例分配生产计划才能达到较好的经济效益?

思考3——服装的定型分类问题目前四页\总数五十八页\编于十三点大纲1.基本思想2.定义3.主成分的性质、计算等4.案例5.主成分回归目前五页\总数五十八页\编于十三点E.g.Hotelling(1939)用两个主成分反映入学考试成绩:

文科能力

数理能力预备知识:方差为零的变量不能区分总体中的个体成员;可以用一个变量的方差来度量其所传递的信息量。目前六页\总数五十八页\编于十三点主成分分析的基本概念

一个假设的例子:N=100均数101.6350.71方差109.6355.40标准差10.477.44

的均数=0

的均数=0目前七页\总数五十八页\编于十三点x2X1预备知识:向量

等方向都是同一个方向ab2a2b目前八页\总数五十八页\编于十三点(1)创建

使得

尽可能大,即寻找一个方向,使得所有点在此方向上的投影的方差尽可能大目前九页\总数五十八页\编于十三点(2)创建

使得

不相关

尽可能大。即寻找另一个方向垂直于所有点在

上的投影方差最大。目前十页\总数五十八页\编于十三点•••••••••••••••••••••••••••••••••••••目前十一页\总数五十八页\编于十三点

例1985年中国人口普查资料:各省汉族青年(19-22岁)形态学指标的平均值。

目前十二页\总数五十八页\编于十三点如何综合多个随机变量?

我们想要一个或几个综合变量,概括6个形态指标的大部分信息.

注意:若某指标在人群中方差较大,它就是一个好的指标。目前十三页\总数五十八页\编于十三点寻找综合变量

标准化(1)找第1个最佳的综合变量

找适宜的系数

,使得与其他线性组合相比,有最大的方差

最大我们关心的是

之间的比值故限定目前十四页\总数五十八页\编于十三点(2)找第2个最佳的综合变量

找适宜的

使得

最大

限定(3)找第3个最佳的综合变量

最大

限定原有6个变量,最多可找到6个独立的综合变量目前十五页\总数五十八页\编于十三点主成分的一般定义

一般地,样本均数样本标准差标准化(1)在所有线性组合中,限定使得

最大的便是第1主成分。目前十六页\总数五十八页\编于十三点(2)在所有线性组合

中,限定使得

最大的便是第2主成分.………………

类似地,我们可以定义第3,第4,直到第p个主成分。

目前十七页\总数五十八页\编于十三点主成分的性质(1)主成分之间不相关Corr(Ci,Cj)=0(2)系数(ai1,ai2,…,aip)是单位向量ai12+ai22+…+aip2=1(3)方差递降Var(C1)≥Var(C2)≥…≥Var(Cp)(4)主成分的方差之和等于原变量的方差之和信息总量不增不减Var(C1)+Var(C2)+…+Var(Cp)=Var(x1)+Var(x2)+…+Var(xp)=p目前十八页\总数五十八页\编于十三点主成分的计算和解释

(1)计算

的相关矩阵(2)计算R的特征根(特征值)即求解方程目前十九页\总数五十八页\编于十三点(3)计算特征向量

即求解方程

…得到目前二十页\总数五十八页\编于十三点

表1例1的相关矩阵

只有前几个才是名副其实的“主成分”表2例1的相关矩阵的主成分

目前二十一页\总数五十八页\编于十三点表4例1的特征向量目前二十二页\总数五十八页\编于十三点主成分的个数

实践中,(1)粗略地决定欲保留的方差百分比;

——仅保留前几个主成分或(2)若某个主成分的方差大于1,就保留它

——因为原变量的方差都是1究竟保留几个?

——取决于课题本身的需要目前二十三页\总数五十八页\编于十三点碎石图目前二十四页\总数五十八页\编于十三点主成分与原变量的相关性

的关系:………………:主要反映身体的大小;

身高、坐高、体重、胸围:反映宽度

肩宽和骨盆宽度总之,(1)主成分有助于综合多个变量(2)主成分的意义有时不易解释目前二十五页\总数五十八页\编于十三点例:抑郁症问卷的综合得分

表1标准CESD问卷的主成分(抑郁症数据)

目前二十六页\总数五十八页\编于十三点C1:多数条目的加权和C2:反映懒散和精力状况C3:有关“别人怎样看待自己”的感觉目前二十七页\总数五十八页\编于十三点例2关于下颚6个前齿的结石

1.右犬齿2.右、侧门牙3.右、中门牙4.左、侧门牙5.左、中门牙6.左犬齿目前二十八页\总数五十八页\编于十三点PC1:加权和,总的结石状况PC2:门牙与犬齿比较PC3:左右比较目前二十九页\总数五十八页\编于十三点主成分分析的应用综合评价市场研究定型分类问题目前三十页\总数五十八页\编于十三点反映地区社会经济发展的指标体系

X1:国内生产总值(GDP)X2:人均GDPX3:第三产业产值占GDP比重X4:人均出口额

X5:工业企业劳动生产率X6:人均社会消费品零售额

X7:每万人拥有卫生技术人员数X8:每万人高等学校在校生数

X9:教育经费投入占GDP比重X10:人均货运总量

X11:人均邮电业务总量X12:每万人电话机装机数

X13:人均固定资产投资X14:人均实际利用外资

X15:地方财政收入占GDP比重X16:每万人科研机构数

X17:科研经费占GDP比重

对全国31个地区上述17项指标的数据进行主成分分析,应用SAS软件进行处理。例1、主成分分析用于综合评价目前三十一页\总数五十八页\编于十三点1、

求相关系数矩阵R2、

计算R的特征值主成分Y1Y2Y3Y4特征根贡献率(%)累计贡献率11.113465.3765.372.665615.6881.050.91265.3786.420.70524.1590.57目前三十二页\总数五十八页\编于十三点3、

求特征根所对应的单位特征向量0.5132250.203116-0.1828580.1936180.2172900.113642-0.164527-0.114637-0.509240-0.0258320.0834710.1325920.1054020.199407-0.181330-0.261367-0.2957560.0384660.2760200.2436540.2634870.1805460.2908340.2598420.2805230.0942330.2159460.2920160.2882680.2820160.2590060.2167930.2599620.212293X1X2

X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17Y2Y1特征向量目前三十三页\总数五十八页\编于十三点第一主成分名次地区Y1得分Y2得分123456789101112131415北京上海天津广东辽宁福建浙江江苏海南新疆吉林黑龙江山西宁夏云南11.725710.17765.12352.74221.13250.55860.27180.18170.0795-0.3075-0.4873-0.6307-0.7467-0.7791-0.8203-3.943962.435050.125513.349070.619421.902482.315762.53147-0.79528-1.07448-1.094130.61915-1.13709-1.92281-0.483134、主成分的表达式及其含义解释5、计算主成分得分目前三十四页\总数五十八页\编于十三点第一主成分名次地区Y1得分Y2得分16171819202122232425262728293031陕西山东青海湖北内蒙古河北甘肃重庆湖南西藏广西四川江西河南安徽贵州-0.9116-1.0207-1.1131-1.1943-1.2295-1.4456-1.8358-1.8603-1.8806-1.9085-1.9098-2.1979-2.3049-2.3383-2.4358-2.6347-2.064812.32993-1.471450.66326-0.871811.25757-1.40987-0.364390.04577-2.04139-0.420780.331260.076600.869090.45974-0.83575目前三十五页\总数五十八页\编于十三点目前三十六页\总数五十八页\编于十三点

为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。对785名消费者进行调查,要求每个消费者对100种食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。例2市场研究中的应用目前三十七页\总数五十八页\编于十三点将被调查者按性别与年龄分成10组假若你是该食品加工业决策部门的高级顾问,为了对食品生产作出合理决策,请你对调查资料进行分析,为决策者提供建议。目前三十八页\总数五十八页\编于十三点

以组为单位,在每组中每个成员都对100种食品给予评分,然后计算每组成员对每种食品评分的平均值。食品组号12345678910123..1007.85.43.93.53.08.16.05.43.81.62.84.44.03.56.27.27.57.0.........3.12.83.33.02.53.93.53.02.82.59.03.01——5组表示男性,6——10组表示女性1——5,6——10年龄从小到大排序目前三十九页\总数五十八页\编于十三点特征向量y1y2y3X1X2X3X4X5X6X7X8X9X100.2860.3310.3230.2990.2610.3090.3440.3480.3460.3030.4430.235-0.172-0.364-0.5090.4090.2560.036-0.164-0.2670.1940.3360.4420.3750.123-0.034-0.171-0.290-0.322-0.522特征根方差贡献率累计方差贡献率6.82668.26%68.26%1.76917.69%85.95%0.757.5%93.45%目前四十页\总数五十八页\编于十三点y1反映了公共平均嗜好程度,y1得分越大,表示大众越喜欢吃此食品。y2反映了年龄的作用。y2得分为正时,表示孩子喜欢吃;y2得分为负时,表示孩子不喜欢吃。y3反映性别的作用。y3得分为正时,表示男性喜欢吃;y3得分为负时,表示女性喜欢吃。主成分的含义目前四十一页\总数五十八页\编于十三点用得分来表示食品嗜好程度可有七成把握。在充分注意到人们普遍的嗜好程度基础上,进一步考虑到青少年和老年人的嗜好程度,对食品业的开发方针作出决策时,将有85%的把握。目前四十二页\总数五十八页\编于十三点

特别喜欢吃的

醋拌生鱼片、冰激棱

一般喜欢

男性喜欢

女性喜欢孩子成人咖喱饭鸡蛋烩饭、炸猪排炸肉饼、火腿面包酸汤、大头鱼

一般不喜欢孩子成人干咖喱、浓汤煮牛肉、生蛋饼干、带馅面包酱面条、烧鱼

特别不喜欢

菜粥、清汤目前四十三页\总数五十八页\编于十三点

为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适?这些型号的服装应按怎样的比例分配生产计划才能达到较好的经济效益?

例3服装的定型分类问题目前四十四页\总数五十八页\编于十三点X1:身长X2:坐高X3:胸围X4:头高X5:裤长X6:下裆X7:手长X8:领围X9:前胸X10:后背X11:肩厚X12:肩宽X13:袖长X14:肋围X15:腰围X16:腿肚

对128名成年男子按16项指标进行测量。目前四十五页\总数五十八页\编于十三点特征值贡献率累计贡献率7.032.611.630.840.770.640.580.460.360.310.240.220.170.140.070.0444%16%10%6%5%4%3%3%2%2%2%1%1%

1%0044%60%70%76%81%85%88%91%93%95%97%98%99%100%目前四十六页\总数五十八页\编于十三点特征向量y1y2y3X1身长X2坐高X3

胸围X4头高X5裤长X6下裆X7手长X8领围X9前胸X10后背X11肩厚X12肩宽X13袖长X14肋围X15腰围X16腿肚0.340.270.230.340.330.290.290.190.090.150.100.240.320.180.270.160.200.14-0.330.180.200.270.19-0.370.07-0.17-0.35-0.020.11-0.37-0.27-0.360.01-0.060.140.030.03-0.030.02-0.150.63-0.53-0.20-0.31-0.020.250.140.24目前四十七页\总数五十八页\编于十三点y1是刻画尺寸大小的因子。y2反映人的胖瘦情况,是一个体形因子。反映“长”的尺寸前面的系数为正;反映“围”的尺寸前的系数为负。y3系数多数取值很小,接近于0。只有三个系数绝对值较大。

y3是反映特殊体形的因子,区分有无畸形。目前四十八页\总数五十八页\编于十三点

区分有几种型号(分类)各种型号的生产量(比例)要解决的问题:目前四十九页\总数五十八页\编于十三点主成分回归

数据分析过程中的一个工具

可应用于下列分析的中间过程:多重回归判别分析因子分析

聚类分析…目前五十页\总数五十八页\编于十三点回归中的共线性

当自变量高度相关时,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论