版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、环环 境境 统统 计计 学学v授课教师:林红军v授课时间:2010学年第二学期(Environmental Statistics )环境科学系环境科学系办公地点:校办公地点:校8幢幢123室,室,17幢幢616室室E-mail: , Cell:159 5845 9856, 679856环环 境境 统统 计计 学学v第第1章章 绪论绪论v第第2章概率统计基础章概率统计基础v第第3章环境一元线性回归分析章环境一元线性回归分析v第第4章环境多元线性回归分析章环境多元线性回归分析v第第5章章 环境系统聚类分析环境系统聚类分析v第第6章章 环境判别分析环境判别分析v第第7章章 环境主成分分析环境主成分分
2、析v第第8章章 人工神经网络人工神经网络v一般认为因子分析是从Charles Spearman在1904年发表的文章对智力测验得分进行统计分析开始,他提出这种方法用来解决智力测验得分的统计方法。目前因子分析在心理学、社会学、经济学等学科中都取得了成功的应用,是多元统计分析中典型方法之一。 v因子分析(factor analysis)也是一种的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。 1 概 述
3、1 概 述理科理科文科文科1 概 述商店形象员工人数员工人数商品种类商品种类资产规模资产规模广告投入广告投入年营业额年营业额净利润净利润. . . . . . .商店的环境商店的环境商店的服务商店的服务商品的价格商品的价格因子分析就是一种通过显在变量测评潜在变量,通因子分析就是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。过具体指标测评抽象因子的统计分析方法。 通过因子分析,这15个方面可以归结为应聘者的外露能力、讨人喜欢的程度、经验、专业能力和外貌这五个因子。适应性交际能力潜力理解能力抱负积极性经验推销能力诚实精明自信心讨人喜欢专业能力外貌申请书的形式:1514131
4、211109876: 54321xxxxxxxxxxxxxxx 公司老板对48名应聘者进行面试,并给出他们在15个方面所得的分数,这15个方面是:1 概 述1 概 述排名排名校名校名总得分总得分人才培养人才培养科学研究科学研究分省分省 排名排名得分得分研究生培养研究生培养本科生培养本科生培养得分得分自然科学研究自然科学研究社会科学研究社会科学研究1清华大学清华大学190.21 77.55 54.80 22.75 112.66 94.32 18.34京京12北京大学北京大学189.43 78.63 53.90 24.73 110.80 73.14 37.65 京京23浙江大学浙江大学189.28
5、 76.26 53.76 22.50 113.03 97.75 15.27 浙浙14上海交通大学上海交通大学153.63 61.80 43.42 18.38 91.84 84.20 7.63 沪沪15复旦大学复旦大学122.14 50.91 35.21 15.70 71.23 49.98 21.25 沪沪26南京大学南京大学111.14 46.71 31.00 15.71 64.43 44.33 20.10 苏苏17武汉大学武汉大学103.95 49.58 30.06 19.53 54.37 34.71 19.66 鄂鄂18华中科技大学华中科技大学101.13 48.75 30.05 18.7
6、0 52.38 44.35 8.03 鄂鄂29中山大学中山大学96.89 42.87 27.89 14.98 54.02 39.98 14.04 粤粤110四川大学四川大学96.46 46.94 28.23 18.71 49.52 40.31 9.21 川川111哈尔滨工业大学哈尔滨工业大学94.24 43.29 27.98 15.31 50.95 49.16 1.79 黑黑112吉林大学吉林大学89.51 45.55 27.11 18.44 43.96 33.82 10.15 吉吉113中国科学技术大学中国科学技术大学84.38 34.99 24.23 10.76 49.39 47.33 2
7、.06 皖皖114西安交通大学西安交通大学83.36 39.04 23.63 15.41 44.32 35.26 9.06 陕陕115山东大学山东大学83.08 42.09 22.96 19.13 40.98 30.72 10.26 鲁鲁116南开大学南开大学72.90 33.24 20.71 12.53 39.66 22.32 17.34 津津117中南大学中南大学72.31 35.61 21.19 14.42 36.70 33.29 3.41 湘湘118东南大学东南大学67.46 32.72 18.49 14.23 34.75 30.36 4.39 苏苏219中国人民大学中国人民大学65.
8、71 32.33 17.86 14.47 33.38 1.62 31.76 京京320北京师范大学北京师范大学65.29 30.44 18.29 12.15 34.85 16.04 18.81 京京41 概 述1 概 述-于是,原始观测的随机变量于是,原始观测的随机变量X可分解为不可观测(或未可分解为不可观测(或未做观测)的两个随机向量的线性组合:做观测)的两个随机向量的线性组合:一是对整个一是对整个X有影响的公共因素有影响的公共因素;二是只对各个对应分量有影响的特殊因素二是只对各个对应分量有影响的特殊因素对于直接可观测的随机变量,根据其相关性大小,使得对于直接可观测的随机变量,根据其相关性大
9、小,使得同组内的变量之间相关性较高,不同组的变量相关性较同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,用一个不可观测的综低。每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为合变量表示,这个基本结构称为1 概 述-基本任务建立给出各公共因子的若有必要(当难以招到合理解释的公共因子)时,进一步作1 概 述-分类 : : 原始变量的线性组合表示新的综合变量,原始变量的线性组合表示新的综合变量,即主成分;即主成分;),(321nxxxxX 1x2x3xnxy1y2y3ynntttt1131211 1x2x3xnxnnxtxtxtxt2323222
10、121 nnxtxtxtxt3333232131 nnnnnnxtxtxtxt 332211计算计算y1yn的贡献大小,进行取舍的贡献大小,进行取舍v与主成分分析比较与主成分分析比较 雇主补贴雇主补贴纯公共支出纯公共支出股息股息生产指数生产指数利息利息净增库存净增库存消费资料消费资料外贸盈余外贸盈余人口人口总收入总收入F1总收入变化率总收入变化率F2经济发展趋势经济发展趋势F3x1x2CODBODSS浊度浊度pH色度色度氨氮氨氮因子分析:潜在的假想变量和随机影响变量的线因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。性组合表示原始变量。),(321nxxxxX 1x2x3xnxn
11、tttt1131211 nnftftftft3333232131 1f3f2fnfnnftftftft2323222121 nnnnnnftftftft 332211),(321nffffX 因子分析的目的因子分析的目的是,用几个不可观测的隐变量来解释原始变量间的协方差关系。 因子分析因子分析与与回归分析回归分析不同,因子分析中的因不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明子是一个比较抽象的概念,而回归因子有非常明确的实际意义;确的实际意义;回归分析:回归分析:一个结果(变量)与多个变量的关系一个结果(变量)与多个变量的关系水域SSBODCODnnnnnnnftftftft
12、x 332211因子分析:因子分析:一个变量与多个假定的因子(变量)的关系一个变量与多个假定的因子(变量)的关系),(321nffffX 抽象的概念v与回归分析比较与回归分析比较v与回归分析比较与回归分析比较回归回归分析分析因子因子分析分析 这十项全能项目为:100米跑 ,跳远 ,铅球 ,跳高 ,400米跑 ,110米跨栏 ,铁饼 ,撑杆跳远 ,标枪 ,1500米 。对 经标准化后所作的因子分析表明,十项得分基本上可归结于他们的短跑速度,爆发性臂力、爆发性腿力和耐力,每一方面都称为一个。 1x2x 3x4x 5x 6x7x 8x9x10 x1021,xxx例例1 林登(Linden)根据他收集
13、的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。十项全能例十项全能例104103102101103343332312242322211141312111500100耐力爆发性腿力爆发性臂力短跑速度米耐力爆发性腿力爆发性臂力短跑速度铅球耐力爆发性腿力爆发性臂力短跑速度跳远耐力爆发性腿力爆发性臂力短跑速度米跑,aaaaaaaaaaaaaaaa因子模型因子模型因子得分计算公式因子得分计算公式ssssssssssssxxxxxxxxxxxx10104242141101032321311010222212110101212111,耐力爆发性腿力爆发性臂力短
14、跑速度 十项得分与这四个因子之间的关系可以描述为如下的因子模型:10, 2 , 1,44332211ifafafafaxiiiiiii 其中 表示四个因子,称为(common factor), 称为 在因子 上的(loading), 是 的均值, 是 不能被四个因子解释的部分,称之为。4221,ffffijaixiixiix10, 2 , 1,44332211ifafafafaxiiiiiii原始观测的随机变量可分解成不可观测的两个随机向量的线性组合2 因子分析模型及求解城市环境质量评价指标有:COD、BOD5、NH3、TSP、SO2和NOX,现有100个样本,用 来表示。)100, 2 ,
15、1(),(621)( lxxxXllll172. 063. 009. 009. 000. 0157. 015. 016. 009. 0114. 016. 009. 0157. 063. 0172. 01RCOD、BOD5、NH3、TSP、SO2、NOXCOD、BOD5、NH3、TSP、SO2、NOX1f2f121211111fafaxCOD指标指标第第 指标指标ixiiiiifafax2211第第 指标指标ixiiiiifafax2211626216166525215155424214144323213133222212122121211111fafaxfafaxfafaxfafaxfafax
16、fafaxUAFX),(,),()(,),(2162126621ffFaAxxxXij ),(U6321 通常先对通常先对X作标准化处理,使标准化得到的作标准化处理,使标准化得到的新变量均值为新变量均值为0,方差为这样就有,方差为这样就有则称则称X为具有为具有k个公共因子的因子模型个公共因子的因子模型ikikiiifafafax 2211UAFX2 因子分析模型及求解 如果满足如果满足 ()()fi的均数为,方差为;的均数为,方差为; ()() i的均数为,方差为的均数为,方差为i; ()() fi与与 i相互独立相互独立 (4) fi与fj相互独立(ij)则称该因子模型为。 E(F)=0,
17、Cov (F)=Ik ),()(,0)(221pdiagUCovUECov (F,U)=0ikikiiifafafax 2211正交因子模型的正交因子模型的: X的方差可表示为的方差可表示为设设iikiiiaaaxVar 222211)(222212ikiiiaaah ()()是是k个公共因子对第个公共因子对第i个变量的贡献,称为第个变量的贡献,称为第i个个(communality)或共性方差,公因子方差或共性方差,公因子方差(common variance)()() 称为特殊方差称为特殊方差(specific variance),),是不能由是不能由公共因子解释的部分公共因子解释的部分iki
18、kiiifafafax 2211v求原始变量相关矩阵;求原始变量相关矩阵;v求相关矩阵的特征根求相关矩阵的特征根(因子的贡献因子的贡献),并排序,并排序v计算所有特征根对应的所有线形无关的特征向量计算所有特征根对应的所有线形无关的特征向量;v特征向量转置,乘以特征根的平方根,即得到因特征向量转置,乘以特征根的平方根,即得到因子载荷。子载荷。)C(Varba)f ,x(Corr)C,x(Corrjjiijjiji(负荷)(负荷)aij是随机变量是随机变量xi与公共因子与公共因子fj的的相关系数。相关系数。v设设 称称为公共因子为公共因子fj对对X的的“贡献贡献”,是衡量公共因,是衡量公共因子子f
19、j重要性的一个指标。重要性的一个指标。2211,2,.,pjijigajm)(22322212pjjjjjaaaag pkpkppppkkkkfafafafaxfafafafaxfafafafax 332211223232221212113132121111.222212ikiiiaaah 22322212pjjjjjaaaag v一般原则:累积贡献率(累积方差)达到7085;特征根1。v解释潜在因子的实际意义,一般以因子载荷的大小为依据。因子载荷大的指标变量受潜在因子支配的作用大。v如何判别因子载荷的大小? 当因子载荷大于或等于0.5时,可认为该因子f支配对应的指标X。332211803.
20、0959. 0897. 0fxfxfx805. 0897. 0221h920. 0959. 0222h645. 0803. 0223hx1方差中的80.5%被潜在因子f所解释;x2方差中的92%被潜在因子f所解释;x3方差中的64.5%被潜在因子f所解释。2 因子分析模型的求解 设随机向量 的均值均值为 ,为 , 为的特征根特征根, 为对应的,则pxxx,21x021pp21u,u,u12p = UUAA +D主成分分析法主成分分析法 上式给出的 表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有3821111mmmmmmp1
21、122ppu uu uu uuuu up2uuuuuuppp21122111100p212ppuuuuuu上式有一个假定,模型中的特殊因子是不重要的,因而从上式有一个假定,模型中的特殊因子是不重要的,因而从的分解中的分解中忽略了特殊因子的方差。忽略了特殊因子的方差。 3912 mmm1122AA +Du uu uu uD1121122 mmp mpmm p2uuuuuDAADu22212(,)pdiagD其中221miiiijjsa3 因子旋转及得分3 因子旋转及得分因子旋转方法因子旋转方法正交旋转正交旋转斜交旋转斜交旋转以使各因子载荷值的方差达到最大作为因子载荷矩阵简化以使各因子载荷值的方差
22、达到最大作为因子载荷矩阵简化的准则,的准则,且保持原公因子的正交性和变量共同度且保持原公因子的正交性和变量共同度hi2不变不变,此时公因子的方差贡献则不再与原来相同。此时公因子的方差贡献则不再与原来相同。可使每个因子上的具有最大载荷的变量数最小,因此可以可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释简化对因子的解释3 因子旋转及得分(1)3 因子旋转及得分(2)3 因子旋转及得分3 因子旋转及得分3 因子旋转及得分3 因子旋转及得分v 当m2时,我们可以逐次对每两个公共因子和进行上述旋转。对公因子Fl和Fk进行旋转,就是对A的第l和k两列进行正交变换,使这两列元素平方的相对
23、方差之和达到最大,而其余各列不变,其正交变换矩阵为3 因子旋转及得分3 因子旋转及得分3 因子旋转及得分3 因子旋转及得分正交旋转及正交点投影正交旋转及正交点投影3 因子旋转及得分3 因子旋转及得分3 因子旋转及得分3 因子旋转及得分3 因子旋转及得分因子分析的步骤v输入原始数据输入原始数据xn*p,计算样本均值和方差,进行标准化计算,计算样本均值和方差,进行标准化计算(处理);(处理);v求样本相关系数矩阵求样本相关系数矩阵R=(rij)p*p;v求相关系数矩阵的特征根求相关系数矩阵的特征根i (1,2,p0)和相应的标准正和相应的标准正交的特征向量交的特征向量li;v确定公共因子数;确定公
24、共因子数;v计算公共因子的共性方差计算公共因子的共性方差hi2;v对载荷矩阵进行旋转,以求能更好地解释公共因子;对载荷矩阵进行旋转,以求能更好地解释公共因子;v对公共因子作出专业性的解释。对公共因子作出专业性的解释。4 环境应用及SPSS求解例例1. 某地区对城市大气颗粒物进行监测。得到某地区对城市大气颗粒物进行监测。得到16个样本,样个样本,样本颗粒中各类物质的含量见下表本颗粒中各类物质的含量见下表.请对该监测数据进行因子分请对该监测数据进行因子分析并给出结论。析并给出结论。序号序号 BrKBaRbScFeZnNiVWAs1180110008205818.0220009501102745.9
25、602977800650399.616000930441006.310031208600490458.214000820451073.37242007400390319.51300015005518310.0755295400250335.61000017030883.2256429100490436.11400037017932.539760120005205410.021000780451294.3498388700430418.21600068037964.95691105400250304.673008603912.75310384900174203.5670048036503.139
26、111007100360295.51100096022285.32512604200130152.1440084017243.92513155800240275.51100065025494.94014178000260355.11200037020483.5301519870290385.81400080026406.12516134600020203.7720037014443.7251.865 0.147 2.266 1.950 2.949 1.946 0.713 3.191 2.776 0.690 0.625 0.443 -0.170 1.428 0.348 0.710 0.720 0
27、.651 0.330 0.225 0.903 2.429 0.837 -0.091 0.639 0.854 0.337 0.312 0.309 0.374 0.328 -0.690 1.166 2.208 -0.210 0.147 -0.327 0.683 0.107 2.424 0.807 1.442 2.868 1.302 -0.722 -0.408 -0.543 -0.158 -0.357 -0.506 -1.712 -0.276 0.049 -0.744 -0.952 -0.499 -0.041 0.639 0.685 -0.223 0.312 -1.090 -0.840 0.123
28、-1.115 -0.321 -0.191 0.246 0.787 1.613 0.816 1.742 0.185 0.374 0.651 -0.159 0.130 -0.568 -0.081 0.344 0.516 0.337 0.720 -0.126 0.027 0.167 0.159 0.445 0.666 -0.408 -0.543 -0.411 -0.623 -1.057 0.433 0.114 -1.226 -1.009 0.310 -0.568 -0.457 -0.918 -1.254 -0.916 -1.180 -0.748 -0.016 -0.508 -0.797 -0.321
29、 0.495 -0.239 -0.001 -0.495 -0.383 -0.301 0.744 -0.623 -0.830 0.372 -0.952 -0.191 -0.527 -1.135 -1.676 -1.290 -1.650 0.371 -0.840 -0.889 -0.372 -0.952 -0.962 -0.368 -0.593 -0.664 -0.383 -0.301 -0.220 -0.493 -0.522 0.159 -0.276 -0.927 -0.150 -0.494 0.011 -0.490 -0.097 -1.090 -0.710 -0.537 -0.584 -0.7
30、27 -0.893 -0.857 -0.346 0.263 -0.303 0.312 0.247 -0.450 -0.654 0.797 -0.952 -0.996 3.614 -1.677 -1.254 -0.863 -1.078 -1.090 -0.970 -0.596 -0.478 -0.952 解: 1.0000 -0.1599 1.0000 0.5886 -0.2580 1.0000 0.3407 -0.1442 0.8707 1.0000 0.6494 -0.0489 0.8991 0.8309 1.0000 0.3480 -0.0966 0.8801 0.9475 0.8790
31、1.0000 0.8095 -0.2573 0.3917 0.1454 0.4282 0.2655 1.0000 0.7441 -0.1222 0.7539 0.6390 0.9132 0.6529 0.4754 1.0000 0.6552 0.0158 0.7732 0.6980 0.9236 0.7565 0.3796 0.8662 1.0000 0.5776 -0.1195 0.3251 0.1242 0.4622 0.3488 0.7917 0.4042 0.4957 1.0000 0.6333 -0.1312 0.6697 0.4310 0.5855 0.4792 0.5640 0.
32、5542 0.5172 0.4460 1.0000-0.3436 0.0055 -0.3883 0.0722 0.4218 -0.3602 0.2926 -0.3343 0.0860 0.3488 0.3030 0.0599 -0.1013 -0.0050 -0.0941 -0.0409 -0.2238 -0.2219 -0.0716 0.9178 -0.1534 -0.0719 0.2011 -0.2903 0.1040 -0.7476 0.2604 -0.0950 -0.1495 -0.1085 -0.1803 -0.1847 0.3577 0.4864 -0.0924 -0.3220 0
33、.4713 0.0280 -0.3521 -0.1323 0.0934 -0.1479 -0.4025 0.3070 0.0557 0.8291 -0.1247 -0.2406 -0.1904 0.0627 0.1260 0.0592 0.1081 -0.1540 0.3756 -0.7317 -0.1021 0.1471 0.0931 -0.1207 -0.1464 -0.2604 0.3307 -0.0584 -0.3154 0.3284 0.2000 0.0677 0.5307 0.0692 -0.2495 -0.4881 -0.0899 0.1001 -0.0306 0.5398 0.
34、2409 0.0083 -0.4080 -0.0784 -0.0109 -0.6281 0.1888 0.4794 -0.1920 0.0945 -0.0272 0.3474 0.1078 -0.0219 0.4952 0.2949 0.4852 0.3824 0.2861 0.0932 0.2247 -0.1046 0.3495 0.1038 -0.1582 -0.4053 -0.0808 0.0462 0.3082 -0.1824 0.6231 0.1403 0.4511 0.2270 -0.0204 0.0508 -0.0148 0.1998 -0.0818 0.3829 -0.6234
35、 -0.5530 -0.0263 0.1700 0.2820由小到大0.0052 0.0036 0.0350 0.0674 0.1160 0.2612 0.5381 0.5758 1.0448 1.8180 6.5348e3 e2 e1)(332211eeeA0270. 02290. 07210. 01434. 06082. 05802. 02299. 01410. 08934. 00967. 00365. 08881. 00314. 07279. 06157. 00596. 04252. 08395. 01105. 02076. 09602. 01512. 05427. 07847. 018
36、44. 02492. 09145. 09381. 02068. 01838. 00878. 04703. 07746. 0A5730. 07271. 08710. 07994. 09100. 08891. 09773. 09332. 09324. 09565. 08289. 0h)045. 1818. 1535. 6(g0.0860 0.3488 0.30300.9178 -0.1534 -0.0719-0.1803 -0.1847 0.3577-0.1479 -0.4025 0.30700.1081 -0.1540 0.3756-0.0584 -0.3154 0.3284-0.0306 0.
37、5398 0.24090.0945 -0.0272 0.34740.2247 -0.1046 0.34950.1403 0.4511 0.2270-0.0263 0.1700 0.2820e3 e2 e112311e22e33e222212ikiiiaaah 4 环境应用及SPSS求解例例1. 某地区对城市大气颗粒物进行监测。得到某地区对城市大气颗粒物进行监测。得到16个样本,样个样本,样本颗粒中各类物质的含量见下表本颗粒中各类物质的含量见下表.请对该监测数据进行因子分请对该监测数据进行因子分析并给出结论。析并给出结论。序号序号BrKBaRbScFeZnNiVWAs1180110008205818.0220009501102745.9602977800650399.61600
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字钟电路课程设计
- 数字信号处理的课程设计
- 数值线性代数课程设计
- 敦煌色彩美学研究报告
- 敢死队问题课程设计
- 校园招聘管理制度
- 2025年中考物理一轮复习资料配套练习专题03 透镜及其应用(测试)(含答案)
- 保护动物倡议书集锦15篇
- 深基坑开挖支护方案
- 加油加气站岗位设置及人员配置方案
- 大学美育(同济大学版)学习通超星期末考试答案章节答案2024年
- 广西邕衡教育名校联盟2024-2025学年高三上学期10月适应性检测试题 英语 含答案
- 应急第一响应人理论考试试卷(含答案)
- MOOC 跨文化交际通识通论-扬州大学 中国大学慕课答案
- EDA实验报告1组合逻辑电路的设计
- 第一单元 计算机中的编码 课件 初中信息技术七年级上册
- 10000中国普通人名大全
- 《运动生理学》教案
- 陈春花管理学著作精华解读之《管理的常识》
- 钻孔灌注桩试桩施工方案
- 外贸销售合同
评论
0/150
提交评论