《,应用统计学,》期末复习试题模拟试题及答案_第1页
《,应用统计学,》期末复习试题模拟试题及答案_第2页
《,应用统计学,》期末复习试题模拟试题及答案_第3页
《,应用统计学,》期末复习试题模拟试题及答案_第4页
《,应用统计学,》期末复习试题模拟试题及答案_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本文格式为Word版,下载可任意编辑 ,应用统计学,期末复习试题模拟试题及答案 应用统计学 模拟试卷 开课学院: 商学院 专业: 考试形式:闭卷,所需时间: 120 分钟 考生姓名: 学号: 班级: 任课教师: 题序 一 二 三 四 五 总 分 得分 评卷人 留神: 请将答案写在答题纸上,写在试卷上无效。 本试卷计算题均精确到小数点后三位! 一、小麦试验问题(20 分) 设有三个品种(用因素 A 表示)的小麦和两种不同的肥料(用因素 B 表示),将确定面积的地块分为 6个均等的小区,每个小区随机地试验品种和肥料 6 种组合的一种,在面积相等的四块地上举行重复试验,其小麦的产量(公斤)如下表:

2、品种 肥料 1 2 3 1 9 10 9 8 11 12 9 8 13 14 15 12 2 9 10 12 11 12 13 11 12 22 16 20 18 SPSS 运算结果附表: (1) Tests of Between-Subjects Effects Dependent Variable: Y Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 263.333(a) 5 52.667 21.545 0.000 Intercept 3650.667 1 3650.667 1493.455 0.00

3、0 A 190.333 ( ) 95.167 38.932 0.000 B 54.000 1 54.000 ( ) 0.000 A * B 19.000 ( ) 9.500 ( ) 0.040 Error 44.000 18 2.444 Total 3958.000 24 Corrected Total 307.333 23 a R Squared = 0.857 (Adjusted R Squared =0.817) (2) Estimated Marginal Means 小麦产量 Mean Dependent Variable: Y Mean Std. Error 95% Confide

4、nce Interval Lower Bound Upper Bound 12.333 0.319 11.663 13.004 (3) Post Hoc Tests A Homogeneous Subsets Student-Newman-Keuls A N Subset 1 2 1 8 9.7500 2 8 11.0000 3 8 16.2500 Sig. 0.127 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is M

5、ean Square(Error) = 2.444. a Uses Harmonic Mean Sample Size = 8.000. b Alpha = 0.05. 问题: 1、 请填写附表(1)里面空白()处,并给出计算公式。 2、 根据附表(1)方差分析的显著性水平结果,按 0.05 检验水平,议论各个因素的显著性。 3、 根据附表(2),说明里面各项指标的意义。 4、 根据附表(3),说明 A 因素下各个水平均值多重对比的结果, 5、 找出最优生产条件,并说明理由。 二、销售额问题(20 分) 某公司某种商品在 15 个地区的销售额 Y(万元)与各地区的人口1x (万人)及平均每户总

6、收入2x (元)的有关数据如下表。 地区 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 162 120 223 131 67 169 81 192 116 55 252 232 144 103 212 X1 274 180 375 205 86 265 98 330 195 53 430 372 236 157 370 X2 2450 3254 3802 2838 2347 3782 3008 2450 2137 2560 4020 4427 2660 2088 2605 SPSS 运算结果附表: (1) Variables Entered/Removed(b)

7、Model Variables Entered Variables Removed Method 1 X2, X1(a) . Enter a All requested variables entered. b Dependent Variable: Y (2) Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate 1 0.999(a) 0.999 0.999 2.17722 a Predictors: (Constant), X2, X1 b Dependent Variable: Y (

8、3) ANOVA(b) Model Sum of Squares df Mean Square F Sig. 1 Regression 53844.716 2 26922.358 0.000(a) Residual 56.884 12 4.740 Total 53901.600 14 a Predictors: (Constant), X2, X1 b Dependent Variable: Y (4) Coefficients(a) Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error

9、Beta 1 (Constant) 3.453 2.431 1.420 0.181 X1 0.496 0.006 0.934 81.924 0.000 X2 0.009 0.001 0.108 9.502 0.000 a Dependent Variable: Y 问题: 1、 附表(2)里面,指标 R 是什么指标,给出它的定义及其解释。 2、 求出附表(3)里面的 F 值,给出计算公式,并按 0.05 检验水平,议论回归方程的显著性。 3、 根据附表(4),给出回归方程的表达式,按 0.05 检验水平,议论回归系数的显著性,并估计地区 5的销售额的残差,给出计算公式。 三、经济进展阶段问题(

10、20 分) 为了研究近年来中国经济进展状况,搜集了 1989 年2022 年中国国内生产总值(GDP)指数(上年=100),列表如下(本表按不变价格计算): 1989 年2022 年中国国内生产总值(GDP) 指数( 上年=100) 年份 1989 1990 1991 1992 1993 1994 1995 指数(%) 104.1 103.8 109.2 114.2 113.5 112.6 110.5 年份 1996 1997 1998 1999 2000 2022 2022 2022 指数(%) 109.6 108.8 107.8 107.1 107.8 107.3 108.0 109.1

11、(1) 请将以下直径 D(i , j) 表中的括号填上,( 无计算过程, 不给分) 。 直径矩阵 D(i,j) 1 2 3 4 5 6 7 1 0.000 2 0.045 0.000 3 18.420 14.580 0.000 4 (72.608) 54.107 12.500 0.000 5 98.372 68.848 14.660 0.245 0.000 6 109.413 73.552 14.728 1.287 0.405 0.000 7 110.160 73.573 17.540 7.740 4.740 2.205 0.000 8 110.169 74.489 22.340 15.428

12、 9.810 4.740 0.405 9 110.869 76.975 29.060 (24.393) 15.860 8.047 1.447 10 113.749 82.420 39.175 36.340 24.393 13.352 3.968 11 118.600 89.989 51.180 49.649 34.109 19.700 7.412 12 120.397 93.305 57.109 56.189 38.289 21.894 8.180 13 123.332 97.890 64.287 63.816 43.462 24.959 9.629 14 124.164 99.572 67.

13、440 67.167 45.340 25.740 9.779 15 124.209 99.592 67.772 67.549 45.376 25.804 10.262 ( 续) 直径矩阵 D(i,j) 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 0.000 9 0.320 0.000 10 1.627 0.500 0.000 11 3.628 1.460 0.245 0.000 12 3.848 1.468 0.327 0.245 0.000 13 4.553 1.732 0.380 0.260 0.125 0.000 14 4.557 1.780 0.580

14、0.530 0.260 0.245 0.000 15 5.509 3.229 2.455 2.452 1.730 1.647 0.605 0.000 (2) 请将以下最小目标函数 e P (i , j )表中的括号填上,( 无计算过程 , 不给分 ) 。 最小目标函数 矩阵 eP(n,k) 2 3 4 5 6 7 8 2 0(2) 3 0.045(3) 0(3) 4 12.545(3) 0.045(4) 0(4) 5 14.705(3) 0.29(4) 0.045(5) 0(5) 6 14.773(3) 1.332(4) 0.29(6) 0.045(6) 0(6) 7 17.585(3) (7

15、.78 5 (4) 1.332(7) 0.29(7) 0.045(7) 0(7) 8 22.385(3) 15.178(7) 1.737(7) 0.695(7) 0.29(8) 0.045(8) 0(8) 9 (29.105 (3) 16.22(7) 2.779(7) 1.652(8) 0.61(8) 0.29(9) 0.045(9) 10 39.22(3) 18.741(7) 5.3(7) 2.237(9) 1.195(9) 0.61(10) 0.29(10) 11 51.225(3) 21.213(8) 8.744(7) 3.024(10) 1.897(10) 0.855(10) 0.53

16、5(10) 12 57.154(3) 21.433(8) 9.512(7) 3.106(10) 1.979(10) 0.937(10) 0.617(10) 13 64.332(3) 22.138(8) 10.961(7) 3.159(10) 2.032(10) 0.99(10) 0.67(10) 14 67.485(3) 22.142(8) 11.111(7) 3.359(10) 2.232(10) 1.19(10) 0.87(10) 15 67.817(3) 23.094(8) 11.594(7) 4.966(9) 3.359(15) 2.232(15) 1.19(15) ( 续) 最小目标

17、函数 矩阵 (3) 试给出k=5 的分类处境。 四、学生劳绩分析问题(20 分) 记录 10 个学生的数学、物理、化学、语文、历史、英语的劳绩,分别用1 2 3 4 5 6, , , , , x x x x x x 表示,得数据见下表所示。对其做主成分分析。 10 名男中学生的身高、胸围及体重数据 学生 代码 数学 x1 物理 x2 化学 x3 语文 x4 历史 x5 英语 x6 1 65 61 72 84 81 79 2 77 77 76 64 70 55 3 67 63 49 65 67 57 4 80 69 75 74 74 63 5 74 70 80 84 81 74 6 78 84

18、75 62 71 64 7 66 71 67 52 65 57 8 77 71 57 72 86 71 9 83 100 79 41 67 50 10 80 92 65 71 67 76 SPSS 运算结果附表: (1) Communalities Initial Extraction X1 1.000 0.803 X2 1.000 0.849 X3 1.000 0.555 X4 1.000 0.911 eP(n,k) 9 10 11 12 13 14 15 2 3 4 5 6 7 8 9 0(9) 10 0.045(10) 0(10) 11 0.29(11) 0.045(11) 0(11)

19、12 0.372(10) 0.29(12) 0.045(12) 0(12) 13 0.425(10) 0.305(11) 0.17(12) 0.045(13) 0(13) 14 0.625(10) 0.425(14) 0.305(14) 0.17(14) 0.045(14) 0(14) 15 0.87(15) 0.625(15) 0.425(15) 0.305(15) 0.17(15) 0.045(15) 0(15) X5 1.000 0.763 X6 1.000 0.790 Extraction Method: Principal Component Analysis. ( (2 ) Tot

20、al Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % 1 3.049 50.820 50.820 3.049 50.820 50.820 2 1.623 27.054 77.874 1.623 27.054 77.874 3 .670 11.161 89.035 4 .427 7.112 96.146 5 .214 3.565 99.711 6

21、 .017 .289 100.000 Extraction Method: Principal Component Analysis. (3) Component Matrix(a) Component 1 2 X1 -.557 0.702 X2 -.811 0.438 X3 -.263 0.697 X4 0.905 0.302 X5 0.758 0.435 X6 0.786 0.415 Extraction Method: Principal Component Analysis. a 2 components extracted. (4)Rotated Component Matrix(a

22、) Component 1 2 X1 -.125 0.887 X2 -.477 0.789 X3 0.126 0.734 X4 0.934 -.198 X5 0.874 -.010 X6 0.888 -.040 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a Rotation converged in 3 iterations. ( (5) ) Component Transformation Matrix Component 1 2 1

23、 0.862 -0.507 2 0.507 0.862 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. ( (6) ) Component Score Coefficient Matrix Component 1 2 X1 0.062 0.465 X2 -0.092 0.367 X3 0.143 0.414 X4 0.350 0.010 X5 0.350 0.105 X6 0.352 0.090 Extraction Method: Prin

24、cipal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores. 问题: 1、根据附表(2),请写出前两个特征值及其对应主成分的付出率。 2、根据附表(3)和(4),对比旋转前和旋转后的因子负荷矩阵,对这两个旋转后的因子的意义作一个合理的解释,尝试给两个因子命名。 3、请指出这里的因子分析所采用的方法。 4、根据因子得分系数矩阵即附表(6),请写出所提取的两个因子的数学表达式。 五、简答题(20 分) 1、 简述有交互作用的正交试验设计的表头设计原那么。 2、 试从定义

25、上议论判别分析和聚类分析有什么不同。 应用统计学 模拟试卷 开课学院: 商学院 专业: 考试形式:闭卷,所需时间: 120 分钟 考生姓名: 学号: 班级: 任课教师: 题序 一 二 三 四 五 总 分 得分 评卷人 留神: 请将答案写在答题纸上,写在试卷上无效。 本试卷计算题均精确到小数点后三位! 二、小麦试验问题(20 分)这道题涉及的内容: 方差分析 设有三个品种(用因素 A 表示)的小麦和两种不同的肥料(用因素 B 表示),将确定面积的地块分为 6个均等的小区,每个小区随机地试验品种和肥料 6 种组合的一种,在面积相等的四块地上举行重复试验,其小麦的产量(公斤)如下表: 品种 肥料 1

26、 2 3 1 9 10 9 8 11 12 9 8 13 14 15 12 2 9 10 12 11 12 13 11 12 22 16 20 18 SPSS 运算结果附表: (1) Tests of Between-Subjects Effects Dependent Variable: Y Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 263.333(a) 5 52.667 21.545 0.000 Intercept 3650.667 1 3650.667 1493.455 0.000 A 190

27、.333 ( 2 ) 95.167 38.932 0.000 B 54.000 1 54.000 (22091 ) 0.000 A * B 19.000 ( 2 ) 9.500 ( 3.886 ) 0.040 Error 44.000 18 2.444 Total 3958.000 24 Corrected Total 307.333 23 a R Squared = 0.857 (Adjusted R Squared =0.817) (2) Estimated Marginal Means 小麦产量 Mean Dependent Variable: Y Mean Std. Error 95%

28、 Confidence Interval Lower Bound Upper Bound 12.333 0.319 11.663 13.004 (4) Post Hoc Tests A Homogeneous Subsets Student-Newman-Keuls A N Subset 1 2 1 8 9.7500 2 8 11.0000 3 8 16.2500 Sig. 0.127 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error t

29、erm is Mean Square(Error) = 2.444. a Uses Harmonic Mean Sample Size = 8.000. b Alpha = 0.05. 问题: 1、 请填写附表(1)里面空白()处,并给出计算公式。 2、 根据附表(1)方差分析的显著性水平结果,按 0.05 检验水平,议论各个因素的显著性。 3 、 根据附表(2),说明里面各项指标的意义。 我们称表 2 为 估计边际平均值,这张表用于估计小麦产量的平均值在 95%的可能性下在那个范围之内。Mean 为平均值,std error 为标准误差,结果 95%xxxxxxx 表示在 95%的处境下,平

30、均值会在下限为 11.663,上为 13.004 之间。 4、 根据附表(3),说明 A 因素下各个水平均值多重对比的结果。 品种 1 和品种 2 放在 subset1 中, 它们的平均产量与 subset2 中的品种 3 有明显差异。但是对于 subset1组内来说,均数对比检验的概率,Sig 值为 0.1270.05,即原假设无效, 品种 1 和 和 2 不存在明显产量差异。 5、 找出最优生产条件,并说明理由。 从表 1 的方差分析可得,总方差 307.333=190.333+54+19+44,方差很大的片面都是由品种和肥料的差异构成的,即品 种和肥料对产量影响很大,至于交互作用,可以疏

31、忽。所以我们根据表 3 选择平 均产量最高的品种,品种 3。根据 原来的表格,我们可知同一种品种,肥料 2 明显能使得小麦增产,所以我们选择肥料 2。 所以最优生产条件,品种 3,肥料 2 二、销售额问题(20 分) 回归分析 某公司某种商品在 15 个地区的销售额 Y(万元)与各地区的人口1x (万人)及平均每户总收入2x (元)的有关数据如下表。 地区 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 162 120 223 131 67 169 81 192 116 55 252 232 144 103 212 X1 274 180 375 205 86 265

32、 98 330 195 53 430 372 236 157 370 X2 2450 3254 3802 2838 2347 3782 3008 2450 2137 2560 4020 4427 2660 2088 2605 SPSS 运算结果附表: (1) Variables Entered/Removed(b) Model Variables Entered Variables Removed Method 1 X2, X1(a) . Enter a All requested variables entered. b Dependent Variable: Y (2) Model Sum

33、mary(b) Model R R Square Adjusted R Square Std. Error of the Estimate 1 0.999(a) 0.999 0.999 2.17722 a Predictors: (Constant), X2, X1 b Dependent Variable: Y (3) ANOVA(b) Model Sum of Squares df Mean Square F Sig. 1 Regression 53844.716 2 26922.358 0.000(a) Residual 56.884 12 4.740 Total 53901.600 1

34、4 a Predictors: (Constant), X2, X1 b Dependent Variable: Y (4) Coefficients(a) Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) 3.453 2.431 1.420 0.181 X1 0.496 0.006 0.934 81.924 0.000 X2 0.009 0.001 0.108 9.502 0.000 a Dependent Variable: Y 问题: 1、 附

35、表(2)里面,指标 R 是什么指标,给出它的定义及其解释。 模型摘要表,R 为 复相关系数,定义 R= 根号下(Sr/St) ),Sr 为 回归平方和,St 为总平方和。根据 St=Sr+Se有:R 愈大,代表残差越小,方程回归性越高。本例中计算式子为:根号下(53844.716/53901.6). 2、 求出附表(3)里面的 F 值,给出计算公式,并按 0.05 检验水平,议论回归方程的显著性。 构造 F 统计量,计算公式如下 Vr=Sr/fr,Ve=Se/fe,F=Vr/Ve。其中 S 表示方差,f 表示自由度。关于两者的下表,我在表格上用红笔标出来了。小 r 代表回归 regressio

36、n,e 表示残差 residual。 本例中,计算 Vr=53844.716/2=26922.358,Ve=56.884/12=4.740,所以 F=26922.358/4.740=5679.466 Sig=0.000,表示双尾检验 P=0.000,方程回归性显著。 3、 根据附表(4),给出回归方程的表达式,按 0.05 检验水平,议论回归系数的显著性,并估计地区 5的 销售额的残差,给出计算公式。 解释一下表 4 的含义。表 4 为回归系数表,表头 B 下面的就是表示回归方程的参数,Constant 表示的是常数项。所以有 Y=3.453+0.496X1+0.008X2+e(e 是希腊字幕

37、 kec,我打不出来,表示随机误差的意思)。 我们现在看结果一列,X1,X2 系数对应的双尾检验 P 值=0.000,即至少在 99.9%的处境下,得出的 回归方程有效。而题目要求的是 0.05 检验水平,95%的处境下有效就行了。所以很明显,通过 SPSS计算出的两个回归系数,都有显著意义。 残差的计算公式在书上第 108 页,e=Y-Y(小帽子),意思很好理解的。下面是关于此题残差的计算。 此题五区的查看值为 Y=67,拟合值 Y(小帽子)=3.453+0.496*86+0.008*2347=64.885,残差 e=2.115。 四、经济进展阶段问题(20 分) 为了研究近年来中国经济进展

38、状况,搜集了 1989 年2022 年中国国内生产总值(GDP)指数(上年=100),列表如下(本表按不变价格计算): 1989 年2022 年中国国内生产总值(GDP) 指数( 上年=100) 年份 1989 1990 1991 1992 1993 1994 1995 指数(%) 104.1 103.8 109.2 114.2 113.5 112.6 110.5 年份 1996 1997 1998 1999 2000 2022 2022 2022 指数(%) 109.6 108.8 107.8 107.1 107.8 107.3 108.0 109.1 (1) 请将以下直径 D(i , j)

39、 表中的括号填上,( 无计算过程, 不给分) 。 直径矩阵 D(i,j) 1 2 3 4 5 6 7 1 0.000 2 0.045 0.000 3 18.420 14.580 0.000 4 (72.672.607508) 54.107 12.500 0.000 5 98.372 68.848 14.660 0.245 0.000 6 109.413 73.552 14.728 1.287 0.405 0.000 7 110.160 73.573 17.540 7.740 4.740 2.205 0.000 8 110.169 74.489 22.340 15.428 9.810 4.740

40、 0.405 9 110.869 76.975 29.060 (224.393.) 15.860 8.047 1.447 10 113.749 82.420 39.175 36.340 24.393 13.352 3.968 11 118.600 89.989 51.180 49.649 34.109 19.700 7.412 12 120.397 93.305 57.109 56.189 38.289 21.894 8.180 13 123.332 97.890 64.287 63.816 43.462 24.959 9.629 14 124.164 99.572 67.440 67.167

41、 45.340 25.740 9.779 15 124.209 99.592 67.772 67.549 45.376 25.804 10.262 所谓有序聚类法,举个体育课的例子,老师命令学生从左到右由低到高战成一排,假设这坨人的身高从左到右分别为 163,166,168,171,175,178,179,180,181,184,188,189。现在要求在不变更他们站位依次的处境下把他们分成三类,一个自然而然的想法就是,163,166,168,171,175,178,179,180,181,184,188,189。这就是有序聚类法。 我现在这么分类了,问题是鬼才知道这么分类好不好。所以我们引入

42、一种检测方法:设上面人的身高从左到右分别为 x1,x2。x12。第一组的起始元素是 x1,终止元素是 x3,计算组内平方和,这个很好计算,为了简便书写,我们令组内平方和为 d,由于第一个元素是 1,结果一个元素是 3,所以 d(1,3)就表示第一组的组内平方和。 更一般的书写方法,就是 d(i,j),书上 p156 有说明,那么何为最优聚类呢?就是全体组的组内平方和加起来为最小的时候,就是最优聚类。 现在我们用实例来学会计算方法: 假设我们把 1990 年单独分一类,那么很鲜明,d=0。但是假设我们把 1990,和 1991 聚成一类,那么 d(1,2)=(104.1-103.95) 2 +(

43、103.8-103.95) 2 =0.045,其中 103.95 为组内全体元素的平均值。 所以不难计算出 d(1,4)等其他数值。当数据好多的时候,我们可以用计算器的统计功能(mode=sd),来帮计算组内平方和。 ( 续) 直径矩阵 D(i,j) 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 0.000 9 0.320 0.000 10 1.627 0.500 0.000 11 3.628 1.460 0.245 0.000 12 3.848 1.468 0.327 0.245 0.000 13 4.553 1.732 0.380 0.260 0.125 0.

44、000 14 4.557 1.780 0.580 0.530 0.260 0.245 0.000 15 5.509 3.229 2.455 2.452 1.730 1.647 0.605 0.000 (2) 请将以下最小目标函数 e P (i , j )表中的括号填上,( 无计算过程 , 不给分 ) 。 最小目标函数 矩阵 eP(n,k) 2 3 4 5 6 7 8 2 0(2) 3 0.045(3) 0(3) 4 12.545(3) 0.045(4) 0(4) 5 14.705(3) 0.29(4) 0.045(5) 0(5) 6 14.773(3) 1.332(4) 0.29(6) 0.0

45、45(6) 0(6) 7 17.585(3) (7.78 5 (4) 1.332(7) 0.29(7) 0.045(7) 0(7) 8 22.385(3) 15.178(7) 1.737(7) 0.695(7) 0.29(8) 0.045(8) 0(8) 9 (29.105 (3) 16.22(7) 2.779(7) 1.652(8) 0.61(8) 0.29(9) 0.045(9) 10 39.22(3) 18.741(7) 5.3(7) 2.237(9) 1.195(9) 0.61(10) 0.29(10) 11 51.225(3) 21.213(8) 8.744(7) 3.024(10)

46、 1.897(10) 0.855(10) 0.535(10) 12 57.154(3) 21.433(8) 9.512(7) 3.106(10) 1.979(10) 0.937(10) 0.617(10) 13 64.332(3) 22.138(8) 10.961(7) 3.159(10) 2.032(10) 0.99(10) 0.67(10) 14 67.485(3) 22.142(8) 11.111(7) 3.359(10) 2.232(10) 1.19(10) 0.87(10) 15 67.817(3) 23.094(8) 11.594(7) 4.966(9) 3.359(15) 2.2

47、32(15) 1.19(15) 我们由第一题的数据得到了各种 d(i,j)的值,现在是把它们求和的时候了,为了偷懒,我们用一个便当表达式子 eP(n,k)来表达。 譬如 eP(2,2)表示总共 2 个元素,把分为两类,那么鲜明是一个元素一组,组内平方和之和确定是鸭蛋。 eP(3,2)表示总共 3 个元素,把它们分为两类,求出来的全体组内平方和之和。那么这就有文章可做了。 我们可以选择 1,2 分一类,3 单独分一类,也可以选择 1 单独分一类,2,3 分一类。那么第一种选择,我们查表得总和是 d(1,2)+d(3,3)=0.045+0=0.045。其次种分法总和是 d(1,1)+d(2,3)=

48、0+14.580=14.580. 那么我们该选哪一个呢?运筹学里面我们学过,要想结果的总和为最优,必然每一步都是最优解。那么我 们 要 求 所 有 组 内 平 方 和 之 和 最 小 , 显 然 每 次 分 类 , 我 们 都 要 取 最 小 , 也 就 是eP(3,2)=min0.045,14.580=0.045,我们选择分类方法便是 1,2 分一类,3 单独分一类。 对于题目中的要求 e(9,2)=mind(1,1)+d(2,9),d(1,2)+d(3,9),。d(1,8)+d(9,9)= 0+76.975,0.045+29.06,18.42+24.393。,不难看出,选择 d(1,2)+

49、d(3,9)为最优解,e(9,2)=29.105 总共分两组,其次组(即结果一组)的起始元素为第三个,所以我们填入 29.105(3) 其次个空,e(7,3)=mineP(2,2)+d(3,7),eP(3,2)+d(4,7),eP(6,2)+d(7,7)=min0+17.54,0.045+7.740,.14.733+0=7.785,我们从计算式中不难看出,最优调配,是 将前面三个元素分成两组,后面第四到第七个元素分成第三组,由于第三组(结果一组)是从元素 4 开头起分的,所以我们应当填入的是 7.785(4)。 所以 eP(7,3)的最优聚类法是,1,2 分一类,3 分一类,4 到 7 分一类

50、,最小组内平方和之和为 7.785 ( 续) 最小目标函数 矩阵 (3) 试给出k=5 的分类处境。 前面(2)已经给出了细致的选取最优的过程,现在我们来从表中找到最优组。 首先在组内找到 eP(15,5)=4.966(9),所以第一步就可得,分五组,结果一组为 9-15。 我们再看剩下 1-8 个元素的最优调配,我们找到 eP(8,4)= 1.737(7),即 8 组分四组,最优调配时,结果一组为 7-8。 以此类推,我们得到 6 个元素分 3 组,结果组,为 4-6。 。 结论,最优调配法为 1-2,3,4-6,7-8,9-15 四、学生劳绩分析问题(20 分) 记录 10 个学生的数学、

51、物理、化学、语文、历史、英语的劳绩,分别用1 2 3 4 5 6, , , , , x x x x x x 表示,得数eP(n,k) 9 10 11 12 13 14 15 2 3 4 5 6 7 8 9 0(9) 10 0.045(10) 0(10) 11 0.29(11) 0.045(11) 0(11) 12 0.372(10) 0.29(12) 0.045(12) 0(12) 13 0.425(10) 0.305(11) 0.17(12) 0.045(13) 0(13) 14 0.625(10) 0.425(14) 0.305(14) 0.17(14) 0.045(14) 0(14) 1

52、5 0.87(15) 0.625(15) 0.425(15) 0.305(15) 0.17(15) 0.045(15) 0(15) 据见下表所示。对其做 主成分分析。 10 名男中学生的身高、胸围及体重数据 学生 代码 数学 x1 物理 x2 化学 x3 语文 x4 历史 x5 英语 x6 1 65 61 72 84 81 79 2 77 77 76 64 70 55 3 67 63 49 65 67 57 4 80 69 75 74 74 63 5 74 70 80 84 81 74 6 78 84 75 62 71 64 7 66 71 67 52 65 57 8 77 71 57 72

53、86 71 9 83 100 79 41 67 50 10 80 92 65 71 67 76 SPSS 运算结果附表: (1) Communalities Initial Extraction X1 1.000 0.803 X2 1.000 0.849 X3 1.000 0.555 X4 1.000 0.911 X5 1.000 0.763 X6 1.000 0.790 Extraction Method: Principal Component Analysis. 这张表表示因子分析后,提取2个公因子(后面表有说明是两个对比适合),原来变量和这两个公因子的变量共同度,即这两个公因子数值发生

54、变化,其实代表了原来x1x6发生了多少变化,但是我们也看到,压缩成两个公因子后,原来6个因子中,x3的对应变化程度较少,即提取公因子后,x3流失的信息较多,其他的变量还算凑合。 ( (2 ) Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % 1 3.049 50.820 50.820 3.049 50.820 50.820 2 1.623 27.054 77.874 1.623 27.054 77.874 3 .670 11.161 89.035 4 .427 7.112 96.146 5 .214 3.565 99.711 6 .017 .289 100.000 Extraction Method: Principal Component Analysis. 解释一下为什么提出两个公因子,而不是 3 个,4 个。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论