多元统计分析习题及解答_第1页
多元统计分析习题及解答_第2页
多元统计分析习题及解答_第3页
多元统计分析习题及解答_第4页
多元统计分析习题及解答_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 PAGE 32多元统计分析习题及解答第一章 绪论填空题1多元分析研究的是_的统计总体。 2多元统计中常用的统计量有:_、_、_和_。3协方差和相关系数仅仅是变量间_的一种度量,并不能刻画变量间可能存在的_。二、简答题1简述多元统计分析的作用。2简述矩阵A的特征根与特征向量的求法。多元线性回归填空题1人们通过各种实践,发现变量之间的相互关系可以分成_和_两种类型。2总离差平方和可以分解为_和_两个部分,各自的自由度为_和_,其中_在总离差平方和中所占比重越大,则线性回归效果越显著。3回归方程显著性检验时通常采用的统计量是_。4偏相关系数是指多元回归分析中,_的相关系数。5Spss中回归方程的建

2、模方法有_、_、_、_等。二、简答题“最优”回归方程。简述逐步回归分析方法的基本原理。 三、计算题1现收集了92组合金钢中的碳含量x及强度y,且求得:(1)求y关于x的一元线性回归方程;(2)求y与x的相关系数;四、SPSS操作题1下面列出在不同重量下弹簧的长度:重量x(克)51015202530长度y(cm)7.258.128.959.9010.9011.80(1)在直角坐标系下作散点图,并判断Y关于X的相关关系是否线性; (2)求出Y关于X的一元线性回归方程; (3)对所求得的回归方程作显著性检验,列出方差分析表; (4)求出Y与X间的相关系数; (5)在X=16时,求Y的概率为0.95的

3、预测区间。2.在某化工产品的生产中,影响产品收率y主要变量是反应时间x1的反应温度x2,为提高收率希望找出y关于x1,x2的回归方程,现通过试验获得如下数据:序号X1X2y12345678930304040353535353515016015016015515515515515539.340.040.941.540.340.540.740.240.6(1)求Y关于X1、X2的线性回归方程; (2)对所求得的方程作显著性检验,在=0.05时你的结论是什么? (3)对各回归系数作显著性检验。(=0.05) (4)对回归方程的残差进行正态性、独立性、随机性及奇异值检验。 (5)回归方程的回归平方和、

4、残差平方和各为多少。 (6)求回归方程的复相关系数,并对拟合优度进行检验,若消除自变量个数及样本个数对回归方程的影响,拟合优度宜采用哪个指标,其值为多少。 (7)在排除其它因素的影响后,自变量X1与因变量Y之间的相关程度是多少。 (8)当排除其它因素对X2的影响后,X2进入回归方程,R2增加了多少? (9)X1、X2与Y的简单相关系数分别是多少?3.某服装厂发现本厂的服装销售额与该厂所在城市的服装销售总额及人均衣着用品的支出额关系密切。现有26期的原始数据如下:X1179.6226.2327.4463.4620.2935.41175658.1468.5539.3697.1894.91050.9

5、X212.5716.4821.421.531.1440.0540.7621.5226.0930.9938.7146.1955.13y0.192.072.162.924.857.1412.066.627.739.0110.7813.2216.84X1740.2687.1956.41223.31441.31561.31683.51466.51621.71465.81632.52207.62498.6X247.4534.0354.5971.2382.8986.2292.7273.6481.1373.5081.9399.63113.63y18.9312.3318.3423.5228.7728.6528

6、.5621.4022.1321.6121.4630.0136.60(1)以服装厂所在城市服装销售总额为自变量X1,以人均衣着用品支出额为自变量X2,该厂服装销售额为因变量Y建立二元线性回归方程。(2)若了解到明年本城市服装销售总额X1为2700万元,X2将是128元,试求明年该厂服装销售额的预测值及预测区间(=0.05)(3)对回归方程的显著性作检验;(4)对每一个回归系数的显著性作检验;(5)求出回归方程的复相关系数;(6)对回归方程的残差作奇异值检验4.在经济流通领域中,某公司的年销售额Y与个人可支配收入X1,价格X2,研究与发展费X3,广告费X4等项有关。(数据见光盘中“习题数据库”中2

7、04.sav文件)(1)试根据资料用逐步回归的方法建立线性回归方程。(引入变量、剔除变量的临界值为1.5)(2)变量进入回归模型的顺序是什么,哪些变量未进入方程。(3)最终方程的拟合优度如何,请评价之。5某地区大春粮食产量y和大春粮食播种面积x1、化肥用量x2、肥猪发展头数x3、水稻抽穗扬花期降雨量x4的数据见光盘中“习题库数据”205.sav文件,试用逐步回归分析,寻求大春粮食产量的预报模型(选取引入和剔除检验临界值为2.5)。6某种水泥在凝固时放出的热量y(卡/克)与水泥中四中化学成分有关,现测得13组数据,见光盘中“习题库数据”206.sav文件,(1)用逐步回归法建立线性回归方程(检验

8、临界值为4)(2)对自变量X4的状态进行说明。第三章 主成分分析填空题1主成分分析是通过适当的变量替换,使新变量成为原变量的_,并寻求_的一种方法。2主成分分析的基本思想是_。3主成分的协方差矩阵为_矩阵。4主成分表达式的系数向量是_的特征向量。5原始变量协方差矩阵的特征根的统计含义是_。6原始数据经过标准化处理,转化为均值为_,方差为_的标准值,且其_矩阵与相关系数矩阵相等。7样本主成分的总方差等于_。8变量按相关程度为,在_程度下,主成分分析的效果较好。9在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为_。10SPSS中主成分分析采用_命令过程。简答题1简述主成分的概念及几何意

9、义。2简述主成分分析的计算步骤。3列举样本主成分的性质。4提取样本主成分的原则。5简述主成分分析的适用范围及基本步骤。6思考主成分分析法的应用。计算题1设三个变量(x1,x2,x3)的样本协方差矩阵为: 试求主成分及每个主成分的方差贡献率。2在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:Y1Y2Y3Y4Y5Y6头长x1头宽x2肱骨x3尺骨x4股骨x5胫骨x60.350.330.440.440.430.440.530.700.190.250.280.220.76-0.64-0.05-0.02-0.06-0.05-0.050.000.530.480.510.48-

10、0.040.000.190.150.670.700.000.040.590.630.480.15特征值4.570.710.410.170.080.06解释6个主成分的实际意义。计算前三个主成分各自的贡献率和累积贡献率。对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断。3在一项对杨树的性状的研究中,测定了20株杨树树叶,每个叶片测定了四个变量:叶长(x1),2/3处宽(x2),1/3处宽(x3),1/2处宽(x4)。这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为:写出四个主成分,计算它们的贡献率。计算四个变量在前两个主成分上的载荷,由因子载荷矩阵,你认为这两个主成分应该如

11、何解释?你能给它们分别起个名字吗?根据原始数据和(1)中的结果,可以计算出20株杨树叶的第一、二主成分得分,试以这两个主成分y1和y2为坐标,在(y1,y2)平面上按因子得分为坐标描出这20个样本点。4对纽约股票市场上的五种股票的周回升率x1,x2,x3,x4,x5进行了主成分分析,其中x1,x2,x3分别表示三个化学工业公司的股票回升率,x4,x5表示两个石油公司的股票回升率,主成分分析是从相关系数矩阵出发进行的,前两个特征根和对应的标准正交特征向量为: 计算这两个主成分的方差贡献率。能否对这两个主成分的意义作一个合理的解释,并给两个主成分命名。四、SPSS操作题下面是8个学生两门课程的成绩

12、表:12345678英语x1数学x2100659085707070908585554555554565(1)求出两个特征根及其对应的单位特征向量;(2)求出主成分,并写出表达式;(3)求出主成分的贡献率,并解释主成分的实际意义;(4)求出两个主成分的样本协方差矩阵;(5)第1个样本主成分与第2个变量样本之间的相关系数为多少(6)求出8个学生第一主成分得分并进行排序2.某中学十二名女生的身高x1,体重x2的数据如下:123456789101112身高体重155481534615748154451584915246160481564515851157471594816150(1)两个变量的协方差矩

13、阵与相关系数阵;(2)两个特征根及其对应的单位特征向量;(3)主成分的表达式并解释各贡献率的大小意义和主成分的实际意义;(4)如果舍弃主成分y2,则哪一个原变量的信息损失量最大;(5)画出全部样本的主成分散点图。3根据下列某地区11年数据X1(总产值)X2(存储量)X3(总消费)y(进口额)1234567891011149.3161.2171.5175.5180.8190.7202.1212.4226.1231.9239.04.24.13.13.11.12.22.15.65.05.10.7108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167

14、.615.916.419.019.118.820.422.726.528.127.626.3计算地区总产值、存储量和总消费的相关系数矩阵。求特征根及其对应的特征向量。求出主成分及每个主成分的方差贡献率;利用主成分方法建立y与x1,x2,x3的回归方程(取两个主成分)。五、综合题1、对全国30个省市自治区经济发展基本情况的八项指标作主成分分析。2、对30个省市自治区工业企业经济效益作综合评价。3、对我国城市居民生活费支出作主成分分析。第四章 因子分析一、填空题1因子分析是把每个原始变量分解为两部分因素,一部分是_,另一部分为_。2变量共同度是指因子载荷矩阵中_。3公共因子方差与特殊因子方差之和为

15、_。二、简答题1简述因子分析的基本思想。2因子旋转。3因子载荷。三、计算题1已知x=(x1,x2,x3,x4,x5)的样本相关系数矩阵R为试用主对角线外每一行的最大值来估计约化相关系数矩阵R*的主对角线上的相应元素,并近似地计算出因子载荷矩阵A的第一列元素。2设变量x1,x2和x3已标准化,其样本相关系数矩阵为:对变量进行因子分析。取q=2进行正交因子旋转。3为了考察学生的知识水平,常用学生的考试成绩来评定,某校对33个学生的3门功课进行分析,得相关系数矩阵:取两个公因子计算约化相关系数矩阵计算因子载荷矩阵计算各变量的公共因子方差和特殊因子方差写出因子模型四、SPSS操作题110名初中男生身高

16、、胸围、体重的数据资料如下:身高x1(cm)胸围x2(cm)体重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5利用因子法、方差最大旋转法计算因子载荷阵A分别计算各变量的公共因子方差和特殊因子方差,判断哪个因子能概括原始信息的大部分,为什么写出方差最大正交旋转因子模型,并分析各因子的实际含义(4)计算各个样本点的因子得分五、综合题1、对我国30个省市自治区的农业生产情况作因

17、子分析。从农业生产条件和生产结果济效益出发,选取六项指标分别为: 乡村劳动力人口(万人), 人均经营耕地面积(亩), 户均生产性固定资产原值(元), 家庭基本纯收入(元), 人均农业总产值(千元/人), 增加值占总产值比重(%)。2、对1997-2007年中国人民银行资金来源的10项指标作因子分析。聚类分析一、填空题1聚类分析是建立一种分类方法,它将一批样哂或变量按照它们在性质上的_进行科学的分类。2Q型聚类法是按_进行聚类,R型聚类法是按_进行聚类。3 R型聚类统计量通常采用_。4在聚类分析中需要对原始数据进行无量纲化处理,以消除不同量纲或数量级的影响,达到数据间可同度量的目的。常用的无量纲

18、化方法有以下几种:_、_、_、_。5六种Q型聚类方法分别为_、_、_、_、_、_。6快速聚类在SPSS中由_过程实现。二、简答题 1简述系统聚类法的基本思想及主要步骤。2简述系统聚类分析法。三、计算题1下面给出了八个样品的两个指标数据样指12345678X1X2244701311239511214316使用按批修改法进行聚类,采用欧氏距离(取1、3、7号样本为聚点)。2从20个工厂抽了同类产品,每个产品测了两个指标,欲将各厂的质量进行分类,测得的数据如下(已作了适当变换)1234567891011121314151617181920X1X206052523444351626170-43-22-

19、32-30-52110-10-2-1-1-1-3试用欧氏距离,将每个样本与其距离最近的凝聚眯进行初始归类(用密度法取聚点)。四、SPSS操作题1某校从高中二年级女生中随机抽取16名,测得身高和体重数据如下表:序号身高(cm)体重(kg)序号身高(cm)体重(kg)1234567816015916016916216516515449464149504852439101112131415161601601571631611581591614544435051454848试分别利用最短距离法、最长距离法、重心法、类平均法、中间距离法将它们聚类(分类统计量采用绝对距离),并画出聚类图。2从不同地区采集

20、了七块花岗岩,测其部分化学成分如下:1234567SiO2TiO2FeOCaOK2O75.200.141.860.915.2175.150.162.110.744.9372.190.131.520.694.6572.350.131.370.834.8772.740.101.410.724.9973.290.0331.070.173.1573.720.0330.770.282.78试作如下分析:样本间用欧氏距离,并用系统聚类的诸方法对样本进行聚类。将数据标准化后,仍用欧氏距离,然后用系统聚类的诸方法对样本进行聚类。对五个变量进行聚类。五、综合题1、为了更深入了解我国人口的文化程度,现利用1990

21、年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人都占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。计算样品之间的相似系数,使用最长距离法、重心法和Ward法,将上机结果按样品号画出聚类图,并根据聚类图将30个样品分为四类。2、根据信息基础设施的发展状况,对世界20个国家和地区进行分类。只要采用6个指标:(1)Call每千人拥有电话线数,(2)movecall每千户居民蜂窝移动电话数,(3)fee高峰时期

22、每三分钟国际电话的成本,(4)Computer每千人拥有的计算机数,(5)mips每千人中计算机功率(每秒百万指令),(6)net每千人互联网络户主数。计算样本之间的距离采用欧式距离,用最长距离法、重心法、离差平方和法进行计算。3、按照城乡居民消费水平,对我国30个省市自治区分类。第六章 判别分析一、填空题1判别分析是要解决在研究对象已_的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。2用判别分析方法处理问题时,通常以_作为衡量新样本点与各已知组别接近程度的指标。3进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有_、_。4在p维空间Rp中,点与点之间的

23、接近和疏远尺度用_来衡量,最简单的就是_或_。5类内样本点接近,类间样本点疏远的性质,可以通过_与_的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越_,分类效果越_。6Fisher判别法就是要找一个由p个变量组成的_,使得各自组内点的_尽可能接近,而不同组间点的尽可能疏远。二、简答题1简述聚类分析和判别分析的区别和联系。2判别分析的基本步骤。3BAYES判别法和FISHER判别法的比较。4简述Fisher判别基本思想。5简述逐步判别基本原理。三、计算题1某地区将农村经济类型分为三类:G1较富裕类型,G2中等类型,G3较贫困类型。每种类型以五个指标为依据:

24、x1=土地生产率=农村社会总产值/总土地面积(百元/每亩),x2=劳动生产率=农村社会总产值/农村劳动力(百元/每个劳动力),x3=人均收入=农村经济纯收入/农业人口(百元/每人),x4=费用水平=总费用/总收入, x5=农村工业比重=农村工业产值/农村社会总产值。每种类型分别有容量为n1=5,n2=8,n3=4的样本(每个个体以县为单位),其数据如下:12345678G1(较富裕)X1X2X3X4X53.856.754.790.850.593.515.734.010.810.604.124.453.680.890.485.014.683.640.780.533.675.844.270.870

25、.64G2(中等)X1X2X3X4X53.614.052.650.900.453.653.742.860.910.434.114.133.150.930.412.983.692.900.890.413.213.553.130.880.482.873.782.600.940.393.353.812.710.950.384.004.272.970.900.44G3(较贫困)X1X2X3X4X53.234.081.850.960.383.033.212.030.940.252.543.501.510.970.342.112.981.070.990.21试作费歇尔判别试以x3,x5为变量,建立三个类别

26、的直线判别函数试以x1,x2,x3,x4,x5为变量,建立马氏距离判别函数进行逐步判别分析2设两个二维总体有公共协方差,从二总体中分别抽取了容量为9和8的样本,其数据如下:123456789G1X1X220.214.228.58.424.614.826.515.229.011.936.79.636.018.027.69.525.016.0G2X1X221.67.523.24.517.89.214.47.211.05.518.96.315.48.016.17.8建立直线判别函数,并判定点(23.1,9.2)归属于哪类?采用费歇尔判别来确定(23.1,9.2)的归属采用马氏距离判别法则确定点(23

27、.1,9.2)属于哪一类。四、SPSS操作题1一个城市的居民家庭,按其有无割草机分为两组,有割草机的一组记为G1,另一组记为G2。割草机工厂欲判断一些家庭是否习割草机,从G1和G2分别随机抽取12个样本单位,调查两项指标:x1=家庭收入,x2=房前房后土地面积。资料如下表,试用Fisher判别法建立判别函数。G1有割草机家庭G2无割草机家庭X1(千美元)X2(平方千英尺)X1(千美元)X2(平方千英尺)20.028.521.620.529.036.736.027.623.031.017.027.09.28.410.810.411.89.68.811.210.010.411.010.025.01

28、7.621.614.428.016.419.822.015.811.017.021.09.810.48.610.28.88.88.09.28.29.47.07.42.胜利油田某地段三条地震测线提供构造指标x1,x2,及速度变量x3,x4,x5共5个指标。表中给出的有油气显示的5个指标数据(共10组数据)设为G1类,表中给出的无油气显示的5个指标数据(共11组数据)设为G2类。已知G1类与G2类的协方差阵桢,试判别给定的三组数据归属哪一类。G1类有油气显示的数据表构造指标速度指标X1X2X3X4X51234567891020202020202015322736212124273030444744

29、44444444214222221222124444414415G2类无油气显示的数据表构造指标速度指标X1X2X3X4X5123456789101120203232322032152032211836171753213244301144114841441847710171270457404744601待判样本数据表构造指标速度指标X1X2X3X4X5123203215551444182601304参考答案第一章 绪论一、填空题1、多个随机变量及其相互关系2、样本均值、样本方差、样本协方差、样本相关系数3、离散程度、关联程度二、简答题1、答:能够简化数据的数据结构;能够进行分类和组合;能够研究

30、指标之间的依存关系;进行预测;进行假设检验。2、略。第二章 多元线性回归一、填空题1、相关、不相关2、回归离差平方和、剩余离差平方和、p、n-p-1、回归离差平方和3、4、当其他变量固定后,给定的两个变量之间的5、一元线形回归、多元线形回归、岭回归、多对多线形回归二、简答1、答:所谓“最优”回归方程,是指方程中包含所有对应变量影响比较显著的变量,而不包括对应变量影响不显著的变量的回归方程2、答:原理是,从一个自变量出发,依照自变量对因变量的影响显著性大小,从大到小逐个引入回归方程,同时,在逐个自变量选入回归方程的过程中,如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性时,可以

31、从回归方程中随时予以剔除。引入一个变量或剔除一个变量,为逐步回归的一步,每步都要进行显著性检验,以便保证每次引入变量前回归方程中只包括显著性变量,这个过程反复进行,直到既无不显著变量从回归方程中剔除,又无显著变量需要选入回归方程时为止。三、计算题1、解:(1); (2) 0.88;四、SPSS操作答:略。第三章 主成分分析一、填空题1、综合变量、相关性2、设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。3、对角4、相关系数矩阵_5、原始数据的相关系数6、0、1、协方差7、18、相关性很强9、方差贡献度10、analyze-data reduc

32、tion-facyor二、简答题1、主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。2、第一步:对原始数据进行标准化处理;第二步:计算样本相关系数矩阵;第三步:用雅克比方法求相关系数矩阵的特征值()和相应的特征向量;第四步:选择重要的主成分,并写出主成分表达式;第五步:计算主成分得分;第六步:依据主成分得分的数据,则可以进行进一步的统计分析。3、略。4、略。5、略。6、首先,主成分分析可以用于系统评估;其次,在经

33、济统计研究中,除了经济效益的综合评价研究外,对不同地区经济发展水平的评价研究,不同地区经济发展竞争力的评价研究,人民生活水平、生活质量的评价研究,等等都可以用主成分分析方法进行研究;另外,主成分分析除了用于系统评估研究领域外,还可以与回归分析结合,进行主成分回归分析,以及利用主成分分析进行挑选变量,选择变量子集合的研究。三、计算题1、2、(1)(2)(3)3、(1)(2)(3)4、(1)(2)四、SPSS操作略。五、综合题略。第四章 因子分析一、填空题1、公共因子、特殊因子2、第i行元素的平方和3、1二、简答题1、因子分析是通过变量(或样品)的相关系数矩阵内部结构的研究,找出存在于所有变量(或

34、样品)中具有共性的因素,并综合为少数几个新变量,把原始变量表示成少数几个综合变量的线性组合,以再现原始变量与综合变量之间的相关关系。其中,这里的少数几个综合变量一般是不可观测指标,通常称为公共因子。2、根据因了载荷阵的不唯一性,可对因子载荷阵实行旋转即用一个正交阵右乘A,使旋转后的因子载荷阵结构简化,便于对公共因子解释,这就是因子旋转。3、因子载荷:其统计意义是第1个变量与第1人公共因子的关系故即表示Xi的份量或比重,由于历史的原因,心理学家将它叫载荷。三、计算题1、2、(1)(2)3、(1)(2)(3)(4)四、SPSS操作略。五、综合题略。第五章 聚类分析一、填空题1、亲疏程度2、样品、变量3、具有代表性的变量4、中心化变换、规格化变换、标准化变换、对数变换5、最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法6、analyzeclassifyk means cluster二、简答题1、聚类分析是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论