多元统计思考题及答案_第1页
多元统计思考题及答案_第2页
多元统计思考题及答案_第3页
多元统计思考题及答案_第4页
多元统计思考题及答案_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《多元统计分析思考题》第一章回归分析1、回归分析是怎样的一种统计方法,用来解决什么问题?答:回归分析作为统计学的一个重要分支,基于观测数据建立变量之间的某种依赖关系,用来分析数据的内在规律,解决预报、控制方面的问题。2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线性关系形式才能做线性回归吗?为什么?答:线性关系是用来描述自变量x与因变量y的关系;但是反过来如果自变量与因变量不一定要满足线性关系才能做回归,原因是回归方程只是一种拟合方法,如果自变量和因变量存在近似线性关系也可以做线性回归分析。3、实际应用中,如何设定回归方程的形式?答:通常分为一元线性回归和多元线性回归,随机变量y受到p个非随机因素x1、x2、x3……xp和随机因素Ɛ的影响,形式为:是p+1个未知参数,是随机误差,这就是回归方程的设定形式。4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?答:偏回归系数是p+1个未知参数,反映的是各个自变量对随机变量的影响程度。5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估计法有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题?答:经验回归方程中参数是由最小二乘法来来估计的;评判标准有:普通最小二乘法、岭回归、主成分分析、偏最小二乘法等;最小二乘法估计的统计性质:其选择参数满足正规方程组,(1)选择参数分别是模型参数的无偏估计,期望等于模型参数;(2)选择参数是随机变量y的线性函数要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大。6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?答:随机误差项Ɛ的引入使得变量之间的关系描述为一个随机方程,由于因变量y很难用有限个因素进行准确描述说明,故其代表了人们的认识局限而没有考虑到的偶然因素。7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系?为什么?答:不是,因果关系是由变量之间的内在联系决定的,回归模型的建立只是一种定量分析手段,无法判断变量之间的内在联系,更不能判断变量之间的因果关系。8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的过程是怎样的?答:因为即使我们已经建立起了模型,但是尚且不知这个回归方程是否能够比较好地反映所描述的变量之间的影响关系,必须进行统计学上的假设检验;假设性检验原理可以用小概率原理解释,通常认为小概率事件在一次试验中几乎不可能发生的,即对总体的某个假设是真实的,那么不支持这一个假设事件在一次试验中是几乎不可能发生的,要是这个事件发生了,我们就有理由怀疑这一假设的真实性,拒绝原假设;检验过程:(1)提出统计假设H0和H1;(2)构造一个与H0相关的统计量,称其为检验统计量;(3)根据其显著性水平的值,确定一个拒绝域;(4)作出统计决断;9、回归诊断可以大致确定哪些问题?回归分析有哪些基本假定?如果实际应用中不满足答:在自然科学和社会科学研究中,研究对象用某种方法已经划分为若干类别,当得到一个新的样本数据时,要确定该样本属于已知的哪一类。2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它们各有什么特点或优劣之处?答:(1)距离判别法:根据已知分类数据,分别计算各类的重心,即是分类的均值;判别方法是—对于任意一个样品,若它与第i类的重心距离最近,就认为它来自第i类;特点是对各类数据分布并无特定的要求(2)Fisher判别法:其基本思想是投影,将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能分开,其中利用了一元方差分析的思想导出判别函数;其特点是对总体的分布没有特殊要求,是处理概率分布未知的一种方法。(3)逐步判别法:逐步引入一个“最重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果判别能力随着引入新变量而变得不显著,则将它从判别式中剔除,直到没有新的变量能够进入,依然没有旧变量需要剔除为止。3、判别分析与回归分析有何异同之处?答:(1)相同点:这两种方法都有关于数据预测的功能;不同点:这个估计太多了,一般来讲判别分析功能是将样品归类,回归分析是探究样品对因变量的变动影响。4、判别分析对变量与样本规模有何要求?答:判别分析对总体分布没有要求,但是判别分析的假设之一是要求每一个变量不能是其他判别变量的线性组合,即不能存在多重共线性。5、如何度量判别效果?有哪些影响判别效果的因素?答:通过评价判别准则来度量判别效果,常用方法:(1)误判率回代法;(2)误判率交叉确认估计;影响因素是个总体之间的差异程度,各个总体之间差异越大,就越有可能建立有效的判别准则,如果差异太小,则判别分析的意义不大;当各个总体服从多元正态分布,我们可以根据各总体的均值向量是否相等进行统计检验。当然也可以检验各总体的协方差矩阵是否相等来采用判别函数。6、逐步判别是如何选择判别变量的?基本思想或步骤是什么?答:在判别分析中,并不是观测变量越多越好,而是选择主要变量进行判别分析,将各个变量在分析中起的不同作用,将影响力比较低的变量保留在判别式中,会增加干扰,影响效果。因此选择显著判别力的变量来建立判别式就是逐步判别法。基本思想:其与逐步回归法类似,都是采用“有进有出”的算法,即逐步引入一个“最重要”的变量进入判别式,同时对先引入的判别式进行检验,如果其判别能力随着新引入的变量显著性降低,则该因素应该被剔除,直到变量全部进入为止。7、判别分析有哪些现实应用?举例说明。答:判别分析在实际中的应用无处不在。例如我们根据各种经济指标把各个国家分为发达国家和发展中国家,通过这些指标成功的判定了一个国家的经济发展水平。第三章聚类分析聚类分析的目的是什么?与判别分析有何异同?这种方法有哪些局限或欠缺?答:把某些方面相似的东西进行归类,以便从中发现规律性,达到认识客观事物规律的目的。其与判别分析相同的地方是都是研究分组的问题;不同的是各自对于预先分组对象不一样,聚类分析是未知类别,判别分析是已知类别。有哪些常用的聚类统计量?答:(1)Q型统计量:对样本进行聚类,用“距离”来描述样本之间的接近程度;R型统计量:对变量进行聚类,用“相似系数”来度量变量之间的近视程度。系统(谱系)聚类法的基本思想是怎样的?它包含哪些具体方法?答:先将待聚类的n个样品(或变量)各自看成一类,共有n类,然后按照事先选定的聚类方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即的n-1类,再按照前面的计算方法计算新类与其他类之间的距离(或者相似系数),再将关系最密切的两类归为一类,其余不变,即得n-2类,继续下去,每次重复都减少一类,直到所有样品(或者变量)都归于一类。聚类分析对变量与样本规模有何要求?有哪些因素影响分类效果?要想减少不利因素的影响,可以采取哪些改进方法?答:聚类分析要求其样本规模较大,需要变量之间相关性较弱,变量个数小于样本数。实际应用问题,如何确定分类数目?答:按理来说聚类分析的分类数目是事先不知道的,但是在实际应用中,应该根据相关专业知识确定分类数目,结合聚类统计量参考确定,并使用误判定理具体分析。快速聚类法(K—均值法)的基本思想或步骤是怎样的?答:如果待分类样品比较多,应先给出一个大概的分类,然后不断对其进行修正,一直到分类结果比较合理为止。有序样品的最优分别法的基本思想或步骤是怎样的?答:将n个样品看成一类,然后根据分类的误差函数逐渐增加分类,寻求最优分割,用分段的方法找出使组内离差平方和最小的分割点。应用聚类分析解决实际问题的基本步骤是怎样的?应该注意哪些方面的问题?答:(1)n个变量(样品)各自成一类,一共有n类,计算两两之间的距离,构成一个对称矩阵;(2)选择这个对称矩阵中主对角元素以外的上(或者下)三角部分中的最小元素,合成的新类,并计算其与其他类之间的距离;(3)划去与新类有关的行和列,将新类与其余类别的距离组成新的n-1阶对称矩阵;(4)再重复以上步骤,直到n个样品聚为一个大类;(5)记录下合并类别的编号以及所对应的距离,绘制聚类图;(6)决定类的个数和聚类结果。第四章主成分分析与典型相关分析主成分分析的基本思想是什么?在低维情况下,如何利用几何图形解释主成分的意义?答:构造原始变量的适当线性组合,使其产生一系列互不相关的新变量,从中选出少量的几个新变量并使它们含有足够多的原始变量的信息,从而使这几个新变量代替原始变量分析问题和解决问题提供了可能。几何解释,可以借用平面上旋转坐标系方法来达到降维的目的。什么是主成分的贡献率与累计贡献率?实际应用时,如何确定主成分的个数?答:主成分中,描述第k个主成分提取的信息占据原来变量总信息的比重,称为第k个主成分的贡献率;若将前m个主成分提取的总信息的比重相加,称为主成分的累计贡献率。实际应用中,通常选取前m个主成分的累积贡献率达到一定的比列来确定主成分的个数。主成分有哪些基本性质?答:(1)每一个主成分都是原始变量的线性组合;(2)主成分的数目大大小于原始变量的数目;(3)主成分保留了原始变量所包含的绝大部分信息;(4)各个主成分之间互不相关。对于任何情形的多个变量,都可以采取主成分方法降维吗?为什么?答:肯定不是,必须要满足适合主成分分析的要求才可以降维。举个简单的例子,其适用范围是各个变量之间应该具有比较强的相关性,如果多个变量均为各项同性,则主成分分析效果不明显。怎样的情况下需要计算标准化的主成分?答:因为实际问题的变量有很多量纲,不同的量纲会引起各个变量的取值的分散程度差异较大,总体方差将主要受到方差较大的变量的控制。如果用协方差矩阵求主成分,则优先照顾方差大的变量,可能会得到不合理的结果,因此为了消除量纲的影响,需要计算标准化的主成分。主成分有哪些应用?答:它的主要作用是降维,因此应用范围比较广泛,举个例子,衡量一个城市的综合发展指数涉及到的变量参数相当多,但是如果运用主成分的思想,只需要考虑较少的变量样品就好,一般选择GDP指数、环境指数、人口、面积等。如何解释主成分的实际含义?答:主成分的实际意义需要结合到实际应用中,其往往不是最终目的,重要的是利用降维的思想来综合分析原始信息,利用有限的主成分来解释规律,从而进行相关研究。典型相关分析的基本思想是什么?有何实际用途?答:是研究两组变量间的相互依赖关系,把两组变量之间的关系变为研究两个新变量的相关,而又不抛弃原来变量的信息;因为这两组变量所代表的内容不同,可以直接考虑其相关关系来反映两组变量之间的整体相关性。例如工厂考察使用原料质量对生产产品质量的影响,需要对产品各种各样质量指标与所使用的原料指标之间的相关关系进行评判。典型相关分析与回归分析、判别分析、主成分分析、因子分析有何关联?试比较这些方法的异同之处。答:这是一个涉及面很大的问题,总的来讲这些方法的存在能够帮助我们对于客观数据现象的相关关系有一个更加深刻的了解,有的是对另外一种方向的优化与推广,有的本质思想与另外一种分析方法很接近,异同点可以根据教科书进行两两比对。10、典型相关分析有哪些基本假定?答:线性假定影响典型相关分析的两个方面,首先任意两个变量间的相关系数是基于线性关系的。如果这个关系不是线性的,一个或者两个变量需要变换。其次,典型相关是变量间的相关,如果关系不是线性的,典型相关分析将不能测量到这种关系。11、如何解释典型相关函数的实际意义?答:(1)典型权重(标准化系数);(2)典型荷载(结构系数);(3)典型交叉载荷。用以上三种参数来使多个变量与多个变量的相关性转化为两个变量的相关性。12、典型相关方法中冗余度分析的意义是什么?答:冗余度主要说明典型变量对各组观测变量总方差的代表比例和解释比例。第五章因子分析与对应分析因子分析是怎样的一种统计方法?它的基本目的和用途是什么?答:其根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的相关性较低,每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构成为公共因子,对所研究的问题就可以用最少的个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量;目的:利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子;用途:对变量进行分类,根据因子得分值在其轴所构成的空间中吧变量点画出来,从而分类。因子分子中的KMO统计量与巴特莱特球形性检验的目的是什么?答:KMO统计量:通过比较各个变量之间简单相关系数和偏相关系数的大小判断变量间的相关性,相关性强时,偏相关系数远小于简单相关系数,KMO值接近1.一般KMO>0.9非常适合做因子分析;而大于0.7都可以,但是0.5一下不适合;巴特莱特球形检验:用于检验相关矩阵是否是单位矩阵,及各个变量是否是独立的。它以变量的相关系数矩阵为出发地点,如果统计量数值较大,且相伴随的概率值小于用户给定的显著性水平,则应该拒绝原假设;反之,则认为相关系数矩阵可能是一个单位阵,不适合做因子分析。因子分析有哪些类型?它们有何区别?Q型因子分析与聚类分析有何异同?答:Q型和R型两种;Q型:对样本进行因子分析,R型:对变量进行因子分析;Q型因子分析可以认为是考虑指标的重要性,保留哪些去掉哪些;Q型聚类分析考虑的是指标的相关性,哪几类指标可能组成一类,使得组内距离尽可能小,组间距离尽可能大。因子分析中的变量类型是怎样的?因子分析对变量数目有没有要求?对样本规模有没有要求?答:被描述的变量一般来讲都是可观测的随机变量;变量必须是标准化的;样品的数目大于变量的数目。因子分析有怎样的基本假定?对样本特点(或性质)有何要求?答:各个共同因子之间不相关,特殊因子之间也不相关,共同因子与特殊因子之间也不相关。样本之间相关性越强越好。因子分析模型中,因子载荷、变量共同度、方差贡献等统计量的统计意义是什么?答:(1)因子载荷:指综合因子与公共因子的相关关系,表示其依赖公共因子的程度,反映了第i个变量对第j个公共因子的相对重要性,也是其间的密切程度,也是其公共因子的权;(2)变量共同度:指因子载荷矩阵中各行元素的平方和,表示x的第i个分量对于公共因子的每一个分量的共同依赖程度;(3)方差贡献:指因子载荷矩阵第j列各个元素的平方和,是衡量公共因子相对重要性的指标。因子分析与主成分分析有何区别与联系?它们分别适用于怎样的情况?答:联系:均是降维的处理变量(样品)的方法;区别:因子分析是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论