应用多元统计分析课后答案_朱建平版_第1页
应用多元统计分析课后答案_朱建平版_第2页
应用多元统计分析课后答案_朱建平版_第3页
应用多元统计分析课后答案_朱建平版_第4页
应用多元统计分析课后答案_朱建平版_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章3.1 试述多元统计分析中的各种均值向量和协差阵检验的根本思想和步骤。其根本思想和步骤均可归纳为:答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否认域;第四,根据样本观测值计算出统计量的值,看是否落入否认域中,以便对待判假设做出决策拒绝或接受。均值向量的检验: 统计量 拒绝域在单一变量中当 当未知 作为的估计量一个正态总体协差阵 协差阵未知 两个正态总体有共同协差阵 有共同未知协差阵 其中 协差阵不等 协差阵不等 多个正态总体单因素方差 多因素方差 协差阵的检验检验 检验 统计量3.2 试述多元

2、统计中霍特林分布和威尔克斯分布分别与一元统计中t分布和F分布的关系。答:1霍特林分布是t分布对于多元变量的推广。而假设设,且与相互独立,那么称统计量的分布为非中心霍特林T2分布。假设,且与相互独立,令,那么 。2威尔克斯分布在实际应用中经常把统计量化为统计量进而化为统计量,利用统计量来解决多元统计分析中有关检验问题。 与统计量的关系统计量及分别任意任意1任意任意21任意任意2任意任意第四章4.1 简述欧几里得距离与马氏距离的区别和联系。答: 设p维欧几里得空间中的两点X=和Y=。那么欧几里得距离为。欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到实际问题中量纲的影响。设X,Y是来自均

3、值向量为,协方差为的总体G中的p维样本。那么马氏距离为D(X,Y)=。当即单位阵时,D(X,Y)=即欧几里得距离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2 试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为,那么称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分,这个“划分就构成了一个判别规那么。4.3 简述距离判别法的根本思想

4、和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其根本思想都是分别计算样本与各个总体的距离马氏距离,将距离近的判别为一类。两个总体的距离判别问题设有协方差矩阵相等的两个总体G1和G2,其均值分别是m1和m 2,对于一个新的样品X,要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D2X,G1和D2X,G2,那么 X ,D2X,G1D2X,G2X ,D2X,G1> D2X,G2,具体分析, 记 那么判别规那么为 X ,W(X)X ,W(X)<0多个总体的判别问题。设有个总体,其均值和协方差矩阵分别是和,且。计算样本到每个总体的马氏距离,到哪个总体的距离最小

5、就属于哪个总体。具体分析, 取,。可以取线性判别函数为, 相应的判别规那么为 假设 4.4 简述贝叶斯判别法的根本思想和方法。根本思想:设k个总体,其各自的分布密度函数,假设k个总体各自出现的概率分别为,。设将本来属于总体的样品错判到总体时造成的损失为,。设个总体相应的维样本空间为 。在规那么下,将属于的样品错判为的概率为 那么这种判别规那么下样品错判后所造成的平均损失为 那么用规那么来进行判别所造成的总平均损失为 贝叶斯判别法那么,就是要选择一种划分,使总平均损失到达极小。根本方法:令,那么 假设有另一划分,那么在两种划分下的总平均损失之差为 因为在上对一切成立,故上式小于或等于零,是贝叶斯

6、判别的解。从而得到的划分为 4.5 简述费希尔判别法的根本思想和方法。答:根本思想:从个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的个指标值代入线性判别函数式中求出值,然后根据判别一定的规那么,就可以判别新的样品属于哪个总体。4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答: 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 当k=2时,假设那么费希尔判别与距离判别等价。当判别变量服

7、从正态分布时,二者与贝叶斯判别也等价。 当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规那么是 X ,W(X)X ,W(X)<lnd距离判别的判别规那么是 X ,W(X)X ,W(X)<0二者的区别在于阈值点。当,时,。二者完全相同。第五章5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准那么,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标变量的数据,每个样本属于k个类别或总体中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本

8、属于哪个总体。聚类分析是分析如何对样品或变量进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品或变量聚合形成总体。通俗来讲,判别分析是在有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.2 试述系统聚类的根本思想。答:系统聚类的根本思想是:距离相近的样品或变量先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品或变量总能聚到适宜的类中。5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的

9、距离即可代表样品间的相似度。常用的距离为一闵可夫斯基距离:q取不同值,分为1绝对距离 2欧氏距离 3切比雪夫距离 二马氏距离 三兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作p维空间的向量,一般用一夹角余弦二相关系数5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原那么?答: 设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。1. 最短距离法2最长距离法3中间距离法其中4重心法 5类平均法 6可变类平均法其中b是可变的且b <17可变法 其中b是可变的且b <18离差平方和法

10、通常选择距离公式应注意遵循以下的根本原那么:1要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。2要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,那么通常就可采用欧氏距离。3要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比拟复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多项选择择几个距离公式分别进行聚类,然后对聚类分析的结果进行比照分析,以确定最适宜的距离测度方法。5.5试述K均值法与系统聚类法的异同。答

11、:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数确实定,离不开实践经验的积累;有时也可以借助系统聚类法以一局部样品为对象进行聚类,其结果作为K均值法确定类数的参考。5.6 试述K均值法与系统聚类有何区别?试述有序聚类法的根本思想。答:K均值法的根本思想是将每一个样品分配给最近中心均值的类中。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数确实定,有时也可以借助系统聚类法以一局部样品为对象进行聚类,其结果作为K均值法确定类数的参考。有序聚类

12、就是解决样品的次序不能变动时的聚类分析问题。如果用表示个有序的样品,那么每一类必须是这样的形式,即,其中且,简记为。在同一类中的样品是次序相邻的。一般的步骤是1计算直径Di,j。2计算最小分类损失函数Lp(l,k)。(3)确定分类个数k。4最优分类。第六章6.1 试述主成分分析的根本思想。答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的根本思想。6.2 主成分分析的作用表达在何处?

13、答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数的同时又保存了原数据的大局部信息。6.3 简述主成分分析中累积奉献率的具体含义。答:主成分分析把个原始变量的总方差分解成了个相互独立的变量的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称 为第个主成分的奉献率。第一主成分的奉献率最大,这说明综合原始变量的能力最强,而的综合能力依次递减。假设只取个主成分,那么称 为主成分的累计奉献率,累计奉献

14、率说明综合的能力。通常取,使得累计奉献率到达一个较高的百分数如85以上。 6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和是否正确? 说明理由。答:这个说法是正确的。即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能表达得不够,也存在“大数吃小数的问题。实际说明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为

15、合理的做法是使用R代替。对于研究经济问题所涉及的变量单位大都不统一,采用R代替后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以防止突出数值大的变量。第七章7.1 试述因子分析与主成分分析的联系与区别。答:因子分析与主成分分析的联系是:两种分析方法都是一种降维、简化数据的技术。两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。因

16、子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。7.2 因子分析主要可应用于哪些方面?答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的

17、的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化别离开来从而判断各自的影响和变化规律。7.3 简述因子模型中载荷矩阵A的统计意义。 答:对于因子模型 因子载荷阵为与的协方差为:=假设对作标准化处理,=,因此 一方面表示对的依赖程度;另一方面也反映了变量对公共因子的相对重要性。变量共同度 说明变量的方差由两局部组成:第一局部为共同度,它描述了全部公共因子对变量的总方差所作的奉献,反映了公共因子对变量的影响程度。第二局部为特殊因

18、子对变量的方差的奉献,通常称为个性方差。而公共因子对的奉献表示同一公共因子对各变量所提供的方差奉献之总和,它是衡量每一个公共因子相对重要性的一个尺度。7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的根本思路是什么?答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比拟小。最大方差旋转法是一种正交旋转的

19、方法,其根本思路为:A其中令 的第列元素平方的相对方差可定义为最大方差旋转法就是选择正交矩阵,使得矩阵所有m个列元素平方的相对方差之和到达最大。7.5 试分析因子分析模型与线性回归模型的区别与联系。答:因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系, 用函数关系式表达出来。因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即, 该模型可用矩阵表示为: 而回归分析模型中多元线性回归方程模型为: 其中是常数项,是偏回归系数,是残差。 因子模型满足:1; 2,即公共因子与特殊

20、因子是不相关的;3,即各个公共因子不相关且方差为1;4,即各个特殊因子不相关,方差不要求相等。而回归分析模型满足1正态性:随机误差即残差e服从均值为 0,方差为s的正态分布;2等方差:对于所有的自变量x,残差e的条件方差为s ,且s为常数;3独立性:在给定自变量x的条件下,残差e的条件期望值为0本假设又称零均值假设;4无自相关性:各随机误差项e互不相关。两种模型的联系在于都是线性的。因子分析的过程就是一种线性变换。第八章 相应分析8.1 什么是相应分析?它与因子分析有何关系?答:相应分析也叫对应分析,通常意义下,是指两个定性变量的多种水平进行相应性研究。其特点是它所研究的变量可以是定性的。相应

21、分析与因子分析的关系是: 在进行相应分析过程中,计算出过渡矩阵后,要分别对变量和样本进行因子分析。因此,因子分析是相应分析的根底。具体而言,式说明Zuj为相对于特征值的关于因素A各水平构成的协差阵的特征向量。从而建立了相应分析中R型因子分析和Q型因子分析的关系。8.2试述相应分析的根本思想。答:相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个的二维列联表,记为。要寻求列联表列因素A和行因素B的根本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A 和因素B具有对等性,从而用相同的因

22、子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A、B的联系。8.3 试述相应分析的根本步骤。答:1建立列联表设受制于某个载体总体的两个因素为和,其中因素包含个水平,因素包含个水平。对这两组因素作随机抽样调查,得到一个的二维列联表,记为。2将原始的列联资料K=(kij) r ´c变换成矩阵Z=(zij) r ´c,使得zij对因素A和列因素B具有对等性。通过变换。得,。3对因素B 进行因子分析。计算出的特征向量 及其相应的特征向量 计算出因素B的因子)4对因素A 进行因子分析。计算出的特征向量 及其相应的特征向

23、量计算出因素A的因子(5)选取因素B 的第一、第二公因子 选取因素A 的第一、第二公因子将B因素的c个水平,A因素的r个水平同时反响到相同坐标轴的因子平面上上6根据因素A和因素B各个水平在平面图上的分布,描述两因素及各个水平之间的相关关系。8.4在进行相应分析时,应注意哪些问题?答:要注意通过独立性检验判定是否有必要进行相应分析。因此在进行相应分析前应做独立性检验。独立性检验中,:因素和因素是独立的;:因素和因素不独立由上面的假设所构造的统计量为 其中,拒绝区域为应该注意几个问题。第一,这里的是原始列联资料通过相应变换以后得到的资料阵的元素。说明与统计量有着内在的联系。第二,关于因素和因素各水

24、平构成的协差阵和, ,这里表示矩阵的迹。第三,独立性检验只能判断因素和因素是否独立。如果因素和因素独立,那么没有必要进行相应分析;如果因素和因素不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。第九章 典型相关分析9.1 什么是典型相关分析?简述其根本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 根本思想:1在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即:假设设、是两组相互关联的随机变量,分别在两组变量中选取假设干有代表性的综合变量Ui、Vi,使是原变量的线性组合。在的条件下,使得到达最大。2选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论