



版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元统计分析概述目录 3二、多元统计分析方法的研究对象和主要内容31.32.331.32.判别分析63.聚类分析84.105.因子分析106. 117. 111212 13 14 15一、引言统计分布 是用来刻画 随机变量特征及规律 的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在 多元统计分布 基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述, 并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。二、 多元统计分析方法的研究对象和主要内容(一)多元统计分析方法的研究对象由
2、于大量实际问题都涉及到多个变量, 这些变量又是随机变量, 所以要讨论多个随机变量的统计规律性。 多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广, 也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。现实生活中,受多个随机变量共同作用和影响的现象大量存在。 统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。 一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。 但是,这样处理忽略了变量之间可能存在的相关性, 因此,一般丢失的信息太多, 分析的结果不能客观全面的反映整个问题, 而且往往也
3、不容易取得好的研究结论。 另一种方法是同时对多个随机变量进行研究分析, 此即多元统计方法。 通过对多个随即便量观测数据的分析, 来研究随机变量总的特征、 规律以及随机变量之间的相互关系。所以,多元统计分析是研究多个随机变量之间相互依赖关系及内在统计规律的一门统计学科。(二)多元统计分析方法的主要内容近年来,随着统计理论研究的不断深入, 多元统计分析方法的内容一直在丰富。其中,主要内容包括多元正态总体参数估计、 假设检验和常用的多元统计方法。多元正态总体参数估计、 假设检验是多元统计推断的核心和基础, 而常用的多元统计分析方法则是具体应用。 从形式上,常用多元统计分析方法可划分为两类:一类属于单
4、变量常用的统计方法在多元随机变量情况下的推广和应用, 如多元回归分析,典型相关分析等;另一类是对多元变量本身进行研究所形成的一些特殊方法。如主成分分析,因子分析,聚类分析,判别分析,对应分析等。三、各种多元统计分析方法具体来说,常用的多元统计分析方法主要包括:多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。下面我们对各种多元统计分析方法就行分别描述,(一)回归分析回归分析是最灵活最常用的统计分析方法之一, 它用于分析一个因变量与一个或多个自变量之间的关系。特别是用于: (1)定量的描述和解释相互关系; (2) 估测或预测因变量的值。回归分析方法是在众多的相关变
5、量中,根据实际问题考察其中一个或多个变1量与其余变量的依赖关系。 如果只要考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题。 若要同时考察多个因变量与多个自变量之间的相互依赖关系,我们称为多因变量的多元回归问题。多元回归分析是研究因变量Y 与 m 个自变量 x1, x2,·, xm 的相关关系,而且总是假设因变量Y 为随机变量,而 x1, x2,··, x m 为一般变量。下面我们来看一下多元线性回归模型的建立。假 定 因 变 量 Y 与 x1, x2,··, xm 线 性 相 关 。 收 集 到 的 n 组 数 据( yt
6、, xt1 , xt 2 ,L , xtm )(t=1,2,··· n)满足以下回归模型:yt01 xt 1E ( t )0,Var (记·+ mxtmt (t 1,2,L ,n )t )2 ,Cov( i , j ) 0( i j ) 或 t N (0, 2 ),相互独立 (t=1,2, L n).1x11 KC=MO1xn1 Ly1y2YM,ynx1 mM (1n MX ) ,xnm0,112MMmn则所建回归模型的矩阵形式为YC,2 IE)0, D( )n,(n或Y C,2 I n ), N n (0,并称它们为经典多元回归模型, 其中 Y 是可观
7、测的随机向量, 是不可观测的随机向量, C 是已知矩阵, ,2 是未知参数,并设 n>m,且 rank(C)=m+1。在经典回归分析中, 我们讨论模型中参数( 0 , 1,L , m ) 和 2 的估计和检验问题。近代回归分析中讨论变量筛选、 估计的改进, 以及对模型中的一些假设进行诊断等问题。我国国内生产总值与基本建设投资额的大小有密切关系, 研究发现两变量之间存在线性关系。 根据甘肃省 1990-2003 年的国内生产总值与基本建设投资额数2据,研究它们的数量规律性, 探讨甘肃省基本建设投资额与国内生产总值的数量关系,原始数据见下表。年份GDP( 亿元)基本建设投资 (亿元 )199
8、0242.829.041991271.3933.961992317.7939.221993372.2442.891994451.6658.191995553.3562.621996714.18101.421997781.34121.741998869.75157.141999931.98187.492000983.36208.2820011072.51228.6320021161.43263.0620031304.6307.3利用 excel 进行分析,具体输出以下数据,平方和自由度方 差F 检验值回归1553189.711553189.7残差59475.667124956.3056313.3
9、765001离差1612665.413复相 关系 数R =.981386594345333剩余 标准 差SY =70.4010340269248回归方差与剩余方差之比F =313.376500123223各个自变量的t 检验值17.70244334t 检验的自由度N-P-1 =12F 检验的自由度第一自由度 =1,第二自由度=12各个自变量的偏回归平方和1553189.7各个自变量的偏相关系数0.981386594由输出结果,得以下结论:回归方程为y=232.70+3.68x1其中,负相关系数为 R2 0.9814,说明回归方程拟合优度较高。而回归系数的3t=17.7024,查 t 分布表 t
10、0.025 (12)2.1788 ,小于 t 值,因此回归系数显著。查 F 分布表, F0.05 (1,12)4.75,由下表知, F=313.3765>4.75,因此回归方程也显著。平方和自由度方 差F 检验值回归1553189.711553189.7残差59475.667124956.3056313.3765001离差1612665.413(二)判别分析判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法, 是一种在已知研究对象用某种方法已经分成与若干类的情况下, 确定新的样品属于哪一类的多元统计分析方法。判别方法处理问题时, 通常通常要给出用来衡量新样品与各已知组别的接近
11、程度的指数,即判别函数,同时也指定一种判别准则,借以判别新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、 Fisher 准则、贝叶斯准则等。距离判别的基本思想是:样品和那个总体距离最近,就判断它属于哪个总体。距离判别也称直观判别。已知有两个类 G1 和 G2 ,比如 G1 是设备 A 生产的产品, G2 是设备 B 生产的同类产品。设备 A 的产品质量高(如考察指标为耐磨度 X ),其平均耐磨度(1),=80反映设备精度的方差12 =0.25;设备 B 的产品质量稍差,其平均耐磨度2 =75,反映设备精度的方差22 =4。今有一产品 X
12、0,测得耐磨度 x0 =78,试判断该产品是哪一台设备生产的?下面考虑一种相对于分散性的距离。记X 0 与 G1 或 G2 的相对平均距离为d12 (x0 ) 或 d22 (x0 ) ,则有: d12 ( x0 ) = ( x02(1) )2(78 80)2=16,10.252( x0(2) )2(78 75)2d2 (x0 ) =2=2.25。24.00因为 d2 ( x0 ) =1.5<4= d1( x0 ) ,按这种距离准则应判 X0 为设备 B 生产的。一般的,我们假设总体 G1 的分布为 N (1) , 12 ) ,总体 G2 的分布为 N (2) ,22) ,则利用相对距离的
13、定义,可以找出分界点和 (不妨设(2) < (1) ,1 <2 ),令 ( x(1)2( x(2)2(1)(2)def22x211212(1)(2)def,和 x=21。214此例中,=79,=81.6667。而按这种距离最近法则的判别法为:判 XG1,当( x(1) )2( x( 2)2x22(即)12( x(1) )2( x(2) )2判 X G2,当22(即 x或x)12为了区分小麦品种的两种不同的分蘖类型,用x1, x2 , x3 三个指标求其判别函数。经验样品中,第一类取11(主茎型)个样品,第二类(分蘖型)取12 个样品,数据如下表所示。x1x2x3判别归类x1x2x3
14、判别归类10.713.8012.00111.004.2515.162第20.783.8612.171第21.003.4316.252一31.002.105.701二31.003.7011.402类40.701.705.901类41.003.8012.402(50.301.806.101(51.004.0013.602主60.603.4010.201分61.004.0012.802茎71.003.6010.201蘖71.004.2013.402型80.503.5010.501型81.004.3014.002)90.505.0011.501)91.005.7015.802100.714.0011.
15、251101.004.7020.402111.004.5012.002111.004.6014.002121.004.5614.602(1)0.70913.38739.7746(2)0.984.2714.4842xixi由表计算得X (1) X (2) =(-0.2742,-0.882,-4.7096)T ,X = X(1)2X (2)= (0.8462,3.8287,12.1293)0.56240.18210.8355Lxx = L(1)xx + L(2)xx =0.282115.516032.3014,0.835532.3014126.23741.79780.01690.0076S 121
16、Lxx1210.01690.13810.0352,0.00760.03520.0170( X )1(X(1)X (2) )T S 1(XX )25x10.8462= 21 ( 0.4425,0.0486, 0.0468) x23.8286212.1295x3用( X ) 对经验样本的 23 个样品进行判别有如下结果:第一类的11 个样本中有10 个判别为第一类,一个判别为第二类; 第二类的 12 个样品全部判别为第二类,符合率为 22/23=96%。例如,第一类第一个样品X1(1) = (0.71,3.80,12.00) T ,则( X1(1) ) =0.6819>0,则 X1(1)G1
17、(第一类)。又如,第一类的第 11个 样品X11(1) = (1.00, 4.50,12.00) T ,( X11(1) ) =-0.3083<0,故 X11(1)G2 (第二类)。将 ( X ) 投入使用,可判别小麦品种的分蘖类型,如测得某小麦品种x11, x23.43 , x316.25 ,则由(X ) =-2.9128<0 判别该品种为分蘖型。(三)聚类分析聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。聚类分析时,用来描述样品或变量的亲疏程度通常有来两个途径,一是把每个样品或变量看成是多维空间上的一个点, 在多维坐标中,定一点与点,类和类之间的距
18、离, 用点与点间距离来描述样品或变量之间的亲疏程度: 另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲属程度。聚类分析是实用多元统计分析的一个新的分支, 聚类分析的功能是建立一种分类方法,他将一批样品或变量, 按照它们在性质上的亲疏、 相似程度进行分类。聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:(1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度。 这一过程可用一张谱系聚类图描述。(2)调优法(动态聚类法):首先对 n 个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止。
19、(3)最优分割法(有序样品聚类法) :开始将所有样品看做一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的 K 类为止。这种方法适用于有序样品的分类问题,也称为有序样品的聚类法。(4)模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征两态数据或多态数据具有明显的分类效果。(5)图论聚类法:利用图论中最小支撑树的理论来处理分类问题,创造了独具风格的方法。(6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可以用来做预报的方法很多, 如回归分析和判别分析。 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类
20、预报弥补了这一不足,只是一个值得重视的方法。聚类分析根据对象的不同又分为 R 型和 Q 型两大类, R 型是对变量(指标)进行分类, Q 型是对样品进行分类。6R 型聚类分析的目的有以下几方面:( 1)可以了解变量间及变量组合间的亲疏关系;( 2)对变量进行分类;( 3)根据分类结果及它们之间的关系, 在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或Q 型聚类分析等。Q 型聚类分析的目的主要是对样品进行分类。分类的结果是直观的,且比传统的分类方法更细致、 全面、合理。当然使用不同的分类方法通常有不同的分类结果。对任何观测数据都没有唯一“正确”的分
21、类方法。实际应用中,常采用不同的分类方法, 对数据进行分析计算, 一边对分类提供具体意见, 并由实际工作者决定所需要的分类数及分类情况。下面是聚类分析的一个简单例子。有五个样品,每个只测量了一个指标,分别为 1,2,6,8,11,我们用最短距离法将它们分类。(1)计算五个样品两两间的距离,得初始类间的距离矩阵D(0),G1G2G3G4G50G110G2540G37620G4109530G5(2)由 D(0) 知类间最小距离为1,于是将 G1 和 G2 合并成 G6 ,并计算 G6 和其他类之间的距离,的新的距离阵D(1)G6G3G4G50G640G3620G49530G5(3)由 D (1)
22、知,类间最小距离为2,合并 G3 和 G4为 G7 ,计算 G7 与其他类间的7距离得矩阵 D(2) ,G6G7G50G640G7930G5(4)由 D(2) 知,类间的最小距离为3,将 G5 和 G7合并为 G8,得新的距离矩阵 D (3) ,G6G8G60G840(5)最后将 G6 和 G8 合并为 G9 ,这时五个样品聚为一类。(四)主成分分析主成分分析是采取一种数学降维的方法, 找出几个综合变量来代替原来众多的变量,是这些综合变量尽可能的代表原来变量的信息, 而且彼此之间互不相关。这种把多个变化量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做
23、的就是设法将原来众多具有一定相关性的变量, 重新组合为一组新的相互无关的综合变量来代替原来变量。 通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为 F1 ,自然希望它尽可能多的反映原来变量信息,这里信息用方差来测量,即希望 Var ( F1 ) 越大,表示 F1 包含信息越多。因此在所有线性组合中所选取的F1 应该是方差最大的, 故称 F1 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取 F2 即第二个线性组合,为了有效地反映原来信息,F1 已有的
24、信息就不需要再出现在F2 中,用数学语言表达就是要求Cov( F1, F2 ) =0,称 F2为第二主成分,以此类推可以构造出第三、四 第p 个主成分。(五)因子分析因子分析是主成分分析的推广和发展, 它是由研究原始数据相关矩阵的内部依赖关系出发, 把一些具有错综复杂关系多个变量 (或样品)综合为少数几个因子,并给出原始变量与综合因子之间相关关系的一种多元统计分析方法。 它也属8于多元分析中数据降维的一种统计方法。因子分析是通过变量 (或样品)的相关系数矩阵内部结构的研究, 找出存在于所有变量(或样品)中具有共性的因素,并综合为少数几个新变量,把原始变量表示成少数几个综合变量的线性组合, 以再
25、现原始变量与综合变量之间的相关关系。其中,这里的少数几个综合变量一般是不可观测指标, 通常称为公公因子。因子分析常用的两种类型:一种是R 型因子分析,即对变量进行因子分析:另一种叫做 Q 型因子分析,即对样品进行的因子分析。(六)对应分析方法对应分析又称为相应分析,是一种目的在于揭示和样品之间或者定性量资料中变量与其类别之间的相互关系的多元统计分析方法。对应分析的关键是利用一种数据变换, 使含有 p 个变量 n 个样品的原始数据矩阵,变换成为一个过渡矩阵 Z,并通过矩阵 Z 将 R 型因子分析和 Q 型因子分析有机的结合起来。具体地说,首先给出进行 R 型因子分析时变量点的协差阵 A= Z Z
26、 和进行 Q 型因子分析时样品点的协差阵 B= ZZ ,由于 Z Z 和 ZZ 有相同的非零特征根,记为12Lm, 0 m min( p, n)依据证明,如果 A 的特征根i 对应的特征向量为 Ui ,则 B 的特征根 i 对应的特征向量就是 ZU i Vi ,根据这个结论就可以很方便的借助R 型因子分析而得到Q 型因子分析的结果。因为求出 A 的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵,记为 F。则u111u122 Lu1m1F= u211u222 Lu2 m1MMMu p11u p22 Lu pmm这样,利用关系式 ZU i Vi 也很容易地写出样品点协差阵B 对应的因
27、子载荷阵,记为 G。则v111v122 Lv1m1G= v211v222 Lv2m1MMMvn11vn22 Lvnmm从结果的展示上,由于A 和 B 具有相同的非零特征根,而这些特征根正是公共因子的方差, 因此可以用相同的因子轴同时表示变量点和样品点, 即把变量点和样品点同时反映在具有相同坐标轴的因子平面上, 以便显示出变量点和样品点之间的相互关系,并且可以一并考虑进行分类分析。(七)典型相关分析在经济问题中, 不仅经常需要考察两个变量之间的相关程度, 而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关系。 典型相关分析就是研9究两组变量之间相关程度的一种多元统计分析方法。典型相关分
28、析是研究两组变量之间相关关系的一种统计分析方法。为了研究两组变量 X1 , X2 ,L X p 和 Y1, Y2 ,L Yq 之间的相关关系, 采用类似于主成分分析的方法,在两组变量中, 分别选取若干有代表性的变量组成有代表性的综合指数, 通过研究这两组变量之间的相关关系, 来代替这两组变量之间的相关关系, 这些综合指数称为典型变量。此外,多元统计分析方法还有方差分析、偏最小二乘回归分析、逻辑分析、联合分析等,我们就不做一一介绍了。四、多元统计分析方法的一般步骤与一般统计分析方法一样, 多元统计分析方法也要经过建立模型、 进行参数估计、假设检验以及预测控制等步骤。以经济统计为例,具体步骤是:1、根据经济理论进行定性分析,设计理论模型;2、对实际经济活动的现象抽取样本,并取得样本统计资料;3、对描述样本的指标利用多元统计分析方法进行统计分析, 选择最佳的统计指标;4 根据最佳指标的样本数据,估计参数,建立数量模型模型;五、多元统计分析方法在各个自然领域中的应用多元统计分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025老地基转让协议合同样本
- 2025专利技术许可合同
- 2025标准借款合同范本2
- 2025电子产品买卖合同书范本
- 2025年混凝土浇筑工程的施工合同
- 2025钢筋工劳务分包合同
- 2025年工程瑞雷波仪项目合作计划书
- 2025铝合金型材购销合同范本
- 2025年科学与工程计算软件合作协议书
- 2025年窄带无线接入网(用于电话)项目合作计划书
- 《基于嵌入式Linux的农业信息采集系统设计与研究》
- 外科创伤处理-清创术(外科课件)
- 小型手推式除雪机毕业设计说明书(有全套CAD图)
- 《城市级实景三维数据规范》
- 2024年中国酸奶袋市场调查研究报告
- 合同到期不续签的模板
- 搬迁服务项目 投标方案(技术标)
- 2005室外给水管道附属构筑物阀门井05S502
- 浙江省宁波市镇海中学2025届高三数学下学期适应性考试试题含解析
- “双新”背景下高中信息技术单元整合教学实践
- 广东省佛山2024年中考一模数学试卷(含答案)
评论
0/150
提交评论