多元统计分析方法_第1页
多元统计分析方法_第2页
多元统计分析方法_第3页
多元统计分析方法_第4页
多元统计分析方法_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析概述多元统计分析概述 目目 录录 一、引言 3 二、多元统计分析方法的研究对象和主要内容3 1.多元统计分析方法的研究对象 3 2.多元统计分析方法的主要内容 3 三、各种多元统计分析方法 3 1.回归分析 3 2.判别分析 6 3.聚类分析 8 4.主成分分析 10 5.因子分析 10 6. 对应分析方法 11 7. 典型相关分析 11 四、多元统计分析方法的一般步骤 12 五、多元统计分析方法在各个自然领域中的应用 12 六、总结 13 参考文献 14 谢辞 15 1 一、引言一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的 基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多 元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重 要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一 部分实例来进一步了解多元统计分析方法的具体实现过程。 二、二、 多元统计分析方法的研究对象和主要内容多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨 论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统 计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随 即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析 中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一 种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。 但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太 多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研 究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。 通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随 机变量之间的相互关系。所以,多元统计分析是研究多个随机变量之间相互依 赖关系及内在统计规律的一门统计学科。 (二)多元统计分析方法的主要内容(二)多元统计分析方法的主要内容 近年来,随着统计理论研究的不断深入,多元统计分析方法的内容一直在 丰富。其中,主要内容包括多元正态总体参数估计、假设检验和常用的多元统 计方法。多元正态总体参数估计、假设检验是多元统计推断的核心和基础,而 常用的多元统计分析方法则是具体应用。从形式上,常用多元统计分析方法可 划分为两类: 一类属于单变量常用的统计方法在多元随机变量情况下的推广和应用,如 多元回归分析,典型相关分析等; 另一类是对多元变量本身进行研究所形成的一些特殊方法。如主成分分析, 因子分析,聚类分析,判别分析,对应分析等。 三、各种多元统计分析方法三、各种多元统计分析方法 具体来说,常用的多元统计分析方法主要包括:多元回归分析、聚类分析、 判别分析、主成分分析、因子分析、对应分析、典型相关分析等。下面我们对 各种多元统计分析方法就行分别描述, (一)(一) 回归分析回归分析 回归分析是最灵活最常用的统计分析方法之一,它用于分析一个因变量与 一个或多个自变量之间的关系。特别是用于:(1)定量的描述和解释相互关系; (2)估测或预测因变量的值。 回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个 2 变量与其余变量的依赖关系。如果只要考察一个变量与其余多个变量之间的相 互依赖关系,我们称为多元回归问题。若要同时考察多个因变量与多个自变量 之间的相互依赖关系,我们称为多因变量的多元回归问题。 多元回归分析是研究因变量 Y 与 m 个自变量的相关关系 ,而 12m xx,x 且总是假设因变量 Y 为随机变量,而为一般变量。 12m xx,x 下面我们来看一下多元线性回归模型的建立。 假定因变量 Y 与线性相关。收集到的 n 组数据( 12m xx,x ) (t=1,2,n)满足以下回归模型: 12 , ttttm y xxx, 11 0 22 +(1,2, ) () 0,(),(,) 0()(0,), ttm tmt ttijt yxxtn EVarCovijN 或相互独立(t =1, 2,n). 记 C=, 111 1 1 (1) 1 m n nnm xx X xx 011 212 , nmn y y y Y 则所建回归模型的矩阵形式为 2 ( )( ) , 0 , nn Y C EDI 或 2 , (0,), nn Y C NI 并称它们为经典多元回归模型,其中 Y 是可观测的随机向量,是不可观测的 随机向量,C 是已知矩阵,是未知参数,并设 nm,且 rank(C)=m+1。 2 , 在经典回归分析中,我们讨论模型中参数和的估计和 01 (,) m 2 检验问题。近代回归分析中讨论变量筛选、估计的改进,以及对模型中的一些 假设进行诊断等问题。 我国国内生产总值与基本建设投资额的大小有密切关系,研究发现两变量 之间存在线性关系。根据甘肃省 1990-2003 年的国内生产总值与基本建设投资 3 额数据,研究它们的数量规律性,探讨甘肃省基本建设投资额与国内生产总值 的数量关系,原始数据见下表。 年份GDP(亿元)基本建设投资(亿元) 1990242.829.04 1991271.3933.96 1992317.7939.22 1993372.2442.89 1994451.6658.19 1995553.3562.62 1996714.18101.42 1997781.34121.74 1998869.75157.14 1999931.98187.49 2000983.36208.28 20011072.51228.63 20021161.43263.06 20031304.6307.3 利用 excel 进行分析,具体输出以下数据, 平方和自由度方 差F 检验值 回归1553189.711553189.7 残差59475.667124956.3056313.3765001 离差1612665.413 复 相 关 系 数 R =.981386594345333 剩 余 标 准 差 SY =70.4010340269248 回归方差与剩余方差之比 F =313.376500123223 各个自变量的 t 检验值 17.70244334 t 检验的自由度 N-P-1 =12 F 检验的自由度 第一自由度=1,第二自由度=12 各个自变量的偏回归平方和 1553189.7 各个自变量的偏相关系数 0.981386594 由输出结果,得以下结论: 回归方程为 y=232.70+3.68 1 x 其中,负相关系数为0.9814,说明回归方程拟合优度较高。而回归系数 2 R 的 t=17.7024,查 t 分布表,小于 t 值,因此回归系数显著。查 F 0.025(12) 2.1788t 4 分布表,4.75,由下表知,F=313.37654.75,因此回归方程也显著。 0.05(1,12) F 平方和自由度方 差F 检验值 回归1553189.711553189.7 残差59475.667124956.3056 离差1612665.413 313.3765001 (二)判别分析(二)判别分析 判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法, 是一种在已知研究对象用某种方法已经分成与若干类的情况下,确定新的样品 属于哪一类的多元统计分析方法。 判别方法处理问题时,通常通常要给出用来衡量新样品与各已知组别的接 近程度的指数,即判别函数,同时也指定一种判别准则,借以判别新样品的归 属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法 准则。常用的有,距离准则、Fisher 准则、贝叶斯准则等。距离判别的基本思 想是:样品和那个总体距离最近,就判断它属于哪个总体。距离判别也称直观 判别。 已知有两个类和,比如是设备 A 生产的产品,是设备 B 生产的 1 G 2 G 1 G 2 G 同类产品。设备 A 的产品质量高(如考察指标为耐磨度 X) ,其平均耐磨度 =80,反映设备精度的方差=0.25;设备 B 的产品质量稍差,其平均耐磨 (1) 2 1 度=75,反映设备精度的方差=4。今有一产品,测得耐磨度=78,试 2 2 2 0 X 0 x 判断该产品是哪一台设备生产的? 下面考虑一种相对于分散性的距离。记与或的相对平均距离为 0 X 1 G 2 G 或,则有:=16, 2 10 ()dx 2 20 ()dx 2 10 ()dx (1)22 0 2 1 ()(7880) 0.25 x =2.25。 2 20 ()dx (2)22 0 2 2 ()(7875) 4.00 x 因为=1.50,则(第一类) 。又如,第一类的第 11 个样品= (1) 1 ()X (1) 1 X 1 G (1) 11 X ,=-0.30830,故(第二类) 。(1.00,4.50,12.00)T (1) 11 ()X (1) 11 X 2 G 将投入使用,可判别小麦品种的分蘖类型,如测得某小麦品种,()X 1 1x ,则由=-2.91280 判别该品种为分蘖型。 2 3.43x 3 16.25x ()X (三)(三) 聚类分析聚类分析 聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统 计分析方法。聚类分析时,用来描述样品或变量的亲疏程度通常有来两个途径, 一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定一点与 点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度: 另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲 属程度。 聚类分析是实用多元统计分析的一个新的分支,聚类分析的功能是建立一 种分类方法,他将一批样品或变量,按照它们在性质上的亲疏、相似程度进行 分类。 聚类分析的内容十分丰富,按其聚类的方法可分为以下几种: (1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度。这一过程可用一张谱系聚 类图描述。 (2)调优法(动态聚类法):首先对 n 个对象初步分类,然后根据分类的损 失函数尽可能小的原则对其进行调整,直到分类合理为止。 (3)最优分割法(有序样品聚类法):开始将所有样品看做一类,然后根据 某种最优准则将它们分割为二类、三类,一直分割到所需的 K 类为止。这种方 法适用于有序样品的分类问题,也称为有序样品的聚类法。 (4)模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模 糊特征两态数据或多态数据具有明显的分类效果。 7 (5)图论聚类法:利用图论中最小支撑树的理论来处理分类问题,创造了独 具风格的方法。 (6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可以用 来做预报的方法很多,如回归分析和判别分析。但对一些异常数据,如气象中 的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预 报弥补了这一不足,只是一个值得重视的方法。 聚类分析根据对象的不同又分为 R 型和 Q 型两大类,R 型是对变量(指标) 进行分类,Q 型是对样品进行分类。 R 型聚类分析的目的有以下几方面: (1)可以了解变量间及变量组合间的亲疏关系; (2)对变量进行分类; (3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作 为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或 Q 型聚类分析等。 Q 型聚类分析的目的主要是对样品进行分类。分类的结果是直观的,且比传 统的分类方法更细致、全面、合理。当然使用不同的分类方法通常有不同的分 类结果。对任何观测数据都没有唯一“正确”的分类方法。实际应用中,常采 用不同的分类方法,对数据进行分析计算,一边对分类提供具体意见,并由实 际工作者决定所需要的分类数及分类情况。 下面是聚类分析的一个简单例子。有五个样品,每个只测量了一个指标,分 别为 1,2,6,8,11,我们用最短距离法将它们分类。 (1)计算五个样品两两间的距离,得初始类间的距离矩阵, (0) D 1 G 2 G 3 G 4 G 5 G 1 G 0 2 G 10 3 G 540 4 G 7620 5 G 109530 (2)由知类间最小距离为 1,于是将和合并成,并计算和其他 (0) D 1 G 2 G 6 G 6 G 类之间的距离,的新的距离阵 (1) D 6 G 3 G 4 G 5 G 6 G 0 8 3 G 40 4 G 620 5 G 9530 (3)由知,类间最小距离为 2,合并和 为,计算与其他类间 (1) D 3 G 4 G 7 G 7 G 的距离得矩阵, (2) D 6 G 7 G 5 G 6 G 0 7 G 40 5 G 930 (4)由知,类间的最小距离为 3,将和合并为,得新的距离矩阵 (2) D 5 G 7 G 8 G , (3) D 6 G 8 G 6 G 0 8 G 40 (5)最后将和合并为,这时五个样品聚为一类。 6 G 8 G 9 G (四)(四) 主成分分析主成分分析 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众 多的变量,是这些综合变量尽可能的代表原来变量的信息,而且彼此之间互不 相关。这种把多个变化量化为少数几个互相无关的综合变量的统计分析方法就 叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组 合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法 就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以 限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一 个综合变量记为,自然希望它尽可能多的反映原来变量信息,这里信息用方 1 F 差来测量,即希望越大,表示包含信息越多。因此在所有线性组合中 1 ()Var F 1 F 9 所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以 1 F 1 F 代表原来 p 个变量的信息,再考虑选取即第二个线性组合,为了有效地反映 2 F 原来信息,已有的信息就不需要再出现在中,用数学语言表达就是要求 1 F 2 F =0,称为第二主成分,以此类推可以构造出第三、四第 p 个 12 (,)Cov F F 2 F 主成分。 (五)因子分析(五)因子分析 因子分析是主成分分析的推广和发展,它是由研究原始数据相关矩阵的内 部依赖关系出发,把一些具有错综复杂关系多个变量(或样品)综合为少数几 个因子,并给出原始变量与综合因子之间相关关系的一种多元统计分析方法。 它也属于多元分析中数据降维的一种统计方法。 因子分析是通过变量(或样品)的相关系数矩阵内部结构的研究,找出存 在于所有变量(或样品)中具有共性的因素,并综合为少数几个新变量,把原 始变量表示成少数几个综合变量的线性组合,以再现原始变量与综合变量之间 的相关关系。其中,这里的少数几个综合变量一般是不可观测指标,通常称为 公公因子。 因子分析常用的两种类型:一种是 R 型因子分析,即对变量进行因子分析: 另一种叫做 Q 型因子分析,即对样品进行的因子分析。 (六)对应分析方法(六)对应分析方法 对应分析又称为相应分析,是一种目的在于揭示和样品之间或者定性量资料 中变量与其类别之间的相互关系的多元统计分析方法。 对应分析的关键是利用一种数据变换,使含有 p 个变量 n 个样品的原始数据矩 阵,变换成为一个过渡矩阵 Z,并通过矩阵 Z 将 R 型因子分析和 Q 型因子分析 有机的结合起来。具体地说,首先给出进行 R 型因子分析时变量点的协差阵 A=和进行 Q 型因子分析时样品点的协差阵 B=,由于和有相同 Z Z ZZ Z Z ZZ 的非零特征根,记为 12,0 min( , ) m mp n 依据证明,如果 A 的特征根对应的特征向量为,则 B 的特征根对应 i i U i 的特征向量就是,根据这个结论就可以很方便的借助 R 型因子分析而 ii ZUV 得到 Q 型因子分析的结果。因为求出 A 的特征根和特征向量后很容易地写出变 量点协差阵对应的因子载荷矩阵,记为 F。则 F= 11112211 21122221 1122 m m pppmm uuu uuu uuu 这样,利用关系式也很容易地写出样品点协差阵 B 对应的因子载荷 ii ZUV 10 阵,记为 G。则 G= 11112211 21122221 1122 m m nnnmm vvv vvv vvv 从结果的展示上,由于 A 和 B 具有相同的非零特征根,而这些特征根正是公 共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量 点和样品点同时反映在具有相同坐标轴的因子平面上,以便显示出变量点和样 品点之间的相互关系,并且可以一并考虑进行分类分析。 (七)(七) 典型相关分析典型相关分析 在经济问题中,不仅经常需要考察两个变量之间的相关程度,而且还经常 需要考察多个变量与多个变量之间即两组变量之间的相关系。典型相关分析就 是研究两组变量之间相关程度的一种多元统计分析方法。 典型相关分析是研究两组变量之间相关关系的一种统计分析方法。为了研 究两组变量和之间的相关关系,采用类似于主成分分析 12 , p XXX 12 , q Y YY 的方法,在两组变量中,分别选取若干有代表性的变量组成有代表性的综合指 数,通过研究这两组变量之间的相关关系,来代替这两组变量之间的相关关系, 这些综合指数称为典型变量。 此外,多元统计分析方法还有方差分析、偏最小二乘回归分析、逻辑分析、 联合分析等,我们就不做一一介绍了。 四、多元统计分析方法的一般步骤四、多元统计分析方法的一般步骤 与一般统计分析方法一样,多元统计分析方法也要经过建立模型、进行参 数估计、假设检验以及预测控制等步骤。以经济统计为例,具体步骤是: 1、根据经济理论进行定性分析,设计理论模型; 2、对实际经济活动的现象抽取样本,并取得样本统计资料; 3、对描述样本的指标利用多元统计分析方法进行统计分析,选择最佳的统 计指标; 4 根据最佳指标的样本数据,估计参数,建立数量模型模型; 五、多元统计分析方法在各个自然领域中的应用五、多元统计分析方法在各个自然领域中的应用 多元统计分析是解决实际问题的有效的数据处理方法,其应用范围非常广 泛。多元统计分析方法可以应用于地质科学、气象科学、医疗卫生、体育、语 言学、考古学、教育学、心理学以及经济学、管理学等各个方面。下面我们以 经济学和管理学为例,了解一下多元分析方法在其中的作用和应用的场合与领 域: 1、简化数据结构。 对多个变量进行降维处理,选择数目较小的变量子集合。在商业经济中, 为了能够全面刻画所研究对象的数量特征,往往要调查多方面的统计数据。数 据维数越多,反映问题越全面,但同时也给数据分析带来困难。这是句要用降 维的方法将很复杂的数据综合成商业指数形式,处理方法主要有主成 11 分分析、因子分析和对应分析等。 2、对研究对象进行分类与判别。 比如根据各地区的经济发展水平、经济发展特征对我国各地区的经济发展 类型进行划分,需要通过反映各地区经济情况的多项数据测算各地区经济发展 的相似度,并以对各地经济类型此进行划分和归类。用来处理这一问题的多元 统计方法主要是聚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论