多元统计分析期末复习ver3.1_第1页
多元统计分析期末复习ver3.1_第2页
多元统计分析期末复习ver3.1_第3页
多元统计分析期末复习ver3.1_第4页
多元统计分析期末复习ver3.1_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析期末复习ver3.1CHAPTER 1 绪论1. 多元统计分析:如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。2. 多元统计分析应用:对我国三十个省市自治区社会情况进行分析,选取人口密度、人均月收入、人均月消费、物价水平、居住面积为指标。样品为一个省市自治区的五个指标的观测值,指标为人口密度、人均月收入、人均月消费、物价水平、居住面积。3. 多元统计分析主要内容:1) 简化数据结构(降维问题:主成分分析、因子分析)2) 分类与判别(归类问题)(分类:聚类分析;判别:判别分析)3) 变量间相互

2、关系(多重多元回归分析)4) 多维数据的统计判断 5) 多元统计分析的理论基础CHAPTER 2 多元正态分布1. 正态分布与多元正态分布p15-161) 一元正态分布的概率密度函数为fx=12exp-12x-2,-x+函数图形为钟形曲线(略)2) 多元正态分布若p维随即向量X=(X1,XP)的密度函数为:fx=1(2)p(12)exp-12x-(-1)(x-)其中,x=(x1,xp),时随机变量X的p维均值向量,是X的p阶协差阵(是正定阵以保证-1存在),则称X服从p元正态分布,也称X为p维正态随机向量,简记为XNp(,)。p=1时,即为一元正态分布。2. 多元正态分布的参数估计多元正态分布

3、中均值向量和协差阵通常是未知的,需由样本来估计,用最大似然估计法给出其估计量。3. 多元样本及例子(变量、样品分别是什么)1)多元分析研究的总体是多元总体,从多元总体中随机抽取n个个体X(1)X(2)X(n),若X(1)X(2)X(n相互独立且总体同分布,则X(1)X(2)X(n称为该总体的一个多元随机样本,简称为简单样本。每个X(a)=(Xa1,Xa2,Xap)称为一个样品,其中Xaj为第a个样品对第j个指标的观测值,显然每个样品都是p维向量,将n个样品对p项指标进行观测,将全部观测结果用一个n*p阶矩阵X表示。其中n行代表n个样品,p列代表p项指标。2)样本举例:北工大2013级本科生身体

4、健康状况。变量为:身高、体重、肺活量;样品为:北工大2013级某一本科生的身高、体重、肺活量观测值。4. 多元样本的数字特征(老师只细讲了1)和3):设X(1),,X(n)为p元总体的样本,其中X(a)=(Xa1,Xap),a=1,2,n,则1) 样本均值向量定义为2) 样本离差阵定义为:3) 样本协差阵定义为:4) 样本相关阵定义为:5. (总体均值向量)和(总体协差阵)的估计量分别为:尖=X拔,尖=(1/n)S,即总体均值向量的最大似然估计是样本均值向量,总体协差阵的最大似然估计是样本协差阵。它们有如下性质:(1)样本均值向量是总体的无偏估计,而样本协差阵不是总体的无偏估计;(2)样本均值

5、向量和协差阵分别是总体的有效估计;(3)样本均值向量和样本协差阵【S/n或S/n-1】分别是总体的一致估计(相合估计)CHAPTER 3 假设检验(无明确具体考的内容)1. 步骤:1) 提出待检验的假设H0和H12) 给出检验的统计量及它服从的分布3) 给定检验水平,查统计量的分布表,确定临界值,从而得到否定域4) 根据样本观测值计算出统计量的值,看是否落入否定域中,以便判别假设检验作出决策(拒绝或接受)。2. 内容:事先提出一个关于总体未知分布中参数的一个统计假设,然后完全根据样本提供的信息为依据,以检验统计量作为工具,对事先提出的假设进行检验,最后作出一个关于提出的假设是否可接受的统计判断

6、。理论依据:就是“小概率事件的一次不可能性原理”,即认为,概率很小的随机事件在一次试验(抽样)当中是不可能发生的。若小概率事件没有发生,认为这是合乎情理的,与原假设没有发生矛盾。若小概率事件竟然发生了,就认为是不可思议的事情,是不正常的,这时就应怀疑当初提出的假设的正确性。CHAPTER 4 多元数据图表示方法轮廓图分析(自己编的):1) 标题、横纵轴、单位2) 极值、趋势3) 比较异同(某几条线较高/低且相似)以书中为例:由轮廓图可以看出,肉禽及制品和文娱用品及服务,北京上海远远高于陕西甘肃;而医疗保健方面,四个城市消费均较低且相似。总体来说,北京上海的居民生活消费支出水平较高且相似,但健康

7、意识不够强,陕西甘肃生活消费较低且相似。CHAPTER 5 聚类分析1. 变量类型与实例:变量有的是定量的,有的是定性的,因此将变量的类型按以下三种尺度划分:1) 间隔尺度:变量用实数表示,如长度、重量、压力、速度等等。2) 有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如上、中、下三等,而没有数量表示。3) 名义尺度:变量度量时,既没有数量表示,也没有次序关系,而用不同状态来表示,如性别有男女;三原色有红黄蓝等。2. 点与点之间的距离1) 公式明氏距离:dij(q)=(a=1pXia-Xjaq)1/qq=1时,dij(q)=a=1pXia-Xja,为绝对距离q

8、=2时,dij(q)=(a=1pXia-Xja2)1/2,为欧氏距离q=时,dijq=max(1ap)Xia-Xja ,为切比雪夫距离马氏距离:设表示指标的协差阵,即:=(ij)pp,其中如果-1存在,则两样品之间的马氏距离为d2ij(M)=(X(i)-X(j)-1(X(i)-X(j)X到总体G的马氏距离定义为: d2(X,G)=(X-)-1(X-)2) 优缺点优点缺点明氏距离(欧式距离)当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样品点间的相似情况(即它们间的距离)完全等同于变换前的情形。1、它与各指标的量纲有关,即变量的数量级和量纲影响着欧

9、式距离2、它没有考虑指标之间的相关性马氏距离1、排除变量间相关性的干扰,且不受量纲的影响夸大了变化微小的变量(或指标)的作用(因为赋予的权重较大)2、可以证明,将原始数据作一线性交换后,马氏距离仍不改变补充:1、使用欧氏距离要求一个向量的n个分量不相关且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,否则不能如实反映情况。2、马氏距离可以排除变量间相关性的干扰,且不受量纲的影响,但用全部是据计算均值和协差阵来求,效果不好,比较合理的方法时用各类的样本来计算各自的协差阵,同一类样本的马氏距离应该用这一类的协差阵来计算,但类的形成需要依赖于样品间的距离,而样品间的距离又依

10、赖于类,这就形成了一个恶性循环。3. 八种聚类方法的区分以及为何区分 系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一个公式,为上机计算带来很大的方便 。4. P71-74/5.1 最短及最长距离法CHAPTER 6 判别分析1.判别分析与聚类分析的异同(简答题)聚类分析是研究(样品或变量)分类问题的一个多元统计方法(类指相似元素的集合)。判别分析是判别样品所属类型的一种统计方法。聚类分析和判别分析都是用来对样品进行分类,即分析每一个样品归属于哪一类。但是,判别分析

11、是先已知某些样品的分类结果,然后总结出判别规则,是一种有指导的学习。即:判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行归类判别。 聚类分析则是有了一批给定的样品,而要划分的类型事先并不知道,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是一种无指导的学习。正因为如此,判别分析和聚类分析往往联合起来使用。当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式,从而对新样品进行判别。判别分析的目的是对已知

12、分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样品去分类。【例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别表示为一个判别公式,然后对怀疑患胃炎的人根据其化验指标用这个判别公式进行诊断。】CHAPTER 7 主成分分析 CHAPTER 8 因子分析1.概念:主成分分析:主成分分析是将多个指标化的少数几个综合指标的一种统计方法。因子分析:因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同音字还可以对变量进行分类,它也属于多元

13、分析中处理降维的一种统计方法。2.主成分与因子分析的联系和异同(实验指导书P90)区别:(1)两种方法的实质不同。主成分分析仅仅是一种数据变化,不假定数据矩阵有何种结构形式,而因子分析假定数据矩阵有特定的模型,且其中的因子满足特定的条件,当这些条件不满足时,因子分析就有可能是虚假的。(2)两种方法的侧重点不同。主成分分析重点在于从变量到主成分的变换上,而因子分析的重点在于从公因子和特殊因子到变量的变换上。并且主成分的变换是可逆的,而因子分析则不要求。(3)两者的应用范围也有所不同。主成分分析主要应用在综合评价和指标筛选上,而因子分析除了这两个应用外,还可以用于对样品或变量的分类。联系:(1)二

14、者都是属于多元分析中处理降维的统计方法。(2)二者都是从变量(或样品)的相关矩阵出发,找出能够控制所有变量(或样品)的少数几个随即变量去描述很多变量之间的相关关系。(3)因子分析是主成分分析的推广,而主成分分析是因子分析的特殊情形。当因子分析中的特殊因子u的影响微不足道直至可以忽略时,如果F中各个分量均是正交的,就可以转化为主成分分析。因此当因子模型成立,且特殊因子方差贡献很小时,可以期待主成分分析与因子分析会给出相同的结果。(4)当特殊因子的方差贡献较大时,因子分析会将公共因子与特殊因子严格区别开来,而主成分分析则将这些因子(包括公因子与特殊因子)不加区别的混在一起被保留或被舍弃。3.如果给

15、出载荷矩阵(A矩阵),首先要会判断出,矩阵中元素是aij,其意义是什么?会计算公因子,方差贡献,变量共同度,及其统计意义1)aij,即因子载荷 定义:第i个变量在第j个公共因子上的负荷几何意义:如果把变量Xi看成m维因子空间中的一个向量,则aij表示Xi在坐标轴Fj上的投影。2)因子载荷统计意义:第i个变量与第j个公共因子的相关系数,即表示Xi依赖Fj的份量3)变量共同度定义:统计意义:全部公共因子对变量Xi的总方差所作的贡献4)公因子F的方差贡献4.因子分析模型,分解为公共因子和特殊因子两部分 Xiai1F1十ai2F2十十aimFm十i (il,p) 用这m个不可观测的、相互独立的、公共因子F1,Fm(也称为潜因子)和一个特殊因子i 来描述原始可测变量(科目) X1,Xp补充说明:四种分析法的SPSS操作步骤(具体步骤参考实验指导书)聚类分析:AnalyzeC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论