多元统计分析重点_第1页
多元统计分析重点_第2页
多元统计分析重点_第3页
多元统计分析重点_第4页
多元统计分析重点_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多统分重宿版第讲多统方及用多统方分(变、型、变等多统分应选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析②类和组合运用的方法有:判别分析,聚类分析,主成分分析③变量之间的相关关系运用的方法有元回归成分分析子析,④预测与决策运用的方法有:多元回归,判别分析,聚类分析因果模型因变量数:元回归,判别分析⑤横贯数据相依模型变量测度:子分析,聚类分析多统分方选择题:①多元统计方法的分类)测量数据的来源分为:横贯数据(同一时间不同案例的观测数据观数(同样案例在不同时间的多次观测数据)变量的测度等数类型为非测量型)变量,数值型(测量型)变量按分析模型的属性分为因果模型相模型4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型第讲计均、差、关;互立第讲主分义应及本想主分质主分析步主分义何主成分分析就将原来的多个指(变量线组成几个新的相互无关的综合指成的综合指标尽可能多地反映原来的指标信息。主分析应1)数据的压缩、结构的简化样品的综合评价,排序主分析述—想①1把给定的一组变量通线性变换,转换为一组不相关的变量Y1Y2这变换中保持变量的总(,X2,的差之和)不变,同时,使Y1具有最大方差,称为第一主成分Y2具有次大方差,称为第二主成分。依次类推,原来有P个量,就可以转换出个成分3)实际应用中,为了简化问题,通常找能够反映原个量的绝大部分

k***k***方差的()主成分。主分质)性质:成分的协方差矩阵是对角阵)性质:主成分的总方差等于原始变量的总方差3)质:成分Yk与始量Xi的关系数为√()并之为因子负荷量(或因子载荷量σii主分析具步①将原始数据标准化;②建立变量的相关系数阵;③求的特征根为相的特征向量为T1

*,L*④累积方差贡献率确p定主成分的个数(写主成分为YT),iLmii第讲因分定,子荷计义因分模及设,子转因分定:因子分析就是通过对多个变量的相关系数矩阵的研究,出同时影响或支配所有变量的共性因子的多元统计方法。因载统意:1.因子载荷

a

ij

的统计意义对于因子模型XFFFFii11i22ijjim

i

i1,2,L,我们可以得到,

X

i与

F

j

的协方差为:X,)ijikk

i

)j==

Cov()Cov(ikkjij

i

)j如果对

X

i作标准化处理,

X

i的准差为

,且

F

j

的标准差为1,此rFi

j

Cov()ijDX)D(F)ij

)aijij

()

jjX那么从面的分析,我们知道于标准化后的

X

i,ij

X

i

F

j

的相关系数,它一方面表示

X

i

F

j

的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量

X

i对共因子

F

j

的相对重要性。了解这一点对我们理解抽象的因子含义有非常重要的作用。2.变量共同度

2i

的统计意义设因子载荷矩阵为A,第i元素的平方和,即m2a2iijj

i,

(为变量

X

i的同度。由因子模型,知(X)(F)D(F)2D(F)D()ii1i2imiai

i2

im

D(

i

)2i

i

()这里应该注意式说明变量

X

2i的差由两部分组成:第一部分为共同度i

,它描述了全部公共因子对变量

X

i的方差所作的贡献,反映了公共因子对变量

X

i的影响程度。第二部分为特殊因子

i

对变量

X

i的差的贡献,通常称为个性方差。如果对

X

i作标准化处理,有12i

i

(3、公因子

F

j

的方差贡献

j

的统计意义设因子载荷矩阵为A,第列素的平方和,即p22jiji

j1,2,L,为公共因子

F

j

对的献

j

表示同一公共因子

F

j

对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。

p因分模及设数学模型:每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:…+aim*Fm+i…,p)式中的F1称公共因子i称为Xi的殊因子。该模型可用矩阵表示为X=AF+,且满足)p(2)Cov(F,)=0,公共因子与特殊因子是不相关的)DF=D(F)=0,0,0...1

=Im,即个公共因子不相关且方差为)=D(

1,0...0

,即各个特殊因子不相关,方差不要求相等。因旋因子旋转的目的:初始因子的综合性太强,难以找出因子的实际意义,因此需要通过坐标旋转,使因子负荷两极分化,么接近于0,要么接近,从而降低因子的综合性,使其实际意义凸现出来,以便于解释因子。因子旋转的基本方法:一类是正交旋转(保持因子间的正交性3种常用最大方差旋转类斜交旋转(因子间不一定正交)公共因子提取个数选特征值大于等于的子(主成分)作初始因子,通过求响应的标准化正交特征向量来计算因子载碎图删去特征值变平缓的那些因子()计方差贡献率大于85%第讲聚类,统类K-均值聚思及骤系聚方,似性度法聚类:据分类的对象可将聚类分析分为:系统Q型R型(即样品聚类与变量聚类)

系聚、均值聚思及骤①系聚类的基本思想:距离相的样本(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。②聚类过程及步骤:假设总共有n个品(或变量一将每个样品(或变量)独自聚成一类,共有类;第二步根据所确定的样品(或变量”公式,把距离较近的两个样或变量聚为一类其它的样或变量仍自聚为一类,共聚成n-1类三步距近的两个类进一步聚成一类聚n-2类,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。最后可以画谱系图分析。③快速聚类的基本思想,步骤为均法,逐步聚类,迭代聚类思想是将每一个样品分配给最近中心(均值)的类中,具体的算法步骤如下)所有的样品分成个初始类距离将某个样品划入离中心最近的类,并对获得样品与失去样品的类,重新计算重心坐标)重复步骤,直到所有的样品都不能再分配时为止。系聚方:最短距离法(单连接长距离法(完全连接间离法,类平均法(组间平均连接法变类平均法重心,可变法离差平方和法相性度法不样本相似性度量:距离测度里包括:明氏,马氏,和兰式不同变量相似度的度量:包括:夹角余弦,相关系数。第讲判分及判方思,别析设件距判别贝斯别系判分定:一种进行统计判别和分组的技术手段。它可以就一定数案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函(discriminantFunction。后便可以利用这一数量关系对其他已知多元变量信息、但未知分组类型所属的案例进行判别分组。

122R122R各别法想①离判别:求新样品到G的距离与到G的离之差,如果其值为正,属于G;则X属G

1②Bayes判:由于个体

,G,G12

出现的先验概率分别为

,,,q2

k

,则用规则来行判别所造成的平均损失为qr(i,R)ii

iij

C(ji)(ji)

()所谓Bayes判别法则,就是要选择(R)失达到极小。

,R,R12

,使得4.12)式表示的总平均损③判的基本思想和步骤:从K个总体中抽取具有p个标的样品观测数据,借助方差分析的思想构造一个线性判别函数

中数1,2

p’定的原则是使得总体之间区别最大,而每个总体内部的离差最小。有了线性判别函数后,对于一个新的样品,将它的个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可判别新的样品属于哪个总体。判分假条:别分析的假设之一,是每一个判别变量(解释变量)不能是其他判别变量的线性组合。即不存在多重共线性问题。判别分析的假设之二,是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当违背该假设时,计算的概率将非常不准确。距判与叶判关:距离判别中两个总体的距离判别规则为

XG,1XG2

如如

XX)

,贝

G叶斯判别规则为:xG,

当)d当(x)

,二者唯一差别仅在于阀值点,从某种意义上讲,距离判别是贝叶斯判别的特殊情形。题型及分数:一判对并正,)二不项择题,分)三简题题,分六四主分本想统聚均值聚类基本思想及过程分及费希尔基本思想,比较聚类与回归、判别,因子分析及因子旋转聚与归判:判别与回归:联系:都是根据已有数据判别未来趋势。区别:多元回归的因变量是数值型变量,且自变量可是变;判别分析的因量是类别型变量,而自变量不是0-1变②判别与聚类:聚类析:类别未知,利用样本确定分组数及所属类别;判别分析:类别数及意义已知,还能“预测”新样本所属类别;聚类中加进一个变量需要对类进行更新算与其他类的距离别对新样本进行判别后,不更新所属的类。四计题题,分计样本均值、协差阵、相关阵五分题题,分(四二1)主成分分析的SPSS实分析(主成分个数确定,主成分表达式,主成分分析步骤)2)因子析的SPSS实例分(因子分析模型,公因子的解释命名分析二一3)聚类析的SPSS实例分分类数确定聚类果命名分析点及改进策略)分数定①树状图,确定原则是组内距离小,组间距离大。

②聚合系数图:在曲线开始变得平缓的点选择合适的分类树①任何类都必须在邻近各类中是突出的,即各类重心间的距离必须大②各类所包含的元素都不要过分地多③分类数目应符合使用的目的④若采用几种不同的聚类法,则在各自的聚类图上应发现相同的类⑤对聚类过程中聚合系数分类数的变化(曲线)进行分析,可以辅助确定合理的分类数聚分的点层次聚类法的结果容易受奇异值的影响,而快速聚类法受奇异值、相似测度和不适合的聚类变量的影响较小。层次聚类法可以得到一系列的聚类数,而快速聚类只能得到指定类数的聚类数。层次聚类法在数据比较多时计算量比较大,需要占据非常大的计算机内存空间,而快速聚类法计算量较小。层次聚类法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论