几种多元统计分析方法及其在生活中的应用1_第1页
几种多元统计分析方法及其在生活中的应用1_第2页
几种多元统计分析方法及其在生活中的应用1_第3页
几种多元统计分析方法及其在生活中的应用1_第4页
几种多元统计分析方法及其在生活中的应用1_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

几种多元统计分析方法及其在生活中的应用[1]几种多元统计分析方法及其在生活中的应用[1]几种多元统计分析方法及其在生活中的应用[1]xxx公司几种多元统计分析方法及其在生活中的应用[1]文件编号:文件日期:修订次数:第1.0次更改批准审核制定方案设计,管理制度第2章聚类分析及其应用实例2.1聚类分析简介聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性來进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的[']。聚类分析方法有很多,按不同的分类方式,有不同的分类。按聚类方法的不同可分为以下几种:(1)系统聚类法:对所在的指标进行分类,每一次将最相似的两个数据合并成一类,合并之后和其他数据的距离会重新计算,这个步骤会不断重复下去直至所有指标合并成一类,并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法):所谓调优法,从表面意思就可以看出是在对n个对象初步分类后,根据分类后的信息损失尽可能小的原则对分类进行择优调整,直到分类合理为止.(3)有序样品聚类法:在很多实际问题中,所谓的样品都是相互独立的个体,因此可以平等的划分。但是有序样品聚类法的存在就是因为在另外一些实际问题中,样品之间是存在着某种联系而在分类中是不允许打乱顺序的。有序样品聚类法开始时将所有样品归为一类,然后根据某种分类准则将其分为二类等等,一直往下分类下去直至满足分类要求。它的思想正好与系统聚类法的相反。(4)模糊聚类法:利用模糊聚集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法:在处理分类问题中独创性的引入了图论中最小支撑树的概念。(6)聚类预报法:顾名思义,就是用聚类分析的方法来在各个领域中进行预报。在多元统计分析中,判别分析、回归分析等方法都可以用来做预报,但是在一些异常数据面前,这些方法做的预报都不是很准确,方法也不好准确的实施,而聚类预报则很好的解决了这一点。可以预见,聚类预报法经过更深入的研究后,一定会得到更加广泛的应用。按聚类对象的不同,聚类分析可分为2型[对样品(CASES)聚类]与型[对变量(VARIABLE)聚类],两种聚类在方法和步骤上都基本相同.2.2聚类分析方法介绍数学方法在实际应用中是否受欢迎,最主要的一点就是它能不能适用于大型6第2章聚类分析及.11;应用实例 计算的问题。图论聚类法、基于等价关系的聚类方法和谱系聚类法在大型问题中难以快速有效处理数据而应用甚少。基于目标函数的聚类方法因其设计简单,在实际生活中被广泛运用,其主要思想是将问题转换为带约束条件的非线性优化,这样就可以运用完备的线性最优化知识解决问题,而且这种方法也易于在计算机上实现。而伴随着计算机技术的突飞猛进,基于目标函数的聚类方法必定会成为研究的热点。2.2.1谱系聚类方法在待分析样本数较小时,通常采用谱系聚类方法(系统聚类法)。谱系聚类法是按距离准则来对样本进行分类的,例如我们要将样本集X中的《个样本划分为C类。那么算法的实现过程如下:首先令这^个样本各自为一个类,此时,总的类数为《;其次,计算这/7个类别之间的相互距离,合并距离最小的两个样本,这样总得分类数就只有个;然后计算新形成的个类别之间的距离,同样合并最小的两个类,使类别减少为n-2个,依此原则,继续合并;最后,当总的类别只剩下C类时,停止计算,分类结束,此时的C类就是聚类的结果。需要注意的是,在此过程中,计算类与类之间的距离的方法有很多种,具体选择什么方法,需要视具体情况而定。计算类间距离的方法,后续也会有比较详细的介绍。根据上述聚类原则,我们很快可以知道,对于样本集里的任意两个样本X々和Xj’它们总是可以聚类到一个类别中去。 “上述所介绍的,只是谱系聚类算法中的一种,这种算法一般称为聚集法,它比较适合于类别比较多的时候,当类别较少时,用此种方法就显得计算量非常的大,使得分类效率不高;另一种谱系聚类算法叫做分裂法,它与聚集法初始时将所有样本卑独分成一类刚好相反,它是将所有样本当成一类,然后在将某些样本分离出去,形成其他的类别,这样就节省了相当一部分的计算量。在实际运用中,具体选择哪种方法来聚类就得以具体情况为准。上述算法中的分类仅仅依靠样本间的距离或者类间距离,因而,距离的计算决定了分类结果。距离的计算种类有:闽可夫斯基距离(包括街区距离、欧氏距离和切比雪夫距离等),也可以选择马氏距离、角度相似性函数或者Taniraoto测度。其中马氏距离定义DI=-m)'C~'-m) (2—1)这里X为模式向量,w为均值向量,C为模式总体的协方差矩阵.马氏距离的优点k是排除了模式样本之间的相关性影响.比如,我们取一个模式特征向量,可能有九7 第2章聚类分析及用实例 如果B类是由E和F两类合并而成的,则有2.最长距离法[9】与上述相似,两个聚类A和B间的最长距离定义为=max{i/Jaee5} (2—5)同样地,如果B类是由E和F两类合并而成的,贝max3.中间距离法[9]如果B类是由E和F两类合并而成的,则A类和B类之间的距离为(2-6)它介于最长距离和最短距离之间.4.重心法上述定义的类间距离没有考虑每一类中包含的样本数目,如果E类中有个样本,F类中有个样本,则E和F两类合并后共有+,.个样本.用”)fP"' (2-7)Vn,+n, n,+n, (/:.+,)—5.类平均距离法[9]如果采用类间所有距离的平均距离,则有Da,B= Yj^Ih (2-8)V oA,heB不难得到类平均距离的递推公式为D,、b= (2-9)V+n,,-由于定义类间距离的方法不同,使分类结果不太一致.实际问题中常用几种不同地方法进行计算,比较其分类结果,选择一个比较切合实际的分类.对于上述五种定义类间距离的方法,可采用统一的递推公式:~^E^AJi+^F^AJ'七PD丨“1:+7\D^J;- (2-10)由此,我们可以得到五种类间距离递推公式中的权系数,如表1所示,其中9 第2章聚类分析及ji;应用实例 n,^n,+n,,即B类样本数目是E和F类样本的合并。表2-1统一类间距离递推公式中的权系数Table2-1TheWeightCoefficientinTheRecurrenceFormulaofDistanceBetweentheUnifiedClass方法 a、:a,,. P 7 空间性质最短距离法0.5 0 HI缩最长距离法 0 扩张类间平均距离法nJriB/./"/} 0 0 保持重心法 《/;/ -n,:/1,,/nl0 保持中间距离法0 ^ 2.2.2基于等价关系的聚类方法由离散数学中关于关系的描述我们知道,定义在集合Z=^[;c,,x,,上的关系如果具有自反性、对称性和传递性则被称为等价关系.设义是一给定集合,尤…,是它的子集,如果满足[9】:X!nXj二(j),V/,7=1,2,"<;,/半jX^yjX^Kj^--KjX^=X则集合尸=,,…,X」被称为集合的一个划分,而,被叫做这个划分的块.若是集合上的等价关系,对于任意一个元素X,可以构造一个X的子集,叫做X,对于的等价类,[x,],,=eX,\.对于这种集合,它具有下列性质:(1) x,e[x丄;(2)如果 Xye[x,\,则必有[xy.=[x,L;(3)若 X广[x^L,但生V.L,则必有k]r。L=.由此可知,集合Z上的等价关系7所构成的类,两两互不相交,而且覆盖整个集合JT.我们得到如下定理:集合X上的等价关系R所构成的类产生集合X的10个分量是反映同一特征A,而只有一个分量反映另一特征B,欧氏距离计算出來的结果将绝大部分反应特征A,而弱化了特征B,而马氏距离去除了相关性后,据规避了这个缺点。通过式(我们可以看出,当C为对角阵时,各特征分量相互独立,同时,我们还发现,欧氏距离其实就是协方差矩阵C等于单位矩阵I时的一个特例。可以看出,在这种条件下模式样本集的概率分布不仅各分量之间不相关,而且其密度函数的等高线为圆(或者超球面),即各分量方向上的密度分布是均匀的需要指出的是,计算协方差矩阵是计算马氏距离的关键所在,但是我们只有在模式集给定的情况下,才能计算出协方差矩阵,遗憾的是这个条件很难实现。角度相似性函数定义为‘士^^ (2-2)是模式向量;C与X之间的夹角余弦,也就是X的单位向量II与X的单位向量*‘ ‘ /IW‘II之间的点积.夹角余弦的测度反映了几何上相似形的特征,它对于坐标系的/KII旋转及缩放时不变的,但对位移和一般的线性变换则并不具有不变性的性质.Tanimoto测度是将夹角余弦度量进行细小的修改后得到的,主要用于具有{0,1}二值特性的情况[”。其具体定义为共有的特征数目 ,xlx, =;Cf或;Cj.中占有的特征数目之总数 一不过,相似性测度函数的共同点都涉及到把两个相比较的向量X和X的分量kj值组合起来,但怎样组合并无普遍有效的方法,对于具体的模式分类,需视情况作适当的选择[8]。在谱系聚类算法中,每次迭代中形成的聚类之间以及它们与各个样本之间的距离,有多种不同的准则函数[7]。1.最短距离法[9]假设A和B是两个聚类,则两类间的最短距离定义为j|aeA,beb] (2—4)式中,(力表示A类中的样本X。和B类中的样本之间的距离.表示A类中所有样本与B类中所有样本之间的最小距离.8 第2章聚类分析及其应用实例 £(-^j)=I广'n. (2-14)Jpr叫pr又J"这里,七=—,■^J~~X^A.Sk=\ S4.指数相似系数5r".=—文e'si (2-15)Sk^\这里,是第A个特征的方差,=-^( ‘k=\’2,…,S (2-16)“M5.最大最小法^min(x,x^Jr, (2-17)Jmax(x,x^J/c=l6.算术平均最小法Emm(x,x^Jr=^ (2—18)Zk=\7.算术平均最小法Emin(x,x^Jr,丨- (2-19)舍t(+)L人--18.几何平均最小法Emin(x,,,x^Jr,=^ (2-20)ys^^k=\9.绝对值指数法12 笫2苹聚类分析及K:应用实例 一个划分,此划分叫做Z关于的商集,记做例如,同余关系i‘对整数集/产生的商集就是模C的剩余类[9]:[lL,..,[c-4.}由上述讨论可知,在给定集合Z上定义一个等价关系,就决定集合;r的一种划分.显然,这样的划分是硬分割,我们可以把这一概念推广到模糊关系上来[9]。由于模糊等价关系及是论域与自己笛卡尔乘积jxl上的一个模糊集合,而模糊集合的任何a(0SaS1)截集及都是XXX上的一个普通集合,即为X上的普通等价关系,也就得到了关于X中对象元素的一种分类.当《由1下降为0时,所得到的分类由粗变细,逐渐归并,从而形成一个动态的聚类谱系图.由此可见,分类对象集Z上的模糊等价关系的建立是这种聚类分析方法中的一个关键性的环节[9]。为了建立分类对象集合X上的模糊等价关系瓦,通常需要首先计算各个分类对象之间的相似性统计量,建立分类对象集合I上的模糊相似关系=k],、LIJJfjxn0<r,<1,i,j= AV表示分类对象\与\的相似程度.常用的计算分类对象的相似性统计量的方法有如下几种[9]。1.夹角余弦法■S广’J=广'. (2-11)Vk=\k=\2.数量积法'1i=jr,j=‘1 (2-12)Mtl I*]这里,M是一个适当选取的正数,并且满足M>max|^X丨k(2-13)3.相关系数法11 笫2苹聚类分析及;用实例 即合成的传递闭包:巧==充。瓦.,R:=R^or;,……这样下去,就必然存在一个自然数I使得巧*=R'。紀这时,^便是一个模糊等价关系了.在此基础上,我们就可以利用不同水平下的截集得到该水平上的聚类结果,所有不同水平的聚类结果形成聚类的谱系图[9]。2.2.3图论聚类方法图论聚类方法最早是由Zahn提出来的,又称作最大(小)支撑树聚类算法.后来经过人们加以改造从而可以实现模糊聚类分析.图G中一条长度为尺的路径(Path)P是一系列连接的结点,P=〈x,,X2,".,Xa.+,〉,其中对V/e(0,Ar),(x,,x,+|)eE;如果图G中没有一条非零长度的路径P= ,且X,=Xh,,则称图G不包含环(Cycle);图G的支撑树》]是指由连接所有结点的-1条边构成的无环图pr,r].显然,一个图中当且仅当任意两对结点之间只有一条路径时才是树,通常在一个图G中可以构造多个支撑树[1,7;如果我们给图中每条边e赋以权值,那么所谓的最小支撑树(MinimumSpanningTree,MST)是指满足下列条件的支撑树:w(MST)=minj^w(e)|对于一棵树如果移去一条边e,则生成两组连通的结点jc又和A=X-A,我们定义y为共环边⑼,0"=|e,.-|x,eA,Xj-eA,A=X-jj (2-26)也就是说,f为图[X,G]中连接两组节点J和:的一组边;森林是指不包含环的非联通图,其中的每一个联通的部分被称为一棵树。下面的定理给出了构造最小支撑树的充分必要条件.即:是图G的最小支撑树的充分必要条件是,对于所有的边其共环边y满足14 第2帝聚类分析及其应用实例 "Z=e'=丨 (2'21)10.绝对值倒数法'1i=jr=——M (2-22)y s3Ii*j.i=l这里,M是一个适当选取的数,使得SI.在实际应用中,由于所获取的分类对象的数据比较复杂,往往不是[0,1]区间中的数,因此首先需要把各个原始数据标准化.假设被分类的对象一共有n个,对于每一维特征Xt共有《个原始数据,设为x;"x'2”…,x:p把它们叫做这一特征的各个元素.为了把这些数据标准化,首先计算每一维特征的均值和方差[iG]:^=-1‘ (2-23)H/=1 n/=1下式(是求数据标准化值X;;的公式X: (2-24)Sk对上式(求出的值进行极值标准化,就能确保所有被标准化为[0,1]闭区间内的值,极值标准化公式为:5-:“ (2-25)max工Amin上式中,是指x;;,x丨”中的最大值,而指最小值-得到待分类对象集X上定义的模糊相似性关系足后,还要进一步改造成为模糊等价关系足由前面有关模糊关系的介绍可知,模糊相似性关系足.满足自反性和对称性,但一般而言并不满足传递性,也就是说,它并不是模糊等价关系.因此,为了聚类我们必须采用传递闭包的性质,将这种模糊相似性关系足改造为模糊等价关系民[9〗。13 第2韋聚类分析及jl;应用实例 6"r\T={¢^),w{e)<w{s),s^0'人s*e).在传统的图论聚类分析,首先把待分类的对象X=^[xi,x2,…,〃看作一个全连接的无向图G=中的结点,然后给每一条边赋以权值,比如我们可以用任意两个结点(X,,Xj)在特征空间的汉明距离定义边e丨J(1</,j<n)的权值为w{e,j)=||x,-XjII,x,,xjeX然后,我们再对该组对象进行聚类分析,其具体步骤再次就不多讲.下面,我们主要介绍模糊最大支撑树算法的具体步骤步骤一:建立分类对象集上的模糊相似关系,构造模糊图:(1)计算各个分类对象之间的相似性统计量r".,/,y =l,2,…,n,建立分类对象集Z上的模糊相似关系瓦=h];‘、Ltj(2)将^^表示成由《个结点所构成的模糊图6二|^,五1,使G中的任意两个结点与Xj之间都有一条边相连接,且赋该边的权值为r,j.步骤二:构造模糊图G上的最大模糊支撑树: ;:'(1)找出图G中最大权值的边;(2)将存放在集合C中,将边上的新结点放入集合r中,若r中已含有所有个结点时,转至(4);(3)检查r中每个结点与r外的结点组成的边的权值,找出其中最大者转至(2);(4)结束,此时G中的边就构成了 G的最大模糊支撑树!;.步骤三:由最大模糊支撑树进行聚类分析:选择某一个《值对炎,=j作截集,将r■中小于《的边断开,使相连的各结点构成一类,当a由1下降到0时,所得到的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系图.2.2.4基于目标函数的模糊聚类分析15 第2章聚类分析及:U:应用实例 实际中最常用的是基于目标函数的模糊聚类方法,即把聚类归结成一个带约束的非线性规划问题,通过优化求解获得数据集的模糊划分和聚类.该方法具有设计简单、解决问题的范围广、可转化为优化问题而借助经典数学非线性规划理论求解以及易于在计算机上实现等诸多方面的优点,因而深受广大学者的喜欢,成为最常用的一种聚类分析方法.伴随着计算机的应用和发展,基于目标函数的模糊聚类算法成为新的研究热点在基于目标函数的聚类算法中模糊C均值(FCM,Fuzzyc-Means)类型算法的理论最为完善、应用最为广泛.模糊C均值类型的算法最早是从硬聚类目标函数的优化中导出的.为了借助目标函数法求解聚类问题,人们利用均方逼近理论构造了带约束的非线性规划函数,从此类内平均误差和(WGSS,Within-GroupsSumofSquaredError)J,成为聚类目标函数的普遍形式.为极小化该目标函数而采取的Pikard迭代优化方案就是著名的硬C均值(HCM)算法和ISODATA(IterativeSelf-OrganizingDataAnalysisTechniqueA)算法模糊划分概念提出后,Dunn首先把WGSS函数J,扩展到J2——类内加权平均误差和函数,后来Bezdek又引入一个参数m,把推广到一个目标函数的无限族,并给出了交替优化(AO,AlternativeOptimization)算法,即为人们所熟知的FCM算法从此,奠定了FCM算法在模糊聚类中的地位.下面我们从以下几个方面来逐步介绍基于目标函数的模糊聚类分析法['3].(1)数据集的e划分给定数据集;^=^^,1:,...,1;1〔/'-为模式空间中《个模式的一组有限观测样本集,X, …;eiT为观测样本&的特征矢量或模式矢量,对应特征空间中的一个点,Xkj为特征矢量Xk的第_/维特征上的赋值.对给定样本集X的聚类分析就是要产生i的C■划分由上面有关聚类分析的数学模型可知,数据集I的C划分得到的C个子集如果满足下式的条件,则称之为X的硬C划分…uZc=jr~X0Xk=<i^k<c‘ (2-27)X, X,\<i<c如果用隶属函数、{CJ,P)表示了各类中样本与其典型样本的误差平方和.利用/,Ji(7,P)也可以表示为J人= 伙1 k=\/=1 32)eMhc聚类准则为寻求最佳对以使得在满足&条件下为最小.解决这类优化问题最常用的方法是用迭代法求取的近似最小值Dunn按照Ruspini定义的模糊划分的概念,把硬聚类的目标函数推广到模糊聚类的情况.为了避免产生平凡解,保证这一推广有意义,Dunn对每一个样本与每类原型间的距离用其隶属函数平方加权,从而把类内误差平方和目标函数扩展为类内加权误差平方和目标函数1k=\/=1\l-66)eMjc(3)模糊c均值聚类算法为了优化聚类分析的目标函数,人们提出了现在相当流行和应用广泛的模糊c均值(FCM,Fuzzyc-means)聚类算法.该算法是从硬c均值(HCM,Hardc-means)聚类算法发展而来的HCM算法用于求解满足式中的尸)为最小时的分类结果.以下给出FCM算法的具体步骤:初始化:给定聚类类别数C,2<c<n,是数据个数,设定迭代停止阀值h初始化聚类原型模式p(°),设置迭代计数器6=0;步骤一:用下面两式计算或更新划分矩阵t/(十对于V/,A:,如果则有「2"11_1,、CfAb)必=\Lik (2-34)y=i\"jkJ如果3/,r,使得¢¢)=0,则有=1,且对y本r,ju-p=0 (2-35)18 %2章聚类分析及其应用实例 步骤二:用下式更新聚类原型模式矩阵p产、、二过 ,/=1,.,C (2-36)1("”广k=\步骤三:如果则算法停止并输出划分矩阵t/和聚类原型尸,否则令6=Z)+l,转向步骤一.其中为某种合适的矩阵范数.对于HCM算法的具体步骤,大家可以参照西安电子科技大学出版社出版的由高新波著作的《模糊聚类分析及其应用一书》.FCM算法还具有另一种形式,即从初始化模糊划分矩阵开始,先用上一公式计算聚类原型(中心)矩阵,然后用上上公式更新模糊分类矩阵,直到满足停止准则为止["].由以上算法不难看出,整个计算过程就是反复修改聚类中心和分类矩阵的过程,因此常称这种方法为动态聚类或者逐步聚类法.几经修补,该算法的收敛性已经得以证明:FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函数的局部极小点或鞍点.对于满足下列条件的集合FCM算法可以收敛到局部最优解,这样的被称作模糊聚类的解集["1:VUeM^^,J^(u\P')<J^(U,P') (2-37)\jp^r\j[u\p')<j^[u\p) (2-38 第2章聚类分析及其应用实例 U=[阵t/中的第/行为第/个子集的特征函数,而矩阵t/中的第A歹J为样本相对于c个子集的隶属函数[“].则工的硬C划分空间为=jt/ee{0,1},Va;J=|t/e e[0,4V/,A:;文"r (2-30)机<r=l _当《=25,c=10时,大概有lOi8个不同的分类结果.对于模糊划分的情况,贝幡在有无限多个分类结果.事实上,每个模糊划分矩阵都可以用若干个硬分类矩阵来表示[["](2)聚类目标函数我们希望在众多可能的分类中寻求合理的分类结果,为此,就要确立合理的聚类准则.在硬划分时,常使用的聚类准则是最小平方误差和['7].对应于上一节的数据集的硬C划分,假设=为硬划分矩阵,=1,2,...,C)表示第/类的代表(典型)矢量或聚类原型(ClusteringPrototype)矢量,几=(户,,,几.2,…,定义硬聚类分析的目标函数为[17]:jAu,P)=t[ndj] (2—31)eMhe式中,‘表示第/类中的样本Xt.与第/类的典型样本p,.之间的失真度,经常用两17由以上结果可以看出:①农村居民人均纯收入高的地区与人均纯收入低的地区之间的差别比较大,在对全国所有地区按照人均纯收入进行初次分类的结果中可以看出,收入高的北京、上海地区比收入低的甘肃、青海等地区的人均纯收入要高8元,充分体现了我国贫富差距比较大的现实情况;②在低等收入地区中,山西、安徽、广西、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏12个地区尤其低,这与它们所处的地理环境及所拥有的资源等因素有关;③从收入比较高的北京、上海等地区的情况來可以看出,一个地区的农村居民家庭收入与该地区的工业、商品业以及整个地区的繁华程度等有关。运用聚类分析法对我国农村居民人均纯收入进行分析和评估具有一定的可靠性和实用价值,用聚类分析法得到的数据为国家制定各地区农村的财政投入政策提供了一定的依据。 笫3章主成分分析及其)、V:用实例 行详细的证明.性质1Y的协方差阵为对角阵八.即P个主成分之间不相关,且方差依次为非零特征值、,七,...,、,并满足A2k…2>0,也就是说Y的P个分量按方差由大到小排列.性质2ZA,=5>,,/=1/=1即各主成分的方差之和与原始变量的方差之和相等,也就是说变化之后没有信息损失[24].性质3 = ,i,j=\X-,PaK称第k个主成分};与原始变量jsr,的相关系数pUpZ,)为主成分载荷.主成分载荷的绝对值大小刻画了该主成分的主要意义及其成因,它是主成分解释中非常重要的依据.从性质3可知主成分载荷piYk,X,)与系数向量Uk,成正比,与X、的标准差成反比关系.如果对随机向量进行标准化,即以相关矩阵为分析矩阵时,(T=1,则对于X,,主成分载荷的表达式为/7(}^”^^,)=^&力^,由于对于不同X,,Va是固定的,所以此时主成分载荷仅仅依赖于转换向量系数.3.3.3主成分的选取定义(/=1,2,…,p)为第k个主成分Ft的方差贡献率,IA/=1m(m<p)为前m个主成分}的累积贡献率主成分分析的/=1目的之一在于减少变量的个数,所以通常会选取m<p个主成分.一般根据累积方差贡献率来确定m的数值,累积方差贡献率;越大,表明通过选取的少数/=/几个主成分解释随机向量X的差异的能力越强.实际应用中通常取m使得26第3章主成分分析及冗应用实例 个变量的均值为0,标准差为1.在主成分分析的计算中,选择以协方差矩阵还是相关矩阵为基础计算得到的结果截然不同。在各个变量的相差范围不大或者各个变量的度量单位相同的条件下,我们采取的是协方差矩阵计算;相反的,当取值范围很广或者度量单位不尽相同的时候,我们就用相关矩阵进行计算。为了消除不合理的结果,我们常常先对数据进行标准化处理,使得协方差矩阵就是相关矩阵,这样也就是从相关矩阵的角度来求解。这样的计算可以使主成分向量具有与总体主成分相同的性质。2.总体主成分和样本主成分另外需要指出的是实际研究中—的协方差矩阵2:和相关矩阵R通常是未知的,需要通过样本数据估计.对于原始资料矩阵式(,当X为总体资料矩阵时:(—)(一)' (3-5)_1“——1^X,=-’IXi,j=l,2,".,pnk=、 “i=i当X为样本资料阵时:tSy二Z(-A)(-) (3-6)k^\—1n飞 1n,x,=—1,=2,---,pS为样本协方差矩阵,作为总体协方差矩阵2的无偏估计.下面的讨论仅针对原始数据为总体资料矩阵,即针对协方差矩阵2,对于样本资料矩阵只需要样本矩阵S代替5:就可以了.3.主成分求解方法假设,X,,...,的协方差矩阵2有非零特征根,A,,...,义…,各个特征根分别对应特征向量…,,以为系数向量可以得到¥=1广,分别为随机向量X的第一主成分、第二主成分...第P主成分.3.3.2主成分的性质本文的重点在于相关方法的实际应用,因而所涉及到的性质、定理等都不进25 第3京主成分分析及其应用实例 对X进行线性变换,可以形成新的综合变量,用Y表示[23],gp^="ii^i+"12^2+...+_="21^1+"22^'2+""+"2p^p (3-3)这种线性变换有无数种,我们为取得最好的效果,对系数做出以下限定:(1) ^;与7)不相关(/^^_/;/,_/二1,2,--.,;7)(2) };为一切满足式(的线性组合中方差最大者;r〗是与不相关的所有线性组合中方差次大者;...,I;是与};,,…都不相关的尤I,义2,…,的所有线性组合中方差最小者[22]。由以上原则决定的综合变量,.,};分别称为原始变量的第一、第二、...第P个主成分.其中各个变量在总方差中所占比重依次递减,通常在实际分析中我们选择前几个方差最大的主成分达到降维和简化问题的目的[22]。3.3主成分的求解及其性质3.3.1主成分的求解步骤根据主成分分析的原理我们可以知道,主成分分析的求解就是利用原始变量做线性变换,在达到降维目的的同时,形成几个尽可能多的保留原信息的综合变量。而尽可能多的保留原信息在计算中的方法就是使得几个主成分的方差之和尽可能靠近原始数据的方差和。1.求解矩阵的选择与变量的标准化在求解主成分时,我们总是优先考虑方差大的变量,这样的结果是有时候会造成很不合理的结果,基于协方差阵和相关阵求出的主成分往往存在较大的差异。为了消除这种计算带来的影响,我们可以釆取把变量标准化的方法.变量标准化的公式为:x]=广— i=\,2,"-,n;j=l,2,...,p (3-4)^J曹(Xj)式中,^和、/丨^^^^分别是第j个变量的均值和标准差,在标准化之后每24第3章主成分分析及其应用实例3.1主成分分析的客观背景和数学思想在处理实际问题时,为了全面考虑问题,一般会涉及很多变量,但是变量太多难免会有很多数据的重复和叠加,导致算法的复杂性增强。主成分分析的基本原理就在于用较少的综合变量去替代多个随机变量,并做到计量少丢失变量所携带的信息,并且使彼此之间互不相关。人们对了解主成分分析方法经常有一个误区,认为主成分分析就是分析比较各指标的重要性,然后去掉那些不重要的,保留那些重要的指标,这是错误的。所谓主成分,就是在P个指标内找一个综合变量,使其尽可能多的包含P个变量所含有的信息,这个综合变量就叫主成分。找到主成分后,根据某种准则确定这一主成分是否足以代表绝大部分信息,如果不能,那么就继续考虑第二、第三主成分。当然,为了避免不必要的计算,第二主成分就会尽量避免包含有第一主成分的信息,这就是主成分分析中主成分互不相关的原理。总结的来说主成分分析就是通过全面分析各项指标,从中归纳出具有代表性的综合性指标,用这几项综合性指标替代原来较多的指标.同时这些综合性指标都能独立地反映某一方面的综合信息.这也是主成分分析中几个综合变量互不相关的原因所在。主成分分析的基本模型主成分分析是利用原始指标的相关性做线性组合,形成几个新的综合指标来代替它们的一种多元统计分析。一般来说,主成分与原始变量之间有以下基本关系网:1.每个主成分都是各原始变量的线性组合.2.主成分的数目大大少于原始变量的数目.3.主成分保留了原始变量绝大多数信息.4.各个主成分之间互不相关.假设研究对象是n个样品,P个变量的数据(n>p).则我们可以将原始资料整理为以下矩阵[22]:Xii^12…^2]X22“‘^2p-A—. .^2…^np_(3-1)X可以用向量形式表示为Z=(ZX-,X^). (3-2)23 第3章主成分分析及KKy:ffl实例 Xa,>85%.这样既能使损失信息不多,又可以达到减少变量、简化问题的目/=/的[25].另外,选取主成分还可以根据特征值的变化来确定,从图3-1,即所谓的碎石图可以看出从第3个变量开始特征值变化的趋势己经开始趋于平稳,所以选取前三个主成分是比较合适的.这种方法确定的主成分个数与累积贡献率确定的主成分往往是一致的.实际应用中也常常仅保留特征值大于1的那些主成分,但是这种方法还缺乏完善的理论支持[25】.特征5厂浪4\‘-\2\1-,0 I 1 I — I 11 2 3 4 5 6 7图3-1碎;{丨閱1Picture3-1ScreePlot1 第3章主成分分析及31:应用实例 根据SPSS运行结果,表3-2是特征根和方差贡献度表,这里初始特征值就是数据相关阵的特征值,相当于前面介绍的5个主轴长度.可以看出前面两个主成分特征值累积占了总方差的73.750%.后面的特征值的贡献越来越少,由于我们选择了特征值大于1作为主成分的抽取条件,所以这里SPSS抽取了两个主成分,其特征值分别为2.613和.从特征值的碎石图(图3-2)也可以看出抽取前两个主成分是合理的.表3-2方差累积贡献度Table3-2TotalVarianceExplained解释的总方差 初始特征值 取平方和载;^ 味份合计方差的%累积%合计方差的%累积%1 32 3 .56514 .4395 .309801 提取方法:主成份分析.mm\\4^5: \机 \似V。5- ^ ( 1 1 1 1 1 2 3 4 5图3-2碎石图2Picture3-2ScreePlot2怎么解释这两个主成分呢前面说过主成分是5个原始变量的线性组合,是怎么样的组合呢SPSS可以输出下面的表3-3,这里的每一列代表一个主成分作为原始变量线性组合的系数(比例),这些系数称为主成分载荷(Loading),它28主成分分析在学生成绩评价中的应用实例本节是应用SPSS软件和主成分分析法对学生成绩进行评价的具体应用。这里我们选用45个学生的力学、物理、代数、分析、统计的成绩,见表3-1(只展示了一部分).我们需要用一两个综合变量来表示这个数据的5个变量.表3-1原始数据表TableS"!OriginalDataTableI学丨牧1Ii-mI分析I统il- 1 ^ ^ ^ ^ 96 2 78 ^ ^ ^ 96 3 ^ m ^ ^ 96 4 70 ^ 78 ^ 83 5 78 78 ^ ^ 78 6 ^ T& ^ 79 88 7 ^ ^ m m 83 8 TA ^ ^ 77 71 9 77 75 73 77 851 0 79 ^ 75 77 6027 第3p.主成分分析及其应用实例 表示主成分和相应的原始变量的相关系数,比如第一主成分作为力学、物理、代数、分析、统计这5个原始变量的线性组合,系数(比例)为,,,,.这就是说第一主成分和力学变量的相关系数为,和物理变量的相关系数为,依此类推.相关系数(绝对值)越大,表明主成分对该变量的代表性也越大.可以看出,第一主成分对各个变量解释的都很充分,而第二主成分与原始变量相关度就要低一些.可以把第一和第二主成分的载荷点画出一个二维图以直观地显示它们是如何解释原来的变量的,这个图叫做载荷图(见图3-3).图中右上面两个点是力学(闭卷)、物理(闭卷)两科,右下面三个点是代数(开卷)、分析(开卷)、统计(幵卷)三科,各个点的坐标就是图3-3中第一、第二列中的数值.由此可知,第一主成分主要与试卷类型一闭卷有关,可以命名为闭卷主成分,而第二主成分主要与试卷类型一开卷有关,可以命名为开卷主成分.有了对主成分的这个认识,我们就可以利用主成分的分析结果(如每个学生的这两个主成分的得分)进行进一步的分析,例如可以判断出幵闭卷考试对不同学生成绩的影响表3-3主成分载荷Table3-3PrincipalComponentLoads成份矩[tp成j分 1 2力学(闭卷) .622 .593物理(闭卷) .673 ,440代数(开卷) .848分析(开卷) .803统计(开卷) .640提取方法:主成分分析法。a.已提取了2个成份。成分W10-OS- 均*巧<&>U.。 0<tvCs>分 n-U<0统U‘nti‘0-1.0-1, , 1 J 1 -1.0 1.0成分1图3-3主成分载荷图Picture3-3PrincipalComponentLoads第4章因子分析及其应用实例因子分析简介因子分析(factoranalysis)的方法最初是应用在教育心理学上,英国心理学家ChalesSpearman于1904年发表了《对智力测验得分进行统计分析》的著名文章,是因子分析方法的幵始.目前因子分析应用范围十分广泛,涉及许多领域.因子分析是主成分分析的推广和发展.主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原來较多的指标(变量).在多变量分析中,某些变量之间往往存在相关性,是什么原因使变量之间有关联呢是否存在不能直接观测的,但影响可观测变量变化的公共因子因子分析法就是寻找这些公共因子的模型分析方法.例如,为了考察学生的知识水平,常用考试成绩来评定.假设n个学生都参加数学,物理,化学,语文,历史,英语六科的考试,每个学生六科成绩记为k=\,2,".,n (4-1)山此可以计算出六科成绩1=(1,,x2,一,xj"的样本相关矩阵》其中表示第i科成绩X,与第j科成绩Xj之间的样本相关系数,其数据如表4-1-1所示.表4-1相关矩阵数据Table4-1CorrelationMatrix-数学 物理 化学 语文一历史 英语“数学 物理 化学 语文一——历史~—— 英语~—— 1,000从表4-1可以看出.前三科数学,物理,化学之间,后三科语文,历史,英语之间的相关系数较大,而前三科和后三科之间的相关系数较小,这说明,影响学生这六科成绩的因素(因子)主要是两个:影响前三科的因子不妨称为理科能力,记为/;;影响后三科的因子不妨称为文科能力,记为/2,这两个因子不可观测.学生每一科的成绩X,可以看成是由因子/,/2,在加上各科的特殊因子&决30第4章因7分析及其应用实例 2.变量共同度的统计意义因子载荷矩阵A中行的平方和/;,2=;^>,^/=1,2,_〃,;^)称为变量1,的共同戶1度,表示原始变量X,与所有公共因子的关系.DX'f^DiayF^I+De,人DF^j+af=f^al+af=h^+oj (4—7)_/=丨 y=丨 y=i故变量Z,的方差由两部分组成,一部分为共同度/7,2,;,2描述全部公共因子对变量的总方差的贡献,共同度越大,说明公共因子包含的的信息越多,影响就越大;另一部分为特殊因子〃,对变量X,的方差的贡献,通常称为个性方差[33].又已标准化,进一步有+af二£(义,)=1(/=1,2广.,厂) (4-8)3.公共因子的方差贡献的统计意义因子载荷矩阵A中列的平方和S]=X40'= (4-9)/=1称为公共因子Fy.对X的贡献,表示同一个公共因子对X的每一分量义,(/=1,2,...,;)所提供的方差贡献之总和,反映了公共因子Fy.与所有原始变量= 的关系,是衡量公共因子相对重要性的指标.g,越大,表明公共因子Fy.对X的贡献越大,或者说对X的影响和作用就越大.计算因子载荷矩阵A的所有g)(y=l,2,_..,m)并按大小排序,就可以提炼出最有影响力的公共因子[34].因子分析模型的求解4.3.1因子载荷阵的求解要建立实际问题的因子模型,关键要根据样本数据估计因子载荷矩阵A,对A的估计有许多方法,这里仅介绍霍特林(H.Hotelling)创立的,现在使用较为普遍的主成分方法.33第4京W7分析及jl;应用实例 设随机向量X=(;c,,X2/",:g"的协方差矩阵为:E,相关矩阵为=,由于Y,^DX=D{AF^s)=A{DF)A'+Ds=AA'+D^ (4-10)而所有变量;都已标准化,故R=Y^=AA''+ (4-11)设R的特征值为;2…,其相应的单位正交特征向量为‘R=U七U'''_ V'4^ ―‘=u^ ^ U.'._^/d‘&=("sMiA,\1、己2,又/yCp ‘ ,…,a/、)'当公共因子f;的个数为P时,特殊因子为0,由式(4.11)得=因此,可以取即第j列因子载荷为第j个主成分的系数ey.与A的乘积,故称其为主成分法.当时,取前m列构造因子载荷阵J= …,叾ej,按公共因子的累计方差贡献率达到的百分比(一般取85%)选取m,即使m!>,^> (4-12)P/=1的m为所取的公因子数,可以证明‘=1为第k个公共因子F,的方差贡献率.Z為Pi=\34m4章闲了分析及其应用实例 定的,因此,"RI以将对分解如下■^1-^\\f\+“12/i+A^X,=\f\^ (4-2)—Xg— +<^62/2+或写成矩阵的形式z=4/+^,—(x,,X,,,)'y~(/i'/2)-(、&,…,&)'‘^~(^y\x2 (4-3)我们希望利用式(4-3)根据学生的六科成绩分析其文科能力和理科能力,这就是因子分析的目的.因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系[27】.因子分析主要用于:1.减少分析变量个数;2.通过对变量之间相关关系探测,将原始变量进行分类,即将相关性高的变量分为一组,用共性因子代替该组变量因子分析分为两类,R型因子分析(对变量作因子分析)和Q型因子分析(对样品作因子分析).我们主要讨论R型因子分析[29].因子分析的数学模型正交因子模型将式(4-3)推广到一般情形,并做适当的假定就得到因子分析的数学模型:(1)设;^^ =(1,,尤2,.-,1」7.为可观测的随机向量(或称为测试变量),均值向量五(;^)=0,协方差矩阵=;作五(;^)=0的假定是为了处理起来方便,若£(Z)=/^,则令即有£Z'=0.(2) =…,尸是不可观测的随机向量,其均值向量五(/0=0,协方差矩阵Cov(i^)=/,即向量的各分量是不相关的且方差为1,一般满足(3) = 是不可观测的随机向量,其均值向量五(^=0,厂的协方差矩阵Cov(^=diag((7,^,cTj,,cr^)=是对角阵,即各分量之间是不相关的,但不要求方差相等.另外即£^与F不相关,则以下模型称31笫4章丨外T分析及^丨、V:用实例 在实际应用中,X的1■办方差矩阵I:往往是未知的,这时可以用义的观察值求出i:,以i取代I:.4.3.2因子旋转建立因子分析数学模型的目的不仅是为了寻找出公共因子并对变量进行分组,更重要的是要知道每个公共因子的意义,以便对实际问题进行分析.如果每个公共因子的涵义不清,不便于对实际背景进行解释.注意到因子载荷阵A具有不唯一性,事实上,用一个正交矩阵r右乘A,有X=AF+s={Ar)[Y'f)+s (4-13)记Z==可以验证i=Z广+S也是因子分析模型,故知A在正交变换r下也是因子载荷阵.因此,当A的结构不便对主因子进行解释时,我们根据因子载荷阵的不唯一性,可以用一个正交阵右乘A(即对A实施一个正交变换),由线性代数的知识,对A施行一个正交变换,对应坐标系就是一次旋转.因此我们称这种变换A的方法为因子轴的旋转可以证明,因子载荷阵A经过旋转后,变量共同度;/,2保持不变,而公共因子Fy.对X的贡献3丨发生改变.这样我们可以通过因子旋转使gj的值向0和1两级分化,使大的载荷更大,小的载荷更小,从而使初始因子载荷阵A经一系列旋转后结构简化,便于对公共因子进行解释.所谓结构简化即达到以下原则_:第一,每个公共因子只在少数几个测试变量上具有高载荷,其余载荷很小或至多中等大.第二,每个测试变量仅在一个公共因子上有较大载荷,而其余公共因子上的载荷较小或至多是中等大小.如正交旋转,斜交旋转等,在正交旋转中,因子与因子之间不相关,因子轴之间的夹角等于90°,即因子之间提供的信息不会重叠.在斜交旋转中,因子与因子之间彼此有某种程度的相关,因子轴之间的夹角不是90、这里只介绍常用的Kaiser提出的方差极大正交旋转法.为说明该旋转法的原理,首先考虑m=2的情形.设因子载荷阵35第4审因了-分析及其应用实例 为因子分析模型'X,=a,,F,+a,,F^+-+a,^F^+£,A,2=21A+“22厂2+…+“2/rA+厂2<、义P=apA+p2巧+…+^pmFm+Sp(4-4)其矩阵形式为X=AF+s (4-5)其中如=(/^,称为公共因子它们是在各个原观测变量的表达式中都共同出现的因子,是不相关的不可观测的理论变量."=(、&,…,称为特殊因子或误差,是向量X的分量X,(/=1,2,-.,/7)所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是不相关的A称为因子载荷矩阵,Xy表示第i个变量《在第j个公共因子上的负荷(loading),简称因子负荷如果把;看成m维因子空间的一个点,则表示X,在坐标轴Fj.上的投影.由于模型(是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型.如果将上面所述x,(/=i,2,…看成是样品,则为a型因子分析.在以下的讨论中,为消除观测量纲即数量级带来的差异,假定因子模型中所有变量;均已进行了标准化处理.4.2.2因子载荷阵的统计意义1.因子载荷的统计意义对于因子模型(,有Cov[X,,Fj)=CovfX^F,+£,,Fjl=Cov文a,,F,,F^.]+Cov(^,,=a"(4-6)\k=\ )\k=\ J又I,均已标准化,故=Cov(x^,Fj)=,即因子载荷a,J是第i个变量X,与第j个公共因子Fy.的相关系数,a,y反映了对f;.的依赖程度,绝对值越大,其密切程度越高,同时也反映了对Fy的相对重要性32第4章W了分析及用实例 即厂=士士 =max (4-20)j~\P/=1 VP J由微积分求最值原理,令[=0(因《与^^有关,故「与有关)可以解dcp出,2aba tanA(p= P, (4-21)cr—b‘c—— ~P若记/\2X x2 f\f \v=^^ ^^=2a'a' (4—22)‘uh'' '-hh\yV“y V“yV〃,y则=ZV,,办=ZV= v'21,2),"=v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论