应用多元统计分析考试要点_第1页
应用多元统计分析考试要点_第2页
应用多元统计分析考试要点_第3页
应用多元统计分析考试要点_第4页
应用多元统计分析考试要点_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Y设X,Y是来自均值向量为,协方差为的总体G中的p维样本。则马氏距离为D(X,Y)=。2试述判别分析的实质。间Rp的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。问题设有协方差矩阵∑相等的两个总体算新样品1和2,对于一个新的样品X,要XX1)(Xμ2)Σ1(Xμ2)XΣ1X2XΣ1μ1μ1Σ1μ1(XΣ1X2XΣ1μ2μ2Σ1μ2)2XΣ1(μ2μ1)μ1Σ1μ1μ2Σ1μ2Xμ2)22(Xμ)α2α(Xμ)1/132/132k且Σ12kXΣX1XΣX取IΣ1μ,CGk差矩阵分别是μ1,μ2,,μk和Σ1,Σ2,,Σk,(Xμ)Σ1(Xμ)2μ1ΣXμ2μ1XC)μΣ1μ,1,2,,k。2相应的判别规则为XGi若Wi(X)ma1(IXC)ki1iRRkRGi错判为Gj的概率为jj平均损失为kj1j3/13R的总平均损失为ki1ikki1j1kki1j1kki1qij1C(j|i)Rjfi(x)dxkk(qiC(j|i)fi(x))dxj1Rji1k令qiC(j|i)fi(x)hj(x),i1k则g(R)j1kj1g(R)g(R*)i1j1RiR[hi(x)hj(x)]dx因为在Ri上hi(x)hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构4/136试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:①费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的②当k=2时,若则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶③当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为5/13 (一)明氏距离:dij(q)p(k1kq1/qq1/qq取不同值,分为 (1)绝对距离(q (2)欧氏距离(qpXjkXjkk12p2Xjk)Xjk)k1k (3)切比雪夫距离( (二)马氏距离p1k1di(M) (三)兰氏距离Xj)将变量看作p维空间的向量,一般用 (一)夹角余弦pk1ppXi(X)k1k1 (二)相关系数rrpk1kppk1k16/132ppddq2ppddq答:设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。 rjr (2)最长距离法 (3)中间距离法112222 (4)重心法2nqXq)2222 (5)类平均法22GpXjGpXj (6)可变类平均法rr221222122222GjGrXjn22q22r其中是可变的且<1 (7)可变法2122122 (8)离差平方和法222是可变的且<1t1t2Dkrp2pDkpnkq2qDkqk2k2 (1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空 (2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析 (3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带不同:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数K聚类法的基本思想。答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同7/13pk1kk所以一般不会使用所有p称kk称k1kkkpmk1kpk1为主成分Y1,,Ym的累计贡献率,累计贡献率表明Y1,,Ym综合X1,X2,,Xp的能力。通常取m,使得累计贡献率达到一个较高的百分数(如85%以上)。在“大数吃小数”的问题。实际表明,这种差异有时很大。我们R采用R代替,8/139/13始坐标社会学、经济学等学科中都有重要的应用。具体来说,①因子观子模型中载荷矩阵A的统计意义。Xiii1,2,,p载荷阵为Aa21ap1aa22aaaaamCov(Xi,Fj)Cov(aikFki,Fj)k1m=Cov(aikFk,Fj)Cov(i,Fj)k12i2mj1ji1,2,,p222i说明变量Xi的方差由两Fj对X的贡献gpi1ij1,2,m表示同一公共因子Fj对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重。计分析方法的模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系,即 F10 Im012102 DD(ε)0关,方差不要求相等。2p而回归分析模型满足(1)正态性:随机误差(即残差)e服从均值为0,方差为2的正态分布;(2)等方差:对于所有的自变量x,残差e的条件方差为2,且为常数;(3)独10/1311/13 (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。 aa(i)(i)(2) (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。,(i)(1)a(i)(1)a(i)(1)a(i)(1)a(i)(1)a(i)(1)a(i(i)(1)a(i)(2)(i)(2)(i(i)(2)i2.Cov(Ui,Vj)001(k1,2,,r)0(ij,i1,2,,r)(ij)(jr)依赖关系而典型相关则扩展到两组变量之间的相互依赖在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。距离平方的平均数;可变类平均法将G和合并为新类,反映出和之间的距离的影响;如果中最小的两类合并,直到所有的样品归为一类为止。12/13“维数”13/13ppYY,Yp的方差之和k1kk所以一般不会使用所有pkkkpkkkk1kmmmpkk为主成分Y1,,Ym的累计贡献率,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论