版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1简述欧氏距离与马氏距离的区别和联系。答:设p维空间中的两点 乂=和Y=。则欧氏距离为。欧氏距离的局限有在多元数据分析中, 其度量不合理。会受到实际问题中量纲的影响。设X,Y是来自均值向量为,协方差为的总体 G中的p维样本。则马氏距离为 D(X,Y)=。 当即单位阵时,D(X,Y)=即欧氏距离。因此,在一定程度上,欧氏距离是马氏距离的特殊情况,马氏距离是欧氏距离的推广。2试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1, R2,,Rk是p维空间Rp的k个子集,如果它们互不相交,且它们
2、的和集为,则称为的一个划分。判别分析问 题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。3简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 两个总体的距离判别问题设有协方差矩阵 刀相等的两个总体 G和G2,其均值分别是ki和卩2,对于一个新的样品 X, 要判断它来自哪个总体。计算新样品 X到两个总体的马氏距离 D2 (X, G)和D2 (X, G), 则X , D2 (X, G) D2 (X, G2)X , D (X,
3、 G) > D (X, G2,具体分析,2 2D (X,G) -D (X,G2)=(X 禺)艺(X 色)(X 口2)艺(X 应)=X Y °X 2X "艺'禺+山艺4色一(X "工X 2X "工血+必艺亠应) 2X 艺二(陰一呂)+ (11艺二山 口2艺卩2=2X工"血一山)(叮随)工'(山一随)2 X-_2(X - p) a = -2 a (X 卩)艺k =艺。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属则判别规则为记W(X)二 a(X 一划X , W(X)X , W(X)<0 多个总体的判别问题。-2,
4、-k和艺1,艺2,赢,设有k个总体GG2,,Gk,其均值和协方差矩阵分别是于哪个总体。具体分析,D2(X,G.)=(X -匕)寸(X - 匕)=X- 2 e.才Xw.艺=X 士X- 2(I X C )= 1,2, ,k。可以取线性判别函数为W-.(X) = LX C.,:=1,2, ,k相应的判别规则为X Gi若 W(X)=鏗(1X C.)4简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体G1,G2 ,Gk,个总体各自出现的概率分别为qi,q2,其各自的分布密度函数k,qk, qi -0 ,、qi i=1fi(x), f2( x),,fk(x),假设 k=1。设将本来属于 Gi总体的样品
5、错判到总体Gj时造成的损失为C(j|i), i,j =1,2/ ,k。设k个总体G1,G2/ ,Gk相应的p维样本空间为 R =R,R2,,RQ。在规则R下,将属于Gi的样品错判为G j的概率为P(j|i,R)r fi(x)dx则这种判别规则下样品错判后所造成的平均损失为r(i|R)C(j |i)P(j|i,R) i = 12 ,k则用规则R来进行判别所造成的总平均损失为kg(R)qir(i,R)i 4kk八 C(j |i)P(j |i,R)i 4 j 4贝叶斯判别法则,就是要选择一种划分R1, R2 ,Rk,使总平均损失g(R)达到极小。k k基本方法:g(R)八C(j |i)P(j|i,R
6、)N4 j生kk=6 q' C(j |i) R fi(x)dxkk八 R C qiC(j |i)fi (x)dxj A j i 生kk令' qjC(j|i)fi(x)訥(x),则 g(R)"“ Rhj(x)dxi =1j =1 jk若有另一划分 R* =(R*,R;,,R;),g(R*) = 5: R hj (x)dxj则在两种划分下的总平均损失之差为k kg(R) -g(R*)二、i二 jm,-R*hi(x) -hj(x)dx因为在Ri 上 h'x)乞hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。从而得到的划分R =(尺,只;,Rk)为 R
7、= x |hi(x j hj (x)i =12 ,k5简述费希尔判别法的基本思想和方法。答:基本思想:从 k个总体中抽取具有 p个指标的样品观测数据,借助方差分析的思想构 造一个线性判别函数U (X) =uXu;X;丨1| UpXp = uX系数u = (uu2,up)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的P个指标值代入线性判别函数式中求出U ( X )值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的 两阶矩存在。而贝叶斯判别必须知
8、道判别变量的分布类型。因此前两者相对来说较为简单。 当k=2时,若则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶 斯判别也等价。 当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别 不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是X,W(X)X ,W(X) <lnd距离判别的判别规则是厂X ,W(X)X ,W(X)<0二者的区别在于阈值点。当q q2,C(11 2) = C(2 |1)时,d = 1,in d = o。二者完全相同。7判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而
9、言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知 道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别 分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。8试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类, 过程一直进行下去,每个样品(或变量)总能聚到合适的类中。9
10、对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为(一)明氏距离:dij (q)二CX, - Xjkq)1/qq取不同值,分为(1)绝对距离(q )dj(1)二E Xik-Xjk(2)欧氏距离(q二2)dij(2 卜 Xk丄2 1 /)2 j k )(3)切比雪夫距离(q八)dijC )=max1 辽k Mpikdj(L),Xik - XjkXik Xjk(二)马氏距离dj(M)=(X i X j)r 亍(X i X j)
11、(三)兰氏距离对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作p维空间的向量,一般用(一)夹角余弦cos可'、XikXjkpp(Xc X:)k z!k z!(二)相关系数prij' (Xik -XJ(Xjk -Xj) k =1pp、(Xik -Xi)2v (Xjk _Xj)k =1k =110在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?答:设dj表示样品X与Xj之间距离,用 Dj表示类G与Gj之间的距离。(1) .最短距离法DkXi m'n Grdj =minDkp,Dkq(2) 最长距离法Dpq
12、max diiXiWGp,XjWGq JDkr = X maxG dj 二 maxDkp,DkqXi -Gk ,Xj -Gr(3) 中间距离法2 1 2 1 2 _ 2DkrDkp -DkqDpq2 2其中(4) 重心法Dpq= (Xp-Xq)(XpXq)1Xr 5 pXp nqXq)2Dkr2Dpq(5)类平均法2Dpq1dij2npnq Xi Gp X j Gjnp 2"kpnr12 np丄dj p Dnk nr Xi Gk Xj Gr+ nD2kq nr(6) 可变类平均法Dir =(1_ ')( DkpDjq)Dpq精品文档nrnr其中一:是可变的且一:<1(7
13、) 可变法Dkr1-2(Dkp Dkq)Dpq其中一:是可变的且加<1(8) 离差平方和法nt_s 八(x“ -Xt)(Xit -Xt)t A2Dkrnk np nr nk2Dkpnk nq nr nk2Dkqnk2D pq11通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空 间距离概念。马氏距离有消除量纲影响的作用。(2 )要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析 之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择
14、是一个比较复杂且带有一定主观性的问题, 我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类, 然后对聚类分析的结果进行对比分析, 以 确定最合适的距离测度方法。12试述K均值法与系统聚类法的异同。答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累; 有时也可以借助系统聚类法以一部分样品为 对象进行聚类,其结果作为 K均值法确定类数的参考。13试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。
15、答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同 的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。14试述主成分分析的基本思想。答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为 止。这就是主成分分析的基本思想。15主成分分析的作用体现在何处?答:一般说来
16、,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数” 的同时又保留了原数据的大部分信息。16简述主成分分析中累积贡献率的具体含义。答:主成分分析把p个原始变量X1,X2,l|l,Xp的总方差tr (习分解成了 p个相互独立的变量pV rY,Yj|l,Yp的方差之和 y'k。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称取=入/£ K 为第k个主成分丫k的贡献率。第一主成分的贡献率最大,这表明
17、Y =X综合原始变量 X1,X2|l,Xp的能力最强,而2 ,Y3I ,Yp的综合能力依次递减。若只取m/ pm(: p)个主成分,则称-:m J k 7 -k为主成分Y1H,Ym的累计贡献率,累计贡献率k 土k 土表明Y,川,Ym综合X1,X2|l,Xp的能力。通常取 m,使得累计贡献率达到一个较高的百分 数(如85%以上)。17试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问
18、题。实际表明,这种差异有时很大。我们 认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替刀对于研究经济问题所涉及的变量单位大都不统一,采用R代替!后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。18试述因子分析与主成分分析的联系与区别。答:因子分析与主成分分析的联系是:两种分析方法都是一种降维、简化数据的技术。两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的
19、方向上为止,突出数据变异的方向, 归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因 子模型。19因子分析主要可应用于哪些方面?答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,因子 分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用
20、。因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判 断各自的影响和变化规律。20简述因子模型中载荷矩阵 A的统计意义。答:对于因子模型Xi 二 aiF ai 2F2 I Iaj Fj | aimFm;ii =1,21, pa11因子载荷阵为A= :2:IIIap1a22IIIap2IIIIIIIIIIIIa1ma2mIIIa pm=(A1, A2,|, Am)Xi 与 F j的协方差为:mCov(Xi,Fj)二Cov(' QkFk ;i,Fj)kTm= COV( _ aik Fk , Fj )
21、 Cov( -i,Fj)k m= aij若对Xi作标准化处理,=aij ,因此aij 一方面表示Xi对Fj的依赖程度;另一方面也反映了 精品文档变量Xi对公共因子Fj的相对重要性。m变量共同度hi?八ai2i =12川,pj 42 2 2 2 2D(XJ "*(斤)+ai2D(F2)+川+amD(Fm) + D(崎)=h +巧 说明变量X、的方差由 两部分组成:第一部分为共同度hi2,它描述了全部公共因子对变量Xi的总方差所作的贡献,反映了公共因子对变量 Xj的影响程度。第二部分为特殊因子 订对变量Xj的方差的贡献,通 常称为个性方差。p而公共因子Fj对X的贡献g:八ajj =1,2
22、,|l(,mi=1表示同一公共因子 Fj对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重 要性的一个尺度。21试分析因子分析模型与线性回归模型的区别与联系。答:因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系,用函数关系式表达出来。因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即该模型可用矩阵表示为: X=AF &Xi =aiF+&2F2+川+aimFm+耳,(i =21,山 p)而回归分析模型中多元线性回归方程模型为:其中是常数项,是偏回
23、归系数,是残差。'I(3) D F =D( F )=!o122(4)D=D( 9=因子模型满足:(2) Cov(F, 9=0,即公共因子与特殊因子是不相关的;01=1 m,即各个公共因子不相关且方差为1 ;01,即各个特殊因子不相关,方差不要求相等。二2而回归分析模型满足(1)正态性:随机误差(即残差) e服从均值为0,方差为于的正 态分布;(2)等方差:对于所有的自变量 x,残差e的条件方差为 F,且;为常数;(3)独 立性:在给定自变量x的条件下,残差e的条件期望值为0 (本假设又称零均值假设);(4)无自相关性:各随机误差项 e互不相关。两种模型的联系在于都是线性的。因子分析的过
24、程就是一种线性变换。22什么是典型相关分析?简述其基本思想。答:典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。 典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。基本思想:(1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即:若设x=(Xi,x21),ih,xP1)、x=(Xi,x22),i|,Xq)是两组相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量Ui、Vi,使是原变量的线性组合。Ui"1Xi&X21
25、)7X1 a XV书XfE)x22)电xq2)b(i) X在D(aX)二D(bX)=1的条件下,使得 ?(aX,bX)达到最大。(2)选取 和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。23什么是典型变量?它具有哪些性质?答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说,X(1(Xi(1),x21), ,xpi)、X=(Xi x22),ill,xq2)Ui F(i)Xi+a2i)x2i)+3妝1 a(i)XVi fxi(2)
26、朗x22)bq“xq2)b(i)x(2)在D(a(i) X)二D(b(i) X)=1的条件下,使得(a(i) X,b(i) X)达到最大,则 称aX、bX是X、X的第一对典型相关变量。典型变量性质:典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。1. D(UQ 邛,D(VQ (k=12|l(,r)Cov(Ui,Uj) =0,Cov(Vi,Vj) =0 (i = j)i =0 (i = j,i =1,2,|l|,r)2. Cov(Ui,Vj) = 0(i = j)o(j>r)24试分析一组变量的典型变量与其主成分的联系与区别。答:一组变量的典型变量和其主成分都是经过线性变换计算
27、矩阵特征值与特征向量得出的。 主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖 关系之中,度量了这两组变量之间联系的强度。1.在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明最短距离法为类与之间的距离为两类最近样品的距离;最长距离法为类与之间的距离 为两类最远样品的距离;中间距离法用介于最长与最短两者之间的距离;重心法定义类间距离为两类重心(各类样品的均值)的距离;类平均法定义类间距离平方为这两类元素两两之 间距离平方的平均数;可变类平均法将G和合并为新类,反映出和之间的距离的影响;如果中间法的前两项的系数也依赖于 iGrG GiGpjGqGpGqGpqDqG,那么用可变法如果将和合并为 新类;离差平方和法则是先将个样品各自成一类,然后每次缩小一类, 每缩小一类,离差平方和就要增大,选择使方差增加最小的两类合并,直到所有的样品归为一类为止pGrGn25 试述主成分分析的基本思想。 精品文档答:我们
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版学校校办工厂风险管理与承包经营合同3篇
- 二零二五年度木材市场行情预测与分析咨询合同4篇
- 2025年度环保材料研发与生产合作合同范本4篇
- 2025版旅游度假区租赁与旅游服务合作协议3篇
- 2025年度智能交通系统保密管理与服务合同
- 二零二五年度科技型中小企业贷款合同
- 2025年度知识产权授权委托书签订协议
- 2025年度门面出租合同终止与租赁合同终止后合同解除及违约赔偿协议
- 2025年度银行存款账户远程开户服务协议
- 2025年度私人房产使用权转让与智能家居系统安装合同
- 2024年全国体育专业单独招生考试数学试卷试题真题(含答案)
- 北师大版小学三年级上册数学第五单元《周长》测试卷(含答案)
- DB45T 1950-2019 对叶百部生产技术规程
- 2025届河北省衡水市衡水中学高考仿真模拟英语试卷含解析
- 新修订《保密法》知识考试题及答案
- 电工基础知识培训课程
- 住宅楼安全性检测鉴定方案
- 广东省潮州市潮安区2023-2024学年五年级上学期期末考试数学试题
- 市政道路及设施零星养护服务技术方案(技术标)
- 选择性必修一 期末综合测试(二)(解析版)2021-2022学年人教版(2019)高二数学选修一
- 《论语》学而篇-第一课件
评论
0/150
提交评论