多元统计分析期末考试考点整理

上传人：唯*** IP属地：河北上传时间：2021-11-09 格式：DOCX 页数：13 大小：129.21KB 积分：12 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、多元统计分析题型一定义、名词解释题型二计算（协方差阵、模糊矩阵）题型三解答题一、定义§ 1随机向量及其分布一、随机向量的联合分布设司,4为是定义在样本空间Q上的9个随机变量，则称（国/心，是七维随机向量（或为维随机变量）.中元函数产（田一马，,.i） =尸工G g .号,，为" 称为中维随机向量国.才",苞y的联合分布函数.如果存在非负可积函数/&.4.）,使得产（4巧，7J Z，Jj小心心dF 则称是夕维连续型随机向量，称八为（国&*力了的联合分布密度.§ 2 的机向量的数字特征一、随机向量的数学期望（均值）定义1设了=（为工.y

2、,若与（工二）=%，z，中存在, 则称EF = 01；,左1/=（氏中r，/J = N为片TJ的数学期望（向量）.设片=（卷），称1为随机矩阵，称ZT = （©；）“为随机矩阵工的数学期望（矩阵）.二、边缘分布称2维随机向量,为），的分量构成的子向量的概率分布为.为）'的边缘分布.设夕维随机向量.为）'的分布函数为产（22,.），则关于用的边缘分布函数为£（管）=PXf < Xf = A+S,.+8,必+C0,+8）,设维连续型随机向量（%,4,为）'的联合分布密度为/（.卬0,与），则关于.的边缘分布密度为/（工）=J二j二"&

3、#39;£-1'七，¥+1，年）火局.四、协方差矩阵的性质设工，厂为随机向量，*, B为常数矩阵，贝IJ 性质 1 CoyAX, BY） = A CoxX, >） B,性质 2 LAX） = ALX）A五、协方差矩阵r的代数性质记 s = zzr,1 . Z为非负定矩阵,即对Da e AJ有aEa / 0 .记号：若E为非负定矩阵，则记作EN。，若工为正定矩阵，则记作Z>0.二、数学期望的性质设X,y为随机矩阵，,八夕为常数矩阵，则性质 1 EAX) = AEX.性质 2 E(.4XB) = A EX B,性质 3 EJ) = EXEY.三、协方差矩阵定

4、义2设%=(国昌，为丫，=(4，)，若可(/),/=1, 2. P, 7 = 1, 2.，/存在，则称工，)=EX-EX)Y-Eiy=而您/)】内为随机向量工与尸的协方差矩阵.当。1)=0时,称随机向量1与厂不相关.称CoyX.X) = DX为随机向量X的协方差矩阵.显然，协方差矩阵是一个对称矩阵.定义3 称火=4%为随机向量1的相关阵由相关系数的概念，显然有勿=1, |共1, /.八L 2,，p.(1)最矩距离法(Nearestneighbor)考虑月个样本构成的距离矩阵，定义G与$之间的距离为两类最近样品的距离，即(3-3-29)£)= min 4,现在设G,与G合并为一个新类

5、记为5,则任意一类G.与G的距离为y mm d”=min( min d* min ) = min(Dv,D).(3-3-30)2 .若E为正定矩阵,则有下述等价结论.Z>0o3非奇异方阵乙使£ = .Z>0 o 3正交矩阵I，使E= MZg(44 其中，>0./= L2,，.为Z的全部特征根.(3) E >。o工的任一主子式均大于零.(4) £ > 0 o Va w 火尸,有 aa > 0 ,且 a£a = 0 o a = 0.(5)S>0<=> £7存在且S-l>0.§ 3多元总体

6、一、多元总体设观测指标为则才;工./7构成一个维随机向量1=(；4 C，1的一切可能取值的全体就构成了元总体，仍记作"维随机向量1的概率分布即为所对应总体的概率分布，X 的数字特征也即为所对应总体的数字特征.二、样本观测阵设对元总体才二5,为)'进行了次观测，记为第/次的观测结果($L 2，每次的观测结果称为一个样品.如果满足：% , 4），花）相互独立；（2）每个一%均与总体I具有相同的概率分布.称小为来总体的一个容鼠为的简单随机样本，仍简称为样本.称样本观测值的个体构成的矩阵为样本观测阵（资料阵）.三、样本数字特征%112Xp叫用2 % . 二% % 。吊吊吃

7、）25W 4 1 .样本均值（向量）记弓=上£一称=（.不元.七）'为样本均值向最. “12,样本离差阵记= X（%-吊）（ -可），称s= （%）”为样本离差阵.3 .样本协差阵毛尔“=_Ls=（-L7 s.“:为样本协差阵.4 .样本相关阵称天=（弓）上夕为样本和I关阵.§1-3.1多元正态分布定义1.5：若夕元随机向量X=（不&，| 的概率密度函数为： /（七，力尸）" 二万; exp - 3（x f）2一（x -“（2万），iXf|/>0）（1.24）则称x=（x，乜,，为了遵从。元正态分布，也称虺P元正态变量。记为X N&a

8、mp;A）|Z|为协差阵Z的行列式。二、一般的正态分布设随机向量、=（与,天,，巧,），若其的密度函数为/（不+，,x）=（如"2国-仁 exp-g（x-M£T （%-/）-oo<A； V+oc其中、=（不多,xy的均值为石（x）=«"j,a .从y(x, /aX-Vi _i)(x一"XX 一“)协方差为（x /4 X。Z4）（玉一“）（x 一）（七一幺）2（吃一幺Xx -4,） .；WTa一x.q“）（xp_/Y 称x =（不受，,巧,）服从均值为E（X）,协方差为E的正态分布。马氏是巨商定义：设总体6为，维总体（考察，个指标），

9、均值向量为 = （,=2，一,一,）'，协方差阵为x=（，），则样品 X=（xx2,.,x/n） z与总体G的马氏距离定义为2（X,G） = （X -）T（X -）当/n = 1H寸, 2 （x, G）=（一"） , ）=bb二名词解释1、多元统计分析：多元统计分析是运用数理统计的方法来研究多变量（多指标）问题的理论和方法，是一元统计学的推广2、聚类分析：是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化3、随机变量：是指变

10、量的值无法预先确定仅以一定的可能性（概率）取值的量。它是由于随机而获得的非确定值，是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地，所有元素都是随机变量的矩阵称为随机矩阵。4、统计量：多元统计研究的是多指标问题，为了了解总体的特征，通过对总体抽样得到代表总体的样本，但因为信息是分散在每个样本上的，就需要对样本进行加工，把样本的信息浓缩到不包含未知量的样本函数中，这个函数称为统计量三、计算题T6 72、1.设1 =（A.科啊）砥口花）,其中#=（1Q2）6= -44-1 2-14试判断巧+ 2巧与屋L餐是否独立？解:10-6-15=_61520-16 2040故出

11、此的联合分布为I故不独立。-1620 )40,2、82.0)60.2 455)-1 = (115,6924)-1、104.3107-14.62108.946414.62103.172-37 376089464、-37 376035.59362、对某地区农村的6名2同岁男婴的身高、胸围、上半曾圉进行测量,得相关数据如下，根据以往资料，该地区城市2周岁男婴的这三个指标的均值外二(为5%16现欲在事元正态性的假定下检验读地区农村男婴是否与城市男婴有相同的均值.答:2、假设检验问题；/邛=回% R工内 r-8,o>经计算可得；X-出=2 2 .(43107-1462108 9464、L 二(

12、231384司-14.62103.172-37.3760、8 9464-37 3760 35.5936 ；构造检验统计量1F =M/-晶)节(”= 6x70,0741 = 420,445由题目已知/1(3,3) = 29.5,由是琉广学/。3) = 147.5所以在显著性水平s= 0 01下，拒绝原设与即认为农村和城市的2周岁男婴上述三个指标的均值有显著性差异(a = 0.01, oiC,2) = 99.2, Oi 03) =29 5,况00,4) =16.7)答:4、设 =过,凡名劣尸砥(。，办协方差阵£= pP(1)试从E出发求X的第一总体士成分,(2)试1司当取多大时才能

13、A14由P-P-P主成分的贡献率达95%以上. =0得特征根为4=1;-pa -i得项对应的单位特征向量为仁1故得第一主成分八%亭#舞+兴(2)第一个主成分的贡献率为"的上 95% 4 H+44得p3U.95;4 二1 再 0933题型三解答题1、简述多元统计分析中协差阵检验的步骤答：第一，提出待检验的假设和H1;第二，给出检验的统计量及其服从的分布；第三，给定检验水平，查统计量的分布表，确定相应的临界值，从而得到否定域；第四，根据样本观测值计算出统计量的值，看是否落入否定域中，以便对待判假设做出决策（拒绝或接受）。2、简述一下聚类分析的思想答：聚类分析的基本思想，是根据一批样

14、品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量，然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类，把不相似的归为其他类。直到把所有的样品（或指标）聚合完毕 3、多元统计分析的内容和方法答：1、简化数据结构，将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量，使研究问题得到简化但损失的信息又不太多。（1）主成分分析（2）因子分析（3）对应分析等2、分类与判别，对所考察的变量按相似程度进行分类。（1）聚类分析：根据分析样本的各研究变量，将性质相似的样本归为一类的方法。（2）判别分析：判别样本应属何种类型的统计方法。4、系统聚类法基本原理和步骤

15、答：1）先计算n个样本两两间的距离2）构造n个类，每个类只包含一个样本3）合并距离最近的两类为一新类4）计算新类与当前各类的距离5）类的个数是否等于 1,如果不等于回到 3在做6）画出聚类图7）决定分类个数和类5、聚类分析的类型有：答：（1）对样本分类，称为 Q型聚类分析（2）对变量分类，称为 R型聚类分析# Q 型聚类是对样本进行聚类，它使具有相似性特征的样本聚集在一起，使差异性大的样本分离开来。#R型聚类是对变量进行聚类，它使具有相似性的变量聚集在一起，差异性大的变量分离开来，可在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数，达到变量降维的目的。6、简述欧氏距离与马

16、氏距离的区别和联系。4"简述欧氏距离与马氏距离的区别和版系.答I设p维空间RP中的两点X=（XpX2XPy和Y= YpY2- Yp '.则欧氏距离为欧氏距离的局限有在多元数据分忻中，其度量不合理.会受到年问题中戮冈的哥响口设2,¥是来自均值向量为Id，协方差为上的总体G中的p维样本.则马氐K巨离为 1 1D国了:X 丫'上 XY 1，当工 =【即单位阵时，D （兄力=X Y ' X丫=匕1（及Y = 3海切辑1欧氏距离口因此，在一定程度上，欧氏E巨离是马氏距离的特殊情况，马氏距离是欧氏距离的推广.7、试述系统聚类的基本思想。答：系统聚类的基本思想是

17、：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。8对样品和变量进行聚类分析时所构造的统计量分别是什么？简要说明为什么这样构造？答：对样品进行聚类分析时，用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为（）明氏距离；&因或尤萨匕-1q取不同值,分为声（1）绝对距离7）%（D = X 1彦诋-石加|（2）欧氏距离 m%（2）=（±|以一*/产（3）切比雪夫距离（:守=8）/ Ce） = 代乐一X排1户X.王避（-）马氏距离八 9 L片&

18、 ,，（二）兰氏距离= CKg XJ）X1（X1 -Xp对变量的相似性，我们更多地要了解堂量的变化趋势或变化方向，因此用怕关性迸行衡量.将变量看作p维空间的向量，一般用（一）夫角余以温F F（二）相关系数7 _ ，9、在进行系统聚类时，选择距离公式应遵循哪些原则？答：（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。10、欧式距离的优点缺点答：欧式距离(Euclid距离)* =(%"初尸产O优点：几何意义明确，简单，容易掌握，由于中学数学就已初步接触，数学知识不多的人也可以把握它的基本含义。缺点：从统计学的角度看，使用欧式距离要求一个向量

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多元统计分析期末考试考点整理

文档简介

温馨提示

最新文档

评论

多元统计分析期末考试考点整理

文档简介

温馨提示

最新文档

评论

相关文档