版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
|)22"|)22") (解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,度函数是一个p维的函数,而边际分布讨论是X=(X,X,12X=(X,X=(X,X,pX),的子向量的概率分布,其概率密度p2.2设二维随机向量(XX),服从二元正态分布,写出其联合分布。2解:设(X1X),的均值向量为μ=(A212(装12.3已知随机向量(XX),的联合密度函数为2f(x,x)=1212c12(1)随机变量X和X的边缘密度函数、均值和方差;(2)随机变量X和X的协方差和相关系数;(3)判断X和X是否相互独立。(1)解:随机变量X和X的边缘密度函数、均值和方差;f(x)=jddxcc==c0所以由于X服从均匀分布,则均值为,方差为。1212--------------------------------------------------------------------------------------------------------------------------------------------12x2X服从均匀分布f(x)d2x22022为。为(2)解:随机变量X和X的协方差和相关系数;1212312x12(3)解:判断X和X是否相互独立。X和X由于f(x,x)f(x)f(x),所以不独立。1212x11x222.4设X(X,X,X)服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相互独立的12p解:因为X(X,X,X)的密度函数为12p2222又由于Σ2p222p||||||l()|(1)||装|1|1|||装22||||||||1||| (p)| (p)(1)p((1||1||1|||||||1装22))|||)||||||||||||Jpp12n机向量之和,所以X也服从正态分布。又niin-1iii=1i=1---------------------------------------------------------------------- (n****)**Ζ)= (n****)**Ζ)=XXXΓ)ii=1=xn(X-μ)(X-μ),-2xn(X-μ)(X-μ),+n(X-μ)(Xμ-Xμ),iiiii=1xnXXnXXnX)(X-μ),ii=xn(X-μ)(X-μ),-n(X-μ)(X-μ),iii2.9.设X,X,...,X是从多元正态分布X~N(μ,Σ)抽出的一个简单随机样本,试求S的分布。(1)(2)(n)p|*(*|*|||1|令Ζ=(Ζ1Ζ2ij(),nn1ni 所以Z,=(ZZZ)独立同正态分布。且有2nnΖnΖ=ninniiiaajjj=1=nxnr1μ=nμxnr,r=0ajnajnjj=1i=1Var(Ζ)=Var(xnrΧ)aajjj=1----------------------------------------------------------------------ajj=1ΖΖ2jj=1Ζn-1aj独立同N(0,Σ)分布。又因为S=xn(X-X)(X-X),jji=1=xnXX,-nXX,jjj=1n1xnX)|,=ZZ,nin1xnX)|,=ZZ,ni)nnxnXX,=(Xjj1j=1=(ZZ21X2…Xn1X2j=1j=1故S=zz,,由于Z,Z,,Z独立同正态分布N(0,Σ),所以jj12n-1pj=1zzWnxjjpj=12.10.设X(n〉p)是来自N(μ,Σ)的简单随机样本,i=1,2,3,,k,iipiik12ka=1i=112kii-1(xaaiμ)]a--------------------------------------------------------------------------------------------------------------------------------------------00222iaia?Σ22iaia?μijjji=1=x=1xnjx,Σˆ=j=1i=1ijjijjjjnijn+n+...+nji=112k第三章和H1;第二,给出检验的统计量及其服从的分布;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或拒绝域单一变量中z=0n完t=0nS i=1一个正态总体H:μ=μ00000协差阵Σ未知T2~F(p,n一p)0a 012nmaF=Z,S-1Z~apaF=F=Z,S-1Z~F(p,n-p)pa0EEEkF>Fa0p0p00p0k012k12iikiii=1S2pppp(2)威尔克斯分布在实际应用中经常把统计量化为T2统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。^与F统计量的关系FF统计量及分别p^(p,n,1)11p^(p,n,2)11n^(2,n,n)2112p12n1n212012k1ij用似然比原则构成的检验统计量为EETA+Es。则欧几里得。则欧几里得距离为维欧几里得空间Y=。欧几。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲设GDXY==具有某种最优性质,互不相交,且它们的和集为互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意p简述距离判别法的基本思想和方法。判别问题设有协方差矩阵G和G,其均值分别是m和m,对于一个新的样品X,要判断它来自哪1212个总体。计算新样品X到两个总体的马氏距离D2(X,G)和D2(X,G),则12XG121121D2(X,G)-D2(X,G)2=(X-μ),Σ-1(X-μ)-(X-μ),Σ-1(X-μ)12222222X-μ)12((μ+μ)=-2|X-1=-2|X-12|Σ-1(μ-μ)WXX判别规则为XXXX设有k个总体G,G,…,G,其均值和协方差矩阵分别是μ,μ,…,μ和Σ,Σ,…,Σ,且12k12k12kΣ=Σ=…=Σ=Σ。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。12kaaaaa别函数为2aa,aaaaaa法。基本思想:设k个总体G,G,…,G,其各自的分布密度函数f(x),f(x),…,f(x),假设k个总体各12k12k12kiiiji=1设k个总体G,G,…,G相应的p维样本空间为R=(R,R,…,R)。12k12k在规则R下,将属于G的样品错判为G的概率为ijjiRj这种判别规则下样品错判后所造成的平均损失为j=1则用规则R来进行判别所造成的总平均损失为g(R)=xkqr(i,R)=xkqxkC(j|i)P(j|i,R)ii贝叶斯判别法则,就是要选择一种划分R,R,…,R,使总平均损失g(R)达到极小。12k基本方法:g(R)=xkqxkC(j|i)P(j|i,R)=xkqxkC(j|i)jf(x)dxiiRiiji=1j=1j=xkj(xkqC(j|i)f(x))dx令xkqC(j|i)f(x)=h(x),则Riiiijj=1ji=1i=1g(R)=xkjh(x)dxRjj=1j--------------------------------------------------------------------------------------------------------------------------------------------12kR*jj=1j则在两种划分下的总平均损失之差为g(R)g(R*)=kkj[h(x)h(x)]dxRR*iji=1j=1ij因为在R上h(x)h(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。iij法。pU(X)=uX+uX++uX=uX1122pp系数u=(u,u,…,u)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个 12p 指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总类型。因此前两者相对来说较为简单。作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判④④距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是X,W(X)X,W(X)<lnd距离判别的判别规则是X,W(X)X,W(X)<0二者的区别在于阈值点。当q=q,124.7设有两个二元总体和和从中分别抽取样本计算得到,,==,==项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。个点。点之间的距离即可代表样品间的相似度。常用的距离为(一)闵可夫斯基距离:(一)闵可夫斯基距离:ijikjk(1)绝对距离(q=1),(2)欧氏距离(q=2),d(1)=pXXijikjkijikjk(3)ijikd()=maxXijik(二)马氏距离d(L)=1pXikXjkijpX+Xk=1ikjkD2=1D2=1d2=npD2krnnijnkp+qD2nkqr(三)兰氏距离d2(M)=(XX),Σ1(XX)ijijij(一)夹角余弦pXXikjkikjkikjkij(二)相关系数p(XX)(XX)ikijkjr=k=1rijp(XX)2p(XX)2ikijkj?dXX离,用D表示类G与G之间的距离。ijijijij (1).最短距离法D=mindDXGin,Xj=Gdjij=min{D,D}ik,jrkrX=GXik,jr(2)最长距离法D=maxdip,jip,jqijD=maxd=max{D,D}ik,jrkrX=GXik,jr(3)中间距离法kr2kp2kqpq(4)重心法D2=(XX),(XX)pqpqpqX=(nX+nX)rnppqqrnnnnD2=pD2+qD2pqD2krnkpnkqn2pqrrrpqnn(5)类平均法D2pqnnpq(6)可变类平均法ipipd2ijX=GjX=GkrXi=GkXj=GrrnDDkrnkpnkqpqrr(7)可变法D2=(D2kr2kp(8)离差平方和法kqpqtittittkrn+nkpn+nkqnkrn+nkpn+nkqn+npqrkrkrk问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X,X,…,X表示n个有序的(1)(2)(n)样品,则每一类必须是这样的形式,即X,X,…,X,其中1in,且jn,简记为(i)(i+1)(j)G={i,i+1,…,j}。在同一类中的样品是次序相邻的。一般的步骤是1)计(算直径{D(i,j)}。(2)i(1)用最短距离法进行聚类分析。采用绝对值距离,计算样品间距离阵采用绝对值距离,计算样品间距离阵01021054308763098520,0306308520,计算样本距离阵计算样本距离阵030630(2)用重心法进行聚类分析01041025169064493690100816425400160 ---------------------------------------------------------------------- 4990812540=4于是将计算样本距离阵016064160中最小元素是于是将,聚为一类,记为答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二的信息与原指标差不多时为止。这就是主成分分析的基本思想。答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的6.3简述主成分分析中累积贡献率的具体含义。答:主成分分析把p个原始变量X,X,,X的总方差tr(Σ)分解成了p个相互独立的变量12p----------------------------------------------------------------------YYpkkkXYk的贡献率。第一主成分的贡献率最大,这表明=X综合原始变量X,Xp2pkk成分Y,,Y的累计贡献率,累计贡献率表明Y,,Y综合X,X,,X的能力。通常取m,使得1m1m12p累计贡献率达到一个较高的百分数(如85%以上)。正确?说明理由。之和主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬同理,计算得,主成分为)’的协方差阵(p为p1征根,其对应的主成分为。====,,,==答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如么因子分析可以说是将原指标给予分解、演绎。试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开从而判断各自的影响和变化规律。7.3简述因子模型中载荷矩阵A的统计意义。ii11i22ijjimmia|||||||| a m X与F的协方差为:ijijikkijikkjijijXXi=a,因此a一方面表示X对F的依赖程度;XiijijijF对公共因子j的相对重要性。iijj=1immiiiiii11i22分组成:第一部分为共同度h2,它描述了全部公共因子对变量X的总方差所作的贡献,反映了公共因子 ii 对变量X的影响程度。第二部分为特殊因子c对变量X的方差的贡献,通常称为个性方差。iiiFXg=xpa2j=1,2,,mjjij表示同一公共因子F对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺jj是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。A*=AΓ=(a*),d=a*/hijijd=a*/hijijijpiji=1A*的第j列元素平方的相对方差可定义为V=1xp(d2_d)2jpijji=1②V=V+V++V1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 顶撞领导检讨书范文
- 投标财务状况承诺书
- 队长工作计划5篇
- 施工组织设计-宜川至瓦子街高速公路QL2合同段施工组织设计
- DB12-T 602-2023 城市轨道交通运营安全管理规范
- 甘肃省定西市(2024年-2025年小学五年级语文)统编版期中考试((上下)学期)试卷及答案
- 四川省凉山彝族自治州(2024年-2025年小学五年级语文)人教版小升初模拟(下学期)试卷及答案
- 2023年高效沼气脱硫设备投资申请报告
- 2024年医学诊断服务项目资金筹措计划书代可行性研究报告
- 高二体育课与健康教案集
- 战争中的经济学家
- 周亚夫军细柳(教师版)-十年(2013-2022)中考真题之课内文言文(全国通用)
- 供水公司招聘抄表员试题
- 成长赛道-模板参考
- 浙江省9+1高中联盟2022-2023学年高二上学期期中考试地理试题(解析版)
- 新生儿家庭参与式护理课件
- 酒店装修施工组织设计方案
- 大数据对智能能源的应用
- 血液透析预防体外循环凝血的策略护理课件
- 潜式排污泵安装与调试方案
- 检验生殖医学科出科小结
评论
0/150
提交评论