版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元统计分析 作者:胡本田 Email: 第二章 随机向量第一节 一元分布一、随机变量与概率分布函数(一)随机变量1.定义:随机变量是随机事件的数量表现,一般用x、y、z表示。随机事件,指在随机试验中,可能出现、也可能不出现的结果。2.特点:(1)取值的随机性;(2)取值的统计规律性。(二)概率分布函数1.定义:用函数(公式)来描述随机变量的所有可能值及其相应的概率,称作随机变量的概率分布函数。设x是一个随机变量,a是任意实数,函数F(a)=P(xa)称为随机变量下的概率分布函数(简称分布函数)。2.性质:(1)F(x)是非降函数,即若x1x2,则F(x1) F(x2);(2) 0, 1;(3
2、)F(x)是右连续函数,即F(x+0)F(x);(4)0F(x)1。3.类型:(1)离散型分布设离散型随机变量x 的可能取值为a1,a2 , ,取这些值的概率分别为p1, , p2 , ,则称P ( x = ak)= pk,k = l , 2 ,为离散型随机变量x 的分布列或分布律,它具有如下两个性质:(i)pk0 ,k1,2,(ii) 。x 的分布函数可表示为F ( a )(2)连续型分布若随机变量x的函数f(x)与x轴所围成的面积等于1,则称f(x)为连续型随机变量的概率密度函数。那么随机变量x落在a,b上的概率,就是f(x)与x轴及xa,xb之间的面积,即P(axb)那么随机变量x的分布
3、函数为 F(a)有P(axb) F(b)F(a)密度函数f(x)具有如下两个性质:( i ) f ( x ) 0 ;( ii ) 。二、随机变量的数字特征(一)数学期望1.定义:数学期望是随机变量的平均值,实际上就是x的各个可能取值以其概率为权数的算术平均数,记为或E(x)。离散型随机变量x 的数学期望(或称均值)E(x)连续型随机变量x的数学期望(或称均值)E(x)2.性质:(l)设C 是常数,则E(C)C;(2)设C 是常数,x 是随机变量,则E(Cx) = CE(x);(3)设x1 , x2 , ,xn为n个随机变量,则E(x1 + x2xn)E(x1 ) + E (x2) E(xn)(
4、二)方差1.定义:方差是随机变量离差平方的数学期望。对于离散型随机变量x,V(x) ;对于连续型随机变量x,V(x) 方差的一个简便计算公式是:V(x)=2.性质:(1)设C 是常数,则V ( C ) = 0 。(2)设C是常数,x 是随机变量,则V ( Cx ) = C2V(x)(3)设x1, x2, ,xn为n 个相互独立的随机变量(即这n 个随机变量中任一个随机变量的取值皆不受其余n1 个随机变量取值的影响),则V(x1 + x2xn)V(x1) + V (x2) V(xn)三、一些重要的一元分布1.二项分布若离散型随机变量x 的分布列为 ,k0,1,n其中0p 1 , q =1-p ,
5、 n 为自然数,为从n个元素中取k个元素的组合数,则称x 服从二项分布,记作x b(n ,p)。当n1 时,相应的分布称为二点分布。2超几何分布若离散型随机变量x 的分布列为 k0,1,min(n,M)则称x 服从超几何分布,记作xH ( M , N ,n)当N 很大,n 相对较小时,超几何分布近似于二项分布,即其中pM/N , q1p ,这种近似可使计算量大为减少。3泊松分布若离散型随机变量x 的分布列为P(x=k)= ,k = 0,l,2,其中参数0,则称x 服从泊松分布,记作xP()。在np 恒定的条件下,当n 趋向无穷,同时p 趋于零时,二项分布趋向于泊松分布。因此,当n 很大,p很小
6、时,有如下的近似公式:4正态分布若连续型随机变量x 的概率密度函数为f(x)其中参数是数学期望,是标准差,则称x 服从正态分布,记作xN(,2)。其分布函数为F(x)当=0,=1时,称x服从标准正态分布,记作xN(0,1)。其概率密度函数为其分布函数为正态分布具有下述基本性质:(1)设xN(,2),yaxb,其中a(a0)、b 为任意常数,则yN ( ab , a22 );(2)设x1, x2, ,xn相互独立,且xiN (i,i2), i =1 , 2 , ,n ,则对任意n 个常数k1, k2, ,kn(不全为零),有5卡方分布设随机变量x1, x2, ,xn皆服从N( 0,1 ) ,且相
7、互独立,则随机变量x = 所服从的分布称为卡方分布,记作x2(n ) ,其中参数n称为自由度,卡方分布的密度曲线如图1 所示。6.t分布设随机变量xN(0,1) , y2( n ) ,且x 与y 相互独立,则随机变量t 的分布称为t分布,记作tt(n),其中参数n称为自由度。t 分布的密度曲线如图2 所示。图27.F 分布设随机变量x2(n ) , y2( m ) ,且x 与y 相互独立,则随机变量F 的分布称为自由度为n 和m 的F 分布,记作F F(n,m)。F 分布的密度曲线如图3所示。图3第二节 多元分布一、随机向量把 p 个随机变量放在一起组成的向量 X=(X1,X2,Xp), 则称
8、为一个p维随机向量。 即向量的分量或元素都是随机变量,称为随机向量。如果同时对p个变量作一次观测,得观测值:(x11,x12,x1p)x/(1),它是一个样品;观测n次得n个样品:(xi1,xi2,xip)x/(i)(i1,2,n),而n个样品就构成一个样本。把n个样品排成一个np的矩阵,称为样本数据阵,记为二、多元概率分布(多元联合分布)设X=(X1,X2,Xp)是 p 维随机向量,称 p 元函数为X的多元联合分布函数。性质:(1) F ( a1 , a2 , ,ap)是每个变量xi ( i1,2,p )的非降右连续函数;(2) O F ( a1 , a2 , ,ap)1;(3) F ( ,
9、 a2 , ,ap)F ( a1 , , ,ap)F ( a1 , a2 , ,)0(4) F ( , , ,)1 。三、两个常用的离散型多元分布1 多项分布若随机向量x(x1,xm)/具有如下的多元分布列P (x1k1,xmkm)ki = O , 1 , ,n , i = 1 , ,m , kl kmn其中0pi1 , i1, ,m , p1 pm = 1 ,则称随机向量x 服从多项分布。2 多元超几何分布若随机向量x (x1,xm)/ 具有如下的多元分布列P (x1k1,xmkm)ki = 0 , 1 , ,min ( n , Ni) , i = 1 , ,m , k1 km= n其中N1
10、 +Nm=N , N1, ,Nm为自然数,则称随机向量x 服从多元超几何分布。四、多元概率密度(多元联合分布密度函数)若存在非负函数 f (x1,x2,xp),使得随机向量X的联合分布函数对一切(x1,x2,xp) 均可表示为则称X为连续型随机向量,称f(x1,x2,xp),为X的多元联合概率密度函数(多元联合分布密度函数),简称为多元密度函数或密度函数.对于给定的分布函数F (x1,xp ) ,若f (x1,xp)在点(x1,xp)连续则有f (x1,xp) 多元密度f(x1,xp)具有下述两个性质:五、边际分布(边缘分布)若x为p维随机向量,由它的前q个分量组成的q维随机向量X(1)的分布
11、完全取决于全部变量的联合分布。由全部变量的联合分布得出的其中部分随机向量的联合分布叫做随机向量X(1)的边缘分布。若x的分布函数为F(x),则X(1)的分布函数为:所以X(1)的边际密度为例 有概率密度函数 试分别求 的边际密度。六、条件分布条件分布就是在所考察的随机向量的部分分量已给定的条件下,其余部分分量的概率分布. 若A和B是任意两个事件,且 ,则称为在B事件发生的条件下,事件A发生的条件概率。考虑随机向量 ,其中 表示人的身高(单位:米), 表示人的体重(单位:公斤),在身高为1.9米的人群中,体重 的分布就再也不是原来的分布了。而是在 的条件分布。若(X,Y)有分布密度f(x,y),
12、Y的边缘分布密度为g(y),则:令b a,dc,若g(c)0则得:用x代替a并用y代替c,则上式可以写成:这里f(x/y)就是给定随机变量Yy时,随机变量X的条件密度。一般地,若随机向量X(X(1),X(2))和其部分分量X(2)分别有分布密度f(x(1),x(2))和g(x(2)),则当给定部分分量X(2)x(2)时,另一部分分量X(1)的条件密度为: 例 设X=(x1,x2)有概率密度函数试求条件密度函数f(x1/x2)和f(x2/x1)。所以先求 七、独立性若两个随机向量X(Xl,X2,Xp)和Y(Y1,Y2,Yq)满足关系式:且该关系式对一切u,v均成立,则称随机向量X和Y相互独立。显
13、然,若F(x,y)为随机向量X与Y的联合分布函数,G(x)和H(y)分别为x和y的边缘分布函数,则X与Y相互独立时,二者的联合分布函数必然等于二者各自边缘分布函数的乘积。即有:F(x,y)=G(x)H(y)设xl,、xn是n个随机向量,若对一切xl,、xn成立,则称xl,、xn相互独立。 例 设X=(x1,x2,x3)有概率密度函数试证 x1,x2,x3相互独立。第三节 多元分布的特征指标一、 随机向量 X 的均值向量若 存在,则称为随机向量 X 的均值向量.设 是两个随机向量性质:(1)若A为常数矩阵,b为常数向量,X为随机向量,则有:(2)若A和B为常数矩阵,X相Y为随机向量,则有:设X(
14、Xij)是元素为随机变量Xij的一个随机矩阵,则其均值矩阵为:二、随机向量 X 的协方差阵为随机向量 X 的协方差阵.若 Xi 和 Xj 的协方差 Cov( Xi , Xj ) 存在(i,j=1,p),则称三、 随机向量 X 和Y 的协方差阵(其中 O 表示零矩阵)则称X 与 Y 不相关.若为随机向量 X 和 Y 的协方差阵.若 Xi 和 Yj 的协方差 Cov( Xi , Yj ) 存在(i=1,p , j=1 ,q ),则称性质,设x和y为随机向量,A和B为常数矩阵,为实数,a为常数向量,则协差阵具有下列性质:四、随机向量 X 的相关阵任意两个变量之间的相关系数,有:若记 为标准差矩阵,则
15、或为随机变量Xi的方差,而 为Xi的标准差(i =1,p ),.这里 若 Xi 和 Xj 的协方差 Cov( Xi , Xj ) 存在(i , j=1,p ), 称为X 的相关阵.其中相关矩阵的计算也可通过先对随机向量中的各个分量进行标准化,然后再计算其协差阵的方法得到。第四节 统计距离和马氏距离一、欧氏距离(直线距离)任意两个点P(x1,x2,xp)与Q(y1,y2,yp)之间的欧氏距离为:d(P,Q)优点:常见,便于理解,计算简单。缺点:1.假设每个坐标对欧氏距离的贡献相等;2.欧氏距离与每个指标的计量单位有关;3.没有考虑各个变量之间的相关性。二、统计距离能够体现各个变量在变差大小上的不
16、同,以及有时存在的相关性,还要求距离与各变量所用的单位无关,这样的距离称为统计距离。用坐标差的平方除以方差,这样一方面将原变量转化为无量纲数,另一方面方差大的坐标对距离的贡献小。(一)坐标是独立的设P(x1,x2,xp)与Q(y1,y2,yp),且Q的坐标是固定的,点P的坐标相互独立地变化。用s11,s22,spp表示p个变量x1,x2,xp的n次观测的样本方差,则P到Q的统计距离为注意:1.要得到P到原点0的距离,可令y1y2yp0;2.如果s11s22spp,则用欧氏距离是可行的。(二)坐标是相关的可将原坐标旋转,使之转化为相互独立的,经过代数变换,用a来代替,它由旋转角度和方差决定。例如图1的散布图描述了一个二维空间中xl的测量值的变化依赖于x2的情况。实际上,这一对变量(xl,x2)的坐标显示出同大或同小的趋势,并且样本相关系数是正的。此外x2方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年公司人力资源部年度工作总结
- 翻译三级笔译综合能力分类模拟题34
- 选矿厂车间安全培训
- 二零二四年度文化主题乐园建设合同2篇
- 二零二四年度技术开发合同:人工智能技术研发与授权协议3篇
- 舞蹈校外培训简介
- 爱心支教活动策划书
- 玉林师范学院《三笔字》2022-2023学年第一学期期末试卷
- 玉林师范学院《复变函数与积分变换》2022-2023学年第一学期期末试卷
- 作业治疗认知障碍
- 《刑事诉讼法》第四次修改背景下的证据制度完善研究
- 北京市文物局局属事业单位招聘笔试真题2023
- 沪科版七年级上册数学全册教学课件
- 电力安全工作规程(变电部分)1000道题库
- 10S406 建筑排水塑料管道安装
- 《混凝土结构基本原理》 课件 第2章 混凝土结构材料性能
- DL-T474.4-2006现场绝缘试验实施导则交流耐压试验
- 线路工程监理规划
- SL-T+291-2020水利水电工程钻探规程
- 2024年海南省海口市青少年活动中心招聘7人(高频重点提升专题训练)共500题附带答案详解
- 2023年版《安宁疗护实践指南(试行)》解读课件
评论
0/150
提交评论