概率论与数理统计43协方差及相关系数_第1页
概率论与数理统计43协方差及相关系数_第2页
概率论与数理统计43协方差及相关系数_第3页
概率论与数理统计43协方差及相关系数_第4页
概率论与数理统计43协方差及相关系数_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

协方差和相关系数1.问题的提出一、协方差与相关系数的概念及性质

对于二维随机向量(X,Y)来说,数学期望只反映了X与Y各自的平均值,方差只反映了X与Y各自离开均值的偏离程度,它们对X与Y之间相互关系不提供任何信息.

但二维随机向量(X,Y)的概率密度f(x,y)或分布律pij全面地描述了(X,Y)的统计规律,也包含有X与Y之间关系的信息.我们希望有一个数字特征能够在一定程度上反映这种联系.本文档共36页;当前第1页;编辑于星期六\7点18分

在讨论这个问题之前,我们先看一个例子。在研究子女与父母的相象程度时,有一项是关于父亲的身高和其成年儿子身高的关系。1.问题的提出本文档共36页;当前第2页;编辑于星期六\7点18分

这里有两个变量,一个是父亲的身高,一个是成年儿子身高.为了研究二者关系,英国统计学家皮尔逊收集了1078个父亲及其成年儿子身高的数据,画出了一张散点图。儿子的身高父亲的身高问:父亲及其成年儿子身高存在怎样的关系呢?fatherson1.问题的提出本文档共36页;当前第3页;编辑于星期六\7点18分类似的问题有:1、吸烟和患肺癌有什么关系?2、受教育程度和失业有什么关系?3、高考入学分数和大学学习成绩有什么关系?……???本文档共36页;当前第4页;编辑于星期六\7点18分协方差1.问题的提出本文档共36页;当前第5页;编辑于星期六\7点18分

因此,方差是协方差的特例,协方差刻画两个随机变量之间的“某种”关系.2.定义特别,若X=Y,则cov(X,X)=E(X-E(X))2=D(X)

对两个随机向量(X,Y),若存在,则称为X和Y的协方差.本文档共36页;当前第6页;编辑于星期六\7点18分对于任意随机变量X与Y,总有

由协方差定义得这是计算协方差的常用公式.可见,若X与Y独立,则Cov(X,Y)=0.

Cov(X,Y)=E(XY)-E(X)E(Y)

3.计算本文档共36页;当前第7页;编辑于星期六\7点18分(4)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)(2)Cov(X,X)=D(X)4.协方差的性质(3)Cov(aX,bY)=abCov(X,Y)其中a、b是常数(1)

Cov(X,Y)=Cov(Y,X)(对称性)特别的:Cov(X,c)=0(c为常数)(5)若X与Y独立,则Cov(X,Y)=0.本文档共36页;当前第8页;编辑于星期六\7点18分

协方差的数值在一定程度上反映了X与Y相互间的联系,但它受X与Y本身数值大小的影响.如令X*=kX,Y*=kY,这时X*与Y*间的相互联系和X与Y的相互联系应该是一样的,但是Cov(X*,Y*)=k2Cov(X,Y)

为了克服这一缺点,在计算X与Y的协方差之前,先对X与Y进行标准化:

再来计算X*和Y*的协方差,这样就引进了相关系数的概念.本文档共36页;当前第9页;编辑于星期六\7点18分为随机变量X和Y的相关系数(correlationconfficient).1.定义:若D(X)>0,D(Y)>0,且Cov(X,Y)存在时,称

在不致引起混淆时,记

为.二、相关系数本文档共36页;当前第10页;编辑于星期六\7点18分

考虑以X的线性函数a+bX来近似表示Y.以均方误差

e=E{[Y-(a+bX)]2}=E(Y2)+b2E(X2)+a2-2bE(XY)+2abE(X)-2aE(Y)来衡量以a+bX近似表达Y的好坏程度.e的值越小表示a+bX与Y的近似程度越好.为此令从而得2.相关系数的性质本文档共36页;当前第11页;编辑于星期六\7点18分

性质1:随机变量X和Y的相关系数满足|ρXY|≤1.证明由可知本文档共36页;当前第12页;编辑于星期六\7点18分

性质2:|ρXY|=1的充要条件是,存在常数a,b使得P{Y=a+bX}=1

证明:(1)若|ρXY|=1,则由本文档共36页;当前第13页;编辑于星期六\7点18分(2)

若存在常数a*,b*使得P{Y=a*+b*X}=1,则有P{[Y-(a*+b*X)]2=0}=1.即得E{[Y-(a*+b*X)]2}=0,又由即得|ρXY|=1注意

|ρXY|的大小反映了X,Y之间线性关系的密切程度:ρXY=0时,X,Y之间无线性关系;|ρXY|=1时,X,Y之间具有线性关系.本文档共36页;当前第14页;编辑于星期六\7点18分ρXY>0,X,Y正相关ρXY<0,X,Y负相关ρXY≠0,X,Y相关ρXY=0,X,Y不相关(ρXY=1,X,Y完全正相关)(ρXY=-1,X,Y完全负相关)xy0

完全正相关Y=aX+ba>0xy0

完全负相关Y=aX+ba<0本文档共36页;当前第15页;编辑于星期六\7点18分xy0

完全不相关xy0

正相关xy0

负相关本文档共36页;当前第16页;编辑于星期六\7点18分A:0B:1C:-1D:1或-1解:因为X+Y=n,即P{Y=-X+n}=1,所以X与Y完全负相关,故从而选C。注:若a>0时,ρXY=1a<0时,ρXY=-1则例1:将一枚密度均匀硬币抛n次,分别以X和Y记作正反面出现的次数,则X和Y的相关系数为本文档共36页;当前第17页;编辑于星期六\7点18分例2(X,Y)的联合分布为:X-101Y-1011/81/81/81/801/81/81/81/8求相关系数ρXY,并判断X,Y是否相关,是否独立.解:X-101Y-1011/81/81/83/81/801/82/81/81/81/83/83/82/83/81XY-101P2/84/82/8本文档共36页;当前第18页;编辑于星期六\7点18分例2(X,Y)的联合分布为:X-101Y-1011/81/81/81/801/81/81/81/8求相关系数ρXY,并判断X,Y是否相关,是否独立.解:从而:X-101Y-1011/81/81/83/81/801/82/81/81/81/83/83/82/83/81另一方面:P(X=-1,Y=-1)=1/8≠P(X=-1)P(Y=-1)=(3/8)×(3/8)所以X与Y不独立.本文档共36页;当前第19页;编辑于星期六\7点18分例3:设随机变量Θ在[-π,π]上服从均匀分布,又X=sinΘ,Y=cosΘ试求X与Y的相关系数ρ.解:这时有Cov(X,Y)=E(XY)-E(X)E(Y)=0,即ρ=0.从而X与Y不相关,没有线性关系;但是X与Y存在另一个函数关X2+Y2=1,从而X与Y是不独立的.本文档共36页;当前第20页;编辑于星期六\7点18分

X,Y不相关X,Y相互独立X,Y不相关不相关与相互独立的关系本文档共36页;当前第21页;编辑于星期六\7点18分本文档共36页;当前第22页;编辑于星期六\7点18分结论若(X,Y)服从二维正态分布,X,Y相互独立X,Y不相关本文档共36页;当前第23页;编辑于星期六\7点18分解练习本文档共36页;当前第24页;编辑于星期六\7点18分本文档共36页;当前第25页;编辑于星期六\7点18分本文档共36页;当前第26页;编辑于星期六\7点18分1.定义三、矩本文档共36页;当前第27页;编辑于星期六\7点18分2.协方差矩阵本文档共36页;当前第28页;编辑于星期六\7点18分本文档共36页;当前第29页;编辑于星期六\7点18分

这一讲我们主要介绍了协方差和相关系数,相关系数是刻划两个随机变量间线性相关程度的重要的数字特征,它取值在-1到1之间.小结本文档共36页;当前第30页;编辑于星期六\7点18分

例4设随机变量X和Y相互独立且X~N(1,2),Y~N(0,1).试求Z=2X-Y+3的概率密度.YX-10100.070.180.1510.080.320.20本文档共36页;当前第31页;编辑于星期六\7点18分YX-10100.070.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论