版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章随机变量的数字特征
分布函数能完整地描述r.v.的统计特性,但实际应用中有时只需知道
r.v.的某些特征.
判断棉花质量时,既看纤维的平均长度
平均长度越长,偏离程度越小,质量就越好;又要看纤维长度与平均长度的偏离程度例如:
考察一射手的水平,既要看他的平均环数是否高,还要看他弹着点的范围是否小,即数据的波动是否小.
由上面例子看到,与r.v.有关的某些数值,虽不能完整地描述r.v.但能清晰地描述r.v.在某些方面的重要特征,这些数字特征在理论和实践上都具有重要意义.r.v.的平均取值——数学期望
r.v.取值平均偏离均值的情况
——方差描述两r.v.间的某种关系的数
——协方差与相关系数本章内容随机变量某一方面的概率特性都可用数字来描写第一节数学期望离散型随机变量的数学期望连续型随机变量的数学期望随机变量函数的数学期望数学期望的性质课堂练习小结布置作业
在前面的课程中,我们讨论了随机变量及其分布,如果知道了随机变量X的概率分布,那么X的全部概率特征也就知道了.
然而,在实际问题中,概率分布一般是较难确定的.而在一些实际应用中,人们并不需要知道随机变量的一切概率性质,只要知道它的某些数字特征就够了.
因此,在对随机变量的研究中,确定某些数字特征是重要的.在这些数字特征中,最常用的是数学期望、方差、协方差和相关系数一、离散型随机变量的数学期望1、概念的引入:我们来看一个引例.
例1
某车间对工人的生产情况进行考察.车工小张每天生产的废品数X是一个随机变量.如何定义X的平均值呢?我们先观察小张100天的生产情况若统计100天,32天没有出废品;30天每天出一件废品;17天每天出两件废品;21天每天出三件废品;可以得到这100天中每天的平均废品数为这个数能否作为X的平均值呢?(假定小张每天至多出现三件废品)可以想象,若另外统计100天,车工小张不出废品,出一件、二件、三件废品的天数与前面的100天一般不会完全相同,这另外100天每天的平均废品数也不一定是1.27.n0天没有出废品;n1天每天出一件废品;n2天每天出两件废品;n3天每天出三件废品.可以得到n天中每天的平均废品数为(假定小张每天至多出三件废品)一般来说,若统计n天,这是以频率为权的加权平均
当N很大时,频率接近于概率,所以我们在求废品数X的平均值时,用概率代替频率,得平均值为这是以概率为权的加权平均这样得到一个确定的数.我们就用这个数作为随机变量X的平均值
.定义1
设X是离散型随机变量,它的分布率是:P{X=xk}=pk,k=1,2,…请注意:离散型随机变量的数学期望是一个绝对收敛的级数的和.数学期望简称期望,又称为均值。若级数绝对收敛,则称级数即的和为随机变量X的数学期望,记为,例101200.20.80120.60.30.1例2到站时刻
8:108:308:509:109:309:50
概率
1/63/62/6一旅客8:20到车站,求他候车时间的数学期望.
例3
按规定,某车站每天8:00~9:00,9:00~10:00都恰有一辆客车到站,但到站时刻是随机的,且两者到站的时间相互独立。其规律为:
X1030507090
二、连续型随机变量的数学期望
设X是连续型随机变量,其密度函数为f(x),在数轴上取很密的分点x0<x1<x2<…,则X落在小区间[xi,xi+1)的概率是小区间[xi,xi+1)阴影面积近似为
由于xi与xi+1很接近,所以区间[xi,xi+1)中的值可以用xi来近似代替.这正是的渐近和式.
近似,因此X与以概率取值xi的离散型r.v
该离散型r.v
的数学期望是小区间[xi,xi+1)阴影面积近似为由此启发我们引进如下定义.定义2
设X是连续型随机变量,其密度函数为f(x),如果积分绝对收敛,则称此积分值为X的数学期望,即请注意:
连续型随机变量的数学期望是一个绝对收敛的积分.例4例:设随机变量X的概率密度为求E(X)。解:
例5若将这两个电子装置串联连接组成整机,求整机寿命(以小时计)N的数学期望.的分布函数为三、随机变量函数的数学期望1.问题的提出:
设已知随机变量X的分布,我们需要计算的不是X的期望,而是X的某个函数的期望,比如说g(X)的期望.那么应该如何计算呢?
一种方法是,因为g(X)也是随机变量,故应有概率分布,它的分布可以由已知的X的分布求出来.一旦我们知道了g(X)的分布,就可以按照期望的定义把E[g(X)]计算出来.
那么是否可以不先求g(X)的分布而只根据X的分布求得E[g(X)]呢?下面的定理指出,答案是肯定的.
使用这种方法必须先求出随机变量函数g(X)的分布,一般是比较复杂的.(1)当X为离散型时,它的分布率为P(X=xk)=pk;(2)当X为连续型时,它的密度函数为f(x).若定理设Y是随机变量X的函数:Y=g(X)(g是连续函数)
该公式的重要性在于:当我们求E[g(X)]时,不必知道g(X)的分布,而只需知道X的分布就可以了.这给求随机变量函数的期望带来很大方便.
上述定理还可以推广到两个或两个以上随机变量的函数的情况。例6例:设随机变量X和Y相互独立,概率密度分别为求
E(XY)。解:
因G(X,Y)=XY,X和Y相互独立。所以,例7例7期望的性质(1).设C是常数,则E(C)=C;(4).设X,Y相互独立,则E(XY)=E(X)E(Y);(2).若k是常数,则E(kX)=kE(X);(3).E(X1+X2)=E(X1)+E(X2);推广:推广:(诸Xi独立时)。性质4的逆命题不成立,即若E(XY)=E(X)E(Y),
X,Y不一定独立注当X,Y独立时,
一定有E(XY)=E(X)E(Y).期望性质的应用例:
求二项分布的数学期望。
分析:若X~B(n,p),则X表示n重贝努里试验中“成功”的次数。设则X=X1+X2+…+Xn,i=1,2,…n.
由此可见:服从参数为n,p的二项分布的随机变量X的数学期望是np。=np.因为P{Xi=1}=p,P{Xi=0}=1-p,所以E(X)=E(Xi)=p,例设二维r.v.(X,Y)的d.f.为求E(X),E(Y),E(X+Y),E(XY),E(Y/X)解
例7由数学期望性质X,Y独立
为普查某种疾病,n个人需验血.验血方案有如下两种:分别化验每个人的血,共需化验n
次;分组化验,k
个人的血混在一起化验,若结果为阴性,则只需化验一次;若为阳性,则对k
个人的血逐个化验,找出有病者,此时
k
个人的血需化验k+1次.
设每人血液化验呈阳性的概率为
p,且每人化验结果是相互独立的.试说明选择哪一方案较经济.验血方案的选择例9解只须计算方案(2)所需化验次数的期望.为简单计,不妨设n
是k
的倍数,共分成n/k组.设第i组需化验的次数为Xi,则Xi
P1k+1
若则E(X)<n例如,当
时,选择方案(2)较经济.例10
一民航送客车载有20位旅客自机场开出,旅客有10个车站可以下车,如到达一个车站没有旅客下车就不停车.以X表示停车的次数,求E(X).(设每位旅客在各个车站下车是等可能的,并设各旅客是否下车相互独立)按题意
本题是将X分解成数个随机变量之和,然后利用随机变量和的数学期望等于随机变量数学期望的和来求数学期望的,此方法具有一定的意义.例:设国际市场上对我国某种出口商品每年的需求量是随机变量X(单位:吨)。X服从区间[2000,4000]上的均匀分布。每销售出一吨商品,可为国家赚取外汇3万元;若销售不出,则每吨商品需贮存费1万元。求:应组织多少货源,才能使国家收益最大?解:设组织货源
t吨。显然,应要求2000≤t
≤4000。国家收益Y(单位:万元)是X的函数Y=g(X)。表达式为由已知条件,知X的概率密度函为显然,故y=3500时,E(Y)最大,E(Y)=8250万元令Y=g(X)可算得当
t=
3500
时,
E(Y)=-2t2+14000t-8000000达到最大值
1.55×106。
因此,应组织3500吨货源。
说明
前面我们给出了求g(X)的期望的方法。实际上,该结论可轻易地推广到两个随机变量函数Z=
g(X,Y)的情形。
市场上对某种产品每年需求量为X吨,X~U[2000,4000],每出售一吨可赚3万元,售不出去,则每吨需仓库保管费1万元,问应该生产这中商品多少吨,才能使平均利润最大?解显然,这是一个“同类型”的应用题,用相同方法求解,大家课下试一试!应用应用3
市场上对某种产品每年需求量为X吨,X~U[2000,4000],每出售一吨可赚3万元,售不出去,则每吨需仓库保管费1万元,问应该生产这中商品多少吨,才能使平均利润最大?解设每年生产y吨的利润为Y显然,2000<y<4000应用应用3
市场上对某种产品每年需求量为X吨,X~U[2000,4000],每出售一吨可赚3万元,售不出去,则每吨需仓库保管费1万元,问应该生产这中商品多少吨,才能使平均利润最大?解设每年生产y吨的利润为Y显然,2000<y<4000应用应用3显然,故y=3500时,E(Y)最大,E(Y)=8250万元六、课堂练习1某人的一串钥匙上有n把钥匙,其中只有一把能打开自己的家门,他随意地试用这串钥匙中的某一把去开门,若每把钥匙试开一次后除去,求打开门时试开次数的数学期望.2
设随机变量X的概率密度为1解
设试开次数为X,于是
E(X)2解Y是随机变量X的函数,P(X=k)=1/n,k=1,2,…,n七、小结
这一讲,我们介绍了随机变量的数学期望,它反映了随机变量取值的平均水平,是随机变量的一个重要的数字特征.
接下来的一讲中,我们将向大家介绍随机变量另一个重要的数字特征:方差常见r.v.的数学期望分布期望概率分布参数为p
的0-1分布pB(n,p)npP(
)
分布期望概率密度区间(a,b)上的均匀分布E(θ)N(,2)第二节方差方差的定义方差的计算方差的性质切比雪夫不等式课堂练习小结布置作业
上一节我们介绍了随机变量的数学期望,它体现了随机变量取值的平均水平,是随机变量的一个重要的数字特征.
但是在一些场合,仅仅知道平均值是不够的.
例如,某零件的真实长度为a,现用甲、乙两台仪器各测量10次,将测量结果X用坐标上的点表示如图:
若让你就上述结果评价一下两台仪器的优劣,你认为哪台仪器好一些呢?乙仪器测量结果
甲仪器测量结果较好测量结果的均值都是a因为乙仪器的测量结果集中在均值附近又如,甲、乙两门炮同时向一目标射击10发炮弹,其落点距目标的位置如图:你认为哪门炮射击效果好一些呢?甲炮射击结果乙炮射击结果乙炮因为乙炮的弹着点较集中在中心附近.
中心中心
由此可见,研究随机变量与其均值的偏离程度是十分必要的.那么,用怎样的量去度量这个偏离程度呢?容易看到这个数字特征就是我们这一讲要介绍的方差
能度量随机变量与其均值E(X)的偏离程度.但由于上式带有绝对值,运算不方便,通常用量来度量随机变量X与其均值E(X)的偏离程度.一、方差的定义
设X是一个随机变量,若E[(X-E(X)]2存在,称E[(X-E(X)]2为X的方差.记为D(X)或Var(X),即D(X)=Var(X)=E[X-E(X)]2若X的取值比较分散,则方差D(X)较大.
方差刻划了随机变量的取值对于其数学期望的离散程度.若X的取值比较集中,则方差D(X)较小;因此,D(X)是刻画X取值分散程度的一个量,它是衡量X取值分散程度的一个尺度。X为离散型,分布率P{X=xk}=pk
由定义知,方差是随机变量X的函数
g(X)=[X-E(X)]2的数学期望.二、方差的计算X为连续型,X概率密度f(x)计算方差的一个简化公式
D(X)=E(X2)-[E(X)]2
展开证:D(X)=E[X-E(X)]2=E{X2-2XE(X)+[E(X)]2}=E(X2)-2[E(X)]2+[E(X)]2=E(X2)-[E(X)]2利用期望性质例1设随机变量X具有(0—1)分布,其分布率为求D(X).解由公式因此,0-1分布例2解X的分布率为上节已算得因此,泊松分布例3解因此,均匀分布例4设随机变量X服从指数分布,其概率密度为解由此可知,指数分布求
Var(X)。EX:设连续型随机变量X的密度函数为:解:EX:设X为某加油站在一天开始时贮存的油量,Y为一天中卖出的油量(当然Y≤X)。设(X,Y)具有概率密度函数这里1表明1个容积单位,求每日卖出的油量Y的期望与方差。解:当
y
<0或
y
>1
时,当0≤y≤1时,三、方差的性质1.设C是常数,则D(C)=0;2.若C是常数,则D(CX)=C2
D(X);3.设X与Y是两个随机变量,则
D(X+Y)=D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)]}
4.
D(X)=0P{X=C}=1,这里C=E(X)下面我们证明性质3证明若X,Y相互独立,由数学期望的性质4得此性质可以推广到有限多个相互独立的随机变量之和的情况.(3).若X1与X2
独立,则
Var(X1±X2)=Var(X1)+Var(X2);可推广为:若X1,X2,…,Xn相互独立,则例6
设X~B(n,p),求E(X)和D(X).若设i=1,2,…,n
则是n次试验中“成功”的次数下面我们举例说明方差性质的应用.解X~B(n,p),“成功”次数.则X表示n重努里试验中的于是i=1,2,…,n
由于X1,X2,…,Xn相互独立=np(1-p)E(Xi)=p,D(Xi)=
p(1-p),例7解于是
常见随机变量的方差分布方差概率分布参数为p
的0-1分布p(1-p)B(n,p)np(1-p)P(
)
方差表期望pnpλ分布方差概率密度区间(a,b)上的均匀分布E(θ)N(,2)期望b+a
2μθ例如,例8解由于故有四、切比雪夫不等式或
由切比雪夫不等式可以看出,若越小,则事件{|X-E(X)|<}的概率越大,即随机变量X集中在期望附近的可能性越大.证我们只就连续型随机变量的情况来证明.当方差已知时,切比雪夫不等式给出了r.v
X与它的期望的偏差不小于的概率的估计式.如取
可见,对任给的分布,只要期望和方差存在,则r.vX取值偏离E(X)超过3
的概率小于0.111.例9
已知正常男性成人血液中,每一毫升白细胞数平均是7300,均方差是700.利用切比雪夫不等式估计每毫升白细胞数在5200~9400之间的概率.解:设每毫升白细胞数为X依题意,E(X)=7300,D(X)=7002所求为
P(5200X9400)P(5200X9400)=P(-2100X-E(X)2100)=P{|X-E(X)|2100}由切比雪夫不等式
P{|X-E(X)|2100}即估计每毫升白细胞数在5200~9400之间的概率不小于8/9.
例10
在每次试验中,事件A发生的概率为0.75,利用切比雪夫不等式求:n需要多么大时,才能使得在n次独立重复试验中,事件A出现的频率在0.74~0.76之间的概率至少为0.90?解:设X为n
次试验中,事件A出现的次数,E(X)=0.75n,的最小的n.则X~B(n,0.75)所求为满足D(X)=0.75×0.25n=0.1875n=P(-0.01n<X-0.75n<0.01n)=P{|X-E(X)|<0.01n}
P(0.74n<X<0.76n)可改写为在切比雪夫不等式中取n,则=P{|X-E(X)|<0.01n}解得依题意,取
即n取18750时,可以使得在n次独立重复试验中,事件A出现的频率在0.74~0.76之间的概率至少为0.90.五、课堂练习1、设随机变量X服从几何分布,概率分布为P{X=k}=p(1-p)k-1,k=1,2,…其中0<p<1,求E(X),D(X)2、1、解:记
q=1-p求和与求导交换次序无穷递缩等比级数求和公式
D(X)=E(X2)-[E(X)]2
+E(X)2、解例4:设随机变量X的期望和方差分别为E(X)和Var(X),且Var(X)>0,求解:六、小结这一讲,我们介绍了随机变量的方差.
它是刻划随机变量取值在其中心附近离散程度的一个数字特征.下一讲,我们将介绍刻划两r.v间线性相关程度的一个重要的数字特征:协方差、相关系数第三节协方差及相关系数协方差相关系数课堂练习小结布置作业问题
对于二维随机变量(X,Y):已知联合分布边缘分布
对二维随机变量,除每个随机变量各自的概率特性外,相互之间可能还有某种联系问题是用一个怎样的数去反映这种联系.
数反映了随机变量X,Y之间的某种关系§4.4
前面我们介绍了随机变量的数学期望和方差,对于二维随机变量(X,Y),我们除了讨论X与Y的数学期望和方差以外,还要讨论描述X和Y之间关系的数字特征,这就是本讲要讨论的协方差和相关系数
量E{[X-E(X)][Y-E(Y)]}称为随机变量X和Y的协方差,记为Cov(X,Y),即
⑶Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)⑴Cov(X,Y)=Cov(Y,X)一、协方差2.简单性质⑵Cov(aX,bY)=abCov(X,Y)a,b是常数Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}1.定义
Cov(X,Y)=E(XY)-E(X)E(Y)
可见,若X与Y独立,Cov(X,Y)=0.3.计算协方差的一个简单公式
由协方差的定义及期望的性质,可得Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)=E(XY)-E(X)E(Y)即D(X+Y)=D(X)+D(Y)+2Cov(X,Y)4.随机变量和的方差与协方差的关系特别地
协方差的大小在一定程度上反映了X和Y相互间的关系,但它还受X与Y本身度量单位的影响.例如:Cov(kX,kY)=k2Cov(X,Y)为了克服这一缺点,对协方差进行标准化,这就引入了相关系数
.二、相关系数为随机变量X和Y的相关系数
.定义:
设D(X)>0,D(Y)>0,称在不致引起混淆时,记
为
.相关系数的性质:证:由方差的性质和协方差的定义知,对任意实数b,有0≤D(Y-bX)=b2D(X)+D(Y)-2b
Cov(X,Y)令,则上式为
D(Y-bX)=
由于方差D(Y)是正的,故必有1-≥0,所以||≤1。2.X和Y独立时,
=0,但其逆不真.由于当X和Y独立时,Cov(X,Y)=0.故=0但由并不一定能推出X和Y独立.请看下例.,Cov(X,Y)=0,事实上,X的密度函数例1
设X服从(-1/2,1/2)内的均匀分布,而Y=cosX,不难求得存在常数a,b(b≠0),使P{Y=a+bX}=1,即X和Y以概率1线性相关.因而=0,即X和Y不相关.但Y与X有严格的函数关系,即X和Y不独立.但对下述情形,独立与不相关是一回事:前面,我们已经看到:
若X与Y独立,则X与Y不相关;但由X与Y不相关,不一定能推出X与Y独立。
若(X,Y)服从二维正态分布,则X与Y独立的充分必要条件是X与Y不相关。考虑以X的线性函数a+bX来近似表示Y,以均方误差e=E{[Y-(a+bX)]2}来衡量以a+bX近似表示Y
的好坏程度:e值越小表示a+bX
与Y的近似程度越好.
用微积分中求极值的方法,求出使e
达到最小时的a,b相关系数刻划了X和Y间“线性相关”的程度.=E(Y2)+b2E(X2)+a2-2bE(XY)+2abE(X)-2aE(Y)e=E{[Y-(a+bX)]2}解得这样求出的最佳逼近为L(X)=a0+b0X
这样求出的最佳逼近为L(X)=a0+b0X这一逼近的剩余是若
=0,Y与X无线性关系;Y与X有严格线性关系;若可见,若0<|
|<1,|
|的值越接近于1,Y与X的线性相关程度越高;||的值越接近于0,Y与X的线性相关程度越弱.E[(Y-L(X))2]=D(Y)(1-
)但对下述情形,独立与不相关等价若(X,Y)服从二维正态分布,则X与Y独立X与Y不相关前面,我们已经看到:若X与Y独立,则X与Y不相关,但由X与Y不相关,不一定能推出X与Y独立.例设(X,Y)~N(1,4;1,4;0.5),Z=X+Y,求
XZ解例4例设
~U(0,2
),X=cos
,Y=cos(+),
是给定的常数,求
XY解例3若若有线性关系若不相关,但不独立,没有线性关系,但有函数关系若
=0,Y与X无线性关系;Y与X有严格线性关系;若可见,若0<|
|<1,|
|的值越接近于1,Y与X的线性相关程度越高;|
|的值越接近于0,Y与X的线性相关程度越弱.相关系数刻划了X和Y间“线性相关”的程度.三、课堂练习1、2、三、课堂练习1、1、解2、解2、四、小结
这一节我们介绍了协方差、相关系数、相关系数是刻划两个变量间线性相关程度的一个重要的数字特征.注意独立与不相关并不是等价的.当(X,Y)服从二维正态分布时,有X与Y独立X与Y不相关第四节矩、协方差矩阵原点矩中心矩协方差矩阵n元正态分布的概率密度小结布置作业一、原点矩中心矩定义设X和Y是随机变量,若存在,称它为X的k阶原点矩,简称k阶矩存在,称它为X的k阶中心矩可见,均值E(X)是X一阶原点矩,方差D(X)是X的二阶中心矩。协方差Cov(X,Y)是X和Y的二阶混合中心矩.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企事业单位环境保护管理手册
- 2025年企业并购重组与整合指南
- 超市员工培训及考核标准制度
- 超市商品销售及价格调整制度
- 2026年武汉市第三十二中学招聘初中教师备考题库及1套参考答案详解
- 2026年深圳市第二人民医院健康管理中心招聘备考题库及1套完整答案详解
- 养老院工作人员服务礼仪规范制度
- 2026年永昌县中医院招聘备考题库及参考答案详解
- 中国国际货运航空股份有限公司西南大区2026届高校毕业生招聘备考题库及答案详解参考
- 2026年茂名市电白区马踏镇卫生院公开招聘编外人员备考题库及一套参考答案详解
- 部编版语文九年级下册第四单元口语交际《辩论》同步课件
- 艾梅乙反歧视培训课件
- 管理公司上墙管理制度
- DB64-266-2018 建筑工程资料管理规程
- 药店gsp考试试题及答案财务
- 工程档案归档培训课件
- 山东省菏泽市菏泽经开区2024-2025学年八年级(上)期末物理试卷(含解析)
- 高级会计师评审专业技术工作业绩报告
- 万曼呼吸机操作
- 北京市顺义区近三年(2021-2023)七年级上学期期末试卷分类汇编:单项填空
- 集装箱采购投标方案(技术方案)
评论
0/150
提交评论