应用统计学(第四章-概率与概率分布)_第1页
应用统计学(第四章-概率与概率分布)_第2页
应用统计学(第四章-概率与概率分布)_第3页
应用统计学(第四章-概率与概率分布)_第4页
应用统计学(第四章-概率与概率分布)_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学第四章概率与概率分布一、概率的基础知识1.概率的基本概念 1)事件(随机)试验:在一定条件下对随机现象所进行的观察或实验随机试验的结果不止一个,并且事先不知道会有哪些可能的结果,也不确定某一次试验会出现哪种结果(随机)事件:随机试验的每一种可能结果;通常用A、B、C等来表示不能再分的事件称为基本事件;由若干个基本事件组合而成的事件称为复合事件。在编号为①~⑤的5件产品中随机抽取1件,则有5种不同的可能结果:“取得一个编号是①”、“取得一个编号是②”、…、“取得一个编号是⑤”,这5个事件都是不可能再分的事件,是基本事件。“取得一个编号小于3”是一个复合事件,它由“取得一个编号是1”、“取得一个编号是2”两个基本事件组合而成。确定性事件和随机事件:确定性事件:在一定条件下必然出现某种结果或必然不出现某种结果必然事件U不可能事件V随机事件:在一定条件下可能发生也可能不发生 2)频率(frequency)

在相同的条件下,进行了n次试验,事件A出现的次数m称为事件A出现的频数,比值m/n称为事件A出现的频率,记为:W(A)=m/n(0≤W(A)≤1)玉米种子发芽试验结果种子总数(n)1020501002005001000发芽种子数(m)9194791186458921种子发芽率(m/n)0.900.950.940.910.930.920.92种子发芽与否是不能事先确定的,但从表中可以看出,试验随着n值的不同,种子发芽率也不相同,当n充分大时,发芽率在0.92附近摆动。 3)概率(probability,P)

相同条件下,进行大量重复试验,若事件A的频率稳定地在某一确定值p的附近摆动,称p为事件A出现的概率在一般情况下,随机事件的概率P是不可能准确得到的以试验次数n充分大时,随机事件A的频率作为该随机事件概率的近似值 a.概率的古典定义某些随机事件,不用进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率随机事件若满足试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的试验的所有可能结果两两互不相容则若样本空间由n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即

P(A)=m/nb.古典概率计算

例:在编号为1~10的10个球中有3个红色、7个黄色的球,求下列事件的概率:A=抽得一个编号<4,B=抽得一个编号是2的倍数,C=抽得一个红球,D=一次取5个球,其中有2个红球的概率。10个球中任意取5个,其可能结果有个基本事件

D=5个球中有2个红球,则D包含的基本事件

【例】某养殖厂养殖了30头牛,其中3头患有某种遗传病。从这群牛中任意抽出10头,试求其中恰有2头患病牛的概率是多少?

即从这群牛中随机抽出10头,其中恰有2头患病牛的概率为22.17%。c.概率的基本性质任何事件 0≤P(A)≤1必然事件 P(U)=1不可能事件 P(V)=0随机事件 0<P(A)<1d.概率的计算事件的相互关系和事件:二者之一发生,A∪B(A+B)积事件:二者同时发生,A∩B(AB)互斥事件:二者不能同时发生,A∩B=V(多个事件)对立事件:其一发生但不同时发生,A∪B=U,A∩B=V,B=完全事件系:多个事件两两互斥,其一必发生,

P(A1+A2+…+An)=1独立事件:A发生与否与B无关(多个事件)e.概率的计算法则加法定理两个事件的和事件的概率:如果A和B是互斥:条件概率

已知事件A发生条件下事件B发生的概率,叫做条件概率。记作P(B|A),读作“在A条件下B的概率”。【例】某品系犬出生后活到12岁的概率为0.70,活到15岁的概率为0.49,求现年为12岁的该品系犬活到15岁的概率。设A表示“某品系犬活到12岁”,B表示“某品系犬活到15岁”,则P(A)=0.70,P(B)=0.49。由于AB=B,故P(AB)=P(B)=0.49,故

即,现年为12岁的这种狗活到15岁的概率为0.70。乘法定理若事件A和事件B是同一个样本空间的两个事件

P(AB)=P(A)P(B

A)若事件A与事件B相互独立,则

P(B

A)=P(B),

P(AB)=P(A)P(B)若有A1,A2,···An个事件,则: P(A1A2···An)=P(A1)P(A2

A1)P(A3

A1A2)···P(An

A1A2···An-1)若A1,A2,···An相互独立,则: P(A1A2···An)=P(A1)P(A2)P(A3)···P(An)

【例】一批零件共有100个,其中10个不合格。从中一个一个不返回取出,求第三次才取出不合格品的概率。

记Ai=“第i次取出的是不合格品”,Bi=“第i次取出的是合格品”,则B1B2A3表示第三次才取出不合格品。

即,第三次才取出不合格品的概率为0.083。f.概率分布随机变量:表示随机试验的不同结果的变量概率分布:随机变量的每一个取值对应一定的概率,其一切可能取值的概率的分布概率分布用函数表示离散型变量和连续型变量的概率分布不同 a)离散型变量的概率分布

离散型变量x的所有一切可能值xi(i=1,2,3…)与相应的概率pi对应排列起来,称为离散型随机变量x的概率分布或分布律。 P(x=xi)=pi pi≥0,Σpi=1

变量(x) x1

x2

x3 … xk

概率(P) p1

p2

p3 … pk离散型变量的概率分布用函数表示,称为概率函数二项分布的概率函数:离散型变量x的取值小于等于某一可能值x0的概率称为累积分布函数,或分布函数F(x0)。单调不减性:若x1<x2,则F(x1)

F(x2);归一性: b.连续型变量的概率分布

连续型随机变量的概率分布因取值数不可数而不能用分布律来表示样本容量n足够大时,频率分布趋于稳定,近似地看成总体概率分布n无限大时频率转化为概率频率密度转化为概率密度频率分布转化为概率分布曲线为总体概率密度曲线函数f(x)称为概率密度函数连续型随机变量的概率分布由概率密度函数确定概率密度函数f(x)在区间[a,b)取值的概率为:二、几种常见的理论分布二项分布泊松分布正态分布正态分布离散型变量连续型变量二项分布泊松分布变量1.正态分布高斯分布(Gaussdistribution)多数变量围绕在平均值左右中间多,两头少,两侧对称多数计量资料近似服从正态分布试验误差的分布一般服从正态分布 1)正态分布的特征 a.x=μ时f(x)值最大,密度曲线以μ为中心分布 b.x-μ绝对值相等时f(x)

相等,密度曲线以μ为中心两侧对称 c.f(x)是非负函数,以x轴为渐近线 d.正态分布曲线由参数μ,σ决定,μ确定正态分布曲线在x轴上的中心位置,σ确定正态分布的变异度 e.正态分布曲线在x=μ±σ处各有一个拐点,曲线通过拐点时改变弯曲度 f.分布曲线与x轴围成的全部面积为12)正态分布函数概率密度函数,N(μ,σ2)累积分布函数3)正态分布的区间概率

若一个连续型随机变量x取值于区间[a,b),其总概率为4)标准正态分布正态分布的参数为μ,σ2,曲线的位置及形态随μ,σ2而不同N(0,1)称为标准正态分布(u分布)如果令,则N(μ,σ2)

变为N(

0,1)

(u分布)概率密度函数为:累积分布函数区间的概率5)正态分布表

为了计算方便,对于不同的u值,计算出不同的Φ(x),编成的函数表

可以查到u任意一个区间内取值的概率

附录APage268 6)正态分布的概率计算正态分布的概率计算

一般正态分布的概率,需将区间的上下限作适当变换(标准化),才可用正态分布表的方法求其概率

服从正态分布N(μ,σ2)的随机变量,x的取值落在区间[x1,x2)的概率P(x1≤x<x2),等于服从标准正态分布的随机变量u在[(x1-μ)/σ,(x2-μ)/σ)内取值的概率。a

b-aP(|x|≤μ+σ)=P(|u|≤1)=0.6826P(|x|≤μ+2σ)=P(|u|≤2)=0.9545P(|x|≤μ+3σ)=P(|u|≤3)=0.9973P(|x|≤μ+1.960σ)=P(|u|≤1.960)=0.95P(|x|≤μ+2.576σ)=P(|u|≤2.576)=0.99P(|x|≥μ+1.960σ)=P(|u|≥1.960)=0.05P(|x|≥μ+2.576σ)=P(|u|≥2.576)=0.01P(x≥μ+1.645σ)=P(u≥1.645)=0.057)正态分布的应用参数估计总体平均数μ和标准差σ未知,可以用样本平均数

和标准差s

来估计μ和σ

质量控制正态分布的变量在μ±2σ

及μ±3σ的概率为95.45%和99.73%,试验中误差控制以x±2s为警戒线,以x±3s为控制线正态分布是很多统计方法的基础二项分布、泊松分布在极限均为正态分布,可按正态分布处理t检验、方差分析、相关回归分析等均要求指标服从正态分布非正态分布资料可作变量转换,使其成近似正态分布,然后按正态分布作统计处理2.二项分布事件A发生x次的概率等于展开式中含px的项P(x)为随机变量x服从参数n和p的二项分布,记为X~B(n,p)二项分布的条件重复性:试验条件不变时,事件A出现的概率恒定为p独立性:一次试验中事件A出现与否与其他试验无关概率函数

理论次数累积分布函数例题1:豌豆红花、白花纯合基因型杂交,F2分离比3:1,随机观察4株,求得红花0、1、2、3、4株的概率。红花株数F(x)01×0.750×0.254=0.00390.003914×0.751×0.253=0.04690.050826×0.752×0.252=0.21090.261734×0.753×0.251=0.42190.683641×0.754×0.250=0.31641.0000总和1.0000例题2:种鸡蛋的孵化率为90%,随机抽取5只,求孵化出小鸡数的各种可能概率。孵化出小鸡数F(x)01×0.900×0.105=0.000010.0000115×0.901×0.104=0.000450.00046210×0.902×0.103=0.008100.00856310×0.903×0.102=0.072900.0814645×0.904×0.101=0.328050.4095151×0.905×0.100=0.590491.0000例题3:小麦田间变异概率为0.0045,求①100株出现2株及以上变异的概率;②有0.99概率获得1株以上变异需调查的株数。①P(x≥2)=1-P(0)-P(1)=0.0751②欲求P(x≥1)=0.99,即求P(0)=0.01也即于是0.9955n=0.01→n=1021(株)二项分布的形状和参数形状B(n,p)的形状由n和p两个参数决定p(q)值较小且n不大时分布是偏倚的随n的增大,分布趋于对称p值趋于0.5时分布趋于对称np≥5时,二项分布接近正态分布二项分布平均数(次数)标准差(次数)二项成数平均数(成数)标准差(成数)3.泊松分布离散型随机变量的分布,二项分布的一种特殊类型用来描述和分析随机发生的稀有事件的概率分布概率函数,

λ=np,x=0,1,2,…

可由二项分布概率函数导出参数:μ=np=λ,二项分布当p<0.1或np<5时,可用泊松分布来近似描述形状P(λ)的形状由λ确定λ较小时,泊松分布偏倚λ

增大时,泊松分布趋于对称λ

无限增大时,泊松分布接近正态分布例题:小麦田间变异概率为0.0045,求①100株出现2株及以上变异的概率;②有0.99概率获得1株以上变异需调查的株数。①λ=np=100×0.045=0.45

P(x≥2)=1-

P(0)-P(1)=0.0755

(0.0751)②欲求P(x≥1)=0.99,即求P(0)=0.01

也即n=1023(1021)(株)三、抽样分布1.抽样试验与无偏估计

根据样本对总体做出估计和推断,并不是直接用样本本身,而是用样本的统计量来对总体做出估计和判断

由于从总体中抽取的样本提供的信息仅是总体的一部分,因此它不能提供完全准确的信息,必然存在着一定的误差

对于样本容量相同的多次随机抽样,得到的观察值也是不同的,且其取值有一定的概率

统计数也是随机变量,也有它的分布,称为抽样分布

对无限总体抽取一部分样本进行研究,或对(小的)有限总体进行放回式抽样,确保每个体被抽到的机会相等 1)抽样试验 N=3,具有变量3、4、5的总体

参数:μ=4.0,σ2=0.6667,σ=0.8165

以n=2作独立的有放回式抽样

总共可得到Nn=32=9个样本样本编号样本值xs2s13,33.00.00.000023,43.50.50.707133,54.02.01.414244,33.50.50.707154,44.00.00.000064,54.50.50.707175,34.02.01.414285,44.50.50.707195,55.00.00.0000Σ36.06.05.6568N=3,具有变量3、4、5的总体参数:μ=4.0,

σ2=0.6667,σ=0.8165以n=2作独立的有放回式抽样总共可得到Nn=32=9个样本抽样分布:2)无偏估计

如果所有可能样本统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值

样本平均数是总体平均数的无偏估计值

样本方差是总体方差的无偏估计值样本标准差不是总体标准差的无偏估计值2.大数定律与中心极限定理大数定律概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称伯努利大数定律和辛钦大数定律样本容量越大,样本统计数与总体参数之差越小中心极限定理大量随机变量累积分布函数逐步收敛到正态分布样本容量越大,样本数据的分布越接近正态分布1)大数定律 a.伯努利大数定律(频率转化为概率)

试验次数n无限大时,设m是n次独立试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对于任意小的正数ε,有如下关系:b.辛钦大数定律(样本平均数转化为总体平均数)

试验次数n无限大时,对来自同一总体的变量x,对于任意小的正数ε,有如下关系:2)中心极限定理

设X1,X2,…,Xk是相互独立的随机变量,且各具有平均数

和方差,如果,那么,随机变量的和的分布趋于正态分布只要n足够大,均可认为样本平均数

服从正态分布3.样本平均数的分布

从总体中抽出的样本为所有可能样本,且每个样本中的变量均为随机变量,所以样本平均数为随机变量,形成一定的理论分布,称为样本平均数的分布总体方差已知的样本,样本平均数服从u分布总体方差未知的样本,样本平均数服从t分布总体方差未知的大样本,样本平均数近似服从u分布总体方差已知的样本,样本平均数的差数服从u分布总体方差未知的样本,样本平均数的差数服从t分布总体方差未知的大样本,样本平均数的差数近似服从u分布1)总体方差已知的样本平均数的分布

从正态分布总体N(

,

2)中进行抽样,样本平均数服从正态分布N(

,

2/n)

,且:根据中心极限定理,平均数和方差分别为μ、σ2的非正态总体,样本平均数也服从N(μ,σ2/n)分布标准化统计量:总体方差未知的大样本,近似地,用s估计σ:样本标准误和样本标准差

样本标准差s:反映样本各观测值间变异程度,说明样本平均数对样本的代表性

样本标准误

:反映抽样的样本平均数间的变异程度,表示样本平均数的抽样误差,说明样本间变异程度的大小及样本平均数精确性的高低

大样本:

,描述性误差

小样本:

,推断性误差 2)总体方差未知的样本平均数的分布总体方差未知时,样本平均数服从t分布,自由度df=n-1概率密度函数:标准化统计量: a.t分布的特征

分布曲线是左右对称的,围绕平均数μt

=0向两侧递降 t分布受自由度df=n-1的制约,每个自由度都有一条t分布曲线

和正态分布相比,t分布顶端偏低,尾部偏高 df≥30时,接近正态分布曲线,df→∞时和正态分布曲线重合 t分布曲线与横轴所围成的面积为1

同标准正态分布曲线一样,统计应用中最为关心的是t分布曲线下的面积(即概率P)与横轴t值间关系

不同自由度df下的t值表-2.776

2.776在自由度df相同时,t值越大,概率P越小在t值相同时,双尾概率P为单尾概率P的两倍df增大时,t分布接近正态分布(t值接近u)b.不同自由度的t分布概率df=10P(|t|≥2.228)=0.05P(t≥1.812)=0.05P(t≤-1.812)=0.05df=4P(|t|≥2.776)=0.05

t0.05/2(4)=2.776P(|t|≥4.604)=0.01

t0.01/2(4)=4.604t落于[-

t0.05,+t0.05]内的概率为0.95t落于[-

t0.01,+t0.01]内的概率为0.99c.样本平均数差数的分布

从平均数为μ1、μ2,标准差为σ1、σ2的两个正态总体中,分别独立随机地抽取容量为n1和n2的样本,则两个样本平均数差的分布服从正态分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论