统计学-第四章概率分布_第1页
统计学-第四章概率分布_第2页
统计学-第四章概率分布_第3页
统计学-第四章概率分布_第4页
统计学-第四章概率分布_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章

概率分布1随机事件与概率随机事件

在试验的结果中,可能发生,也可能不发生的事件,称为随机事件。通常用英文大写字母A、B、C…表示随机事件。每次试验的结果中,某事件一定发生,则这一事件叫做必然事件,用字母U表示;相反地,如果某事件在试验中一定不发生,则叫做不可能事件,用字母V表示。概率概率是事物的客观属性,通过大量的试验得知其频率随着试验次数的增大,而越来越趋于某稳定值,这就是事件的概率。但有一些特殊情况下的事件的概率可以直接计算,这种计算是以概率的古典定义为基础的。2随机事件与概率随机变量随机现象在一定的条件下的每一可能的结果ω都对应着唯一的实数值ξ(ω),则称实数值变量ξ(ω)为一个随机变量。随机变量通常用希腊字母ξ,η,ζ,…来表示(或用大写拉丁字母X,Y,Z,…来表示)。3概率的乘法法则:

几个独立事件同时发生的概率,等于各独立事件的概率之积概率的加法法则:

互不相容事件和的概率等于各事件的概率之和4介绍的主要分布1.二项分布2.泊松分布3.正态分布5二项分布

(binomialdistribution)二分类资料,观察对象的结局只有相互对立的两种结果。

例如生存、死亡阳性、阴性发病、不发病治愈、未愈6先看一个例子已知:小白鼠接受某种毒物一定剂量时

死亡率=80%

生存率=20%每只鼠独立做实验,相互不受影响若每组各用3只小白鼠(甲、乙、丙)3只小白鼠的存亡方式符合二项分布73只小白鼠均生存的概率P=0.20.20.2=0.0083只小白鼠2生1死的概率P1=0.20.20.8=0.032P2=0.20.80.2=0.032P=0.096P3=0.80.20.2=0.03283只小白鼠1生2死的概率P1=0.20.80.8=0.128P2=0.80.80.2=0.128P=0.384P3=0.80.20.8=0.1283只小白鼠均死亡的概率P=0.80.80.8=0.512910x00.50.40.30.20.10.0123π=0.8,n=3

二项分布示意图11二项分布的定义从阳性率为π的总体中随机抽取含量为n的样本,恰有X例阳性的概率为:

X=0,1,2,…,n

则称X服从参数为n和的二项分布,记为:X~B(n,)。其中参数

n由实验者确定,而常常是未知的。12如已知n=3,=0.8,则恰有1例阳性的概率P(1)为:13二项分布的性质(一)均数与标准差14二项分布的性质(二)累计概率(cumulativeprobability)从阳性率为的总体中随机抽取n个个体最多有k例阳性的概率:

最少有k例阳性的概率:

15二项分布的性质(三)

图形特征:取决于π与n

当π接近0.5时,图形是对称的;π离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称。当n足够大,π不太靠近0或1,np和n(1-p)都大于5时,二项分布近似于正态分布。16应用举例据以往经验,用某药治疗小儿上呼吸道感染、支气管炎,有效率为85%,今有5个患者用该药治疗,问:①

至少3人有效的概率为多少?②

最多1人有效的概率为多少?17①

至少3人有效的概率:P(X≥3)=P(3)+P(4)+P(5)则P(X≥3)=0.138178125+0.391504688+0.443705313=0.973388126

18②最多1人有效的概率为:

P(X≤1)=P(0)+P(1)19二项分布的应用条件各观察单位只能有互相对立的一种结果,属于二分类资料

已知发生某一结果(如阳性)的概率不变,其对立结果(如阴性)的概率则为1-n次试验在相同条件下进行,且各观察单位的结果互相独立

20应用实例保险公司为了决定保险金额数,估算公司的利润和破产的风险,需要计算各种各样的概率。若根据寿命表知道,某年龄保险者,一年中每个人死亡的概率等于0.005,现有10000个这类人参加人寿保险,试求在未来一年中在这些保险者里:

1.有30人死亡的概率;

2.死亡人数不超过65人的概率。根据题意,以X表示死亡人数21Poisson分布常用于描述单位时间或单位空间中某罕见事件的发生数的随机分布规律,可视为n很大,π很小时二项分布的极限情形。例如:放射性物质每分钟放射的脉冲数,每ml水中大肠菌群数、每1万个细胞中有多少个发生突变、某地每天的交通事故数22

如果某事件的发生是完全随机的,则单位时间或单位空间内,事件发生0次、l次、2次…的概率为:

X=0,1,2,…

则称该事件的发生服从参数为的Poisson分布,记为X~P()。

=nπ为总体均数,X为单位时间或空间内某事件的发生数,P(X)为事件数为X时的概率,e为自然对数的底。23Poisson分布的性质(一)均数与方差

Poisson分布的方差2与均数

相等,均为

,即:2==

其中参数

即为总体均数,表示单位空间或时间内事件平均发生的次数,又称强度参数。

24Poisson分布的性质(二)累计概率最多为k次的概率:最少为k次的概率:

25

Poisson分布的形状取决于

的大小。随着的增大,分布逐渐趋于对称,当

=20时已基本接近对称分布,近似正态分布。Poisson分布的性质(三)26

Poisson分布示意图27可加性以较小的度量单位,观察某一现象的发生数时,如果它呈Poisson分布,那么把若干个小单位合并为一个大单位后,其总计数亦呈Poisson分布。Poisson分布的性质(四)28Poisson分布的性质(五)Poisson分布是二项分布的极限形式

二项分布中,当很小,比如<0.05,而n很大,二项分布逼近Poisson分布。且:其中=n。n愈大,近似程度愈好。如果某些现象的发生率甚少,而样本例数n甚多时,二项分布常用Poisson分布来简化运算。29实例1

据以往经验,新生儿染色体异常率为1%,试分别用二项分布及Poisson分布原理,求100名新生儿中发生X例(X=0,l,2…)染色体异常的概率。3031Poisson分布的应用条件

事件的发生是相互独立的,事件发生的概率相等,事件结果是二分类的(发生或不发生)。

32实例2设某池塘中,平均每毫升池塘水中有6个细菌,试计算由该池塘中随机抽取1ml水中,有4个细菌数的概率。解:由题意知λ=6,则有33实例3某市急救中心平均每小时收到请求急救的呼叫为10个,试计算该中心1小时内收到请求急救的呼叫至少5次的概率和至多15次的概率。解:由题意知λ=10,则有34正态分布(normaldistribution)又称Gauss分布(Gaussiandistribution)是一个重要的连续型概率分布。

35一、正态分布的定义

1.分布密度曲线呈对称的钟型曲线2.密度函数为:3.通常用表示36二、正态分布的特征1.正态曲线横轴上方均数处最高2.正态分布以均数为中心,左右对称3.两个参数:μ是位置参数,σ是变异参数4.正态曲线下面积分布有一定的规律:曲线下总面积等于1,在μ左右的任意个标准差范围内面积相同

μ±1.96σ范围内的面积是95%,μ±2.58σ范围内的面积是99%

373839三、标准正态分布

标准化变换

X~N(,2)则40标准正态分布曲线下面积表

标准正态分布曲线下,u左侧任一区间的面积可以通过积分求得为了应用方便,积分结果制成表(附表1),通过查表可得到u值左侧的面积。例:u=-2.58,u=-1.96,u=-2时对应曲线下的面积。41四、正态曲线下面积(概率)的计算X~N(0,1)1.X<0,Φ(X)查标准正态分布表;2.X>0,Φ(X)=1-Φ(-X),;3.(x1,x2)范围内的面积:Φ(X2)-Φ(X1)X~N(μ,σ2)化成标准正态分布,再查标准正态分布表42例4.13由160名7岁男童身高测量数据得均数为122.6cm,标准差为4.8cm。已知身高数据服从正态分布。试求:

该地7岁男童身高在119cm~125cm者占该地男孩总数的百分比.作标准变换:查表得:43五、标准正态分布的界值

双侧界值:在右侧及左侧的面积和为α

单侧界值:在右侧或左侧的面积为α单侧双侧Z0.051.641.96Z0.012.332.5844六、正态分布的重要性医学研究中的某些观察指标服从或近似服从正态分布;很多统计方法是建立在正态分布的基础之上的;很多其他分布的极限为正态分布。因此,正态分布是统计分析方法的重要基础。

45二项分布与正态分布的关系46Poisson分布与正态分布的关系47七、医学参考值范围的制定

医学参考值(referencevalue)是指包括绝大多数“正常人”的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medicalreferencerange)作为判定正常和异常的参考标准。习惯上是确定包括95%的人的界值。48制定步骤:

1、确定“正常人”及足够的调查对象

“正常人”是指排除了影响所研究指标的疾病和有关因素的人。一般认为每组100例以上;有人认为确定临床生化指标的正常值应取300~500例。

2、采用单侧界值还是双侧界值的问题,这通常依据医学专业知识而定。过大和过小均属异常:双侧界值;仅过大或过小为异常:单侧界值

493、百分界限的问题,这通常依据医学专业知识而定。最常用的为95%。4、根据指标的性质确定是否要分组,由于有些医学指标在不同的人群中有所不同,所以在制定医学参考值范围时,应先确定该指标是否有差异,如有不同,则分组制定。5、依据资料的分布类型确定计算医学参考值范围的方法。正态法与百分倍数法

50估计参考值范围的界限方法51正态分布法

双侧参考值范围:

单侧参考值范围:

52百分位数法

双侧参考值范围:

单侧参考值范围:

53参考值范围所对应的百分位数参考值范围所对应的正态分布区间54正常人病人假阳性率假阴性率图2.9正常人与病人的数据分布重叠示意图

55八、质量控制是保证生产产品的工作质量的一个有效措施,已广泛应用于工农业生产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论