卫生统计学基本分布课件_第1页
卫生统计学基本分布课件_第2页
卫生统计学基本分布课件_第3页
卫生统计学基本分布课件_第4页
卫生统计学基本分布课件_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章基本分布

Oct20,2009第一节随机变量及其分布

一、随机变量(randomvariable)

随机现象,也称不确定现象,指在相同条件下重复试验可得到不同结果的现象。必然现象,也称确定性现象随机试验所得到的每一种可能的结果称为随机事件。数学上可用一个变量,如X来描述,称为随机变量。随机变量的每一取值一般都有确定的概率,如P(治愈)=P(X=1)=0.60等。因此每一随机变量都有一定的概率分布,其分布的类型有两种,即离散型分布和连续型分布。Oct20,20091、离散型随机变量(discreterandomvariable)随机变量X只能取有限个数值X1,X2,…,Xn或无限个可数数值X1,X2…,Xn…,则X定义为离散型随机变量。当X=Xk,概率为P(Xk)则有随机变量的概率分布Oct20,20092、连续型随机变量(continuousrandomvariable)像某地某年正常成年男子身高这样的随机变量,由于其可能取值不能一一列举出来,而是在实数轴上的某一确定区间内连续分布,称之为连续分布型随机变量,简称连续型随机变量。随机变量X的分布函数F(x)为:概率密度函数f(x):表示随机变量X在取值X附近单位长度内的概率的大小。为分布函数F(x)的导数。所以,对于连续型随机变量来说,要掌握其概率分布规律,其关键是求出其概率密度函数。Oct20,2009第二节正态分布

Oct20,2009正态分布曲线的演变

频率5-2a1251291331371411451491531571610.1.2.3.4身高(cm)5-2bOct20,2009正态分布的特性正态分布只有一个峰值,位于x=

处正态分布以x=

对称轴左右对称正态分布的两个参数

决定分布位置和形状正态分布曲线下面积分布有规律Oct20,2009Oct20,2009对于正态分布常用x~N(,)Oct20,2009标准正态分布标准正态分布与标准化变换:

X~N(μ,σ)标准化变换:令μ=0,

σ=1

标准正态分布:u~N(0,1)Oct20,2009Oct20,2009Oct20,2009Oct20,2009

D=0.6646-0.1989=0.4657=46.57%

(u1)=(-0.8511)=0.1989(u2)=(0.4255)=1-(-0.4255)=1-0.3354=0.6646

Oct20,2009三、参考值范围定义:绝大多数正常人的解剖,生理,生化各种指标的波动范围,称作为医学参考值范围(medicalreferenceranges)。正常人:并非指机体任何器官、组织的形态和机能都正常的人,而是指排除了影响所研究指标的疾病和有关因素的人Oct20,2009正态分布法当资料符合正态分布时双侧1-α正常值范围公式为:单侧上限1-α正常值范围公式为:<单侧下限1-α正常值范围公式为:>Oct20,2009u界值的概念

uα/2为标准正态分布下双侧尾部面积为α时的u值(绝对值)u2为标准正态分布下单侧尾部面积为α时的u值(绝对值)特别地:u0.05/2=1.96;

u0.01/2=2.58;

u0.05=1.64;

u0.01=2.33;Oct20,2009Oct20,2009百分位数法用于任何分布的资料(n>150)。当资料为偏态分布时,不能用正态分布法,而用百分位数法得到1-α正常值范围双侧1-α正常值范围:P100α/2~P

100(1-α/2)

单侧1-α正常值范围上限:<P

100(1-α)

单侧1-α正常值范围下限:>P

100αOct20,2009Oct20,2009样本均数分布和抽样误差大小的估计Oct20,2009抽样试验某市1999年18岁男生身高服从均数μ=167.7cm,σ=5.3cm的正态分布;从X~N(167.7,5.32)的正态总体中随机抽样,样本含量nj=10,g=100;共抽100次;Oct20,2009图3.11999年某市18岁男生身高

N(167.7,5.32)的抽样示意μ=167.7cmσ=5.3cmX1,X2,X3…Xj…,

167.41,2.74165.56,6.57168.20,5.36:165.69,5.09100个Oct20,2009样本均数组成一个新的分布特点各样本均数未必等于总体均数;各样本均数间存在差异;样本均数的分布很有规律;,100个样本均数的均数为167.69cm,而原总体均数为167.7cm样本均数的变异范围较原变量的变异范围大大缩小;标准差为1.69(5.3);

Oct20,2009中心极限定理若服从正态分布,则服从正态分布;;若不服从正态分布,n较大则服从正态分布;;n较小,为非正态分布;Oct20,2009标准误:估计抽样误差大小的指标标准误(standarderror,SE):样本统计量的标准差;样本均数的标准误(standarderrorofmean,SEM):;样本均数的标准误的估计值:Oct20,2009例2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白含量的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。Oct20,2009均数标准误的含义反映均数抽样误差大小的一个指标;均数的标准误与原分布的标准差成

正比,与抽样样本量n开根号成反比;欲减少抽样误差,可增加样本量;利用均数标准误可以进行总体均数的可信区间的估计和假设检验。Oct20,2009二、t分布(t—distribution)t分布的由来t分布的图形和特征t界值表Oct20,2009

标准正态变换X0,1ut变换0t抽样实验

t分布的由来XOct20,2009t分布图形的演变Oct20,2009

t分布图形的演变Oct20,2009t分布图形的特征单峰分布,以0为中心,左右对称只有一个参数ν(自由度n-1),

ν越小,则t值越分散,峰部越矮而尾部翘得越高当ν逼近∞时,t分布逼近u分布Oct20,2009t分布图形下面积具有规律性总面积为1;任意两区间的面积都可以用积分的方法求出;当单双侧确定时,自由度ν确定时,尾部面积(α)与横轴t值之间有一一对应的关系;tα/2,ν表示双侧尾部面积为α,自由度为ν时的t界值;tα,ν表示单侧尾部面积为α,自由度为ν时的t界值;Oct20,2009Oct20,2009t界值表的特点表示在单双侧确定时,自由度ν确定时,t界值越大,外围面积(P)越小;反之亦然;单双侧确定时,外围面积(α或P)确定时,自由度ν越大,t界值越小,当ν→∞时,t=u;t0.05/2,∞=1.96;t0.01/2,∞=2.58Oct20,2009第四节二项分布(binomialdistribution)Oct20,2009Bernoulli试验以A表示所感兴趣的事件,A事件发生称为“成功”,不出现称为“失败”。相应的这类试验称作为“成一败型”试验或Bernoulli试验。Oct20,2009Bernoulli试验满足条件(1)每次试验结果只能是两个互斥结果之一(A或非A)。(2)每次试验的条件不变,每次试验结果A事件发生的概率为常数。(3)各次试验独立,即每次试验出现事件A的概率与前面各次试验出现的结果无关。Oct20,2009二项分布的概念n次重复独立试验(Bernoulli试验),当每次试验的“阳性概率”保持不变时,出现“阳性”的次数k=0,1,2…,n的一种概率分布。,k=0,1,2,…n

n为试验例数,k为阳性次数,

π为阳性率,

Oct20,2009当n和不同时,二项分布的概率是不同的,所以说n和是二项分布的两个重要参数。如果随机变量x服从以n和为参数的二项分布,则记作x~B(n,)。Oct20,2009二项分布的概率计算

恰好有k例阳性数的概率为最多发生k例,即xk的累计概率为最少发生k例,即xk的累计概率二项分布概率的递推公式为Oct20,2009二项分布的概率计算例题例5-7据报道,对某药有10%的人有胃肠道反应。为考察某药厂产品质量随机抽取5人服用此药,试求:(1)3人有反应的概率(2)最多2人有反应的概率(3)有人有反应的概率Oct20,2009二项分布的性质

Oct20,20092、二项分布的正态近似(normalapproximation)

Oct20,2009概率论中的中心极限定理证明:当n足够大时,且不接近于0也不接近于1时,且n和n(1-)≥5,二项分布x~B(n,)近似于正态分布N(n,)。Oct20,2009样本率的分布和正态近似

Oct20,2009样本率的分布和正态近似例5-9从阳性率样本率=0.6的总体中随机抽取样本量为16的样本,求样本率p的均数和标准差。样本均数的标准差称为均数的标准误。同样样本率的标准差也称为率的标准误,它描述了样本率抽样误差的大小。Oct20,2009样本率的分布和正态近似样本率分布的正态近似当样本量n较大,总体率不接近于0也不接近1时,且n和n(1-)≥5,样本阳性率也近似服从正态分布p~N(,)。事实上,总体率,一般是不知道的,往往用p来估计,用样本率的标准误的估计值来估计。

Oct20,2009Oct20,2009第四节泊松分布(poissondistribution)

是一种典型的离散型随机变量的分布,主要用于描述事件出现概率很小而样本含量或试验次数很大的随机变量的概率分布。当n->∞,P≤0.05时,这时二项分布向泊松分布逼近;泊松分布用来分析医学上人群中遗传缺陷、癌症等发病率很低的非传染性疾病的发病或患病人数的分布;也可用于研究单位时间、空间、容积内某罕见时间发生次数的分布;Oct20,2009Poisson分布是二项分布的特例,由于这时n特别大,p特别小,在数学上用二项分布计算n次重复独立试验(Bernoulli试验),出现“阳性”的次数X=0,1,2…,n的概率变得十分困难,所以,可以通过Poisson分布近似计算出现“阳性”次数X概率值如已知2000年上海市10万妇女人群中乳腺癌的发病人数为40人(=0.0004),计算某小区10万人中刚好出现50人的概率?Oct20,2009二项分布的概率公式可推导出泊松分布的概率计算公式为:

为单位时间(空间)稀有事件的发生数(阳性数)的总体均数.二项分布当n很大而很小时即逼近于参数λ=n×的泊松分布,记做xP()Oct20,2009Oct20,2009泊松分布的概率计算

泊松分布概率计算的递推公式:Oct20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论