第五章 参数估计_第1页
第五章 参数估计_第2页
第五章 参数估计_第3页
第五章 参数估计_第4页
第五章 参数估计_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2011级预防医学专业

《医学统计学》沈月平副教授,PhD医学部公共卫生学院流行病与卫生统计教研室E-mail:shenyueping@.cmOffice:401-14032015/10/121第五章参数估计前言第一节抽样误差第二节t-分布和二项分布第三节单个总体参数的置信区间第四节两总体之差的置信区间小结作业2计量资料的统计分析统计描述统计推断集中趋势离散趋势参数估计假设检验点估计,区间估计两样本均数比较t,u-test多个样本均数比较F-test计数资料的统计分析统计描述统计推断集中趋势离散趋势参数估计假设检验绝对数,相对数率的标准误点估计,区间估计两样本率比较χ2-test多个样本率比较χ2-test第一节抽样误差抽样误差(samplingerror)

:由抽样造成的统计量与总体参数及样本统计量之间的差别称为抽样误差。均数抽样误差和率的抽样误差是建立在抽样研究基础上所发生的偏差,只能减小,不可避免5一、均数的抽样误差由于随机抽样所引起的样本均数与总体均数之间的差异或样本均数之间的差异;如何评估抽样误差?6如何评估抽样误差?抽样试验(samplingtrial)7抽样试验某市2008年19岁女生身高服从均数μ=160.5cm,σ=5.2cm的正态分布;从X~N(160.5,5.22)的正态总体中随机抽样,样本含量nj=20,g=100;共抽100次;图1.2008年某市19岁女生身高均数

N(160.5,5.22)的抽样示意μ=160.5cmσ=5.2cmX1,X2,X3…Xj…,

160.19,1.05158.97,1.39160.37,1.47:161.64,1.44100个新的分布特点10样本均数组成一个新的分布特点各样本均数未必等于总体均数;各样本均数间存在差异;样本均数的分布很有规律;100个样本均数的均数为160.43cm,而原总体均数为160.5cm()样本均数的变异范围较原变量的变异范围大大缩小;标准差为1.18(5.2);

中心极限定理若原变量服从正态分布,则新变量服从正态分布;若原变量不服从正态分布,n较大(大于等于30或50),则新变量服从正态分布;n较小,新变量为非正态分布;标准误:估计抽样误差大小的指标标准误(standarderror,SE):样本统计量的标准差;样本均数的标准误(standarderrorofmean,SEM):;样本均数的标准误的估计值:例2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白含量的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。均数标准误的含义反映均数抽样误差大小的一个指标;均数的标准误与原分布的标准差成

正比,与抽样样本量n开根号成反比;欲减少抽样误差,可增加样本量;利用均数标准误可以进行总体均数的置信区间的估计和假设检验。第二节t分布t分布的由来t分布的图形和特征t界值表

标准正态变换X0,1ut变换0t抽样实验

t分布的由来Xt分布图形的演变

t分布图形的演变英国统计学家Gosset于1908年以笔名“Student”发表了一篇论文,提出了t分布(distribution)的理论,因此t分布又称为学生氏t分布,其分布密度函数是:其中,为伽玛函数符号,它是已知函数;π为圆周率;ν表示自由度。24t分布图形的特征单峰分布,以0为中心,左右对称只有一个参数ν(自由度n-1),

ν越小,则t值越分散,峰部越矮而尾部翘得越高当ν逼近∞时,t分布逼近u分布t分布图形下面积具有规律性总面积为1;任意两区间的面积都可以用积分的方法求出;当单双侧确定时,自由度ν确定时,尾部面积(α)与横轴t值之间有一一对应的关系;tα/2,ν表示双侧尾部面积为α,自由度为ν时的t界值;tα,ν表示单侧尾部面积为α,自由度为ν时的t界值;t界值表的特点(p410)表示在单双侧确定时,自由度ν确定时,t界值越大,外围面积(P)越小;反之亦然;单双侧确定时,外围面积(α或P)确定时,自由度ν越大,t界值越小,当ν→∞时,t=u;t0.05/2,∞=1.96;t0.01/2,∞=2.58第三节单个总体参数的置信区间(二)区间估计(intervalestimation)按预先给定的概率(1-α)确定的包含未知总体参数的可能范围。(一)点估计:用样本统计量直接作为总体参数的估计值1、σ已知单侧:双侧:或一、总体均数的置信区间(一)正态分布法2、σ未知,但样本例数n足够大时(n>50)双侧:单侧:或(一)正态分布法3、σ未知时,n不是很大(最常用)双侧:~单侧:或(二)t分布法例5.332置信区间的含义表示以一定的置信区间(1-α)估计总体均数(参数)可能的波动范围;总体均数95%CI(confidenceinterval)表示随机抽样100次(n固定),计算100个置信区间,平均有95个区间包含总体均数,有5个不包含;但对一次抽样来讲,只能说是包含或不包含95%CI与99%CI的区别点估计与置信区间的差别正常参考值范围与置信区间的差别33二、二项分布

(Binomialdistribution)与率的置信区间Bernoulli试验以A表示所感兴趣的事件,A事件发生称为“成功”,不出现称为“失败”。相应的这类试验称作为“成一败型”试验或Bernoulli试验。Bernoulli试验满足条件(1)每次试验结果只能是两个互斥结果之一(A或非A)。(2)每次试验的条件不变,每次试验结果A事件发生的概率为常数

。(3)各次试验独立,即每次试验出现事件A的概率与前面各次试验出现的结果无关。二项分布的概念n次重复独立试验(Bernoulli试验),当每次试验的“阳性概率”保持不变时,出现“阳性”的次数k=0,1,2…,n的一种概率分布。,k=0,1,2,…n

n为试验例数,k为阳性次数,

π为阳性率,

当n和

不同时,二项分布的概率是不同的,所以说n和

是二项分布的两个重要参数。如果随机变量x服从以n和

为参数的二项分布,则记作x~B(n,

)。二项分布的概率计算

恰好有k例阳性数的概率为最多发生k例,即x

k的累计概率为最少发生k例,即x

k的累计概率二项分布概率的递推公式为二项分布的性质

2、二项分布的正态近似(normalapproximation)

概率论中的中心极限定理证明:当n足够大时,且

不接近于0也不接近于1时,且

n

和n(1-)≥5,二项分布x~B(n,

)近似于正态分布

N(n

,)。样本率的分布和正态近似

样本率的分布和正态近似例5-X从阳性率样本率

=0.6的总体中随机抽取样本量为16的样本,求样本率p的均数和标准差。样本均数的标准差称为均数的标准误。同样样本率的标准差也称为率的标准误,它描述了样本率抽样误差的大小。样本率的分布和正态近似样本率分布的正态近似当样本量n较大,总体率

不接近于0也不接近1时,且n

和n(1-)≥5,样本阳性率也近似服从正态分布p~N(

,)。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论