抽样误差与假设检验课件_第1页
抽样误差与假设检验课件_第2页
抽样误差与假设检验课件_第3页
抽样误差与假设检验课件_第4页
抽样误差与假设检验课件_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

流行病与卫生统计学教研室金英良第四章抽样误差与假设检验流行病与卫生统计学教研室金英良第四章抽样误差与假设检验1本章主要内容:第一节均数的抽样误差与标准误差第二节总体均数的估计第三节假设检验的意义和步骤本章主要内容:第一节均数的抽样误差与标准误差2第一节均数的抽样误差与标准误差假定某年某地所有13岁女学生身高服从总体均数μ=155.4cm,总体标准差σ=5.3cm的正态分布N(155.4,5.32)。随机抽取30人为一个样本(n=30),并计算样本的均数和标准差,共抽取100次,可以得到100份样本,每份样本可以计算相应的均数和标准差。第一节均数的抽样误差与标准误差假定某年31.156.75.16158.15.21155.65.32

99.154.65.15100.156.65.25μ=155.4cmσ=5.3cmXS一百个样本1.156.75.16μ=155.4cm4抽样误差(smplingerror)

这种由抽样造成的样本统计量与总体参数之间的差异成为抽样误差.总体样本随机抽样

统计量

参数

只要有个体变异和随机抽样研究,抽样误差就是不可避免的。抽样误差(smplingerror)总体样本随机5若从正态总体N(μ,σ2)中,反复多次随机抽取样本含量固定为n的样本,那么这些样本均数

也服从正态分布。样本均数

的总体均数仍为μ,样本均数的标准差为

,其计算公式为:中心极限定理若从正态总体N(μ,σ2)中,反复多次随机抽取样本含量固6SAMPLE1:x11x12x13x14...x1nSAMPLE2:x21x22x23x24...x2nSAMPLEk:xk1xk2xk3xk4...xkn原始总体μk个样本均数的频数分布图SAMPLE1:x11x12x13x14...x1n7标准误(standarderror,SE)样本均数的标准差。它反映了来自同一总体的样本均数之间的离散程度以及样本均数和总体均数的差异程度,即均数的抽样误差的大小。统计上用标准误来衡量抽样误差的大小!标准误(standarderror,SE)统计上用标准误来8由于在实际工作中,总体标准差σ往往未知,而是用样本标准差S来代替σ,故只能求得样本均数标准误的估计值SX,其计算公式为:估计由于在实际工作中,总体标准差σ往往未知,而是用样本标准差S来9例4.1某市随机抽查成年男子140人,得红细胞均数4.77×1012/L,标准差0.38×1012/L,计算其标准误。例4.1某市随机抽查成年男子140人,得红细胞均数4.10第二节总体均数的估计1.统计推断(statisticalinference)在总体中随机抽取一定数量观察单位作为样本进行抽样研究,然后由样本信息推断总体特征,这一过程称为统计推断。一、可信区间的概念统计推断参数估计假设检验点估计区间估计(可信区间)第二节总体均数的估计1.统计推断(statistica112.参数估计(parameterestimation)是指由样本统计量估计总体参数,是统计推断的一个重要内容。(1)点估计(pointestimation)用样本统计量直接作为总体参数的估计值。(2)区间估计(intervalestimation)又称可信区间(置信区间,CI)按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。2.参数估计(parameterestimation)是指12μ=155.4cm身高(cm)总体均数的95%可信区间,平均有95个可信区间包括了总体均数μ,只有5个可信区间不包括μ,即估计错误。进行100次抽样,每次样本量为n=30,利用样本均数和标准差估计总体均数范围。μ=155.4cm身高(cm)总体均数的95%可信区间,平均133.可信区间有两个要素:(1)准确度(accuracy)可信度的大小,即可信区间包容μ的概率大小(1-α)。(2)精密度(precision)反映在区间的长度,区间长度越小精密度越高。一般情况下,95%的可信区间更为常用。在可信度确定的情况下,增加样本量,可减少区间长度,提高精密度。3.可信区间有两个要素:(1)准确度(accuracy)可信14t分布是t检验的基础,亦称studentt检验,是计量资料中最常用的假设检验方法。戈塞特(WilliamSealeyGosset)

英国著名统计学家。出生于英国肯特郡坎特伯雷市,求学于曼彻斯特学院和牛津大学,主要学习化学和数学。二、总体均数可信区间的计算t分布是t检验的基础,亦称studentt检验,是计量资151899年作为一名酿酒师进入爱尔兰的都柏林一家啤酒厂工作,在那里他涉及到有关酿造过程的数据处理问题。由于酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果,因此戈塞特不得不于1908年,首次以“学生”(Student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。Gosset在文章中使用Z统计量来检验常态分配母群的平均数。由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。1899年作为一名酿酒师进入爱尔兰的都柏林一16随机变量XN(m,s2)标准正态分布N(0,12)u变换当总体均数与标准差未知时随机变量X标准正态分布u变换当总体均数与标准差未知时17均数标准正态分布N(0,12)在实际工作中,往往未知,常用代替进行变换,即

不服从标准正态分布!而服从自由度υ=n-1的t分布均数标准正态分布在实际工作中,往往未知,常用18

f(t)

=∞(标准正态曲线)

=5

=10.10.2-4-3-2-1012340.3t分布f(t)=∞(标准正态曲线)=5=10.10.191、以0为中心,左右对称的单峰分布。2、t分布曲线是一簇曲线,其形态变化与自由度ν的大小有关系(ν=n-1)。t分布的特征:自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布,当自由度为无穷大时,t分布就是标准正态分布。1、以0为中心,左右对称的单峰分布。t分布的特征:自由度越小20为便于使用,统计学家编制了不同自由度ν对应的t界值表。t分布的用途:主要用于总体均数的区间估计及t检验。为便于使用,统计学家编制了不同自由度ν对应的t界值表。t分布21s未知且n较小(n<50)

按t分布但n足够大(n>50)按u分布s已知

按u分布

总体均数可信区间的计算方法,随总体标准差s是否已知,以及样本含量n的大小而异。通常有t分布和u分布两类方法:s未知且n较小(n<50)22(一)σ已知u变换公式:-1.96+1.962.5%2.5%95%(一)σ已知u变换公式:-1.96+1.962.523(二)σ未知1.n较小(n<50)-tt0(二)σ未知1.n较小(n<50)-tt0242.n较大(n>50)2.n较大(n>50)25例4.2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L,标准差为0.57g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。该种病人血浆纤维蛋白原含量总体均数的95%可信区间为3.09g/L~3.56g/L例4.2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含26例4.3试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。该地成年男子红细胞总体均数的95%可信区间为4.71×1012/L~4.83×1012/L例4.3试计算例4.1中该地成年男子红细胞总体均数的9527第三节假设检验的意义和步骤一、假设检验的基本思想“反证法”的思想先根据研究目的建立假设,从H0假设出发,先假设它是正确的,再分析样本提供的信息是否与H0有较大矛盾,即是否支持H0,若样本信息不支持H0,便拒绝之并接受H1,否则不拒绝H0

第三节假设检验的意义和步骤一、假设检验的基本思想“反证法28例4.4以往通过大规模调查已知某地新生儿出生体重为3.30kg.从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42kg,标准差为0.40kg。问该地难产儿出生体重是否与一般新生儿体重不同?例4.4以往通过大规模调查已知某地新生儿出生体重为3.329μ0=3.30kg次/分μ已知总体未知总体n=35,=3.42kgS=0.40kg

与μ0之间的差异(不相等),有两种可能:1、μ=μ0,仅因为用

去估计μ时存在抽样误差,所以导致了

与μ0之间的差异。2、μ与μ0本身就不相等,所以导致了

与μ之间的差异。μ0=3.30kgμ已知总体未知总体n=35,与μ0之间的30假设检验的基本原理:

抽样误差所致P>0.05

(来自同一总体)

?

假设检验回答本身存在差别P<0.05

(来自不同总体)两均数两率不等假设检验的基本原理:两均数两率不等31二、假设检验的基本步骤1.建立假设检验和确定检验水准H0(无效假设):μ=μ0H1(备择假设):μ≠μ0(双侧检验)检验水准:在实际工作中一般取0.05。它确定了小概率事件的标准,即规定了概率不超过α就是小概率事件。μ>μ0(单侧检验)

μ<μ0(单侧检验)α=0.05二、假设检验的基本步骤1.建立假设检验和确定检验水准检验水准32例如:要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率,就属于单侧检验。H1:

μ≠μ0,双侧,μ<μ0与μ>μ0都有可能H1:

μ>μ0,单侧H1:

μ<μ0,单侧单、双侧检验单双侧问题要由专业知识确定例如:要比较经常参加体育锻炼的中学男生心率是否低于一般中学男332.选择检验方法和计算统计量根据资料的类型和分析目的选择适当的检验方法,并根据选择的方法计算相应的统计量。3.确定概率P值和作出统计推断2.选择检验方法和计算统计量3.确定概率P值和作出统计推断34样本统计量值的概率P样本统计量值的概率P样本统计量值的概率P样本统计量值的概率P35用P值与检验水准α进行比较,根据比较结果作出统计推断。检验水准α确定的P值样本统计量值的概率P检验水准α确定的P值样本统计量值的概率PP≤α,则拒绝H0,接受H1P>α,则接受H0,拒绝H1检验水准α确定的P值用P值与检验水准α进行比较,根据比较结果作出统计推断。检验水361.对于H0只能说拒绝与不拒绝,而对H1只能说接受。

2.P≤α,则拒绝H0

,接受H1

,差异有统计学意义,可认为……不同或不等。

3.P>α,则不拒绝H0

,差异无统计学意义,尚不能认为……不同或不等。

4.应事先确定α。选α=0.05只是一种习惯,而不是绝对的标准。关于假设检验的几个观点1.对于H0只能说拒绝与不拒绝,而对H1只能说接受。

2.37第四章抽样误差与假设检验课件38流行病与卫生统计学教研室金英良第四章抽样误差与假设检验流行病与卫生统计学教研室金英良第四章抽样误差与假设检验39本章主要内容:第一节均数的抽样误差与标准误差第二节总体均数的估计第三节假设检验的意义和步骤本章主要内容:第一节均数的抽样误差与标准误差40第一节均数的抽样误差与标准误差假定某年某地所有13岁女学生身高服从总体均数μ=155.4cm,总体标准差σ=5.3cm的正态分布N(155.4,5.32)。随机抽取30人为一个样本(n=30),并计算样本的均数和标准差,共抽取100次,可以得到100份样本,每份样本可以计算相应的均数和标准差。第一节均数的抽样误差与标准误差假定某年411.156.75.16158.15.21155.65.32

99.154.65.15100.156.65.25μ=155.4cmσ=5.3cmXS一百个样本1.156.75.16μ=155.4cm42抽样误差(smplingerror)

这种由抽样造成的样本统计量与总体参数之间的差异成为抽样误差.总体样本随机抽样

统计量

参数

只要有个体变异和随机抽样研究,抽样误差就是不可避免的。抽样误差(smplingerror)总体样本随机43若从正态总体N(μ,σ2)中,反复多次随机抽取样本含量固定为n的样本,那么这些样本均数

也服从正态分布。样本均数

的总体均数仍为μ,样本均数的标准差为

,其计算公式为:中心极限定理若从正态总体N(μ,σ2)中,反复多次随机抽取样本含量固44SAMPLE1:x11x12x13x14...x1nSAMPLE2:x21x22x23x24...x2nSAMPLEk:xk1xk2xk3xk4...xkn原始总体μk个样本均数的频数分布图SAMPLE1:x11x12x13x14...x1n45标准误(standarderror,SE)样本均数的标准差。它反映了来自同一总体的样本均数之间的离散程度以及样本均数和总体均数的差异程度,即均数的抽样误差的大小。统计上用标准误来衡量抽样误差的大小!标准误(standarderror,SE)统计上用标准误来46由于在实际工作中,总体标准差σ往往未知,而是用样本标准差S来代替σ,故只能求得样本均数标准误的估计值SX,其计算公式为:估计由于在实际工作中,总体标准差σ往往未知,而是用样本标准差S来47例4.1某市随机抽查成年男子140人,得红细胞均数4.77×1012/L,标准差0.38×1012/L,计算其标准误。例4.1某市随机抽查成年男子140人,得红细胞均数4.48第二节总体均数的估计1.统计推断(statisticalinference)在总体中随机抽取一定数量观察单位作为样本进行抽样研究,然后由样本信息推断总体特征,这一过程称为统计推断。一、可信区间的概念统计推断参数估计假设检验点估计区间估计(可信区间)第二节总体均数的估计1.统计推断(statistica492.参数估计(parameterestimation)是指由样本统计量估计总体参数,是统计推断的一个重要内容。(1)点估计(pointestimation)用样本统计量直接作为总体参数的估计值。(2)区间估计(intervalestimation)又称可信区间(置信区间,CI)按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。2.参数估计(parameterestimation)是指50μ=155.4cm身高(cm)总体均数的95%可信区间,平均有95个可信区间包括了总体均数μ,只有5个可信区间不包括μ,即估计错误。进行100次抽样,每次样本量为n=30,利用样本均数和标准差估计总体均数范围。μ=155.4cm身高(cm)总体均数的95%可信区间,平均513.可信区间有两个要素:(1)准确度(accuracy)可信度的大小,即可信区间包容μ的概率大小(1-α)。(2)精密度(precision)反映在区间的长度,区间长度越小精密度越高。一般情况下,95%的可信区间更为常用。在可信度确定的情况下,增加样本量,可减少区间长度,提高精密度。3.可信区间有两个要素:(1)准确度(accuracy)可信52t分布是t检验的基础,亦称studentt检验,是计量资料中最常用的假设检验方法。戈塞特(WilliamSealeyGosset)

英国著名统计学家。出生于英国肯特郡坎特伯雷市,求学于曼彻斯特学院和牛津大学,主要学习化学和数学。二、总体均数可信区间的计算t分布是t检验的基础,亦称studentt检验,是计量资531899年作为一名酿酒师进入爱尔兰的都柏林一家啤酒厂工作,在那里他涉及到有关酿造过程的数据处理问题。由于酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果,因此戈塞特不得不于1908年,首次以“学生”(Student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。Gosset在文章中使用Z统计量来检验常态分配母群的平均数。由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。1899年作为一名酿酒师进入爱尔兰的都柏林一54随机变量XN(m,s2)标准正态分布N(0,12)u变换当总体均数与标准差未知时随机变量X标准正态分布u变换当总体均数与标准差未知时55均数标准正态分布N(0,12)在实际工作中,往往未知,常用代替进行变换,即

不服从标准正态分布!而服从自由度υ=n-1的t分布均数标准正态分布在实际工作中,往往未知,常用56

f(t)

=∞(标准正态曲线)

=5

=10.10.2-4-3-2-1012340.3t分布f(t)=∞(标准正态曲线)=5=10.10.571、以0为中心,左右对称的单峰分布。2、t分布曲线是一簇曲线,其形态变化与自由度ν的大小有关系(ν=n-1)。t分布的特征:自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布,当自由度为无穷大时,t分布就是标准正态分布。1、以0为中心,左右对称的单峰分布。t分布的特征:自由度越小58为便于使用,统计学家编制了不同自由度ν对应的t界值表。t分布的用途:主要用于总体均数的区间估计及t检验。为便于使用,统计学家编制了不同自由度ν对应的t界值表。t分布59s未知且n较小(n<50)

按t分布但n足够大(n>50)按u分布s已知

按u分布

总体均数可信区间的计算方法,随总体标准差s是否已知,以及样本含量n的大小而异。通常有t分布和u分布两类方法:s未知且n较小(n<50)60(一)σ已知u变换公式:-1.96+1.962.5%2.5%95%(一)σ已知u变换公式:-1.96+1.962.561(二)σ未知1.n较小(n<50)-tt0(二)σ未知1.n较小(n<50)-tt0622.n较大(n>50)2.n较大(n>50)63例4.2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L,标准差为0.57g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。该种病人血浆纤维蛋白原含量总体均数的95%可信区间为3.09g/L~3.56g/L例4.2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含64例4.3试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。该地成年男子红细胞总体均数的95%可信区间为4.71×1012/L~4.83×1012/L例4.3试计算例4.1中该地成年男子红细胞总体均数的9565第三节假设检验的意义和步骤一、假设检验的基本思想“反证法”的思想先根据研究目的建立假设,从H0假设出发,先假设它是正确的,再分析样本提供的信息是否与H0有较大矛盾,即是否支持H0,若样本信息不支持H0,便拒绝之并接受H1,否则不拒绝H0

第三节假设检验的意义和步骤一、假设检验的基本思想“反证法66例4.4以往通过大规模调查已知某地新生儿出生体重为3.30kg.从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42kg,标准差为0.40kg。问该地难产儿出生体重是否与一般新生儿体重不同?例4.4以往通过大规模调查已知某地新生儿出生体重为3.367μ0=3.30kg次/分μ已知总体未知总体n=35,=3.42kgS=0.40kg

与μ0之间的差异(不相等),有两种可能:1、μ=μ0,仅因为用

去估计μ时存在抽样误差,所以导致了

与μ0之间的差异。2、μ与μ0本身就不相等,所以导致了

与μ之间的差异。μ0=3.30kgμ已知总体未知总体n=35,与μ0之间的68假设检验的基本原理:

抽样误差所致P>0.05

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论