均数的抽样误差和总体均数估计临本_第1页
均数的抽样误差和总体均数估计临本_第2页
均数的抽样误差和总体均数估计临本_第3页
均数的抽样误差和总体均数估计临本_第4页
均数的抽样误差和总体均数估计临本_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于均数的抽样误差和总体均数估计临本第一页,共六十二页,2022年,8月28日参数估计包括:点估计与区间估计2.假设检验统计推断的两部分内容:统计推断:用样本信息推论总体的特征。第二页,共六十二页,2022年,8月28日总体样本随机抽取部分观察单位

μ?

推断inference参数估计第三页,共六十二页,2022年,8月28日一、均数的抽样误差与标准误第四页,共六十二页,2022年,8月28日2009年某市18岁男生身高N(167.7,5.32)的抽样示意图

第五页,共六十二页,2022年,8月28日

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制频数图从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布第六页,共六十二页,2022年,8月28日①

,各样本均数未必等于总体均数;②

各样本均数间存在差异;③

样本均数的分布为中间多,两边少,左右基本对称。

④样本均数的变异范围较之原变量的变异范围大大缩小。可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。

样本均数分布具有如下特点:第七页,共六十二页,2022年,8月28日8从正态分布总体中以固定n抽样时,样本均数的分布仍服从正态分布。

当样本含量n足够大时,即使从偏态分布总体中以固定n抽样,其样本均数的分布也近似服从正态分布。理论上可以证明,第八页,共六十二页,2022年,8月28日抽样误差:

由个体变异产生的、抽样造成的样本统计量与总体参数的差别原因:1)抽样

2)个体差异第九页,共六十二页,2022年,8月28日由于变异的存在,抽样研究所造成的样本均数与总体均数的差异,以及各样本均数间的差异称为均数的抽样误差。抽样误差在抽样研究中是不可避免的,但只要严格遵循随机化抽样的原则,就能估计抽样误差的大小。1.均数的抽样误差的概念第十页,共六十二页,2022年,8月28日表示样本统计量抽样误差大小的统计指标。标准误:说明抽样误差的大小,总体计算公式2、标准误(standarderror,SE)实质:样本均数的标准差第十一页,共六十二页,2022年,8月28日若用样本标准差s

来估计,

(7-28)当样本例数n一定时,标准误与标准差呈正比当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。第十二页,共六十二页,2022年,8月28日抽样调查150名3岁女孩的身高均数为92.79cm,标准差为4.61cm,则其标准误是多少?例子:第十三页,共六十二页,2022年,8月28日1、反映样本均数的可靠性;2、估计总体均数的置信区间;3、用于均数的假设检验。标准误的应用:第十四页,共六十二页,2022年,8月28日指标意义应用标准差(s)衡量变量值变异程度,s越大表示变量值变异程度越大,s越小表示变量值变异程度越小描述正态分布(近似正态分布)资料的频数分布;医学参考值范围的估计标准误()样本均数的变异程度,表示抽样误差的大小。标准误越大表示抽样误差越大,样本均数的可靠性越小;标准误越小表示抽样误差越小,样本均数的可靠性越大总体均数区间估计;两个或多个总体均数间比较的假设检验标准差和标准误的区别第十五页,共六十二页,2022年,8月28日第十六页,共六十二页,2022年,8月28日二、t分布(一)t分布概念第十七页,共六十二页,2022年,8月28日随机变量XN(m,s2)标准正态分布N(0,12)z变换第十八页,共六十二页,2022年,8月28日第十九页,共六十二页,2022年,8月28日

式中为自由度(degreeoffreedom,df)

3.实际工作中,由于未知,用代替,则不再服从标准正态分布,而服从t分布。

第二十页,共六十二页,2022年,8月28日均数标准正态分布N(0,12)Studentt分布自由度:n-1第二十一页,共六十二页,2022年,8月28日0t分布一簇曲线0N(0,1)n足够大时,(1)(2)(3)以固定n随机抽样英国统计学家Gosset第二十二页,共六十二页,2022年,8月28日(二)t分布的图形与特征

分布只有一个参数,即自由度第二十三页,共六十二页,2022年,8月28日

图不同自由度下的t分布图第二十四页,共六十二页,2022年,8月28日t分布与标准正态分布第二十五页,共六十二页,2022年,8月28日第二十六页,共六十二页,2022年,8月28日1.特征:

第二十七页,共六十二页,2022年,8月28日2、t界值表:详见P312,可反映t分布曲线下的面积。单侧概率或单尾概率:用

表示;双侧概率或双尾概率:用表示。

第二十八页,共六十二页,2022年,8月28日-tt0第二十九页,共六十二页,2022年,8月28日

由t界值表可知:

★相同自由度时,︱t︱越大,概率P越小。

★相同t值时,双侧概率是单侧概率的两倍。★ν=∞时,t分布即为Z分布,故t界值表中最后一行是Z界值。第三十页,共六十二页,2022年,8月28日t分布的分位数(双侧t界值)/2/21-t/2,-t/2,第三十一页,共六十二页,2022年,8月28日1-t,t分布的分位数(单侧t界值)第三十二页,共六十二页,2022年,8月28日举例:第三十三页,共六十二页,2022年,8月28日三、总体均数的置信区间估计用样本统计量推断总体参数。总体均数估计:用样本均数推断总体均数。第三十四页,共六十二页,2022年,8月28日点估计(pointestimation):用相应样本统计量直接作为其总体参数的估计值。如用

估计μ、s估计

等。其方法虽简单,但未考虑抽样误差的大小。第三十五页,共六十二页,2022年,8月28日

按预先给定的概率(1)所确定的包含未知总体参数的一个范围。总体均数的区间估计:按预先给定的概率(1)所确定的包含未知总体均数的一个范围。

如给定=0.05,该范围称为参数的95%可信区间或置信区间;如给定=0.01,该范围称为参数的99%可信区间或置信区间。2.区间估计(intervalestimation):第三十六页,共六十二页,2022年,8月28日计算总体均数可信区间需考虑:(1)总体标准差是否已知,(2)样本含量n的大小通常有两类方法:(1)t分布法

(2)z分布法第三十七页,共六十二页,2022年,8月28日1.当未知且n较小时,由于服从t分布,可按t分布原理估计总体均数的可信区间。由于即故总体均数(1-)100%的可信区间为第三十八页,共六十二页,2022年,8月28日2、当未知但n足够大时(n>100),t分布近似u分布,可以u界值代替t界值,估计总体均数的可信区间。3、当已知时,可按正态分布的原理,估计总体均数的可信区间。第三十九页,共六十二页,2022年,8月28日例

某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。

故该地正常成年人血清胆固醇均数的95%可信区间为(3.47,3.81)mmolL。第四十页,共六十二页,2022年,8月28日41四、置信区间的确切涵义第四十一页,共六十二页,2022年,8月28日42

1.95%的可信区间的理解:(1)我们所估计的可信区间有95%的可能包含所要估计的总体参数。(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数。(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数。

第四十二页,共六十二页,2022年,8月28日43

2.可信区间的两个要素(1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小。当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好。(2)精确度:反映在区间的宽度上。区间愈窄愈好,如95%的可信区间比99%的可信区间要好。第四十三页,共六十二页,2022年,8月28日44

当n确定时,上述两者互相矛盾。提高准确度(可信度),则精确度降低(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为99%可信区间比95%可信区间要好。相反,在实际应用中,95%可信区间更为常用。在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。第四十四页,共六十二页,2022年,8月28日第四十五页,共六十二页,2022年,8月28日一、假设检验的基本原理第四节t检验第四十六页,共六十二页,2022年,8月28日■

假设检验的基本原理反证法:当一件事情的发生只有两种可能A和B,为了肯定一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接肯定了A。概率论(小概率):如果一件事情发生的概率很小,那么在一次试验时,我们说这个事件是”不会发生的”。从一般的常识可知,这句话在大多数情况下是正确的,但有犯错误的时候,因为概率小也是有可能发生的。第四十七页,共六十二页,2022年,8月28日■

假设检验的基本原理假设检验是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。问题实质上都是希望通过样本统计量与总体参数的差别,或两个样本统计量的差别,来推断总体参数是否不同。这种识别的过程,就是本章介绍的假设检验(hypothesistest)。

第四十八页,共六十二页,2022年,8月28日

例15.13根据大量调查,已知一般健康成年男子的脉搏均数为72次/min。某医生在某山区随机抽查100名健康成年男子,求得其脉搏均数为76.2次/min,标准差为4.0次/min,能否认为该山区的健康成年男子脉搏均数高于一般健康成年男子的脉搏均数?第四十九页,共六十二页,2022年,8月28日

0=72次/min

山区健康成年男子一般健康成年男子第五十页,共六十二页,2022年,8月28日假设检验的基本思想

据专业知识,有两种可能:=0或≠0

直接证明是哪种结果都很困难,利用反证法。假设=0,然后借助一定的分布,观察实测样本情况是否属于小概率事件。

如果实测样本情况属于小概率事件,则认为原先的假设是错的,拒绝这个假设;

如果实测样本情况不属于小概率事件,则不拒绝原来的假设。第五十一页,共六十二页,2022年,8月28日假设检验的一般步骤(一)建立检验假设(hypothesisundertest),确定检验水准无效假设或零假设(nullhypothesis)H0:=0假定总体参数相同备择假设或对立假设(alternativehypothesis)H1:≠0或

>0(<0)

假定总体参数不相同,即差别不是由于抽样误差所致。第五十二页,共六十二页,2022年,8月28日注意:假设针对的是总体;H0和

H1是互斥的;单侧、双侧的选择。第五十三页,共六十二页,2022年,8月28日

样本均数所代表的未知总体均数与已知总体均数0的比较

目的H0H1双侧检验是否≠0

=0≠0单侧检验是否>0

=0

>0

是否<0

=0<0

第五十四页,共六十二页,2022年,8月28日检验水准(sizeoftest)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论