第六章 抽样分布及总体平均数估计_第1页
第六章 抽样分布及总体平均数估计_第2页
第六章 抽样分布及总体平均数估计_第3页
第六章 抽样分布及总体平均数估计_第4页
第六章 抽样分布及总体平均数估计_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章

抽样分布及总体平均数的推断一抽样分布与平均数抽样分布1、三种不同性质的分布及抽样分布

总体分布:总体内个体数值的频数分布;

样本分布:样本内个体数值的频数分布;

抽样分布:某一统计量的概率分布。例:将某市600名学生数学竞赛的分数作为一个总体,600个考分的频数分布是总体分布。若从中随机抽取40个考分作为样本,这40个考分的频数分布是样本分布。若对所抽取的40个考分计算其平均数或标准差(方差)后还回总体中去,再随机抽40个考分并计算其平均数或标准差(方差)。反复抽下去,将获得一个n=40的一切可能个样本的平均数或标准差(方差),若将这一切可能个样本的平均数或标准差(方差)分别进行频数分布,就形成一个平均数抽样分布或标准差抽样分布。一抽样分布与平均数抽样分布2、平均数抽样分布的几个定理(1)从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。(2)容量为n的平均数在抽样分布上的标准差,等于总体标准差除以n的平方根。(3)从服从正态分布的总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。(4)若总体不呈正态分布,如果样本容量较大,反映总体μ和σ的样本平均数的抽样分布,也接近于正态分布。

对上述定理的理解:1)反映了平均数抽样分布的形态;2)表达了平均数抽样分布的平均数、标准差与总体平均数、标准差的关系;3)抽样分布是统计推论的理论依据;4)标准误越小,表明样本统计量与总体参数的值越近。一抽样分布与平均数抽样分布3、样本平均数与总体平均数离差的形态(1)总体方差已知总体正态,样本平均数与总体平均数的离差统计量呈Z分布(标准正态分布);总体非正态,但满足n>30这一条件,样本平均数与总体平均数的离差统计量近似Z分布(标准正态分布)。一抽样分布与平均数抽样分布3、样本平均数与总体平均数离差的形态(2)总体方差未知总体正态,样本平均数与总体平均数的离差统计量呈t分布;

总体非正态,但满足n>30这一条件,样本平均数与总体平均数的离差统计量近似t分布。t分布

t分布(t-distribution)是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特1908年以笔名“Student”发表的论文中推导出来的一种分布,又叫学生氏分布。这种分布是一种左右对称,峰态比较高狭,分布形状随样本容量n-1的变化而变化的一组分布。t分布与σ无关,而与n-1有关,t分布的自由度用df

表示,一般为n-1,即样本容量减1。自由度(degreeoffreedom)是指任何变量中可以自由变化的数目,它代表任何变量中可以自由变化的数目。t分布t分布分布特点:平均值为0。以平均值0左右对称的分布左侧t为负值,右侧t为正值。变量取值在-∞~+∞之间。当样本容量趋于∞时,t分布为正态分布,方差为1;当n-1>30以上时,接近正态分布,方差大于1,随n-1的增大而方差渐趋于1;当n-1<30时,t分布与正态分布相差较大,随n-1减少,离散程度(方差)越大,分布图中间变低尾部变高。二总体平均数的估计引言:何谓参数估计?

当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是从局部结果推论总体的情况,称为总体参数估计。总体参数大都未知,要对它进行估计,就需要前述的抽样分布理论进行推论。总体参数估计问题分为点估计和区间估计。对参数模型下的估计称为参数估计,对非参数模型下的估计称为非参数估计。二总体平均数的估计1、总体参数估计的基本原理(1)点估计(pointestimation)

用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。例如,对总体平均数的估计可以用样本平均数,当已知一个样本的观测值时,就可得到总体参数的估计值。点估计的优点在于它能够提供总体参数的估计值。

从某市某年高三会考语文成绩中随机抽取550个考分,算出=62分,则这62分就是全市11000个考生语文成绩平均分数的估计值。

二总体平均数的估计(2)良好估计量的标准无偏性

用统计量估计总体参数一定会有误差,好的统计量应该是一个无偏估计量,即用多个样本的统计量作为总体参数的估计值,其偏差的平均数为0。如果用某个统计量估计总体的误差平均数大于或小于0,这个统计量就是有偏的估计量。例如,用样本平均数作为总体μ的估计值,就具有无偏性,因为无限多个样本的平均值与μ的偏差之和为零。二总体平均数的估计(2)良好估计量的标准有效性

当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好(minimumvariance)。一致性

当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数,估计值越来越接近它所估计的总体参数,估计值越来愈精确,逐渐趋近于真值。即当N∞时,x的平均值μ,

二总体平均数的估计(3)区间估计(interval

estimation)

根据估计量以一定可靠程度推断总体参数所在的区间范围,用数轴上一段距离表示未知参数可能落入的范围,虽不具体指出总体参数等于什么,但能指出未知总体参数落入某一区间的概率有多大。(4)置信区间(confidence

interval)

是指在某一置信度时,总体参数所在的区域距离或区域长度,也称置信间距。置信区间的上下二端点值称为置信界限。二总体平均数的估计(5)显著性水平(significance

level)

是指估计总体参数落在某一区间,可能犯错误的概率,用α表示。1-α为置信度或置信水平(confidence

level)。

例如0.95置信区间是指总体参数落在该区间之内,估计正确的概率为95%,而出现错误的概率为5%,即0.95置信区间=0.05显著性水平的置信区间。

此外,显著性水平在假设检验中,还能拒绝虚无假设时可能出现的犯错误的概率水平。二总体平均数的估计(6)区间估计的原理区间估计是根据样本分布理论,用样本分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率。区间估计存在成功估计的概率大小及估计范围大小两个问题。(二者是一对矛盾)在保证置信度的前提下,尽可能提高精确度。二总体平均数的估计2总体平均数估计的步骤根据实得样本的数据,计算样本的平均数与标准差。计算标准误σx

。当总体方差已知时,参见公式2。当总体方差未知时,样本的无偏估计量即方差,参见公式3

。如果计算是样本的有偏估计方差,则参见公式4。二总体平均数的估计确定置信水平或显著性水平在对总体平均数进行估计之前,根据需要确定,统计学上一般规定显著性水平为0.05,即置信水平为0.95,或显著性水平为0.01,即置信水平为0.99。根据样本平均数的抽样分布,确定查何种统计表。

一般当总体方差已知时,查正态表;当总体方差未知时,查t值表。二总体平均数的估计计算置信区间如果查正态分布表,置信区间可写作(参见公式5)如果查t值表,置信区间可写作(参见公式6)解释总体平均数的置信区间。估计总体平均数落入该区间的正确可能性概率为1-α,犯错误的可能性概率为α。

二总体平均数的估计二总体平均数的估计3总体方差σ2已知时,总体平均数μ的估计(1)当总体分布为正态时,不论样本n的大小,其标准误都是σX,查正态表,确定Zα/2值,一般显著性水平为0.05或0.01,因此其Zα/2为1.96或2.58。(2)当总体分布为非正态分布时,只有当样本容量n>30以上,才能根据样本分布对总体平均数μ进行估计,否则不能。二总体平均数的估计4总体方差σ2未知时,总体平均数μ的估计用样本的无偏方差作为总体方差的估计值,样本平均数的分布为t分布,应查t值表,包括以下两种情况:(1)总体的分布为正态时,可不管n值大小。(2)总体分布为非正态,只有n>30,才能用概率对其样本分布进行解释。三假设检验的基本原理假设与假设检验

1、什么是假设?对总体参数的一种看法

总体参数包括总体均值、比例、方差等

分析之前必需陈述三假设检验的基本原理2、什么是假设检验?1)概念事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。2)

类型参数假设检验非参数假设检验3)特点

采用逻辑上的反证法

依据统计上的小概率原理三假设检验的基本原理假设检验中的小概率原理:随机事件的概率表示了随机事件在一次试验中出现的可能性大小,若随机事件的概率很小,例如小于0.05,0.01,0.001称之为小概率事件。小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的,在统计学上,把小概率事件在一次试验中,看成是实际不可能发生的事件,称为小概率事件不可能性原理,此原理是统计学上进行假设检验(显著性检验)的基本依据。三假设检验的基本原理3、如何作出统计假设?假设检验背后的基本逻辑是:总存在两个假设:

虚无假设(nullhypothesis)

备择假设(alternativehypothesis)虚无假设(H0)预测总体中自变量(处理)对于因变量不产生效应。备择假设(H1)预测总体中自变量(处理)对于因变量产生效应。假设检验的逻辑是假定我们尝试拒绝虚无假设,即我们要尝试证明备择假设。三假设检验的基本原理4、假设检验的步骤1)作出假设,选择一个决策标准;2)

收集一个样本(从总体中随机选取个体);3)计算出检验统计量,如z值、t值、F值等;4)将检验统计量与某个标准比较,以得出有关参数的推论,然后作出结论,所观察到的差别有多大可能性是因为取样误差?给出这个概率,

如何下结论?三假设检验的基本原理5、假设验证的可能结果实际情况是怎样?

-H0

正确

-H0

错误研究结论是怎样?

-H1

正确-H1错误这就构成了4种可能性(2*2):

-2种错误方式-2种正确方式三假设检验的基本原理两类错误两类错误反映的情形不同,它们有不同的名称:

α错误(typeIerror)-拒绝H0时所犯的错误,即侦察到不存在的差异。β错误(typeIIerror)-接受H0时所犯的错误,即未能侦察到存在的差异。H0:无罪假设检验中的两类错误(决策结果)陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H01-a第二类错误(b)拒绝H0第一类错误(a)功效(1-b)假设检验就好像一场审判过程统计检验过程三假设检验的基本原理

两类错误的关系α+β不一定等于1在其他条件不变的情况下,α和β不可能同时减小或增大统计检验力(1-β)三假设检验的基本原理

影响错误的因素1)

总体参数的真值随着假设的总体参数的减少而增大2)显著性水平

当减少时增大3)

总体标准差当增大时增大4)

样本容量n当n减少时增大

双侧检验与单侧检验

(假设的形式)双侧检验

(原假设与备择假设的确定)双侧检验属于决策中的假设检验。也就是说,不论是拒绝H0还是接受H0,我们都必需采取相应的行动措施例如,某种零件的尺寸,要求其平均长度为10厘米,大于或小于10厘米均属于不合格建立的原假设与备择假设应为

H0:

=10H1:

10

双侧检验

(原假设与备择假设的确定)

例1

(见教材)某小学毕业生汉语拼音测验平均分数为66分,标准差为11.7分。现已同样的试验测验应届毕业生(假定应届毕业生与历届毕业生条件基本相同),并从中随机抽取18份试卷,算得平均分为69分,问该校应届与历届毕业生汉语拼音测验成绩是否一样?步骤:从统计角度陈述问题(=66)从统计角度提出相反的问题(66)必需互斥和穷尽提出原假设(=66)提出备择假设(

66)有符号双侧检验

(显著性水平与拒绝域)

抽样分布H0值临界值临界值a/2a/2

样本统计量拒绝域拒绝域接受域1-置信水平单侧检验

(原假设与备择假设的确定)检验研究中的假设将所研究的假设作为备择假设H1。将认为研究结果是无效的说法或理论作为原假设H0。或者说,把希望(想要)证明的假设作为备择假设。先确立备择假设H1。单侧检验

(原假设与备择假设的确定)检验某项声明的有效性将所作出的说明(声明)作为原假设对该说明的质疑作为备择假设先确立原假设H0除非我们有证据表明“声明”无效,否则就应认为该“声明”是有效的单侧检验

(原假设与备择假设的确定)例2(见教材)某市高中入学考试平均分数为68分,标准差为8.6,其中某所中学参加此次考试的46名学生的平均分数为63。过去的资料表明,该校教学成绩低于全市平均水平,问此次考试该校数学平均分数是否仍显著低于全市的平均水平?建立的原假设与备择假设应为

H0:

≥68H1:<68单侧检验

(显著性水平与拒绝域)

H0值临界值a样本统计量拒绝域接受域抽样分布1-置信水平四、总体平均数的显著性检验检验的步骤:

提出原假设和备择假设

确定适当的检验统计量规定显著性水平计算检验统计量的值

作出统计决策什么检验统计量?

1. 用于假设检验问题的统计量

2. 选择统计量的方法与参数估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论