统计学 参数估计和假设检验_第1页
统计学 参数估计和假设检验_第2页
统计学 参数估计和假设检验_第3页
统计学 参数估计和假设检验_第4页
统计学 参数估计和假设检验_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学制作:安徽大学商学院洪文统计学

版权所有,未经准许,不得翻制3第五章参数估计和假设检验

第一节抽样分布

第二节

参数估计第三节假设检验的基本原理第四节几种常见的假设检验第五节方差分析附录6用SPSS进行参数估计和假设检验4第一节抽样分布

从总体中抽取样本的方法有很多,根据抽取的原则不同,抽样方法可分为随机抽样法和非随机抽样法两种。随机抽样法又称概率抽样法,即样本的抽取按照一定的概率原则,不依据个人的主观意愿,随机性地从总体中抽取样本。相应的,非随机抽样法又称为非概率抽样法,即样本的抽取不是按照一定的概率原则,而是根据人们的主观经验或其他条件来抽取样本。5第一节抽样分布

抽样推断在通常情况下都是建立在随机抽样的基础上的,因为这种方法在保证所抽取的样本具有总体代表性的前提下,还可以用一定的概率来保证抽样误差被控制在规定的范围之内。6第一节抽样分布

一、简单随机抽样(SimpleRandomSampling)

(一)什么是简单随机抽样?简单随机抽样也称为纯随机抽样,是从总体N个单位中任意抽取n个单位作为样本,而且每个单位可能被抽中的概率相等的一种抽样方法。按照样本抽选时每个单位是否允许被重复抽中,简单随机抽样可分为重复抽样和不重复抽样两种。7第一节抽样分布

重复抽样是指从总体的N个单位中抽取一个单位数为n的样本,每次抽出一个单位,登记其特征后,再放回总体再抽,这样连续抽n次即得到所需样本。特点:(1)同一总体单位可能被重复抽中;(2)每次抽取是独立的,都是在N个总体单位中抽一个。例如,从20个总体单位中抽取2个,若第一次抽中5号,第二次还有抽中5号单位的可能。第一次抽取的结果并不影响第二次抽取的结果,每次抽取各总体单位被抽中的概率都是1/N。8第一节抽样分布

不重复抽样是指从总体中随机抽取一个单位,登记其特征后不再放回总体中,下一个样本单位再从余下的总体单位中抽取,这样连续抽取n次即得到一个单位数为n的样本。不重复抽样方法的特点是:

(1)同一总体单位不可能被再次抽取;

(2)每次抽取不是独立的,上次抽取的结果要影响下次抽取的结果,每次抽取是在不同数目的总体单位中进行的。9第一节抽样分布

例如,从10个总体单位中抽取3个单位构成样本,若第一次抽中6号单位,第二次只能在其余9个单位中抽取,不可能再抽到6号单位,同理第三次只能在余下的8个单位中抽取。在抽样调查中,特别是对社会经济现象的抽样调查中,简单随机抽样一般是指不重复抽样。简单随机抽样是其他随机抽样方法的基础,因为它在理论上最容易处理,而且当总体单位数N不太大时,实施起来也不困难。10第一节抽样分布

(二)简单随机抽样的实施方法常用简单随机抽样方法有两种:抽签法和随机数字表法。随机数字表法:首先对总体元素编号,确定位数(总体位数+1),选定列数和起点。确定样本个数,符合总体编号的元素就被选中,达到样本个数中止。

11第一节抽样分布

抽样的目的就是要根据样本的统计量去估计总体的参数,如根据样本均值估计总体均值,根据样本比例p估计总体比例等。但在做这样的估计之前,必须要知道样本统计量的概率分布。由前面的介绍可知,从总体中抽取样本的方法有多种,而简单随机抽样是最常用的一种方法,以下讨论的就是在简单随机抽样方法下有关抽样分布的问题。12第一节抽样分布

什么是抽样分布呢?可以这样理解:在抽样过程中,由于样本是随机抽取的,因此统计量(样本的函数)是一个随机变量,其形成的概率分布称为抽样分布,它是进行统计推断的理论基础。13第一节抽样分布

一、单一样本统计量的抽样分布当我们要对某一总体的参数进行估计时,就要研究来自该总体的所有可能样本统计量的分布问题,比如样本均值的分布、样本比例的分布等,目的是概括有关统计量抽样分布的一般规律。(一)样本均值的抽样分布

1、样本均值抽样分布的构成14第一节抽样分布2、样本均值抽样分布的特征如同描述总体数据的数量特征一样,要反映样本均值的数量特征,同样也需要计算样本均值的平均数(集中趋势值)和标准差(离散程度值)。数理统计证明样本均值抽样分布有如下两个主要特征值(证明从略):

*无论是重复抽样还是不重复抽样,样本均值的期望值总是等于总体均值,即15第一节抽样分布

*样本均值的标准差总是小于总体标准差,其关系表现为:

公式中样本均值的标准差反映所有可能样本均值与其中心的平均离散程度,可用于衡量样本对总体的代表性大小。16第一节抽样分布

对比上面两个公式可以看出二者仅相差系数[(N-n)/(N-1)]0.5,,该系数通常被称为有限总体修正系数。在实际应用中,这一系数常常被忽略不计,主要是因为:对于无限总体进行不重复抽样时,由于N未知,此时样本均值的标准差仍可重复抽样来处理;对于有限总体,当N很大,其修正系数趋于1,通常在样本容量n小于总体容量N的5%,即n/N≤5%时,有限总体修正系数就可以忽略不计了。17第一节抽样分布3、样本均值抽样分布的形状上面介绍了样本均值抽样分布的均值和标准差,但我们还不知道其抽样分布的形状。如果样本均值所围绕的总体均值的抽样分布的形状不同,则推断的概率界限便不同。通常,样本均值抽样分布的形状与下述抽样分布定理有关。18第一节抽样分布*正态分布再生定理如果总体服从正态分布,总体均值为、总体标准差为,则从这个总体中抽取容量为n的随机样本,样本均值的抽样分布也服从于正态分布,其平均数仍为,其标准差为*

。这条定理表示,只要总体分布是正态的,在总体标准差已知时,则不管样本单位数是多少,样本均值都服从正态分布,分布的中心不变。19第一节抽样分布

而标准差x

则视重复抽样或不重复抽样分别为:

例1某罐头厂出口鲜蘑菇罐头,已知每瓶罐头的净重服从正态分布,平均每瓶罐头重量为184克,标准差为2.5克,若随机抽取16罐作为样本,试求:(a)样本平均重量的数学期望与标准差值;(b)样本平均重量的抽样分布的形状;(c)样本罐头平均重量超过184.5克的概率是多少?20第一节抽样分布

(a)

(b)由于已知总体重量服从正态分布,且=184,=2.5,依据正态分布再生定理得:样本均值的抽样分布也是正态分布。服从N(184,0.6252)。21第一节抽样分布

结果表明:随机抽取16罐样本罐头,平均重量超过184.5克的概率是21.19%(查表和演示)。22第一节抽样分布*中心极限定理对任意分布形状的平均数为,标准差为的总体进行随机抽样,只要样本容量足够大,则样本均值抽样分布逼近期望值为,标准差为x的正态分布。其中标准差x视重复抽样或不重复抽样分别为:23第一节抽样分布

在实际应用中,中心极限定理所说的样本“足够大”,可以理解为n在30以上。就是说,在处理实际问题时,只要样本容量n>30,即使总体明显是偏态的,样本均值的抽样分布仍近似服从正态分布。现举例说明其应用。24第一节抽样分布

例2某地区高考学生的入学考试成绩均值为550分,标准差为250分,若从考生中随机抽取100名,求:(a)样本平均成绩的数学期望与标准差值;(b)分析样本平均成绩的抽样分布;(c)样本平均成绩在520~580分之间的概率有多大?(d)样本平均成绩小于580分的概率有多大?

解:(a)25第一节抽样分布(b)虽然总体成绩的分布形态未知,但已知,且n=100为大样本,依据中心极限定理得:样本均值的抽样分布近似服从正态分布。26第一节抽样分布

例3已知某单位有2000名职工,平均每人每年医疗费用为1200元,标准差为380元,若随机抽取100名职工,求:(a)样本平均医疗费用的数学期望与标准差是多少?(b)样本平均医疗费用的抽样分布怎样?(c)样本平均医疗费用在1100元至1350元之间的概率。解:(a)27第一节抽样分布(b)虽然总体成绩的分布形态未知,但已知,且n=100为大样本,依据中心极限定理得:样本均值的抽样分布近似服从正态分布。28第一节抽样分布(二)样本比例的抽样分布样本比例即指样本中具有某种特征的单位所占的比例,如样本合格率、样本失业率等。在许多管理问题中,都要用样本的比例p去估计相应总体的比例P(总体均值P,方差P(1-P)),因此掌握样本比例的抽样分布问题就显得十分必要。样本比例是一种特殊的样本均值*,故样本比例的抽样分布就是前述样本均值分布的一个特例。29第一节抽样分布

根据前面介绍的内容,显然样本比例的分布属于二项分布问题,当样本容量n足够大时,即nP与n(1-P)都不小于5时,样本比例的抽样分布近似为正态分布(说明、演示)。在大样本情况下,样本比例的抽样分布特征值可概括如下:*无论是重复抽样还是不重复抽样,样本比例p的数学期望总是等于总体比例P,即

E(p)=P30第一节抽样分布

而样本比例p的标准差为p,其计算公式为:31第一节抽样分布

例4已知某厂零件加工不合格率达到6%,现从中随机抽取100件,求:(a)样本不合格率的期望值与标准差;(b)此时样本不合格率的抽样分布如何?(c)样本不合格率在4%以上的可能性有多大?

解:(a) P=0.06,n=100

E(p)=P=0.0632第一节抽样分布(b)由于已知P=0.06,n=100,所以nP=6,n(1-P)=94,均大于5,所以样本不合格率的抽样分布近似为正态分布。服从N(0.06,0.02372)。33第一节抽样分布

二、两个样本统计量的抽样分布当我们要对两个总体有关参数的差异进行估计时,就要研究来自这两个总体的所有可能样本相应统计量差异的抽样分布,比如,样本均值差异的抽样分布,样本比例差异的抽样分布等。34第一节抽样分布

(一)两个样本均值差异的抽样分布若从总体X1和总体X2中分别独立地抽取容量为n1和n2的样本,则由两个样本均值之差的所有可能取值形成的概率分布称为两个样本均值差异的抽样分布。假设总体X1和总体X2的均值分别是1和2,标准差分别是1和2,则两个样本均值之差的抽样分布可概括为以下两种情况:35第一节抽样分布1、若总体X1~N(1,1),总体X2~N(2,2),则2、若两个总体都是非正态总体,当两个样本容量n1和n2都足够大时,依据中心极限定理,两个样本均值之差分别近似服从正态分布,故36第一节抽样分布

例5某家具公司在市区和郊区开办两个家具城,根据某年的销售统计,得资料如下:总体平均消费额(元)总体标准差(元)市区4000800郊区3500900

若分别从市区和郊区的消费者中随机抽取36人和49人,问:37第一节抽样分布(1)样本平均消费额差异的抽样分布怎样?(2)样本平均消费额差异的标准差是多少?(3)样本平均消费额差异在总体平均消费额差异附近±2倍的抽样标准差之间的概率为多少?

解:(1)由于两个随机样本是独立大样本,所以样本平均消费额差异的抽样分布近似为正态分布。样本平均消费额差异的的均值为500。38第一节抽样分布(2)两个总体标准差分别已知,所以样本平均消费额差异的标准差是:

(3)查正态分布概率表得:样本平均消费额差异在总体平均消费额差异附近±2倍的抽样标准差之间的概率即为95.45%。39第一节抽样分布

(二)两个样本比例差异的抽样分布若从总体X1和总体X2中分别独立地抽取容量为n1和n2的样本,则由两个样本比例之差p1-p2的所有可能取值形成的概率分布称为两个样本比例差异的抽样分布。假设两个总体的比例分别是P1和P2,当n1和n2足够大时,即n1P1与n1(1-P1)且n2P2与n2(1-p2)都不小于5时,根据中心极限定理,pl和p2分别近似服从正态分布,故40第一节抽样分布

例6据某中学医务室体检结果的统计,男、女生配戴近视眼镜的比例分别为32%和45%,若分别从男生和女生中随机抽取100人和150人,问:(1)两个样本中戴眼镜比例差异的抽样分布怎样?(2)样本比例差异的标准差是多少?(3)样本比例差异在总体比例差异附近±2.58倍的抽样标准差之间的概率为多少?41第一节抽样分布

解:(1)设P1=32%,n1=100,P2=45%,n2=150

由于n1P1与n1(1-P1)且n2P2与n2(1-P2)都不小于5,所以样本比例差异的抽样分布近似为正态分布。样本比例差异的均值为0.07。

(2)样本比例差异的的标准差是:42第一节抽样分布(3)查表得:样本比例差异在总体比例差异附近±2.58倍的抽样标准差之间的概率为99%。43第二节参数估计所谓参数估计也就是用样本统计量去估计总体的参数。比如,用样本均值估计总体均值,用样本比例p估计总体比例P,等等。参数估计的方法有点估计和区间估计两种,下面分别予以介绍。44第二节参数估计

一、参数估计的基本原理

1、几个基本概念

(1)参数(Parameter)

参数是用来描述总体特征的概括性数值。如总体均值()、总体比例(P)等。在进行推断统计时,总体数据通常是不完全的,所以参数是一个未知的常数。45第二节参数估计(2)统计量(Statistic)

统计量是用来描述样本特征的概括性值(样本的函数)。如样本均值、样本比例(p)等。由于样本是经过随机抽样确定的,所以统计量是随机变量,可以根据抽样结果计算出具体的数值。推断统计的目的就是要根据已知样本统计量去估计未知总体参数。例如,根据样本职工的平均收入去推断总体职工的平均收入;根据样本产品的合格率去推断总体产品的合格率,等等。46第二节参数估计(3)估计量(Estimator)

估计量是用于估计总体参数的统计量的名称。例如,根据样本汽车的平均价格去估计总体汽车的平均价格时,样本汽车的平均价格就是估计量。显然,样本是随机的,所以估计量也是一个随机变量(对于总体均值参数,样本均值,最大值,最小值都可以是总体均值的估计量)。47第二节参数估计(4)估计值(Estimate)

根据随机抽样的结果计算的估计量的具体数值即为估计值。例如,根据某次抽样结果计算得样本旅客的平均通过安检的时间为167.77秒,用于估计总体旅客的平均通过安检的时间,这个167.77秒就是估计值。48第二节参数估计

二、点估计(Pointestimate)

点估计就是用样本估计量的观察值直接作为总体参数的估计值。比如,用样本均值直接作为总体均值的估计值,用样本比例p直接作为总体比例P的估计值,等等。49第二节参数估计

例72006年中国民航业迅猛发展,民航旅客的满意度越来越受到社会的关注,其中机场安全检查的通过时间就是关系到旅客满意度的重要指标之一,调查员于2006年年底在某机场的某个安检通道随机抽取了35位旅客,测量他们通过安全检查的时间如下(单位:秒):

50第二节参数估计 86158229180145295158 204187471122339089 1761382512227597165 11821016936270167130 1899525014398539121

根据此样本数据,对同期该机场旅客的平均安检通过时间以及通过安检时间在3分钟及以上旅客所占比例作出点估计。51第二节参数估计

解:根据抽样调查的35个数据计算得样本平均通过时间为167.77秒,样本数据中通过时间在3分钟以上者占34.29%(演示)。据此可以估计同期该机场所有旅客通过安检通道的平均时间为167.77秒,而通过时间在3分钟及以上者占34.29%。这里的167.77秒和34.29%就作为整个机场旅客的平均安检通过时间和通过时间在3分钟及以上者比例的估计值,这些都是采用点估计方法。52第二节参数估计*点估计优良性评价的标准在上述点估计问题中,为了估计机场旅客的平均安检通过时间,我们是用样本安检通过时间均值作点估计的,这里能否利用样本的中位数作点估计呢(样本中某人时间太长效果就不好)?实际上,我们在对具体问题的估计中总是希望使用估计效果最好的估计量,而数理统计证明,一个好的估计量一定满足以下几个评价标准:53第二节参数估计(1)无偏性(Undiasedness)

无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。这表明,从一次抽样结果来看,样本估计量的值与总体参数可能存在误差,但结合抽样分布的情况,所有估计量的平均数等于总体参数实际值,即平均来讲估计是无偏的。可以说样本均值和样本比例p分别是总体均值和总体比例P的无偏估计量(样本标准差除n-1就是为了满足无偏性)。54第二节参数估计(2)有效性(Efficiency)

有效性是指估计量的离散程度比较小。对估计量有效性的评价往往是在无偏性基础之上进行的,若两个估计量都是总体参数的无偏估计量,则标准差较小的估计量更有效。很明显,样本均值与样本中某个值都是总体均值的无偏估计,即55第二节参数估计

但是样本均值抽样分布的标准差为:

样本均值X抽样分布的标准差小于样本中某个值的标准差,可以判断样本均值比样本中某个值作为总体均值的估计值更有效(样本均值也是最有效的估计量)。

56第二节参数估计(3)一致性(Consistency)

一致性是指随着样本容量的增大,估计量的值与总体参数真值越来越接近。可以证明,样本均值和样本比例p分别是总体均值和总体比例P的一致估计量。

在实际问题的分析中,我们不一定能找到完全符合以上标准的优良估计量(样本标准差满足无偏性但不满足有效性),但总是希望所采用的估计量尽可能接近这些标准。57第二节参数估计

理论证明,再重复抽样的前提下,样本均值作为总体均值的估计量、样本比例作为总体比例的估计量,都具有上述优良性质,所以,通常采用样本均值或样本比例作为相应的总体均值或总体比例的点估计量。

58第二节参数估计

很明显,点估计的优点是简单、具体、明确。它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。但要使点估计的结果恰好等于总体参数的值几乎是不可能的,通常总有一定的抽样误差,而点估计本身无法说明抽样误差的大小。若估计总体参数可能落在某一个区间内就有把握多了,因此在实际问题估计中,我们更多地使用区间估计。59第二节参数估计

三、区间估计

1、区间估计的基本原理区间估计(IntervalEstimate)是在点估计的基础上,根据给定的置信度估计总体参数取值范围的方法。比如,根据样本结果估计出民航旅客的通过安检时间总体的均值介于150秒到200秒之间,而且估计的概率(可能性)是95%,这就是区间估计。我们以总体均值的区间估计为例说明区间估计的基本原理。60第二节参数估计

由上一节所讲述的样本均值的抽样分布可知,在大样本情况下,样本均值近似服从正态分布,且样本均值的数学期望等于总体均值,样本均值的标准差为:

由此可以利用正态分布概率表确定样本均值落在总体均值的两侧各为一个标准差范围内的概率为0.687;落在两个标准差范围内的概率为0.9545,等等。61第二节参数估计

依此类推,我们可以求出样本均值落在总体均值的两侧任何几个标准差值的范围内的概率。但实际估计时,要求的情况恰好相反。样本均值是已知的,而是未知的,怎样根据样本均值估计呢?62第二节参数估计

总体均值的区间估计的数学表达式可概括为(100个抽样,100个区间,95个包含总体均值):

式中:区间上下端点称为置信上限和下限;

1-表示该区间包括总体均值的概率;1-称为置信水平;z/2称为概率度,是标准正态分布的临界值,依据给定的置信水平1-查表确定。63第二节参数估计2、区间估计的准确程度和可靠程度如前所述,点估计方法既不能说明抽样误差的大小,也不能说明估计的结果有多大把握程度,但区间估计方法可以弥补这一不足。64第二节参数估计z/2x是估计总体均值时的误差范围,表示用样本均值估计时最大允许误差,可见这一乘积的值越大,说明样本均值与总体均值的误差越大,则区间估计的准确性就越差;反之,这一乘积的值越小,说明样本均值与总体均值的误差越小,则区间估计的准确性就越好。65第二节参数估计置信水平1-则反映着区间估计的可靠程度,显然置信水平越大,据此查正态概率表得到的概率度z值也越大,然而估计的误差范围z/2x也随之越大,则估计的准确性就越差。上述分析说明,在其他条件不变的情况下,要提高区间估计的可靠程度,就会增大允许误差,从而降低估计的准确程度;而缩小允许误差,提高估计的准确程度,则会降低区间估计的可靠程度。66第二节参数估计3、区间估计的步骤现将总体均值的区间估计步骤归纳如下:

(1)确定置信水平1-,即估计的可靠性或把握程度。对于可靠性要求较高的统计问题,置信度要求也较高,实际统计推断中通常采用95%。

(2)根据置信水平1-

,查标准正态分布表确定z/2值。

(3)实际抽样,计算样本均值和标准差x。

(4)确定置信区间。67第二节参数估计

前面给出了总体均值区间估计的一般步骤,在实际估计时,通常依据研究问题的不同或资料条件的不同而采用不同的处理方法,主要有大样本情况下对单一总体均值的区间估计、小样本情况下对单一总体均值的区间估计以及大样本情况下对两个总体均值之差的区间估计等几种情况。68第二节参数估计

四、单一总体均值的区间估计1、大样本

依据中心极限定理,我们不难判断:只要进行大样本(n>30)抽样,无论总体是否服从正态分布,样本均值的抽样分布均近似为正态分布。当总体标准差已知时,在重复抽样情况下,总体均值在1-置信水平下的置信区间为:69第二节参数估计

如果采取的是有限总体不重复抽样,而且抽取样本数比较大(n/N>5%)时,则样本均值抽样分布的标准差应乘以修正系数:

这时总体均值在1-置信水平下的置信区间可以写为:70第二节参数估计

当总体标准差未知时,在大样本条件下,则可以用样本标准差s代替总体标差,这时无论总体是否服从正态分布,总体均值在1-置信水平下的置信区间可以写为:71第二节参数估计

现在我们按照以上介绍的方法来解决例5.7中的相关问题。例8假定调查人员从该机场得到的信息是:虽然每个旅客通过安检的时间有所不同,但每人通过安检时间的总体标准差=100秒。试根据随机抽样的结果,在95%的置信水平下估计所有旅客的平均通过安检时间的置信区间。解:由于n=35,此题属于大样本抽样;72第二节参数估计

已知=100;当天的旅客总量N未知,做出区间估计如下:样本旅客等候时间的均值:

由已知1-=0.95,查标准正态分布概率表得:z0.025=1.96,于是在95%的置信水平下置信区间为:73第二节参数估计

结果表明:误差范围是33.13,总体均值在95%的置信水平下的置信区间为(134.6,200.9)。即调查人员可以95%的把握认为该抽查的安检通道旅客通过安检时间的总体均值介于134.64秒到200.9秒之间。74第二节参数估计

例9若已知当天从该通道通过的旅客总量N=350人,调查人员是按照不重复抽样的方法进行调查得到样本数据的,假定总体标准差=100秒,试在95%的置信水平下估计该安检通道所有旅客平均通过安检时间的置信区间。解:由于n=35,为大样本抽样;=100;N=350,且n/N=10%>5%,做出区间估计如下:

在95%的置信水平下置信区间为:75第二节参数估计

结果表明:误差范围是31.47,总体均值在95%的置信水平下的置信区间为:(136.3,199.24)即调查人员可以95%的把握认为该安检通道旅客通过安检时间的总体均值介于136.3秒到199.24秒之间(为什么区间会变小?)。76第二节参数估计

对比例8与例9会发现,对于同样的资料(信息不完全一样),按照重复抽样方法得到的置信区间略大些,说明重复抽样的误差大于不重复抽样的误差,但随着总体容量增大,抽样比会缩小,修正系数接近于1,两种方法的抽样误差就趋于一致了。因此,尽管实际抽样中一般是进行不重复抽样的,但为了简便计算,在大样本情况下通常是按照重复抽样方法估计置信区间的。77第二节参数估计

例10如果总体的旅客通过安检的时间标准差未知,试根据上述随机抽样的结果,在95%的置信水平下估计该安检通道的所有旅客平均通过安检时间的置信区间。解:由于n=35,为大样本抽样;总体标准差未知,可以样本的标准差s代替(区间变大变小不确定,有偶然性),做出区间估计如下:78第二节参数估计

在95%的置信水平下置信区间为:

结果表明:误差范围是30.26,总体均值在95%的置信水平下的置信区间为:

(137.51,198.03)。即调查人员可以95%的把握认为该安检通道旅客通过安检时间的总体均值介于137.51秒到198.03秒之间。79第二节参数估计2、小样本

在实际工作中,为了经济节约,常常进行小样本抽样;或有时受条件限制(如带有破坏性的检查),做大样本抽样是十分困难的,所以实践中利用小样本对总体均值进行估计的情况较为常见。正如前一节所述,若总体服从正态分布,只要总体标准差已知,无论样本容量如何,样本均值的抽样分布都服从正态分布,计算总体均值的置信区间和前面一样。80第二节参数估计

例11假设研究人员于某日在该机场通道随机抽取12位旅客的安检通过时间组成样本,得到样本如下:

8616225021315995 2043212719732070

据以往情况知:安检通过时间服从正态分布,且标准差为100秒。试以95%的置信水平估计平均通过时间的置信区间。81第二节参数估计

解:已知通过安检的时间服从正态分布,且总体标准差=100,尽管n=12为小样本,但依据正态分布再生定理,样本均值的抽样分布仍为正态分布。计算:样本均值=187.33,1-=0.95,

z/2=1.96,估计得:82第二节参数估计

即187.33±56.58=(130.75,243.91)。也就是说,我们可以95%的概率估计该通道旅客通过安检时间的总体均值介于130.75秒到243.91秒之间(效果比较差,是不是一定如此?)。83第二节参数估计

上面讨论的样本均值的分布都有一个前提,需要知道总体的标准差。而在抽样估计的问题中,一般情况下总体的标准差是未知的,这时可以考虑用样本的标准差s来代替,于是便得到一个新的统计量,即:

这个t的分布已不是正态分布了,称t为服从自由度为n-1的t分布,记为T~t(n-1)。84第二节参数估计t分布与正态分布一样都是对称分布,但较正态分布离散度强,分布密度曲线较标准正态分布密度曲线更为扁平,t分布为一曲线族,随着自由度n-1的增大,其曲线中部向上拢起,两尾部向下低垂,逐渐逼近于标准正态曲线。因此,对于正态总体不明确的样本均值的抽样分布,首先要分清楚n是否大于30。不大于30,称为小样本,按t分布处理。反之,称为大样本,按z分布(正态分布)处理(演示)。85第二节参数估计86第二节参数估计t的取值在(-,+)之间,若计算样本均值落在某一区间内的概率可以通过查t分布表得到(见书后附表3,举例说明)。如果总体服从正态分布,但是总体的标准差未知,且在小样本抽样情况下,则需要用样本标准差s代替,这时应采用t分布来建立总体均值在1-置信水平下的置信区间,公式为:87第二节参数估计

式中:t/2是自由度为n-1时,t分布中上侧面积为/2时的t值,可通过书后附表3查得;s为样本标准差。下面通过实例说明这种方法的应用。88第二节参数估计

例12假设研究人员于某日在该机场随机抽取12位旅客的安检通过时间组成样本,得到样本如下:

8616225021315995 2043212719732070

据以往情况知:安检通过的时间服从正态分布,且总体标准差未知。试以95%的置信水平估计平均通过时间的置信区间。89第二节参数估计

解:已知安检通过的时间服从正态分布,且总体标准差未知,小样本。根据样本计算得:

样本均值=187.33,s=90.20,1-=0.95,

t(0.025,11)=2.201,所以置信区间为:

即187.33±57.31=(130.02,244.64)。90第二节参数估计

也就是说,我们可以95%的概率估计该安检通道旅客安检通过时间的总体均值介于130.02秒到244.64秒之间(效果差,原因何在?)。

对比例11与例12可以看出,在小样本情况下,由于ta/2>za/2,所以即使其他条件一样,t分布置信区间的宽度会大于正态分布,因此在实际抽样中,为了提高估计的精度,最好抽取大样本。

91第二节参数估计

五、两个总体均值差异的区间估计(大样本)

在实际管理工作中,我们经常需要对来自两个不同总体的均值进行比较,如比较两个地区平均收入的差异、比较两种产品平均寿命的差异等,往往是利用样本数据对这些情况做出估计。在上节中介绍了两个样本均值差异的抽样分布理论,从中我们可以得出:若两个样本容量都较大(n1>=30且n2>=30),对两个总体均值差异做区间估计的公式为:92第二节参数估计

上式适用于以下两种情形:

(1)如果两个总体都服从正态分布,标准差分别已知,即x1~N(1,1),x2~N(2,2)。(2)若两个总体均不服从正态分布,分别从这两个总体中随机抽取两个独立样本,当两个样本容量n1和n2都足够大时。93第二节参数估计

在此情形下,若两个总体的标准差1和2未知,可分别以样本的标准差s1和s2来代替。94第二节参数估计

例13机场为了提高顾客满意度,在2006年下半年对机场的安检设施进行了改良,有关调查人员想对比该机场2006年年底与年中抽查的安检通道旅客平均通过时间的差异,于是在年中的机场数据中随机抽取30名旅客的等待时间,得到数据如下:

9520445301168 45614116880536 18057513710815195第二节参数估计 13310515533695 21025116899177 16161163101147

将以上数据和例5.7的数据整理如下:年中年底样本容量样本均值样本标准差30190.23130.135167.7796.1496第二节参数估计

根据以上整理的结果,试以95%的置信水平估计该机场年底与年中旅客平均通过安检时间差异的置信区间。解:由于两个样本相互独立,而且均为大样本,因此样本均值差异也近似服从正态分布,并以样本标准差代替未知的总体标准差,所以在置信度95%时的置信区间为:97第二节参数估计

即(-33.95,78.87)。结果表明,可以95%的概率估计该安检通道旅客总体通过安检时间的差异介于-33.9秒到78.9秒之间。本例中,所求置信区间包含0,说明我们没有足够的理由认为该地区2006年年底与年中旅客的平均安检通过时间有明显差异(演示)。

98第二节参数估计

例14某研究机构想要估计某城市与近郊地区家庭收入的差异状况,随机在这两个地区抽取一定量的家庭构成样本,得到样本家庭收入的资料如下:城区近郊家庭数年收入均值年收入标准差606000090004055000700099第二节参数估计

试以95%的置信水平估计两个地区家庭平均收入差异的置信区间。解:由于大样本抽样,与上例情况相同,在95%的置信水平下置信区间为:

即(1855,8145)。100第二节参数估计

结果表明,在95%的置信水平下,两个地区家庭的年平均收入差异的区间估计为1855元至8145元之间,即估计城市居民平均收入比郊区至少高1855元。101第二节参数估计可以得到以下结论:对于两个总体均值差异的区间估计,如果所求置信区间的置信上限与下限均为正值,则意味着两个总体均值实际之差可能为正,即1>2;如果所求置信区间的置信上限与下限均为负值,则意味着两个总体均值实际之差可能为负,即1<2;如果所求置信区间包含0,则意味着不能判断出两个总体均值实际存在差异。102第二节参数估计六、单一总体比例的区间估计(大样本)与总体均值的区间估计一样,在对总体比例进行区间估计时,通常也分为对单一总体比例的区间估计以及对两个总体比例之差的区间估计等情况。下面仅就大样本情形分别予以介绍。在统计推断问题中,常常需要推断总体中具有某种特征的数量所占的百分比,这种随机变量与二项分布有密切关系。103第二节参数估计

如前所述,二项分布当nP与n(1-P)不小于5时,样本的比例P的抽样分布趋于正态分布。p的数学期望等于总体的比例P;而p的抽样标准差在重复抽样条件下为:

在利用样本的比例p估计总体比例P时,由于P未知,大样本情况下,我们可以用样本比例p来代替P

,于是得:104第二节参数估计总体比例P在1-

置信水平下的置信区间为:105第二节参数估计

例15在例7问题中,根据抽样的结果,试以95%的概率估计该机场通道年底的安检通过时间在3分钟及以上的旅客所占比例的置信区间。解:已知n=35,根据抽样结果计算的样本比例为p=12/35=34.29%,由于np与n(1-p)都大于5,假设当天抽查的通道旅客总量N未知,依题意:1-

=95%,得Z/2=1.96106第二节参数估计

所以

即(18.56%,50.02%)。

也就是说,我们可以95%的概率估计该机场此通道年底的平均通过时间在3分钟及以上的旅客所占比例在18.56%到50.02%之间(如果认为区间太宽怎么办?)。

107第二节参数估计

例16某企业共有职工1000人。企业准备实行一项改革,在职工中征求意见,采取不重复抽样方法随机抽取200人作为样本,调查结果显示,有150人表示赞成该项改革,50人表示反对。试以90%的概率估计企业全部职工中赞成改革的人员比例的置信区间。解:已知n=200,根据抽样结果计算的赞成改革的人数比例为p=150/200=75%。108第二节参数估计

由于np与n(1-p))都大于5,且n/N=200/1000=20%>5%,根据1-=90%,得Z/2=1.645

即75%土4.5%=(70.5%,79.5%)。109第二节参数估计

也就是说,我们可以90%的概率估计该企业职工中赞成改革的人数比例在70.5%到79.5%之间。

七、两个总体比例差异的区间估计根据抽样分布理论,可以判定,如两个样本容量足够大,即指n1P1与n1(1-P1))且n2P2与n2(1-P2))都不小于5,p1和p2分别近似服从正态分布,则有:110第二节参数估计

在对总体参数进行估计时,由于总体比例P是未知的,所以需要以样本比例p代替,因此,在1-置信水平下,两个总体比例差异的置信区间为:111第二节参数估计

例17根据例13调查的资料,试以95%的概率估计该机场2006年年底与年中抽查的安检通道旅客通过时间在3分钟及以上者所占比例的差异的置信区间。解:根据样本数据计算得:年中p1=9/30=30%,年底p2=12/35=34.29%,由n1p1=9,n1(1-p1)=21,且n2p2=12,n2(1-p2)=23均大于5,且为大样本,因此p1-p2也近似服从正态分布。112第二节参数估计置信区间为:

即-0.0429±0.2272=(-0.2701,0.1843)

结果表明,以95%概率估计该机场此通道年底与年中的旅客安检通过时间在3分钟及以上的旅客所占比例差异的置信区间在-27%到18%之间,并未看出年底与年中存在明显差异(演示)。113第二节参数估计八、样本容量的确定所谓样本容量是指抽取的样本中包含的单位数目,通常表示为n。在对社会经济问题进行抽样调查时,样本容量的多少,与抽样误差和调查费用都有直接的关系。如果样本容量很大,即使抽样误差很小,但是调查的工作量会很大,时间和经费也会被浪费掉,这样一来就体现不出来抽样调查的优越性。114第二节参数估计

反之,如果样本容量过小,工作量和耗费会减少,但是抽样误差太大,抽样推断就会失去意义。所以抽样设计中的一个重要内容就是要确定需要的样本容量即抽样数目。关于样本容量的确定方法,通常是根据所研究的具体问题,首先提出估计的置信度和允许的误差范围,然后结合经验值或抽样数据估计总体的标准差值,再通过抽样允许的误差范围计算公式推算必要的样本容量。115第二节参数估计

下面仅就估计总体均值时所必需的样本容量的确定和估计总体比例时所必需的样本容量的确定方法做一概括介绍。

1、估计总体均值时所需样本容量在重复抽样条件下,若规定在一定的置信水平下允许的误差范围为E,即

则可以推导出确定样本容量的计算公式如下:116第二节参数估计

同样,在不重复抽样条件下,我们可以得出确定样本容量的公式为:

在实际应用中,通常的值不知道,为了求得样本容量,需要对作出估计,一般采用以往经验值或类似的样本值s来代替。117第二节参数估计

例18研究人员欲估计2011年年底该机场此安检通道旅客的平均通过时间是多少。已知当日该通道旅客总量为350人,按照以往的经验,总体标准差约为100秒。要求在95%的置信水平下,使平均通过时间的误差范围不超出30秒,应抽取多大的样本?

解:已知N=350,=100,E=30,

1-=95%,z/2=1.96。118第二节参数估计

在重复抽样条件下,得:

即应抽职43名旅客作为样本。在不重复抽样条件下,得:

即应抽取39名旅客作为样本。119第二节参数估计2、估计总体比例时所需样本容量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论