统计学基础课件(抽样推断)_第1页
统计学基础课件(抽样推断)_第2页
统计学基础课件(抽样推断)_第3页
统计学基础课件(抽样推断)_第4页
统计学基础课件(抽样推断)_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章抽样推断第六章抽样推断

教学目的与要求:抽样估计是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。

本章主要内容抽样推断概述抽样误差抽样估计的方法样本容量的确定本章主要内容抽样推断概述抽样误差抽样估计的方法样本一、抽样推断的概念和特点

概念

抽样推断是在抽样调查的基础上,用样本实际资料计算样本指标,并据以推算总体相应的数量特征的一种统计分析方法。第一节抽样推断概述一、抽样推断的概念和特点概念抽样推断是在抽样调特点

它是由部分推断整体的一种认识方法。

抽样推断建立在随机取样的基础上。

抽样推断运用概率估计的方法。

抽样推断的误差可以事先计算并加以控制。特点它是由部分推断整体的一种认识方法。抽样推断二、抽样推断的一些基本概念(一)总体和样本总体:

又称全及总体。指所要认识的研究对象全体。总体单位总数用“N”表示,N总是很大的数

。对于一个总体来说,若被研究的标志系品质标志,则将这个总体称为属性总体;若被研究的标志系数量标志,则将这个总体称为变量总体。二、抽样推断的一些基本概念(一)总体和样本总体:样本:

又称子样或抽样总体,简称样本。是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。样本单位总数用“n”表示。相对N来说,n是很小的数,它可以是N的几十分之一、几百分之一、几千分之一、几万分之一。(一般来说,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本)样本:又称子样或抽样总体,简称样本。是从全及总体中随机抽(二)总体指标和样本指标

总体指标是根据总体中各单位的标志值或标志属性计算的,反映总体数量特征的综合指标。

参数研究总体中的数量标志总体平均数总体标准差X=∑XNX=∑XF∑F研究总体中的品质标志总体成数成数标准差P=

N1N(只有两种表现)(二)总体指标和样本指标总体指标是根据总样本指标是根据样本各单位标志值或标志属性计算的综合指标。研究数量标志

样本平均数

x=∑xnx=∑xf∑f样本标准差研究品质标志样本成数

成数标准差

np=n样本指标是根据样本各单位标志值或标志属性研究数样本平均数x(三)样本容量和样本个数样本容量:一个样本包含的单位数。用“n”表示。一般要求n≥30样本个数:从一个全及总体中可能抽取的样本数目。(三)样本容量和样本个数样本容量:一个样本包含的单位数。用(四)重复抽样和不重复抽样重复抽样:又称回置抽样。不重复抽样:又称不回置抽样。可能组成的样本数目:N(N-1)(N-2)……(N-n+1)可能组成的样本数目:nN(四)重复抽样和不重复抽样重复抽样:又称回置抽样。不重复抽样从A、B、C、D四个单位中,抽出两个单位构成一个样本,问可能组成的样本数目是多少?重复抽样AAACADBABBBCBDABCACBCCCDDADBDCDDNn=42=16(个样本)例如从A、B、C、D四个单位中,抽出两个单位构成重复抽样AAAC不重复抽样N(N-1)(N-2)…….4×3=12(个样本)不重复抽样N(N-1)(N-2)…….4×3=12(个样一、抽样误差的含义

抽样误差是指按随机原则抽样时,在没有登记误差和系统性误差的条件下,单纯由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起的样本指标与总体指标之间的离差。在抽样中误差的来源有许多方面。

第二节抽样误差一、抽样误差的含义抽样误差是指按随机原则抽样

另一类是代表性误差,即样本各单位的结构不足以代表总体而引起的误差。

其中一类是登记性误差,即在调查过程中由于观察、测量、登记、计算上的差错所引起的误差,这类误差是所有统计调查都可能发生的。

另一类是代表性误差,即样本各单位的结构不足以代表总另一种情况是,即使遵守随机原则,由于被抽选的样本有各种各样,只要被抽中的样本其内部各单位被研究标志的构成比例和总体有所出入,就会出现或大或小的偶然性代表性误差。代表性误差的发生有以下两种情况:一种是由于违反抽样调查的随机原则,如有意地多选较好的单位或较坏的单位进行调查。这样做,所据以计算的抽样指标必然出现偏高或偏低现象,造成系统性的误差。系统性误差和登记性误差都是不应当发生的,是可以也应该采取措施避免发生或将其减小到最小限度。另一种情况是,即使遵守随机原则,由于被抽选的样本有各种各样

我们所讲的抽样误差就是指这种偶然性代表性误差。即按随机原则抽样时,在没有登记性误差和系统性误差的条件下单纯由于不同的随机样本得出不同估计量而产生的误差。抽样误差是抽样调查所固有的,是无法避免与消除的,但可以运用数学方法计算其数量界限,并通过抽样设计程序控制其范围,所以这种抽样误差也称为可控制误差。需要指出,抽样误差不是固定不变的数,它的数值是随样本不同而变化的,所以它也是随机变量。我们所讲的抽样误差就是指这种偶然性代表性误差。即按随二、抽样误差的表现形式

(一)抽样实际误差

抽样实际误差是指在一次具体的抽样调查中,由随机因素引起的样本指标与总体指标之间的离差。如样本平均数与总体平均数之间的绝对离差,样本成数与总体成数之间的绝对离差。但是,在抽样中,由于总体指标数值是未知的,因此,抽样实际误差是无法计算的。同时,抽样实际误差仅仅是一系列可能出现的误差数值之一,因此,抽样实际误差没有概括所有可能产生的抽样误差。二、抽样误差的表现形式(一)抽样实际误差抽样实际误(二)抽样平均误差

抽样平均误差是抽样平均数或抽样成数的标准差,反映了抽样指标与总体指标的平均误差程度。(二)抽样平均误差抽样平均误差是抽

抽样平均误差的计算公式抽样平均数的平均误差抽样成数平均误差实际上,利用上述两个公式是计算不出抽样平均误差的。想一想,为什么?M表示全部可能的样本数目抽样平均误差的计算公式抽样平均数抽

该公式表明了抽样平均误差的意义。但是当总体单位数较大,而抽取的样本单位数也较大时,样本可能数目就非常大。即使求出样本可能数目,上述公式仍然不适用,这是因为,在该公式中出现了总体平均数。这也正是抽样调查所要推算出的数值,实践中是不知道的。

该公式表明了抽样平均误差的意义。但是当总体单位数较大抽样平均数平均误差的计算方法采用重复抽样:采用不重复抽样:我们把式子叫做修正因子。不难看出当N较大时,与的计算结果是十分接近。因此,当N较大时在不重复抽样条件计算抽样平均误差的公式可采用时抽样平均数平均误差的计算方法采用重复抽样:采用不重复抽样:我

随机抽选某校学生100人,调查他们的体重。得到他们的平均体重为58公斤,标准差为10公斤。问抽样推断的平均误差是多少?即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。已知:则:n=100σ=10x=58例题1随机抽选某校学生100人,调查他们的体重。得到他们的平已知:则:N=2000n=400σ=300=4800

某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?重复抽样不重复抽样已知:则:N=2000n=400σ=300=4800某抽样成数平均误差的计算方法采用重复抽样:采用不重复抽样:抽样成数平均误差的计算方法采用重复抽样:采用不重复抽样:

某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?已知:则:样本成数例题3某校随机抽选400名学生,发现戴眼镜的学生有

一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?已知:例题3一批食品罐头共60000桶,随机抽查300桶,发现有则:样本合格率则:样本合格率(二)影响抽样误差大小的因素 1、样本单位数的多少 2、受总体标准差的影响3、抽样方法 4、抽样调查的组织形式(二)影响抽样误差大小的因素 含义:

抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕着总体指标左右变动的量,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差。

计算方法:它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。(三)抽样极限误差含义:抽样极限误差是指样本指标和总体指标之间抽样误差的=Δp│p-P│p-Δ≤P≤p+ΔPp抽样平均数极限误差:抽样成数极限误差:≤≤=Δp│p-P│p-Δ≤P≤p+ΔP

什么是抽样估计的置信度?

抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。由于抽样指标值随着样本的变动而变动,它本身是一个随机变量,因而抽样指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要来计算抽样指标和总体指标的误差不超过一定范围的概率大小,即计算抽样指标落在一定区间范围内的概率,这种概率称之为抽样估计的概率度。什么是抽样估计的置信度?

抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符号“

Z”表示。公式表示:

什么是抽样估计的概率度?或抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符正态概率分布图Xx+1μx-1μ68.27%x+2μx-2μ95.45%由此可知,误差范围愈大,抽样估计的置信度愈高,但抽样估计的精确度愈低;反之,误差范围愈小,则抽样估计的置信度愈低,但抽样估计的精确度愈高。因为扩大或缩小以后的平均误差,就是极限误差:Δ=Zμ所以,抽样平均误差的系数就是概率度t。数理统计已经证明,抽样误差的概率就是概率度的函数,二者对应的函数关系已编成“正态分布概率表”。(P225)正态概率分布图Xx+1μx-1μ68.27%x+一、点估计第三节抽样估计的方法

抽样估计是用抽样资料来估计相应的总体指标的数值,而总体指标是表明总体数量特征的参数,所以这种估计也可以称为参数估计。总体参数的估计有点估计和区间估计两种方法。

点估计是以抽样指标数值直接作为总体指标估计值的一种估计方法。例如从某地区的1000000亩小麦中随机抽取100亩进行抽样调查,测得平均亩产量=300千克,我们就说,全地区1000000亩小麦的平均亩产量为300千克。一、点估计第三节抽样估计的方法抽样估计是用抽样总体参数优良估计的标准无偏性一致性有效性

点估计的方法优点是简便易行,原理直观,常为实际工作采用。但不足之处是没有表明抽样估计的误差,更没有表明误差在一定范围内的概率保证程度有多大。在参数估计中,要有合适的样本指标作为估计量。这里的样本指标是样本数据的函数。如从一个样本可以计算样本算术平均数,中位数、众数等。应当用那一种指标作为参数估计量才是最优的,这便是样本指标的优良标准问题。作为优良的估计指标应该符合以下标准。总体参数优良估计的标准无偏性一致性有效性点估计的

区间估计就是根据概率保证程度的要求,选定概率度t,以及极限抽样误差(),再利用抽样指标或p,定出估计上限或()和估计下限(或),即指出总体指标可能存在的区间范围。我们把区间(,或,)称为置信区间,概率保证程度称为置信程度。二、区间估计区间估计就是根据概率保证程度的要求,选定概率度t,以及区间估计三要素估计值抽样误差范围抽样估计的置信度区间估计三要素估计值抽样误差范围抽样估计的置信度2、区间估计与点估计的区别

一是区间估计不像点估计那样用一个数值对总体指标进行估计,而是用一个范围对总体指标进行估计;二是点估计是一个确切的估计值,而区间估计的是区间,根据概率度的要求可宽可窄;三是点估计无法回答估计值的把握程度,而区间估计可以回答估计区间的把握程度。2、区间估计与点估计的区别区间估计的方法一

根据给定的概率F(z),推算抽样极限误差的可能范围。分析步骤:

1.抽取样本,计算样本指标。即计算样本平均数和抽样成数p,作为总体指标的估计值,并计算样本标准差σ以推算抽样平均误差。

2.根据给定的F(z)查表求得概率度z。3.根据概率度t和抽样平均误差μ计算极限误差Δ。4.计算被估计值的上、下限,对总体参数作出区间估计。区间估计的方法一根据给定的概率F(z),推算抽样极限误例6、某企业生产一种新型电子元件,用简单随机抽样方法抽取100只作耐用时间实验,测试结果,平均寿命6000小时,标准差是300小时,试在95.45%概率保证下,估计这种新电子元件平均寿命区间。解:已知n=100,=6000小时,σ=300小时(1)根据已知资料计算抽样平均误差(2)根据给定的置信度F(Z)=95.45%,查《正态分布表》得Z=2(3)计算抽样极限误差:据此估计这种新型电子元件平均寿命的区间为结论:以95.45%的概率保证程度,估计该电子元件的平均寿命区间为5940~6060小时之间。例6、某企业生产一种新型电子元件,用简单随机抽样方法抽取10例7、某纱厂某时期内生产了10万个单位的纱,按纯随机不重复抽样的方式抽取2000个单位检验,检验结果,合格率为95%,试以95%的把握程度,估计合格率的区间范围。解:已知N=100000,n=2000,p=95%(1)根据已知资料计算抽样平均误差(2)根据给定的置信度F(Z)=95%,查《正态分布表》得Z=1.96(3)计算抽样极限误差:该厂生产的全部纱合格率的上下限为:例7、某纱厂某时期内生产了10万个单位的纱,按纯随机不重复抽结论:以95%的置信度估计该厂全部合格品率在94.06%~95.95%之间。结论:以95%的置信度估计该厂全部合格品率在94.06%~9

根据给定的抽样误差范围,求概率保证程度.分析步骤:1.抽取样本,计算抽样指标。即计算样本平均数和抽样成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样年均差。2.根据给定的极限误差范围Δ估计算总体参数的上限和下限。3.计算概率度。将抽样极限误Δ差除以抽样平均误差μ,求出概率度t

4.查表求出概率F(z),并对总体参数作出区间估计。区间估计的方法二根据给定的抽样误差范围,求概率保证程度.分析步骤:1.例8、某校从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为30分钟,标准差为20分钟,若要求抽样估计的允许误差不超过5分钟,试求这一估计相应的置信度,并写出该校学生平均每天参加体育锻炼时间的估计区间。解:已知n=100,=30,σ=20,则(1)根据已知资料计算抽样平均误差为(2)根据给定的极限误差可求出查正态分布概率表得置信度F(Z)=98.76%例8、某校从该校学生中随机抽取100人,调查到他们平均每天参(3)该校学生平均每天参加体育锻炼时间的上下限:结论:该校同学平均每天参加体育锻炼的时间在25~35之间,这一区间的置信度为98.76%(3)该校学生平均每天参加体育锻炼时间的上下限:结论:该校同例9、某食品加工厂从生产的一批食品中随机抽取200袋进行检查,其中188袋合格,若给定抽样极限误差为3.4%,试求这一估计相应的置信度,并写出该厂食品合格率的估计区间。解:已知n=200合格品数(1)计算样本合格品率及抽样平均误差为:例9、某食品加工厂从生产的一批食品中随机抽取200袋进行检查(2)根据给定的极限误差可计算查正态分布概率表得置信度F(Z)=95.45%(3)计算该厂食品合格率的上下限结论:估计该厂食品的合格率在90.6%~97.4%之间。(2)根据给定的极限误差可计算查正态分布概率表得置信度F(Z一、确定样本容量应考虑的因素

第四节样本容量的确定

组织抽样调查的一项重要工作就是要确定合适的样本容量。样本容量直接关系到调查的精度、调查费用、调查时间、需要配备的人力物力等许多方面。那么样本容量多大才合适呢?样本容量多了会造成不必要的浪费,但样本容量太少又不能有效的反应情况,直接影响推断的效果。1、要考虑调查目的。2、要考虑总体的性质和特点3、要考虑调查项目的多少4、要考察调查质量的控制因素5、要考虑调查的条件一、确定样本容量应考虑的因素第四节样本容量的确定二、样本容量的确定

(一)用经验法确定样本容量

用经验法确定样本容量是调查者根据多次成功的抽样调查经验总结出来的,在不同规模的总体中应该抽取的样本单位数占总体比重的经验数,供抽样调查抽取样本时参考。需要注意的是,这个比重只是为调查者提供了一个抽取样本单位数的范围,但实际应用时,还必须考虑前述的各种应考虑的因素来最后确定。不同规模总体单位数占总体比重如表所示总体规模100以下100-10001000-50005000-1000010000-10000001000000以上样本占总体的比重%50以上50~2030~2015~35~11以下表6-3确定样本容量经验值二、样本容量的确定(一)用经验法确定样本容量重复抽样:不重复抽样:抽样平均数抽样成数(二)用公式法确定样本容量

根据研究问题的性质确定允许误差和相应的置信度,然后根据历史资料或其他试点资料确定总体的标准差,再通过抽样误差的计算公式来推算必要的样本单位数。重复抽样:不重复抽样:抽样平均数抽样成数(二)用公式法确定样例10、假定某统计总体被研究标志的标准差为30,若要求抽样极限误差不超过3,概率保证程度为99.73%,试问采用重复抽样应抽取多多少个样本?解:计算结果表明,应抽取900个样本进行抽查,才能满足研究问题的需要。例10、假定某统计总体被研究标志的标准差为30,若要求抽样极例11、某市妇联拟对该市妇女每天的家务劳动时间进行调查,根据历史资料知道他们每天家务劳动时间超过2小时的人占90%,现在用重估抽样的方法,要求在95.45%de概率保证下,劳动时间超过2小时的人的比重的极限误差不超过3%,求样本的必要单位数。解:样本成数的必要单位数:计算结果表明,应抽取400个人进行调查,才能满足研究问题的需要。例11、某市妇联拟对该市妇女每天的家务劳动时间进行调查,根据本章练习本章练习一.判断题部分1.从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。()×一.判断题部分1.从全部总体单位中按照随机原则抽取×2.在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。()√2.在抽样推断中,全及指标值是确定的、唯一的,而样本指3.抽样成数的特点是:样本成数越大,则抽样平均误差越大。()×3.抽样成数的特点是:样本成数越大,则抽样平均误差越4.抽样平均误差总是小于抽样极限误差。()×4.抽样平均误差总是小于抽样极限误差。()

5.从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。()√5.从全部总体单位中抽取部分单位构成样本,在样本6.抽样平均误差反映抽样误差的一般水平,每次抽样的误差可能大于抽样平均误差,也可能小于抽样平均误差。()√6.抽样平均误差反映抽样误差的一般水平,每次抽样的误7.在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大于抽样平均误差。()√7.在抽样推断中,抽样误差的概率度越大,则抽样极限8.抽样估计的优良标准有三个:无偏性、可靠性和一致性。()×8.抽样估计的优良标准有三个:无偏性、可靠性9.抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。()×9.抽样推断的目的是,通过对部分单位的调查,来取得10.总体参数区间估计必须具备三个要素即:估计值、抽样误差范围和抽样误差的概率度。()×10.总体参数区间估计必须具备三个要素即:估计值、抽1.抽样平均误差是()。A.抽样指标的标准差B.总体参数的标准差C.样本变量的函数D.总体变量的函数二.单项选择题部分A1.抽样平均误差是()。二.单项选择题部分A2.抽样调查所必须遵循的基本原则是()。A.准确性原则B.随机性原则C.可靠性原则D.灵活性原则B2.抽样调查所必须遵循的基本原则是()。B3.在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/2时,则样本单位数为原来的(C)。

A.2倍

B.3倍

C.4倍

D.1/4倍C3.在简单随机重复抽样条件下,当抽样平均误差缩小为原4.在一定的抽样平均误差条件下()。A.扩大极限误差范围,可以提高推断的可靠程度B.扩大极限误差范围,会降低推断的可靠程度C.缩小极限误差范围,可以提高推断的可靠程度D.缩小极限误差范围,不改变推断的可靠程度A4.在一定的抽样平均误差条件下()。A5.反映样本指标与总体指标之间的平均误差程度的指标是()。

A.平均数离差

B.概率度

C.抽样平均误差

D.抽样极限误差C5.反映样本指标与总体指标之间的平均误差程度的指标是6.以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身,这一标准称为()。

A.无偏性

B.一致性

C.有效性

D.准确性A6.以抽样指标估计总体指标要求抽样指标值的平均数等于7.抽样误差是指()。

A.调查中所产生的登记性误差

B.调查中所产生的系统性误差

C.随机的代表性误差

D.计算过程中产生的误差C7.抽样误差是指()。C8.抽样极限误差和抽样平均误差的数值之间的关系为()。

A.抽样极限误差可以大于或小于抽样平均误差

B.抽样极限误差一定大于抽样平均误差

C.抽样极限误差一定小于抽样平均误差

D.抽样极限误差一定等于抽样平均误差A8.抽样极限误差和抽样平均误差的数值之间的关系为(1.抽样推断的特点是()A.由推算认识总体的一种认识方法B.按随机原则抽取样板单位C.运用概率估计的方法D.可以计算,但不能控制抽样误差E.可以计算并控制抽样误差三.多项选择题部分ABCE1.抽样推断的特点是()三.多项选择题部2.抽样估计中的抽样误差()A.是不可避免要产生的B.是可以通过改进调查方式来消除的C.是可以事先计算出来的D.只能在调查结束后才能计算的E.其大小是可能控制的ACE2.抽样估计中的抽样误差()ACE3.从总体中抽取样本单位的具体方法有()A.简单随机抽样B.重复抽样C.不重复抽样D.等距抽样E.非概率抽样BC3.从总体中抽取样本单位的具体方法有()BC4.抽样推断中,样本容量的多少取决于()A.总体标准差的大小B.允许误差的大小C.抽样估计的把握程度D.总体参数的大小E.抽样方法和组织形式ABCE4.抽样推断中,样本容量的多少取决于(5.总体参数区间估计必须具备的三个要素是()A.样本单位数B.样本指标C.全及指标D.抽样误差范围E.抽样估计的置信度BDE5.总体参数区间估计必须具备的三个要素是(6.用抽样指标估计总体指标,所谓优良估计的标准有()

A.客观性

B.无偏性

C.一致性

D.有效性

E.优良性BCD6.用抽样指标估计总体指标,所谓优良估计的标准有(

1.总体是非标志(0,1)分布的平均数为(成数P),其方差为(P(1-P)或PQ)。四.填空题部分1.总体是非标志(0,1)分布的平均数为(成数P

2.从全及总体中随机抽取样本的办法有(重复抽样)和(不重复抽样)两种。2.从全及总体中随机抽取样本的办法有(重复抽样)和

3.重复抽样平均误差的大小与(样本单位数)成反比例关系,又与(标准差)成正比例关系。3.重复抽样平均误差的大小与(样本单位数)成反比例

4.抽样极限误差等于(抽样平均误差)与(概率度)的乘积。4.抽样极限误差等于(抽样平均误差)与(概率度)的

5.总体参数估计有(点估计)和(区间估计)两种方法。5.总体参数估计有(点估计)和(区间估计)两种方法

6.抽样误差范围决定估计的(准确性),而概率保证程度决定估计的(可靠性)。6.抽样误差范围决定估计的(准确性),而概率保证程1.统计抽样推断具有哪些特点?2.抽样推断中,参数和统计量之间有何区别?3.什么是抽样误差?影响其大小的因素主要有哪些?

五、问答题部分1.统计抽样推断具有哪些特点?五、问答题部分六.计算题部分见教材P132-133六.计算题部分见教材P132-133放映结束!无悔无愧于昨天,丰硕殷实的今天,充满希望的明天。放映结束!无悔无愧于昨天,丰硕殷实的今天,充满希望的明天。

第六章抽样推断第六章抽样推断

教学目的与要求:抽样估计是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。

本章主要内容抽样推断概述抽样误差抽样估计的方法样本容量的确定本章主要内容抽样推断概述抽样误差抽样估计的方法样本一、抽样推断的概念和特点

概念

抽样推断是在抽样调查的基础上,用样本实际资料计算样本指标,并据以推算总体相应的数量特征的一种统计分析方法。第一节抽样推断概述一、抽样推断的概念和特点概念抽样推断是在抽样调特点

它是由部分推断整体的一种认识方法。

抽样推断建立在随机取样的基础上。

抽样推断运用概率估计的方法。

抽样推断的误差可以事先计算并加以控制。特点它是由部分推断整体的一种认识方法。抽样推断二、抽样推断的一些基本概念(一)总体和样本总体:

又称全及总体。指所要认识的研究对象全体。总体单位总数用“N”表示,N总是很大的数

。对于一个总体来说,若被研究的标志系品质标志,则将这个总体称为属性总体;若被研究的标志系数量标志,则将这个总体称为变量总体。二、抽样推断的一些基本概念(一)总体和样本总体:样本:

又称子样或抽样总体,简称样本。是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。样本单位总数用“n”表示。相对N来说,n是很小的数,它可以是N的几十分之一、几百分之一、几千分之一、几万分之一。(一般来说,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本)样本:又称子样或抽样总体,简称样本。是从全及总体中随机抽(二)总体指标和样本指标

总体指标是根据总体中各单位的标志值或标志属性计算的,反映总体数量特征的综合指标。

参数研究总体中的数量标志总体平均数总体标准差X=∑XNX=∑XF∑F研究总体中的品质标志总体成数成数标准差P=

N1N(只有两种表现)(二)总体指标和样本指标总体指标是根据总样本指标是根据样本各单位标志值或标志属性计算的综合指标。研究数量标志

样本平均数

x=∑xnx=∑xf∑f样本标准差研究品质标志样本成数

成数标准差

np=n样本指标是根据样本各单位标志值或标志属性研究数样本平均数x(三)样本容量和样本个数样本容量:一个样本包含的单位数。用“n”表示。一般要求n≥30样本个数:从一个全及总体中可能抽取的样本数目。(三)样本容量和样本个数样本容量:一个样本包含的单位数。用(四)重复抽样和不重复抽样重复抽样:又称回置抽样。不重复抽样:又称不回置抽样。可能组成的样本数目:N(N-1)(N-2)……(N-n+1)可能组成的样本数目:nN(四)重复抽样和不重复抽样重复抽样:又称回置抽样。不重复抽样从A、B、C、D四个单位中,抽出两个单位构成一个样本,问可能组成的样本数目是多少?重复抽样AAACADBABBBCBDABCACBCCCDDADBDCDDNn=42=16(个样本)例如从A、B、C、D四个单位中,抽出两个单位构成重复抽样AAAC不重复抽样N(N-1)(N-2)…….4×3=12(个样本)不重复抽样N(N-1)(N-2)…….4×3=12(个样一、抽样误差的含义

抽样误差是指按随机原则抽样时,在没有登记误差和系统性误差的条件下,单纯由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起的样本指标与总体指标之间的离差。在抽样中误差的来源有许多方面。

第二节抽样误差一、抽样误差的含义抽样误差是指按随机原则抽样

另一类是代表性误差,即样本各单位的结构不足以代表总体而引起的误差。

其中一类是登记性误差,即在调查过程中由于观察、测量、登记、计算上的差错所引起的误差,这类误差是所有统计调查都可能发生的。

另一类是代表性误差,即样本各单位的结构不足以代表总另一种情况是,即使遵守随机原则,由于被抽选的样本有各种各样,只要被抽中的样本其内部各单位被研究标志的构成比例和总体有所出入,就会出现或大或小的偶然性代表性误差。代表性误差的发生有以下两种情况:一种是由于违反抽样调查的随机原则,如有意地多选较好的单位或较坏的单位进行调查。这样做,所据以计算的抽样指标必然出现偏高或偏低现象,造成系统性的误差。系统性误差和登记性误差都是不应当发生的,是可以也应该采取措施避免发生或将其减小到最小限度。另一种情况是,即使遵守随机原则,由于被抽选的样本有各种各样

我们所讲的抽样误差就是指这种偶然性代表性误差。即按随机原则抽样时,在没有登记性误差和系统性误差的条件下单纯由于不同的随机样本得出不同估计量而产生的误差。抽样误差是抽样调查所固有的,是无法避免与消除的,但可以运用数学方法计算其数量界限,并通过抽样设计程序控制其范围,所以这种抽样误差也称为可控制误差。需要指出,抽样误差不是固定不变的数,它的数值是随样本不同而变化的,所以它也是随机变量。我们所讲的抽样误差就是指这种偶然性代表性误差。即按随二、抽样误差的表现形式

(一)抽样实际误差

抽样实际误差是指在一次具体的抽样调查中,由随机因素引起的样本指标与总体指标之间的离差。如样本平均数与总体平均数之间的绝对离差,样本成数与总体成数之间的绝对离差。但是,在抽样中,由于总体指标数值是未知的,因此,抽样实际误差是无法计算的。同时,抽样实际误差仅仅是一系列可能出现的误差数值之一,因此,抽样实际误差没有概括所有可能产生的抽样误差。二、抽样误差的表现形式(一)抽样实际误差抽样实际误(二)抽样平均误差

抽样平均误差是抽样平均数或抽样成数的标准差,反映了抽样指标与总体指标的平均误差程度。(二)抽样平均误差抽样平均误差是抽

抽样平均误差的计算公式抽样平均数的平均误差抽样成数平均误差实际上,利用上述两个公式是计算不出抽样平均误差的。想一想,为什么?M表示全部可能的样本数目抽样平均误差的计算公式抽样平均数抽

该公式表明了抽样平均误差的意义。但是当总体单位数较大,而抽取的样本单位数也较大时,样本可能数目就非常大。即使求出样本可能数目,上述公式仍然不适用,这是因为,在该公式中出现了总体平均数。这也正是抽样调查所要推算出的数值,实践中是不知道的。

该公式表明了抽样平均误差的意义。但是当总体单位数较大抽样平均数平均误差的计算方法采用重复抽样:采用不重复抽样:我们把式子叫做修正因子。不难看出当N较大时,与的计算结果是十分接近。因此,当N较大时在不重复抽样条件计算抽样平均误差的公式可采用时抽样平均数平均误差的计算方法采用重复抽样:采用不重复抽样:我

随机抽选某校学生100人,调查他们的体重。得到他们的平均体重为58公斤,标准差为10公斤。问抽样推断的平均误差是多少?即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。已知:则:n=100σ=10x=58例题1随机抽选某校学生100人,调查他们的体重。得到他们的平已知:则:N=2000n=400σ=300=4800

某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?重复抽样不重复抽样已知:则:N=2000n=400σ=300=4800某抽样成数平均误差的计算方法采用重复抽样:采用不重复抽样:抽样成数平均误差的计算方法采用重复抽样:采用不重复抽样:

某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?已知:则:样本成数例题3某校随机抽选400名学生,发现戴眼镜的学生有

一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?已知:例题3一批食品罐头共60000桶,随机抽查300桶,发现有则:样本合格率则:样本合格率(二)影响抽样误差大小的因素 1、样本单位数的多少 2、受总体标准差的影响3、抽样方法 4、抽样调查的组织形式(二)影响抽样误差大小的因素 含义:

抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕着总体指标左右变动的量,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差。

计算方法:它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。(三)抽样极限误差含义:抽样极限误差是指样本指标和总体指标之间抽样误差的=Δp│p-P│p-Δ≤P≤p+ΔPp抽样平均数极限误差:抽样成数极限误差:≤≤=Δp│p-P│p-Δ≤P≤p+ΔP

什么是抽样估计的置信度?

抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。由于抽样指标值随着样本的变动而变动,它本身是一个随机变量,因而抽样指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要来计算抽样指标和总体指标的误差不超过一定范围的概率大小,即计算抽样指标落在一定区间范围内的概率,这种概率称之为抽样估计的概率度。什么是抽样估计的置信度?

抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符号“

Z”表示。公式表示:

什么是抽样估计的概率度?或抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符正态概率分布图Xx+1μx-1μ68.27%x+2μx-2μ95.45%由此可知,误差范围愈大,抽样估计的置信度愈高,但抽样估计的精确度愈低;反之,误差范围愈小,则抽样估计的置信度愈低,但抽样估计的精确度愈高。因为扩大或缩小以后的平均误差,就是极限误差:Δ=Zμ所以,抽样平均误差的系数就是概率度t。数理统计已经证明,抽样误差的概率就是概率度的函数,二者对应的函数关系已编成“正态分布概率表”。(P225)正态概率分布图Xx+1μx-1μ68.27%x+一、点估计第三节抽样估计的方法

抽样估计是用抽样资料来估计相应的总体指标的数值,而总体指标是表明总体数量特征的参数,所以这种估计也可以称为参数估计。总体参数的估计有点估计和区间估计两种方法。

点估计是以抽样指标数值直接作为总体指标估计值的一种估计方法。例如从某地区的1000000亩小麦中随机抽取100亩进行抽样调查,测得平均亩产量=300千克,我们就说,全地区1000000亩小麦的平均亩产量为300千克。一、点估计第三节抽样估计的方法抽样估计是用抽样总体参数优良估计的标准无偏性一致性有效性

点估计的方法优点是简便易行,原理直观,常为实际工作采用。但不足之处是没有表明抽样估计的误差,更没有表明误差在一定范围内的概率保证程度有多大。在参数估计中,要有合适的样本指标作为估计量。这里的样本指标是样本数据的函数。如从一个样本可以计算样本算术平均数,中位数、众数等。应当用那一种指标作为参数估计量才是最优的,这便是样本指标的优良标准问题。作为优良的估计指标应该符合以下标准。总体参数优良估计的标准无偏性一致性有效性点估计的

区间估计就是根据概率保证程度的要求,选定概率度t,以及极限抽样误差(),再利用抽样指标或p,定出估计上限或()和估计下限(或),即指出总体指标可能存在的区间范围。我们把区间(,或,)称为置信区间,概率保证程度称为置信程度。二、区间估计区间估计就是根据概率保证程度的要求,选定概率度t,以及区间估计三要素估计值抽样误差范围抽样估计的置信度区间估计三要素估计值抽样误差范围抽样估计的置信度2、区间估计与点估计的区别

一是区间估计不像点估计那样用一个数值对总体指标进行估计,而是用一个范围对总体指标进行估计;二是点估计是一个确切的估计值,而区间估计的是区间,根据概率度的要求可宽可窄;三是点估计无法回答估计值的把握程度,而区间估计可以回答估计区间的把握程度。2、区间估计与点估计的区别区间估计的方法一

根据给定的概率F(z),推算抽样极限误差的可能范围。分析步骤:

1.抽取样本,计算样本指标。即计算样本平均数和抽样成数p,作为总体指标的估计值,并计算样本标准差σ以推算抽样平均误差。

2.根据给定的F(z)查表求得概率度z。3.根据概率度t和抽样平均误差μ计算极限误差Δ。4.计算被估计值的上、下限,对总体参数作出区间估计。区间估计的方法一根据给定的概率F(z),推算抽样极限误例6、某企业生产一种新型电子元件,用简单随机抽样方法抽取100只作耐用时间实验,测试结果,平均寿命6000小时,标准差是300小时,试在95.45%概率保证下,估计这种新电子元件平均寿命区间。解:已知n=100,=6000小时,σ=300小时(1)根据已知资料计算抽样平均误差(2)根据给定的置信度F(Z)=95.45%,查《正态分布表》得Z=2(3)计算抽样极限误差:据此估计这种新型电子元件平均寿命的区间为结论:以95.45%的概率保证程度,估计该电子元件的平均寿命区间为5940~6060小时之间。例6、某企业生产一种新型电子元件,用简单随机抽样方法抽取10例7、某纱厂某时期内生产了10万个单位的纱,按纯随机不重复抽样的方式抽取2000个单位检验,检验结果,合格率为95%,试以95%的把握程度,估计合格率的区间范围。解:已知N=100000,n=2000,p=95%(1)根据已知资料计算抽样平均误差(2)根据给定的置信度F(Z)=95%,查《正态分布表》得Z=1.96(3)计算抽样极限误差:该厂生产的全部纱合格率的上下限为:例7、某纱厂某时期内生产了10万个单位的纱,按纯随机不重复抽结论:以95%的置信度估计该厂全部合格品率在94.06%~95.95%之间。结论:以95%的置信度估计该厂全部合格品率在94.06%~9

根据给定的抽样误差范围,求概率保证程度.分析步骤:1.抽取样本,计算抽样指标。即计算样本平均数和抽样成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样年均差。2.根据给定的极限误差范围Δ估计算总体参数的上限和下限。3.计算概率度。将抽样极限误Δ差除以抽样平均误差μ,求出概率度t

4.查表求出概率F(z),并对总体参数作出区间估计。区间估计的方法二根据给定的抽样误差范围,求概率保证程度.分析步骤:1.例8、某校从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为30分钟,标准差为20分钟,若要求抽样估计的允许误差不超过5分钟,试求这一估计相应的置信度,并写出该校学生平均每天参加体育锻炼时间的估计区间。解:已知n=100,=30,σ=20,则(1)根据已知资料计算抽样平均误差为(2)根据给定的极限误差可求出查正态分布概率表得置信度F(Z)=98.76%例8、某校从该校学生中随机抽取100人,调查到他们平均每天参(3)该校学生平均每天参加体育锻炼时间的上下限:结论:该校同学平均每天参加体育锻炼的时间在25~35之间,这一区间的置信度为98.76%(3)该校学生平均每天参加体育锻炼时间的上下限:结论:该校同例9、某食品加工厂从生产的一批食品中随机抽取200袋进行检查,其中188袋合格,若给定抽样极限误差为3.4%,试求这一估计相应的置信度,并写出该厂食品合格率的估计区间。解:已知n=200合格品数(1)计算样本合格品率及抽样平均误差为:例9、某食品加工厂从生产的一批食品中随机抽取200袋进行检查(2)根据给定的极限误差可计算查正态分布概率表得置信度F(Z)=95.45%(3)计算该厂食品合格率的上下限结论:估计该厂食品的合格率在90.6%~97.4%之间。(2)根据给定的极限误差可计算查正态分布概率表得置信度F(Z一、确定样本容量应考虑的因素

第四节样本容量的确定

组织抽样调查的一项重要工作就是要确定合适的样本容量。样本容量直接关系到调查的精度、调查费用、调查时间、需要配备的人力物力等许多方面。那么样本容量多大才合适呢?样本容量多了会造成不必要的浪费,但样本容量太少又不能有效的反应情况,直接影响推断的效果。1、要考虑调查目的。2、要考虑总体的性质和特点3、要考虑调查项目的多少4、要考察调查质量的控制因素5、要考虑调查的条件一、确定样本容量应考虑的因素第四节样本容量的确定二、样本容量的确定

(一)用经验法确定样本容量

用经验法确定样本容量是调查者根据多次成功的抽样调查经验总结出来的,在不同规模的总体中应该抽取的样本单位数占总体比重的经验数,供抽样调查抽取样本时参考。需要注意的是,这个比重只是为调查者提供了一个抽取样本单位数的范围,但实际应用时,还必须考虑前述的各种应考虑的因素来最后确定。不同规模总体单位数占总体比重如表所示总体规模100以下100-10001000-50005000-1000010000-10000001000000以上样本占总体的比重%50以上50~2030~2015~35~11以下表6-3确定样本容量经验值二、样本容量的确定(一)用经验法确定样本容量重复抽样:不重复抽样:抽样平均数抽样成数(二)用公式法确定样本容量

根据研究问题的性质确定允许误差和相应的置信度,然后根据历史资料或其他试点资料确定总体的标准差,再通过抽样误差的计算公式来推算必要的样本单位数。重复抽样:不重复抽样:抽样平均数抽样成数(二)用公式法确定样例10、假定某统计总体被研究标志的标准差为30,若要求抽样极限误差不超过3,概率保证程度为99.73%,试问采用重复抽样应抽取多多少个样本?解:计算结果表明,应抽取900个样本进行抽查,才能满足研究问题的需要。例10、假定某统计总体被研究标志的标准差为30,若要求抽样极例11、某市妇联拟对该市妇女每天的家务劳动时间进行调查,根据历史资料知道他们每天家务劳动时间超过2小时的人占90%,现在用重估抽样的方法,要求在95.45%de概率保证下,劳动时间超过2小时的人的比重的极限误差不超过3%,求样本的必要单位数。解:样本成数的必要单位数:计算结果表明,应抽取400个人进行调查,才能满足研究问题的需要。例11、某市妇联拟对该市妇女每天的家务劳动时间进行调查,根据本章练习本章练习一.判断题部分1.从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。()×一.判断题部分1.从全部总体单位中按照随机原则抽取×2.在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。()√2.在抽样推断中,全及指标值是确定的、唯一的,而样本指3.抽样成数的特点是:样本成数越大,则抽样平均误差越大。()×3.抽样成数的特点是:样本成数越大,则抽样平均误差越4.抽样平均误差总是小于抽样极限误差。()×4.抽样平均误差总是小于抽样极限误差。()

5.从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。()√5.从全部总体单位中抽取部分单位构成样本,在样本6.抽样平均误差反映抽样误差的一般水平,每次抽样的误差可能大于抽样平均误差,也可能小于抽样平均误差。()√6.抽样平均误差反映抽样误差的一般水平,每次抽样的误7.在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大于抽样平均误差。()√7.在抽样推断中,抽样误差的概率度越大,则抽样极限8.抽样估计的优良标准有三个:无偏性、可靠性和一致性。()×8.抽样估计的优良标准有三个:无偏性、可靠性9.抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。()×9.抽样推断的目的是,通过对部分单位的调查,来取得10.总体参数区间估计必须具备三个要素即:估计值、抽样误差范围和抽样误差的概率度。()×10.总体参数区间估计必须具备三个要素即:估计值、抽1.抽样平均误差是()。A.抽样指标的标准差B.总体参数的标准差C.样本变量的函数D.总体变量的函数二.单项选择题部分A1.抽样平均误差是()。二.单项选择题部分A2.抽样调查所必须遵循的基本原则是()。A.准确性原则B.随机性原则C.可靠性原则D.灵活性原则B2.抽样调查所必须遵循的基本原则是()。B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论