抽样调查与参数估计_第1页
抽样调查与参数估计_第2页
抽样调查与参数估计_第3页
抽样调查与参数估计_第4页
抽样调查与参数估计_第5页
已阅读5页,还剩134页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样调查与参数估计第1页,共139页,2022年,5月20日,0点31分,星期四4-2抽样与参数估计有关基本概念概率抽样方法调查问卷设计总体参数估计总体与样本总体参数与样本统计量样本容量与样本个数重复抽样与不重复抽样抽样框与抽样单位概率抽样和非概率抽样多相抽样分层抽样简单随机抽样总体方差的参数估计总体比率的参数估计总体均值的参数估计问卷的措辞调查问卷的作用和结构抽样误差和非抽样误差整群抽样系统抽样多阶段抽样样本容量的参数确定调查问卷的类型询问方法问题的顺序第2页,共139页,2022年,5月20日,0点31分,星期四4-3抽样涉及的基本概念有:总体与样本(见第一章)样本容量与样本个数总体参数与

2、样本统计量重复抽样与不重复抽样抽样框与抽样单位概率抽样和非概率抽样抽样的组织方式抽样误差好非抽样误差这些概念是统计学特有的,体现了统计学的基本思想与方法。第一节 有关基本概念第3页,共139页,2022年,5月20日,0点31分,星期四4-4一、总体和样本:总体是指研究对象的全体,它是由研究对象中的单元组成的。总体中包含单元的数目称作总体容量(或大小);样本是指抽样时按照抽样的规则所抽中的那部分单元所组成的集合。总体样本抽取样本推断总体第4页,共139页,2022年,5月20日,0点31分,星期四4-51.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构

3、成。总体单位数用 N 表示。2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用 n 表示。3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。 第5页,共139页,2022年,5月20日,0点31分,星期四4-6二、样本容量与样本个数样本容量:一个样本中所包含的单位数,用n表示。必要样本量是能够满足估计精度要求的最少样本量。样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。用A表示。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!)当N和n一定时,A的多少

4、与抽样方法有关,其计算方法列表如下:第6页,共139页,2022年,5月20日,0点31分,星期四4-7三、总体参数和样本统计量总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。样本统计量:根据样本分布计算的指标。是随机变量。平均数标准差、方差成数参数、2p统计量S、 S2P总体样本第7页,共139页,2022年,5月20日,0点31分,星期四Jigj ij据欧辰进口片刻psd就看破速度紧迫第8页,共139页,2022年,5月20日,0点31分,星期四四、重复抽样和不重复抽样1、重复抽样又称放回抽样或重置抽样,它是指抽中一个单位并登记有关信息后重新放回到总体中继续参加下一次的抽选,这样

5、逐次反复,直到抽够足够的单位为止。在重复抽样的条件下,每个单位中选的机会在各次抽样中都完全相等。2、不重复抽样又称不放回抽样或不重置抽样,它是指抽中一个单位并登记有关信息后不再放回到总体中,而是继续从总体中余下的单位抽选样本单位,直到抽够足够的单位为止。在不重复抽样的条件下,每个单位中选的机会在各次抽样中是不相等的,每个单位只能被抽中一次。4-9第9页,共139页,2022年,5月20日,0点31分,星期四4-10 五、抽样框和样本单位抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。抽样框可以是一

6、份清单(名单抽样框)、一张地图(区域抽样框)。 编制抽样框是一个实际的、重要的问题,因此必须要认真对待。常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全;(2)多个元素对应一个号码;(3)空白或存在异类元素;(4)重复号码,即一个元素对应多个号码。对抽样框存在的缺陷要认真对待,有效处理。第10页,共139页,2022年,5月20日,0点31分,星期四从抽样框中直接抽取的单位称为抽样单位。但它不一定是构成抽样框的最小单位。根据不同的抽样设计,抽样单位有较大的变动余地。例如在电视收视率的抽样调查中,抽样单位可以是拥有电视机的家庭,也可以是每个电视观众。可以将较小的抽样

7、单位的集合视为较大的抽样单位。在复杂抽样时,例如在多阶段抽样中,先抽取较大的抽样单位(称为初级单位),再从选出的初级单位中抽取次级单位(或二级单位),往下还可以分为更小的三级单位、四级单位,等等。 可以把抽样框中所包含抽样单位信息的丰富程度作为评价抽样框质量的一个标准。在好的抽样框中,抽样单位的信息比较丰富,这就为采用复杂的抽样设计(如分层抽样)和不同的估计方法(如比率估计)提供了条件。 4-11第11页,共139页,2022年,5月20日,0点31分,星期四4-12六、概率抽样和非概率抽样第12页,共139页,2022年,5月20日,0点31分,星期四4-13(一)非概率抽样1.非概率抽样及

8、其优缺点非概率抽样是用非随机的方法抽选样本。优点:快速简便;费用相对比较低;不需要任何抽样框;对探索性研究和调查设计的开发很有用。缺点:不能对总体进行推断;由于不知总体单元的入样概率,故不能计算估计值的抽样误差。第13页,共139页,2022年,5月20日,0点31分,星期四4-142.各种非概率抽样方法方便抽样,又称任意抽样。样本单元的选取有调查员决定,又被调查者主动提供信息。如街道拦截访问。志愿者抽样。被调查者都是自愿参与调查。如网上问卷,自愿回答。判断抽样。由专家有目的地挑选“有代表性”的样本进行调查。如典型调查。配额抽样。从总体的各个子总体中选取特定数量的样本单元组成样本。如市场调查中

9、,规定男女消费者的样本各多少。 滚雪球抽样。适合于总体中某种较为稀少的特殊子总体而又缺少完整的抽样框。抽样时通过已知的少数个体获得信息逐渐扩大。第14页,共139页,2022年,5月20日,0点31分,星期四4-15(二)概率抽样概率抽样是从总体中随机抽选样本单元,被抽中的单元既不取决于调查人员的愿望,也不取决于被被调查者的态度。其次每一个单元都有一定的概率被抽中。优点:可以对总体进行推断,并能计算估计值的抽样误差。缺点:相对于非概率抽样,设计比较复杂,而且费用也比较高。常见的概率抽样方法主要有:简单随机抽样、系统抽样、与大小(或规模)成比例的概率(PPS)抽样、整群抽样、分层抽样(STR)、

10、多阶抽样、以及多相抽样等。 第15页,共139页,2022年,5月20日,0点31分,星期四七、抽样误差和非抽样误差抽样误差是指由于抽选样本的随机性,用样本数据对总体参数进行估计是所引起的误差。只有采取概率抽样方式才能产生样误差,得到估计量的精度,因此我们说抽样误差仅仅表现于概率抽样方式之中。与非概率抽样方式相比,能够计算抽样误差是概率抽样最突出的优点。非抽样误差是指除抽样误差以外的,由于各种原因而引起的误差,例如抽样框有缺陷,目标总体单位和抽样单位没有能够一一对应;调查中一些被调查者拒绝回答问题,调查人员没得到全部样本数据;由于各种原因(测量、遗忘或有意隐瞒等),调查中获得的原始数据不正确,

11、以及在对调查数据进行编码、录入、汇总过程中可能出现差错,都会产生非抽样误差。4-16第16页,共139页,2022年,5月20日,0点31分,星期四八、样本量、费用与精度样本量是样本中包含抽样单位的数目,样本量的确定是抽样中的一个重要问题,样本量越大,抽样误差就越小,估计量的精度就越高。但样本量有直接与费用有关,样本量越大调查的费用也就越高。样本量与调查费用之间是一种线性关系,最简单的函数形式为式中,C0是与样本量n无关的固定费用,如抽样方案的设计,抽样框的准备,调查的组织、宣传等项开支,c是与n有关的费用,包括调查本身的费用、旅费、礼品费及数据处理费等。4-17第17页,共139页,2022

12、年,5月20日,0点31分,星期四然而样本量与调查精度之间是一种非线性关系。在样本量较小时,每增加一个样本单位对提高精度的影响比较大,随着样本量的增大,每增加一个样本单位的影响就逐渐减少。因此,一个好的抽样设计必须考虑精度与费用两个方面。这里想要说明的一层含义是:对于不同的调查项目,精度的要求是不同的,调查时应以满足需要的精度为原则,想要说明的另一唱层含义是,由于不同的抽样设计会有不同的费用和精度,因此对于一个具体的抽样设计,应尽量做到在一定费用下使精度最高,或在达到精度条件下使总费用最省,即使设计的效率最高,这样的抽样设计称为最优抽样设计。4-18第18页,共139页,2022年,5月20日

13、,0点31分,星期四4-19第二节 主要的概率抽样方法 (一)简单随机抽样 1、定义:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。 2、优点: (1)比较容易理解和掌握;(2)抽样框不需要其他辅助信息;(3)理论上比较成熟,有现成的方差估计公式。 3、缺点: (1)没有利用辅助信息;(2)样本分散,面访费用较高;(3)有可能抽到较差的样本;(4)抽选大样本比较费时。第19页,共139页,2022年,5月20日,0点31分,星期四4-20(二)系统抽样 1、定义:又称等距抽样,对研究的总体按一定的顺序排

14、列,每隔一定的间隔抽取一个单元的抽样方法。 2、抽选方法:设总体单元数为N,要抽n个单元为样本,先计算抽样间隔k=N/n,在1到k之间抽取一个随机起点r,则被抽中单元的顺序位置是:r,r+k,r+2k,。起点rr+kr+2kr+3k第20页,共139页,2022年,5月20日,0点31分,星期四4-21 圆形系统抽样方法:当N不能被n整除时,用圆形系统抽样法可以避免出现样本量可能不一致的情况。把总体单元假想排列在一个圆上,取 k = N/n 最接近的整数,作为间隔,然后在1到N之间,抽取随机起点 r,则被抽中的单元顺序号为: r,r+k,r+2k,r+(n-1)k。 如:N=55,n=9,就取

15、k=6,在1到55之间取一个随机起点。例如r=42,则被抽中的单元是42,48,54,5,11,17,23,29和35 。第21页,共139页,2022年,5月20日,0点31分,星期四4-223、系统抽样的优点(1)没有抽样框时可代替简单随机抽样方法简单;(2)不需要辅助的抽样框信息;(3)样本的分布比较好;估计值容易计算。 4、系统抽样的缺点 (1)若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;(2)不使用辅助信息使抽样效率不高;(3)使用概念框时,不能预先知道样本量;(4)没有一个无偏的方差估计量;(5)当N不能被n整除时会得到样本量不同的样本。第22页,共139页,2022年

16、,5月20日,0点31分,星期四4-23(三)整群抽样 1、定义:由若干个有联系的基本单元组成的集合称为群,抽样时以群为抽样单元的抽样方法就称为整群抽样。 整群抽样示意图:黄色为总体红色为群白点为基本单元第23页,共139页,2022年,5月20日,0点31分,星期四4-242、整群抽样的优点:(1)能大大减低收集数据的费用;(2)当总体单元自然形成的群时,容易取得抽样框,抽样也更容易;(3)当群内单元差异大,而不同群之间的差异小时,可以提高效率。3、缺点:(1)若群内个单元有趋同性,效率将会降低;(2)通常无法预先知道总样本量,因为不知道群内有多少单元;(3)方差估计比简单随机抽样更为复杂。

17、第24页,共139页,2022年,5月20日,0点31分,星期四4-25(四)分层抽样 1、定义:在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。 分层抽样示意图:第25页,共139页,2022年,5月20日,0点31分,星期四4-262、优点:(1)由于性质相同的单元分在同一层,层内差异缩小,可以提高抽样效率;(2)可以得到各层子总体的估计;(3)操作与管理方便;(4)能避免得到一个“差”的样本。3、缺点:(1)对抽样框的要求比较高,必须有分层的辅助信息;(2)收集或编制抽样框的费用比较高;(3)若调查变量与分层的变量不相关,效率可能降低;(4)

18、估计值的计算比简单随机抽样复杂。第26页,共139页,2022年,5月20日,0点31分,星期四4-27(五)多阶抽样 1、定义:它是由两个或更多个连续的阶段抽取样本的方法。 多阶抽样示意图:总体第一阶样本最终样本第27页,共139页,2022年,5月20日,0点31分,星期四4-282、优点:(1)当群具有同质性时,多阶抽样的效率高于整群抽样;(2)样本的分布比简单随机抽样集中,采用面访可以节约时间和费用;(3)不需要整个总体单元的名录框,只要群的名录框和抽中群的单元名录框。3、缺点:(1)效率不如简单随机抽样;(2)通常不能提前知道最终的样本量;(3)调查的组织较整群抽样复杂;(4)估计值

19、与抽样方差的计算较为复杂。第28页,共139页,2022年,5月20日,0点31分,星期四4-29(六)多相抽样 1、定义:在同一个抽样框内,先抽一个大样本,收集基本的信息,然后在这个大样本中再抽一个子样本,收集调查的详细信息。 多相抽样示意图:。第一相样本第二相样本第29页,共139页,2022年,5月20日,0点31分,星期四4-302、优点:能显著提高估计值精度(与简单随机抽样相比);能用来获得抽样框中所没有的辅助信息(特别是分层信息);适用于某些调查指标的数据收集费用特别高,或会给被调查者带来较重的回答负担的情况。3、缺点:如果需要根据第一相的结果来进行第二相调查,得到整个调查结果的时

20、间比单相调查长;由于对某些样本单元访问次数超过一次,故所需费用比一相调查要多;调查的组织会很复杂;估计值和抽样误差的计算会相当复杂。 第30页,共139页,2022年,5月20日,0点31分,星期四4-31抽样分布抽样分布的概念:由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。(主要求出样本平均数的期望与方差)包括以下内容重置抽样分布样本平均数的分布样本成数的分布样本方差的分布不重置抽样分布样本平均数的分布样本成数的分布样本方差的分布第31页,共139页,2022年,5月20日,0点31分,星期四4-32总体中各元素的观察值所形成的分布 分布通常是未知的可以假定它服从某种分布

21、 总体分布(population distribution)总体第32页,共139页,2022年,5月20日,0点31分,星期四4-33一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 样本分布(sample distribution)样本第33页,共139页,2022年,5月20日,0点31分,星期四4-34样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本均值, 样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础

22、,也是抽样推断科学性的重要依据 抽样分布 (sampling distribution)第34页,共139页,2022年,5月20日,0点31分,星期四4-35抽样分布的形成过程 (sampling distribution)总体计算样本统计量如:样本均值、比例、方差样本第35页,共139页,2022年,5月20日,0点31分,星期四样本均值的抽样分布第36页,共139页,2022年,5月20日,0点31分,星期四4-371.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础一、样本均值的抽样分布第37页,共139页,2022年

23、,5月20日,0点31分,星期四4-38样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差第38页,共139页,2022年,5月20日,0点31分,星期四4-39样本均值的抽样分布 (例题分析) 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n

24、 = 2 的样本(共16个)第39页,共139页,2022年,5月20日,0点31分,星期四4-40样本均值的抽样分布 (例题分析) 计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P ( x )1.53.04.03.52.02.5第40页,共139页,2022年,5月20日,0点31分,星期四4-41样本均值的分布与总体分布的比较 (例题分析) = 2.5 2 =1.25总体分布1423

25、0.1.2.3抽样分布P ( x )1.00.1.2.31.53.04.03.52.02.5x第41页,共139页,2022年,5月20日,0点31分,星期四4-42样本均值的抽样分布与中心极限定理 = 50 =10X总体分布n = 4抽样分布xn =16当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n)第42页,共139页,2022年,5月20日,0点31分,星期四4-43中心极限定理(central limit theorem)当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布从均值为,

26、方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为2/n的正态分布一个任意分布的总体x第43页,共139页,2022年,5月20日,0点31分,星期四4-44中心极限定理 (central limit theorem)x 的分布趋于正态分布的过程第44页,共139页,2022年,5月20日,0点31分,星期四4-45抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布第45页,共139页,2022年,5月20日,0点31分,星期四4-46样本均值的数学期望样本均值的方差重复抽样不重复抽

27、样样本均值的抽样分布(数学期望与方差)第46页,共139页,2022年,5月20日,0点31分,星期四4-47样本均值的抽样分布(数学期望与方差)比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n第47页,共139页,2022年,5月20日,0点31分,星期四4-48统计量的标准误 (standard error)样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为第48页,共139页,2022年,

28、5月20日,0点31分,星期四4-49估计的标准误 (standard error of estimation)当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为第49页,共139页,2022年,5月20日,0点31分,星期四样本比例的抽样分布第50页,共139页,2022年,5月20日,0点31分,星期四4-51总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比总体比例可表示为样本比例

29、可表示为比例(proportion)第51页,共139页,2022年,5月20日,0点31分,星期四4-52在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础样本比例的抽样分布第52页,共139页,2022年,5月20日,0点31分,星期四4-53样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布(数学期望与方差)第53页,共139页,2022年,5月20日,0点31分,星期四样本方差的抽样分布第54页,共139页,2022年,5月20日,0点31分,星期四4-55

30、样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为 (n -1) 的2分布,即第55页,共139页,2022年,5月20日,0点31分,星期四4-561.由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来2.设 ,则3.令 ,则 Y 服从自由度为1的2分布,即4.当总体 ,从中抽取容量为n的样本,则2分布(2 distribution)第56页,共139页,2022年,5月20日,0点31分,星期四4-571

31、.分布的变量值始终为正 2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 3.期望为E(2)=n,方差为D(2)=2n(n为自由度) 4.可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布 2分布(性质和特点)第57页,共139页,2022年,5月20日,0点31分,星期四4-58c2分布(图示) 选择容量为n 的简单随机样本计算样本方差s2计算卡方值2 = (n-1)s2/2计算出所有的 2值不同容量样本的抽样分布c 2n=1n=4n=10n=20 ms总体第58页,共1

32、39页,2022年,5月20日,0点31分,星期四4-59c2分布(例题的图示)16个样本方差的分布样本方差s2s2取值的概率0.04/160.56/1624/164.52/16第59页,共139页,2022年,5月20日,0点31分,星期四4-60c2分布(用Excel计算c2分布的概率)利用Excel提供的CHIDIST统计函数,计算c2分布右单尾的概率值语法为CHIDIST(x,df),其中df为自由度,x是随机变量的取值给定自由度和统计量取值的右尾概率,也可以利用“插入函数”命令来实现计算自由度为8,统计量的取值大于10的概率第60页,共139页,2022年,5月20日,0点31分,星

33、期四4-61c2分布(用Excel计算c2分布的临界值)利用Excel提供的CHIINV统计函数,计算分布右单尾的概率值为的临界值语法为CHIINV(,df),其中df为自由度给定自由度和分布右尾概率为的临界值也可以利用“插入函数”命令来实现计算自由度为10,右尾概率为0.1的临界值第61页,共139页,2022年,5月20日,0点31分,星期四4-62c2分布(用Excel生成c2分布的临界值表)第一步:将c2分布自由度df的值输入到工作表的 A列,将右尾概率的取值输入到第1行第二步:在B2单元格输入公式 “=CHIINV(B$1,$A2)” 然后将其向下、向右复制即可得到分布 的临界值表

34、第62页,共139页,2022年,5月20日,0点31分,星期四4-63第三节 总体参数估计本节主要内容:一、总体参数估计概述二、总体参数的点估计三、参数区间估计四、样本容量的确定第63页,共139页,2022年,5月20日,0点31分,星期四4-64一、总体参数估计概述设待估计的总体参数是,用以估计该参数的统计量是 ,抽样估计的极限误差是,即:极限误差是根据研究对象的变异程度和分析任务的性质来确定的在一定概率下的允许误差范围。参数估计的两个要求:精度:估计误差的最大范围,通过极限误差来反映。显然,越小,估计的精度要求越高,越大,估计的精度要求越低。极限误差的确定要以实际需要为基本标准。可靠性

35、:估计正确性的一个概率保证,通常称为估计的置信度。第64页,共139页,2022年,5月20日,0点31分,星期四4-65二、总体参数的点估计点估计的含义:直接以样本统计量作为相应总体参数的估计量。第65页,共139页,2022年,5月20日,0点31分,星期四4-66优良估计量标准优良估计标准:无偏性:要求样本统计量的平均数等于被估计的总体参数本身。一致性:当样本容量充分大时,样本统计量充分靠近总体参数本身。有效性:总体方差的无偏估计量为样本方差点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。 第66页,共139页,2022年,5月20日,0点

36、31分,星期四4-67三、参数区间估计参数区间估计的含义:估计总体参数的区间范围,并给出区间估计成立的概率值。其中: 1-(01)称为置信度;是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。注意对上式的理解:例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。一般地,将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。第67页,共139页,2022年,5月

37、20日,0点31分,星期四4-68样本统计量 (点估计)置信区间置信下限置信上限我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:该班同

38、学平均成绩的置信区间是60-80分,置信度为95%。第68页,共139页,2022年,5月20日,0点31分,星期四4-69区间估计的基本要素包括:样本点估计值、抽样极限误差、估计的可靠程度样本点估计值抽样极限误差:可允许的误差范围。抽样估计的可靠程度(置信度、概率保证程度)及概率度注意:本教材所进行的区间估计仅指对总体平均数或成数的区间估计,并且在实际计算过程中使用下面的式子。式中是极限误差。第69页,共139页,2022年,5月20日,0点31分,星期四4-70区间估计的内容2 已知2 未知均 值方 差比 例置 信 区 间第70页,共139页,2022年,5月20日,0点31分,星期四4-

39、71平均数的区间估计 对总体平均数或成数的区间估计时,使用下面的式子 (式中是极限误差)有两种模式:1、根据置信度1-,求出极限误差,并指出总体平均数的估计区间。2、给定极限误差,求置信度。第71页,共139页,2022年,5月20日,0点31分,星期四4-72当已知时,根据相关的抽样分布定理, 服从标准正态分布N(0,1)。查正态分布概率表,可得 (一般记为 ),则 ,根据重复抽样与不重复抽样的 求法的不同,进一步可得总体平均数的估计区间:重复抽样时,区间的上下限为:不重复抽样时,区间的上下限为:平均数区间估计第1种模式(求置信区间)第72页,共139页,2022年,5月20日,0点31分,

40、星期四4-73第73页,共139页,2022年,5月20日,0点31分,星期四4-74平均数区间估计第1种模式(求置信区间)若总体方差未知,则在计算 时,使用样本方差代替总体方差,此时 服从自由度为n-1的t分布。查t分布表可得 ,并记为于是:重复抽样时,区间的上下限为:不重复抽样时,区间的上下限为:大样本时,t分布与标准正态分布非常接近,可直接从标准正态分布表查临界值第74页,共139页,2022年,5月20日,0点31分,星期四4-75例:总体平均数的区间估计1对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,要求估计该批电子元件的平均耐用时数的置信区间(置信度95%)。第75页,共

41、139页,2022年,5月20日,0点31分,星期四4-7668.27%的样本表示样本均值落在区间的概率是1-,例对总体均值区间估计的进一步理解第76页,共139页,2022年,5月20日,0点31分,星期四4-77平均数区间估计第2种模式(求置信度)给定极限误差,求置信度第77页,共139页,2022年,5月20日,0点31分,星期四4-78例:总体平均数的区间估计2例:经抽样调查计算样本亩产粮食600公斤,并求得抽样平均误差为3公斤,现给定允许极限误差为6公斤,求置信区间包含总体平均亩产的概率,即求置信水平。结果表明,如果多次反复抽样,每次都可以由样本值确定一个估计区间,每个区间或者包含总

42、体参数的真值,或者不包含总体参数的真值,包含真值的区间占F(z),即每一万次抽样,就有9545个样本区间包括总体亩产,其余455个样本区间不包括总体平均数,即若接受估计区间的判断要冒4.55%的机会犯错误的风险。第78页,共139页,2022年,5月20日,0点31分,星期四4-79成数的区间估计由于总体的分布是(0,1)分布,只有在大样本的情况下,才服从正态分布。总体成数可以看成是一种特殊的平均数,类似于总体平均数的区间估计,总体成数的区间估计的上下限是:注意:在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。 大样本的条件:np5且n(1-p) 5,由于总体

43、成数通常未知,可以用样本成数p来近似判断。第79页,共139页,2022年,5月20日,0点31分,星期四4-80例:总体平均数的区间估计3对某型号的电子元件进行耐用性能检查,抽查资料分组如下表, 设该厂的产品质量检验标准规定,元件耐用时数达到1000小时以上为合格品。要求估计该批电子元件的合格率,置信水平95%。第80页,共139页,2022年,5月20日,0点31分,星期四4-81总体均值区间估计总结总体平均数估计区间的上下限总体方差已知N(0,1)重复抽样不重复抽样总体方差未知t(n-1)大样本时近似服从N(0,1)重复抽样不重复抽样 如果是正态总体第81页,共139页,2022年,5月

44、20日,0点31分,星期四4-82 如果不是正态总体,或分布未知总体方差已知且是大样本总体方差未知且是大样本 此时不考虑小样本情况因此,大样本情况下,直接用标准正态分布求置信区间即可。第82页,共139页,2022年,5月20日,0点31分,星期四4-83总体成数估计区间估计总结总体成数估计区间的上下限只考虑大样本情况(请记住大样本条件)第83页,共139页,2022年,5月20日,0点31分,星期四4-84对总量指标的区间估计在对总体平均数进行区间估计的基础上,可进一步推断相应的总量指标,即用总体单位总数N分别乘以总体平均数的区间下限和区间上限,便得到相应总量(N)的区间范围。第84页,共1

45、39页,2022年,5月20日,0点31分,星期四4-85例1某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本优质率为85%,试计算当把握程度为90%时优质品率的区间范围。第85页,共139页,2022年,5月20日,0点31分,星期四4-86例2某商场从一批食品(共800袋)中随机抽取40袋(假设用重复抽样),测得每袋平均重量为791.1克,标准差为17.136克,要求以95%的把握程度,估计这批食品的平均每袋重量以及这批食品总重量的区间范围。800*778.84,800*803.36,即623072,642688 第86页,共139页,2022年,5月20日,0点31分

46、,星期四4-87 样本容量的确定什么是样本容量确定问题?第87页,共139页,2022年,5月20日,0点31分,星期四4-88确定样本容量在设计抽样时,先确定允许的误差范围和必要的概率保证程度,然后根据历史资料或试点资料确定总体的标准差,最后来确定样本容量。估计总体均值时样本容量的确定重复抽样 不重复抽样 估计成数时样本容量的确定重复抽样 不重复抽样 第88页,共139页,2022年,5月20日,0点31分,星期四4-89确定样本容量应注意的问题计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:一是用历史资料已有的方差与成数代替;二是在进行正式抽样调查前进行几次试验性调查,用

47、试验中方差的最大值代替总体方差;三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。 第89页,共139页,2022年,5月20日,0点31分,星期四4-90例:确定样本容量1对某批木材进行检验,根据以往经验,木材长度的标准差为0.4米,而合格率为90%。现采用重复抽样方式,要求在95.45%的概率

48、保证程度下,木材平均长度的极限误差不超过0.08米,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?第90页,共139页,2022年,5月20日,0点31分,星期四4-91例:确定样本容量2对某批木材进行检验,根据以往经验,木材的合格率为90%、92%、95%。现采用重复抽样方式,要求在95.45%的概率保证程度下,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?第91页,共139页,2022年,5月20日,0点31分,星期四4-92其他抽样组织形式下的抽样误差本节主要内容:抽样估计效果的衡量与抽样组织形式简单随机抽样类型抽样整群抽样等距抽样阶段抽样不同抽样组织设计

49、的比较第92页,共139页,2022年,5月20日,0点31分,星期四4-93一、抽样估计效果的衡量与抽样组织形式抽样估计效果好坏,关键是抽样平均误差的控制。抽样平均误差小,抽样效果从整体上看就是好的;否则,抽样效果就不理想。抽样平均误差受以下几方面的因素影响:一是总体的变异性,即与总体的标准差大小有关二是样本容量三是抽样方法。四是抽样的组织形式抽样的组织形式有如下几种:简单随机抽样、类型抽样、等距抽样、整群抽样、阶段抽样 第93页,共139页,2022年,5月20日,0点31分,星期四4-94二、简单随机抽样第94页,共139页,2022年,5月20日,0点31分,星期四4-95三、类型抽样

50、含义:又称分层抽样。对总体各单位按一定标志加以分组,然后从每一组中按随机原则抽取一定单位构成样本。得到样本如下:第95页,共139页,2022年,5月20日,0点31分,星期四4-96类型抽样求样本平均数第96页,共139页,2022年,5月20日,0点31分,星期四4-97类型抽样求抽样平均误差第97页,共139页,2022年,5月20日,0点31分,星期四4-98类型抽样求抽样平均误差第98页,共139页,2022年,5月20日,0点31分,星期四4-99类型抽样两点结论从类型抽样的抽样平均误差公式来看,类型抽样的抽样平均误差与组间方差无关,它决定于组内方差的平均水平。而方差的加法定理:

51、,因此有如下结论:抽样效果一般来说好于简单随机抽样。因此在分组时应尽量扩大组间方差(组间差异),缩小组内方差(组内差异),从而减少抽样误差,提高抽样效果。第99页,共139页,2022年,5月20日,0点31分,星期四4-100类型抽样例假设某农场种植小麦1 200亩,根据其地理条件划分为甲、乙、丙三类,按5%的比例总共抽取60亩进行调查,结果如下表所示。试以95%的概率估计农场平均亩产量的区间范围。 第100页,共139页,2022年,5月20日,0点31分,星期四4-101四、整群抽样定义:又称集团抽样。将总体各单位分为若干群,然后从中抽取部分群,对中选群的所有单位进行全面调查。第101页

52、,共139页,2022年,5月20日,0点31分,星期四4-102整群抽样抽样平均误差的计算在计算抽样平均误差时假定每群单位数是相同的,但实际工作中,通常是“自然群”,其单位数一般是不等的。第102页,共139页,2022年,5月20日,0点31分,星期四4-103整群抽样抽样效果评价好处是操作方便、省时、省力。确定一群便可以调查许多单位,但正是由于抽样单位比较集中,限制了样本单位在总体中分配的均匀性,所以有时代表性较代,抽样误差较大。可以增加样本单位来减少误差 。抽样平均误差只取决于群间方差(与类型抽样相反),因此分群时,应尽量扩大群内方差(群内差异),缩小群间方差(群间差异)来提高抽样效果

53、。第103页,共139页,2022年,5月20日,0点31分,星期四4-104整群抽样例1从某县的100个村庄中抽出10村,进行调查得平均每户饲养家禽35头,各村的平均数的方差为16头,请计算平均抽样误差。第104页,共139页,2022年,5月20日,0点31分,星期四4-105整群抽样例2假设某水泥厂大量连续生产100公斤装水泥,一昼夜产量为14 400袋,平均每分钟产量10袋。现每隔144分钟抽取一分钟的产量(10袋为一群),一昼夜共抽取100袋水泥,观察结果如下表,试计算样本平均数的抽样平均误差,并以95%的概率估计每包水泥重量的区间范围。第105页,共139页,2022年,5月20日

54、,0点31分,星期四4-106五、等距抽样含义:又称机械抽样或系统抽样。先按某个标志对总体单位进行排序,然后依固定的间隔来抽取样本单位。这样可以保证样本单位均匀地分布在总体的各个部分,有较高的代表性。总体的单位数N,需要抽取的样本单位数n,则等距抽样的间隔大小:k=N/n总体排序标志是由总体的有关辅助信息确定的,与调查标志两者间可以有关也可以无关。1、无关标志排队:如家计调查,按门牌号码排序。2、有关标志排队:如农产量调查按平均亩产量高低排序。一般来讲,有关标志排序要比无关标志排序的机械抽样更为优越。在排队时,要注意避免抽样间隔与现象本身的周期性节奏相重合。以减少系统偏差的影响,提高样本的代表

55、性。第106页,共139页,2022年,5月20日,0点31分,星期四4-107等距抽样抽样平均误差的计算无关标志排队时,为了方便起见,可以采用简单随机抽样的平均误差代替等距抽样平均误差 :第107页,共139页,2022年,5月20日,0点31分,星期四4-108六、阶段抽样含义:所谓阶段抽样,就是先从总体中抽出较大的范围的单位,再从中选的大单位中抽较小范围的单位,依次类推,最后从更小的范围抽出样本基本单位。阶段抽样一般应用于总体范围很大的情况。如在我国的农产量调查、职工家计调查中都很适用:先从全国抽出各个省,再从抽中的省中抽出县、市,最后抽出样本的基本单位等等。 第108页,共139页,2

56、022年,5月20日,0点31分,星期四4-109阶段抽样两阶段抽样两阶段抽样较为简单。本书主要分析两阶段抽样平均误差的控制问题。两阶段抽样在组织技术上可以看成是整群抽样和类型抽样的结合。设总体分成R组,每组M个单位。两阶段抽样就是:第一阶段用整群抽样方式从总体的全部R组(群)中,随机抽取r组(群);第二阶段用类型抽样方式从每个中选组中抽出m样本单位。第109页,共139页,2022年,5月20日,0点31分,星期四4-110两阶段抽样样本平均数第110页,共139页,2022年,5月20日,0点31分,星期四4-111两阶段抽样抽样平均误差两阶段抽样的平均误差是由两部分构成的,第一部分是第一

57、阶段从总体全部组抽部分组所引起的组间误差,第二部分是由第二阶段在中选组中抽部分单位所引起的组内平均误差。 第111页,共139页,2022年,5月20日,0点31分,星期四4-112七、不同抽样组织设计的比较进行抽样设计时需要考虑的两个问题:提高样本的代表性,增加抽样的效果。抽样要满足随机性要求。抽样设计时,要充分考虑如何降低抽样的成本费用。第112页,共139页,2022年,5月20日,0点31分,星期四4-113简单随机抽样是基本抽样组织方式 抽样推断效果如何,依赖于所抽出样本的质量;样本的质量好坏,就看样本对总体的代表性如何,而这又依赖于抽取样本时的 “随机性”。 如果不满足随机性,则样

58、本的代表性就值得怀疑,抽样推断就无从进行。第113页,共139页,2022年,5月20日,0点31分,星期四4-114类型抽样与整群抽样比较 1、抽样平均误差的决定因素不同。类型抽样的平均误差与组间方差无关,决定于组内方差的平均水平整群抽样的平均误差与组内方差无关,决定于组间方差大小2、减小类型抽样与整群抽样平均误差的方法不同。因为总体方差等于组间方差加上组内方差平均数。所以提高组间方差,降低组内方差可减小类型抽样平均误差 对于整群抽样则相反3、适应范围不同。类型抽样充分利用总体的已有信息,其前提就是对总体的结构事先有一定的认识,然后通过分类把总体中调查标志差异比较接近的单位归为一组,减少组内

59、差异,再从各组中抽出样本,这样的样本就对总体有更大的代表性。整群抽样适用于无原始资料可利用的总体单位。是一种较为方便有效的抽样组织方式,有利于提高抽样的效率。但要注意整群抽样有时代表性不是很理想,抽样误差较大。在实际抽样中,通常要适当增加一些样本单位,以利于缩小抽样误差,提高抽样推断的准确度。 第114页,共139页,2022年,5月20日,0点31分,星期四4-115阶段抽样平均误差的控制 阶段抽样误差的控制必须落实到抽样的各个阶段。两阶段抽样误差控制,要落实为第一阶段的整群抽样的误差控制与第二阶段的类型抽样的误差控制两方面。两阶段抽样平均误差,既取决于组间方差也取决于组内平均方差,但组间方

60、差是主要的因素。所以在组织两阶段抽样时在相同样本容量要求下,适当增加第一阶段的组数,比增加第二阶段的单位数,能更显著地提高抽样效果。 第115页,共139页,2022年,5月20日,0点31分,星期四第四节 调查问卷设计一、调查问卷的作用和结构 调查问卷是为了进行调查和统计用的一种表格,由于表格中 的内容是以提问题的方式表现的,通常称为调查问卷。不论采用伺 种调查方式,调查问卷都是不可缺少的。区别只是在于与调查人员填写问卷的面访相比,由被调查者自行填写式的问卷应当更为简明,更宜于填答,有关调查的说明和有关填表的说明应该更详细些,以保证被调查者在没有人指导的情况可以顺利完成问卷。 调查问卷的主要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论