版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大学生平均每月的手机话费支出是多少?导入案例某大学经济管理学院大学生月手机话费抽样调查表月支出电话费用/元学生人数/人30以下2330~505050~702970~901390以上11合计126
大学生平均每月的手机话费支出是多少?导入案例分析在社会生产实践中,常常会遇到这样一些问题,如对某些产品质量的检验、药品药效的检验、烟花爆竹的检验等。因其检验过程对产品本身具有破坏性而不可能进行全面调查获取总体资料。而统计的研究对象是大量的社会经济现象总体的数量方面。那么,如何获取这些现象的总体资料呢?通过本章的学习就能够找到答案。目录1第一节抽样推断概述2第二节抽样误差3第三节参数估计4第四节抽样调查的组织方式第一节抽样推断概述1一抽样推断概述一、抽样推断的概念与特点(一)抽样推断的概念抽样调查是一种科学的非全面调查方法,是指按照随机性原则从总体中抽取一部分单位进行调查,以获得各项数据。抽样推断是进一步运用数理统计的原理,根据抽样调查的数据,对总体现象本质的认识。抽样包括抽样调查和抽样推断两部分。一抽样推断概述(二)抽样推断的特点抽样调查是一种非全面调查,调查的目的不在于了解部分单位的情况,它只是作为进一步推断的手段,目的在于要认识总体的数量特征。(1)抽样推断是由部分推算整体的一种认识方法一抽样推断概述抽样调查可以是随机抽样,也可以是非随机抽样,但是作为抽样推断的前提必须是随机抽样。随机抽样指从总体中抽取样本单位时,样本单位的中选机会均等。
这样做的原因之一是可以利用概率论的原理对调查的结果做出具有一定可靠程度的估计与推断;二是防止出现由于主观抽选被调查单位带来的倾向性误差。(2)抽样推断是建立在随机取样的基础上一抽样推断概述以抽样调查的样本指标数值来推断总体指标数值,虽然存在一定误差,但这种误差在抽样调查之前是可以计算的,并能根据统计研究的任务、目的、精确性等,采取相应的措施加以控制,使抽样推断的结论达到一定的可靠程度。这也是抽样调查不同于其他调查方式的重要区别之一。(3)抽样推断的误差可以事先计算并进行控制一抽样推断概述二、抽样推断的作用(1)对某些不必要或不可能进行全面调查而又要了解全面情况的现象,采用抽样调查获取资料可以大大节省人力、财力、物力,有利于提高经济效益和统计资料的时效性。(2)抽样调查和全面调查同时进行,可以发挥相互补充和验证的作用。(3)抽样调查是开展专题研究、提供信息咨询的重要手段。一抽样推断概述三、抽样推断的基本概念(一)抽样单位和抽样框1.总体和样本总体是抽样推断所要研究对象的全部单位组成的整体,也称母体。总体的特点是,在一个总体中,各单位具有某种(或某些)相同的性质,同时,在各个个体的某个标志值之间又往往存在着差异。样本是总体的一部分,它是由从总体中抽取出来的单位组成的整体,也称子样。如果说总体是由各个同质单位组成的一个母集,则样本是来自该母集的一个子集,样本代表总体,是总体的一个缩影,因此,可以用样本的数量特征对总体的数量特征进行估计和推断。一抽样推断概述2.抽样框要从一个总体中抽选样本,很重要的一个问题就是需要一个包括全部总体单位的框架,以此代表总体,从中抽取样本单位。从中抽取样本的这个框架就称为抽样框。它的作用就是将无形的总体变成有形的事物以便于实际抽取。一抽样推断概述要很好地理解抽样框,需要区分一对概念:目的总体和被抽样总体。在统计研究中,根据研究目的所确定的理想总体,就是目的总体。但是,有时目的总体非常复杂,尤其在社会经济调查中,我们想得到一个包括目的总体全部单位的框架往往很难,只能用一个接近目的总体,并且容易取得和便于操作的框架来代替,这就是被抽样总体,即抽样框包含的总体范围。一抽样推断概述抽样框有以下几种具体表现形式:一种是一览表(即名单或目录),顾名思义,就是将总体全部单位的名称罗列起来;另一种是地图,调查对象与地理分布有关的时候,往往借助于地图,根据地图上的自然或人工标志,例如,河流、公路、自然村落、城市街区等将调查区域划分成可以进行抽样的单位;还有一种是时间抽样框,有些抽样单位是随时间推移而变化的,例如,生产流水线上的产品、街道路口的汽车流量等。一抽样推断概述3.抽样单位抽样单位是构成抽样框的基本要素,它与总体单位的关系有以下两种情况:一种是抽样单位就是总体的基本单位,在总体单位数不大并且比较集中的情况下,一般是从总体单位中直接抽取若干形成样本,这时抽样单位与总体单位一致;另一种情况是抽样单位是总体单位的集合,在总体单位数很大,抽样比较复杂时,我们一般不直接从总体中抽取总体单位,而是首先抽取若干总体单位的集合(比如整群抽样),或者通过几个阶段来抽取总体单位(比如多阶段抽样),这时,抽样单位与总体的基本单位往往是不一致的。此时,抽样框就是抽样单位的名单。一抽样推断概述抽样单位的不同划分,是针对不同抽样方法而言的。若抽样单位只包含一个个体,并且没有分级,与之相对应的是简单随机抽样;若抽样单位中包含若干个体,与之对应的是整群抽样;在抽样单位分级情况下,与之对应的是多阶段抽样。由于抽样单位可以分级,于是就有了与之相对应的不同级上的抽样框。抽样实践中,抽选哪一级抽样单位,有同级的抽样框即可。一抽样推断概述(二)样本容量和样本可能数目1.样本容量样本容量是指一个样本中所包含的单位数的多少。总体单位数通常用N表示,样本容量一般用n表示。在社会经济统计中,总体单位数N一般很大,有时可以是无限多的,样本容量n相对于总体单位数N一般是很小的。
的样本叫小样本,的样本叫大样本。根据数理统计理论,在用样本数量特征去推断总体数量特征时,大样本与小样本两种不同条件下,使用的推断方法也有所不同。社会经济现象的抽样推断中,绝大多数采用的是大样本。一抽样推断概述2.样本可能数目样本可能数目是指按一定抽样方法和一定样本容量从总体中抽取样本时,所有可能的样本组合个数,一般用M表示。对于无限总体,样本可能数目也是无限多的;对于有限总体,样本可能数目与总体单位数、样本容量以及所用的抽样方法有关。按照随机原则从总体中具体抽取样本单位时,按抽样的方法来分,有重复抽样和不重复抽样两种。一抽样推断概述重复抽样又称回置抽样,其具体做法是:从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,观察登记后,将该单位放回总体,保持总体单位数不变,再进行下一个单位的抽取,如此反复n次,直到抽足n个单位为止。重复抽样具有这样的特点:n次抽取可以看作n次独立试验,每次抽取是在完全相同的条件下进行的,因此每个单位中选或不中选的机会在各次都完全一样。但是,采用重复抽样的方法,同一单位有可能被反复抽到,从而会影响样本的代表性,抽样误差较大。一般来讲,整群抽样和多阶段抽样方式不宜采用这种方法。一抽样推断概述不重复抽样又称不回置抽样,其具体做法是:从总体N个单位中抽取一个容量为n的样本,每次从总体中随机抽取一个单位,观察登记后不再放回总体,在此基础上抽取第二个单位,依次类推。不重复抽样有这样的特点:每次抽样以后,总体都会少一个单位。因此,不重复抽样的每次抽取都会影响到下一次,n次抽取不是相互独立的。所以,不重复抽样的每次抽一个,连续抽n次,相当于一次从总体中抽出n个单位组成样本。由于每次抽取时总体单位数不同,每个单位中选或不中选的机会在各次是不同的。一抽样推断概述在不重复抽样中,每个单位只有一次被抽中的机会,不可能被抽中两次或两次以上。因此,在样本容量相同的情况下,采用不重复抽样方法抽选出来的样本的代表性高于用重复抽样方法抽选出来的样本的代表性。实际工作中,多采用不重复抽样的方法。一抽样推断概述根据对样本的要求不同,在采用重复抽样和不重复抽样方法的基础上,又有考虑顺序抽样和不考虑顺序抽样两种。考虑顺序的抽样,即从总体N个单位中取n个单位组成样本时,不但要考虑样本的构成单位,还要考虑样本中各单位的中选顺序,即使是相同单位组成的样本,若各单位中选顺序不同,也作为不同的样本。不考虑顺序的抽样,即从总体个单位中抽取个单位组成样本,只考虑样本的组成单位,而不管各单位的中选顺序,只要样本的组成单位相同,都作为同一个样本。一抽样推断概述(1)考虑顺序的重复抽样的样本可能数目。考虑顺序和不考虑顺序抽样,与重复抽样和不重复抽样方法相联系,就产生了四种情况:考虑顺序的重复抽样,考虑顺序的不重复抽样,不考虑顺序的重复抽样,不考虑顺序的不重复抽样。采用重复抽样的方法从总体N个单位中抽取一个容量为n的样本,在考虑顺序的情况下,可以看作进行n次抽取,每次抽取都有N种不同的抽法,所以:一抽样推断概述(2)考虑顺序的不重复抽样的样本可能数目。采用不重复抽样的方法从总体N个单位中抽取一个容量为n的样本,在考虑顺序的情况下,可能样本数目可以看作从N个单位中抽取n个单位的排列,即:一抽样推断概述(3)不考虑顺序的重复抽样的样本可能数目。采用重复抽样的方法从总体N个单位中抽取一个容量为n的样本,在不考虑顺序的情况下,可能组成的样本个数等于从N+n-1个单位中抽取n个单位的组合,即:一抽样推断概述(4)不考虑顺序的不重复抽样的可能样本数目。采用不重复抽样的方法从总体N个单位中抽取一个容量为n的样本,在不考虑顺序的情况下,可能组成的本个数可以看作从N个单位中抽取n个单位的组合,即:应用以上4个公式,应注意分析样本的具体要求,根据提出的问题确定样本可能数目。一抽样推断概述(三)参数和统计量1.参数参数即总体指标,是根据总体中各单位的变量值或属性特征计算的、反映总体数量特征的综合指标。由于总体是唯一确定的,根据总体计算的指标也是唯一确定的,所以,总体指标也称为总体参数。不同性质的总体,需要计算不同的总体指标。对于变量总体,由于各单位的标志表现可以用数量表示,所以可以计算总体平均数(或总体成数P),总体方差和总体标准差。一抽样推断概述设总体单位变量值分别为:,则有:(简单算术平均数)(加权算术平均数)或一抽样推断概述方差:(简单式)(加权式)或一抽样推断概述标准差:(简单式)(加权式)或一抽样推断概述对于属性总体,由于各单位的标志表现不能用数量来表示,所以,其总体指标常以成数指标P来表示总体中具有某种属性的单位数占总体全部单位数的比重,以Q
表示总体中不具有某种属性的单位数占总体全部单位数的比重。一抽样推断概述设总体N个单位中,有N1个单位具有某种属性,N0个不具有某种属性,则有:在抽样调查中,总体指标的意义和计算方法是明确的,但指标的具体数值事先未知,需要用样本指标来估计。属性总体的平均数就是成数P,即:其方差和标准差分别为:一抽样推断概述2.统计量统计量即样本指标,是由样本中各单位的变量值或属性特征计算的、反映样本数量特征的综合指标。与总体指标相对应,样本指标有样本平均数、样本成数、样本方差
和样本标准差。为了与总体指标相区别,样本指标用小写字母表示。一抽样推断概述对于从变量总体中抽选出来的样本,设样本各单位变量值分别为,则有:(简单算术平均数)(加权算术平均数)或一抽样推断概述方差:(简单式)(加权式)或一抽样推断概述标准差:(简单式)(加权式)或一抽样推断概述对于从属性总体中选出来的样本,设样本n个单位中,有n1个单位具有某种属性,n0个单位不具有某种属性,则有:由于从一个总体中可以抽取多个样本,样本不同,样本指标的数值也不同,所以样本指标不是唯一确定的,是个随机应量,因此,样本指标也称为样本统计量。属性总体的平均数就是成数P,即:其方差和标准差分别为:一抽样推断概述四、抽样推断的理论基础大数定律与中心极限定理是与统计学密切相关的重要数学定理,它们为抽样推断提供了数学理论基础。独立同分布的随机变量,并且有数学期望和方差
,则对任意的正数,有(一)大数定律一抽样推断概述该定理说明,当充分大时,独立同分布的一系列随机变量,其平均数与它们共同的期望值之间的偏差,可以有很大把握被控制在任意给定的范围之内。由于从总体中抽出的样本是独立且与总体同分布的,因此当样本容量充分大时,样本平均与总体平均之间的误差可以有很大的把握被控制在任意给定的要求之内,这就是用样本平均估计总体平均的理论依据。一抽样推断概述由于比率指标是一个特殊的平均数,大数定律对比率指标自然也成立,设是次试验中事件发生的次数,是事件发生的概率,则对于任意的正数,有即当充分大时,事件发生的频率接近(依概率收敛于)事件发生的概率,反映了频率在大量重复试验过程中的稳定性。该定理称为贝努里大数定律,它提供了用频率代替概率的理论依据。一抽样推断概述大数定律表明:尽管个别现象受偶然因素影响,有各自不同的表现,但是对总体在大量观察后进行平均,就能使偶然因素的影响相互抵消,消除由个别偶然因素引起的极端性影响,从而使总体平均数稳定下来,反映出事物变化的一般规律。一抽样推断概述(二)正态分布再生定理如果变量服从正态分布,总体平均数是,标准差是,从这个总体中抽出一个容量是的样本,则样本平均数也服从正态分布,其平均数仍是,其标准差是。从正态分布的再生定理可以看出,只要总体变量服从正态分布,则从中抽取的样本,不管是多少,样本平均数都服从正态分布。但是在客观实际中,总体并非都是正态分布。对于从非正态分布总体中抽取的样本平均数的分布问题,需要由中心极限定理来解决。一抽样推断概述(1)样本平均数的中心极限定理。从任一比率为,方差为的0-1分布总体中,抽取容量为的样本,其样本比率的分布会随着的增大而趋近于平均数为,标准差为的正态分布。
(2)样本比率的中心极限定理。(三)中心极限定理从任一比率为,方差为的0-1分布总体中,抽取容量为的样本,其样本比率的分布会随着的增大而趋近于平均数为,标准差为的正态分布。第二节抽样误差2二抽样误差一、抽样误差的概念及影响因素(一)抽样误差的概念抽样误差是指样本指标和全及指标之间的差数。具体来说,就是样本平均数和全及平均数之间的差数,或是样本成数和全及成数之间的差数。因为抽样调查只是从全及总体中抽取一部分单位进行调查,即使做到严格地遵守随机原则,要使样本总体的结构与全及总体的结构完全一致是不可能的,只要样本总体的结构与全及总体的结构稍有不同,计算出来的样本指标就不会与全及指标完全一致,而是存在一定的差异。在抽样调查过程中,会发生许多种误差。一种是登记性误差,这是由于没有如实登记,或者登记、汇总错误等造成的。这种登记性误差可以通过提高调查人员的思想和业务水平,改进调查方法和组织工作,建立严格的工作责任制等加以避免。另一种误差是代表性误差,它又分为两种情况:其一是在抽样过程中,没有按照随机原则取样,存在人为的主观因素在内,是因破坏了随机原则造成的。这种误差叫偏差,是应该避免的。其二是在抽样过程中,严格按照随机原则取样(消除登记性误差和偏差的条件下),由于用样本指标代替全及总体指标所引起的误差。这种误差是不可避免的,而且是按随机原则产生的,称为随机误差。抽样误差一般是指随机误差。抽样误差是衡量抽样调查准确性的指标。抽样误差越大,表明样本总体对全及总体的代表性越小,抽样调查的结果越不可靠。反之,抽样误差越小,表明样本总体的代表性越大,抽样调查越准确可靠。二抽样误差(二)影响抽样误差大小的因素1.样本单位数的多少在其他条件不变的情况下样本单位数越多,抽样误差越小;反之,样本单位数越少,抽样误差越大。这是因为随着样本单位数的增加,样本结构就越接近总体的结构。二抽样误差2.总体标志变异程度的大小在其他条件不变的情况下,总体被研究标志的变异程度越大,抽样误差也越大;反之,总体被研究标志的变异程度越小,抽样误差也越小。这是因为总体标志变异程度小,表示总体各单位标志值之间的差异小,则抽样指标与总体指标之间的差异可能也小。如果总体各单位标志值相等,即标志变动度等于零,这时抽样指标就完全等于总体指标,抽样误差也就不存在了。所以,抽样误差的大小是同全及总体被研究标志的变异程度成正比的。二抽样误差3.抽样调查的组织方式不同的组织方式产生的误差不同。一般说来,机械抽样和分类抽样由于先把全及总体各单位分组排队,因而较其他抽样组织方式更能保证样本单位在全及总体中分布均匀,从而提高样本的代表性。因此,这种抽样组织方式比其他方式抽样误差小。二抽样误差4.抽样方法抽样方法不同,抽样误差也不同,一般来说,重复抽样比不重复抽样的误差要大些。二、抽样平均误差抽样平均误差是抽样误差的一般水平,它的数值随着可能抽取的样本不同而或大或小,所以是个随机变量。为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平,抽样平均误差就是反映抽样误差一般水平的指标。通常是用抽样平均数的标准差或抽样成数的标准差来作为衡量误差一般水平的尺度。这是因为,抽样平均数的平均数等于总体平均数,而抽样成数的平均数等于总体成数,所以抽样标准差恰好反映了抽样指标的平均离差程度。二抽样误差设以表示抽样平均数的平均误差,表示样本平均数,表示总体平均数,表示样本可能数目,则设为抽样成数的平均误差,为样本成数,为总体成数,则二抽样误差以上公式表明了抽样平均误差的意义。但是由于样本可能数目很多,总体指标与
也是不知道的,故按上述公式来计算抽样平均误差实际上是不可行的。在实用上要推导出其他公式来计算,下面直接给出这些公式并加以讨论。(一)抽样平均数的平均误差1.重复抽样【例题】数理统计证明:在纯随机重复抽样条件下,抽样平均误差与全及总体的标准差成正比,而与样本总体单位数的平方根成反比。根据这个关系可得出纯随机重复抽样平均数抽样误差的计算公式为:式中,为全及总体的标准差,为全及总体方差;为样本总体的单位数。解二抽样误差【例7-1】设有4个工人的全及总体,他们的月工资是:甲140元、乙150元、丙170元、丁180元,则其平均工资和工资标准差为:二抽样误差现以重复抽样方法从4人总体中随机抽取2人组成样本,计算样本平均工资,用以代表4人总体的工资水平,共可组成16个样本。每个样本都可算出平均收入(),它们与总体平均收入()都有个离差,下面用表7-1列示出来。二抽样误差表7-1重复抽样误差计算表二抽样误差样本工资收入/元样本平均数离差离差平方甲甲140140140-20400甲乙140150145-15225甲丙140170155-525甲丁140180160-00乙甲150140145-15225乙乙150150150-10100乙丁150180165+525丙甲170140155-525丙丙170170170+10100丙丁170180175+15225丁乙180150165+525丁丙180170175+15225丁丁180180180+25400合计—2560—200016个样本平均的平均数为:按定义:二抽样误差抽样平均误差按纯随机重复抽样平均数抽样误差的计算公式:按定义和按公式计算的抽样平均误差完全相同。从以上计算过程,可以得出几个基本关系:(1)抽样平均数的平均数等于总体平均数,即。(2)抽样平均误差小于总体标准差,即<,重复抽样时仅为总体标准差的,所以抽样平均数作为估计量更是有效的。(3)抽样平均误差和总体标准差是成正比的,与样本单位数的平方根成反比。因此,要想减少抽样平均误差以提高抽样指标的代表性,只能增大样本单位数,因为总体标准差是不能改变的(它是客观存在的)。例如,抽样平均误差减少1/2,则样本单位数必须增大到4倍;抽样平均误差要减少到原来的1/3,则样本的单位数就要扩大到9倍。二抽样误差2.不重复抽样有不重复抽样的条件下,抽样平均数的平均误差不但和总体变异程度、样本单位数有关,而且和总体单位数N的多少有关。其计算公式为:当总体单位数N很大时,公式中的N-1可以用N代替。所以,在实际计算时,不重复抽样的抽样平均的平均误差可用下式计算:二抽样误差将上面重复抽样和不重复抽样的平均误差公式相比,两者相差一个修正系数(1-n/N),这个修正系数是大于0而小于1的正数。可见,在同样条件下,不重复抽样的平均误差永远小于重复抽样的平均误差。在不重复抽样情况下,如果全及总体单位数很多,样本单位数又很少时,n/N的数值接近于零,(1-n/N)接近于1,于是修正系数的作用不大了。又因为许多社会经济现象不能进行重复抽样,所以在实际抽样调查中,一般都采用不重复抽样方法进行抽样,而采用重复抽样的公式计算抽样平均误差,这样计算的结果偏大。二抽样误差【例7-2】现仍以【例7-1】中4个工人工资的例子,用不重复抽样的方法从总体中随机抽取2人组成样本,则可能出现的样本情况如表7-2所示。二抽样误差样本工次收入/元样本平均数离差离差平方甲乙140150145-15225甲丙140170155-525甲丁1401801600.0乙甲150140145-15225乙丁150180165+525丙甲170140155-525丙丁170180175+15225丁乙180150165+525丁丙180170175+15225合计
1920—1000表7-2不重复抽样误差计算表按定义抽样平均误差:12个样本平均数的平均数:二抽样误差按公式抽样平均误差:两者计算结果完全相同。由上可知,在不重复抽样的条件下,抽样平均数的平均数仍然等于总体平均数,而它的抽样平均误差9.13元则比重复抽样的平均误差11.18元小。3.总体方差的确定方法上面介绍的重复或不重复条件下的抽样平均误差公式,只有掌握总体标准差的数值才能计算,但是总体标准差一般是不知道的。二抽样误差实际工作中常用下面的方法来确定:(1)用样本标准差代替总体标准差,即用代替。理论和实践都证明,只要样本总体单位数量多(n>50)时,抽样总体的标准差与全及总体的标准差是相当接近的。所以,这种方法是可行的。但是只能在抽样调查之后方能计算。(2)用过去调查资料的标准差。如果历史上做过同类型的全面调查或抽样调查,就使用过去所掌握的总体标准差或样本标准差。(3)抽取一个小样本进行估计。如果既没有历史资料,又需要在调查之前就要计算抽样平均误差,则可组织一次小规模的试验性抽样调查,计算出抽样标准差作为总体标准差的估计值。二抽样误差【例7-3】一批新灯泡共500只,用纯随机抽样方式从中抽取25只进行灯泡寿命的检验。经计算,灯泡的平均寿命为1500h,样本标准差为60h,求抽样平均误差。重复抽样:解二抽样误差不重复抽样:计算结果表明,样本平均寿命为1500h,它的总体平均寿命的抽样平均误差在重复抽样时为12h,不重复抽样时为11.70 h。(二)抽样成数的平均误差抽样成数平均误差的计算方法与平均数抽样误差的计算方法基本上是一样的,首先要求出成数的总体方差。要计算成数的总体方差,须先求出成数的平均数。前面讲过,某一现象有两种表现时,例如合格或不合格,用N1代表具有某种表现的总体单位数,N0代表不具有某种表现的总体单位数;假定N1的变量值为1,N0的变量值为0,则它们的平均数为:二抽样误差由此可见,成数的平均数是成数本身,即成数是一种最简单的平均数,是只取0和1两个变量值的变量的平均数。根据标准差的计算公式,成数的标准差为:由此可见,成数的标准差就是具有某一标志表现的单位在总体中的成数和不具有这一标志表现的单位在总体中的成数二者乘积的平方根。二抽样误差因此可以从抽样平均数的平均误差和总体标准差的关系推出抽样成数平均误差的计算公式为:抽样成数平均误差公式中的P是总体的成数,一般也是无法知道的。这时我们也可以用实际抽样的样本成数来代替,或用已掌握的历史同类现象的相应成数来代替。二抽样误差在总体单位数N较大的情况下,近似地为:不重复抽样:重复抽样:【例7-4】从10000件产品中随机抽取200件进行质量检查,发现其中有10件不合格,问合格率的抽样平均误差是多少?先求样本产品的合格率,即抽样成数:解二抽样误差用重复抽样计算成数抽样平均误差:用不重复抽样计算成数抽样平均误差:计算结果表明,样本的合格率为95%,它与总体合格率之间的抽样平均误差为1.53%。三、抽样极限误差(一)抽样极限误差的意义抽样极限误差是指抽样指标与总体指标之间抽样误差的可能范围,又叫抽样误差范围。用样本指标来估计总体指标,总是要产生误差,两者完全相等几乎是不可能的。由于样本是随机抽取的,样本指标是随机变量,所以要确切地指出某一抽样指标究竟误差有多大,也几乎是不可能的,我们只能把抽样误差控制在一定的范围内,这就需要研究抽样极限误差。二抽样误差由于总体指标是一个确定的数,而抽样指标则围绕着总体指标左右变动,它与总体指标可能产生正离差,也可能产生负离差,抽样指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这个抽样误差的可能范围称为抽样极限误差。二抽样误差设与分别表示抽样平均数与抽样成数的误差范围,则有:二抽样误差将上列等式变成相应不等式为:上式表明,抽样平均数是以总体平均数为中心,在之间变动,区间(,)称为平均数的估计区间,区间总长度为;同样,抽样成数是以总体成数为中心,在之间变动,区间(,)称为成数的估计区间,区间总长度为
。由于总体平均数和成数是未知的,它需要靠实测的抽样平均数和成数来估计,因而抽样限误差的实际意义是希望总体平均数落在抽样平均数的范围内,总体成数落在抽样成数的范围内,因此上述不等式应该变换为:容易验证后面两个不等式和前面两个不等式是完全等价的,前面两个不等式成立,后面的两个不等式也同样成立。【例7-3】中的25只样本灯泡的平均寿命为1500h,抽样平均误差为12h,用这个误差来推断全部500只灯泡的平均寿命:,即总体的平均寿命在1488~1512h之间。二抽样误差(二)抽样误差的可靠程度抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。因为既然抽样误差是一个随机变量,就不能期望抽样平均数(或成数)落在一定区间内是一个必然事件,而只是给予一定的概率保证而已。所以在进行抽样估计时,不但要考虑抽样误差的可能范围有多大,而且还必须考虑落到这一范围的概率有多大。数理统计证明,如果抽样单位数达到足够多的条件下,抽样误差范围的变化和抽样的可靠程度之间具有密切联系,抽样误差范围越扩大,抽样的可靠程度也越高;反之,当抽样误差范围越小时,抽样的可靠程度也越低。二抽样误差数理统计还证明,在大样本条件下,抽样平均数服从正态分布。因此抽样误差范围同概率的关系是这样的:当误差范围为1倍平均误差时,其概率为0.6827,即68.27%;当误差范围扩大为2时,其概率为0.9545,即95.45%;当误差范围扩大为3时,其概率为0.9973,即99.73%。二抽样误差上面列举的抽样误差扩大的倍数,叫概率度,用符号t表示。而扩大或缩小后的误差就是极限误差(或允许误差),用符号表示。【例7-3】中500只灯泡的估计中,当概率度t=1时,允许误差为h,估计的概率为68.27%,当t=2时,许误差
h,估计的概率为95.45%。由此得出,允许误差、概率度和抽样平均误差三者之间的关系式为:二抽样误差抽样极限误差通常是以抽样平均误差作为标准来衡量的,用或分别除或,得出相对数为t概率度,表示相对误差范围。其计算公式为:二抽样误差抽样极限误差也可以表示为抽样平均误差的若干倍,其倍数即是概率度(t),用公式表如下:抽样极限误差(△)可以用倍的抽样平均误差()来表示,在抽样平均误差一定的条件下,概率度的数值越大,则抽样极限误差的范围也越大,抽样指标代表总体指标所作的估计的可靠程度也就越高;反之,概率度的数值越小,则抽样极限误差的范围也越小,抽样指标代表总体指标所作的估计的可靠程度也就越低。如果把可靠程度(即概率)用P来表示,那么就是
t
的函数,也就是P=f(t),表明概率分布是概率度的函数。二抽样误差从一个全及总体中连续进行多次抽样,可以得到一系列的样本,分别求出各个样本的平均数(或成数),便可形成一个抽样平均数(或成数)的概率分布。根据中心极限定理证明,不论全及总体是否属于正态分布,只要当抽样总体单位数足够多时(一般以n>30为标准),则抽样平均数(或成数)的分布,逼近于以全及平均数(或成数)为对称中心的正态分布。二抽样误差其主要特点是:(1)若干个抽样平均数(或成数)大于或小于全及平均数(或成数)的概率分布是完全对称的,即正误差和负误差的可能性(即概率)是完全一致的。(2)抽样平均数(或成数)越接近全及平均数(或成数),其出现的可能性越大;反之,抽样平均数越远离全及平均数,其出现的可能性越小。随着概率度的增大,概率的数值也随之增大,逐渐接近于1。这说明预定的概率保证程度越大,则抽样推断估计的可靠程度越大。二抽样误差为了方便计算,在实际工作中,按不同t的值和相应的F(t)编制成正态分布概率表供查用。下面列举几个常用的概率度和概率之间的函数数量关系,详见表7-3。利用概率表,我们可以根据概率度查出相应的概率保证程度,也可以按规定的概率保证程度来估计可能的误差范围。二抽样误差表7-3概率度和概率的函数关系表tF(t)1.000.68274.6450.90001.960.95002.000.95452.580.99003.000.9973(三)抽样极限误差的计算1.平均数的抽样极限误差重复抽样:不重复抽样:二抽样误差2.成数的抽样及限误差二抽样误差重复抽样:不重复抽样:【例7-5】解二抽样误差某灯泡厂检查一批灯泡,按随机原则抽取100只进行寿命检验,查得平均使用寿命为1600h,标准差为50h,在概率为95%的保证下,求抽样极限误差。根据题意s=50,n=100,由F(t)=95%,查表得t=1.96,按重复抽样公式计算:【例7-6】解二抽样误差根据题意,由N=6000,n=300,n0=45,F(t)=95.45%,查表得t=2,于是样本合格率为:按不重复抽样公式计算:从6000件产品中,随机抽查300件,发现45件不合格,在概率为95.45%时,求抽样极限误差。=4.06%第三节参数估计3三参数估计一、估计量及其评价标准参数估计是用样本统计量去估计总体参数,如用样本均值估计总体均值,样本比例估计总体比例。用来估计总体参数的统计量称为估计量。如果估计总体均值时,样本均值、样本中位数或者样本众数,哪一个是最好的估计量?统计学家给出了以下三个评价估计量的标准,满足这些标准的估计量才是优良估计量。三参数估计(一)无偏性如果估计量的数学期望等于被估计的总体参数,即则该估计量为无偏估计量。从总体中抽出不同的样本就可以计算出不同的估计值,估计值与被估计的总体参数的真实值之间有偏差,但是如果把所有的样本都抽选出来,估计值的均值等于被估计总体参数的真实值,也就是说虽然某个估计值与总体参数有偏差,但平均而言估计是没有偏差的。三参数估计(二)有效性估计量的方差越小,则估计就越有效。如果有两个无偏估计量,具有较小方差的估计量的值更接近总体参数,估计量的所有取值应该集中在被估计总体参数真实值的周围,从而使得估计更加准确。三参数估计(三)一致性一致性就是指随着样本容量的增大,估计量的值越来越接近被估计总体的参数。换句话讲,对于一个具有一致性的估计量,一个大容量样本的估计值要比一个小容量样本的估计值更接近总体参数。可以证明,样本均值、样本比例和样本方差符合无偏性、有效性和一致性三个标准,它们分别是总体均值、总体比例和总体方差的优良估计量。三参数估计二、参数估计的方法(一)点估计点估计就是直接将估计量的一个样本观察值作为被估计总体参数的估计值。根据前面介绍的估计量评价标准,样本均值、样本比例以及样本方差分别是总体均值、总体比例以及总体方差的优良估计量,因而随机抽取一个样本,计算得到其样本均值、样本比例以及样本方差的具体数值,即可估计出总体均值、总体比例以及总体方差的数值。参数估计的方法有点估计和区间估计两种。三参数估计【例7-7】试用点估计的方法估计这批酸奶的平均容量以及容量的标准差。根据估计量的评价标准,样本均值是总体均值的优良估计量,因而整批酸奶平均容量的估计值为解某市某乳业公司欲估计某一批酸奶平均每盒的容量,随机从生产线中抽取24盒,测得这24盒酸奶的容量如下(单位为mL):239.5240.4239.0241.0237.5239.4239.0238.6238.6240.3239.6240.0237.9238.4239.5239.6238.5240.5240.0239.8239.5240.4240.0240.6三参数估计点估计的优点是能够提供总体参数的具体估计值,且方法简单,但不能说明估计结果的准确程度和置信程度,所以经常采用区间估计的方法。而这些批酸奶每盒容标准差的估计值为三参数估计(二)区间估计1.区间估计的概念在统计分析中,常常用一个区间及其出现的概率来估计总体参数。这种估计总体参数的方法称为区间估计。具体地说,区间估计是用估计量或所构成的区间来估计总体参数,并以一定的概率保证总体参数将落在所估计的区间内。这一概率保证程度称为置信度,这种估计区间称为置信区间。例如即三参数估计2.区间估计的方法及要素1.总体平均数的区间估计或2.总体比例的区间估计或由上述区间估计公式可概括出区间估计的基本要素:①估计值或;②抽样极限误差或;③置信度(概率保证程度)。三参数估计3.区间估计的步骤1)置信度约束下的区间估计步骤根据抽样估计原理,自总体中抽取容量为的样本,在置信度一定的情况下,我们可以采取如下步骤进行区间估计(1)明确置信水平()或。常用的置信水平主要有95%,95.45%,99.73%等。(2)确定概率度t(即临界值水平)。根据置信度,查标准正态概率双侧临界值表确定概率度(临界值)。(3)计算统计量的值。对总体平均数进行估计时,要计算样本平均数及抽样平均误差和允许误差;对总体比例(比例)进行估计时,要计算样本比例和抽样平均误差及允许误差,对总体方差进行估计时,要计算样本修正方差及其抽样误差和允许误差。(4)构造置信区间。置信区间是“优良的统计量±允许误差”构成的,对于总体平均数在某置信度约束下的置信区间就是“样本平均数±允许误差”。三参数估计【例7-8】则65-1.86≤≤65+1.86即95%的估计区间为:63.14≤≤66.86。解某制造厂的产品质量服从正态分布,其总体标准差=15千克,平均质量未知。现随机抽取一个n=250的样本,计算结果是=65千克。以95%的置信度估计总体平均质量的置信区间。已知条件为:样本容量n=250,X~N(65,15);置信水平为95%,查表有:t=1.96。计算结果说明,我们有95%的把握程度认为总体平均数介于63.14~66.86千克之间。三参数估计【例7-9】又该厂质量规定使用寿命在3000小时以下为不合格。(1)按不重复抽样方法,以95.45%的概率保证程度估计该批灯泡的平均使用寿命。(2)按不重复抽样方法,以68.27%的置信度估计该批灯泡的合格率。从某厂生产的5000只灯泡中,随机不重复抽取100只,对其使用寿命进行调查,调查结果见表7-4。表7-4抽取灯泡结果使用寿命/小时组中值x产品数量fxf()3000以下250025000-148067712003000~4000350030105000-840211680004000~500045005022500016012800005000以上55001899000116024220800
—100434000—53440000三参数估计样本标准差解(1)因为。所以,样本平均数样本平均寿命抽样平均误差小时小时三参数估计(2)因为。所以,样本合格率样本合格率的抽样平均误差总体平均寿命所在的置信区为:下限4340-144.71=4195.26小时上限4340+144.74=4484.74小时即可以95.45%的概率保证程度估计该批灯泡的平均使用寿命在4484.74~4195.26小时之间。三参数估计总体合格率所在的置信内间为:下限上限即可以68.27%的置信度估计该灯泡的合格率为96.6%~99.4%三参数估计【例7-10】废品率解对某些成品按不重复抽样方法抽选200件检查,其中废品8件,又知样本容量为成品总量的(1/20)。以95%的概率保证程度估计该批成品的废品率范围。总体比例所在的区间上下限为上限下限即可以95%的把握程度估计该批成品的废品率范围在1.35%~6.65%之间。三参数估计如果在区间估计中,先给定允许误差,我们也可以根据上述原理,推算出置信区间和置信度,具体步骤如下:(1)明确极限误差(允许误差)。(2)计算样本统计量。根据样本统计量与允许误差构成估计(置信)区间,即区间为[统计量±允许误差](3)计算抽样平均误差。据允许误差和抽样平均误差的关系求得临界值,如平均数的临界值为(4)确定置信度。查标准正态概率双侧临界值表,确定置信区间所对应的置信概率()水平。2)允许误差约束下的区间估计步骤三参数估计【例7-11】从全校近万名学生中,随机抽取100名学生测得其平均身高160cm。根据以往经验学生身高的标准差为3cm,现要求以最大不超过0.6cm的允许误差,来估计全体学生的平均身高。解因为所以估计的区间为[159.4,160.6]。又因为则查正态概率双侧临界值表有=0.9545。可见该学校学生平均身高为159.4~160.6cm的可能性有95.45%。三参数估计三、样本容量的确定(一)确定样本容量的意义我们探讨一下样本容量、抽样误差及调查费用之间的关系。由于抽样极限误差为
,在固定的概率保证度下,样本容量越大,误差越小,区间估计的精度(等于)也越高,但是调查费用也越大。小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,两者之间如何取舍?在实际工作中,有两种不同的方案。一种方案是:找出在规定误差范围内的最小样本容量,这样确定的样本容量可以在保证满足误差要求下,使得调查费用最小;另一种方案是:找出在限定费用范围内的最大样本容量,这样确定的样本容量可以保证在满足费用要求下,使得调查误差最小。在本节中,主要讨论第一种方案的样本容量的确定。三参数估计(二)估计均值时的样本容量1.总体方差已知,重复抽样情形因为抽样极限误差为,所以这就是在给定抽样极限误差和概率保证度下,至少应抽取的样本容量。三参数估计2.总体方差已知,不重复抽样情形这时,因为抽样极限误差为,两边平方并进行整理,可得:
以上两种情形都要求方差或样本方差必须事先知道,但通常样本容量需要在调查之前确定,而此时方差或样本方差是未知的。实际工作中,一般按以下方法确定其估计值:(1)用历史资料中的方差或样本方差代替。(2)在正式抽样前进行若干次试验性调查,用试验中方差的最大值代替总体方差。注意:计算结果中小数点通常要向上进位,例如n=50.05,就要取51而不是50。三参数估计【例7-12】某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样极限误差分别不超过500元和100,重复抽样条件下样本容量应为多少?解置信度为95%,查表得t=1.96,标准差=2000元。抽样极限误差分别不超过500元时,至少应抽取的样本容量:
抽样极限误差分别不超过100元时,至少应抽取的样本容量:
三参数估计(三)估计成数时的样本容量假设总体成数为P,样本成数为p。在重复抽样情况下,样本成数的抽样平均误差为:两边平方并整理后,得到样本成数的抽样极限误差为:这就是在给定抽样极限误差和概率保证度下,至少应抽取的样本容量。三参数估计在不重复抽样情况下,样本成数的抽样平均误差为:两边平方并整理后,得到样本成数的抽样极限误差为:这就是在给定抽样极限误差和概率保证度下,至少应抽取的样本容量。三参数估计同样,以上两种情形都要总体成数P或者样本成数p必须事先知道,但通常是未知的。实际工作中,一般按以下方法确定其估计值:(1)用历史资料中样本成数p代替。(2)在正式抽样前进行若干次试验性调查,用试验中样本成数p代替。(3)在完全缺乏资料的情况下,就取p=0.5。三参数估计【例7-13】某网站一个由400名使用者组成的样本表明,该网站的使用者中26%的使用者为女性。在95%的置信度下,若希望将抽样极限误差控制在3%,则样本容量应为多少?解总体单位数很大,可以看作重复抽样。已知抽样极限误差为3%,,p=95%的置信度,查表得t=1.96,因此,样本容量至少应为:样本容量至少应为822人。(人)三参数估计【例7-14】从一个企业全部职工中任意抽取400人,计算得知其平均月收入为1400元,标准差为4000元,月工资在1500元以上的职工人数有244人。如果要求平均工资的允许误差范围不超过400元,月工资在1500元以上的职工所占的比重的允许误差范围不超过5%,置信度都要求是95.45%,问至少应抽取多少名职工?解本例同时包含了平均数和成数的误差要求,因此应分别计算两个样本容量,然后取两者中的最大者。估计平均工资:标准差为s=4000元,允许误差范围不超过400元,即,置信度要求是95.45%,查表得到t=2。因此,样本容量至少应为:(人)三参数估计估计月工资在1500元以上的职工所占的比重为:样本成数,允许误差范围不超过5%,即,样本容量至少应为:所以,为了同时满足两个误差要求,样本容量至少应为400人。(人)第四节抽样调查的组织方式4四抽样调查的组织方式一、简单随机抽样在进行抽样调查工作时,必须根据研究总体本身的特点和抽样调查的目的要求,对抽取样本的程序和方式讲行周密的设计和安排,这些工作概括来说称为抽样调查组织方式。针对不同的调查目的和不同的调查对象特点,应当采用不同的抽样组织方式。在抽样调查实践中常用的组织方式主要有五种,即简单随机抽样、类型抽样(又称分层抽样)、等距抽样(又称机械抽样)、整群抽样和多阶段抽样。四抽样调查的组织方式一、简单随机抽样(一)简单随机抽样的概念与特点简单随机抽样又称纯随机抽样,它是按照随机原则直接从全及总体个单位中抽取个单位作为样本进行调查的组织方式。这种抽样方式除了需用全及总体单位名单外,基本不需要其他信息。全部抽样推断理论都是建立在简单随机抽样基础上的,因此简单随机抽样是抽样推断理论的基础。四抽样调查的组织方式从本质上讲,简单随机抽样最符合随机抽样原则。但从抽样推断效果上考察,它的应用却受到客观条件的限制。一般来说,它只适用于均匀总体(即具有被研究特征的单位均匀地分布在全及总体的各个部分),且各单位之间被研究标志值的差异较小,总体单位数较少,且便于编号和抽取。简单随机抽样的不足是没有充分利用全及总体已知信息或辅助资料;在总体单位很多、编号困难甚至不可能时,无法组织抽样;有时抽到的单位很分散,致使调查工作十分困难。四抽样调查的组织方式(二)简单随机抽样下的取样方法1.直接抽选法在简单随机抽样下,抽取样本的具体方法主要有直接抽选法、抽签法和随机数表法等。即直接从全及总体中随机抽取样本单位的方法。如从粮食仓库中不同地点取出若干袋粮食进行质量检验,从正在教室听课的坐位不同排不同行的学生中,随机抽取若干名调查教学情况等。四抽样调查的组织方式2.抽签法即先给每个总体单位编号,然后在遵循随机原则的前提下,采用一定方法抽取号码(如将各单位号码写在纸片上,捏成外表看不到号码的纸砣,然后随机取号;用摇号机器取号;或利用随机数表取号等),确定中选单位。随机数表上数字的出现及其排列是随机形式的,从0到9共10个数字,每个数字各占1/10,而且表上数字组成的多位数(两位数、三位数、四位数、五位数等)也有大体相同的出现机会。使用时从表中任一行任一列开始,按照事先设定的样本单位数目的位数,依次抽取数字,直到取够预定单位数为止。四抽样调查的组织方式二、类型抽样(一)类型抽样的概念类型抽样又称分层抽样,它是先对调查总体各单位按主要标志加以分组,然后再从各组中按照随机原则抽取一定数量的单位组成样本,进行调查和推断的一种抽样组织方式。例如,在学生学习情况抽样调查中,先按已掌握的学生学习成绩将学生分成优秀、良好和一般三类,然后按预定样本容量在各类中抽取学生组成调查样本;在劳动者工资收入抽样调查中,先按工作性质将劳动者分为工业、商业、交通、教育、卫生、农业、公务员等部门,然后再按一定方法抽取预定数目劳动者组成调查样本等。四抽样调查的组织方式类型抽样中又有类型比例抽样和类型非比例抽样两种。类型非比例抽样就是分类后确定各类应抽取的样本单位数时,不考虑各类单位数占总体单位数的比重。而类型比例抽样则是在分类的基础上,按照各类单位数占总体单位数的比重确定应抽取的样本单位数。类型比例抽样可使样本变量值的分布结构与总体变量值的分布结构趋向一致,从而进一步提高样本的代表性,缩小抽样误差。一般来说,类型比例抽样的抽样平均误差比完全随机抽样小得多。四抽样调查的组织方式类型比例抽样实际上是统计分组和随机抽样的结合应用。划分类型时必须界限清楚,准确掌握各类的单位数及其在总体中的比重;同时,组数不宜太多。通过分类,把总体中变量值比较接近的单位归为一类,使各类变量值的分布比较均匀,而且保证各类变量值都有中选机会,这样抽样平均数的变异程度就比较小。在总体各单位变量值差异较大的情况下,运用类型抽样对比简单随机抽样来说可以取得更理想的效果,因此类型抽样的特点是样本代表性强、抽样误差小。在一定情况下,必要样本单位数可以减少。四抽样调查的组织方式(二)类型抽样单位的分配方法1.等比例分类抽样类型抽样单位在各类中的分配有等比例和不等比例两种分配方法。即在对各类分配样本数目时,按照各类单位数在总体单位数中的比例确定。即某类在样本总体中占的比重与其在全及总体中所占比重相同。一般来说,这种方法简便易行,分配比例比较合理,计算方法也很简便。因此,该方法在实践中使用较多。四抽样调查的组织方式2.不等比例分类抽样不等比例分类抽样是针对一些特殊情况进行的分类抽样。如在各类型总体单位数相差悬殊,等比例抽样会影响样本代表性时,可以采用不等比例抽样方法。再如,当各类中变量值差异程度较大时,也不宜采用等比例抽样。这时,对变量值差异程度(方差)大的类,应适当多抽样一些单位;对变量值差异程度(方差)小的类,可适当少抽样一些单位。四抽样调查的组织方式(三)类型抽样推断步骤类型抽样推断工作主要有以下几个步骤:(1)抽取样本,计算样本各类(组)平均数(成数).样本各类(组)平均数:样本各类(组)成数:四抽样调查的组织方式(2)计算样本各类(组)平均数(成数)方差样本各类(组)平均数方差:样本各类(组)成数方差:四抽样调查的组织方式(3)计算样本平均(成数)组内方差的平均数样本平均数组内方差的平均数:样本成数组内方差的平均数四抽样调查的组织方式(4)计算类型抽样样本平均数(成数)类型抽样的样本平均数类型抽样的样本成数四抽样调查的组织方式(5)计算类型抽样平均误差类型抽样平均数平均误差类型抽样成数平均误差(重复抽样)(不重复抽样)(重复抽样)(不重复抽样)四抽样调查的组织方式【例7-15】某县有5万农户,根据地理情况分为平原和丘陵两类,其中平原3万户,丘陵2万户。本年按1%比例抽取样本单位进行平均年收入调查,调查结果如表7-5所示。要求:(1)以95%的概率估计本年该县农户平均年收入;(2)估计本年收入达到5万元的农户比重;(3)若明年仍进行该项调查,概率保证程度为95.45%,允许误差不超过0.15万元,应当抽多少农户进行调查,其中平原和丘陵各抽多少户。表7-5某县农户年收入抽样调查资料户年收入(万元)2以下2~44~66~88以上合计平原地区(户)10501854015300丘陵地区(户)20100502010200合计301502356025500四抽样调查的组织方式(1)估计该县本年农户平均年收入1)计算样本各类平均数平原农户收入平均数:(万元)解丘陵农户收入平均数:(万元)四抽样调查的组织方式2)计算样本各类平均数(万元)四抽样调查的组织方式3)计算样本各类平均数(万元)平原农户收入方差:四抽样调查的组织方式(万元)丘陵农户收入方差:四抽样调查的组织方式4)计算样本方差(即组内方差平均数)(万元)5)计算抽样平均误差(万元)四抽样调查的组织方式6)计算抽样极限误差(万元)∵∴7)计算抽样极限误差(万元)农户平均年收入下限:农户平均年收入上限:(万元)四抽样调查的组织方式(2)估计该县本年农户平均年收入1)计算类型抽样成数平原地区:丘陵地区:四抽样调查的组织方式2)计算抽样极限误差平原地区:平原地区:样本成数方差:四抽样调查的组织方式3)计算样本成数抽样平均误差4)计算抽样极限误差∵∴四抽样调查的组织方式5)估计本年收入达到5万元的农户比重农户年收入达5万元的比重下限:农户年收入达5万元的比重上限:即农户年收入达5万元的比重在60.18%~67.82%之间,其可靠程度为95%。四抽样调查的组织方式(3)计算明年进行同样调查的样本容量∵∴不重复抽样样本平均数样本容量为(户)四抽样调查的组织方式三、等距抽样(一)等距抽样的概念和特点等距抽样又称机械抽样或系统抽样。它是事先将全及总体各总体按某种标志排列,然后依固定顺序和间隔抽取调查单位的一种抽样组织形式。等距抽样方式能使抽取的调查单位更均匀地分布在全及总体中因而其抽样误差一般较简单随机抽样小。特别是当研究现象变异程度大,而在实际工作中又不可能抽取更多单位时,等距抽样比简单随机抽样更有效。四抽样调查的组织方式(二)等距抽样方法等距抽样方法按照将总体单位排队时所依据的标志不同,分为无关标志排队和有关标志排队两种。无关标志排队即指用来排队的标志与调查研究的目的无关,如研究学生学习情况时将学生按照姓氏笔画顺序排队。有关标志排队即指用来排队的标志与调查研究的目的有关,如研究职工的收入水平时将职工按照职务或技术等级顺序排队。显然,按有关标志排队的调查效果会优于按无关标志排队的调查效果。等距抽样样本平均数、抽样平均误差、极限误差以及对全及总体指标的估计等计算方法与简单随机抽样相同。四抽样调查的组织方式(三)等距抽样的具体组织1.随机起点等距抽样等距抽样有三种具体组织方法,即随机起点等距抽样、半距起点等距抽样和随机起点对称等距抽样。即根据事先预定的样本单位数n,将全及总体所有单位分成n等份(即n组),每组的单位数,也即抽样距离为k。抽样起点在第一组的个单位之间随机确定。若设第1个抽中单位为第1组的第r个单位,则各抽中单位可表示为第1个抽中单位为第r个单位;第2个抽中单位为第r+k个单位;第3个抽中单位为第r+2k个单位;第4个抽中单位为第r+3k个单位;……确定随机起点时,要注意回避全及总体的某种规律性变动,以免产生系统性偏差。四抽样调查的组织方式2.半距起点等距抽样半距起点就是选第1组的第个单位k/2为第一个抽取的样本单位。即第1个抽中单位为第k/2个单位;第2个抽中单位为第k/2
+k个单位;第3个抽中单位为第k/2+2k个单位;第4个抽中单位为第k/2+3k个单位;……半距起点等距抽样在社会经济调查中应用较广,但也存在一定局限,这就是随机性不够明显,只有在组距半数起点系统中的单位才能被抽中。同时,它只能抽出一个样本,抽样框的利用率较低,且不能在一个抽样框中进行交叉样本和轮换样本的抽样设计。四抽样调查的组织方式3.随机起点对称等距抽样这种方法就是通过随机起点,系统抽出对称样本。它要求每两个组距合成一个大组,在每两个组距中对称抽出两个样本单位,而且要求各对称样本与其相近的下限或上限的距离是相等的,即都等于r值。其抽样程序为:①编制抽样框;②计算组距;③决定随机起点,即在1-k中,利用随机数表或计算机(计算器)中的随机函数确定;④计算各样本单位的位置值,即:第1个抽中单位为第r个单位;第2个抽中单位为第2k-r个单位;第3个抽中单位为第2k+r个单位;第4个抽中单位为第4k-r个单位;第5个抽中单位为第4k+r个单位;……四抽样调查的组织方式【例7-16】某社区住户按家庭年收入高低排队,然后每隔20户抽1户,共抽取100户,得知他们的家庭年平均收入为30000元,样本标准差为5000元,试计算该社区住户家庭年平均收入的抽样平均误差。这是按有关标志排队的等距抽样,已知N=2000,n=100,x=30000,sx=5000则解(元)四抽样调查的组织方式四、整群抽样(一)整群抽样的概念和特点整群抽样是先将全及总体划分为若子组群,然后从中随机抽取一些群,对中选群的所有单位进行全面调查的抽样组织形式。例如,在冷库装箱鲜蛋检验中,以箱为单位抽出进行检验;在人口普查质量检验中,以村、乡或县为单位进行抽样检查;在大量连续生产的产品质量检验中,每隔1小时抽取10分钟的产品进行检验等,都属于整群抽样。四抽样调查的组织方式整群抽样是在各群间进行抽样,对中选的群进行全面调查。所以,整群抽样误差的大小取决于群间差异(方差)的大小和样本群数的多少。在其他条件不变的情况下,各群间平均变异程度越小,则抽样结果就越准确;同理,抽取的样本群数越多,则抽样误差就越小。整群抽样划分组群时,要注意尽量使各群内单位标志变异较大,而各群间单位标志变异较小。整群抽样的优点是抽选的单位比较集中,调查方便,可以节省人力、物力和财力。特别适合总体单位很多且缺乏可靠的登记资料(如名册),或虽可编制抽样名册、但费用太高的情况。四抽样调查的组
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工作心得体会总结
- 2025年度典当物品鉴定与拍卖代理服务合同3篇
- 二零二五年度军事通信保密协议及网络维护合同3篇
- 二零二五年度幼儿早期教育托管班入园协议书3篇
- 二零二五年度养殖场租赁与农业生态循环经济发展合作合同3篇
- 2025年度新型建筑材料内部承包协议书3篇
- 2025年度农村保洁员岗位职责及待遇合同
- 2025年度水产养殖废弃物处理设施建设合作协议合同3篇
- 2025年度教育培训机构挂靠合作协议书标准模板3篇
- 二零二五年度农业现代化土地承包合作框架协议3篇
- 丰田工作方法精髓-问题解决法(八步法)课件
- 老年人冬季健康保健知识讲座课件
- 老年病及老年综合征中医证治概要
- 三年级上册数学说课稿- 2.2 看一看(二)-北师大版
- 超星尔雅学习通《西厢记》赏析(首都师范大学)网课章节测试答案
- 切削液的配方
- 塑料门窗及型材功能结构尺寸
- 2023-2024学年湖南省怀化市小学数学五年级上册期末深度自测试卷
- GB 7101-2022食品安全国家标准饮料
- 超实用的发声训练方法
- 《第六课 从传统到现代课件》高中美术湘美版美术鉴赏
评论
0/150
提交评论