版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河南科技大学经济与管理学院第六章抽样调查第一节抽样调查概述第二节抽样误差第三节抽样估计的方法第四节样本容量的确定第五节抽样的组织形式统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差第一节抽样调查概述
一、抽样调查的概念、特点及作用(一)概念抽样调查是按照随机原则从全部研究对象中抽取一部分单位进行观察,并依据获得的样本数据对全部研究对象的数量特征做出具有一定可靠性的估计和判断,以达到对现象总体认识的一种方法。(二)特点
1.它是按照随机原则从总体中抽取样本。
2.它是由部分推算整体的一种方法。
3.抽样误差可事先计算并加以控制。(三)优点1.有科学的数理依据。2.非常经济。3.实效性强。4.应用广。(四)作用1.不必要或不可能全面调查采用。2.抽样调查可以补充和修正全面调查的结果。
3.有破坏性的调查。4.抽样调查方法可以用于生产过程中产品质量的检查和控制。5.抽样调查方法可以用于对总体的某种假设进行检验,以判断这种假设的真伪,决定行动的取舍。二、抽样调查中的基本概念(一)全及总体1、概念:是我们所要研究的对象,具有某种共同性质的许多单位的集合体。又称母体,简称总体。2、总体的分类:总体按各单位标志性质不同,可分为:(1)变量总体:各单位可用数量标志计量。(2)属性总体:各单位用品质标志描述。3、总体单位数:N(二)抽样总体
是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。是我们所要观察的对象,样本总体又称子样,简称样本。对于一次抽样调查,全及总体是唯一确定的。而样本是不确定的,具有随机性,一个全及总体可能抽出很多个样本总体。(三)总体指标与样本指标1、总体指标(参数、全及指标、母体参数)根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标,称为总体指标。由于全及总体是唯一的,确定的,根据全及总体计算的总体指标也是唯一确定的,但又是未知的,也即是抽样统计推断的对象。对于变量总体,由于各单位的标志可以用数量来表示,所以可以计算总体均值,总体方差和标准差,反映总体特征的主要指标:对于变量总体,反映总体集中分布趋势的算术平均数
反映总体离中分布趋势的方差或标准差属性总体(成数指标)抽样成数p
抽样成数的方差
抽样成数的标准差2、样本指标(统计量、抽样指标)
根据样本各单位标志值或标志特征计算的,反映样本某种属性的综合指标称为样本指标或统计量。
样本指标是样本变量的函数,用来估计总体参数的,样本指标是不唯一的、不确定的、对一次确定的抽样来说,又是已知的。
因此和常用的总体参数相对应,有样本均值、方差、标准差;样本比例、样本比例的方差、标准差等。对于属性样本总体
(四)样本容量和样本个数1、样本容量是指一个样本所包含的单位数。其大小不但关系到抽样调查的效果,而且关系到抽样方法的应用。通常将样本单位数不少于30个的样本称为大样本,样本单位数不及30个的样本称为小样本。2、样本个数
样本个数又称为样本可能数目,它是指从一个总体中可能抽取多少个样本,样本个数的多少与抽取方法有关。(五)概率抽样和非概率抽样1、概率抽样
根据已知的概率选取样本2、非概率抽样
不是完全按随机原则选取样本非随机抽样:由调查人员自由选取被调查者判断抽样:通过某些条件过滤来选择被调查者(六)、抽样组织形式1、简单随机抽样:对总体不作任何处理,不进行任何分类,从总体的全部单位中随机抽取样本单位。简单抽样的抽样方法包括:(1)、重复抽样:重复抽样是指从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一轮样本单位的抽取。(2)、不重复抽样。不重复抽样亦称不重置抽样,即每次从总体中抽取一个单位,登记其标志值后不再返回原总体中,不参加下一轮抽样,下一个样本单位继续从总体余下的单位中抽取。2、类型抽样:先对总体各单位按照一定的标志分类,然后从每类中抽取。3、机械抽样:对研究的总体按一定的顺序排列,每隔一定的间隔抽取的一种方法。4、整群抽样:将总体划分为若干群,然后从总体中选取若干群,再选出其中的某些群,对中选的群的所有单位进行一一调查。5、多阶段抽样:抽样过程分成几个阶段完成。三、抽样框
抽样框是指包含全部抽样单位的名单框架。编制抽样框是实施抽样的基础,其编制好坏通常会直接影响到抽样调查的随机性和调查的效果。抽样框的主要形式有三种:1、名单抽样框,即列出全部总体单位的名录一览表,如职工名单,企业名单。2、区域抽样框,按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。3、时间表抽样框,将总体全部单位按时间顺序排列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。一、抽样分布的概念1、概念:抽样分布就是指样本统计量的概率分布。
每个随机变量都有其概率分布,样本指标即统计量是一种随机变量,它有若干可能取值(即可能的样本指标值),每一个可能的取值都有一定的可能性(即概率),从而形成它的概率分布,统计上称为抽样分布。第二节抽样误差2、抽样分布反映样本指标的分布特征,是抽样推断的重要依据,根据抽样分布的规律,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠性。
例如:样本的平均数就是一个统计量样本统计量是由n个随机变量(样本)构成的函数,故抽样分布属于随机变量函数的分布。对于抽样分布,同样可以计算其均值和方差(或标准差)等数字特征来反映该分布的中心和离散趋势。3、探求抽样分布的方法主要有精确方法和大样本方法和随机模拟法。(1)当总体的分布类型已知时,如果对任一自然数都能导出统计量=(x1,x2,……xn)的分布的明显表达式,这种方法称为精确方法,所得的分布成为精确分布。(2)在大多数情况下,精确分布不易求出。此时借助于极限定理,寻求在样本容量n无限增大时统计量的极限分布,实际中,当n比较大时,可用此极限分布作为抽样分布的一种近似。这种方法称为大样本方法。4几种常用分布在抽样推断中,许多场合下统计量服从正态分布或以正态分布为渐进分布,所以正态分布是最常用的。此外,分布,分布,
分布等精确抽样分布也起着重要的作用。二、抽样误差(一)概念在抽样调查中,误差是指调查所得结果与总体真实数值之间的差异。(二)误差的来源1、登记性误差在调查和汇总过程中由于观察、测量、登记、计算等方面的差异或被调查者提供虚假资料而造成的误差。2、代表性误差用样本指标推断总体指标时,由于样本结构与总体结构不一致,样本不能完全代表总体而产生的误差。代表性误差又分为系统误差和随机误差两种。
(1)系统误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差。(2)抽样误差(随机误差)又称为偶然性误差,是指遵循原则抽样,由于随机因素(偶然性因素)引起的代表性误差。在抽样调查中,登记性误差和系统性误差都可以尽量避免,而抽样误差则是不可避免的,但可以计算并加以控制。
(三)影响抽样误差的因素有:1、总体各单位标志值的差异程度;2、样本的单位数;3、抽样的方法4、抽样调查的组织形式。实际应用中,关于抽样误差,有三个密切联系而又相互区别的概念:实际抽样误差
抽样平均误差抽样极限误差(三)实际抽样误差它是指某一具体样本的样本估计值与总体参数的真实值之间的离差。在实际抽样调查中,由于总体差数是未知数,因此,每次抽样的实际抽样误差是无法计算的。(四)抽样平均误差概念:是所有可能组成的样本的样本指标总体指标的平均离差,即所有样本指标的标准差。抽样平均误差是反映抽样误差一般水平的指标,它的实质含义是指抽样平均数(或成数)的标准差。即它反映了抽样指标与总体指标的平均离差程度。是指样本本估计量的标准差。
可以衡量样本对总体的代表性大小。其计算公式是根据概率论和数理统计的有关理论来推导。抽样方差是样本估计量标准差的平方,即抽样平均误差的平方。抽样平均误差可以表示为:由此可见,抽样平均误差就是样本平均数或样本成数的标准差。在实际中,重复抽样的抽样平均误差为:不重复抽样的情况下,样本平均数或样本成数的标准差为:σ为总体标准差,n为样本单位数,N为总体单位数。在总体标准差未知,且样本单位数较大时,可以用样本标准差代替P为总体成数,在总体成数未知,且样本单位数较大时,可以用样本成数p来代替。
某灯泡厂对10000个产品进行使用寿命检验,随机抽取2%的样本进行测试,所得的资料如下:
使用时间(小时)抽样灯泡数(个)900以下2900—9504950—1000111000—1050711050—1100841100—1150181150—120071200以上3合计200
按照质量规定,灯泡使用寿命在1000小时以上为合格品。要求:(1)计算灯泡的平均使用时间、标准差和平均使用时间的平均误差;(2)计算灯泡的合格率和合格率的平均误差。(1)求灯泡平均使用时间、标准差和灯泡合格率(样本)(2)求灯泡使用时间抽样平均误差:在重复抽样下抽样平均误差在不重复抽样下抽样平均误差(3)求灯泡合格率的抽样平均误差:在重复抽样下抽样平均误差在不重复抽样下抽样平均误差(五)极限误差
是指一定概率下,样本估计量与总体参数之间抽样误差的可能范围。
由于总体参数是一个确定的数,而样本估计值则围绕着总体参数左右变动,它与总体参数可能产生正离差,也可能产生负离差,样本估计量变动的上限或下限与总体参数之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形成表示的抽样误差的可能范围称为抽样极限误差,也称作允许误差。设和分别表示样本平均数和样本比例的误差范围,则在一定概率下,有:三、抽样调查的理论基础(一)大数定律概率论、大数定律为抽样推断提供了数学依据。大数定律是阐明大量随机现象平均结果稳定性的一系列定理的总称。它说明如果被研究的总体是由许多大量的相互独立的随机因素所构成,而且每个因素对总体的影响都相对的小,对这些大量因素加以综合平均的结果,因素的个别影响将相互抵消,而呈现出共同作用的影响,使总体具有稳定的性质。1、贝努里大数定理2、切比雪夫大数定理
1、只有掌握足够多的单位数目,大量随机现象的稳定性和大量过程的傾向性才能显示出来。2、现象总体的规律性,通常以平均数的形式展现。3、当研究现象的总体包含的单位越多,平均数越能正确反映这些现象的规律性。4、各单位的共同倾向决定平均数的水平。各单位对平均数的离差则会由于综合汇总的结果而相互抵消,趋于消灭。n→N,x→X.
大数定律论证了抽样平均数趋于总体平均数的趋势,为抽样推断提供了重要的理论依据。(二)中心极限定理中心极限定理论证:如果总体变量存在的平均数和方差,不论这个总体分布如何,随着样本容量的增加(一般>30)抽样平均数的分布便趋向于正态分布。这就为抽样误差的概率估计理论提供了依据。第三节抽样估计的方法
总体参数估计就是以样本估计量来估计总体参数一、点估计点估计就是根据总体参数与样本统计量之间的内在联系,直接以样本统计量作为相应总体参数的估计量
点估计给出的只是总体指标的一个估计数值,既没有给出准确度,也没有给出可靠程度。因此,在实际工作中不单独使用。估计量优劣的标准1、无偏性是指样本估计量的均值应等于被估计总体参数的真值,即
P(X)XCA无偏有偏2、一致性也称相合性,是指随着样本容量的增大,估计量越来越接近被估计的总体参数AB较小的样本容量较大的样本容量
P(X)XAB
中位数的抽样分布均值的抽样分布XP(X)3、有效性是指作为优良的估计量,除了满足无偏性外,其方差应比较小。
二、区间估计(一)涵义:就是根据点估计值,联系一定的极限误差,设置一个区间,指出被估计的总体参数包括在这个区间的可能性有多大的一种估计方法。(二)要素
1.点估计值
2.抽样极限误差3.估计的置信度(可靠程度、概率保证程度)在1-α的概率保证程度下(α为显著性水平):补充:、正态分布(1)定义设连续性随机变量X的概率密度为则称X服从参数为、
(-∞<
<+∞,>0)的正态分布,记为X~N(
,
)(2)正态分布函数的性质①概率密度函数在x
的上方,即f(x)>0②正态曲线的最高点在均值
,它也是分布的中位数和众数③正态分布是一个分布族,每一特定正态分布通过均值
的标准差
来区分。
决定曲线的高度,
决定曲线的平缓程度,即宽度曲线f(x)相对于均值
对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交④正态曲线下的总面积等于1⑤随机变量的概率由曲线下的面积给出概率是曲线下的面积!abxf(x)(4)标准正态分布的重要性①一般的正态分布取决于均值
和标准差
②计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表②标准正态分布的概率密度函数(5)标准正态分布函数①任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布③标准正态分布的分布函数xms一般正态分布
=1Z标准正态分布
(6)标准正态分布表的使用①将一个一般的转换为标准正态分布计算概率时,查标准正态概率分布表②对于负的x,可由
(-x)
x
得到③对于标准正态分布,即X~N(0,1),有P(aXb)
b
a
P(|X|a)2
a1④对于一般正态分布,即X~N(
,),有(三)区间估计的步骤其步骤可概括为以下四步,即:
1、抽取样本
x1,x2,...xn
2、找一个抽样分布(只含一个待估计的未知参数)。
3、给定置信度1-α,确定置信区间。
4、代入观测值就可得到一个具体的置信区间。(四)平均数的区间估计1、总体方差已知;或总体方差未知,但为大样本(1)总体方差已知
由中心极限定理可推导出一定显著水平(或一定置信度)下的置信区间为:由(重置)和(不重置)可得到两种情况下,置信度为的置信区间。重复抽样时:不重复抽样时:(2)当总体方差未知但为大样本此时区间估计仍采用上述公式,只是将公式中的总体标准差换为样本标准差S。重复抽样时:不重复抽样时:2、总体方差未知且为小样本此时统计量服从自由度为n-1的t分布,置信度为的置信区间为重复抽样时:不重复抽样时:某电扇厂对其生产的2000台电扇进行使用寿命检查,随机抽取100台(不重复抽样)检验,平均使用寿命4.5万小时,方差为950000。
要求:以95.45%的可靠性估计这批电扇平均使用寿命的可能范围。(四)成数指标的区间估计成数实际上是特殊的平均数其分布规律与一般的平均数是相同的,其置信度为的置信区间为重复抽样时:不重复抽样时:从一批产品中随机抽取400件(允许重复)进行质量检查,发现不合格产品有32件。要求:以95%的可靠性估计该产品不合格率的区间(=1.96)。第四节、样本容量的确定一、必要样本容量的确定(一)必要样本容量它是指为了使抽样误差不超过给定的允许范围至少应抽取的单位数目。(二)影响样本容量的因素1、总体方差2、允许误差范围3、置信度4、抽样方法5、抽样组织方式在实际的抽样调查中,极限误差△、抽样平均误差、概率度z三者关系式:里极限误差△一般是给定的,概率度z由置信度确定,这一般也是给定的,而抽样平均误差可由此导出在前面二者给定下所要求的样本容量n二、样本容量的确定方法
(一)估计总体均值时样本容量的确定1、总体方差已知时重复抽样
不重复抽样
(二)估计成数时样本容量的确定重复抽样不重复抽样不重复抽样的样本容量和重复抽样的样本容量的关系为:解:已知
2=1800000,=0.05,Z/2=1.96,=500
应抽取的样本容量为【例】一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)。解:已知
=0.05,=0.05,Z
/2=1.96,当p未知时用最大方差0.25代替^应抽取的样本容量为例题:某灯泡厂对一批灯泡的平均使用寿命和合格品率进行检验,要求置信度为95%,前几批的经验数据资料有:平均使用寿命的标准差为200、250、300小时,合格品率为92%、93%、95%。要求:推断平均寿命的抽样误差不超过50小时,推断合格率的误差不超过5%,试问应至少抽多少只灯泡。
为了满足两者共同的需要,应抽取139只进行调查。
从某市400个小型零售商店中随机抽取10%进行调查,获得月均营业额资料如下:已知样本方差为71。
要求(1)在不重复抽样情况下以95.45%(=2)的可靠性估计平均每户的月营业额置信区间;(2)若在其它条件不变的情况下,使极限误差减少20%,则至少应抽多少户进行调查?月营业额(万元)商店户数(个)10以下10—2020—3030以上410206合计40解答:(1)根据题意:N=400户,n=40户,即:平均每户的月营业额置信区间为[22-2.52,22+2.52][19.48,24.52]
第五节抽样调查的组织形式一、简单随机抽样(一)概念:对总体不作任何处理,不进行任何分类,从总体的全部单位中随机抽取样本单位。适用于均匀总体,且总体单位数目不太多的情况。(二)方法
1.直接抽选法
2.抽签法3.随机数字表法(三)适用情况1.对调查对象的情况不够了解2.总体单位的排列没有秩序3.抽到的单位比较分散也不影响调查工作。(四)抽样平均误差的计算计算抽样平均误差时,同样也需要用到总体方差当它们未知时,其处理方法为:(1)利用以往的历史资料来估计;(2)通过小规模试验资料来估计;(3)通过样本方差去估计。(五)优缺点简便易行。总体N或σ很大时,不能保证样本的代表性。
(一)、定义
类型抽样也称分层抽样或分类抽样,它是按一定标志对总体各单位进行分类,然后分别从每一类中按随机原则抽取一定的单位构成样本。
二、类型抽样(二)、组织方法
设总体由N个单位组成按对总体的认识,把总体分为k组,使得:
N=N1+N2+……+Nk然后相应从各个组中分别按随机方式抽出,……,n个单位组成样本,一般采用比例抽样的方式,从每一类Ni中抽取,使得:
(三)特点样本结构趋近于总体结构,提高了样本的代表性。降低了影响抽样平均误差的总体方差。总体方差由组间方差和组内方差所构成。类型抽样对于各个类型组是全面调查,组间方差可以不考虑,影响抽样误差的总体方差主要是组内方差。(四)适用范围总体是由差异明显的几部分构成的。(五)分层抽样的具体形式:(1)等数分配抽样法(2)等比例分配抽样法(3)最优分配抽样法
提高类型抽样的效果,关键是分组。尽量缩小组内标志值的变异,增加组间标志值的变异。具体采用以取得最小的抽样平均误差为准(六)抽样平均误差的计算如果是等比例抽样,抽样平均误差可用下式计算:在重复抽样时在不重复抽样时其中:(一)、定义
等距抽样又称机械抽样或系统抽样,它是将总体各单位按某一标志进行排列,然后按固定的间距来抽取样本单位的抽样组织形式。该法组织简便,便于实施。(二)、组织方法
先对总体各单位按某一标志排队,根据需要抽取的样本单位数n和总体的单位数N,计算出等距抽样的间距大小:三、等距抽样
先从排序后顺序是1,2,……,k的第一部分随机抽出第i个单位,然后在顺序是k+1,k+2,……,2k的第二部分取出第k+i个单位,依此类推,最后从顺序是(n-1)k+1,(n-1)k+2,……,nk的第n部分抽取第(n-1)k+i个单位,一共n个单位构成样本。(三)、等距抽样排队的标志
(1)有关标志排队
(2)无关标志排队(四)、等距抽样的形式
(1)随机起点的等距抽样
起点随机抽取
(2)半距起点的等距抽样
各样本单位都选在各组的中点。应用广泛,令人满意。随机性不明显,有局限性。
(3)对称起点的等距抽样
在第一组随机抽取第一个样本,在第二组与第一组第一个样本对称的位置抽取第二个样本……依此类推。此法保留半距起点等距抽样的优点,又避免局限性。
(五)等距抽样的抽样平均误差如果是按无关标志排队的等距抽样,其抽样平均误差可按简单随机不重复抽样的公式近似计算;如果是按有关标志排序的等距抽样,抽样平均误差就可以按类型抽样的公式近似计算。(六)注意事项(1)间距k的确定,应避免与现象本身的节奏性或循环周期相重合。(2)总体排队标志,最好选与调查标志相关的标志。当按有关标志排队时能保证样本在总体单位中均匀分布。四、整群抽样(一)概念:是将总体各单位分成若干群,然后从其中随机抽取部分群,对其中选的群进行全面调查。也称为集团抽样,区域抽样,分群随机抽样。
“群”的划分原则:穷尽性、互斥性。
总体群数为R,样本的群数为r。(二)优缺点优点:方便,易于组织,比较节省调查费用缺点:调查单位过分集中于少数群,代表性较低。整群抽样对抽样误差的影响分两种情况:如果总体小,群间方差大,则样本代表性降低,抽样误差增加。如果总体群内方差大,群间方差小,则样本代表性提高,抽样误差减少。
为减少抽样平均误差,总体在分群时注意增大群内方差,降低群间方差。
(三)、抽样平均误差的计算样本平均数的抽样误差样本成数的抽样平均误差为:注意:1.直接抽取的不是总体单位而是“群”。总体和样本是“群”组成的。
2.影响抽样误差的是群间方差。
3.是不重置抽样。
某水泥厂一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学校节日庆祝协议
- 2025年合伙人员协议
- 2025年分期购买瑜伽美体协议
- 二零二五版电子商务平台合作代购协议3篇
- 2025年度木地板行业供应链金融合作合同4篇
- 四川南充2025年度城市公共设施建设项目合同
- 二零二五年度便利店加盟店加盟商退出机制合同范本3篇
- 2025年度简易房屋拆除工程安全生产责任协议
- 2025个人教育储蓄投资贷款合同标准范本3篇
- 2025年度购房意向协议及智能家居家居能源管理系统合同
- 2024-2025学年人教版数学六年级上册 期末综合试卷(含答案)
- 收养能力评分表
- 山东省桓台第一中学2024-2025学年高一上学期期中考试物理试卷(拓展部)(无答案)
- 中华人民共和国保守国家秘密法实施条例培训课件
- 管道坡口技术培训
- 2024年全国统一高考英语试卷(新课标Ⅰ卷)含答案
- 2024年认证行业法律法规及认证基础知识 CCAA年度确认 试题与答案
- 皮肤储存新技术及临床应用
- 外研版七年级英语上册《阅读理解》专项练习题(含答案)
- 2024年辽宁石化职业技术学院单招职业适应性测试题库必考题
- 上海市复旦大学附中2024届高考冲刺模拟数学试题含解析
评论
0/150
提交评论