




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学远程教育统计学第三十三讲主讲教师:黄晓红1东南大学远程教育统计学第三十三讲主讲教师:第七章抽样调查
第一节抽样调查概述
第二节抽样调查的一般原理
第三节抽样估计
第四节抽样的组织形式2第七章抽样调查
(一)抽样推断的含义
抽样调查是按随机原则,从全部研究对象中抽取一部分单位进行观察,并根据样本的实际数据,对总体的数量特征做出具有一定可靠程度的估计和判断,从而达到对全部研究对象的认识的一种统计方法。其中心问题是如何根据已知的部分资料来推断未知的总体情况。第一节抽样调查概述一、抽样调查的含义3
(一)抽样推断的含义
抽样调查是按随(二)抽样推断的特点1.抽样推断是非全面调查2.抽样推断是按随机原则抽选调查单位。3.抽样推断是用样本的指标数值去推算总体的指标数值。
4.抽样推断中产生的抽样误差,可以事先计算并加以控制。
4(二)抽样推断的特点1.抽样推断是非全面调查2.抽样推断是按二、抽样调查的主要内容(一)随机抽样:按照随机原则从总体中抽
取部分单位构成样本的过程。
(二)统计估计:根据随机抽取的部分单位的特性来对总体的分布函数、分布参数或数字特征等进行推测估算的过程。(三)假设检验:根据经验或认识,提出某一假设,并判断该假设正确性的过程。5二、抽样调查的主要内容(一)随机抽样:按照随机原则从总体中抽三、抽样推断的作用(一)解决了无法进行全面调查或很难进行全面调查的问题(二)可以补充或修正全面调查的数据
(三)可以节省调查费用和调查时间6三、抽样推断的作用(一)解决了无法进行全面调查或很难进行(二
四、抽样推断涉及的基本概念(一)总体和样本1.全及总体(总体、母体)它是指调查对象的全部单位,是由具有某种共同性质的许多单位组成的。总体既是我们所要研究的对象,又是样本所赖以抽取的母体。组成总体的单位称为总体单位,总体的单位数通常用N表示。7
四、抽样推断涉及的基本概念(一)总体和样本1.全及总2.抽样总体(样本、字样)是指在总体中按随机原则抽取的那一部分单位所构成的集合体。组成样本的单位称为样本单位,样本单位数亦称样本容量,通常用n表示。样本单位数总是大于1而小于总体单位数N的,即1<n<N。82.抽样总体(样本、字样)是指在总体中按随机样本单位数n相对于总体的单位数N要小得多。
统计把n/N称为抽样比例。样本单位数达到或超过
30个(n≥30)称为大样本,而在30个以下(n<30)称为
小样本。社会经济现象的抽样调查多取大样本,而自然实验观察则多取小样本。以很小的样本来推断很大的总体,这是抽样推断法的重要特点。9样本单位数n相对于总体的单位数N要小得多。(二)总体指标和抽样指标1.总体指标总体指标是指根据总体各单位的标志值计算出来的,反映总体某种属性或特征的综合指标,亦称为总体参数。由于总体是惟一确定的,因此,根据总体计算的总体指标也是惟一确定的。常用的总体指标有:总体平均数、总体成数、总体标
准差和总体方差。10(二)总体指标和抽样指标1.总体指标总体指标是指根据总体各单
(1)总体平均数代表总体单位数量标志一般水平的指标,它表明变量
变动的集中趋势,通常用表示。其中:
X1,X2,…Xn为总体中每一个调查单位的取值
N是总体单位数
∑是总和符号11
(1)总体平均数代表总体单位数量标志一般水平的指标(2)总体成数当总体的一个现象有两种表现时,其中具有某一种表现的单位数占总体单位数目的比重,叫总体成数,用P或Q表示。其计算公式为:N代表总体单位数;
N1代表具有某一种表现的总体单位数;
No代表具有另一种表现的总体单位数;
P、Q代表成数。12(2)总体成数当总体的一个现象有两种表现时,其中具有某1313〔例1〕某公司生产的10000件产品中,有500件
为不合格品。则
产品不合格率
P=/N=500/10000=5.0%
产品合格率
Q=1—P=1-5.0%=95%14〔例1〕某公司生产的10000件产品中,有500件
为不(3)总体标准差和总体方差。
表示单位之间标志值的变异程度指标,叫做总
体标准差,又称总体均方差(标准差)。总体标准差的平方称为总体方差。其计算公式为:15(3)总体标准差和总体方差。
表示单位之间标2.抽样指标
抽样指标是指根据抽样总体各单位标志值计算的综合指标,又称样本指标。常用的抽样指标有:抽样平均数、抽样成数、抽样总体标准差和抽样总体方差。162.抽样指标
抽样指标是指根据抽样总体各单位标志值计算的综合(1)抽样平均数。
代表样本单位数量标志一般水平的指标称抽样平
均数或样本平均数。17(1)抽样平均数。
代表样本单位数量标志一般水平的指标称抽样(2)抽样成数。
在抽样总体中,一个现象有两种表现时,其中具有
某一种表现的单位数占抽样总体单位数的比重,叫
做抽样成数,亦称样本成数。用p或q表示。其计算
公式为:18(2)抽样成数。
在抽样总体中,一个现象有两种表现时,其中具同总体成数19同总体成数19[例5.2)从某公司生产的产品中,抽样检查了
100件产品,其中有5件不合格,则:
样本产品不合格率:
样本产品合格率
20[例5.2)从某公司生产的产品中,抽样检查了
100件产(3)抽样总体标准差和抽样总体方差。
说明抽样总体之间标志值变异程度的指标,叫做抽样
总体标准差。抽样总体标准差的平方称为抽样总体方
差(简称样本方差)。其计算公式为:21(3)抽样总体标准差和抽样总体方差。
说明抽样总体之间标志值一个总体可以抽取许多个样本,而样本不同,
抽样指标的数值也各不相同。可见,抽样指标的数
值不是惟一确定的。因为抽样指标是样本变量的函数,是随机可变的变量。也就是说,由样本观测值所决定的统计量是随机变量。22一个总体可以抽取许多个样本,而样本不同,
(三)重复抽样和不重复抽样1.重复抽样(重置抽样)采用这种方法抽取样本单位的特点是:同一单位有多次重复被抽中的机会,并且总体单位数目始终不变,每个单位抽中或抽不中的机会在各次都是相同的。23
(三)重复抽样和不重复抽样1.重复抽样(重置抽样
2.不重复抽样(不重置抽样)采用这种方法抽取样本单位的特点是:同一单位只有一次被抽中的机会,并且总体单位数目随着样本单位数目抽取的次数的增多而愈变愈少。每个单位抽中或抽不中的机会在各次是不同的。24
2.不重复抽样(不重置抽样)采用这种方法抽取样本单位的特点
抽样推断是通过样本对总体进行推算。其中,统计量与被估算的总体指标之间的关系,是推算的关键。两者的关系主要通过统计量的分布来反映,且因样本量的大小而有差别。第二节抽样推断的一般原理一、抽样推断的理论依据
25
抽样推断是通过样本对总体进行推算。其中,统(一)大样本统计量的推断依据——大数定律
在重复试验中,事件频率的稳定性是大量随机
现象的统计规律性的典型表现。人们根据频率的稳定性预见到概率的存在和概率的性质,同样,在长期的统计实践中,人们也找到了大量随机现象的平均结果也具有稳定性的理论依据,即大数定律。26(一)大样本统计量的推断依据——大数定律
在重复试验大数定律在统计中是指一切关于大量随机现象的平
均结果稳定性的定理,它为那些均值存在稳定性及
整个统计推断提供了最基本的理论依据。大数定律的本质意义在于,尽管单个随机现象的具体表现不可避免地引起随机偏差,然而在大量随机现象共同作用时,由于这些随机偏差互相抵消、补偿和拉平,致使总的平均结果趋于稳定。27大数定律在统计中是指一切关于大量随机现象的平
均结果稳定性的比雪夫大数定理:设x1,x2,x3…,xn为独立的随机
变量序列,服从同一分布,且具有相同的期望值
以及方差,则对于任意正数有28比雪夫大数定理:设x1,x2,x3…,xn为独立的随机
变量(二)大样本统计量分布的依据一中心极限定理
中心极限定理是指在一定的条件下,大量相互
独立的随机现象的概率分布是以正态分布为极限。因正态分布在概率论中占有中心地位,所以把该定理叫做中心极限定理。29(二)大样本统计量分布的依据一中心极限定理
中心(二)大样本统计量分布的依据一中心极限定理在社会经济现象中,有些随即变量表现为大量独立随即变量之和:例如:任一指定时刻城市用电量是大量用户用电量的总和;一个零件的实际尺寸与标准尺寸的偏差是原材料、设备、操作技术、经营管理水平多种因素综合影响的结果。30(二)大样本统计量分布的依据一中心极限定理在社
(二)大样本统计量分布的依据一中心极限定理中心极限定理的研究目标:随即变量之和在什么条件下渐近地服从正态分布。李亚普诺夫定理:在一定条件下,随即变量之和的极限分布近似地服从正态分布:31
(二)大样本统计量分布的依据一中心极限定理(二)大样本统计量分布的依据一中心极限定理样本平均数也是一种随即变量之和的分布,根据中心极限定理,只要在样本容量n充分大的情况下,不论全及总体的变量分量分布是否属于正态分布,其抽样平均数也趋近于正态分布。许多属于二项分布的离散型现象,当样本容量n很大时,利用正态分布作为二项分布的极限式,可以解决某一点或某一区间的概率时所遇到的困难综上述,在抽样推断或估计中,正态分布得到广泛运用32(二)大样本统计量分布的依据一中心极限定理样大数定律只揭示了大量随机变量的平均结果,
但并没有涉及到随机变量的分布规律,而中心极限
定理则说明了许多随机变量的分布是正态或近似正态的。这就可以简化统计推断中许多统计量的分布问题,所以它是统计学中的重要工具之一。33大数定律只揭示了大量随机变量的平均结果
二、抽样推断的原理抽样估计就是以样本的实际资料为依据,计
算一定的样本指标,并以此对总体做出数量上的估计和判断。其原理是:
(一)抽样推断运用的是归纳推理方法抽样推断的方法是归纳法,而归纳法推断结论的正确性必须过事实的验证。34
二、抽样推断的原理抽样估计就是以样本的(二)抽样推断运用的是概率原理
抽样推断的结论,其可靠性究竟是多少,需要
运用概率的原理加以说明。(三)抽样推断的结论存在着一定的抽样误差抽样误差是抽样调查所特有的,而且是不可避免的。35(二)抽样推断运用的是概率原理
抽样推断的结论抽样推断结论的可靠程度和抽样误差的大小是联
系在一起的。在其他条件不变的情况下,允许的
误差范围愈大,则概率的保证程度也愈大;反之,
如果精确度的要求愈高,允许的误差范围愈小,则概率的保证程度也愈小。抽样误差范围可以事先通过—定资料加以计算,并能采取一定的组织措施来控制这个误差范围,保证抽样推断的结果达到一定的可靠程度。36抽样推断结论的可靠程度和抽样误差的大小是联
系在一起的。在其
三、抽样推断的优良标准(一)无偏性用抽样指标推断总体指标要求抽样指标的平均数等于被估计的总体指标。就是说,虽然每个可能样本的抽样指标不一定等于未知的总体指标,但在多次反复估计中,要求各个抽样指标的平均数应该等于总体指标,亦即从平均来说,抽样指标的估计是没有偏误的,叫做无偏性。37
三、抽样推断的优良标准(一)无偏性用抽样指例如,样本平均数总是总体平均数X的无偏估计量,亦即样本平均数的平均数等于总体平均数。因为38例如,样本平均数总是总体平均数X的无偏估计量,亦即样本平均数(二)一致性
用抽样指标推断总体指标要求其样本的单位数充分
大时,抽样指标也充分地靠近总体指标。也可以说该抽样指标对总体指标是一个一致估计量。
39(二)一致性
用抽样指标推断总体指标要求其样本的单位数充分
证明:设为任意正数,根据大数定律有:抽样平均数的期望值等于总体平均数,即40
证明:设为任意正数,根据大数定律有:抽样平均数的(三)有效性
用抽样指标推断总体指标时,要求作为优良估
计量的方差应比其他估计量的方差小。即用抽样
平均数和总体某一变量来估计总体平均数,虽然两者都是无偏的估计量,而且在每一次估计中两种估计量和总体平均数都可能有离差,但样本平均数更靠近在总体平均数的周围,平均说来它的离差比较小,所以对比来说,抽样平均数是更为优良的估计值
41(三)有效性
用抽样指标推断总体指标时,要求作为优良估东南大学远程教育统计学第三十四讲主讲教师:黄晓红42东南大学远程教育统计学第三十四讲主讲教师:第三节抽样估计一、抽样误差的概念1.误差是由样本得到的估计值与被估计的总体未知真实特征值之差,或样本指标数值与总体指标数值之间的差数。2.抽样误差就是指按随机原则抽样时,单纯由不同的随机样本得出不同的估计量而产生的误差。43第三节抽样估计一、抽样误差的概念43由于总体平均数和成数是惟一确定的,抽样平均数和成数则是随机变量,因而抽样误差也不是惟一确定的,而是随机变量。抽样误差愈小,表示样本的代表性愈高;反之,样本的代表性就愈低。同样,抽样误差还说明样本指标与总体指标的相差范围,因此,它也是推算总体的依据。44由于总体平均数和成数是惟一确定的,抽样平均444.抽样误差是抽样调查自身所固有的不可避免的误差,虽然不能消除这种误差,但可以用数理统计方法进行计算确定其数量界限并加以控制,也就是根据研究的需要,把它控制在所允许的范围以内。454.抽样误差是抽样调查自身所固有的不可避免的误45二、抽样平均误差
(一)抽样平均误差的含义
抽样平均误差是指一个抽样方案的所有可能样本的
某统计量与总体相应指标的离差的平均值。纯随机抽样平均误差的定义关系式如下:46二、抽样平均误差
(一)抽样平均误差的含义
上式表明了抽样平均误差的含义,并不能作为计算公式。因为:1.在现实的抽样中,我们只能取得一个样本,不可能也没必要获得全部所有可能样本,所以抽样平均误差也不可能通过所有样本来直接计算。2.统计量的分布律中我们已经知道:统计量是以总体相应指标为期望值,抽样平均误差实质上就是该统计量在其概率分布中的标准差。47上式表明了抽样平均误差的含义,并不能作为47(二)抽样平均误差的计算1.抽样平均数的平均误差(1)在重复抽样的条件下总体方差已知,样本平均数服从正态分布,其抽样平均数的平均误差计算公式为:48(二)抽样平均误差的计算48由上式可以看出,抽样平均数的平均误差就是抽样平均数的标准差。抽样平均误差和总体标准差是成正比的,与样本单位数的平方根成反比。因此,要想减少抽样平均误差以提高抽样指标的代表性,只能增大样本单位数n,因为总体标准差是不能改变的。49由上式可以看出,抽样平均数的平均误差就是抽样平49(2)在不重复抽样的条件下,抽样平均数的平均误差计算公式为:
当总体单位数N很大时,公式中的N—1可以用N代替。50(2)在不重复抽样的条件下,抽样平均数的平当总体单位数N很大在实际计算时,不重复抽样的抽样平均数的平均误
差可用下式计算:51在实际计算时,不重复抽样的抽样平均数的平均误
差可用下式计算
2.成数的平均误差统计成数(比重)是一种结构相对数,它实际属于是非标志平均数的特例。统计上习惯以1表示“是”,以0表示“非”。p为1的概率,q=1—p为0的概率。成数的方差是P(1-P),其特点为,最大值为0.25(0.5×0.5),即当两种表现的总体单位各占一半时,它的变异程度最大。522.成数的平均误差统计成数(比重)是一种在重复抽样条件下,其计算公式为:在不重复抽样条件下,其计算公式为:53在重复抽样条件下,其计算公式为:在不重复抽样条件下,其计算公当N很大时,以N代替N—1,则可简化为:在没有总体方差或总体标准差时,可以用样本方差代替总体标准差54当N很大时,以N代替N—1,则可简化为:在没有总体方差或总体[例3〕某公司生产一批灯泡,共1000只,从中随机抽取100只,测其寿命平均为1000小时,样本标准差为60小时,计算其抽样误差。
按重复抽样计算:55[例3〕某公司生产一批灯泡,共1000只,从中随机抽取100按不重复抽样计算:56按不重复抽样计算:56〔例5.4〕某公司有员工10000人,从中随机抽选1000人调查电脑的拥有率,发现50家有,问这一调查的抽样误差为多少?解:p=50/1000=0.05按重复抽样计算:57〔例5.4〕某公司有员工10000人,从中随机抽选100按不重复抽样计算:
58按不重复抽样计算:
58东南大学远程教育统计学第三十五讲主讲教师:黄晓红59东南大学远程教育统计学第三十五讲主讲教师:(三)极限误差(允许误差)
极限误差是指抽样推断中依一定的概率保证
下的误差的最大范围。极限误差也叫置信区间,即用一定的概率来保证抽样误差不超过某一给定的最大可能范围。记作60(三)极限误差(允许误差)
极限误差是指1.抽样平均数的极限误差:611.抽样平均数的极限误差:611.抽样成数的极限误差:621.抽样成数的极限误差:626363(四)抽样估计的可靠程度
抽样极限误差通常是以抽样平均误差为标准
单位来衡量的,即:T称为概率度,表示相对误差范围。64(四)抽样估计的可靠程度
抽样极限误差通常抽样极限误差也可以表示为抽样平均误差的
若干倍,其倍数即概率度t:65抽样极限误差也可以表示为抽样平均误差的
若干倍同理:66同理:66上述两式的实际意义:抽样极限误差即抽样误差范围可以用t倍的抽样平均误差来表示,在抽样平均误差为一定的条件下,当概率度t的值越大,则抽样误差范围越大,估计抽样平均数或成数落在误差范围内的概率越大。
67上述两式的实际意义:67也可以说:在抽样平均误差为一定的条件下,当概率度t的值越大,则抽样误差范围越大,估计全及平均数或成数包含在相应的区间范围内的概率越大,从而抽样估计的可信程度也就越高。反之反是。
68也可以说:68如果把可靠程度即概率用p表示,概率值t的大小决定p的大小,即p是t的函数:为了方便计算,在实际工作中,按不同的t值和相应的概率编成正态分布概率表供查用。例如;69如果把可靠程度即概率用p表示,概率值t的t11.281.51.641.9622.5830.68270.80000.86640.90000.95000.95450.99000.9973概率度和概率的函数关系式70t10.6827概率度和概率的函数关系式70〔例〕某农场种植小麦5000亩,收获前夕随机抽取
25亩进行实割实测,测得平均亩产500千克,标准差为
50千克,试求全部5000亩小麦的平均亩产在480千克至
520千克之间的概率。
71〔例〕某农场种植小麦5000亩,收获前夕随机抽取
25亩进行三、影响抽样误差的因素
(一)抽样单位数目的多少
(二)总体被研究的标志的变异程度
(三)抽样方法和组织形式的不同
72三、影响抽样误差的因素
(一)抽样单位数目的多少
四、抽样估计(一)抽样估计的现实意义
社会经济统计的认识对象是现象总体的数量方面,理应搜集现象总体的全面资料,再依据统计目的研究其总体的数量特征,以获得总体本质及其规律性的认识。但在实际工作中,由于受客观条件或环境的限制,往往不可能或没必要搜集总体的全面资料,只可能或只需要利用样本资料估计总体的数量特征或推算总体的总量指标,这就是抽样估计。73四、抽样估计(一)抽样估计的现实意义73(二)抽样估计的方法、
点估计和区间估计
点估计也叫定值估计,它是以抽样得到的样本指标作为总体指标的估计值,同时给出极限误差和相应的可靠程度的一种估计方法。在实践中,对总体的特征值(如平均数、成数等)估计,主要借助于点估计,具体表示点估计是用样本数据计算出估计值,同时给出估计精度和相应的可靠程度。74(二)抽样估计的方法、74区间估计是根据一定的精确度和可靠程度的要求,用样本指标和抽样误差去推断总体指标的可能范围的一种估计方法。由于点估计量与总体的未知参数并不完全相等,故它们之间必然存在着一定的误差,并且不能确知误差的大小、估计精度的高低以及估计的可信程度等信息。为此区间估计将考虑这些因素,即根据样本统计量及估计的可能误差,找出在一定保证程度下的估计区间,即置信区间。75区间估计是根据一定的精确度和可靠程度的要求,75对总体平均数(或总体成数)的估计有两种情形:(一)根据已经给定的极限抽样误差范围,求概率保证程度F(t),进而进行点估计和区间估计。1.抽取样本,计算样本平均数(或样本成数),作为总体平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差。76对总体平均数(或总体成数)的估计有两种情形:1.抽取样本,计2.根据给定的抽样极限误差范围,估计总体平均数
(或总体成数)的下限(或)和上限(或)。
3.将抽样极限误差除以抽样平均误差,求出概率度
t值,再根t值查概率表求出相应的可信度F(t)。
4.进行区间估计和点估计。
772.根据给定的抽样极限误差范围,估计总体平均数
(或总体成数[例5.5)某糖厂有一台自动包糖机,包装重量为50
kg。现对包装的白糖重量进行检验,每生产10袋抽取
1袋。某日糖厂共包装300袋,抽取的30袋资料如下,若根据质量要求,每袋糖的极限误差不大于120g,试估计该机器的包装精度。78[例5.5)某糖厂有一台自动包糖机,包装重量为50
kg重量(kg)x袋数f49.449.649.850.050.250.450.650.813575441合计3079重量(kg)x袋数f49.41合计3079(1)计算样本平均数和标准差,并推算平均误差:
80(1)计算样本平均数和标准差,并推算平均误差:
80(2)根据给定的极限误差△=0.12kg,计算总体
平均数的上限和下限:81(2)根据给定的极限误差△=0.12kg,计算总体
平均数的(3)82(3)82(4)点估计:该包装机平均包装重量为
50.1kg,误差不大于120g的可靠程度为95.45%
区间估计:在95.45%的可靠程度下,估计该包装机包装的平均重量在49.98-50.22kg之间。83(4)点估计:该包装机平均包装重量为
5[例5.7〕某公司设计一种新式产品,为了预测销
路,随机抽取了900人进行了调查,结果有720人
表示可以购买。如果要求极限误差不超过3.5%,
试估计该产品可以销售的比率。
(1)根据样本资料,计算样本成数及平均误差:84[例5.7〕某公司设计一种新式产品,为了预测销
路,随机(2)根据给定的极限误差3.5%,计算:85(2)根据给定的极限误差3.5%,计算:85(4)点估计:估计该产品的销售率为80%,
其误差不大于3.5%的可靠程度为99%。
区间估计:在99%的保证程度下,估计该产品销售率在76.5-83.5%之间。86(4)点估计:估计该产品的销售率为80%,
其东南大学远程教育统计学第三十六讲主讲教师:黄晓红87东南大学远程教育统计学第三十六讲主讲教师:(二)根据给定的可信度F(t),求出极限抽样误差,
进而进行点估计和区间估计。具体步骤是:
1.抽取样本,计算样本平均数(或样本成数)作为总体
平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差。88(二)根据给定的可信度F(t),求出极限抽样误差,
进而进行4.进行点估计和区间估计。2.根据给定的可信度F(t)的要求,查概率表求得概
率度t值。
3.根据概率度和抽样平均误差计算抽样极限误差的可能范围,并据以计算被估计的总体平均数(或总体成数)的上、下限。
894.进行点估计和区间估计。2.根据给定的可信度F(t)的要求[例5.8]从全校近万名学生中,随机抽取100名学生
的平均身高为160cm,根据计算,学生身高的标准
差为3cm。现要求可信度要达到95.45%,试对全
体学生的平均身高进行估计。90[例5.8]从全校近万名学生中,随机抽取100名学生
的(2)根据给定的可信度F(t):95.45%,查概率表t=2
(3)计算极限误差和平均身高的上下限:
上限=160+0.6=160.6cm
下限=160-0.6=159.4cm91(2)根据给定的可信度F(t):95.45%,查概率表t=2(4)点估计:该校学生平均身高为160cm其误差
不大于0.6cm的可靠性为95.45%。
区间估计:在95.45%的保证程度下,该校学生的平均身高为159.4—160.6cm之间。92(4)点估计:该校学生平均身高为160cm其误差第四节抽样的组织形式
一、抽样的组织方式
抽样组织方式按抽样时对总体的加工整理形式不同,分为简单随机抽样、类型抽样、等距抽样和整群抽样。93第四节抽样的组织形式
一、抽样的组织方式
(一)简单随机抽样1.简单随机抽样的含义简单随机抽样又称为纯随机抽样,它是不对总体做任何加工整理,直接从总体中抽取调查单位的抽样方式。必须满足下列两条要求:①代表性,即要求样本分布与总体分布相同;②独立性,即要求样本各个单位相互独立。94(一)简单随机抽样1.简单随机抽样的含义942.简单随机的抽样方法(1)抽签法。适合用于总体单位数较少的总体。
(2)随机数表法。适合用于大规模的社会经济调查。
(3)简单随机抽样的平均误差952.简单随机的抽样方法(1)抽签法。适合用于总体单位(二)类型抽样1.类型抽样的含义
类型抽样又称为分层抽样或分类抽样,它是将总体单位先按一定标志分组,然后在各组中随机抽取样本的抽样组织方式。类型抽样是应用于总体内各单位在被研究标志上有明显差别的抽样。主要原则是:分组时应使组内差异尽可能小,使组间差异尽可能大。96(二)类型抽样1.类型抽样的含义962.类型抽样的方法(1)等比例抽样:按同样的抽样比n/N,确定各组中应抽的样本单位数,如各组单位数为N,,则从中抽取的样本单位为N1(其n/N相等),各组样本单位数确定后,按随机原则从各组中抽取各类单位组成样本。(2)不等比例抽样多指某类单位在总体中占的比重过小时,对其按比例抽不到或只能抽到很少数量,为了保证样本中各类单位的代表性而采取不等比例抽样的方法。972.类型抽样的方法(1)等比例抽样:按同样的抽样比n/N,(三)等距抽样1.等距抽样的概念等距抽样又称为机械抽样或系统抽样。它是先将总体各单位按有关标志或无关标志进行排列,再按照固定的顺序和间隔来抽选样本单位的一种抽样组织形式。等距抽样是不重复抽样,通常可以保证被抽取的单位在总体中均匀分布,缩小各单位之间的差异程度,提高样本的代表性。98(三)等距抽样1.等距抽样的概念982.抽样方法(1)无关标志排队法:就是指总体单位采用与调查项目没有关系的标志进行排队的方法。
(2)有关标志排队法:就是总体单位采用与调查项目有关的标志进行排队的方法。992.抽样方法(1)无关标志排队法:就是指总体单位采用与调查(四)整群抽样1.整群抽样的含义
是先将总体各单位划分成若干群,再以群为单位从中随机地抽取出若干群来,对被抽中群的所有单位进行调查的一种抽样组织形式。由于抽样单位比较集中,限制了样本单位在总体分配中的均匀性,所以有时代表性较低,抽样误差较大。一般采用整群抽样通常都要增加一些样本单位,以缩小抽样误差,提高估计的准确性。100(四)整群抽样1.整群抽样的含义
是先将2.抽样方法首先对所要研究的总体根据需要划分出群的单位;其次把各群按时间顺序或空间顺序排列编号;最后可按筒单随机抽样或等距抽样的方法抽取样本群。1012.抽样方法首先对所要研究的总体根据需要划分出群的单位;1(五)阶段抽样抽样调查中,如果抽出的样本单位直接就是总体单位叫做单阶段抽样,如简单随机抽样,类型抽样。如果先将总体进行分组,从中随机抽出一些组,然后再从中选的组中随机抽取总体单位,叫两阶段抽样。如果将整体进行多层次分组,然后依次在各层次中随机抽取,直到抽取到总体单位,称为多阶段抽样。102(五)阶段抽样抽样调查中,如果抽出的样本单位直接就是总体单多阶段抽样的优点是:1.便于组织抽样。它可以直接按现行的行政区划或地理区域划分阶段的抽样单元,从而简化抽样框的编制。2.可以获得各阶段单元的调查资料,根据最初级资料进行逐级抽样推断,得到各级的调查资料。3.多阶段抽样的方式比较灵活,各阶段抽样的组织方式应以前述四种方式为依据进行选择。103多阶段抽样的优点是:1.便于组织抽样。它可以直接按现行的行政二、样本容量的确定(一)确定抽样样本容量的必要性样本容量就是抽样的数目。根据大数定律,在抽样调查中样本容量越多,样本对总体的代表性越大,抽样误差越小;样本容量减少,抽样误差就要增大。但同时,抽样数目越多,抽样调查的费用也越高,而且还会影响到调查的时效性。因此,确定样本容量时,应在保证满足抽样调查对数据的估计精确度和概率把握程度(置信度)下,尽量缩小抽样数目,即确定必要抽样数目。104二、样本容量的确定(一)确定抽样样本容量的必要性104(二)影响样本容量的因素1.总体被研究标志的变异程度总体被研究标志的变异程度大,则应抽取较多的样本单位;总体被研究标志的变异程度小,则可抽取较少的样本单位。105(二)影响样本容量的因素1.总体被研究标志的变异程度1053.抽样推断的可靠程度
抽样推断要求的可靠程度越高,则应抽取的样本单位越多;要求的可靠程度越低,则应抽取的样本单位越少。2.允许的误差范围
即要求的估计精度。如果允许的误差范围小,即要求的精确度高,应抽取较多的样本单位;反之应抽取较少的样本单位。
1063.抽样推断的可靠程度
抽样推断要求的可靠程度越高,则应(三)必要抽样数目的计算在简单随机抽样中,必要抽样数目的计算公式有:1.重复抽样条件下(1)平均数的必要抽样数目公式:107(三)必要抽样数目的计算在简单随机抽样中,必要抽样数目的计算(2)成数的必要抽样数目公式108(2)成数的必要抽样数目公式108〔例5.9〕对某型号电子元件10000只进行耐用性能调查。根据以往抽样测定,求得耐用时数的标准为600小时。试在重复抽样条件下:①概率保证程度为68.27%,元件平均耐用时数的误差范围不超过150小时,要抽取多少元件做检查?109〔例5.9〕对某型号电子元件10000只进行耐用性能10(2)根据以往抽样检查知道,元件合格率为95%,合
格率的标准差为21.8%,要求在99.73%的概率保证
下,允许误差不超过4%,试确定重复抽样所需抽取
的元件数目是多少?110(2)根据以往抽样检查知道,元件合格率为95%,合
格率的标2.在不重复抽样条件下(1)平均数的必要抽样数目公式:1112.在不重复抽样条件下(1)平均数的必要抽样数目公式:111(2)成数的必要抽样数目公式:112(2)成数的必要抽样数目公式:112东南大学远程教育统计学第三十七讲主讲教师:黄晓红113东南大学远程教育统计学第三十七讲主讲教师:抽样推断习题课114抽样推断习题课114(一)判断题3.扩大抽样误差的范围,可以提高推断的把握程度;缩小抽样误差的范围,则会降低推断的把握程度。()1.抽样调查的着眼点就在于对样本数量特征的认识。()2.极限抽样误差总是大于抽样平均误差。()115(一)判断题3.扩大抽样误差的范围,可以提高推断的把握程东南大学远程教育统计学第三十八讲主讲教师:黄晓红116东南大学远程教育统计学第三十八讲主讲教师:
4.总体指标是随机变量,样本指标也是随机变量,
因此两者之间会产生误差。()5.缩小抽样误差范围,则抽样调查的精确度就会提高。()
6.根据样本总体各单位的标志值或标志特征计算的综合指标称为样本指标。()
7.纯随机抽样就是遵循随意性原则抽选样本。()117
4.总体指标是随机变量,样本指标也是随机变量,
因此两者之由于抽样调查中既有登记误差又有抽样误差,所以只有登记误差的全面调查准确性高。()8.不同的抽样组织方式下,计算抽样平均误差应该采取不同的公式。()10运用区间估计的方法,可以根据样本估计值x和p,精确地推断出总体参数x和p所在的范围。()118由于抽样调查中既有登记误差又有抽样误差,所以只有登记误差的全12.重复抽样的抽样误差一定大于不重复抽样的抽样误差。()11.抽样误差在抽样推断中是不可避免的。()
11912.重复抽样的抽样误差一定大于不重复抽样的抽样误差。((二)单项选择题1.在抽样推断中,抽取样本必须遵循()①随意原则②随机原则③可比原则④对等原则2.能够事先加以计算和控制的误差是()①抽样误差②登记误差③系统性误差④测量误差3.极限误差与抽样平均误差数值之间的关系为()①前者一定小于后者②前者一定大于后者③前者一定等于后者④前者既可以大于后者,也可以小于后者120(二)单项选择题1.在抽样推断中,抽取样本必须遵循(
5.某企业连续性生产,为检查产品质量,在24小时中每隔30分钟取下一分钟的产品进行全部检查,这是()①整群抽样②简单随机抽样③类型抽样④纯随机抽样4.抽样调查的主要目的在于()①计算和控制抽样误差②了解全及总体单位的情况③用样本来推断总体④对调查单位作深入的研究121
6.在抽样调查中()
①既有登记误差,也有代表性误差
②既无登记误差,也无代表性误差
③只有登记误差,没有代表性误差
④没有登记误差,只有代表性误差
7.在抽样调查中,避免的误差是()①登记误差②系统性误差③计算误差④抽样误差8.置信区间的大小表达了区间估计的()①可靠性②准确性③显著性④及时性1226.在抽样调查中()
①既有登记误差,也有代表9.抽样推断中的概率保证程度表达了区间估计的()①显著性②准确性③可靠性④规律性10.抽样平均误差反映了样本指标与总体指标之间的()①可能误差范围②平均误差程度③实际误差④实际误差的绝对值1239.抽样推断中的概率保证程度表达了区间估计12311.样本指标和总体指标()
①前者是个确定值,后者是个随机变量
②前者是个随机变量,后者是个确定值
③两者均是确定值
④两者均是随机变量
12.对标志变异程度较大的总体进行抽样调查时,宜采用()
①纯随机抽样②等距抽样③类型抽样④整群抽样12411.样本指标和总体指标()
①前者是个确定值13.在抽样前,需对全及总体单位一一编列序号的抽样组织方式是()①纯随机抽样②机械抽样③类型抽样④整群抽样14.抽样平均误差是()①全部样本指标的平均数②全部样本指标的平均差③全部样本指标的标准差④全部样本指标的标志变异系数12513.在抽样前,需对全及总体单位一一编列序号的12515.成数方差的最大值,是当P值趋近于()
①0.1②0.9③0.8④0.517.在其他条件保持不变的情况下,抽样平均误差()①随着抽样数目的增加而加大②随着抽样数目的增加而减少③随着抽样数目的减少而减少④不会随抽样数目的改变而变动16.在同等条件下,重复抽样与不重复抽样相比较,其抽样平均误差()①前者小于后者②前者大于后者③两者相等④无法确定哪一个大12615.成数方差的最大值,是当P值趋近于()
①0.118.允许误差反映了样本指标与总体指标之间的()
①抽样误差的平均数②抽样误差的标准差
③抽样误差的可靠程度④抽样误差的可能范围19.从2000名学生中按不重复抽样方法抽取了100名进行调查,其中有女生45名,则样本成数的抽样平均误差为()①0.24%②4.85%③4.97%④以上都不对12718.允许误差反映了样本指标与总体指标之间的()
①(三)多项选择题2.简单随机化抽取调查单位时其方法有()①纯随机抽样②等距抽样③重复抽样④不重复抽样⑤整群抽样1.抽样调查的特点是()①按随意原则抽取样本②按随机原则抽取样本③由部分推断总体④可以事先计算并控制抽样误差⑤缺乏科学性和可靠性128(三)多项选择题2.简单随机化抽取调查单位时其方法有(4.抽样调查中的抽样误差是()①不可避免的②可以避免的③可以事先计算并加以控制的④抽样估计值与总体参数值之差⑤受总体标志变动程度的影响的3.假设从6个人的总体中随机抽取2个人进行调查()①样本指标是随机变量②总体指标是随机变量③样本指标是唯一确定的④总体指标是唯一确定的⑤样本指标是样本变量的函数1293.假设从6个人的总体中随机抽取2个人进行调查()125.影响抽样误差的主要因素有()
①抽样数目的多少②总体标志变异程度的大小
③不同的组织方式④抽样周期的长短
⑤不同抽样方法
6.要提高抽样推断的精确度①增加样本数目②减少样本数目③缩小总体被研究标志的变异程度④改善抽样的组织方式1305.影响抽样误差的主要因素有()
①抽样数目的多少(四)计算题
1.一批商品(10000件)运抵仓库,随机抽取100件
检验其质,发现有10件不合格。试按重复与不重复抽
样分别计算合格率抽样平均误差。解:P=(100-10)÷100=90%重复抽样条件下:不重复抽样条件下:131(四)计算题
1.一批商品(10000件)运抵东南大学远程教育统计学第三十九讲主讲教师:黄晓红132东南大学远程教育统计学第三十九讲主讲教师:2.某厂生产彩色电视机,按不重复抽样方法从千
批出厂产品中抽取1%的产品进行质量检验,取得如
下资料,试计算抽样平均误差。正常工作时间(千小时)电视机(台)6-88-1010-1212-1414-16153050409合计1441332.某厂生产彩色电视机,按不重复抽样方法从千
解:xfxf79111315153050409105270550520135236.645116.6640.0392164.511146.032合计1441580663.887134解:xfxf715105236.645合计1441580661351353.利用第1题的资料,以95.45%的概率保证程
度对该批商品的合格率作出区间估计。解:F(t)=95.45%t=2重复抽样条件下:1363.利用第1题的资料,以95.45%的概率保证程
度对该批商不重复抽样条件下:137不重复抽样条件下:1374.对某型号电子元件10000只进行耐用性能检查。根
据以往抽样测定,求得耐用时数的标准差为600小时。
试求在重复抽样条件下:(1)概率保证程度为68.27%,
元件平均耐用时数的误差范围不超过150小时,要抽取多少元件做检查?1384.对某型号电子元件10000只进行耐用性能检查。根
据以往(2)根据以往抽样检验知道,元件合格率为95%,
合格率的标准差为21.8%,要求在99.73%的概率保证下,允许误差不超过4%,试确定重复抽样所需抽取的元件数目是多少?139(2)根据以往抽样检验知道,元件合格率为95%,
合格率的标解(1)推断电子元件平均耐用时数所需的抽样
数目为:140解(1)推断电子元件平均耐用时数所需的抽样
数目为:140(2)推断电子元件合格率所需的抽样数目为:141(2)推断电子元件合格率所需的抽样数目为:1415.对某鱼塘的鱼进行抽样调查。从鱼塘的不同
部位同时撒网捕到鱼150条,其中草鱼123条,草
鱼平均每条重2千克,标准差0.75千克。试按99.73%的保证程度:(1)对该鱼塘草鱼平均每条重量作区间估计;(2)对该鱼塘草鱼所占比重作区间估计。1425.对某鱼塘的鱼进行抽样调查。从鱼塘的不同
部位同时撒网捕到解:n1=123n=150F(t)=99.73%t=3(1)该鱼塘草鱼平均每条重量的置信区间为:143解:n1=123n=150F(t)=99(2)p=n1/n=123/150=82%
该鱼塘草鱼所占比重的置信区间为144(2)p=n1/n=123/150=82%
该鱼塘草鱼所占比东南大学远程教育统计学第三十三讲主讲教师:黄晓红145东南大学远程教育统计学第三十三讲主讲教师:第七章抽样调查
第一节抽样调查概述
第二节抽样调查的一般原理
第三节抽样估计
第四节抽样的组织形式146第七章抽样调查
(一)抽样推断的含义
抽样调查是按随机原则,从全部研究对象中抽取一部分单位进行观察,并根据样本的实际数据,对总体的数量特征做出具有一定可靠程度的估计和判断,从而达到对全部研究对象的认识的一种统计方法。其中心问题是如何根据已知的部分资料来推断未知的总体情况。第一节抽样调查概述一、抽样调查的含义147
(一)抽样推断的含义
抽样调查是按随(二)抽样推断的特点1.抽样推断是非全面调查2.抽样推断是按随机原则抽选调查单位。3.抽样推断是用样本的指标数值去推算总体的指标数值。
4.抽样推断中产生的抽样误差,可以事先计算并加以控制。
148(二)抽样推断的特点1.抽样推断是非全面调查2.抽样推断是按二、抽样调查的主要内容(一)随机抽样:按照随机原则从总体中抽
取部分单位构成样本的过程。
(二)统计估计:根据随机抽取的部分单位的特性来对总体的分布函数、分布参数或数字特征等进行推测估算的过程。(三)假设检验:根据经验或认识,提出某一假设,并判断该假设正确性的过程。149二、抽样调查的主要内容(一)随机抽样:按照随机原则从总体中抽三、抽样推断的作用(一)解决了无法进行全面调查或很难进行全面调查的问题(二)可以补充或修正全面调查的数据
(三)可以节省调查费用和调查时间150三、抽样推断的作用(一)解决了无法进行全面调查或很难进行(二
四、抽样推断涉及的基本概念(一)总体和样本1.全及总体(总体、母体)它是指调查对象的全部单位,是由具有某种共同性质的许多单位组成的。总体既是我们所要研究的对象,又是样本所赖以抽取的母体。组成总体的单位称为总体单位,总体的单位数通常用N表示。151
四、抽样推断涉及的基本概念(一)总体和样本1.全及总2.抽样总体(样本、字样)是指在总体中按随机原则抽取的那一部分单位所构成的集合体。组成样本的单位称为样本单位,样本单位数亦称样本容量,通常用n表示。样本单位数总是大于1而小于总体单位数N的,即1<n<N。1522.抽样总体(样本、字样)是指在总体中按随机样本单位数n相对于总体的单位数N要小得多。
统计把n/N称为抽样比例。样本单位数达到或超过
30个(n≥30)称为大样本,而在30个以下(n<30)称为
小样本。社会经济现象的抽样调查多取大样本,而自然实验观察则多取小样本。以很小的样本来推断很大的总体,这是抽样推断法的重要特点。153样本单位数n相对于总体的单位数N要小得多。(二)总体指标和抽样指标1.总体指标总体指标是指根据总体各单位的标志值计算出来的,反映总体某种属性或特征的综合指标,亦称为总体参数。由于总体是惟一确定的,因此,根据总体计算的总体指标也是惟一确定的。常用的总体指标有:总体平均数、总体成数、总体标
准差和总体方差。154(二)总体指标和抽样指标1.总体指标总体指标是指根据总体各单
(1)总体平均数代表总体单位数量标志一般水平的指标,它表明变量
变动的集中趋势,通常用表示。其中:
X1,X2,…Xn为总体中每一个调查单位的取值
N是总体单位数
∑是总和符号155
(1)总体平均数代表总体单位数量标志一般水平的指标(2)总体成数当总体的一个现象有两种表现时,其中具有某一种表现的单位数占总体单位数目的比重,叫总体成数,用P或Q表示。其计算公式为:N代表总体单位数;
N1代表具有某一种表现的总体单位数;
No代表具有另一种表现的总体单位数;
P、Q代表成数。156(2)总体成数当总体的一个现象有两种表现时,其中具有某15713〔例1〕某公司生产的10000件产品中,有500件
为不合格品。则
产品不合格率
P=/N=500/10000=5.0%
产品合格率
Q=1—P=1-5.0%=95%158〔例1〕某公司生产的10000件产品中,有500件
为不(3)总体标准差和总体方差。
表示单位之间标志值的变异程度指标,叫做总
体标准差,又称总体均方差(标准差)。总体标准差的平方称为总体方差。其计算公式为:159(3)总体标准差和总体方差。
表示单位之间标2.抽样指标
抽样指标是指根据抽样总体各单位标志值计算的综合指标,又称样本指标。常用的抽样指标有:抽样平均数、抽样成数、抽样总体标准差和抽样总体方差。1602.抽样指标
抽样指标是指根据抽样总体各单位标志值计算的综合(1)抽样平均数。
代表样本单位数量标志一般水平的指标称抽样平
均数或样本平均数。161(1)抽样平均数。
代表样本单位数量标志一般水平的指标称抽样(2)抽样成数。
在抽样总体中,一个现象有两种表现时,其中具有
某一种表现的单位数占抽样总体单位数的比重,叫
做抽样成数,亦称样本成数。用p或q表示。其计算
公式为:162(2)抽样成数。
在抽样总体中,一个现象有两种表现时,其中具同总体成数163同总体成数19[例5.2)从某公司生产的产品中,抽样检查了
100件产品,其中有5件不合格,则:
样本产品不合格率:
样本产品合格率
164[例5.2)从某公司生产的产品中,抽样检查了
100件产(3)抽样总体标准差和抽样总体方差。
说明抽样总体之间标志值变异程度的指标,叫做抽样
总体标准差。抽样总体标准差的平方称为抽样总体方
差(简称样本方差)。其计算公式为:165(3)抽样总体标准差和抽样总体方差。
说明抽样总体之间标志值一个总体可以抽取许多个样本,而样本不同,
抽样指标的数值也各不相同。可见,抽样指标的数
值不是惟一确定的。因为抽样指标是样本变量的函数,是随机可变的变量。也就是说,由样本观测值所决定的统计量是随机变量。166一个总体可以抽取许多个样本,而样本不同,
(三)重复抽样和不重复抽样1.重复抽样(重置抽样)采用这种方法抽取样本单位的特点是:同一单位有多次重复被抽中的机会,并且总体单位数目始终不变,每个单位抽中或抽不中的机会在各次都是相同的。167
(三)重复抽样和不重复抽样1.重复抽样(重置抽样
2.不重复抽样(不重置抽样)采用这种方法抽取样本单位的特点是:同一单位只有一次被抽中的机会,并且总体单位数目随着样本单位数目抽取的次数的增多而愈变愈少。每个单位抽中或抽不中的机会在各次是不同的。168
2.不重复抽样(不重置抽样)采用这种方法抽取样本单位的特点
抽样推断是通过样本对总体进行推算。其中,统计量与被估算的总体指标之间的关系,是推算的关键。两者的关系主要通过统计量的分布来反映,且因样本量的大小而有差别。第二节抽样推断的一般原理一、抽样推断的理论依据
169
抽样推断是通过样本对总体进行推算。其中,统(一)大样本统计量的推断依据——大数定律
在重复试验中,事件频率的稳定性是大量随机
现象的统计规律性的典型表现。人们根据频率的稳定性预见到概率的存在和概率的性质,同样,在长期的统计实践中,人们也找到了大量随机现象的平均结果也具有稳定性的理论依据,即大数定律。170(一)大样本统计量的推断依据——大数定律
在重复试验大数定律在统计中是指一切关于大量随机现象的平
均结果稳定性的定理,它为那些均值存在稳定性及
整个统计推断提供了最基本的理论依据。大数定律的本质意义在于,尽管单个随机现象的具体表现不可避免地引起随机偏差,然而在大量随机现象共同作用时,由于这些随机偏差互相抵消、补偿和拉平,致使总的平均结果趋于稳定。171大数定律在统计中是指一切关于大量随机现象的平
均结果稳定性的比雪夫大数定理:设x1,x2,x3…,xn为独立的随机
变量序列,服从同一分布,且具有相同的期望值
以及方差,则对于任意正数有172比雪夫大数定理:设x1,x2,x3…,xn为独立的随机
变量(二)大样本统计量分布的依据一中心极限定理
中心极限定理是指在一定的条件下,大量相互
独立的随机现象的概率分布是以正态分布为极限。因正态分布在概率论中占有中心地位,所以把该定理叫做中心极限定理。173(二)大样本统计量分布的依据一中心极限定理
中心(二)大样本统计量分布的依据一中心极限定理在社会经济现象中,有些随即变量表现为大量独立随即变量之和:例如:任一指定时刻城市用电量是大量用户用电量的总和;一个零件的实际尺寸与标准尺寸的偏差是原材料、设备、操作技术、经营管理水平多种因素综合影响的结果。174(二)大样本统计量分布的依据一中心极限定理在社
(二)大样本统计量分布的依据一中心极限定理中心极限定理的研究目标:随即变量之和在什么条件下渐近地服从正态分布。李亚普诺夫定理:在一定条件下,随即变量之和的极限分布近似地服从正态分布:175
(二)大样本统计量分布的依据一中心极限定理(二)大样本统计量分布的依据一中心极限定理样本平均数也是一种随即变量之和的分布,根据中心极限定理,只要在样本容量n充分大的情况下,不论全及总体的变量分量分布是否属于正态分布,其抽样平均数也趋近于正态分布。许多属于二项分布的离散型现象,当样本容量n很大时,利用正态分布作为二项分布的极限式,可以解决某一点或某一区间的概率时所遇到的困难综上述,在抽样推断或估计中,正态分布得到广泛运用176(二)大样本统计量分布的依据一中心极限定理样大数定律只揭示了大量随机变量的平均结果,
但并没有涉及到随机变量的分布规律,而中心极限
定理则说明了许多随机变量的分布是正态或近似正态的。这就可以简化统计推断中许多统计量的分布问题,所以它是统计学中的重要工具之一。177大数定律只揭示了大量随机变量的平均结果
二、抽样推断的原理抽样估计就是以样本的实际资料为依据,计
算一定的样本指标,并以此对总体做出数量上的估计和判断。其原理是:
(一)抽样推断运用的是归纳推理方法抽样推断的方法是归纳法,而归纳法推断结论的正确性必须过事实的验证。178
二、抽样推断的原理抽样估计就是以样本的(二)抽样推断运用的是概率原理
抽样推断的结论,其可靠性究竟是多少,需要
运用概率的原理加以说明。(三)抽样推断的结论存在着一定的抽样误差抽样误差是抽样调查所特有的,而且是不可避免的。179(二)抽样推断运用的是概率原理
抽样推断的结论抽样推断结论的可靠程度和抽样误差的大小是联
系在一起的。在其他条件不变的情况下,允许的
误差范围愈大,则概率的保证程度也愈大;反之,
如果精确度的要求愈高,允许的误差范围愈小,则概率的保证程度也愈小。抽样误差范围可以事先通过—定资料加以计算,并能采取一定的组织措施来控制这个误差范围,保证抽样推断的结果达到一定的可靠程度。180抽样推断结论的可靠程度和抽样误差的大小是联
系在一起的。在其
三、抽样推断的优良标准(一)无偏性用抽样指标推断总体指标要求抽样指标的平均数等于被估计的总体指标。就是说,虽然每个可能样本的抽样指标不一定等于未知的总体指标,但在多次反复估计中,要求各个抽样指标的平均数应该等于总体指标,亦即从平均来说,抽样指标的估计是没有偏误的,叫做无偏性。181
三、抽样推断的优良标准(一)无偏性用抽样指例如,样本平均数总是总体平均数X的无偏估计量,亦即样本平均数的平均数等于总体平均数。因为182例如,样本平均数总是总体平均数X的无偏估计量,亦即样本平均数(二)一致性
用抽样指标推断总体指标要求其样本的单位数充分
大时,抽样指标也充分地靠近总体指标。也可以说该抽样指标对总体指标是一个一致估计量。
183(二)一致性
用抽样指标推断总体指标要求其样本的单位数充分
证明:设为任意正数,根据大数定律有:抽样平均数的期望值等于总体平均数,即184
证明:设为任意正数,根据大数定律有:抽样平均数的(三)有效性
用抽样指标推断总体指标时,要求作为优良估
计量的方差应比其他估计量的方差小。即用抽样
平均数和总体某一变量来估计总体平均数,虽然两者都是无偏的估计量,而且在每一次估计中两种估计量和总体平均数都可能有离差,但样本平均数更靠近在总体平均数的周围,平均说来它的离差比较小,所以对比来说,抽样平均数是更为优良的估计值
185(三)有效性
用抽样指标推断总体指标时,要求作为优良估东南大学远程教育统计学第三十四讲主讲教师:黄晓红186东南大学远程教育统计学第三十四讲主讲教师:第三节抽样估计一、抽样误差的概念1.误差是由样本得到的估计值与被估计的总体未知真实特征值之差,或样本指标数值与总体指标数值之间的差数。2.抽样误差就是指按随机原则抽样时,单纯由不同的随机样本得出不同的估计量而产生的误差。187第三节抽样估计一、抽样误差的概念43由于总体平均数和成数是惟一确定的,抽样平均数和成数则是随机变量,因而抽样误差也不是惟一确定的,而是随机变量。抽样误差愈小,表示样本的代表性愈高;反之,样本的代表性就愈低。同样,抽样误差还说明样本指标与总体指标的相差范围,因此,它也是推算总体的依据。188由于总体平均数和成数是惟一确定的,抽样平均444.抽样误差是抽样调查自身所固有的不可避免的误差,虽然不能消除这种误差,但可以用数理统计方法进行计算确定其数量界限并加以控制,也就是根据研究的需要,把它控制在所允许的范围以内。1894.抽样误差是抽样调查自身所固有的不可避免的误45二、抽样平均误差
(一)抽样平均误差的含义
抽样平均误差是指一个抽样方案的所有可能样本的
某统计量与总体相应指标的离差的平均值。纯随机抽样平均误差的定义关系式如下:190二、抽样平均误差
(一)抽样平均误差的含义
上式表明了抽样平均误差的含义,并不能作为计算公式。因为:1.在现实的抽样中,我们只能取得一个样本,不可能也没必要获得全部所有可能样本,所以抽样平均误差也不可能通过所有样本来直接计算。2.统计量的分布律中我们已经知道:统计量是以总体相应指标为期望值,抽样平均误差实质上就是该统计量在其概率分布中的标准差。191上式表明了抽样平均误差的含义,并不能作为47(二)抽样平均误差的计算1.抽样平均数的平均误差(1)在重复抽样的条件下总体方差已知,样本平均数服从正态分布,其抽样平均数的平均误差计算公式为:192(二)抽样平均误差的计算48由上式可以看出,抽样平均数的平均误差就是抽样平均数的标准差。抽样平均误差和总体标准差是成正比的,与样本单位数的平方根成反比。因此,要想减少抽样平均误差以提高抽样指标的代表性,只能增大样本单位数n,因为总体标准差是不能改变的。193由上式可以看出,抽样平均数的平均误差就是抽样平49(2)在不重复抽样的条件下,抽样平均数的平均误差计算公式为:
当总体单位数N很大时,公式中的N—1可以用N代替。194(2)在不重复抽样的条件下,抽样平均数的平当总体单位数N很大在实际计算时,不重复抽样的抽样平均数的平均误
差可用下式计算:195在实际计算时,不重复抽样的抽样平均数的平均误
差可用下式计算
2.成数的平均误差统计成数(比重)是一种结构相对数,它实际属于是非标志平均数的特例。统计上习惯以1表示“是”,以0表示“非”。p为1的概率,q=1—p为0的概率。成数的方差是P(1-P),其特点为,最大值为0.25(0.5×0.5),即当两种表现的总体单位各占一半时,它的变异程度最大。1962.成数的平均误差统计成数(比重)是一种在重复抽样条件下,其计算公式为:在不重复抽样条件下,其计算公式为:197在重复抽样条件下,其计算公式为:在不重复抽样条件下,其计算公当N很大时,以N代替N—1,则可简化为:在没有总体方差或总体标准差时,可以用样本方差代替总体标准差198当N很大时,以N代替N—1,则可简化为:在没有总体方差或总体[例3〕某公司生产一批灯泡,共1000只,从中随机抽取100只,测其寿命平均为1000小时,样本标准差为60小时,计算其抽样误差。
按重复抽样计算:199[例3〕某公司生产一批灯泡,共1000只,从中随机抽取100按不重复抽样计算:200按不重复抽样计算:56〔例5.4〕某公司有员工10000人,从中随机抽选1000人调查电脑的拥有率,发现50家有,问这一调查的抽样误差为多少?解:p=50/1000=0.05按重复抽样计算:201〔例5.4〕某公司有员工10000人,从中随机抽选100按不重复抽样计算:
202按不重复抽样计算:
58东南大学远程教育统计学第三十五讲主讲教师:黄晓红203东南大学远程教育统计学第三十五讲主讲教师:(三)极限误差(允许误差)
极限误差是指抽样推断中依一定的概率保证
下的误差的最大范围。极限误差也叫置信区间,即用一定的概率来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- YC/T 599.1-2023卷烟加工过程在线计量器具计量技术规范第1部分:总则
- AutoCAD三维图形建模方法79课件
- 考研复习-风景园林基础考研试题附参考答案详解(能力提升)
- 《风景园林招投标与概预算》试题A带答案详解(典型题)
- 2023年上海市上海市普陀区长征镇招聘社区工作者真题附详解
- 2025-2026年高校教师资格证之《高等教育法规》通关题库附答案详解(基础题)
- 2024年滨州新能源集团有限责任公司及权属公司公开招聘工作人员递补笔试备考题库含答案详解(达标题)
- 2023国家能源投资集团有限责任公司第一批社会招聘笔试备考题库附答案详解(巩固)
- 2025年黑龙江省五大连池市辅警招聘考试试题题库附答案详解(夺分金卷)
- 2025年黑龙江省五常市辅警招聘考试试题题库附答案详解(培优)
- 理工英语3-01-国开机考参考资料
- 网络餐饮食品安全培训
- 2022年版初中物理课程标准解读-课件
- 头颅常见病影像
- 漫画解读非煤地采矿山重大事故隐患判定标准
- 2024年建筑业10项新技术
- 《客舱安全与应急处置》-课件:颠簸的原因及种类
- 混凝土回弹法测试原始记录表
- 《养老护理员》-课件:老年人卫生、环境、食品安全防护知识
- 《英语词汇学》期末考试试卷附答案
- 健康体检科(中心)规章制度汇编
评论
0/150
提交评论