版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、经济管理类专业应用型本科教材统 计 学 电子工业出版社出版 主编 杜家龙第八章 抽 样 推 断 教学目的 掌握抽样推断的基本原理和常用组织方式,理解抽样推断的基本概念和特点,能够选择适当抽样方式、确定必要样本容量、组织抽样调查、计算样本指标和抽样误差,熟练、准确地应用样本指标推断总体指标。 重点难点抽样原理和抽样平均误差的分布规律和计算方法。简单随机抽样、类型抽样理论和方法。第一节抽样推断基本原理一、抽样推断的概念和特点 所谓抽样推断,是指按照随机原则从调查总体中抽取一部分单位组成样本进行统计观察和计算,并根据所得样本指标,在一定把握程度下,对调查总体相应指标作出估计和判断。 抽样推断具有以下
2、五个特点:第一,在抽取调查单位时遵循随机原则;第二,在取得调查结果时用部分估计总体;第三,在推断手段上使用概率估计方法;第四,抽样推断误差可以计算和控制;第五,抽样推断以中心极限定理为基础。 二、抽样推断的基本范畴 抽样推断中常用的基本范畴(或称概念)主要有全及总体与样本总体、全及指标(或称参数)与样本指标(或称统计量)、重复抽样与不重复抽样等。 (一)全及总体与样本总体 全及总体指所研究现象的整体,即研究对象所有单位组成的总体。全及总体单位数通常是很大的,常用N表示。 样本总体,是指在抽样调查中从全及总体中抽取的那部分单位组成的总体。例如上述调查中抽取的100名学生就构成样本总体。样本总体单
3、位数(或称样本容量)常用n表示,上例中n=100。 例如,从10000名学生中抽取100人进行生活消费调查,以计算学生月平均生活消费额,则全及总体单位数 N=10000。 (二)全及指标与样本指标 1.全及指标(参数)根据全及总体全部单位的数据计算的指标称全及指标(或参数)。全及指标是客观存在的常数,在抽样推断中常用的全用指标主要有全及平均数 ,全及成数P,全及方差 和全及标准差 等。(1)全及平均数设全及总体某一变量值为则有: (2)全及成数 设全及总体N个单位中具有某种属性单位和N1,其余N0个单位不具有该种属性,且有N1+N0=N,则称具某种属性的单位在全及总体中年占比重P为全及成数,即
4、:,令则, (3)总体方差和标准差 总体平均数的方差和标准差:总体成数(比率)的方差和标准差: .样本指标(统计量) 根据样本各单位变量值或品质属性计算的反映样本特征的统计数据称为样本指标或称统计量。与全及指标相对应,样本指标主要有样本平均数 ,样本成数 ,又称样本比率或比重,样本方差 和样本标准差 等。(1)样本平均数设 为样本的某一变量,其n项变量值为则:或(2)样本成数(比率)设样本总体 个单位中,具有某种属性的单位有 其余 个单位不具有该种属性,且则称具有某种属性的单位在样本总体中所占比重为样本成数,即:,令,则:,(3)样本方差和标准差 样本平均数的方差和标准差:样本成数(比率)的方
5、差和标准差: (三)重复抽样与不重复抽样 1.重复抽样重复抽样又称有放回抽样或重置抽样。它是从 个单位的总体中抽取 个单位组成样本,每次从总体中抽取一个单位并登记其有关标志信息后,再放回总体中参加下一次抽取,直至抽取 个单位为止。这样总体单位数不变,每次抽取一个单位时总体中的所有单位都有同等被抽中的机会,但是有重复抽取的可能。 根据研究目的和研究对象的特点不同,重复抽样又有考虑顺序与不考虑顺序两种情况。 (1)考虑顺序的重复抽样 考虑顺序的重复抽样就是可重复排列。一般地,从 个不同单位的总体中,随机有放回地抽取 个单位组成样本,其全部可能的样本数目为 个。如从1、2、3、4、5 五个数字中随机
6、取两个组成两位数,可组成 个两位数,它们是:11 12 13 14 15 21 22 23 24 25 31 32 33 34 35 41 42 43 44 45 51 52 53 54 55 (2)不考虑顺序的重复抽样不考虑顺序的重复抽样就是可重复组合。一般地,从 个不同单位的总体中,随机有放回地抽取 个单位组成样本,其全部可能的样本数目为 个。如从A、B、C、D四个字母中随机取两个组成代码,在不考虑顺序(只要元素相同就认为是同一个样本)的情况下可组成 个代码,它们是:AA AB AC AD BB BC BD CC CD DD 2.不重复抽样 不重复抽样又称无放回抽样或不重置抽样。它是从 个
7、不同单位的总体中随机抽取 个单位组成样本,每次从总体中抽取一个单位,连续 次抽取构成一个样本。但每次抽取一个单位登记其有关标志信息后,不再放回总体中参加下一次抽取,每个单位只有一次被抽选的机会,因而不会出现重复抽取的情况。不重复抽样也有考虑顺序与不考虑顺序两种情况。(1)考虑顺序的不重复抽样考虑顺序的不重复抽样就是不重复排列。一般地,从 个不同单位的总体中,随机无放回地抽取 个单位组成样本,其全部可能的样本有 个,如从A、B、C、D四个字母中随机不重复抽取两个组成代码,可组成的没有重复字母的代码共有12个,即 : ,这些代码是:AB AC AD BA BC BD CA CB CD DA DB
8、DC (2)不考虑顺序的不重复抽样 不考虑顺序的不重复抽样就是不重复组合。一般地,从 个不同单位的总体中,随机无放回地抽取 个单位组成样本,其全部可能的样本数目为 个。如从A、B、C、D四个字母中随机不重复抽取两个组成代码,可组成的没有重复且字母不同的代码为 个 ,它们是:AB AC AD BC BD CD三、抽样推断的数理基础 (一)大数定理 大数定理,就是关于大量随机现象具有稳定性质的定理。它表明,如果被研究总体由大量相互独立的随机因素构成,而且每个因素对总体的影响都相对地小,那么,由于综合平衡的结果,因素的个别影响将相互抵消,从而显现出它们共同作用的倾向,使总体具有稳定的性质。 大数定理
9、表明:如果随机变量总体存在有限的平均数和方差,则对于充分大的抽样单位数 ,可以几乎趋近于的概率期望抽样平均数与总体平均数的绝对离差为任意小,即对任意小的正数 有:式中: 为样本平均数; 为总体平均数; 为抽样单位数(样本容量)。 (二)正态分布 1.正态分布的概念 当我们研究的变量是连续变量时,无法将变量值一一列出来表示它们的概率分布,而事实上在这种情况下,每一点的概率都接近于0,求某一点的概率意义不大。通常我们去求变量落在某一区间的概率,用分布函数 来描述概率分布情况,通过一个函数 把它表示成积分的形式: 函数 称为密度函数,它表示随机变量在 点概率密度,在图形上则表示为各点概率大小的曲线,
10、 表示 在 区间上所围成的面积,用它来反映 落在这一区间内的概率,如图6-1所示。图6-1 正态分布曲线图2.正态分布密度函数式中: 为随机变量; e为自然对数的底数;e=2.718281828; 为圆周率; =3.141592654; 为 的平均数; 为变量的标准差; 和 是决定密度函数的两个参数。 3.关于密度函数 的两个参数 平均数 和标准差 对密度函数 来说,是两个重要参数,当 和 确定了, 也就确定了,并且平均数 和标准差 对密度函数 的影响是不同的。(1)平均数 对密度函数 的影响平均数 的变动不改变正态分布的形状,只改变正态分布的中心位置,如图6-2所示。 图6-2当平均数 时,
11、密度函数的频率线以 轴为对称轴两边对称展开; 当平均数 时,密度函数的频率线向右平移a个单位; 当平均数 时,密度函数的频率线向右平移a个单位。 (2)标准差 对密度函数 的影响 标准差 的变动不改变正态分布的中心位置,只改变分布曲线的“胖”、“瘦”、“高”、“矮”程度,如图6-3。图6-3 当 时,把密度函数的分布称为标准正态分布; 当 时,分布曲线变“瘦”,中心高度则增长一倍,表示变量分布比较集中; 当 时,分布曲线变“胖”,中心高度则缩短一半,表示变量分布比较分散。 4.正态分布密度函数的几个特点(1)对称性,即密度函数 的频率曲线以 为中心,两边完全对称向左向右延伸。(2)非负性,即
12、在上方。(3)当 时,密度函数 为最大值。(4)当 时,此处是密度函数的拐点,即离平均数 左方一个 处频率曲线趋势由凹向变为凸向,然后到了平均数 右方一个 处,频率曲线趋势又恢复为凹向。(5)当 时,密度函数 ,频率曲线向两边下垂,以 轴为渐近线伸向无穷处。5.变量落在某一区间的概率有了概率分布的密度函数 ,就可以利用不定积分的形式,来表达分布函数 ,并计算变量落在某一区间的概率。正态分布的分布函数为: 它表示变量 落在 的概率,它是由密度函数 与 轴在 区间所围成的面积 ,如图8-1所示。 我们可以利用两个积分的差数来表示变量 落在区间 内的概率,如图6-4(a)密度函数 与 轴在区间 所围
13、成的阴影面积所示。同样,也可以利用分布函数来求变量 与 值之差的绝对值不超过某数a的概率。即:图6-4(b) 图6-4(a) 如图6-4(b),密度函数 与 轴在区间 所围成的阴影面积。 6.正态分布的应用 由于利用正态分布函数求一定区间的定积分值很复杂,因而人们通常是利用已编制的标准正态 分布表去求正态概率值。实践中,我们通常需要首先将非标准正态分布加以标准化,使其变为平均数等于,标准差等于的标准正态分布。为此,引进新变量 ,并令 ,则:所以,标准正态分布的密度函数为:标准正态分布分布函数为:标准正态分布变换的意义是将频率曲线的中心移至原点,使 ,并将 的绝对离差化为以 为单位表示的相对离差
14、。利用标准正态分布函数 ,我们可以计算变量 落在区间 之间的概率。其步骤如下: 第一,将原给定的变量标准化,即将原变量变换成新的标准变量 , ; 第二,将原来的定积分区间 变换成相应的新区间:即 也就是所求的 落在 的概率等价于 落在区间 的概率,从而有如下关系: 第三,从标准正态分布概率表中找出 对应的 就是我们所求的概率。 例8.1 已知某地小麦亩产量服从正态分布,平均亩产为600公斤,标准差为40公斤,求亩产在580626公斤之间的麦地所占比例。解:根据正态分布标准化要求,令:根据题意要求 落在 区间的概率,这里 公斤,所以新变量 的区间相应为:当,查概率表得: 即有48.43%的麦地亩
15、产量在580626公斤之间。 例6.2 某服装厂经调查得知市场某种男装需求量为50000件,消费者平均身高为172cm, 身高标准差为5cm,问身高在170180cm之间的服装应制作多少套? 解:根据正态分布标准化要求应有:查概率表得:身高在170180cm之间的服装应制作: 500000.8904=44520(套)表6.1 常用t值和对应的概率F(t)1.001.501.651.962.002.503.000.68270.86640.90110.95000.95450.98760.9973 (三)中心极限定理 中心极限定理是阐述随机变量的极限分布是正态分布的一系列理论的总称。一般地,如果一个
16、随机变量是由大量相互独立的随机因素的影响所造成,而每个因素的作用又是很微小的,那么这一随机变量趋于正态分布。中心极限定理告诉我们: 第一,如果总体很大且服从正态分布,则样本平均数的分布也服从正态分布。 第二,如果总体很大但不服从正态分布,只要样本足够大(样本容量 ),样本平均数的分布也趋近于正态分布。 第三,样本平均数的平均数等于总体平均数,即 。 第四,样本分布的标准差等于总体标准差的 ,即 (式中 为样本标准差, 为总体标准差, 为样本容量)。 例6.3 某高校分析新生体检结果资料,得到其中某项指标的均值为10,标准差为4,从该批参加体检的新生中随机抽取35人作为样本,试计算:(1)样本均
17、值大于11的概率;(2)样本均值小于10.5的概率;(3)样本均值在11和10.5之间的概率。 解:因为与人体有关很多变量都服从正态分布,样本容量为35属于大样本,由中心极限定理可知它的分布近似于平均数 、标准差 的正态分布,即 附正态概率表:第二节 抽样误差一、抽样误差的概念及影响因素 (一)抽样误差的概念 抽样推断不可避免产生误差。抽样误差就是抽样估计值与被估计的总体指标之差。抽样误差可分为登记性误差和代表性误差两大类。 登记性误差是指在调查过程中由于登记上的差错所造成的误差。 代表性误差是指由于样本不足以代表总体特征而产生的误差。代表性误差的产生也有两种情况: 一是由于违反随机抽样原则而
18、造成的偏差,称系统性偏误。系统性误差与登记性误差是抽样组织工作的问题,可以采取措施预防或减少它。 二是在遵循随机原则的情况下,由于被选择的样本内部各单位被研究标志的构成比例和总体不可能完全一致而形成的随机性误差。该种误差在抽样推断中是无法消除的,抽样推断理论所研究的抽样误差,主要是这种误差。 (二)影响抽样误差的主要因素 影响抽样误差大小的因素,主要有以下四种: 第一,总体变量差异程度的大小。在其他条件不变的情况下,总体变量离散程度( 或 )越大,抽样误差( 或 )越大,反之则抽样误差越小; 第二,样本单位数(样本容量)的多少。在其他条件不变的情况下,样本单位数 越小,抽样误差( 或 )越大,
19、反之则抽样误差越小。如果样本单位数多到接近总体单位数时,抽样误差就会缩小到几乎没有的程度。 第三,抽样方法。抽样方法有重复抽样和不重复抽样两种,一般来说,重复抽样的抽样误差要大于不重复抽样的抽样误差。 第四,抽样组织方式。在样本容量和抽样方法相同的条件下,不同抽样组织会产生不同的抽样误差。一般来说,简单随机抽样、整群抽样误差较大,类型抽样、等距抽样等抽样组织方式下,抽样误差要小一些。二、抽样平均误差 (一)抽样平均误差的概念 抽样平均误差就是样本平均数(样本成数)的标准差,它可反映样本平均数(样本成数)与总体平均数(总体成数)的平均误差。 由于样本是按随机原则抽取的,从一个总体可以抽取许多同样
20、单位数的样本,每个样本都有自己的样本平均数和成数,一系列的样本平均数(样本成数)就可以计算样本平均数(样本成数)的平均数和标准差。又因为样本平均数(样本成数)的平均数就等于总体平均数(总体成数),因而样本平均数(样本成数)的标准差实际上就反映了样本平均数(样本成数)与总体平均数(总体成数)的平均误差。 (二)抽样平均误差的计算 1.样本平均数抽样平均误差的计算 (1)重复抽样下,样本平均数抽样平均误差计算 若设样本平均数的抽样平均误差为 ,总体标准差为 ,样本容量为 ,则样本平均数的抽样 平均误差为: 例6.4 某组5名学生的体重依次为50、52、54、56、58千克,现随机从中抽出2名计算平
21、均体重,可组成的全部样本为 个,样本组合及平均数如表6-2所示,根据样本组合及样本平均数,我们可编制如下频数及频率分布表:样本均值505152535455565758合计频数12345432125频率0.040.080.120.160.200.160.120.080.041.00表6.3 样本平均数分布表 根据样本平均数分布数据,我们可计算样本平均数的平均数、方差和标准差如下: 表6.4 重复抽样下样本平均数和方差计算表5051525354555657581234543215010215621227022016811458-4-3-2-10123416941014916161812404121
22、816合计251350-100样本平均数的平均数等于:样本平均数的方差为:样本平均数的标准差即抽样平均误差为: 为验证总体标准差与抽样平均误差(即全部可能样本平均数的标准差)的关系,下面我们再计算总体平均数和总体标准差。 总体平均数为: 总体方差为: 验证如下:样本平均数的平均数等于总体平均数:抽样平均误差(即样本平均数的标准差)等于总体标准差的 : (2)不重复抽样下样本平均数的抽样平均误差的计算 前述中心极限定理已经证明,随机不重复抽样下,抽样平均数的平均误差计算公式如下: 仍用上述学生体重抽样调查资料,在不重复抽样下,全部可能的样本平均数及其分布如下:表6.5 学生体重不重复抽样样本平均
23、数表样本变量 50 52 54 56 585052545658- 51 52 53 5451 - 53 54 5552 53 - 55 5653 54 55 - 5754 55 56 57 -表6.6 不重复抽样样本平均数分布表样本均值51525354555657合计频数224442220频率0.100.100.200.200.200.100.101.00表6.7 不重复抽样下样本平均数和方差计算表515253545556572244422102104212216220112114-3-2-101239410149188404818合计201080-60不重复抽样样本平均数的平均数为:不重复抽
24、样样本平均数的方差为:不重复抽样样本平均数的标准差为:验证: 2.样本成数抽样平均误差的计算 计算成数抽样平均误差时,将平均数抽样平均误差计算公式中的总体平均数方差 换成 即可。 (1)重复抽样下样本成数抽样平均误差的计算 (2)不重复抽样下样本成数抽样平均误差的计算 上述公式中的 和 是总体指标,在抽样推断中往往是未知的,通常以样本指标代替或采用以前已有的总体指标。 例6.5 某市对400000户居民按1%的比例抽样调查平均年收入。测得结果为:样本平均数 万元,样本标准差 万元;在样本中有400户居民年收入低于2万元。试求重复抽样与不重复抽样下,样本平均数和样本成数的抽样平均误差。 解:已知
25、将这些数据代入抽样平均误差计算公式应有:重复抽样下样本平均数抽样平均误差:不重复抽样下样本平均数抽样平均误差:重复抽样下样本成数抽样平均误差:不重复抽样下样本成数抽样平均误差: 三、抽样极限误差 抽样极限误差又称抽样允许误差,它是在抽样推断中所允许的样本指标与全及指标之间的最大误差范围。由于正态分布理论已证明,样本指标与总体指标的离差不超过若干(常用 表示)倍抽样平均误差的概率( ),因此,在抽样推断中常用若干( 倍)抽样平均误差来表示极限误差。若设 为极限误差,则有:即极限误差是 倍的抽样平均误差。倍的抽样平均误差。因此,样本平均数的极限误差可表示为:重复抽样下:不重复抽样下:样本成数的极限
26、误差可表示为:不重复抽样下:重复抽样下: 例6.6 从15000名在校大学生中,按照随机原则抽取150名调查月生活消费水平。测得150名学生月平均生活消费额350元,其标准差为30元,月生活消费在300元以下的学生比率为12%。试求在95.45%的概率保证下,抽样平均数和抽样成数的极限误差。解:已知,将这些数据代入抽样极限误差计算公式应有:样本平均数的极限误差:重复抽样下:不重复抽样下:样本成数的极限误差:重复抽样下:不重复抽样下:第三节 抽样估计和推断一、抽样估计的概念和特点 (一)抽样估计的概念 抽样估计或称参数估计,就是以样本的实际资料为依据,计算一定的样本指标,并用以对总体的相应指标作
27、出估计和判断。 (二)抽样估计的特点: 1.在逻辑上抽样推断应用的是归纳推理。 2.在方法上应用不确定的概率估计,而不应用确定的数学分析。 3.抽样推断结论存在一定的误差。二、抽样估计的优良标准 用样本指标估计总体指标,若满足无偏性、有效性和一致性要求,就认为是一个优良估计。 (一)无偏性 无偏性就是要求样本指标的平均数等于被估计的总体指标。 (二)一致性 即当样本容量充分大时,样本指标也充分靠近总体指标。 (三)有效性 有效性就是要求用样本指标估计总体指标,方差比其他任何估计量方差都小。 三、抽样估计方法 抽样估计通常有点估计和区间估计两种方法。 (一)点估计 点估计又称定值估计,就是直接用
28、样本指标作为相应的总体指标的估计量。或者说,就是直接用样本指标代替全及总体相应指标。统计中常用的点估计主要有: 1.用样本平均数估计全及总体平均数,即用 代替 ; 2.用样本成数估计全及总体成数,即用 代替 ; 3.用样本方差估计全及总体方差,即用 代替 ; 4.用样本标准差估计全及总体标准差,即用 代替 。 (二)区间估计 1.区间估计的概念 区间估计就是在一定概率保证下,用样本指标和抽样平均误差去推断总体指标可能范围的估计方法。 区间估计的结果是总体指标可能落在的数值范围或称数值区间及落在该区间的可靠程度(即概率)。我们称这一区间为置信区间,其两端点数值称为置信上限和置信下限。一般地,可靠
29、程度(概率)应当在90%至96%。 2.区间估计的步骤 对总体指标的区间估计主要有以下几个步骤: (1)抽取样本,计算样本指标; (2)根据给定的概率和已计算的抽样平均误差,确定概率度,计算抽样极限误差; (3)根据已计算的样本指标和抽样平均误差推断总体指标所在区间。 例6.8 某电子元件厂对10000只电子元件按随机原则抽取100只进行质量检验,样本调查资料如下表所示。试以95%的概率保证程度,估计这10000只电子元件的平均耐用时间和合格率(耐用时间达到1000小时的为合格品)。表6.8 某电子元件抽样调查资料计算表耐用时间(小时)组中值检测元件数1000以下100011001100120
30、0120013001300以上95010501150125013505106022347501050069000275004050-208-108-8921922163201166403840186208110592合计-100115800-633600 解:(1)估计该批元件平均耐用时间计算样本平均耐用时间计算样本平均耐用时间标准差(小时)(小时)计算平均数抽样平均误差(不重复抽样)计算平均数抽样极限误差,则(小时)(小时) 估计该批电子元件平均耐用时间所在区间区间上限:区间下限:即该批电子元件平均耐用时间在1142.48至1173.52小时之间,其可靠程度为95%。(2)估计该批元件的合格
31、率计算样本合格率计算样本合格率标准差计算样本合格率抽样平均误差(不重复抽样)计算样本合格率极限误差,则区间下限:即该批电子元件合格率在90.75%至99.25%之间,其可靠程度为95%。估计该批电子元件合格率所在区间区间上限: (三)全及总体总量指标的修正与推算 在抽样推断实践中,估计全及总体总量指标常用直接推算法和修正系数法。 1.直接推算法 直接推算法指依据点估计值或区间估计值及全及总体单位数,去推算全及总体总量指标值或全及总体总量指标所在区间。(1)用样本平均数和总体单位数推算总体标志总量 。 例6.9 某学院在校学生10000人,抽取100名学生作为样本进行调查,测得学生月平均生活消费
32、额350元,试估计该学院全体学生月生活消费额。解:全院学生月生活消费额:(万元)。 (2)用样本成数和总体单位数推算全及总体中具有某种标志的单位数。 例6.10 某班有50名学生,随机抽取10%进行调查,测得及格率为90%,试推算全班及格人数。 解:该班及格人数为: (人)。(3)用样本平均数 ,抽样极限误差 和总体单位数 ,推算总体标志总量所在区间: 例6.11 某市有10万名职工,随机抽取1%进行调查,测得职工年平均收入3.5万元,在95.45%的概率保证下抽样极限误差为0.2万元。试推算该市职工年收入总额所在区间。解:该市职工年收入总额所在区间为:即该市职工年收入总额在33至37万元之间
33、,其概率保证程度为95.45%。(4)用样本成数 ,成数抽样极限误差 和总体单位数 ,推算总体中具有某种标志的单位数所在区间。 例6.12 某市有10万名职工,随机抽取1%进行调查,测得职工年平均收入在3万元以下的有40%,在95%的概率保证下抽样极限误差为2%。试推算该市年收入在3万元以下的职工人数所在区间。 解:该市年收入在3万元以下的职工人数所在区间为: 即该市年收入在3万元以下的职工人数所在区间是3.8至4.2万人,其概率保证程度为95%。第四节 抽样方案设计 为了科学有序地开展抽样调查和推断,必须事先设计出符合调查对象特点和调查目的要求的抽样调查方案。设计抽样调查方案要解决的基本问题
34、主要有抽样调查程序、抽样调查单位数和抽样组织方式等。一、抽样调查程序 (一)立项。即确定调查的目的、任务,拟定调查项目,规定调查时间和期限。 (二)搜集调查总体有关资料,编制抽样框。 (三)设计抽样方案。即在保证遵循随机原则,并注意费用尽可能节约的前提下,选择恰当的抽样方式,确定必要抽样单位数。 (四)组织样本单位数据搜集和处理。 (五)推断总体,提供调查结果及相关说明。二、必要样本容量的确定 (一)影响样本容量的主要因素 抽样推断方案设计的一个重要任务,就是确定样本容量。而样本容量的大小,受多种因素影响,概括来说,主要有以下几个方面: 第一,被研究总体标志变动程度,即总体标准 差 的值。在其
35、它条件不变的情况下, 的值愈大,必要样本单位数愈多; 的值愈小,必要样本单位数愈少。 第二,极限误差(即允许误差) 的值。在其它条件不变的情况下, 的值大,可以少抽些样本单位; 的值小,则要多抽一些样本单位。一般地, 的值是在调查之前根据调查目的规定的。 第三,概率度的 值。在其它条件不变的情况下, 值愈大,要求把握程度愈高,则要多抽一些样本单位; 值愈小,要求把握程度愈低,则可以少抽些样本单位。 第四,抽样方法。在相同条件下,重复抽样需要多抽一些单位,不重复抽样可以少抽一些单位。 第五,抽样组织方式。由于不同抽样方式下抽样误差是不同的,为了满足抽样推断的目的要求,不同抽样组织方式必要的样本单
36、位数也是不一样的。一般地,简单随机抽样、整群抽样误差要大一些,因而应当多抽一些单位;类型抽样(分层抽样)、机械抽样(等距抽样)误差要小一些,可以少抽一些单位。 (二)必要样本容量的计算 抽样推断的组织方式主要有简单随机抽样、类型抽样、机械抽样、整群抽样、多阶段抽样等,下面我们分别介绍各种抽样方式下必要样本容量的计算方法。 1.简单随机抽样必要样本容量的计算 (1)简单随机重复抽样必要样本容量的计算 例6.13 对某地居民进行人均年收入抽样调查,已知该地人均年收入标准差为8千元,若允许误差不超过1.2千元,概率保证程度为95%,问应抽取多少户居民作为样本;若已知该地居民人均年收入达到30千元的户
37、占85%,成数抽样误差不超过5%,概率保证程度仍为95%,问应抽多少户居民进行调查。解:(1)计算样本平均数必要样本容量 已知 , , ,则 。 样本平均数必要样本容量为: (户)。(2)计算样本成数必要样本容量已知 , , ,则 。,样本成数必要样本容量: (户)。 (2)简单随机不重复抽样必要样本容量的计算例6.14 某地进行农村经济调查,已知农户平均收入标准差( )为500元,农户总数10000户,要求把握程度为95%,允许误差为50元。问不重复抽样下应抽多少农户进行调查。解:已知:所以即应抽370户进行调查。 例6.15 某灯具厂欲对10000只灯管进行耐用时间检验,以往几次合格(耐用
38、时间达到1000小时为合格品)率检验结果为90%、94%和96%。如果允许误差不超过3%,可靠程度为95.45%,问不重复抽样下应抽多少只灯管进行检验?解:已知:所以即应抽385只灯管进行检验。三、抽样调查的组织方式 在进行抽样调查工作时,必须根据研究总体本身的特点和抽样调查的目的要求,对抽取样本的程序和方式进行周密的设计和安排,这些工作概括来说,称为抽样调查组织方式。在抽样调查实践常用的组织方式概括起来,主要有五种,即简单随机抽样、类型抽样(又称分层抽样)、等距抽样(又称机械抽样)、整群抽样和多阶段抽样。 (一)简单随机抽样 1.简单随机抽样的概念、适用条件和不足 简单随机抽样,又称纯随机抽
39、样,它是按照随机原则直接从全及总体 个单位中抽取 个单位作为样本进行调查的组织方式。 简单随机抽样只适用于均匀总体,且各单位之间被研究标志值的差异较小,总体单位数较少,且便于编号和抽取。 简单随机抽样的不足是没有充分利用全及总体已知信息或辅助资料;在总体单位很多,编号困难甚至不可能时,无法组织抽样;有时抽到的单位很分散,致使调查工作十分困难。 2.简单随机抽样下的取样方法 主要有直接抽选法、抽签法和随机数表法等。 (1)直接抽选法。 即直接从全及总体中随机抽取样本单位的方法。如从粮食仓库中不同地点取出若干袋粮食进行质量检验等。 (2)抽签法。 即先给每个总体单位编号,然后在遵循随机原则的前提下
40、,采用一定方法抽取号码,确定中选单位。 (3)随机数表法。 随机数表上数字的出现及其排列是随机形式的,从0到 9共10个数字,每个数字各占1/10。而且表上数字组成的多位数(两位数、三位数、四位数、五位数等)也有大体相同的出现机会。使用时从表中任一行任一列开始,按照事先设定的样本单位数目的位数,依次抽取数字,直到取够预定单位数为止。 例6.16 某茶叶经销公司利用抽样推断方法检测一批包装茶叶是否符合重量要求,规定每包重量不低于152克。随机抽取100包,检测结果如表6.9所示,试以95.45%的概率估计该批茶叶平均每包重量。表6.9 某公司茶叶重量检测数据表每包重量包数组中值(克)148-15
41、05149745-41680150-152201513020-2480152-154501537650000154-1562015531002480156-158515778541680合计100-15300 - -320解:(1)计算样本平均数(2)计算样本标准差(3)计算平均数抽样平均误差(重复抽样)(克)(克)(4)计算抽样极限误差(5)估计该批茶叶每包平均重量所在区间区间上限:区间下限: 即该批茶叶平均每包重量在152.64至153.36克之间,其可靠程度为95.45%。(克) (二)类型抽样 1.类型抽样的概念 类型抽样又称分层抽样,它是先对调查总体各单位按主要标志加以分组,然后再从
42、各组中按照随机原则抽取一定数量的单位组成样本,进行调查和推断的一种抽样组织方式。 2.类型抽样单位的分配方法 类型抽样单位在各类中的分配,有等比例和不等比例两种分配方法。 (1)等比例分类抽样。 即在对各类分配样本数目时,按照各类单位数在总体单位数中的比例确定。即某类在样本总体中占的比重与其在全及总体中所占比重相同。 (2)不等比例分类抽样。 不等比例分类抽样是针对一些特殊情况进行的分类抽样。如当各类中变量值差异程度较大时不宜采用等比例抽样,这时对变量值差异程度(方差)大的类,应适当多抽样一些单位;对变量值差异程度(方差)小的类,可适当少抽样一些单位。 3.类型抽样推断步骤 类型抽样推断工作主
43、要有以下几个步骤: (1)抽取样本,计算样本各类(组)平均数(成数) 样本各类(组)平均数:样本各类(组)成数: (2)计算样本各类(组)平均数(成数)方差 样本各类(组)平均数方差: 样本各类(组)成数方差: (3)计算样本平均数(成数)组内方差的平均数 样本平均数组内方差的平均数 样本成数组内方差的平均数(4)计算类型抽样样本平均数(成数)类型抽样的样本平均数类型抽样的样本成数(5)计算类型抽样平均误差类型抽样平均数平均误差类型抽样成数平均误差 例6.17 某县有5万农户,根据地理情况分为平原和丘陵两类,其中平原3万户,丘陵2万户。本年按1%比例抽取样本单位进行平均年收入调查,调查结果如表
44、8.10所示。要求:(1)以95%的概率估计本年该县农户平均年收入;(2)估计本年收入达到5万元的农户比重;(3)若明年仍进行该项调查,概率保证程度为95.45%,允许误差不超过0.15万元,问应当抽多少农户进行调查,其中平原和丘陵各抽多少户。表6.10 某县农户年收入抽样调查资料户年收入(万元)2以下2446688以上合计平原地区(户)丘陵地区(户)1020501001855040201510300200合计301502206040500 解:(1)估计该县本年农户平均年收入 1)计算样本各类平均数 平原农户收入平均数:丘陵农户收入平均数:2)计算样本平均数3)计算样本各类方差平原农户收入方
45、差:丘陵农户收入方差:4)计算样本方差(即组内方差平均数) 5)计算抽样平均误差6)计算抽样极限误差7)估计农户平均年收入农户平均年收入下限:农户平均年收入上限:即农户平均年收入在4.4479至4.7521万元之间,其可靠程度为95%。 (2)估计该县本年收入达到5万元的农户比重1)计算类型抽样成数(注:n11代表在第1类(组)中具有某种标志的单位年占比重;n21代表在第2类(组)中具有某种标志的单位年占比重。2)计算样本成数方差平原地区:丘陵地区:样本成数方差:3)计算样本成数抽样平均误差4)计算样本成数抽样极限误差 5)估计本年收入达到5万元的农户比重农户年收入达5万元的比重下限:农户年收
46、入达5万元的比重上限:即农户年收入达5万元的比重在60.18%至67.82%之间,其可靠程度为95%。(3)计算明年进行同样调查的样本容量 不重复抽样样本平均数样本容量为: (三)等距抽样 1.等距抽样的概念和特点 等距抽样又称机械抽样或系统抽样。它是事先将全及总体各总体按某种标志排列,然后依固定顺序和间隔抽取调查单位的一种抽样组织形式。 等距抽样方式,能使抽取的调查单位更均匀地分布在全及总体中。因而,其抽样误差一般较简单随机抽样小。特别是当研究现象变异程度大,而在实际工作中又不可能抽取更多单位时,等距抽样比简单随机抽样更有效。 2.等距抽样方法 等距抽样分为无关标志排队和有关标志排队两种。无
47、关标志排队即指用来排队的标志与调查研究的目的无关。有关标志排队即指用来排队的标志与调查研究的目的有关。按有关标志排队的调查效果会优于按无关标志排队的调查效果。 等距抽样样本平均数、抽样平均误差、极限误差以及对全及总体指标的估计等计算方法与简单随机抽样相同。 3.等距抽样的具体组织 等距抽样有三种具体组织方法,即随机起点等距抽样、半距起点等距抽样和随机起点对称等距抽样。(1)随机起点等距抽样。即根据事先预定的样本单位数 ,将全及总体所有单位分成 等份,即 组,每组的单位数为 ,也即抽样距离为 。抽样起点在第一组的 个单位之间随机确定。 (2)半起点等距抽样。半距起点就是选第1组的第 个单位为第一
48、个抽取的样本单位。 (3)随机起点对称等距抽样。这种方法就是通过随机起点,系统抽出对称样本。它要求每两个组距合成一个大组,在每两个组距中对称抽出两个样本单位,而且要求各对称样本与其相近的下限或上限的距离是相等的,即都等于 值。(如每个距离是8个单位,在第一个距离随机取到第三个单位,它离8有5个单位,则第二个抽取的单位应是第13个单位,它离8的距离也是5。以后各轮均按此法抽取。) 例6.18 某社区住户按家庭年收入高低排队,然后每隔20户抽1户,共抽取100户,得知他们的家庭年平均收入为30000元,样本标准差为5000元,试计算该社区住户家庭年平均收入的抽样平均误差。解:这是按有关标志排队的等
49、距抽样,已知 抽样平均误差为: (四)整群抽样 1.整群抽样的概念和特点 整群抽样是先将全及总体划分为若干组群,然后从中随机抽取一些群,对中选群的所有单位进行全面调查的抽样组织形式。 例如,在冷库装箱鲜蛋检验中,以箱为单位抽出进行检验;在人口普查质量检验中,以村、乡或县为单位进行抽样检查;在大量连续生产的产品质量检验中,每隔1小时抽取10分钟的产品进行检验等,都属于整群抽样。2.整群抽样的计算方法(1)整群抽样平均数和平均误差的计算各群平均数的计算:样本平均数的计算:群间方差: 或整群抽样平均数平均误差(采用不重复抽样):(2)整群抽样成数和成数平均误差的计算第 群的成数为: ( 表示具有某种标志的单位数)总体成数为:整群抽样成数平均误差:式中: (3)整群抽样必要抽样群数的计算为抽样平均数必要抽样群数为:抽样成数必要抽样群数为: 例6.19 某电子元件厂生产某电子元件,为检查元件质量,在连续生产的480小时中,每8小时抽取1小时的全部产品进行质量检验,测得平均使用寿命为1500小时,群间方差为8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论