统计学(第八章抽样推断)_第1页
统计学(第八章抽样推断)_第2页
统计学(第八章抽样推断)_第3页
统计学(第八章抽样推断)_第4页
统计学(第八章抽样推断)_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章 抽样推断【教学目的】抽样推断是统计研究中一种重要的分析方法。通过本章的学习,要求掌握利用样本统计资料来推断总体数量特征的原理及方法;深刻理解抽样推断的概念及特点;了解抽样误差产生的原因,并对抽样误差、抽样平均误差、抽样极限误差加以区别,掌握抽样平均误差、抽样极限误差的计算;掌握点估计和区间估计的方法;掌握必要样本单位数的确定方法。第一节 抽样推断概述一、抽样推断的概念及特点(一)概念按随机原则从总体中抽取部分单位,根据这部分单位的信息对总体的数量特征进行科学估计与推断的方法。包括抽样调查和统计推断Ø 抽样调查:一种非全面调查,按随机原则从总体中抽取部分单位进行调查以获得相关资

2、料,以推断总体Ø 统计推断:根据抽样调查所获得的信息,对总体的数量特征作出具有一定程度的估计和推断。(二) 特点1.按随机原则(等可能性原则)抽取调查单位.随机抽样的目的是为了排除人的主观影响,使每个样本都有系统的可能性被抽中,使样本对总体具有充分的代表性。随机性原则是保证抽样推断正确性的一个重要前提条件。随机抽样不是随便抽样。2.根据部分推断总体的数量特征3.抽样推断的结果具有一定的可靠性和准确性,抽样误差可以事先计算和控制其他特点有经济性、时效性、准确性、灵活性等(三)抽样推断的应用1.不可能进行全面调查时2.不必要进行全面调查时3.检查生产过程正常与否4.对全面调查资料进行补充

3、修正时二、抽样的几个基本概念1.样本容量与样本个数 (1)样本容量:样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用n表示,它表明一个样本中所包含的单位数。一般地,样本单位数大于30个的样本称为大样本,不超过30个的样本称为小样本。(2)样本个数:又称样本可能数目,它是指从一个总体中可能抽取多少个样本。样本个数的多少与抽样方法有关。2.总体参数与样本统计量(1)总体参数:总体分布的数量特征就是总体参数,也是抽样统计推断的对象。常见的总体参数有:总体的平均数指标,总体成数(比重)指标,总体分布的方差、标准差等等。(2)样本统计量:与总体参数对应的是样本统计量。设()是总体容

4、量为n的样本,若样本函数()中不含任何未知参数,则称为一个统计量。例如就是一个统计量,称为样本均值(Sample mean),也是统计量,称为样本方差(Sample variance),3、重复抽样与不重复抽样(1)重复抽样:是指从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一次样本单位的抽取。(2)不重复抽样:即每次从总体中抽取一个单位,登记后不放回原总体,不参加下一次抽样。第二节 抽样的组织形式Ø 抽样的组织形式有纯随机抽样、机械抽样、类型抽样、整群抽样和多阶段抽样。一、纯随机抽样1.含义:对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本2

5、.特点:最符合抽样调查的随机原则,是基本形式。简便易行。3.范围:仅适用于单位数不多、标志变异较小、分布较均匀的总体二、类型抽样1.含义:先将全及总体中的所有单位按某一主要标志分组,然后在各组中采用纯随机抽样或机械抽样方式,抽取一定数目的调查单位构成所需的样本。又叫分层抽样或分类抽样。2.方法:A比例分配法 ni/n=Ni/NB 最佳分配法 根据各层单位的变异程度的大小来分配C经济分配法 除了考虑单位数目和变异程度外,还有调查费用。3.特点:能保证分布的均匀性,提高样本的代表性,误差较小;能同时推断总体指标和各子总体的指标三、机械抽样1.含义:是先将全及总体所有单位按某一标志顺序编号排列,然后

6、按照固定顺序和相等的空间距离或间隔,从中抽取样本单位的一种抽样组织方式。又叫等距抽样或系统抽样。2.方法:根据需要计算抽取各个样本单位之间的距离或间隔;然后,按此间隔依次抽取必要的样本单位。3.特点:能保证样本较均匀地分布。是不重复的抽样。4.形式:按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样。四、整群抽样1.含义:将全及总体单位划分为若干群或组,然后按纯随机抽样或等局抽样方式,从中成群或成组的抽取样本单位,对抽中的群或组的所有单位进行全面调查的一种方式2.特点:简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差五.多阶段抽样指分两个或两

7、个以上的阶段来完成抽取样本单位的过程例:在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段:从该省所有县中抽取5个县第二阶段:从被抽中的5个县中各抽4个乡第三阶段:从被抽中的20个乡中各抽5个村第四阶段:从被抽中的100个村中各抽10户 样本n=100×10=1000(户)第三节 抽样误差一、抽样误差概述(一)抽样误差的一般概念u 统计调查误差的种类按产生的原因可以分为登记性误差和代表性误差。一般地说,抽样误差是指样本指标与被它估计未知的总体参数(总体特征值)之差。具体地是指样本平均数x与总体平均数X的差,样本成数p与总体成数P的差(p-P)。例如,某地区全部小麦平均

8、亩产400公斤,而抽样调查得到的平均亩产为391公斤或403公斤,则样本指标与总体指标之间的误差为-9公斤或3公斤。(二)影响抽样误差的因素1.总体各单位标志值的差异程度。差异程度愈大则抽样误差愈大,差异程度愈小则则抽样误差愈小。2.样本单位数。在其他条件相同的情况下,样本的单位数愈多,则抽样误差愈小。3.抽样方法。抽样方法不同,抽样误差也不同。一般情况下重复抽样误差比不重复抽样误差要大一些。4.抽样调查的组织形式。不同的抽样组织形式就有不同的抽样误差。说明:抽样误差是样本统计量和总体参数之间的绝对差异,是不可测量的.但抽样误差的大小可以依据概率分布理论加以说明u 抽样误差不是唯一的。二、抽样

9、平均误差(一)抽样平均误差的概念抽样平均误差是反映抽样误差一般水平的指标,其实质是抽样指标的标准差。抽样平均误差反映抽样指标和总体指标间的平均误差程度。(二) 平均数抽样的平均误差重复抽样条件下: 不重复抽样条件下:u 关于总体方差的估计方法u 用过去同类问题全面调查或抽样调查的经验数据代替;u 用样本标准差S 代替总体标准差,用SP代替P 。(三) 成数抽样平均误差重复抽样条件下: 不重复抽样条件下: u 重复抽样和不重复抽样条件下抽样平均误差的区别。从上面的计算公式可看到,在其他条件相同的情况下,重复抽样和不重复抽样仅差一个修正因子的平方根。由于所以不重复抽样的平均误差小于重复抽样的平均误

10、差的倍。又称抽样比例或抽样强度。例:对某企业某时期生产的2号电池的电流强度进行1的抽样检查,结果如表:电流强度(安培)抽查电池数(个)组中值xf(x-x)2f4.5以下4.55.05.05.55.56.06.06.56.5以上245139314.254.755.255.756.256.758.519267.75224.2518.756.751.22*20.72*40.22*510.32*190.82*31.32*1合计10054514解:平均电流强度为: 电流强度的标准差: 电流强度的平均误差:u 按规定,2号电池的电流强度必须5A以上才合格,则该批电池的合格率为: 标准差: 成数的平均误差:

11、(四)各种组织形式下的抽样平均误差 上述抽样平均误差是建立在简单随机抽样的基础上的;其他组织方式的抽样误差如下:1.类型抽样(分层抽样)ü 抽样平均误差不仅取决于样本容量,还取决于各类型组组内方差的平均数。重复抽样: 不重复抽样:u 类型抽样的平均误差一般小于同样容量的纯随机抽样的平均误差。例:某市对居民在一年内某类消费品的消费支出进行了类型抽样,调查结果如下表:类别全部居民(户)N调查户数(户)n平均消费支出(元)标准差(元)城镇农村45018025109607502240合计6303590028各类方差平均数: 抽样平均误差为:2.机械抽样(等距抽样) 其抽样误差不仅取决于全及总

12、体的标志变动度,还取决于各个抽样间隔的标志变动度。² 采用纯随机抽样公式(不重复抽样)计算抽样误差。3.整群抽样l 采用不重复抽样方法(1)平均数的抽样误差为:(2)成数的抽样平均误差:三、抽样极限误差1.抽样极限误差的概念抽样极限误差是指抽样指标与总体指标之间误差可允许的最大范围。因平均误差反映抽样的可能误差范围,而实际上每次抽样推断中只抽一个样本,因此实际上的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差。误差太大或太小都会给抽样工作造成不利影响,因而在抽样估计时,应根据研究对象的变异程度和分析任务的要求确定可允许误差的范围,这一允许范围称极限误差。Ø 抽样平均数

13、的极限误差: Ø 抽样成数的极限误差: u 由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允许误差,提高估计的精度,又会降低估计的把握程度,所以在实际中应根据具体情况,先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。2.抽样极限误差的计算公式(大样本条件下)(1)样本平均数的极限误差:(2)样本成数的极限误差: ² Z为概率度,是给定概率保证程度下样本均值偏离总体均值的抽样平均误差的倍数。Z与相应的概率保证程度存在一一对应关系。第四节 参数估计一、点估计(一)点估计的概念及特点² 参数估计:以样本统计量对总体参数进行

14、估计,有点估计和区间估计两种。点估计:直接以样本统计量作为相应的总体参数的估计量。优点:直接给出了总体参数的具体数值 缺点:未能反映误差的大小参数点估计有:(1)样本均值估计总体均值(2)样本成数估计总体成数(3)样本方差估计总体方差(二)估计的评价标准:(1)无偏性: 设是未知参数的一个点估计量,若满足 即估计量的数学期望等于被估计参数则称是的无偏估计量,否则称为有偏估计量。需要注意的是,由于估计量是样本的函数,样本量是维随机变量,所以对求平均是按样本的概率分布求平均。无偏性是我们衡量点估计量好坏的一个评价标准,这个评价标准的直观意义如下:由于样本的出现带有随机性,所以基于一次具体抽样所得的

15、参数估计值未必等于参数真值,这是由样本的随机性造成的。我们希望当大量使用这个估计量对参数进行估计时,一系列估计值的平均值应该与待估参数真值相等。这就从平均效果上对估计量的优劣给出一个评价标准。(2)有效性:设,均为未知参数的无偏估计量,如果对参数的一切可能取值有,则称无偏估计量比有效一个无偏估计量并不意味着他就非常接近被估计的参数,他还必须与总体参数的离散程度比较小。对同一总体参数的两个无偏点估计量,方差小者更有效。(3)一次性:指随着样本单位数n的增大,样本估计量将在概率意义下越来越接近于总体真实值若对于任意>0,有二、区间估计法在参数估计中,虽然点估计可以给出未知参数的一个估计,但不

16、能给出估计的精度。为此人们希望利用样本给出一个范围,要求它以足够大的概率包含待估参数真值。这就是导致区间估计问题。所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计成立的概率值。设是未知参数,是来自总体的样本,构造两个统计量,对于给定的(01),若、满足 则称随机区间,是参数的置信水平为的置信区间, 称为,的置信度,称为置信限。这里有几点需要说明:(1)区间,的端点,及长度都是样本的函数,从而都是随机变量,因此,是一个随机区间。(2) 是说随机区间,以的概率包含未知参数真值,区间长度描述估计的精度,置信水平描述了估计的可靠度。(3)因为未知参数是非随机变量,所以不能说落入区间,的概率

17、是,而应是随机区间,包含的概率是。通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。(二)总体均值的区间估计1.正态总体且方差已知;或非正态总体、方差未知、大样本情况下在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值,方差为。则称为总体均值在置信水平下的置信区间。u 区间估计步骤:1.计算样本统计量2.计算抽样平均误差3.计算极限误差4.确定置信区间5.估计总量指标l 注意抽样方法的不同例保险公司从投保人中随机抽取36人,计算得36人的平均年龄岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间。解:查表得故

18、全体投保人平均年龄的置信水平为99%的置信区间为36.41,42.59² 若总体方差未知,可用样本方差S2代替即39.5±2.13=(37.37,41.63),投保人平均年龄在90的置信水平下的置信区间为37.37岁41.63岁。2.正态总体、方差未知、小样本情况下如果总体服从正态分布,无论样本容量大小,样本均值的抽样分布都服从正态分布。只要总体方差已知,即使在小样本情况下,也可以计算总体均值的置信区间。如果总体方差未知,需用样本方差S2代替,在小样本情况下,应用分布来建立总体均值的置信区间。分布是类似正态分布的一种对称分布,他通常要比正态分布平坦和分散。随着自由度的增大,

19、分布逐渐趋于正态分布。正态总体、方差未知、小样本情况下,总体均值在置信水平下的置信区间为: (重复抽样条件下) (6.18) (不重复抽样条件下) (6.19)其中为t分布临界值,可以查t分布临界值表得到(三)成数的区间估计在大样本(一般经验规则:)条件下,样本比例的抽样分布可用正态分布近似。在这种情况下,数理统计已经证明如下结论:置信水平为的置信区间为: (重复抽样) (不重复抽样) 例某城市想要估计下岗职工中女性所占的比例,采取重复抽样方法随机抽取了100名下岗职工,其中65人为女性。试以95的置信水平估计该城市下岗职工中女性所占比例的置信区间。解:已知,根据公式得: 即65±9.35%=(55.65%,74.35%),95的置信水平下估计该城市下岗职工中女性所占比例的置信区间为55.65%74.35%。例某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对。试以95的置信水平确定赞成改革的人数比例的置信区间。解:已知,根据公式得:即75±5.37%=(69.63%,80.37%),95的置信水平下估计赞成改革的人数比例的置信区间为69.63%80.37%。三、样本容量的确定(一)影响样本容量的意义在抽取样本时样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论