第5章抽样与参数估计-课件_第1页
第5章抽样与参数估计-课件_第2页
第5章抽样与参数估计-课件_第3页
第5章抽样与参数估计-课件_第4页
第5章抽样与参数估计-课件_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 5 章 抽样与参数估计统计学Statistics第 5 章 抽样与参数估计5.1 抽样及其分布5.2 点估计5.3 单个总体参数的区间估计5.4 两个总体参数的区间估计附录: Excel的应用学习目标1 了解抽样和抽样分布的基本概念2 了解点估计的概念和估计量的优良标准3 掌握总体均值、总体比例和总体方差的区间估计掌握样本容量的确定掌握Excel的应用5.1 抽样及其分布1. 抽样推断2几个基本概念 总体个体 样本 统计量 抽样单元与抽样框3. 抽样组织方式4 抽样分布抽样推断的概念抽样推断是指根据随机原则,从总体中抽取一部分单位进行观察,并依据所获得数据的处理结果,对总体的数量特征做出具

2、有一定可靠程度的估计和判断,从而达到对总体的分布状况及其数量特征认识的目的。抽样推断的类型参数估计:根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。 假设检验:根据样本信息对研究总体的数量规律是否具有某种指定特征进行检验。抽样推断的应用场合(1)用于无法采用或不必采用全面调查的 现象;(2)对全面调查的结果进行复核;(3)生产过程的质量控制;(4)对总体的假设进行检验。总体和个体(概念要点)1具体含义 总体(Population):调查研究的事物或现象的全体。例如:全部居民、所有产品 个体(Item unit): 组成总体的每个元素2抽象含义 总体(Population):调查研究中

3、所关心的作为随机变量的统计指标。例如居民收入、产品寿命 个体(Item unit): 统计指标所取得每个可能值样本(Sample)1样本(Sample):从总体中所抽取的部分个体2样本容量(Sample size):样本中所含个体的数量3样本选取的基本原则: 代表性:样本的每个分量都与总体有相同的分布 独立性:样本的每个分量都是相互独立的。即要求观察结果之间互不影响。 4简单随机样本:满足代表性和独立性的样本5简单随机抽样:获得简单随机样本的方法一次失败的统计调查在1936年的美国总统选举前,一份名为 Literary Digest 的杂志进行了一次民意调查。调查的焦点是谁将成为下一届总统的挑

4、战者,是堪萨斯州州长Alf Landon,还是现任总统 Franklin Delano Roosevelt。为了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽车在1936年并不像现在那样普及,但是这些名单比较容易得到)。尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回的调查表中,Alf Landon非常受欢迎。于是该杂志预测 Landon 将赢得选举。但事实上是Franklin Roosevelt赢得了这次选举失败的原因在经济大萧条时期调查有电话和汽车的人们,并不能够反映全体选民的观点。此外,只有少数的问卷被收回。这些都是值得怀疑的抽样单

5、元与抽样框抽样单元(Sampling unit):将总体划分成互不重迭且又穷尽的若干部分,每个部分称为一个抽样单元每个抽样单元都是由若干个体组成的集合只由一个个体组成就称为最小抽样单元 抽样单元可以是自然形成的,也可以是人为划定的 抽样框(Sampling frame):关于抽样单元的名册或清单上一级别的某个抽样单元被抽中,必须在下一级别抽样框中连续抽样有效的抽样框所包含的抽样单元应既无遗漏又无重复参数与统计量例:设 是总体 容量为n的样本,则样本均值(Sample mean):样本方差(Sample variance):阶原点矩(Moment of order ):都是统计量统计量是不含任何

6、未知参数的样本函数。由样本构造统计量,实际上是对样本所含总体的信息提炼加工;根据不同的推断要求,可以构造不同的统计量。 抽样组织方式 抽样组织方式概率抽样(probability sampling)也称随机抽样特点:按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simple random sampling)从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中. 特点简单、直观,在抽样框完整时,可直接从中抽

7、取样本用样本统计量对目标量进行估计比较方便 是最基本的抽样方法,并且是其它抽样方法的基础3. 局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率抽样方法抽取元素的具体方法有重复抽样和不重复抽样(1)重复抽样(有放回的抽样)是从N个总体单位中抽取一个单位进行观察、纪录后,再放回总体中,然后再抽取下一个单位,这样连续抽取n个单位组成样本的方法。 (2)不重复抽样(无放回抽样)是从N个总体单位中抽取一个单位进行观察、纪录后,不放回总体中,在余下的总体中抽取下一个单位,这样连续抽取n个单位组成样本的方法。 根据对样本的要求不同,又分考虑顺序的抽样

8、和不考虑顺序的抽样抽样方法的不同,获得样本的可能数目也不同.样本的可能数目(1)考虑顺序的不重复抽样,样本的可能数目为:(2)考虑顺序的重复抽样,样本的可能数目为:(3)不考虑顺序的不重复抽样,样本的可能数目为:(4)不考虑顺序的重复抽样,样本的可能数目为:分层抽样(分类抽样、类型抽样)(stratified sampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本.优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(机械抽样、等距抽样)(systematic s

9、ampling)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位.先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(cluster sampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查.特点:抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施.缺点是估计的精度较差.二阶抽样与多阶段抽样(two&multi-stage sam

10、pling)先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样不需要对每个高级别的抽样单元建立关于低级别抽样单元的抽样框,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法 抽样分布抽样分布 (sampling distribution)样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 样本统计量是随机变量样本均

11、值, 样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布的形成过程 (sampling distribution)总体计算样本统计量如:样本均值、比例、方差样本样本均值的抽样分布样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础样本均值的抽样分布 (例题分析)【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下总体分布14230.1.

12、2.3均值和方差样本均值的抽样分布 (例题分析) 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n = 2 的样本(共16个)样本均值的抽样分布 (例题分析) 计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.2

13、0.3P ( x )1.53.04.03.52.02.5样本均值的分布与总体分布的比较 (例题分析) = 2.5 2 =1.25总体分布14230.1.2.3抽样分布P ( x )1.00.1.2.31.53.04.03.52.02.5x样本均值的抽样分布与中心极限定理 = 50 =10X总体分布n = 4抽样分布xn =16当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n)中心极限定理(central limit theorem)当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布中心极限定

14、理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布一个任意分布的总体x中心极限定理 (central limit theorem)x 的分布趋于正态分布的过程抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布(数学期望与方差)样本均值的抽样分布(数学期望与方差)比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n样本比例的抽样分布总体(或样本)中具有某种属性的单

15、位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比总体比例可表示为样本比例可表示为比例(proportion)在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础样本比例的抽样分布样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布(数学期望与方差)5.2 点估计点估计的常用方法衡量估计量的标准参数估计概述参数估计概述统计估计: 研究由样本估计总体的未知分布或 分布中的未知参数2. 非参数估计:直接对总体未知分布的估计3. 参数估计:

16、 总体分布类型已知,仅需对分布的 未知参数进行的估计参数估计的基本方法参数估计的方法矩估计法最小二乘法最大似然法顺序统计量法估 计 方 法点 估 计区间估计估计量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等例如: 样本均值就是总体均值 的一个估计量参数用 表示,估计量用 表示估计值:估计参数时计算出来的统计量的具体值如果样本均值 x =80,则80就是的估计值估计量与估计值 (estimator & estimated value)点估计 (point estimate)1. 点估计量:设总体 的分布类型已知,但包含未知参数,从总体中抽取一个简单随机样本 ,构造一个适当的统计量

17、 作为的估计,称 为未知参数的点估计量 2. 用样本的估计量直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估例如:用两个样本均值之差直接作为总体均值之差的估计3. 没有给出估计值接近总体未知参数程度的信息点估计的常用方法(一)矩法估计 用总体矩对应的样本矩作为其点估计量。(二)极大似然估计 评价估计量的标准无偏性(unbiasedness)P( )BA无偏有偏设是未知参数的一个点估计量,若满足则称是的无偏估计量,否则称为有偏估计量有效性(efficiency)有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效 AB 的抽样分布 的抽样分布P( )一致性(cons

18、istency)一致性:随着样本容量的增大,估计量的 值越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P( )均方误差准则(Mean square error)是参数的两个估计量,若对的一切可能值,设且严格不等式至少对参数的某个可能值成立,则称在均方误优于,差意义下注:均方误差准则计量取值“集中”于参数真值得的程度5.3 单个总体参数的区间估计1. 总体均值的区间估计2. 总体比例的区间估计3. 总体方差的区间估计区间估计 (interval estimate)在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的根据样本统计量的抽样分布能够对样本

19、统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在7585之间,置信水平是95% 样本统计量 (点估计)置信区间置信下限置信上限置信区间 (confidence interval)设是未知参数, 是来自总体的样本,构造两个统计量 , ,对于给定的(0 1),若 、 满足: 则称随机区间是参数置信水平为(1 - 的置信区间,(1 - 称为的置信系数,、称为置信限。将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平.(样本的估计值接近于总体参数的概率) 表示为 (1 - 为是总体参数未在区间内的比例常用的置信水平值有 99%, 95%, 90%相应的

20、 为0.01,0.05,0.10置信水平 2. 区间宽度为随机变量,置信区间为随机区间置信水平描述了估计的可靠度,区间宽度描述 了估计的精度 4. 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间与置信水平 置信区间与置信水平 均值的抽样分布(1 - ) % 区间包含了 % 的区间未包含1 a a /2a /2影响区间宽度的因素1.总体数据的离散程度,用 来测度样本容量,3.置信水平 (1 - ),影响 z 的大小总体均值区间估

21、计的图示x95% 的样本 -1.96 x +1.96x99% 的样本 - 2.58x + 2.58x90%的样本 -1.65 x +1.65x总体均值的区间估计总体均值的区间估计(正态总体且 已知或非正态总体、 未知、大样本)1.假定条件总体服从正态分布,且方差() 已知如果不是正态分布,可由正态分布来近似 (n 30)使用正态分布统计量 z总体均值 在1- 置信水平下的置信区间为总体均值的区间估计(例题分析)【 例 5.3.1】保险公司从投保人中随机抽取36人,计算得36人的平均年龄 岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间

22、 解:已知n=36, 1- = 99%,z/2=2.575。根据样本数据计算得:总体均值在1-置信水平下的置信区间为故全体投保人平均年龄的置信水平为99%的置信区间为36.41,52.59总体均值的区间估计(例题分析)【 例5.3.2 】一家食品公司,每天大约生产袋装食品若干,按规定每袋的重量应为100g。为对产品质量进行检测,该企业质检部门采用抽样技术,每天抽取一定数量的食品,以分析每袋重量是否符合质量要求。现从某一天生产的一批食品8000袋中随机抽取了25袋(不重复抽样),测得它们的重量如下表所示,已知产品重量服从正态分布,且总体方差为100g。试估计该批产品平均重量的置信区间,置信水平为

23、95。 25袋食品的重量 112.5101.0103.0102.0100.5102.6107.5 95.0108.8115.6100.0123.5102.0101.6102.2116.6 95.4 97.8108.6105.0136.8102.8101.5 98.4 93.3总体均值的区间估计(例题分析)解:已知N(,102),n=25, 1- = 95%,z/2=1.96。根据样本数据计算得: 总体均值在1-置信水平下的置信区间为该食品平均重量的置信区间为101.4459g109.2741g注:在不重复抽样条件下,置信区间取总体均值的区间估计(例题分析)【例5.3.3】一家保险公司收集到由3

24、6投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间 36个投保人年龄的数据 233539273644364246433133425345544724342839364440394938344850343945484532总体均值的区间估计(例题分析)解:已知n=36, 1- = 90%,z/2=1.645。根据样本数据计算得: , 总体均值在1- 置信水平下的置信区间为投保人平均年龄的置信区间为37.37岁41.63岁总体均值的区间估计 (正态总体、方差未知、小样本)1.假定条件总体服从正态分布,且方差() 未知小样本 (n 30)使用 t 分布

25、统计量总体均值 在1-置信水平下的置信区间为t 分布 t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 xt 分布与标准正态分布的比较t 分布标准正态分布t不同自由度的t分布标准正态分布t (df = 13)t (df = 5)z总体均值的区间估计(例题分析)【例5.3.4】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间16灯泡使用寿命的数据 15101520148015001450148015101520148

26、01490153015101460146014701470总体均值的区间估计(例题分析)解:已知N(,2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得: , 总体均值在1-置信水平下的置信区间为该种灯泡平均使用寿命的置信区间为1476.8小时1503.2小时总体比例的区间估计总体比例的区间估计假定条件:大样本条件下,样本比例的抽样分布可以由正态分 布来近似使用正态分布统计量 z3. 总体比例在1-置信水平下的置信区间为总体比例的区间估计(例题分析)【例5.3.5】某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置

27、信水平估计该城市下岗职工中女性比例的置信区间解:已知 n=100,p65% , 1- = 95%,z/2=1.96该城市下岗职工中女性比例的置信区间为55.65%74.35% 总体比例的区间估计(例题分析)【 例 5.3.6】某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对。试以95的置信水平确定赞成改革的人数比例的置信区间 解:已知n=200,z/2=1.96,p75% 。根据样本数据计算得总体均值在1-置信水平下的置信区间为95的置信水平下估计赞成改革的人数比例的置信区

28、间为69.63%80.37% 总体方差的区间估计总体方差的区间估计1.估计一个总体的方差或标准差2.假设总体服从正态分布总体方差 2 的点估计量为S2,且4. 总体方差在1- 置信水平下的置信区间为总体方差的区间估计(图示) 2 21- 2 总体方差1- 的置信区间自由度为n-1的2总体方差的区间估计(例题分析)【例5.3.7】 食品厂从生产的罐头中随机抽取15个称量其重量,得样本方差s2 =1.652(克2 ),设罐头重量服从正态分布,试求其方差的置信水平为90%的置信区间。解:已知n15,1-90% ,s2 =1.652 查卡方分布表的:故总体方差的置信水平为90%的置信区间为1.61,5

29、.8 5.4 两个总体参数的区间估计1. 总体均值之差的区间估计2. 总体比例之差的区间估计3. 总体方差之比的区间估计两个总体参数的区间估计总体参数符号表示样本统计量均值之差比率之差方差比两个总体均值之差的区间估计 (独立大样本)两个总体均值之差的估计(大样本)1.假定条件两个总体都服从正态分布,1、 2已知若不是正态分布, 可以用正态分布来近似(n130和n230)两个样本是独立的随机样本使用正态分布统计量 z两个总体均值之差的估计 (大样本)1.1, 2已知时,两个总体均值之差1-2在1- 置信水平下的置信区间为1、 2未知时,两个总体均值之差1-2在1- 置信水平下的置信区间为两个总体

30、均值之差的估计(例题分析)【例】某地区教育委员会想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立抽取两个随机样本,有关数据如右表 。建立两所中学高考英语平均分数之差95%的置信区间 两个样本的有关数据 中学1中学2n1=46n1=33S1=5.8 S2=7.2两个总体均值之差的估计(例题分析)解: 两个总体均值之差在1-置信水平下的置信区间为两所中学高考英语平均分数之差的置信区间为5.03分10.97分两个总体均值之差的区间估计 (独立小样本)两个总体均值之差的估计(小样本: 12= 22 )1.假定条件两个总体都服从正态分布两个总体方差未知但相等:1=2两个独立的小样本(n1

31、30和n230)总体方差的合并估计量估计量x1-x2的抽样标准差两个总体均值之差的估计(小样本: 12=22 )1.两个样本均值之差的标准化2.两个总体均值之差1-2在1- 置信水平下的置信区间为两个总体均值之差的估计(例题分析)【例】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12名工人,每个工人组装一件产品所需的时间(分钟)下如表。假定两种方法组装产品的时间服从正态分布,且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间两个方法组装产品所需的时间 方法1方法228.336.027.631.730.137.222.226.029.038

32、.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521两个总体均值之差的估计(例题分析)解: 根据样本数据计算得 合并估计量为:两种方法组装产品所需平均时间之差的置信区间为0.14分钟7.26分钟两个总体均值之差的估计(小样本: 12 22 )1.假定条件两个总体都服从正态分布两个总体方差未知且不相等:12两个独立的小样本(n130和n230)2. 使用统计量两个总体均值之差的估计(小样本: 1222 )两个总体均值之差1-2在1- 置信水平下的置信区间为自由度两个总体均值之差的估计(例题分析)【例】沿用前例。假定第一种方法随机

33、安排12名工人,第二种方法随机安排名工人,即n1=12,n2=8 ,所得的有关数据如表。假定两种方法组装产品的时间服从正态分布,且方差不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间 两个方法组装产品所需的时间 方法1方法228.336.027.631.730.137.222.226.529.038.531.037.634.433.832.128.020.028.830.030.221两个总体均值之差的估计(例题分析)解: 根据样本数据计算得 自由度为:两种方法组装产品所需平均时间之差的置信区间为0.192分钟9.058分钟两个总体比率之差的区间估计1.假定条件两个总体服从二项分布可以用正态分布来近似两个样本是独立的2.两个总体比率之差1- 2在1- 置信水平下的置信区间为两个总体比率之差的区间估计两个总体比率之差的估计(例题分析)【例】在某个电视节目的收视率调查中,农村

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论