《统计学(第二版)》课件第05章 抽样与参数估计sampling and parameter estimation (2)_第1页
《统计学(第二版)》课件第05章 抽样与参数估计sampling and parameter estimation (2)_第2页
《统计学(第二版)》课件第05章 抽样与参数估计sampling and parameter estimation (2)_第3页
《统计学(第二版)》课件第05章 抽样与参数估计sampling and parameter estimation (2)_第4页
《统计学(第二版)》课件第05章 抽样与参数估计sampling and parameter estimation (2)_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、你不必吃完整头牛,才知道它的肉是咬不动的。 -Samel Johnson 管中窥豹可见一斑 -南朝宋刘义庆 第一节 抽样推断的基本问题 第二节 抽样分布 第三节 参数估计 第四节 其它抽样组织方式第五章 抽样与参数估计推断统计:利用样本统计量对总体某些性质或 数量特征进行推断。参数估计假设检验统计方法描述统计推断统计参数估计侧重于用样本统计量估计总体的某一未知参数假设检验侧重于用样本资料验证总体是否具有某种性质或数字特征 随机原则总体参数统计量参数估计假设检验总体样本第一节 抽样推断的基本问题 一、抽样推断的概念及其特点(一)抽样推断的概念 它是按照随机原则,从研究总体的所有单位中,抽取部分单

2、位作为样本,然后以样本的观测或调查结果对总体的数量特征做出具有一定可靠程度和精度的估计或推断的一种统计调查方法。抽样推断也叫抽样调查 从信息学院中,随机抽取300名学生,计算平均成绩,推断本校学生的平均成绩水平从某地消费者中,通过随机抽样抽取若干消费者进行消费水平的实测,计算平均消费水平,以此来推断该地区的平均消费水平。 1、在调查单位的选取上遵循随机原则 随机原则,就是在抽选样本时排除主观上有意识地抽选调查单位,使总体每个单位都有相同的机会被抽中。2、它以样本的数量特征去推断总体的数量特征。 抽样调查不仅具有省时、省力的特性,而且还 能认识总体的数量特征。 3、推断过程中抽样误差可以事先计算

3、并加以控制。 (二)抽样推断的基本特点1、有些现象无法进行全面调查,但为了测算总体情况,必须进行抽样调查。2、抽样调查的结果可以对全面调查的结果进行检查和修正。3、抽样调查可用于生产过程的质量控制。(三)抽样调查的作用 (一)总体 总体,又称全及总体或母体,是指所要调查研究的对象的全体。在抽样调查中,总体是唯一确定的。总体内包含的单位多少称为总体单位数,一般用符号N表示。二、抽样推断中的基本概念数量总体 被研究的是数量变量的总体 属性总体 被研究是属性变量的总体 变量性质 不同 反映总体数量特征的指标为总体指标或总体参数。从理论上说,它由被抽样总体各单位的变量值或变量特征计算而成的。对于数量总

4、体,设某单位的变量值为 ,总体指标有: 总体均值: 总体方差: 总体标准差: 对于属性总体,设总体中具有某种属性特征的单位数为 ,其它单位数为 ,总体单位数 ,总体指标有: 总体比率: 总体方差: 总体标准差: 总体比率是是非标志的平均数。所谓是非标志就是指只能取两种标志表现的标志。假定具有某种相同标志表现的变量值记为1,不具备该种标志表现的变量值记为0,那么总体比率可以看作是这两个变量的加权算术平均数,即是是非标志的平均数:(二)样本 样本,也称子样,是指从被调查的总体中按照随机原则抽取,并要对其进行调查或观察的部分单位所组成的集合体。 一个样本所包含的单位数称样本容量,用符号n表示。从总体

5、中可能抽取的全部样本数目称为可能样本个数。 对于一个总体,从中所抽取的样本是随机的,不是唯一的。 表示样本数量特征的指标称为样本指标或样本统计量,它由样本各单位的标志值或标志特征计算而成的。设 是来自总体的样本,则样本指标有: 样本均值:样本方差: 未分组 分组未分组 分组未分组 分组样本标准差:样本标准差:样本比率: 样本方差:平均数标准差、方差比率参数、2P统计量S、 S2p总体样本证明123 在统计学中经常会遇到“自由度”这个概念,所谓自由度是指不受任何约束,可以自由取值的变量的个数。例如,有4个变量 ,它们的和是20,即 ,这是一个限制条件,此时,有3个变量可以自由取值,由于只有一个限

6、制条件,那么可以自由取值的变量的个数是4-1=3,即自由度为3。(三) 自由度(df:degree of freedom) 三、抽取样本的方法 根据样本单位是否可重复抽取,分为:(一)重复抽样 抽取样本单位的过程:设从总体N中随机抽取一个容量为n的样本,每次从总体中抽取一个样本单位,连续进行n次抽取,构成一个样本。在对每次抽取的样本单位观测后,将该单位重新放回,这样在下一次的抽样中仍有可能再次被抽中。(二)不重复抽样 它从总体N中抽取一个容量为n的样本,也是由连续次抽取的结果构成的,但每次抽中的样本单位,观测后不再放回总体,因此在下一次抽取样本单位时不会再抽到前面已抽中过的样本单位。 重复抽样

7、特点:1、同一单位有多次重复被抽中的机会,每个单位抽中与否在各次是相同的2、能够保证每次抽取时,总体的成分不变,而且每个个体被抽到的概率不变 不重复抽样特点:1、同一单位只有一次被抽中的机会2、每个单位抽中与否机会概率是不同的四、抽样推断的理论基础大数定律:大数定律有若干个表现形式。这里仅介绍其中常用的两个重要定律:(一)切比雪夫大数定律 将该定律应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。 (二)贝努力大数定律 该定律是切贝雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近

8、于其发生的概率,即频率的稳定性。 在抽样调查中,用样本比率(成数)去估计总体比率(成数),其理论依据即在于此。 中心极限定理:如果总体变量存在有限的平均数和方差,那么,不论这个总体的分布如何,随着样本容量的增加,样本均值的分布便趋近正态分布。在样本容量充分大的条件下,样本均值也趋近于正态分布,这为抽样误差的概率估计理论提供了理论基础。样本容量充分大:n30中心极限定理(central limit theorem)当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为2/n

9、的正态分布一个任意分布的总体x中心极限定理 (central limit theorem)x 的分布趋于正态分布的过程第二节 抽样分布 一、抽样分布的概念 抽样分布是指样本统计量的概率分布。 从同一个总体中,抽取样本容量相同的所有可能样本后,计算每一个样本统计量的取值和相应的概率,就组成样本统计量的概率分布,简称抽样分布 。 如果总体中每个个体被抽到的机会是均等的,并且在每次抽取一个个体之后总体的成分不改变,这样抽取出的个体所构成的样本就能很好地反映总体的情况,基于这种想法抽取的样本,称为简单随机样本。 当总体为有限总体时,那么抽样就要用重复抽样;当总体为无限总体(n/N小)时,可以用不重复抽

10、样。二 简单随机样本 simple random sample三、简单随机抽样的特点 简单随机抽样也称纯随机抽样。它是直接从总体的N个单位中完全随机地抽取n个单位并使总体中的每一个单位都有同等被抽中的概率的抽样组织形式。特点:在理论上最符合随机原则,简单随机抽样保证总体中各个单位被抽中的机会是相等的,均为 1/N。是设计其他抽样组织方式的基础。是衡量其他抽样效果的标准。衡量其他抽样效果的标准抽样设计效果指标design effect 值大于等于1,即其他抽样形式的抽样方差大于等于简单随机抽样的抽样方差,则抽样估计效果较差; 若Deff四、常用统计量的抽样分布 (一)样本均值的抽样分布 1、重复

11、抽样的抽样分布 例4-1 某次调查中4个被调查者的月消费额分别为400元、500元、700元、800元。设4个被调查者构成总体,则:总体均值 (元)总体方差 总体标准差【例】总体中含有4个被调查者(个体) ,即总体单位数N=4。月销售额分别为x1=400元,x2=500元,x3=700元,x4=800 元。总体的均值、方差及分布如下均值和方差 用重复抽样的方法,从4人中随机抽n=2个构成样本,共16个有个可能的样本。 各样本的月平均消费如表:可以整理出样本均值的抽样分布 75070060055070065060050045050080075065060080060080055070050040

12、0450400400第二个观察值第一个观察值所有可能的n = 2 的样本(共16个)样本均值的抽样分布 2000009600116合计40000450001000050000500010000450004000040090050011002400130070015008001/162/161/162/164/162/161/162/161/16121242121400450500550600650700750800频率频数f样本的月平均消费(元)样本均值抽样分布的均值: 样本均值抽样分布的方差:样本均值抽样分布的标准差为: (元)(元)(元)样本均值的分布与总体分布的比较 = 600 元2 =

13、25000元总体分布样本均值分布样本均值的抽样分布与中心极限定理当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n)抽样分布的方差 虽然每个样本均值的取值可能与总体均值不同,有一定离差,但从总体来看,所有样本均值平均说来和总体均值是相同的,不再存在离差。 抽样分布的标准差 验证了以下两个结论:抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示。2、不重复抽样的抽样分布 仍以上例为例, 某次调查中4个被调查者的月消费为400元、500元、700元、800元。设4个被调查者构成

14、总体,则: 总体均值(元)总体方差 总体标准差(元) 采用不重复抽样的方法,从4人中随机抽个构成样本,共有43=12个可能的样本。 - 450 550 600450 - 600 650550 600 - 750600 650 750 -400500700800400 500 700 800样本变量1000007200112合计450005000050004500090011002400130015002/122/124/122/122/1222422450550600650750频率频数f样本的月平均消费样本均值的抽样分布 样本均值抽样分布的均值: 样本均值抽样分布的方差:样本均值抽样分布的标

15、准差为: 可见, 样本均值 抽样分布的均值等于总体的均值,即 不重复抽样条件下,样本均值的分布仍具有两个重要性质 :(1)样本均值的抽样分布的均值等于总体的均值(2)样本均值的抽样分布的方差等于重复抽样的样本均值抽样分布的方差乘以修正因子抽样分布的标准差 抽样总体样本比率X,(N)比率P=Ni/Nx,(n) 所有可能的样本的比率( )所形成的分布,称为样本比率的抽样分布。(二)样本比率的抽样分布 抽样分布总结样本平均数的分布样本成数的分布重复抽样不重复抽样 第三节 参数估计 一、参数估计的基本概念 (一)估计量 在实际问题中, 经常需要我们构造适当的统计量去对总体分布中所含的未知参数(如均值方

16、差比率等) 的数值做出估计。这时用来估计总体参数的统计量称为估计量, 它也是一个随机变量。估计量的具体数值称为估计值。 (二) 抽样误差 抽样误差是由于抽样的随机性而造成样本指标和总体指标之间的误差,这种误差是抽样调查所固有的、不可避免的,也叫随机误差。 抽样误差有实际误差和平均误差两种。 实际误差:是指某一次抽样结果所得到的样本指标和总体指标之间的误差。但由于总体指标未知,因而无法计算。抽样平均误差:它是指一切可能样本指标与总体指标之间的平均离差。一般用 来表示。根据概念,计算公式如下:抽样平均误差就是一系列抽样指标(样本均值和样本比率)的标准差。抽样平均误差的计算(一)平均数的抽样平均误差

17、1、重复抽样下2、不重复抽样下 表示总体的标准差,n为样本容量。(二)样本比率的抽样平均误差重复抽样:不重复抽样:P为样本比率,n为样本容量,N为总体单位数抽样误差的影响因素样本容量抽样方法抽样组织形式总体标志变动度(1)样本容量。样本容量越小,抽样平均误差越大;样本容量越大,抽样平均误差越小。(2)总体标志变异指标。总体标志变异指标越大,抽样平均误差越大;总体标志变异指标越小,抽样平均误差也越小。当总体标志变异程度为零时,说明总体各单位之间无差异,此时,抽样平均误差为零。(3)抽样的方法: 在其他条件相同的条件下,重复抽样的抽样平均误差大于不重复抽样的抽样平均误差。 重复抽样 不重复抽样(4

18、)抽样组织形式: 不同的抽样组织形式的抽样误差各不相同 通常 分层抽样的抽样误差较小,整群抽样误差较大。但是 有时要因情况而定(三)抽样极限误差 抽样极限误差: 又称允许误差,是指样本指标和总体指标之间抽样误差的可能范围。 由于总体指标是一个确定的数,而样本指标则围绕总体指标左右变动,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差。通常总体平均数和总体比率是未知的,上式变形后得到:这就是总体平均数和总体比率的估计区间,也叫置信区间。(Confidence In

19、terval)抽样极限误差与抽样平均误差的关系 抽样极限误差=临界值*抽样平均误差临界值Z通过标准正态分布表查得二估计量的优良标准的数学期望等于总体参数,即该估计量称为无偏估计。无偏性有效性当 为 的无偏估计时,方差越小,无偏估计越有效。一致性对于无限总体,如果对任意则称的一致估计。是估计量三、点估计与区间估计(一)点估计以样本指标直接估计总体参数。 优点: 明确估计总体参数,但不等于参数的真值, 缺点: 它与真值的误差可靠性怎样,我们无法知道,区间估计则可弥补这种不足之处。 如:我们要估计我们班同学考试的平均成绩,根据一个抽出的随机样本计算的平均成绩为80分,我们就直接用80分作为全班平均成

20、绩的一个估计值,这就是点估计。(二)区间估计估计未知参数所在的可能的区间。随机区间 称为参数的置信水平为 的置信区间,称 为置信下限,称 为置信上限,称 为置信水平。【区间估计就是在点估计的基础上,给出总体参数估计的一个估计区间,同时,对样本统计量与总体参数的接近程度给出一个概率保证程度(置信水平)。】公式意义:随机区间 以 的概率包含着参数真实值,或者说,有 把握断定 在区间 内。 置信区间的含义若反复抽样多次(各次的样本容量相等,均为n),每一组样本值确定一个区间 ,每个这样的区间要么包含的真值,要么不包含的真值。在这么多的区间中,包含真值的区间的频率近似地为 ,不包含真值的约仅占 。例如

21、:若 ,反复抽样100次,则得到的100个区间中,有95个区间包含真实值,不包含参数真实值的区间只有5个。区间估计评价准则随机区间置信度精确度随机区间包含(即可靠程度)越大越好。的概率的平均长度(误差范围)越小越好一般形式四、区间估计的基本原理区间估计步骤:1选择含有待估参数的一个适当的统计量,并指出该统计量所服从的分布。2对于给定的置信水平查该统计量所服从的分布表确定出临界值,使该统计量取以临界值为范围内的值的概率为3对第2步经过不等式变形可得所求参数的置信区间公式。4将有关数值代入置信区间公式, 即可求出所求参数的一个置信区间。总体均值的区间估计(正态总体或大样本) 由于 故给定置信水平

22、,有这样,我们就得到了的一个置信水平为的置信区间总体均值区间的一般表达式总体均值在置信水平下的置信区间可一般性地表达为 样本均值抽样极限误差样本均值临界值样本均值的抽样平均误差常用的置信水平与临界值水平 置信水平68.27%190%1.6595%1.9695.45%298%2.32599%2.57599.73%3简单随机抽样待估计参数已知条件置信区间正态总体,2已知正态总体,2未知n30非正态总体,n30已知时总体均值 ()五、一个总体参数的区间估计(一)一个总体均值的区间估计非正态总体,n30未知时,用S代替以上为重复抽样下的计算公式,不重复抽样下只需加上修正因子t 分布t 分布是类似正态分

23、布的一种对称分布,它通常要比正态分布平坦和分散,一个特定的t分布依赖于自由度。随着自由度的增大,t分布也逐渐趋于正态分布正态总体,方差未知,小样本 例4-2 某保险公司自投保人中随机抽取36人, 计算出此36人的平均年龄为39.5岁, 已知投保人年龄分布近似正态分布, 标准差为7.2岁, 试求所有投保人平均年龄置信水平为99%的置信区间?正态总体、方差已知求置信区间 于是,我们有99%的把握保证投保人平均年龄在36.4142.59岁之间。例4-3 某金融机构共有8042张应收账款单, 根据过去记录, 所有应收账款的标准差为3033.4元,现随机抽查了250张应收账单, 得平均应收金额为3319

24、元, 求全部应收账单的平均应收金额的置信水平为98%的置信区间。非正态总体(大样本), 已知求置信区间 于是,我们有98%的把握认为全部应收账单的平均应收金额在2871.993766元之间。例4-4 某广播电台要估计某市65岁以上的已退休的人中一天时间里收听广播的时间, 随机抽取了一个容量为200的样本, 得到样本均值为110分钟, 样本标准差为30分钟, 试估计总体均值的置信水平为95%的置信区间。非正态总体,n30,未知时,用S代替于是,我们有95%的把握认为该市65岁以上已退休的人每天收听广播的时间在107.24112.76分钟之间。 例4-5 为了估计一分钟一次广告的平均费用, 抽出了

25、15个电视台的样本。样本均值为2000元, 标准差为1000元。假定所有的这类电视台的广告费用近似服从正态分布, 试求电视台一分钟一次广告平均费用的置信水平为95%的置信区间。正态总体、方差未知、小样本时求的置信区间 于是,我们有95%的把握保证电视台一分钟一次广告平均费用在1446.22553.8元之间。 (二)一个总体比率的区间估计简单随机抽样待估计参数已知条件置信区间重复抽样总体比率 (p)不重复抽样例4-6 某电视台想了解每日“晚间新间” 栏目的收视率, 随机抽取了400人进行调查, 结果表明有71.2%的人观看此节目。试估计该栏目收视率具有90%的可靠性的置信区间。 于是,有90%的把握认为该栏目收视率在67.48%74.92%之间。六、两个总体参数的区间估计(一)两个总体均值之差的区间估计两个总体均值之差:独立样本,大样本两个总体均值之差:独立样本,小样本两个总体的方差未知,但相等;两个总体的方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论