统计学第8章._第1页
统计学第8章._第2页
统计学第8章._第3页
统计学第8章._第4页
统计学第8章._第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学统计学董成杰 8目录 参数估计 - 参数估计概述 - 总体平均数的区间估计 - 两个总体平均数之差的区间估计 - 总体比率和两个总体比率之差的区间估计 - 正态总体方差和两个正态总体方差比的区间估计 - 样本容量的确定 第 3 页统计学的内容由描述统计和推断统计组成 定义 研究如何利用样本数据来推断 总体特征的统计学分支内容 参数估计参数估计假设检验目的 对总体特征作出推断推断统计推断统计(inferential statistics)第 4 页参数估计(Parameter Estimation) 1分析过去资料对现在或未来的影响第 5 页参数估计(Parameter Estimatio

2、n) 2对某个变量值作出估计第 6 页参数估计(Parameter Estimation) 3进行决策第 7 页参数估计(Parameter Estimation) 第 8 页银行在给某人贷款之前,要对其还款能力做出估计,然后决定是否给予贷款,贷款多少,还款年限等;女生考虑是否答应嫁给某男生,要对双方未来做出估计,然后决定是否踏入婚姻殿堂;体育中心调查全校学生的身体素质,抽取100名学生进行测试,然后根据数据估计全校学生的情况。参数估计(Parameter Estimation) 第 9 页参数估计(Parameter Estimation) 估计类型点估计区间估计点估计(Point esti

3、mation),也称定值估计,它是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。点估计就是估计某一个总体参数的具体值 预计明年春运高峰期火车旅客数将达到2亿人次; 今年12月份某品牌的手机将降价20%; 2013年广州市的房价将上涨10%等。第 10 页参数估计(Parameter Estimation) 估计类型点估计区间估计点估计的特点:点估计的优点在于能够明确地估计总体参数;点估计的结果只有正确与错误之分,哪怕只相差0.1也算不正确;大多数情况下,要点估计决定正确几乎是不可能的。第 11 页参数估计(Parameter Esti

4、mation) 估计类型点估计区间估计区间估计(Interval Estimation),以一定概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分:可能范围的大小;总指标落在可能范围内的概率。估计明年春运高峰旅客数在1.9到2.1亿人次之间,当旅客人数落在这个区间时,估计就是正确的,否则就不正确。第 12 页参数估计(Parameter Estimation) 估计类型点估计区间估计区间估计既有估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的,区间估计的正确率比点估计高。第 13 页用一个样本统计量估计总体参数,并

5、称它为估计量。参数估计(Parameter Estimation) 研究总体要估计的参数用作估计量的样本统计量估计量全校老师年平均流动人数某一年的流动数流动率6.4%MBA考生平均工作年限报名号末位为9的申请者5.5年流动人口有犯罪记录的人所占比例随机抽取1000人,有犯罪记录者所占比例0.41%有犯罪记录第 14 页无偏性(unbiased):样本统计量(平均值、比率、方差等)的期望值等于该统计量所估计的总体参数;若以 代表被估计的总体参数, 代表 的无偏估计量,则用数学式表示为:相合性(consistency):如果随着容量n的增大,估计量越来越接近总体参数的真值,那么这个统计量就是与总体

6、参数一致的估计量。样本容量越大,估计量的一致性越可靠。估计量的优良标准 )(E 第 15 页有效性(effectiveness):指估计量的离散程度,是一个与统计量的标准误差相关的性质;因为无偏估计不是唯一的,许多个无偏估计中哪一个更好,估计值中哪一个更靠近总体参数?假设有两个容量相等的抽样分布,应该选用误差较小的那个。估计量的优良标准 第 16 页充分性(sufficient):如果一个估计量能够为总体带来大量的有用信息,而没有其它的估计量能带来比它更多的信息,就称这个估计量是充分的。估计量的优良标准 第 17 页以上标准并不是孤立的,如果一个估计量满足以上标准,这个估计量就是一个好的估计量

7、;用样本平均数来估计总体平均数,用样本比率来估计总体比率时,它们是无偏的、一致的和有效的。估计量的优良标准 第 18 页对称分布的中位数与平均数重合,其样本平均数就是总体平均数和总体中位数的无偏估计量,也是一致估计量;根据中心极限定理,只要样本容量足够大,就可以近似地用正态分布去描述;一般情况下,样本平均数是比样本中位数更有效的估计量,因为在大量样本中,样本平均数的平均误差比样本中位数的平均误差小。点估计(Point Estimation) 的理论依据 第 19 页例:现有一批支援灾区的衣服共500箱,每箱内存放的衣服数量差不多,估计这批衣服的件数。为估计衣服总数,随机抽查其中的30箱,清点后

8、数量如下:101,104,98,111,103,97,110,99,99,100,103,97,104,102,96,102,98,101,96,105,105,98,102,101,107,97,104,96,103,94点估计(Point Estimation) 第 20 页样本的平均数是:以此为总体的平均数估计值,则每箱平均有衣服101.1件,500箱总共有衣服50550件。点估计(Point Estimation) 1 .10130303330 xx第 21 页所谓区间估计,就是在点估计的基础上,用一个具有一定可靠程度的区间范围来估计总体参数。我们通过把点估计值减去和加上一个被称为边际

9、误差或极限误差(估计误差)的值,可以构建总体参数的一个区间估计。形式如下:点估计值边际误差(极限误差)区间估计(Interval Estimation) 第 22 页与点估计不同,进行区间估计时,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。下面以总体均值的区间估计为例来说明区间估计的基本原理:无论总体分布如何,在大样本的条件下,来自该总体的所有容量为 n 的样本均值也服从正态分布,样本均值的数学期望为 ,方差为2/n。即:区间估计(Interval Estimation) )/,(2nNX 第 23 页区间估计(Interval Estimation) 正态分

10、布的3原则第 24 页区间估计(Interval Estimation) 95% 的样本 -1.96 x +1.96 x99% 的样本 - 2.58 x +2.58 x90%的样本 -1.65 x +1.65 x第 25 页区间估计(Interval Estimation) Z01.96-1.96XXZ XZX 95%2.5%2.5%XZX 第 26 页区间估计(Interval Estimation) (未知)x1.96 x95%1.96 xx2x1x31X3X2X1.96 x1.96 x1.96 x边际误差(极限误差)边际误差(极限误差)第 27 页从同一总体按同一样本容量可以抽取很多样本

11、组合。由不同的样本组合得到不同的样本均值,每个样本均值都可加减1.96x构成一个区间区间估计(Interval Estimation) 第 28 页但这些区间并不是都能把总体均值包含在内。只有在抽样分布图中处在阴影区域的任意一个样本均值才能够构造一个包含总体均值在内的区间。由于所有可能的样本均值有95%处在阴影区域内,故样本均值加减1.96x 所形成的所有区间中也有95%的区间会包括总体均值在内。区间估计(Interval Estimation) 第 29 页一般地,如果将构造置信区间的步骤重复很多次,所有可能构建的区间中能够包含真实总体参数的区间个数占所有可能区间的比例称为置信水平。也称为置

12、信度或置信系数。(前面的95%就是一个置信水平)置信水平(confidence level) 第 30 页一般来说,置信度可以用(1-)100%表示,其中是区间估计的显著性水平,是所有可能构建的区间中不包含真实总体参数的区间个数占所有可能区间的比例; 的取值大小由实际问题确定。经常取 为0.01, 0.05, 0.10,相应的常用置信水平为 99%, 95%, 90%。置信水平(confidence level) 第 31 页置信区间是由样本估计量构造出的总体参数在一定置信水平下的估计区间。区间最小值称为置信下限,最大值称为置信下限。如果用某种方法构造的所有区间中有95%的区间包含总体参数的真

13、值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述。置信区间的表述(confidence interval) 第 32 页总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数;置信区间的表述(confidence interval) 第 33 页实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间,这是一个特定区间,而不是一个随机区间,所以无法知道这个样本所产生的区间是否

14、包含总体参数的真值。我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。置信区间的表述(confidence interval) 第 34 页一个特定的区间总是“包含”或“不包含”参数真值,不存在“以多大的概率包含总体参数”的问题。置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的。置信区间的表述(confidence interval) 第 35 页数据的离散程度,用 来测度;样本容量,置信水平(1-),影响 Z 的大小影响区间宽度的因素第 36 页置信水平与置信区间

15、的关系第 37 页如某公司顾客总体平均满意度的90%的置信区间为:其99%的置信区间为:置信水平与置信区间的关系不同置信水平对应的Z值 第 38 页总体平均数的区间估计 Z01.96-1.9695%2.5%2.5%有两种情况:1、根据置信度1-,求出极限误差,并指出总体平均数的置信区间。2、给定极限误差,求置信度。第 39 页总体平均数的区间估计(求置信区间) Z01.96-1.9695%2.5%2.5%第 40 页总体平均数的区间估计(求置信区间) Z01.96-1.9695%2.5%2.5%第 41 页总体平均数的区间估计(求置信区间) 样本取自总体方差(2)已知的分布总体服从正态分布;总

16、体不是正态分布,可以由正态分布来近似 (n30)。第 42 页总体平均数的区间估计(求置信区间) 重复抽样时,区间为:不重复抽样时,区间为:第 43 页样本取自总体方差(2)未知的分布若总体方差未知,则在计算时,使用样本方差代替总体方差,小样本时 服从自由度为n-1的 t 分布。记: ,则:总体平均数的区间估计(求置信区间) 第 44 页总体平均数的区间估计(求置信区间) 重复抽样时,区间为:不重复抽样时,区间为:第 45 页总体平均数的区间估计(求置信区间) 例:一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一

17、批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%.112.5101.0103.0136.8102.8116.6101.5102.0100.5102.6107.5 95.0 98.4 93.3115.6108.6108.8101.6100.0123.5102.0 95.4 97.8102.2105.0第 46 页总体平均数的区间估计(求置信区间) 已知 XN(, 102), n=25, 1- = 95%, z/2=1.96。根据样本数据计算得:总体均值 在1- 置信水平下的置信区间为:第 4

18、7 页总体平均数的区间估计(求置信区间) 例:某保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间.233539394938273644364246343945433133425345344850544724342839484532364440第 48 页总体平均数的区间估计(求置信区间) 已知n=36, 1- = 90%, z/2=1.645。根据样本数据计算得:总体均值 在1- 置信水平下的置信区间为:第 49 页给定极限误差或置信区间,求置信度通过临界值 ,去查标准正态分布,可得出置信度是1-。总体平均数的区间估计(求置信

19、度) 第 50 页例:经抽样调查计算样本亩产粮食600公斤,并求得抽样标准差为3公斤,现给定允许极限误差为6公斤,求置信区间包含总体平均亩产的概率,即求置信水平。已知:总体平均数的区间估计(求置信度) 结果表明,如果多次反复抽样,每次都可以由样本值确定一个估计区间,每个区间或者包含总体参数的真值,或者不包含总体参数的真值,包含真值的区间占95.44%。即每一万次抽样,就有9544个样本区间包括总体亩产,其余456个样本区间不包括总体平均数,即若接受估计区间的判断要冒4.56%的机会犯错误的风险。第 51 页总体平均数的区间估计小结 第 52 页总体平均数的区间估计小结 总体平均数估计区间的总体

20、平均数估计区间的上下限上下限总体方差总体方差已知已知N(0,1)重复抽样重复抽样不重复抽样不重复抽样总体方差总体方差未知未知t(n-1)大样本时近似服从N(0,1)重复抽样重复抽样不重复抽样不重复抽样XX所服从的分布Xn/Sn/1NnNn1SNnNn,12nSXtn,121nSNnXtNnnzX212NnNnzX第 53 页总体平均数的区间估计小结 第 54 页大样本假定条件:两个总体都服从正态分布;若不是正态分布, 可以用正态分布来近似(n130和n230);两个样本是独立的随机样本。使用正态分布统计量z两个总体平均数之差的区间估计 第 55 页大样本12 22已知时,两个总体均值之差 1-

21、2 在1- 置信水平下的置信区间为:12 22未知时,两个总体均值之差 1-2 在1- 置信水平下的置信区间为:两个总体平均数之差的区间估计 第 56 页例:一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为A2=2500和B2=3600的正态分布。试求 A- B 的在置信水平为95%下的区间估计。两个总体平均数之差的区间估计 第 57 页解:已知 XAN( A,2500), XB N( B,3600), xA=4500, xB=3250, A2 =2500, B2

22、=3600, nA= nB =25两个总体平均数之差的区间估计 A- B置信度为95%的置信区间为:第 58 页例:某地区教委想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立抽取两个随机样本,有关数据如下表 。求两所中学高考英语平均分数之差95%的置信区间。两个总体平均数之差的区间估计 中学1中学2n1=46n1=33S1=5.8S2=7.2 861 x782 x第 59 页解:两个总体均值之差 1-2 在1- 置信水平下的置信区间为:两所中学高考英语平均分数之差的置信区间为5.0310.97分两个总体平均数之差的区间估计 第 60 页小样本:12=22假定条件:两个总体都服从

23、正态分布,12 22未知但相等;两个独立的小样本(n130和n230)。总体方差的合并估计量:估计量 的抽样标准差:两个总体平均数之差的区间估计 第 61 页小样本:12=22两个样本均值之差的标准化:两个总体均值之差 1-2 在1- 置信水平下的置信区间为:两个总体平均数之差的区间估计 第 62 页小样本:1222假定条件:两个总体都服从正态分布,12 22未知且不相等;两个独立的小样本(n130和n230)。使用统计量:两个总体平均数之差的区间估计 第 63 页小样本:1222两个总体均值之差 1-2 在1- 置信水平下的置信区间为:两个总体平均数之差的区间估计 自由度第 64 页匹配大样

24、本假定条件:两个匹配的大样本(n130和n230);两个总体各观察值的配对差服从正态分布。两个总体均值之差 d=1-2 在1- 置信水平下的置信区间为:两个总体平均数之差的区间估计 对应差值的均值对应差值的标准差第 65 页匹配小样本假定条件:两个匹配的小样本(n130和n230);两个总体各观察值的配对差服从正态分布。两个总体均值之差 d=1-2 在1- 置信水平下的置信区间为:两个总体平均数之差的区间估计 第 66 页总体均值的区间估计小结 待估计参数已知条件置信区间正态总体,2已知,小样本总体均值2/xxt Sn两个正态总体,2221,已知两个正态总体,2221,未知但相等两个非正态总体

25、,两个总体均值之差1-22xxz非正态总体,2已知,大样本正态总体,2未知,小样本非正态总体,2未知,大样本2xxzS221212122()xxznn1212211()pxxt snn221212122()ssxxtnn两个正态总体,2221,未知且不等221212122()ssxxznn2221,未知有限总体不重复抽样且抽样比例n/N0.05时, 考虑有限总体校正系数:1NnN第 67 页我们在实际工作中时常会碰到对总体比例的估计问题。企业领导想知道本企业生产的产品中合格品率;商店经理想了解对服务满意的顾客在全部顾客中所占的比率;想了解某人群中男女的比例;想了解某产品的普及率是多少?民意调查

26、中支持某候选人的比例是多少?总体比率的区间估计第 68 页总体比率的区间估计假定条件 总体服从二项分布; 可以由正态分布来近似。使用正态分布统计量:总体比例的置信区间为:第 69 页总体比率的区间估计现进行某产品质量抽样,样本200个,其中优质品率为170个,=10%,求其置信区间。第 70 页假定条件两个总体是独立的;两个总体服从二项分布;可以用正态分布来近似。两个总体比例之差P1-P2在1-置信水平下的置信区间为两个总体比率之差的区间估计第 71 页P1, P2未知1-置信水平下的置信区间为两个总体比率之差的区间估计第 72 页例:某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它

27、们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为0.18和0.14。试求两城市成年人中看过广告的比例之差的95%的置信区间。两个总体比率之差的区间估计第 73 页例:已知 =0.18, =0.14, 1- =0.95, n1= n2=1000比例之差的置信度为95%的置信区间为两个总体比率之差的区间估计第 74 页总体方差的区间估计估计一个总体的方差或标准差;假设总体服从正态分布;总体方差 2 的点估计量为S2,且总体方差在1- 置信水平下的置信区间为:第 75 页总体方差比的区间估计比较两个总体的方差比;用两个样本的方差比来判断:如果S12/ S22接近于1, 说明两

28、个总体方差很接近;如果S12/ S22远离1, 说明两个总体方差之间存在差异。总体方差比在1- 置信水平下的置信区间为第 76 页参数的区间估计待估参数待估参数均值均值比例比例方差方差大样本大样本小样本小样本大样本大样本 2 2分布分布 2 2已知已知 2 2已知已知Z Z分布分布 2 2未知未知Z Z分布分布Z Z分布分布Z Z分布分布 2 2未知未知t t分布分布第 77 页不要认为由某一样本数据得到总体参数的某一个置信度下的置信区间,就以为该区间以该置信度的概率覆盖总体参数;置信度仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率;也就是说,无穷次重复抽样所得到的所有区间

29、中有该置信度包含参数。关于置信区间 第 78 页置信区间的论述是由区间和置信度两部分组成;如果调查结果只给出置信区间,并不说明置信度,也不给出样本数,这是不正确(不准确)的。关于置信区间 第 79 页有1万个人回答的调查显示,同意某观点人的比例为70%(有7千人同意),可算出总体中同意该观点的比例的95%置信区间为(0.691,0.709);另一个调查声称有70%的比例反对该种观点,还说总体中反对该观点的置信区间也是(0.691,0.709);第二个调查隐瞒了置信度。如果第二个调查仅仅调查了50个人,有35个人反对该观点。则其置信区间的置信度仅有11%。关于置信区间 第 80 页前面的分析都是在给定的样本容量和样本数据下求置信区间。但在实际应用中,应当在随机抽样前就确定所需要抽样的样本容量。 抽取的样本容量过大,虽然可以提高统计推断的精度,但将增加不必要的人力、物力、费用和时间开支。 如果抽取的样本容量过小,则又会使统计推断的误差过大,推断结果就达不到必要的精度要求。样本容量的确定 第 81 页样本容量的确定 参数估计中的精度要求与可靠性要求常常是一对矛盾第 82 页样本容量的确定 由前面的论述,我们已知参数估计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论