统计学课件:第4章参数估计和假设检验_第1页
统计学课件:第4章参数估计和假设检验_第2页
统计学课件:第4章参数估计和假设检验_第3页
统计学课件:第4章参数估计和假设检验_第4页
统计学课件:第4章参数估计和假设检验_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中央财经大学统计与数学学院参数估计与假设检验参数估计与假设检验4.1参数估计4.2假设检验从样本去认识总体从样本去认识总体分析方法描述统计推断统计收集、整理、展示数据参数估计 假设检验中央财经大学统计与数学学院 34.1 参数估计参数估计l参数估计的基本概念l总体均值和比例的区间估计l必要样本容量的确定中央财经大学统计与数学学院 44.1.1 参数估计的基本概念参数估计的基本概念总体算术平均数算术平均数x统计量统计量 ?参数参数中央财经大学统计与数学学院 5点估计l点估计: 用估计量的数值作为总体参数的估计值。l一个总体参数的估计量可以有多个 。例如,在估计总体方差时, 和 都可以作为估计量。

2、21niiXXn211niiXXn置信区间的定义置信区间的定义 ,1)( ,1)(0 -1,1121PXXXXXXXnnn满足,和确定两个统计量,)给定置信度(可靠程度为样本,是总体的一个参数,设的置信区间。的置信度为是则称1 ,区间估计估计值估计值(点估计点估计)置信下限置信下限置信上限置信上限置信区间置信区间解:样本均值的抽样分布:解:样本均值的抽样分布:10/ ,第一步:取统计量NnX的置信区间的置信水平为为未知,求为已知,其中的样本,是来自正态总体例:设1,2221NXXXn注:该统计量是总体参数的函数,并且分布已知注:该统计量是总体参数的函数,并且分布已知2 XNn, ,1/ 2/2

3、/znXzP范围第二步:确定枢轴量的1 2/2/nzXnzXP数的范围第三步:反解出总体参 分位点的定义知分位点的定义知由标准正态分布的上由标准正态分布的上 ., 1 2/2/nzXnzX的置信区间的一个置信水平为于是得这样的置信区间常写成这样的置信区间常写成/2Xzn中央财经大学统计与数学学院 10总体均值的置信区间总体正态总体正态?n30?2 2已已知知?否是是否否是实际中总体方差总是未知的,因实际中总体方差总是未知的,因而这是应用最多的公式。在大样而这是应用最多的公式。在大样本时本时t值可以用值可以用z值来近似。值来近似。根据中心极限定理得根据中心极限定理得到的近似结果。到的近似结果。

4、未知时用未知时用s来估计。来估计。增大增大n或其它方法或其它方法小样本小样本中心极限定理中心极限定理从均值为从均值为 ,方差为,方差为 2的一个任意总体中抽取容量为的一个任意总体中抽取容量为n的样本,当的样本,当n充分大时,充分大时,样本均值的抽样分布样本均值的抽样分布近似近似服从均值为服从均值为、方差为、方差为2/n的正态分布的正态分布即即 xn x 2,XNnExample:用:用SPSS进行区间估计进行区间估计l例:儿童电视节目的赞助商希望了解儿童每周看电例:儿童电视节目的赞助商希望了解儿童每周看电视的时间。下面是对视的时间。下面是对100名儿童进行随机调查的结名儿童进行随机调查的结果(

5、小时)。计算平均看电视时间果(小时)。计算平均看电视时间95%的置信区间。的置信区间。39.719.534.727.041.315.120.531.318.317.021.529.915.016.436.823.424.128.923.424.440.646.423.639.435.519.529.331.220.634.915.531.638.938.727.226.514.715.628.424.043.920.629.19.521.042.413.932.829.832.933.038.028.720.619.738.637.117.015.123.421.021.829.321.322

6、.823.432.511.343.830.815.823.220.333.530.037.824.426.929.027.727.122.036.123.022.126.522.926.930.225.223.835.321.635.730.822.724.521.926.550.3SPSS输出结果(数据:输出结果(数据:tv.xls)操作:分析操作:分析-描述统计描述统计-探索探索统计量标准误均值27.191.8373均值的 95% 置信区间 下限25.530上限28.8525% 修整均值26.977中值26.500方差70.104标准差8.3728极小值9.5极大值50.31.总体比例:指

7、总体中具有某种属性的单位个数总体比例:指总体中具有某种属性的单位个数(N0)与全部单位总数与全部单位总数(N)之比。之比。l例例1:某班中男生所占的比例:某班中男生所占的比例l例例2:产品中合格品的比重:产品中合格品的比重2.总体比例记为总体比例记为3.样本比例记为样本比例记为总体比例的置信区间总体比例的置信区间l总体比例记作,对总体抽样,样本比例记作p。l当样本容量很大时,通常要求则样本比例p的抽样分布近似一个正态分布5)1 (, 5pnnp)1 (,(nNp即:中央财经大学统计与数学学院 16nppZp)1 (2的置信区间为:总体比例在利用上述抽样分布计算总体比例的置信区间时,方差中的未知

8、参数用p近似中央财经大学统计与数学学院 17总体比例的置信区间:例子总体比例的置信区间:例子解:显然有解:显然有因此可以用正态分布进行估计。因此可以用正态分布进行估计。 /2=1.6450215. 0217. 0995)217. 01 (217. 0645. 1217. 0)1 (2nppZp结论:我们有90的把握认为悉尼青少年中每天都抽烟的青少年比例在19.55%23.85%之间。19861986年对悉尼年对悉尼995995名青少年的随机名青少年的随机调查发现,有调查发现,有216216人每天都抽烟。人每天都抽烟。试估计悉尼青少试估计悉尼青少年中每天都抽烟年中每天都抽烟的青少年比例的的青少年

9、比例的90%90%的置信区间。的置信区间。5)1 (, 5pnnp中央财经大学统计与数学学院 18有限总体校正系数l简单随机抽样时,统计量的抽样分布的方差,不重复抽样(无放回)下与重复抽样(有放回)下存在如下关系:l统计量的方差:不重复抽样下重复抽样下l 这一系数称为有限总体校正系数。l当抽样比(n/N)0.05时可以忽略有限总体校正系数。1不重复抽样重复抽样NnVarVarN1NnNl简单随机抽样,重复抽样下,统计量的抽样分布l因此,不重复抽样下,中央财经大学统计与数学学院 19,样本均值nNX2nppNp1,样本比例12NnNnNX,11,NnNnppNpl重复抽样下的置信区间:l不重复抽

10、样下的置信区间?中央财经大学统计与数学学院 20/2Xzn2(1)pppZn中央财经大学统计与数学学院 21关于抽样误差的几个概念l实际抽样误差l抽样平均误差l最大允许误差中央财经大学统计与数学学院 22实际抽样误差l估计值与总体参数真实值之间的绝对离差称为实际抽样误差。l由于在实践中总体参数的真实值是未知的,因此实际抽样误差是不可知的;l由于样本估计值随样本而变化,因此实际抽样误差是一个随机变量。| 抽样平均误差抽样平均误差l抽样平均误差:也称为标准误。它反映估计量 (例如样本均值或比例)与总体参数真值(例如总体均值或比例)的平均差异程度。l例如对简单随机抽样中的样本均值的标准误有: 或 (

11、不重复抽样)l我们通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差。由上面的公式可知影响抽样误差的因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法。中央财经大学统计与数学学院 24最大允许误差l最大允许误差(最大允许误差(allowable error):在确定置信:在确定置信区间时,样本均值(或样本比例)加减的量,区间时,样本均值(或样本比例)加减的量,一般用一般用E来表示,等于来表示,等于置信区间长度的一半置信区间长度的一半。在英文文献中也称为在英文文献中也称为margin of error。l置信区间置信区间=l最大允许误差是人为确定的,是调查者在相应最大允许

12、误差是人为确定的,是调查者在相应的置信度下可以容忍的误差水平。的置信度下可以容忍的误差水平。中央财经大学统计与数学学院 25必要样本量由于调查成本方面的原因,在调查由于调查成本方面的原因,在调查中我们总是希望抽取中我们总是希望抽取满足误差要求满足误差要求(即最大允许误差(即最大允许误差E)的最小的样本量)的最小的样本量,称之为称之为必要样本量必要样本量。中央财经大学统计与数学学院 26样本容量的确定/2EZn由l式中的总体方差 可以通过以下方式估计:l根据历史资料确定l通过试验性调查估计简单随机抽样下估计总体均值时/2222ZnE得中央财经大学统计与数学学院 27简单随机抽样下估计总体比例时样

13、本容量的确定222/)1 (,)1 (2/EZnnZEl式中的总体比例 可以通过以下方式估计:l根据历史资料确定l通过试验性调查估计l取为0.5。中央财经大学统计与数学学院 28l可见,影响样本容量的因素:l1、总体标准差。总体的变异程度越大,必要样本量也就越大。l2、最大允许误差。最大允许误差越大,需要的样本量越小。l3、置信度1- 。要求的置信度越高,需要的样本量越大。l4、抽样方式 。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。中央财经大学统计与数学学院 29不重复抽样时的必要样本量l比重复抽样时的必要样本量要小。l式中n0是重复

14、抽样时的必要样本容量。Nnnn001中央财经大学统计与数学学院 30样本量的确定(实例1)需要多大规模的样本才能在需要多大规模的样本才能在 90% 的置信的置信水平上保证均值的误差在水平上保证均值的误差在 5 之内之内? 前前期研究表明总体标准差为期研究表明总体标准差为 45.nZE=222222(1645) (45)(5)219.2 220.向上取整中央财经大学统计与数学学院 31样本量的确定(实例2)一家市场调研公司一家市场调研公司想估计某地区有电想估计某地区有电脑的家庭所占的比脑的家庭所占的比例。该公司希望对例。该公司希望对比例比例p的估计误差的估计误差不超过不超过0.05,要求,要求的

15、可靠程度为的可靠程度为95%,应抽多大容量的样应抽多大容量的样本(没有可利用的本(没有可利用的p估计值)?估计值)?解: 已知E=0.05,=0.05,Z/2=1.96,当未知时取为0.5。22222(1)(1.96) (0.5)(10.5)(0.05)385ZnE中央财经大学统计与数学学院 32实例3你在美林证券公司的人力资源部工作。你计划在员工中进行调查以求出他们的平均医疗支出。 你希望有 95% 置信度使得样本均值的误差在$50 以内。 过去的研究表明 约为 $400。需要多大的样本容量?nZE=222222(196) (400)(50)24586246.中央财经大学统计与数学学院4.2

16、 假设检验假设检验4.2.1 假设检验的基本问题4.2.2 单个总体参数的检验4.2.3 两个总体参数的检验中央财经大学统计与数学学院 344.2.1 假设检验的基本问题假设检验的基本问题l基本原理l零假设和备择假设l检验统计量和拒绝域中央财经大学统计与数学学院 35实际中的假设检验问题实际中的假设检验问题l假设检验: 事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验) 。中央财经大学统计与数学学院 36案例案例l美国劳工局公布的数字表明,1998年11月美国的平均失业时间为14.6周。在费城市市长的要求下进行的一项研究调查了50名失业者,平

17、均失业时间为15.54周。根据调查结果能否认为费城的平均失业时间高于全国平均水平?l澳大利亚统计局公布的2003年第一季度失业率为6.1%。而Roy Morgan公司在调查了14656名14岁以上的居民以后得到的失业率为7.8%。你认为Roy Morgan的结果显著高于统计局的数字吗? 中央财经大学统计与数学学院 37假设检验的基本原理假设检验的基本原理l利用假设检验进行推断的基本原理是:利用假设检验进行推断的基本原理是:小概率事件在一次试验中几乎不会发生。小概率事件在一次试验中几乎不会发生。l如果对总体的某种假设是真实的(例如学生上课平均出勤率如果对总体的某种假设是真实的(例如学生上课平均出

18、勤率95%),那么不利于或不能支持这一假设的事件),那么不利于或不能支持这一假设的事件A(小概(小概率事件,例如样本出勤率率事件,例如样本出勤率=55% )在一次试验中是几乎不可)在一次试验中是几乎不可能发生的;能发生的;l要是在一次试验中要是在一次试验中A竟然发生了(样本出勤率竟然发生了(样本出勤率=55% ),就),就有理由怀疑该假设的真实性,拒绝提出的假设。有理由怀疑该假设的真实性,拒绝提出的假设。两点说明:两点说明:1. “小概率事件小概率事件”中所谓的中所谓的“小概率小概率”,多小算小?,多小算小?这就是在假设检验中所设定的这就是在假设检验中所设定的“显著性水平显著性水平”,记,记为

19、为,通常取,通常取0.05或或0.1。2. 如何计算这个如何计算这个“概率概率”?在假设检验中就是通过构造在假设检验中就是通过构造检验统计量及其分布检验统计量及其分布,来计算概率值的。来计算概率值的。中央财经大学统计与数学学院 38中央财经大学统计与数学学院 39假设检验的步骤假设检验的步骤l根据实际问题提出一对根据实际问题提出一对假设假设(零假设和备择假设);(零假设和备择假设);l构造某个适当的构造某个适当的检验统计量检验统计量,并确定其,并确定其在零假设成在零假设成立时的分布立时的分布;l根据样本计算根据样本计算检验统计量的观测值检验统计量的观测值;l根据根据显著性水平显著性水平确定检验

20、统计量的确定检验统计量的临界值临界值并进而给并进而给出出拒绝域拒绝域,或者计算,或者计算p值值与与比较;比较;l决策决策:得出拒绝或不拒绝零假设的结论。:得出拒绝或不拒绝零假设的结论。中央财经大学统计与数学学院 401、零假设和备择假设的选择、零假设和备择假设的选择l零假设和备择假设是互斥的,它们中仅有一个正确;等号必须出现在零假设中;l最常用的有三种情况:双侧检验、左侧检验和右侧检验。l检验以“假定零假设为真”开始,如果得到矛盾(小概率事件发生了)说明备择假设正确。双侧检验 左侧检验 右侧检验H0 = 0 0 0H1 0 0中央财经大学统计与数学学院 41零假设和备择假设的选择零假设和备择假

21、设的选择l把现状(Status Quo)作为原假设;l将所作出的声明作为原假设;l把不能轻易否定的假设作为原假设;l把研究者要证明的假设作为备择假设;中央财经大学统计与数学学院 42零假设和备择假设:零假设和备择假设:把研究者要证明的假设作为备择假设把研究者要证明的假设作为备择假设l某种汽车原来平均每加仑汽油可以行驶24英里。研究小组提出了一种新工艺来提高每加仑汽油的行驶里程。为了检验新的工艺是否有效需要生产了一些产品进行测试。该测试中的零假设和备择假设该如何选取?l要证明的结论是24,因此零假设和备择假设的选择为: 24 24中央财经大学统计与数学学院 43零假设和备择假设:检验一种声明是否

22、正确零假设和备择假设:检验一种声明是否正确l某种减肥产品的广告中声称使用其产品平均每周可减轻体重8公斤以上。要检验这种声明是否正确你会如何设定零假设和备择假设?l没有充分的证据不能轻易否定厂家的声明,因此一般将所作出的声明作为原假设。l零假设和备择假设的一般选择为: 8 0注意注意在假设检验过程中,若一次实验所得样本统计量的值在假设检验过程中,若一次实验所得样本统计量的值在接受域,只是表明在接受域,只是表明没有足够的证据拒绝原假设没有足够的证据拒绝原假设,得,得到到“不拒绝不拒绝”原假设原假设的结论,而并不能说明原假设是的结论,而并不能说明原假设是真实的,所以此时不要表述成真实的,所以此时不要

23、表述成“接受接受”原假设。原假设。“不拒绝不拒绝”的表述实际上意味着并未给出明确的结论的表述实际上意味着并未给出明确的结论,我们没有说原假设正确,也没有说它不正确。,我们没有说原假设正确,也没有说它不正确。中央财经大学统计与数学学院 48假设检验的主要应用假设检验的主要应用l假设检验的方法可以用于检验:l单个总体的均值、比例、方差或分布l两个总体的均值、比例、方差或分布是否一致l多个总体的均值、方差、分布等是否一致l这一节要求掌握的内容:l单个总体均值、比例的假设检验l两个总体均值的比较中央财经大学统计与数学学院 494.2.2 单个总体的假设检验单个总体的假设检验l总体均值的假设检验l总体比

24、例的假设检验 中央财经大学统计与数学学院 50均值检验中均值检验中检验统计量检验统计量的选择的选择总体正态总体正态?n30?2 2已已知知?否是是否否是实际中总体方差总是未知的,因实际中总体方差总是未知的,因而这是应用最多的公式。大样本而这是应用最多的公式。大样本时时t值可以用值可以用z值来近似。值来近似。根据中心极限定理得根据中心极限定理得到的近似结果。到的近似结果。 未知时用未知时用s来估计。来估计。增大增大n; 数学数学变换等。变换等。中央财经大学统计与数学学院 511、均值的双边检验问题、均值的双边检验问题 l下面我们通过几个例子加以说明。 某厂生产的铁丝抗拉力服从正态分布,其平均抗拉

25、力为570kg,标准差为8kg。由于更换原材料,标准差不会变,但不知其抗拉力是否不变,从中抽取10个样品,得平均抗拉力575kg,能否认为平均抗拉力无显著变化?(=0.05)中央财经大学统计与数学学院 52例例l1、提出零假设和备择假设l2、选择检验统计量:根据题意l3、检验统计量的观测值l4、显著性水平等于0.05。570:570:10HH(1)根据)根据z值(或值(或t值)进行双侧检验值)进行双侧检验a/2=1.96a/2=-1.96 /2 拒绝域拒绝域接受域l决策规则:|Z obs| Z /2时拒绝零假设,否则不能拒绝零假设。l本例中统计量的观测值等于1.976,因此结论是拒绝零假设,认

26、为平均抗拉力有显著变化。统计量的观测值等于1.976H0 = 0 0H1 0 05-54lp值值是在零假设成立的条件下,检验统是在零假设成立的条件下,检验统计量会象实际观测结果那么极端或更计量会象实际观测结果那么极端或更极端的极端的概率概率。l如果这个概率很小(如果这个概率很小(p ),我们就),我们就倾向于拒绝零假设,否则,就不拒绝倾向于拒绝零假设,否则,就不拒绝零假设。零假设。(2)根据)根据p值进行假设检验值进行假设检验0Zz/2-z/2 /2拒绝拒绝拒绝拒绝1/2 p值值1/2 p值值zobs-zobs0010:,:HH中央财经大学统计与数学学院 56(2)根据)根据p值进行假设检验:

27、双侧检验值进行假设检验:双侧检验 /2拒绝拒绝01.96-1.96Z1/2 p-值1/2 p-值1.976-1.976)|(|bs0oHZZPp值双侧检验中 决策规则: p值 HH) 1(/0ntnsxt9416. 28/2067. 455375.59obst中央财经大学统计与数学学院 600 t Z, t拒绝域接受域1 - 统计量的观测统计量的观测值等于值等于2.9489.1)7(05.0 tl决策规则:t obst 时拒绝零假设,否则不能拒绝零假设。l本例中统计量的观测值等于2.94,拒绝零假设。H0 0 0H1 0 0(1)根据)根据z值(或值(或t值)进行右侧检验值)进行右侧检验) 1

28、(/0ntnsxt0t拒绝p-值值 t tobs0010:,:HH中央财经大学统计与数学学院 62(2)根据)根据p值进行假设检验:右侧检验值进行假设检验:右侧检验0t拒绝p-值2.94)tt (bs0oHPp 值值右侧检验中右侧检验中 决策规则: p值 时 拒绝 H0。 例中p值等于0.01083 (Excel计算)。 t 89.1)7(05.0 t中央财经大学统计与数学学院 63左侧检验问题左侧检验问题l一家公司付给生产一线雇员的平均工资是每小时20.0元。公司最近准备选一个新的城市建子公司,备选的城市有几个,能获得每小时工资低于20.0元的劳动力是公司选择城市的主要因素。从备选的某城市抽

29、取40名工人,样本数据的结果是:平均工资是每小时19.0元,样本标准差是2.4元。请在0.10的显著性水平下分析样本数据是否说明该城市工人的平均每小时工资显著低于20.0元。中央财经大学统计与数学学院 643、左侧检验问题、左侧检验问题l解:l根据题意,l观测到的z统计量的值等于znsxz/064. 240/4 . 22019obsz0 .20:0 .20:10HH中央财经大学统计与数学学院 65-z 拒绝域接受域统计量的观测值等于-2.6428.110.0 zl决策规则:zobs-z时拒绝零假设,否则不能拒绝零假设。l本例中统计量的观测值等于-2.64。H0 0H1 0(1)根据)根据z值(

30、或值(或t值)进行左侧检验值)进行左侧检验拒绝p-值值 t0010:,:HH中央财经大学统计与数学学院 67(2)根据)根据p值进行左侧检验值进行左侧检验拒绝p-值值)tt (0obsHPp 值值左侧检验中左侧检验中 决策规则: p值 HH单个样本检验单个样本检验检验值 = 14.6 tdfSig.(双侧)均值差值差分的 95% 置信区间下限上限weeks.67049.506.940 -1.883.76双侧检验的p值。如果需要做单侧检验,相应的p值一般等这一数值除以2。这里做右侧检验,p值等于0.253,因而不能拒绝原假设。中央财经大学统计与数学学院 714 总体比例的检验总体比例的检验 l构

31、造检验统计量(np 5,n(1-p) 5)1 , 0()1(NnpppZl决策规则:同均值的决策规则,可以使用Z值、p值或置信区间进行双侧、左侧或右侧检验。中央财经大学统计与数学学院 72案例案例l澳大利亚统计局公布的2003年第一季度失业率为6.1%。而Roy Morgan公司在调查了14656名14岁以上的居民以后得到的失业率为7.8%。你认为Roy Morgan的结果显著高于统计局的数字吗?=0.01.中央财经大学统计与数学学院 73右侧检验右侧检验l解:l根据题意,显然有np 5,n(1-p) 5.l观测到的z统计量的值等于l检验的结论是拒绝零假设。061. 0:061. 0:10HH599. 814656/939. 0*061. 0061. 0078. 0obsz) 1 , 0()1 (NnpppZ326. 201. 0 ZZ中央财经大学统计与数学学院 744.2.3 两个总体均值差异的假设两个总体均值差异的假设检验检验 l1、独立样本的假设检验l2、两个匹配样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论