统计学PPT第四章:估计_第1页
统计学PPT第四章:估计_第2页
统计学PPT第四章:估计_第3页
统计学PPT第四章:估计_第4页
统计学PPT第四章:估计_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本章重点本章重点 第一节第一节 点估计点估计矩估计矩估计最大似然估计最大似然估计点估计标准点估计标准总体和样本总体和样本 总体总体样本样本观测观测基本假设:独立同分布(基本假设:独立同分布(iid))( ,:21为总体容量NxxxXN)( ,21为样本容量nXXXnnxxx,21参数和估计参数和估计 总体:参数(总体:参数(parameter)样本:估计量(样本:估计量(estimator)观测:估计值(观测:估计值(estimate)),(21Nxxxf),(21nXXXf),(21nxxxf抽样估计抽样估计 利用样本估计值去估计总体参数的过程称为抽样利用样本估计值去估计总体参数的过程称为抽

2、样估计(估计(sampling estimation)或参数估计)或参数估计(parameter estimation)用单值估计参数称为点估计(用单值估计参数称为点估计(point estimation)用区间估计参数称为区间估计(用区间估计参数称为区间估计(interval estimation)点估计点估计 点估计的基本思想是根据样本观测为总体参点估计的基本思想是根据样本观测为总体参数找到一个最优估计数找到一个最优估计 矩估计(矩估计(method of moments) 最大似然估计(最大似然估计(maximum likelihood estimation, mle)矩估计矩估计 根据

3、分布计算总体矩根据分布计算总体矩 根据样本观测计算样本矩根据样本观测计算样本矩 据总体矩等于样本矩联立方程组求参数据总体矩等于样本矩联立方程组求参数);, 2 , 1(),()(21为待估计参数个数kkjgxEkjjj), 2 , 1( ,1kjxnjjjkjxng1),(21最大似然估计最大似然估计 根据分布计算样本观测的取值概率根据分布计算样本观测的取值概率 样本观测的总取值概率即为似然函数,其对样本观测的总取值概率即为似然函数,其对数为对数似然函数数为对数似然函数);, 2 , 1(),;()(21为待估计参数个数knixfxPkii121211( ,)( )( ;,)nnkiikiiL

4、P xf x 121211ln ( ,)ln ( )ln ( ;,)nnkiikiiLP xf x 最大似然估计最大似然估计 让似然函数或者对数似然函数取最大值的参让似然函数或者对数似然函数取最大值的参数极为最大似然估计,即令数极为最大似然估计,即令 该方程组得解即为最大似然估计该方程组得解即为最大似然估计0ln0ln0ln21kLLL练习练习某变量的某变量的10次观测如下次观测如下 2 1 6 5 3 0.1 13 1 1 2假设该变量的概率密度函数为假设该变量的概率密度函数为求求 的矩估计和最大似然估计的矩估计和最大似然估计)0( ,)(xexfx优良估计标准优良估计标准 无偏(无偏(un

5、biased) 有效(有效(effective) 一致(一致(consistent))(Emin)(D)(limn主要参数和估计值主要参数和估计值NXnxxNXX22p12pps12名称总体样本均值方差比例(0-1变量)方差122nxxs第二节第二节 样本均值和比例分布样本均值和比例分布样本均值的分布样本均值的分布样本比例的分布样本比例的分布 均值和标准差均值和标准差 样本均值的均值(样本均值的均值(expectation)为总)为总体均值,即体均值,即 xE 标准差标准差 nx1标准误差标准误差 样本均值的标准差代表了样本均值估计总体样本均值的标准差代表了样本均值估计总体均值的误差,亦称样本

6、均值的标准误差均值的误差,亦称样本均值的标准误差( standard error) 影响抽样误差大小的因素有二:一为总体的影响抽样误差大小的因素有二:一为总体的标准差,;二为样本容量的大小标准差,;二为样本容量的大小 应当指出,抽样误差同总体容量没有关系或应当指出,抽样误差同总体容量没有关系或关系很小关系很小 标准误差的估计标准误差的估计 实际中总体标准差实际中总体标准差 常常是未知的,因此要样本均常常是未知的,因此要样本均值的标准误差,需用样本标准差值的标准误差,需用样本标准差s代替代替 当样本容量很大时,这种代替的误差是很小的;当样本容量很大时,这种代替的误差是很小的;但当样本容量较小时,

7、就会产生较大的误差但当样本容量较小时,就会产生较大的误差s1nsxx误差计算误差计算 从某企业生产的从某企业生产的5000个零件中随机检测个零件中随机检测200个,测得这个,测得这200个零件的平均长度为个零件的平均长度为423毫米,标准差为毫米,标准差为12毫米。求标准误差毫米。求标准误差12s ,423x,200n,5000N由题意:s1nsx则:12200185. 0误差的修正误差的修正 不重复抽样时,标准误差计算公式为不重复抽样时,标准误差计算公式为 叫有限总体修正系数(叫有限总体修正系数(finite population correction)nNNx1n 但当总体容量很大时,这种

8、修正就不存在或但当总体容量很大时,这种修正就不存在或作用很少作用很少1NnN误差计算误差计算 从某企业生产的从某企业生产的5000个零件中随机检测个零件中随机检测200个,个,测得这测得这200个零件的平均长度为个零件的平均长度为423毫米,标准毫米,标准差为差为12毫米。若采用不重复抽样,求标准误差毫米。若采用不重复抽样,求标准误差12s ,423x200,n,5000N由题意:nNNsxs1n则:200121-5000200500083. 0随机试验随机试验 重复地从重复地从1到到9中随机抽中随机抽5个数,计算均值。个数,计算均值。观察均值的分布观察均值的分布50 timesFrequen

9、cy34567051015100 timesFrequency345670515500 timesFrequency345670408010000 timesFrequency345670400800样本均值的分布形态样本均值的分布形态 中心极限定理(中心极限定理(central limit theorem):不论):不论总体变量成何种分布,当样本容量很大时,样本均总体变量成何种分布,当样本容量很大时,样本均值服从以值服从以 为均值,为均值, 为标准差的正态分布为标准差的正态分布xdensityx样本比例样本比例 样本比例是样本均值的特殊情况,即样本样本比例是样本均值的特殊情况,即样本比例可看

10、成是比例可看成是0-1变量的均值,因此容易变量的均值,因此容易知道样本比例分布知道样本比例分布 均值均值 pE标准误差标准误差 标准差(标准误差):标准差(标准误差):111nnp重复抽样:111nNnNp不重复抽样:标准误差的估计标准误差的估计 同样的道理,总体比例常常未知,需用样本同样的道理,总体比例常常未知,需用样本比例估计比例估计p1p1nspp重复抽样:p1p11nnNNspp不重复抽样: 样本比例的标准误差样本比例的标准误差 。求样本合格品率的标准误差。求样本合格品率的标准误差%9010090p,100n%3分析:题目未告知是否采用不重复抽样,但据题意可知总体单位数很大,因此即便采

11、用不重复抽样其标准误差的修正效果也不好,因此视同重复抽样p1p1nsp9 . 019 . 01001样本比例的分布样本比例的分布 当样本容量很大时,样本比例服从以当样本容量很大时,样本比例服从以 为均值,为均值, 为标准差的正态分布为标准差的正态分布pdensityp第三节第三节 区间估计区间估计区间估计区间估计必要抽样数目必要抽样数目 区间估计区间估计 区间估计是指给出未知的总体参数所在的区间,区间估计是指给出未知的总体参数所在的区间,并且给出需要的概率保证度并且给出需要的概率保证度 总体均值的区间估计:根据样本均值服从以总体均值的区间估计:根据样本均值服从以 为均值,为均值, 为标准差的正

12、态分布,可知为标准差的正态分布,可知x122221ZxZPZxZPxx122xxZxZxP总体均值的区间估计总体均值的区间估计上式说明,总体均值上式说明,总体均值 落在区间落在区间 上的概率为上的概率为或者更精确地说,我们能以或者更精确地说,我们能以 的概率保证所给的的概率保证所给的区间区间 能包含总体均值能包含总体均值上述的区间上述的区间 称之为置信区间称之为置信区间(confidence interval),概率),概率 称之为置信水称之为置信水平(平(confidence level),), 称之为极限误差称之为极限误差, 称之为显著水平(称之为显著水平(significance lev

13、el)xxZxZx22,11xxZxZx22,xxZxZx22,1xZ2区间估计区间估计 从某企业生产的从某企业生产的5000个零件中随机检测个零件中随机检测200个,个,测得这测得这200个零件的平均长度为个零件的平均长度为423毫米,标准毫米,标准差为差为12毫米。若采用重复抽样,求整批零件平毫米。若采用重复抽样,求整批零件平均长度的均长度的95%的置信区间的置信区间1.96Z95%-112,s,423x,200n,5000N025.0由题意:s1nsx则:12200185. 0)85. 096. 1423,85. 096. 1423(%95置信区间为:的一个则该批零件的平均长度)67.4

14、24,33.421(即:练习练习 从某企业生产的从某企业生产的5000个零件中随机检测个零件中随机检测200个,个,测得这测得这200个零件的平均长度为个零件的平均长度为423毫米,标准毫米,标准差为差为12毫米。若采用不重复抽样,求整批零件毫米。若采用不重复抽样,求整批零件平均长度的平均长度的95%的置信区间的置信区间s11nnNNsx83. 0)83. 096. 1423,83. 096. 1423(%95置信区间为:的一个则该批零件的平均长度)63.424,37.421(即:保质期保质期 某食品公司欲知道产品的保质期,从一批产品中随机某食品公司欲知道产品的保质期,从一批产品中随机抽取抽取

15、20件观察,发现它们平均保质期为件观察,发现它们平均保质期为400天,标准天,标准差为差为50天。求该批产品平均保质期的天。求该批产品平均保质期的95%的置信区间的置信区间 1.96Z95%-50,1s,400 x,20n025.0由题意:s1nsx则:502012 .11)2 .1196. 1400, 2 .1196. 1400(%95置信区间为:期的一个则该批产品的平均保质)422,378(即:总体比例的区间估计总体比例的区间估计根据样本比例的抽样分布理论,很容易知道,在置信度 下,总体比例 的置信区间为:p2p2p,pZZ1 总体比例的区间估计总体比例的区间估计 。求该批产品合格品率的。

16、求该批产品合格品率的95%的置信区间:的置信区间:96.1Z%951%,9010090p,100n025.0%3p1p1nsp9.019.01001所以该批产品合格品率的一个95%的置信区间为%396. 1%90%,396. 1%90%9 .95%,1 .84,即:总统的支持率总统的支持率2012年美国总统大选之前,美国权威的民意调查公司年美国总统大选之前,美国权威的民意调查公司盖盖洛普(洛普(Gallup Tracking)的一项民意调查中显示,在被随机)的一项民意调查中显示,在被随机调查的调查的2700个选民中有个选民中有1320人表示会把选票投给奥巴马,人表示会把选票投给奥巴马,1350

17、人表示会把票投给罗姆尼。在人表示会把票投给罗姆尼。在95%的概率保证下,请分的概率保证下,请分布估计奥巴马和罗姆尼支持率的置信区间布估计奥巴马和罗姆尼支持率的置信区间 必要抽样数目必要抽样数目某工地有某工地有2000名工人,要用随机不重复抽样法来测定其工作量名工人,要用随机不重复抽样法来测定其工作量,已知标准差为,已知标准差为9立方米。若以立方米。若以95.45%的概率作保证要求抽样的概率作保证要求抽样误差不超过误差不超过0.8立方米,问至少应抽取多少名工人进行调查立方米,问至少应抽取多少名工人进行调查 2Z45%.951 ,9,2000N2由题意:8 . 0Z2x则:8 . 09n11-Nn

18、N2即:404n 即至少抽取404人调查练习练习 应调查多少人?应调查多少人?2012年美国总统大选之前,美国权威的民意调查公司年美国总统大选之前,美国权威的民意调查公司盖盖洛普(洛普(Gallup Tracking)的一项民意调查中显示,在被随)的一项民意调查中显示,在被随机调查的机调查的2700个选民中有个选民中有1320人表示会把选票投给奥巴马人表示会把选票投给奥巴马,1350人表示会把票投给罗姆尼人表示会把票投给罗姆尼。假设在大选之前盖洛普又。假设在大选之前盖洛普又被要求作一次相同的民意调查,但要求在被要求作一次相同的民意调查,但要求在95%的概率保证下的概率保证下奥巴马支持率的估计误

19、差不超过奥巴马支持率的估计误差不超过1.5%,根据第一次的调查,根据第一次的调查经验盖洛普应该至少要抽取多少选民进行调查?经验盖洛普应该至少要抽取多少选民进行调查? 第四节 小样本的估计小样本小样本t分布分布小样本 如果样本容量太小(小于如果样本容量太小(小于30),那么用正态分布),那么用正态分布进行区间估计误差较大进行区间估计误差较大 这时候改成用这时候改成用t分布(分布(t distribution)即可。)即可。即:即:xxst t服从自由度为服从自由度为n-1(n为样本容量)的为样本容量)的t分布。分布。t分布的pdf 设设t分布的自由度为分布的自由度为 则则t分布的分布的pdf为为

20、:2121)2()21()(vvtvvvtf1nvt分布分布 t分布跟标准正态分布非常接近,区别在于其分布分布跟标准正态分布非常接近,区别在于其分布形态取决于自由度形态取决于自由度n-1(n为样本容量),为样本容量),t分布均分布均值为值为0(当(当n-1大于大于1时),标准差为时),标准差为 (当(当n-1大于大于2时)时)101n标准正态分布,1n041n31-nnt分布与标准正态分布分布与标准正态分布 t分布跟标准正态分布相比更低峰分布跟标准正态分布相比更低峰 但是随着自由度的增加,峰会越来越尖但是随着自由度的增加,峰会越来越尖 t分布随着自由度增加收敛于标准正态分布,分布随着自由度增加

21、收敛于标准正态分布,事实上,当事实上,当n大于大于30时,两者区别已非常小,时,两者区别已非常小,可视同标准正态分布可视同标准正态分布t分布的百分位数分布的百分位数 设设 百分数百分数 ,满足,满足 则称则称 为为t分布在自由度为分布在自由度为n-1下的第下的第 百分位数百分位数)10()10(1 . 0t3722. 1)10(975.0t)10(025.0t2281. 22281. 2)20(025. 0t0860. 21)1(nttP1) 1( nt101n201n)20(t)10(t总体均值的区间估计总体均值的区间估计根据t分布,很容易知道,在置信度 下,总体均值 的置信区间为:x2x2

22、) 1(x,) 1(xsntsnt1 保质期保质期 某食品公司欲知道产品的保质期,从一批产品中随机某食品公司欲知道产品的保质期,从一批产品中随机抽取抽取20件观察,发现它们平均保质期为件观察,发现它们平均保质期为400天,标准天,标准差为差为50天。求该批产品保质期的天。求该批产品保质期的95%的置信区间的置信区间 093.2)19(95%-150,s,400 x,191,20n025.0tn由题意:s1nsx则:502012 .11)2 .112.093400, 2 .112.093400(%95置信区间为:期的一个则该批产品的平均保质)424,377(即: 糖果平均重量糖果平均重量 从一批

23、糖果中随机抽取从一批糖果中随机抽取16袋,称得重量(克)袋,称得重量(克)如下。求平均重量的一个如下。求平均重量的一个95%置信区间置信区间 506 508 499 503 508 510 497 512 514 505 493 496 506 502 509 496 )507.35,500.65(单侧置信区间单侧置信区间在前面的两个例子中,糖果重量的需要一个双侧的在前面的两个例子中,糖果重量的需要一个双侧的置信区间,而对于保质期而言,越长越好,所以我置信区间,而对于保质期而言,越长越好,所以我们只需要一个右侧的置信区间,或者我们只要知道们只需要一个右侧的置信区间,或者我们只要知道保质期的下限

24、。而有时我们需要一个左侧的置信区保质期的下限。而有时我们需要一个左侧的置信区间。我们称之为单侧置信区间(间。我们称之为单侧置信区间(one-sided confidence interval)。在置信度)。在置信度 下,总体均下,总体均值的右侧和左侧置信区间分别为:值的右侧和左侧置信区间分别为:xx) 1(x- (),) 1(xSntSnt,和1 保质期保质期 某食品公司欲知道产品的保质期,从一批产品中随机某食品公司欲知道产品的保质期,从一批产品中随机抽取抽取20件观察,发现它们平均保质期为件观察,发现它们平均保质期为400天,标准天,标准差为差为50天。在天。在95%的置信度下求该批产品平均

25、保质期的置信度下求该批产品平均保质期的单侧置信下限。的单侧置信下限。 7291. 1)19(95%-150,s ,400 x,191,20n05. 0tn由题意:s1nsx则:502012 .112 .111.7291400%95的单侧置信下限为:的则该批产品平均保质期381即: 灯泡寿命灯泡寿命 从一批灯泡中随机抽取从一批灯泡中随机抽取5只做使用寿命试验,测得它们的使用寿只做使用寿命试验,测得它们的使用寿命如下:(单位:小时)命如下:(单位:小时) 1050 1100 1120 1250 1280 求该批灯泡平均使用寿命的一个求该批灯泡平均使用寿命的一个95%的置信下限的置信下限 1065第

26、五节第五节 总体方差的区间估计总体方差的区间估计 分布分布总体方差的区间估计总体方差的区间估计2总体方差总体方差 总体方差总体方差 的区间估计需要用到的区间估计需要用到 分布(分布(chi-square distribution) 上式表明,上式表明, 服从于自由度为服从于自由度为n-1的的 分布,其中分布,其中n为样本容量,为样本容量, 为样本方差。为样本方差。22)1()1(222nsn2s22)1(sn2分布的pdf 设设 分布的自由度为分布的自由度为 则则 分布的分布的pdf为为:0,)2(2)(2/2/)12/(xvexxfvxv1nv222分布分布 跟跟 t分布一样,分布一样, 分

27、布的形态取决于自由度分布的形态取决于自由度n-1(n为样本容量),为样本容量), 分布均值为分布均值为n-1,标,标准差为准差为 101n201 n011 n)1(2n222分布的特征分布的特征 分布总大于分布总大于0 分布不是对称的分布,而是右偏分布。但是随着分布不是对称的分布,而是右偏分布。但是随着自由度自由度n-1的增加,偏度越来越小而趋于对称,而的增加,偏度越来越小而趋于对称,而且峰越来越低。且峰越来越低。 分布随着自由度增加收敛于正态分布,事实上,分布随着自由度增加收敛于正态分布,事实上,当当n大于大于50时,两者区别已非常小,可视同正态分时,两者区别已非常小,可视同正态分布布2222分布的百分位数分布的百分位数 设设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论