统计学之参数估计概述_第1页
统计学之参数估计概述_第2页
统计学之参数估计概述_第3页
统计学之参数估计概述_第4页
统计学之参数估计概述_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学之参数估计概述第八章 参数估计第一节 参数估计概述 一点估计和区间估计 点估计和区间估计是参数估计常用的两种方法 首先明确两个概念 估计量:用来对总体参数进行估计的相应的样本统计量。样本统 计量在对总体参数进行估计时有了一个新的名称。常见的估计量 样本平均数 样本比率 或 样本标准差 样本方差 以上的几个的样本统计量通常可以成为相应总体参数的估计量。 估计值:估计值是样本统计量的具体观察值,是统计量中的一个具体数值。 xnnxx1nnp1nap 12nxxs122nxxs第八章 参数估计第一节 参数估计概述 点估计就是根据样本资料计算的一个估计值,也就是用样本资料计算的某个统计量的具体点

2、值作为总体参数的估计值。例如要估计一批产品的平均使用寿命,其方法是:先从总体中随机抽取一个样本,计算样本统计量,样本平均数1000小时那么可以说总体平均数的估计值为1000小时。可以分别用样本方差的一个具体的点值、样本比率的一个点值去作为总体相应参数的估计值。特点是:方法简单,又能准确估计出总体参数。无法计算估计误差。不可能知道估计的可靠程度。 点估计法尽管方法简单,但因为无法计算估计误差,不可能知道估计的可靠程度,因此在实际工作中很少使用。但是只要坚持了估计量的优良标准,这种方法还是完全可行的。 参数估计使用较多的还是区间估计第八章 参数估计第一节 参数估计概述 区间估计:区间估计:根据样本

3、统计量估计总体参数所处的具有一定可靠程度的区间,就称为区间估计。区间估计就是要找出总体参数的上限和下限,并且给出总体参数落入该区间的可靠程度。也就是找出我们此前介绍过的总体参数的置信区间。特点是 1、可以计算估计误差,明确估计的精确度。 2、明确估计的可靠程度。 3、使用广泛。 上节内容回忆1、统计推断、参数估计、假设检验、2、估计量、估计值3、点估计概念、特点4、区间估计的概念、特点第八章 参数估计第一节 参数估计概述 二估计量的优良标准 用样本统计量对总体参数进行估计时,并非所有的估计量都是优良的,而对于区间估计,无论如何,可计算出估计的可靠程度,也能根据置信区间了解估计的精确度。但对于点

4、估计来讲,样本统计量是否可以作为总体参数的估计量,要看其是否符合估计量的优良标准。一个好的估计量有如下三个标准:第八章 参数估计第一节 参数估计概述 一无偏性 如果样本统计量的数学期望值等于该统计量所估计的总体参数,那么这个总体的估计量叫做无偏估计量。这是一个好的估计量的一个首要条件。 根据样本平均数的抽样分布我们知道,对于正态总体,样本平均数的分布服从正态分布,而且样本平均数的平均数就等于原总体平均数,对于非正态总体,只要样本容量足够大,样本平均数的分布也服从正态分布,而且样本平均数的平均数也等于原总体平均数。第七章作过证明,并且用数学期望的方法也可以证明:样本平均数的数学期望等于总体平均数

5、。对正态总体或样本容量足够的非正态总体而言,用样本平均数作为总体平均数的点估计时,就符合这一要求 无偏性实际是指在估计时没有系统的偏差,并不是说每次抽样,样本平均数就等于总体平均数,而是从平均意义上讲的,即如果这种估计方法重复进行,那么从估计量所获得的平均数等于总体参数。 数学期望可以理解为:大量结果的平均数。显然,如果说一个估计量是无偏的,并不是保证用于单独一次估计中没有随机性误差,只是没有系统性的偏差而已。同样可以证明,样本方差的数学期望等于总体方差。如果用数学公式表示 E-数学期望 xE 22sE第八章 参数估计第一节 参数估计概述 二一致性 当样本容量n增大时,如果估计量越来越接近总体

6、参数的真值时就称这个估计量为总体参数的一致估计量。通过抽样分布的讨论我们知道,样本平均数、样本方差和标准差、样本比率,样本容量越大,其数值就越接近总体相应参数,可见它们具有一致性的性质。如果一个估计量是一致估计量,那么,在进行估计时是,样本容量越大,估计的可靠程度就越高。尽管我们不知道具体的可靠程度。当然,在样本容量n增大时,估计量的一致性虽会增强,但调查研究所需的人、财、物力也相应增加。第八章 参数估计第一节 参数估计概述 三有效性 有效性实际是指估计量的离散程度大小。对同一个总体参数来讲,如果两个估计量都是无偏的,其中方差较小的对给定的样本容量而言就可认为相对来说是更有效的。 例如:从一个

7、总体中随机抽取一个容量为n的样本,可以计算它的样本平均数和样本中位数,样本平均数和样本中位数都是平均指标,可以证明,两种平均指标都可以作为总体平均数的无偏、一致估计量,但是谁更有效呢?从第七章分析中可以知道, ,对于同一个样本容量,样本中位数md的方差 可以证明,省略,因此,在满足了无偏性和一致性要求的同时,样本平均数比样本中位数作为总体平均数的估计量更有效。nx22ndm2257. 1如果一个估计量同时满足这三个标准,那么就可以说这一个估计量是一个好的估计量。样本平均数和样本方差标准差、样本比率都是符合无偏性、一致性、有效性的总体参数估计量。 第八章 参数估计第一节 参数估计概述 三参数估计

8、的一般程序 1提出估计的根本要求 对于区间估计,参数估计必须给出两个根本要求中的一个。一是估计的允许误差,一个便是估计的可靠程度。抽样允许误差要求越小越好,越小精确度越高,太大失去了估计的意义。但是允许误差越小,那么估计的可靠程度越低。估计的可靠程度越高,那么允许误差越大。 2确定最低的样本容量 将在此后内容中详细介绍第八章 参数估计第一节 参数估计概述 3编制抽样框 抽样框是组织抽样的根底。抽样框是包含全部总体单位及其主要标志特征的框,从中可以抽出样本单位及其根底资料。抽样框常见的有两种总体单位清单 可以是总体单位的名单框架、盛有总体单位名单的篮子,也可以是按照适当标志排队的总体单位顺序表。

9、地段抽样框 地段单位是明确地划定了地理边界的单位。要根据地图来进行确定。 4抽取样本 5样本准确性和代表性检查 6实地调查 7估计第八章 参数估计第二节 总体平均数的区间估计 从第七章了解到,总体是否正态分布,总体方差是否,大样本还是小样本,甚至重复抽样还是不重复抽样,样本统计量的分布都有所不同,样本平均数的分布固然也不相同,以下几种情况是我们要掌握的: 1、正态总体,方差 2、非正态总体,方差 3、总体方差未知,小样本 4、总体方差未知,大样本 一、正态总体、方差 1根本原理 如果抽样总体服从正态分布,而且方差,设:总体平均数为 ,标准差为 ,那么样本平均数的分布服从正态分布,且样本平均数的

10、平均数 ,样本平均数的标准差 。既然 服从正态分布,那么, 依然服从正态分布,因为 是一个常数,因此, 依然服从正态分布,对于新的变量 ,因为 ,因此其平均数等于0;因为原变量在减去 同时缩小了 倍,那么其标准差应缩小 倍,所以其标准差就为1。因此由 转化而来的新变量 就服从标准正态分布。我们知道在标准正态分布中,任意一个变量出现的概率可以查表得到,而且我们还记住了常见的几个区间概率。例:在标准正态分布中,落在-2 , 2区间的概率是95.45%。用公式表示为:xnxxxnnxnx0 xnnxnx 或 换成中文就是 的概率保证是95.45% 移项整理 的概率保证是95.45% 到此我们已经明白

11、,如果给定了估计的可靠程度95.45%,我们又通过抽样,计算出了样本平均数为 ,那么我们就知道9545. 022nxP9545. 022nxnPnxn22nxnx22xnxnx22第八章 参数估计第二节 总体平均数的区间估计 从第七章我们也曾讨论过,变量落入置信区间以外的概率叫做显著水平,那么,给定显著水平,也就是给定了置信概率。置信概率等于1。我们可以查一定显著水下的正态分布变量值,来确定总体平均数的置信区间了。第八章 参数估计第二节 总体平均数的区间估计 2方法步骤1抽取样本,计算样本平均数2计算样本平均数标准差均数标准差 如果明确是不重复抽样,注意需要用 进行修正。3确定置信水平置信概率

12、、保证概率、保证水平,根据置信水平确定显著水平xnxxnx1NnN第八章 参数估计第二节 总体平均数的区间估计4查标准正态分布表中显著水平为时的变量值Z Z0.1 、 Z0.05、 Z0.04555构造总体平均数的置信区间xxZxZxnZxnZx第八章 参数估计第二节 总体平均数的区间估计例8-1某制造厂质量管理部门的负责人希望估计移交给接收部门的5500包原材料的平均重量。一个250包原材料组成的随机样本所给出的平均值 =65千克。总体标准差 =15千克。试构造总体未知的平均值的置信区间,假定95%的置信区间已能令人满意,并假定总体为正态分布。解:此题中,总体服从正态分布,所以样本平均数也服

13、从正态分布。并N5500,n250, =65克, =15克,置信水平95%xx第八章 参数估计第二节 总体平均数的区间估计1抽取样本,计算样本平均数 对此题,样本已抽出,样本平均数 =65克2计算样本平均数标准差均数标准差如果不明确是不重复抽样,均可以看作是重复抽样对此题, 3确定置信水平,根据置信水平确定显著水平对此题,置信水平95,显著水平0.05xnxxxnx25015nx4查标准正态分布表中显著水平为=0.05时的变量值Z0.05对此题,Z0.05=1.965构造总体平均数的置信区间 结论:根据抽样研究,5500包原材料所组成的总体总体平均数, ,估计的可靠程度为95。xxZxZxnZ

14、xnZx2501596. 1652501596. 16586. 16586. 16586.6614.6386.6614.63第八章 参数估计第二节 总体平均数的区间估计二非正态总体,方差如果抽样总体不服从正态分布,那么抽取的样本平均数也不服从正态分布,但是随着样本容量的增大,样本平均数的分布越来越接近于正态分布,如果样本容量足够大,样本平均数的分布可近似看作正态分布。而且样本平均数的平均数 ,样本平均数的标准差 ,我们自然可以利用正态分布来解决总体平均数的区间估计问题了。xnx第八章 参数估计第二节 总体平均数的区间估计例8-2 某职业介绍所的职员从申请某一职业的1000名申请者中采用不重复抽

15、样方法随机抽取了200名申请者,借此来估计1000名申请者考试的平均成绩。由200名申请者构成的样本平均数 =78分,由已往经验总体方差为 90,但该职员不知总体服从何种分布,试求90%的置信区间。解:根据中心极限定理,由于这个问题的样本容量为200,远大于30或50,足够大,因此,样本平均数的分布可看作近似服从正态分布。又因为是有限总体的不重复抽样,所以在计算均数标准差时需乘以有限总体修正系数即可。x2第八章 参数估计第二节 总体平均数的区间估计方法步骤:1抽取样本,计算样本平均数对此题,样本已抽出,样本平均数 =78分2计算样本平均数标准差均数标准差明确是不重复抽样,需要校正。 对此题,

16、3确定置信水平,根据置信水平确定显著水平对此题,置信水平90,显著水平0.1xnxxx60. 0110002001000200901NnNnx第八章 参数估计第二节 总体平均数的区间估计4查标准正态分布表中显著水平为=0.1时的变量值Z0.1对此题,Z0.1=1.6455构造总体平均数的置信区间 结论:根据抽样研究,1000申请者组成的总体总体平均数在7779,估计的可靠程度为90。xxZxZxnZxnZx60. 0645. 17860. 0645. 1787977第八章 参数估计第二节 总体平均数的区间估计三总体方差未知,小样本 从一个正态总体中抽取样本,样本平均数的分布服从正态分布,而且样

17、本平均数分布的平均数等于原总体平均数,样本平均数的标准差 ,变量 此时服从标准正态分布。 如果总体方差未知,那么变量 服从t分布。如果样本容量足够大,t分布近似服从标准正态分布。如果样本容量小于30或50,那么只能服从t分布。由此可见,正态总体方差未知,小样本时,只能用t分布来解决总体平均数区间估计问题。nxnxnsx第八章 参数估计第二节 总体平均数的区间估计 如果总体是非正态总体,尽管方差,样本平均数的分布也不服从正态分布。但如果样本容量足够大,样本平均数的分布近似服从正态分布。也可以用正态分布来解决总体平均数区间估计问题。例题8-2。 但非正态总体,且方差未知,那么只要样本容量足够大,即

18、使用样本方差代替总体方差,样本平均数转换变量 的分布仍然近似服从t分布。因为样本容量足够大样本平均数的分布也近似服从正态分布,变量 也近似服从标准正态分布。可以用t分布也可以用正态分布来解决总体平均数区间估计问题。nsxnsx第八章 参数估计第二节 总体平均数的区间估计如果总体是非正态总体,方差未知,且样本容量小于30或50,样本平均数的分布难以确定是何种分布,用样本方差代替总体方差,变量 既不服从t分布,也很难确定其属于何种分布。非正态总体总体方差未知且小样本,如何进行总体参数的区间估计呢?规定两个条件:1抽样总体近似服从正态分布。2总体中的变量相互独立。即抽取一个变量对剩余的变量数值无影响

19、。在总体变量不相互独立时,必须保证总体容量N很大,而样本容量n又很小,抽取n个单位对独立性影响不大。此时, 近似服从t分布。可以按照t分布解决区间估计问题。nsxnsx第八章 参数估计第二节 总体平均数的区间估计 例8-3 为了估计1分钟1次广告的平均费用,抽出了15个电视台的随机样本。样本的平均值=2000元,其标准差s=1000元。假定所有被抽样的这类电视台近似服从正态分布,试构造总体平均值为95%的置信区间。 解:总体近似服从正态分布,但方差末知,n=15, =2000,S=1000,置信水平95%,=0.05x 方法步骤: 1抽取样本,计算样本平均数 对此题,样本已抽出,样本平均数=2

20、000元 2根据样本资料计算样本标准差 对本例 s1000 3计算样本平均数标准差均数标准差 虽未明确是抽样方法,但总体容量很大,不需再作校正。 对此题,xnxx12nxxs20.258151000nsnx4确定置信水平,根据置信水平确定显著水平对此题,置信水平95,显著水平0.055查自由度为n-1=15-1=14时的t分布表中显著水平为=0.05时的变量值t0.052.145双尾6构造总体平均数的置信区间 结论:根据抽样研究,总体平均数 ,估计的可靠程度为95。nstxnstx20.258145. 22000020.258145. 220008 .25532 .14468 .25532 .

21、1446第八章 参数估计第二节 总体平均数的区间估计四总体方差未知,大样本不管原总体服从何种分布,只要样本容量足够大,那么样本平均数的分布近似服从正态分布,且 , , 变量 近似服从标准正态分布。但当总体方差未知时,只有用样本方差代替总体方差,那么此时变量 就近似服从t分布。当样本容量远大于30或50时,也可以认为变量 就近似服从正态分布。下面用两种方法同时计算一个例题,看两种方法的区别。xnxnxnsxnsx第八章 参数估计第二节 总体平均数的区间估计例84 某百货店通过100位顾客的随机样本研究购置额,均值和标准差分别为24.75元和5.5元,试构造总体均值的90的置信区间。解:不知总体属

22、于何种分布,但样本是大样本,且样本容量远大于30和50,总体方差未知,需用样本方差 来代替。代替后的变量 近似服从t分布,甚 至近似服从标准正态分布。nsx方法步骤:1抽取样本,计算样本平均数 对此题,样本已抽出,样本平均数=24.75元2根据样本资料计算样本标准差 对本例 s5.53计算样本平均数标准差均数标准差 对此题,xnxx12nxxs55. 01005 . 5nsnx4确定置信水平,根据置信水平确定显著水平对此题,置信水平90,显著水平0.15查自由度为n-1=100-1=99时的t分布表中显著水平为=0.1时的变量值t0.11.661双尾。单尾检验时查t0.05。或者查标准正态分布

23、Z0.11.6456构造总体平均数的置信区间 或者估计的可靠程度为90。nstxnstx55. 0661. 175.2455. 0661. 175.2466.2584.23nsZxnsZx55. 0645. 175.2455. 0645. 175.2466.2585.23nxnZxnZxnxnZxnZxnsxnstxnstxnsxnstxnstxnsZxnsZx条 件均数标准差总体平均数置信区间正态总体,方差已知非正态,方差已知,大样本(近似正态),方差未知,小样本,方差未知,大样本或者以上总结请注意:每种方法适用条件,每种方法最根本的理论依据,主要就是样本平均数的抽样分布,根本的方法步骤都是

24、一样的。1. 2. S 3. 4. 置信概率 即 5. Z 或t 6. 置信区间。xx第八章 参数估计第三节 两个总体平均数之差的区间估计 两个总体平均数之差的区间估计,最关键的还是以样本平均数差数分布为理论依据。样本平均数差数的分布因为两个抽样总体分布不同,方差或未知,大样本还是小样本都有所不同,具体情况只能采取具体的方法步骤。 第八章 参数估计第三节 两个总体平均数之差的区间估计一. 两个正态总体,方差 从第七章我们知道,如果两个总体服从正态分布,样本平均数差数 的分布服从正态分布,样本平均数差数分布的平均数等于两个总体平均数之差 ,样本平均 数差数分布的标准差 。既然两个样本平均数差数的

25、分布服从正态分布。 作为一个变量减去其总体平均数也就是 依然服从正态分布,该变量 再除以样本平均数差数分布的标准差即 自然就服从标准正态分布。21xx 2122212121nnxx21xx 21xx 21212121xxxx第八章 参数估计第三节 两个总体平均数之差的区间估计 例8-5某银行负责人想知道存户存入2家银行的钱数,他从每一家银行各抽选了1个由25个存户组成的随机样本。样本平均值如下:银行A: =450元;银行B =325元。2个总体均服从方差分别为 =750和 =850的正态分布。试构造 的95%的置信区间。 解:由于2个总体均服从正态分布,因此 也服从正态分布,因此可以通过变量转

26、换采用标准正态分布来估计总体平均数差数的置信区间。并且 =450元, =325元; =750, =850;置信概率95%,即显著水平为=0.05AxBx2A2BBABAxx AxBx2A2B方法步骤:1从两个总体各抽一个样本,计算 , 和 -对本例 =450元, =325元, - =450-325=125元2计算样本平均数差数标准差 3 确定置信水平,根据置信水平确定显著水平对此题,置信水平95,显著水平0.05AxAxBxBxAxBxBxAx21xx 258502575022BBAAxxnnBA4查标准正态分布表中显著水平为=0.05时的变量值Z0.05对此题,Z0.05=1.96(双尾概率

27、为5,如果查单尾概率表,那么要查 ,即 )5构造总体平均数差数的置信区间对本例估计的可靠程度为95%。2Z025. 0ZBABAxxBABAxxBAZxxZxx258502575096. 1125258502575096. 1125BA68.14032.109BA第八章 参数估计第三节 两个总体平均数之差的区间估计二. 两个正态总体,方差未知但相等从第七章我们知道,如果两个总体服从正态分布,样本平均数差数 的分布服从正态分布,样本平均数差数分布的平均数等于两个总体平均数之差 ,样本平均数差数分布的标准差 。变量 服从标准正态分布。当总体方差未知时,只能用样本方差去代替总体方差,如果两个总体方差

28、相等,但因为存在两个样本,究竟该用谁去代替总体呢?不能用其中任何一个样本方差去估计总体方差,而是用两个样本的混合方差去估计总体方差。21xx 2122212121nnxx212121xxxx混合方差 混合方差显然是两个样本方差的加权平均数,权数即是两个样本各自自由度。既然用混合方差 来代替总体方差,而混合方差其实还是样本方差,平均数差数标准差可以用 计算,但是变量 却不服从标准正态分布而是服从自由度为n1+n2-2的t分布。证明从略因此,总体平均数的置信区间为: ) 1() 1() 1() 1(212222112nnSnSnSP) 1() 1() 1() 1(212222112nnSnSnSP

29、221221nSnSppxx212121xxxx21)()(2121xxuuxxt22122121)()(nSnStxxpp)2(21nndf第八章 参数估计第三节 两个总体平均数之差的区间估计例8-6 某工厂中有2台生产金属棒的机器。一个随机样本由机器A生产的11根金属棒组成,另一个随机样本由机器B生产的21根金属棒组成。2个样本分别给出2台机器所生产金属棒的长度数据如下 =6.10英寸。 =5.95英寸;SA=0.018,SB=0.020。假定2个总体近似服从正态分布,且总体方差相等,试构造A-B 的95%的置信区间。解:两个总体方差相等但未知,可以用混合方差来作为总体方差的估计值,计算样

30、本平均数差数标准差,用t分布估计总体平均数差数所处的置信区间。并且题目 =6.10英寸, =5.95英寸;S2A=0.018,S2B=0.020;置信概率95%。AxBxAxBx 方法步骤1从两个总体各抽一个样本,计算 , 和 -对本例 =6.10英寸, =5.95英寸, - =6.10 5.950.15英寸2计算两个样本的混合方差3计算样本平均数差数标准差 AxBxAxBxAxBxBxAx) 1() 1() 1() 1(212222112nnSnSnSP019. 0) 121() 111(020. 0) 121(018. 0) 111(2PS21xx 21019. 011019. 022Bp

31、ApxxnsnsBA4 确定置信水平,根据置信水平确定显著水平对此题,置信水平95,显著水平0.055查自由度为n1+n2211121130时的t分布表中显著水平为=0.05时的变量值t0.05对此题,t0.05=2.042(双尾概率为5,如果查单尾概率,那么要查,即t0.025)6构造总体平均数差数的置信区间对本例 总体平均数差数即两台机器生产的金属棒平均长度差异在0.050.25英寸之间,估计的可靠程度为95%。BABAxxBABAxxBAtxxtxx21019. 011019. 0042. 215. 021019. 011019. 0042. 215. 0BA25. 005. 0BA第八

32、章 参数估计第三节 两个总体平均数之差的区间估计三. 两个总体均服从正态分布,方差未知且不等既然两个总体方差未知,我们只有用 然后去计算平均数差数标准差 但是 此时服从 正态分布,但 却不服从自由度 的t分 布。这种情况其实总体平均数差数区间估计没有了方法。但经过研究发现, 服从一种用两个样本方差和样本容量去修正 了的自由度的t分布。修正自由度 ,因此,我们 可以按t分布去解决差数分布及总体平均数差数区间估计了。2121S2222S22212121nSnSxx)()(2121 xx2221212121)()(nSnSxxt) 1() 1(21nn2221212121)()(nSnSxxt222

33、22121212222121)()()(nnSnnSnSnSf d例8-7 为了说明问题,现假定例8-6中的2个总体方差不等,试构造的95%的置信区间。解:既然两个总体方差不等,只好用各自样本方差估计各自总体方差,计算平均数差数标准差,然后修正自由度,其修正自由度为: 由这个公式算出来的自由度往往不是整数,可以用四舍五人后的整数查表求得置信区间。22222121212222121)()()(nnSnnSnSnSf d方法步骤如下:1. 从两个总体各抽一个样本,计算 、 、2. 计算两个样本方差 计算公式略3. 计算平均数差数标准差 注意: 却不服从自由度 的t分布,但是他服从另外一个自由度的t

34、分布1x2x21xx 22s21s22212121nsnsxx2221212121)()(nSnSxxt) 1() 1(21nn 4. 计算自由度修正值 (计算时四舍五入取整数) 5. 确定置信水平或显著水平 6. 查自由度为 时 7. 构建置信区间 或5分钟按以上步骤整理例题8722222121212222121)()()(nnSnnSnSnSf daf d t2221212121)()(nSnStxx2121)()(212121xxxxtxxtxx第八章 参数估计第三节 两个总体平均数之差的区间估计四. 两个总体均不服从正态分布,且方差未知两个总体变量分布不详或明确均不服从正态分布,要想清

35、楚地知道样本平均数或样本平均数差数的分布,只有按中心极限定理采用大样本,此时样本平均数的差数分布近似服从正态分布。即使用 计算 那么变量 也近似服从 正态分布,按正态分布解决问题即可。22S22212121nsnsxx2221212121)()(nSnSuuxx例8-8 A,B两所大学某学期期末英语考试采用同一试题。A校认为该校学生英语考试成绩能比B校高出10分。为了证实这一说法。主管部门从2校各抽取一个随机样本并得到如下数据: nA=75人,nB=80人, =78.6分, =73.8分,sA=8.2分,sB=7.4分。试在95%的置信程度下确定2校平均分数之差的置信区间。方法步骤如下:AxB

36、x1. 从两个总体各抽一个样本,计算 、 、2. 计算两个样本方差 计算公式略 3. 计算平均差数标准差 均大于等于30或504. 确定置信水平 或显著水平1x2x21xx 21s22s22212121nsnsxx21nna5. 查标准正态分布 6. 置信区间 该题目的结论是:我们有95%的把握说A、B 2校英语成绩之差在2.3-7.3分之间。这个结果说明A校的平均成绩确实高于B校,但并末高出10分。 58. 296. 1645. 101. 005. 01 . 0ZZZ2221212121)()(nSnSZxx22212121nnxx2121212121xxxxZxxZxx) 1() 1()

37、1() 1(212222112nnSnSnSP221221nSnSppxx21212121xxBAxxtxxtxx22212121nsnsxx2221212121)()(nSnStxx22222121212222121)()()(nnSnnSnSnSf d22212121nsnsxx2221212121)()(nSnSZxx条 件平 均 数 差 数 标准差总体平均数置信区间两个正态总体,方差已知两个正态总体,方差未知但相等 自由度dfn1+n22两个正态总体,方差未知且不等自由度两个非正态总体,方差未知(大样本)内容回忆1、统计推断、参数估计、假设检验、估计量、估计值2、点估计概念、特点3、区

38、间估计的概念、特点4、估计量的优良标准,无偏性、一致性、有效性。数学期望5、区间估计的一般程序,参数估计的两个根本条件6、总体平均数的区间估计7、两个总体平均数之差的区间估计第八章 参数估计第四节 总体比率的区间估计当 或 大于5, 或 不接近0或1的时候,抽样分布接近正态分布。样本比率成数的抽样分布近似服从平均数为总体比率,标准差为 的正态分布,此时我们按正态分布来解决总体比率区间估计问题即可。但是总体比率我们又常常是不知道的,这本来就是要我们去估计的一个数值那我们只有用样本比率去代替总体比率从而计算 即: 。此时, 近似服从 , ,的正态分布。但毕竟我们仍能用正态分布来解决的区间估计。np

39、)1 (pnpp1nppp)1 ( pnppSpp)1 (ppnpp)1 (第八章 参数估计第四节 总体比率的区间估计方法步骤如下: 1. 抽取样本,计算样本比率 2讨论样本比率是否近似服从正态分布。 3. 用样本比率 代替 计算 4. 确定置信水平,根据置信水平确定显著水平 5. 查标准正态分布 6. 构建置信区间 7. 有限总体不重复抽样要用 修正 0.05时需修正 条件: 样本容量足够大,保证 分布能服从正态分布 5, 或 不接近0或1nnp1ppnppnppp)1 ()1 (aZ645. 158. 296. 11 . 001. 005. 0ZZZnppZpp)1 (1NnNNnpnpp

40、)1 (p第八章 参数估计第四节 总体比率的区间估计例8-9某企业在一项关于寻找职工流动原因的研究中,研究者从该企业前职工的总体中随机抽取了200人组成一个样本。在对他们进行访问时,有140人说他们离开该企业的原因是因为他们得到的收入太低。试对由于这种原因而离开该企业的人员的真正比率构造95%的置信区间。解 企业职工流动情况,可看作是无限总体, =200 =140置信概率95% 不接近1 n1n7 . 0200140p57 . 0200pn5)1 ( pn方法步骤:1. 抽取样本,计算样本比率 2讨论样本比率是否近似服从正态分布。3用样本比率 代替 计算样本比率标准差4. 置信水平,根据置信水

41、平确定显著水平 置信水平要求95,显著水平 0.05pnnp17 . 0200140pppnppnppp)1 ()1 (03240. 02003 . 07 . 0)1 ()1 (nppnpppaa5. 查标准正态分布 6. 构建置信区间 结论:对总体来讲,因收入低而离开企业职工比重在0.6365到0.7635之间,估计的可靠程度为95。Z96. 105. 0ZppZppZp03240. 096. 17 . 003240. 096. 17 . 0p7635. 06365. 0 p例8-10某一大公司的人事处长希望知道本公司内专业不对口的职员究竟占多大比率。于是他从2000名具有大专以上学历的职员

42、中随机抽取了一个由150人组成的样本进行研究,结果说明,其中有45人说他们从事的工作与所学专业不对口。试在95.45%的置信程度下构造出不对口人员所占真正比率的置信区间。解:由于样本容量很大,n=150,n1=45, =45/150=0.3,n 和n(1- )都大于5,故可用正态分布逼近。总体为有限总体,而且n/N 150/20000.0750.05,故需用有限总体修正系数修正 。pppp方法步骤: 1. 抽取样本,计算样本比率 2讨论样本比率是否近似服从正态分布。 和 都大于5,故可用正态分布逼近 3以样本比率 代替 计算 4确定置信水平,根据置信水平确定显著水平 置信水平95.45,显著水

43、平0.0455pnnp13 . 0150451nnppn)1 (pnpp1)1 (1)1 (NnNnppNnNnppp036. 01200015020001503 . 013 . 01)1 (NnNnpppa5. 查标准正态分布 此题很清楚 26. 构建置信区间 计算结果说明,我们有95.45%的把握说,该公司具有大专以上学历的人员中,有22.8%-37.2%的人专业不对口。 ZZppZppZp036. 023 . 0036. 023 . 0p372. 0228. 0 p第八章 参数估计第五节 样本容量确实定 在此前关于样本容量我们屡次提到大样本,小样本,足够大等有关概念,这是讨论抽样分布时必

44、须考虑的,但是小到多少,大到多少适宜呢?我们必须要考虑一个必要的样本容量。 必要样本容量是:既满足抽样允许误差的大小,又能满足一定概率保证程度的最小样本容量。 抽样允许误差就是:根据研究目的和任务确定的样本指标与总体参数之间的最大误差。表现形式为绝对值形式,实际是总体参数左右最大的差距。例如:估计允许误差为1,样本平均数为5,总体平均数的估计区间即为46。第八章 参数估计第五节 样本容量确实定一. 影响必要样本容量的因素 1. 总体变异程度 越大要求的样本容量应越大,反之越小。 2. 参数估计的可靠程度 相同精确程度情况下,保证程度越高,那么要求样本容量越大;保证程度越低,那么要求样本容量越小

45、。 3. 抽样允许误差 抽样允许误差越小,样本容量也越大,反之样本容量越小。 4. 抽样方法 重复抽样,抽样误差要大于不重复抽样,因此,重复抽样要有较大的样本容量。2第八章 参数估计第五节 样本容量确实定 二. 必要样本容量的计算 (一)估计总体平均数时的样本容量 1. 重复抽样 重复抽样时,我们知道在总体方差时,总体平均数所处区间 那么可见抽样允许误差即为 计作: 两边平方 nZxZxxnZxnZnZx222xZn222第八章 参数估计第五节 样本容量确实定 2. 不重复抽样样本平均数标准差 抽样允许误差 两边平方 )1(2NnNnx12NnNnZx1222NnNnZx22222) 1(ZN

46、NZnx 大家知道以上公式获得很是简单,公式里的几个参数如 人为设定,置信概率人为设定, 可容易找出,对有限总体只要确定了范围N也为,但总体方差或标准差何在,如果知道,抽样估计岂不毫无意义,应该怎么办呢?1 根据此前掌握的相同甚至类似的资料来估计2 组织一次小规模试验性抽样,用 ,再计算样本容量,如果计算的必要样本容量 试验性样本的样本容量,那么将试验性样本作为正式研究的样本即可。如果大于试验性样本容量,再补充局部样本单位组成样本去进行研究。3 根据资料的极差去估计标准差 正态分布 99.73 可认为全距为6个标准差,因此=全距/6即可。xZs3x第八章 参数估计第五节 样本容量确实定二 估计

47、总体比率时样本容量确定 1 重复抽样 抽样允许误差 两边平方 nppZp)1 ( pZnppZp)1 (2222)1 (pppZn 2不重复抽样 抽样允许误差 两边平方 1)1 (NnNnppZp1)1 (22NnNnppZp)1 () 1()1 (222ppZNppNZnp同样的问题是该公式中 从何而知二项分布只要知道一个 哪还了得解决的方法:1用以往资料估计2试验性抽样同总体平均数区间估计样本容量确定3专业工作者或研究者以经验判断,如生男生4以0.5直接作为 来计算必要样本容量, 以0.5 0.5最大,因此必要样本容量也最大,区间估计具有最高精确度和保证程度,稍许增加工作量,恰好是非调查难

48、度不大,算是补偿吧。 ppp)1 (pp第八章 参数估计第六节 正态总体方差和两个正态总体方差比的区间估计 一正态总体方差的区间估计 在生产实践中我们可能碰见这种问题,例如一批产品的质量问题,像电池,我们可以通过抽样估计、了解平均使用寿命总体平均数来判断其是否合格,但是否总体平均水平就是合格的唯一标准呢?如果平均使用寿命不低,但产品之间相差很大,即变异程度很大,是否就是合格呢?这时我们就需要对总体方差或标准差进行估计。 一根本原理从一个正态总体 中随机抽取一个样本 我们可计算出样本 。所以 。我们又知道 该变量服从 分布,如果用样本平均数代替总体平均数,那么可以证明 服从 分布,也就是 近似服

49、从 分布。 分布中某 值出现的概率是可以计算的,因此我们就可以通过样本方差对总体方差利用 分布进行区间估计了。 出现的概率可以计算 所处区间的保证程度也就可以计算了。如果以保证程度为95%,那么 必须介于 之间。意即 的置信区间在 的区间就在2n1)(22nxxs22) 1(xxsn22)(x222) 1(sn 22)( xx222222) 1(sn 222) 1(sn 2025. 02975. 022) 1(sn 221222)211() 1(sn22)211 (222212) 1() 1(snsn2方法步骤:1抽出样本容量为n的样本,计算2确定置信水平 即显著水平3查自由度 时的 和 4写出的置信区间 1)(22nxxs) 1( n2212)211 (2)211(222212) 1(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论