统计量与参数估计_第1页
统计量与参数估计_第2页
统计量与参数估计_第3页
统计量与参数估计_第4页
统计量与参数估计_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章 统计量与参数估计§10.1 样本与统计量 一. 总体与样本 例1 欲了解一批灯泡的寿命X (小时)的分布情况,只能抽取n 个作破坏性试验,根据试验结果来推断X 的分布。 1总体与个体 研究对象的全体称为总体。例1中,我们关心的是全体灯泡寿命的分布情况,即寿命X 的所有可能的取值及其概率分布。因此寿命X 是连续的随机变量。一般地把我们关心的随机变量X 称为总体。组成总体的每个单元称为个体。例1中,我们关心的是灯泡的寿命。所以个体也可理解为总体X 的取值。 2简单随机抽样为了使抽样具有充分的代表性,所以要求: (1)每个个体被抽到的机会均等; (2)每次抽取是独立的(共抽取n 次

2、)。这样的抽样叫做简单随机抽样。通常的抽样都是无放回的,当总体很大时,可以满足独立性。 3样本 在总体中抽取n 个个体,称为总体的一个样本,记为 ( X1 , X2 , , Xn ) ,其中每次抽样Xi ( i = 1 , 2 , , n )也都是随机变量(解释),共n 个随机变量,加上括号,表示样本是一个整体。 4样本的容量 抽取的个体数n ,称为样本的容量。5独立同分布 每次抽取的Xi 来自总体,应该与总体X有相同的分布(概率密度相同),所以说样本是一组具有独立同分布的随机变量。 6样本观察值(样本值) 样本的测试结果记为 ( x1 , x2 , , xn ) ,是一组数据,在容易产生误会

3、时,大小写要分清,尤其在作理论分析时,一般都取大写,作为随机变量处理。二统计量 1三个重要统计量 (1)样本均值: (2)样本方差: (3)样本标准差(又称为样本均方差 ): 其中作为均值可以反映总体X的均值(不是等同),S 2 是数据与均值偏离值平方的平均,体现样本的离散程度,因而可以反映总体X的方差。和s(计算值)可以利用函数计算器的统计功能快速得到(可安排多媒体课件演示)。 2统计量的概念统计量是含有样本X1 , X2 , , Xn 的一个数学表达式,并且式中不含未知参数,因而可以在得到样本值后立即算出它的数值来。在抽样之前,统计量的值无法确定,抽样测试之后,可以观察到它的取值,因此统计

4、量是随机变量,是由样本派生出来的随机变量。三抽样分布统计量既然是随机变量,当然有它的概率分布,称为抽样分布。以下仅给出结论,结论都对正态总体而言。1样本均值的分布(1)若总体,则(独立同分布),于是作为线性函数 (2)特别地,标准化以后,得。 2t 分布当总体标准差未知时,U 不再是统计量,这时可用样本标准差S 代替,但不再是正态分布,而是一种新的分布叫做服从于自由度的t 分布。它的密度曲线与正态曲线相类似 (见图8)。 3分布 为了将样本方差S 2和总体相比较、联系。构造出,叫做服从于自由度为的分布,也是一种新的分布。其密度曲线 (见图9)在原点右侧,这是因为统计量是不会出现负值的。 、是继

5、、后第二轮复合而成的统计量,可以更有利于实际的应用。四临界值1设UN (0,1) ,有关U 的概率可查表。如果反过来,已知概率,求使或,倒查表得到的称为标准正态分布的右侧临界值,意为右侧的概率为,又叫分位点,记为(见图10)。若求使,则查表得到的是,称为双侧临界值 (见图11),意为对称两侧的概率之和为,它们的概率意义分别是和。比如,。2t 分布和分布的右侧临界值记为和。括号内的n 是自由度,不要与样本容量相混淆,如,的概率意义为 (见图12、13)t 分布表和分布表已直接编为临界值表,不必“倒查表”。正态分布和t 分布的左侧临界值是对称值 和(左侧概率为),不必另行查表。而分布无对称性,左侧

6、临界值是(右侧概率是,左侧概率当然是)(见图14),需另行查表。分布的双侧临界值(见图15)是(左)和(右)。例2 求满足以下概率式的临界值并给出对应的记号(1),则;(2),则;(3),则;(4),则;(5),则。例3 对于查表得到的和,给出它们的概率意义。解 ,。§10.2 点估计一点估计的概念总体X 的分布类型往往是已知的,如,但它的参数不知道,要通过样本来估计,称为点估计。二样本数字特征法用样本的均值、方差来估计总体的均值、方差是很自然的,即,这里在字母上加一个“帽子”是为了表明这仅仅是估计值而非准确值。这样的估计方法称为样本数字特征法。 例1 某果园有1000株果树,在采摘

7、前欲估计果树的产量,随机抽选了10株,产量(公斤)分别为 :161, 68, 45, 102, 38, 87, 100, 92, 76, 90假设果树的产量服从正态分布,试求果树产量的均值与标准差的估计值,并估计一株果树产量超过100公斤的概率。解 利用计算器的统计功能,可计算得到产量均值公斤,标准差公斤。于是即一株果树产量超过100公斤的概率为0.34 。三估计量及其评选标准用来估计未知参数的统计量(如、)称为估计量。一般的提法是:设是总体X 的未知参数,找一个统计量(表达式)来估计,即以的观测值作为的估计值,则称为的估计量。这里是未知的但客观存在的固定常数,不是随机变量,而是随样本值而变动

8、的,是随机变量。估计量不是唯一的,可以通过多种途径和方法去寻找、构造,如矩估计法、最大似然估计法等,应该制定一套评判标准来评价它们的优劣。(1)无偏性设是的估计值,若,则称是的无偏估计量。其统计意义是:是随机变量,它的波动中心(均值)等于,即经过多次抽样,的观察值将围绕着变动,没有“系统”误差,当然是较好的。和都分别是总体均值,总体方差的无偏估计,其中显然,而的推导复杂,S 2 的表达式中,分母是而不是,正是为了满足无偏性。(2)有效性对于多个无偏估计量,方差小的波动小,稳定性好。即方差越小越好,设(都是无偏估计),若,则称比有效。是的所有无偏估计中最有效的。§10.3 区间估计一置

9、信度与置信区间 有了点估计,还要进一步作误差估计,数理统计中的误差估计必然具有概率特征,即要用概率去描述,要与概率相联系。设是未知参数,希望确定一个区间( a , b ) ,使它包含的把握很大,写成概率式,即 。取时,把握是0.95%。往往事先取定,称为置信度。( a , b ) 称为参数的置信区间,称为置信下限,称为置信上限。二正态总体的区间估计直接求置信区间难度较大,实际求解时,往往从已知的统计量入手。比如统计量分布已知,如果总体标准差已知,那么关于U 的不等式变形可得到关于的不等式,所以只需求A , B ,使即可。满足此式的区间很多,其中“区间居中”是效果最好的,所谓“区间居中”是指区间

10、左侧和右侧的概率相等,都等于。因为正态分布有对称性,区间居中的概率公式是,于是可确定,将不等式变形可得(1)正态总体方差已知时,均值的置信区间按上面的公式,置信区间是注意:已知时,应借助于U 统计量,要查正态分布表;置信区间有两个端点,所以要找双侧临界值(下标带有) 例2 设总体,测得n = 4 的样本观测值为:12.6,13.4,12.8,13.2,求的0.95置信区间。解 ,已知,采用U 统计量,查表得,计算,所以置信限为,置信区间为( 12.706 , 13.294 )。 (2)正态总体方差未知时,均值的置信区间未知,以S 代替,得到t 统计量,要查t 分布表;置信区间公式类似为例3 例

11、2中设, 未知,求的置信区间(取)。解 计算得, 。未知,采用t 统计量,查表得,所以置信限为置信区间为( 12.419 , 13.581 )。例3的信息量比例2少(未知),在同样的置信度下置信区间比较宽,精度比较小是很自然的。 (3)正态总体方差及标准差的置信区间统计量就是为提取的信息而设计的,所以借助于统计量,由概率式及区间居中原理。可得,利用不等式变形,得到的置信区间是。的置信区间,只需将端点开平方即可 例4 设零件长度,抽取n = 16件零件测量,经计算得, S 2 = 0.00507,求零件长度与标准差的置信区间()。解 未知,求的置信区间应采用统计量,查表得t0.025(15)=2.1315,置信限为均值的置信区间为( 12.049 , 12.125 )。求的置信区间,采用统计量,查表得,的置信区间为 开方后即标准差的置信区间:( 0.0526 , 0.1102 ) 三置信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论