六西格玛数据分析技术4课件_第1页
六西格玛数据分析技术4课件_第2页
六西格玛数据分析技术4课件_第3页
六西格玛数据分析技术4课件_第4页
六西格玛数据分析技术4课件_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

17十二月2022六西格玛数据分析技术417十二月2022六西格玛数据分析技术41第4章参数估计4.1参数估计的基本概念4.2总体均值和总体比例的区间估计4.3样本容量的确定4.4两总体均值之差的区间估计4.5两总体比例之差的区间估计4.6正态总体方差的区间估计4.7两个正态总体方差比的区间估计4.8有关区间估计的Minitab软件实现小组讨论与练习σσσσσσσσσ返回目录2第4章参数估计4.1参数估计的基本概念σσσσσσ2本章目标1.掌握参数估计的基本概念2.建立起在管理中运用参数估计的思想3.能运用Minitab实现各种区间估计的计算4.掌握样本容量的确定方法5.能在管理实践中运用参数估计方法返回目录3本章目标1.掌握参数估计的基本概念返回目录334.1

参数估计的基本概念

参数估计有两大类,一种叫点估计,一种叫区间估计点估计是利用样本的信息对所感兴趣的参数估计出一个数值区间估计包含了两个数值,对应着数轴上的一个区间,所以称为区间估计点估计的方法最常用的有两种:矩估计法极大似然估计法对一个估计优良性的评价有一些相应的评价准则返回目录44.1参数估计的基本概念参数估计有两大类,一种叫点估4对总体参数的估计,人们最容易想到的方法就是矩估计法,即用样本矩估计总体相应的矩,用样本矩的函数估计总体相应矩的函数。矩是指以期望值为基础而定义的数字特征,例如均值、方差、协方差等。最常用的矩估计有:用样本均值估计总体均值,用样本标准差估计总体标准差。例4-1.已知某种灯泡的寿命X~N(μ,σ2),其中μ,σ2均未知,今随机抽取4只灯泡,测得寿命(单位:小时)为1502,1453,1367,1650。试估计μ,σ。矩估计法返回目录5对总体参数的估计,人们最容易想到的方法就是矩估计法,即用样本5矩估计法(续)解:因为μ是全体灯泡的平均寿命,为样本的平均寿命,很自然地会想到用去估计μ;同理用s去估计σ。由于例4-2.设样本x1,x2,…,xn来自参数为λ的泊松分布。由于E(X)=D(X)=λ,因而与s2都可以作为λ的矩估计值。由例4-2可以看出E(X)=D(X)=λ,这表明总体均值与方差相等,但在实际问题中与s2不见得一样,因而矩估计的结果不惟一。返回目录6矩估计法(续)解:因为μ是全体灯泡的平均寿命,为样本的平均6极大似然估计

极大似然估计是利用总体的分布密度或概率分布的表达式及其样本所提供的信息建立求未知参数估计量的一种方法。极大似然估计好多初学者觉得难以理解,我们用下面的说法帮助理解:在产品检验中,有说这批产品的次品率可能是1/10000,也有说次品率可能是1/100。如果你在这批产品中随机抽取一件,竟然就是次品,自然应当认为这批产品的次品率最有可能是1/100而不是1/10000。把这种考虑问题的方法一般化,就概括出极大似然估计方法。返回目录7极大似然估计极大似然估计是利用总体的分布密度或概率分布的7极大似然估计(续1)

设总体X的分布已知,未知参数为θ,假定其分布密度族为f(x;θ);假设对总体X的n次观测结果为(x1,x2,…,xn)。应在一切θ中选取使样本(X1,X2,…,Xn)落在点(x1,x2,…,xn)附近概率最大的作为未知参数θ真值的估计值,即选取使:其中称为似然函数,它是样本的联合概率密度函数。返回目录8极大似然估计(续1)设总体X的分布已知,未知参数为θ,8极大似然估计(续2)

一般情况下,我们用求解似然方程的方法进行极大似然估计,具体步骤是:1.由总体分布导出样本的联合概率密度;2.把样本联合概率密度中自变量x1,x2,…,xn看成已知常数,而把参数看作变量,得到似然函数;3.用微分原理求似然函数的最大值点;4.在最大值点的表达式中,代入样本值就得参数的估计值。可以证明:若x1,x2,…,xn来自正态总体N(μ,σ2),则:返回目录9极大似然估计(续2)一般情况下,我们用求解似然方程的方法9例4-3.设某种品牌的电视机的首次故障时间遵从指数分布f(t)=λe-λt,t>0,共测试了7台电视机,获得相应的首次故障时间(单位:万小时)为:1.49,3.65,0.26,4.25,5.43,6.97,8.09求参数的λ估计值。解:样本x1,x2,…,xn的联合密度用均值来表示,就有:,将看作常数,λ看作变量,可得似然函数,进而取对数,求微商,解方程可得:对本例而言,就有:极大似然估计(续3)返回目录10例4-3.设某种品牌的电视机的首次故障时间遵从指数分布f(t10点估计的优良性准则不同的参数估计方法,可得到不同的估计量,不同的估计量谁优谁劣?我们有一些相应的评价准则。在6σ管理中,最常用的点估计优良性准则有两个:一个是无偏性,另一个是有效性。无偏性:设是参数θ的一个估计量,如果,则称是参数θ的无偏估计。无偏性实际上是指对于一个估计量,屡次变更数据反复求估计值时,估计值的平均与真值相一致,即尽管有时比θ大,有时比θ小,总的看来,它的“平均值”就是θ。可以证明:许多情况下,是μ的无偏估计,s是σ的无偏估计。然而,在正态分布中σ的极大似然估计就不是无偏估计。返回目录11点估计的优良性准则不同的参数估计方法,可得到不同的估计量,不11有效性无偏性只考虑估计值的平均结果是否等于待估参数的真值,而不考虑每个估计值与待估参数真值之间偏差的大小和散布程度。实际问题的研究中,不仅希望估计是无偏的,更希望这些估计值的偏差尽可能地小。设都是参数θ的无偏估计量,如果且至少有一个,严格不等号成立,则称比有效。设、x1都是μ的无偏估计,但样本均值的方差为σ2/n,x1的方差为σ2,只要n>1,作为μ的估计值,比x1就更有效。返回目录12有效性无偏性只考虑估计值的平均结果是否等于待估参数的真值,而12区间估计点估计没有给出估计的精度和可靠程度,区间估计解决了这一问题。设θ是总体的一个待估参数,从总体中获得容量为n的样本是x1,x2,…,xn,对给定的α(0<α<1),有统计量:θL=θL(x1,x2,…,xn)与θU=θU(x1,x2,…,xn)若对任意θ有P(θL≤θ≤θU)=1-α,则称随机区间[θL,θU]是θ的置信水平为1-α的置信区间。

θL与θU分别称为1-α的置信下限与置信上限,α称为显著性水平。返回目录13区间估计点估计没有给出估计的精度和可靠程度,区间估计解决了这13区间估计(续)置信区间的大小表达了区间估计的精确性,置信水平表达了区间估计的可靠性,1-α是区间估计的可靠概率;而显著性水平α表达了区间估计的不可靠的概率。如果[θL,θU]是置信水平为0.95的置信区间,由于随机区间[θL,θU]会随样本观察值的不同而不同,它有时包含了参数θ,有时没有包含θ,但是用这种方法作参数的区间估计时,100次中大约有95个区间能包含着参数θ,大约有5个区间没能包含θ。在进行区间估计时,必须同时考虑置信概率与置信区间两个方面。即置信概率定的越大,则置信区间相应也大。这两者要结合考虑,才更为实际。返回目录14区间估计(续)置信区间的大小表达了区间估计的精确性,置信水平14总体均值的区间估计当X~N(μ,σ2)时,x1,x2,…,xn是来自该正态总体的随机样本,。当总体方差σ2已知时,μ的1-α置信区间为:

其中Z1-α/2是标准正态分布的1-α/2分位数。当总体方差σ2未知时,σ用其s代替,用t分布,μ的1-α置信区间为:其中t1-α/2(n-1)表示是自由度为n-1的t分布的1-α/2分位数4.2总体均值和总体比例的区间估计返回目录15总体均值的区间估计4.2总体均值和总体比例的区间估计15在统计推断中常常会碰到自由度这一概念,不少人对这一概念不好理解。如果我们有10个数,而且你知道了均值和其中的9个数的值,那么你就可以推出第10个数。让10个人挑选10支不同颜色的铅笔,只有9人有自由挑选的可能,因为当这9人都挑好之后,你别无选择!因此这个问题的自由度为9。自由度可以理解为在研究问题中,可以自由取值的数据的个数。关于自由度

返回目录16关于自由度返回目录1616例4-4.σ2已知时,μ的区间估计某种零件的长度遵从正态分布,从该批零件中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差σ=0.15mm,试建立该种零件平均长度的置信区间,给定的置信水平为0.95。解:已知X~N(μ,0.152)时,=2.14,n=9,1-α=0.95,α=0.05,查标准正态分布表可得1-α/2的分位数,Z1-α/2=1.96;α=0.01时,Z1-α/2=2.58;α=0.10时,Z1-α/2=1.64。这是一些常用值,请读者记住。

我们可以95%的概率保证这种零件的平均长度在(21.302,21.498)之间。返回目录17例4-4.σ2已知时,μ的区间估计某种零件的长度遵从正态分布17例4-5.σ2未知时,μ的区间估计为了估计各省市电视台在某黄金时间一分钟广告的平均费用,随机调查了20个电视台,他们每分钟的广告费=25000元,s=8000元。假定所有电视台的广告费近似遵从正态分布,试求总体均值95%的区间估计。解:这是总体方差σ2未知的情况。已知=25000,s=8000,n=20,α=0.05,则t1-α/2(n-1)=t0.975(19)=2.093;于是

从而,我们有95%的把握认为所有省市电视台在黄金时间播出的广告一分钟的平均费用在(21255.93,28744.07)之间。返回目录18例4-5.σ2未知时,μ的区间估计为了估计各省市电视台在某黄18n≥30时均值的区间估计前边讨论的是当总体为正态分布时,μ的区间估计,然而总体不是正态分布时,如果样本容量n超过30,则我们可根据中心极限定理知:仍近似遵从正态分布,因而仍可用正态分布总体时的均值μ的区间估计方法。例4-6.某航空公司在过去飞行记录中,随机抽取了225个航班,航班空位数的样本均值=11.6,标准差=4.1,试求过去一年所有航班的平均空位数的置信区间。(α=0.10)解:所有航班空位数的分布未知,且总体标准差未知,但n=225,因而仍可用做区间估计。代入其具体数据得[11.15,12.05],也即该公司有90%的把握认为过去的一年该公司的平均空位数在11.15到12.05之间。返回目录19n≥30时均值的区间估计前边讨论的是当总体为正态分布时,μ的19总体比例的区间估计我们常需要估计总体中具有某种特征的单位占总体全部单位的比例一批产品中,合格品的比例;顾客满意度调查中,有意见顾客的比例等。记总体比例为p,样本比例为。可以证明,当样本容量足够大时,若np>5,n(1-p)>5,则可用正态分布去近似二项分布,因而有:因此由正态分布构造总体比例p的置信区间为:返回目录20总体比例的区间估计我们常需要估计总体中具有某种特征的单位占总20总体比例置信区间估计的例子例4-7.某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机抽选了200人组成一个样本。访问结果,有140人说他的离开是由于企业管理缺乏人性化。试对由于这种原因而离开企业的人员的真正比例进行估计(α=0.05)。解:已知n=200,=0.7,=140>5,=60>5,Z1-α/2=1.96故该企业职工认为企业管理缺乏人性化而离开的比例为63.6%~76.4%。返回目录21总体比例置信区间估计的例子例4-7.某企业在一项关于职工流动214.3样本容量的确定在研究实际问题时,需要自己动手设计调查方案,这时如何确定样本容量大有学问。如果样本量太大,必然费用增加;如果样本量过小,估计误差又会增大。这就看你需要什么样的估计精度,即你想构造多宽的估计区间?对于你所确定的置信区间,你想要多大的置信度?估计总体均值时,样本容量的确定在总体均值的区间估计里,置信区间是:该区间估计的精度为

,是区间估计长度的一半。返回目录224.3样本容量的确定在研究实际问题时,需要自己动手设22样本容量的确定(续1)如果我们希望估计值与其真实值之间的误差或估计的精度在置信度(1-α)下不超过某一数值B(允许误差),则可从下面的方程确定n。解之得:只要我们知道了Z1-α/2,σ和允许误差,就可具体算出样本容量n。如果算出的n不是整数,就去超过该小数的最接近的整数即可。返回目录23样本容量的确定(续1)如果我们希望估计值与其真实值之间的返回23样本容量的确定(续2)由样本容量的确定公式,你可发现几个量之间的一些关系:1.总体方差越大,必要的样本容量n越大。2.必要样本容量n反比例于允许误差B。即在给定的置信水平下,允许误差越大,样本容量就可以越小;允许误差越小,样本容量就必须加大。3.必要样本容量n与正态分布Z1-α/2分位数(也称可靠性系数)成正比。即:我们要求的可靠程度越高,样本容量就应越大;如果要求的可靠程度越低,样本容量就可以小些。返回目录24样本容量的确定(续2)由样本容量的确定公式24样本容量的确定(续3)例4-8.某广告公司想估计某类商场去年所花的广告费平均有多少。经验表明,总体方差约为1800000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?解:已知σ2=1800000,α=0.05,Z1-α/2=1.96,B=500即这家广告公司应抽取28个商场作样本。返回目录25样本容量的确定(续3)例4-8.某广告公司想估计某类商场去年25样本容量的确定(续4)估计总体比例时,样本容量n的计算公式是:例4-9.某市场调查公司想估计某地区有数码相机的家庭所占的比例。该公司希望对p的估计误差不超过0.05,要求的可靠度为95%,应取多大的样本?没有可利用的估计值。解:通常在此类问题研究中,无法得到值时,可以用=0.5计算。已知B=0.05,α=0.05,Z1-α/2=1.96,=0.5即抽取385户调查,就可以95%的可靠度保证估计误差不超过0.05。返回目录26样本容量的确定(续4)估计总体比例时,样本容量n的计算公式是264.4两个总体均值之差的区间估计某化工厂需要比较由两个供应商提供的原材料所带来的产量,某企业质量管理部的部长希望了解车间内两条生产线生产的灯泡平均寿命是否存在差异等。这些都是要对两个总体均值之差作区间估计。两个总体的方差已知情况下,两总体均值差异μ1-μ2的区间估计:其中,分别为来自两个总体的样本均值,n1,n2为抽自两总体的样本容量,分别是两总体的方差。只要样本容量足够大,对于总体分布是否正态都可适用。返回目录274.4两个总体均值之差的区间估计某化工厂需要比较由两27两个总体均值之差的估计案例例4-10.某企业质量部部长希望了解企业两条生产线生产的灯泡平均寿命是否存在差异。假定两条生产线生产的灯泡的寿命均呈正态分布,方差分别为。随机从两条生产线生产的灯泡中各抽取20只和25只,测得平均寿命分别为1478小时和1456小时,在α=0.05时,求出两条生产线生产的灯泡平均寿命差异的区间估计。解:

即μ1-μ2的95%的置信区间为(9.8,34.2)。返回目录28两个总体均值之差的估计案例例4-10.某企业质量部部长希望了28两个总体方差未知的情况两个总体均遵从正态分布,且未知时,为了给出μ1-μ2的估计我们必须利用两个样本中关于σ2的信息联合大体估计σ2,这个联合估计量为:这时两个总体均值之差μ1-μ2的1-α置信水平下的置信区间为:返回目录29两个总体方差未知的情况两个总体均遵从29方差不等的情况当两个总体均遵从正态分布,,且方差未知时,自然用抽样分布不遵从自由度为(n1+

n2-2)的t分布,而近似遵从自由度为f的t分布。f的计算公式为:这样两个总体均值之差μ1-μ2的1-α置信水平下的置信区间为:返回目录30方差不等的情况当两个总体均遵从正态分布,304.5两个总体比例之差的区间估计设两个正态总体的比例分别为p1和p2,为了估计p1-p2,分别从两个总体中各随机抽取容量为n1和n2的两个随机样本,并计算两个样本的比例,可以证明,p1-p2的置信度为1-α的置信区间为:返回目录314.5两个总体比例之差的区间估计设两个正态总体的比例314.6正态总体方差的区间估计设x1,x2,…,xn来自均值为μ,方差为σ2的正态总体,μ、σ2均未知,则σ2的估计量为s2,且利用χ2(n-1)分布可以得到σ2的1-α置信区间为:其中分别是χ2(n-1)分布的1-α/2分位数与α/2分位数。返回目录324.6正态总体方差的区间估计设x1,x2,…,xn32总体方差区间估计的案例例4-14.对某种金属材料的10个样品所组成的一个随机样本作抗拉强度试验。从试验数据算出方差为4,试求σ2的95%置信区间。解:设该种金属材料的抗拉强度遵从正态分布,则此时σ2的置信度为95%的置信区间为:即[1.8925,13.3314],而标准差σ的95%的置信区间为:返回目录33总体方差区间估计的案例例4-14.对某种金属材料的10个样品334.7两个正态总体方差比的区间估计实际问题中,我们需要比较两种测量工具的精度;比较两个生产过程的稳定性;比较两个评委评分的变异性等等,这些都可转化为两个总体方差的比较。可以证明:置信度为1-α的的区间估计为:注意:F分布的分位数Fα(n1,n2)=1/F1-α(n2,n1),查表时有用。返回目录344.7两个正态总体方差比的区间估计实际问题中,我们需要344.8有关区间估计的Minitab软件实现一.点估计的软件实现:1.例4-1的软件实现,输入数据见表:2.点击Stat——BasicStatistics——DisplayDescriptiveStatistics返回目录354.8有关区间估计的Minitab软件实现一.点估计的软353.弹出如下对话框,选择要分析的变量进入Variables框中,点击OK键,结果如下:均值,标准差:返回目录363.弹出如下对话框,选择要分析的变量进入Variables框364.此外,还可以点击Stat——BasicStatistics——StoreDescriptiveStatistics,弹出如下对话框:5.选择变量后,点击Statistics,弹出下面的复选框,可选择你需要估计的参数值,点击OK得到结果:返回目录374.此外,还可以点击Stat——BasicStatisti37比例的区间估计:方差之比的区间估计:二.均值及方差的区间估计:单样本方差已知的均值区间估计:单样本方差未知的均值区间估计:两样本均值之差的区间估计:返回目录38比例的区间估计:方差之比的区间估计:二.均值及方差的区间估计3817十二月2022六西格玛数据分析技术417十二月2022六西格玛数据分析技术439第4章参数估计4.1参数估计的基本概念4.2总体均值和总体比例的区间估计4.3样本容量的确定4.4两总体均值之差的区间估计4.5两总体比例之差的区间估计4.6正态总体方差的区间估计4.7两个正态总体方差比的区间估计4.8有关区间估计的Minitab软件实现小组讨论与练习σσσσσσσσσ返回目录40第4章参数估计4.1参数估计的基本概念σσσσσσ40本章目标1.掌握参数估计的基本概念2.建立起在管理中运用参数估计的思想3.能运用Minitab实现各种区间估计的计算4.掌握样本容量的确定方法5.能在管理实践中运用参数估计方法返回目录41本章目标1.掌握参数估计的基本概念返回目录3414.1

参数估计的基本概念

参数估计有两大类,一种叫点估计,一种叫区间估计点估计是利用样本的信息对所感兴趣的参数估计出一个数值区间估计包含了两个数值,对应着数轴上的一个区间,所以称为区间估计点估计的方法最常用的有两种:矩估计法极大似然估计法对一个估计优良性的评价有一些相应的评价准则返回目录424.1参数估计的基本概念参数估计有两大类,一种叫点估42对总体参数的估计,人们最容易想到的方法就是矩估计法,即用样本矩估计总体相应的矩,用样本矩的函数估计总体相应矩的函数。矩是指以期望值为基础而定义的数字特征,例如均值、方差、协方差等。最常用的矩估计有:用样本均值估计总体均值,用样本标准差估计总体标准差。例4-1.已知某种灯泡的寿命X~N(μ,σ2),其中μ,σ2均未知,今随机抽取4只灯泡,测得寿命(单位:小时)为1502,1453,1367,1650。试估计μ,σ。矩估计法返回目录43对总体参数的估计,人们最容易想到的方法就是矩估计法,即用样本43矩估计法(续)解:因为μ是全体灯泡的平均寿命,为样本的平均寿命,很自然地会想到用去估计μ;同理用s去估计σ。由于例4-2.设样本x1,x2,…,xn来自参数为λ的泊松分布。由于E(X)=D(X)=λ,因而与s2都可以作为λ的矩估计值。由例4-2可以看出E(X)=D(X)=λ,这表明总体均值与方差相等,但在实际问题中与s2不见得一样,因而矩估计的结果不惟一。返回目录44矩估计法(续)解:因为μ是全体灯泡的平均寿命,为样本的平均44极大似然估计

极大似然估计是利用总体的分布密度或概率分布的表达式及其样本所提供的信息建立求未知参数估计量的一种方法。极大似然估计好多初学者觉得难以理解,我们用下面的说法帮助理解:在产品检验中,有说这批产品的次品率可能是1/10000,也有说次品率可能是1/100。如果你在这批产品中随机抽取一件,竟然就是次品,自然应当认为这批产品的次品率最有可能是1/100而不是1/10000。把这种考虑问题的方法一般化,就概括出极大似然估计方法。返回目录45极大似然估计极大似然估计是利用总体的分布密度或概率分布的45极大似然估计(续1)

设总体X的分布已知,未知参数为θ,假定其分布密度族为f(x;θ);假设对总体X的n次观测结果为(x1,x2,…,xn)。应在一切θ中选取使样本(X1,X2,…,Xn)落在点(x1,x2,…,xn)附近概率最大的作为未知参数θ真值的估计值,即选取使:其中称为似然函数,它是样本的联合概率密度函数。返回目录46极大似然估计(续1)设总体X的分布已知,未知参数为θ,46极大似然估计(续2)

一般情况下,我们用求解似然方程的方法进行极大似然估计,具体步骤是:1.由总体分布导出样本的联合概率密度;2.把样本联合概率密度中自变量x1,x2,…,xn看成已知常数,而把参数看作变量,得到似然函数;3.用微分原理求似然函数的最大值点;4.在最大值点的表达式中,代入样本值就得参数的估计值。可以证明:若x1,x2,…,xn来自正态总体N(μ,σ2),则:返回目录47极大似然估计(续2)一般情况下,我们用求解似然方程的方法47例4-3.设某种品牌的电视机的首次故障时间遵从指数分布f(t)=λe-λt,t>0,共测试了7台电视机,获得相应的首次故障时间(单位:万小时)为:1.49,3.65,0.26,4.25,5.43,6.97,8.09求参数的λ估计值。解:样本x1,x2,…,xn的联合密度用均值来表示,就有:,将看作常数,λ看作变量,可得似然函数,进而取对数,求微商,解方程可得:对本例而言,就有:极大似然估计(续3)返回目录48例4-3.设某种品牌的电视机的首次故障时间遵从指数分布f(t48点估计的优良性准则不同的参数估计方法,可得到不同的估计量,不同的估计量谁优谁劣?我们有一些相应的评价准则。在6σ管理中,最常用的点估计优良性准则有两个:一个是无偏性,另一个是有效性。无偏性:设是参数θ的一个估计量,如果,则称是参数θ的无偏估计。无偏性实际上是指对于一个估计量,屡次变更数据反复求估计值时,估计值的平均与真值相一致,即尽管有时比θ大,有时比θ小,总的看来,它的“平均值”就是θ。可以证明:许多情况下,是μ的无偏估计,s是σ的无偏估计。然而,在正态分布中σ的极大似然估计就不是无偏估计。返回目录49点估计的优良性准则不同的参数估计方法,可得到不同的估计量,不49有效性无偏性只考虑估计值的平均结果是否等于待估参数的真值,而不考虑每个估计值与待估参数真值之间偏差的大小和散布程度。实际问题的研究中,不仅希望估计是无偏的,更希望这些估计值的偏差尽可能地小。设都是参数θ的无偏估计量,如果且至少有一个,严格不等号成立,则称比有效。设、x1都是μ的无偏估计,但样本均值的方差为σ2/n,x1的方差为σ2,只要n>1,作为μ的估计值,比x1就更有效。返回目录50有效性无偏性只考虑估计值的平均结果是否等于待估参数的真值,而50区间估计点估计没有给出估计的精度和可靠程度,区间估计解决了这一问题。设θ是总体的一个待估参数,从总体中获得容量为n的样本是x1,x2,…,xn,对给定的α(0<α<1),有统计量:θL=θL(x1,x2,…,xn)与θU=θU(x1,x2,…,xn)若对任意θ有P(θL≤θ≤θU)=1-α,则称随机区间[θL,θU]是θ的置信水平为1-α的置信区间。

θL与θU分别称为1-α的置信下限与置信上限,α称为显著性水平。返回目录51区间估计点估计没有给出估计的精度和可靠程度,区间估计解决了这51区间估计(续)置信区间的大小表达了区间估计的精确性,置信水平表达了区间估计的可靠性,1-α是区间估计的可靠概率;而显著性水平α表达了区间估计的不可靠的概率。如果[θL,θU]是置信水平为0.95的置信区间,由于随机区间[θL,θU]会随样本观察值的不同而不同,它有时包含了参数θ,有时没有包含θ,但是用这种方法作参数的区间估计时,100次中大约有95个区间能包含着参数θ,大约有5个区间没能包含θ。在进行区间估计时,必须同时考虑置信概率与置信区间两个方面。即置信概率定的越大,则置信区间相应也大。这两者要结合考虑,才更为实际。返回目录52区间估计(续)置信区间的大小表达了区间估计的精确性,置信水平52总体均值的区间估计当X~N(μ,σ2)时,x1,x2,…,xn是来自该正态总体的随机样本,。当总体方差σ2已知时,μ的1-α置信区间为:

其中Z1-α/2是标准正态分布的1-α/2分位数。当总体方差σ2未知时,σ用其s代替,用t分布,μ的1-α置信区间为:其中t1-α/2(n-1)表示是自由度为n-1的t分布的1-α/2分位数4.2总体均值和总体比例的区间估计返回目录53总体均值的区间估计4.2总体均值和总体比例的区间估计53在统计推断中常常会碰到自由度这一概念,不少人对这一概念不好理解。如果我们有10个数,而且你知道了均值和其中的9个数的值,那么你就可以推出第10个数。让10个人挑选10支不同颜色的铅笔,只有9人有自由挑选的可能,因为当这9人都挑好之后,你别无选择!因此这个问题的自由度为9。自由度可以理解为在研究问题中,可以自由取值的数据的个数。关于自由度

返回目录54关于自由度返回目录1654例4-4.σ2已知时,μ的区间估计某种零件的长度遵从正态分布,从该批零件中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差σ=0.15mm,试建立该种零件平均长度的置信区间,给定的置信水平为0.95。解:已知X~N(μ,0.152)时,=2.14,n=9,1-α=0.95,α=0.05,查标准正态分布表可得1-α/2的分位数,Z1-α/2=1.96;α=0.01时,Z1-α/2=2.58;α=0.10时,Z1-α/2=1.64。这是一些常用值,请读者记住。

我们可以95%的概率保证这种零件的平均长度在(21.302,21.498)之间。返回目录55例4-4.σ2已知时,μ的区间估计某种零件的长度遵从正态分布55例4-5.σ2未知时,μ的区间估计为了估计各省市电视台在某黄金时间一分钟广告的平均费用,随机调查了20个电视台,他们每分钟的广告费=25000元,s=8000元。假定所有电视台的广告费近似遵从正态分布,试求总体均值95%的区间估计。解:这是总体方差σ2未知的情况。已知=25000,s=8000,n=20,α=0.05,则t1-α/2(n-1)=t0.975(19)=2.093;于是

从而,我们有95%的把握认为所有省市电视台在黄金时间播出的广告一分钟的平均费用在(21255.93,28744.07)之间。返回目录56例4-5.σ2未知时,μ的区间估计为了估计各省市电视台在某黄56n≥30时均值的区间估计前边讨论的是当总体为正态分布时,μ的区间估计,然而总体不是正态分布时,如果样本容量n超过30,则我们可根据中心极限定理知:仍近似遵从正态分布,因而仍可用正态分布总体时的均值μ的区间估计方法。例4-6.某航空公司在过去飞行记录中,随机抽取了225个航班,航班空位数的样本均值=11.6,标准差=4.1,试求过去一年所有航班的平均空位数的置信区间。(α=0.10)解:所有航班空位数的分布未知,且总体标准差未知,但n=225,因而仍可用做区间估计。代入其具体数据得[11.15,12.05],也即该公司有90%的把握认为过去的一年该公司的平均空位数在11.15到12.05之间。返回目录57n≥30时均值的区间估计前边讨论的是当总体为正态分布时,μ的57总体比例的区间估计我们常需要估计总体中具有某种特征的单位占总体全部单位的比例一批产品中,合格品的比例;顾客满意度调查中,有意见顾客的比例等。记总体比例为p,样本比例为。可以证明,当样本容量足够大时,若np>5,n(1-p)>5,则可用正态分布去近似二项分布,因而有:因此由正态分布构造总体比例p的置信区间为:返回目录58总体比例的区间估计我们常需要估计总体中具有某种特征的单位占总58总体比例置信区间估计的例子例4-7.某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机抽选了200人组成一个样本。访问结果,有140人说他的离开是由于企业管理缺乏人性化。试对由于这种原因而离开企业的人员的真正比例进行估计(α=0.05)。解:已知n=200,=0.7,=140>5,=60>5,Z1-α/2=1.96故该企业职工认为企业管理缺乏人性化而离开的比例为63.6%~76.4%。返回目录59总体比例置信区间估计的例子例4-7.某企业在一项关于职工流动594.3样本容量的确定在研究实际问题时,需要自己动手设计调查方案,这时如何确定样本容量大有学问。如果样本量太大,必然费用增加;如果样本量过小,估计误差又会增大。这就看你需要什么样的估计精度,即你想构造多宽的估计区间?对于你所确定的置信区间,你想要多大的置信度?估计总体均值时,样本容量的确定在总体均值的区间估计里,置信区间是:该区间估计的精度为

,是区间估计长度的一半。返回目录604.3样本容量的确定在研究实际问题时,需要自己动手设60样本容量的确定(续1)如果我们希望估计值与其真实值之间的误差或估计的精度在置信度(1-α)下不超过某一数值B(允许误差),则可从下面的方程确定n。解之得:只要我们知道了Z1-α/2,σ和允许误差,就可具体算出样本容量n。如果算出的n不是整数,就去超过该小数的最接近的整数即可。返回目录61样本容量的确定(续1)如果我们希望估计值与其真实值之间的返回61样本容量的确定(续2)由样本容量的确定公式,你可发现几个量之间的一些关系:1.总体方差越大,必要的样本容量n越大。2.必要样本容量n反比例于允许误差B。即在给定的置信水平下,允许误差越大,样本容量就可以越小;允许误差越小,样本容量就必须加大。3.必要样本容量n与正态分布Z1-α/2分位数(也称可靠性系数)成正比。即:我们要求的可靠程度越高,样本容量就应越大;如果要求的可靠程度越低,样本容量就可以小些。返回目录62样本容量的确定(续2)由样本容量的确定公式62样本容量的确定(续3)例4-8.某广告公司想估计某类商场去年所花的广告费平均有多少。经验表明,总体方差约为1800000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?解:已知σ2=1800000,α=0.05,Z1-α/2=1.96,B=500即这家广告公司应抽取28个商场作样本。返回目录63样本容量的确定(续3)例4-8.某广告公司想估计某类商场去年63样本容量的确定(续4)估计总体比例时,样本容量n的计算公式是:例4-9.某市场调查公司想估计某地区有数码相机的家庭所占的比例。该公司希望对p的估计误差不超过0.05,要求的可靠度为95%,应取多大的样本?没有可利用的估计值。解:通常在此类问题研究中,无法得到值时,可以用=0.5计算。已知B=0.05,α=0.05,Z1-α/2=1.96,=0.5即抽取385户调查,就可以95%的可靠度保证估计误差不超过0.05。返回目录64样本容量的确定(续4)估计总体比例时,样本容量n的计算公式是644.4两个总体均值之差的区间估计某化工厂需要比较由两个供应商提供的原材料所带来的产量,某企业质量管理部的部长希望了解车间内两条生产线生产的灯泡平均寿命是否存在差异等。这些都是要对两个总体均值之差作区间估计。两个总体的方差已知情况下,两总体均值差异μ1-μ2的区间估计:其中,分别为来自两个总体的样本均值,n1,n2为抽自两总体的样本容量,分别是两总体的方差。只要样本容量足够大,对于总体分布是否正态都可适用。返回目录654.4两个总体均值之差的区间估计某化工厂需要比较由两65两个总体均值之差的估计案例例4-10.某企业质量部部长希望了解企业两条生产线生产的灯泡平均寿命是否存在差异。假定两条生产线生产的灯泡的寿命均呈正态分布,方差分别为。随机从两条生产线生产的灯泡中各抽取20只和25只,测得平均寿命分别为1478小时和1456小时,在α=0.05时,求出两条生产线生产的灯泡平均寿命差异的区间估计。解:

即μ1-μ2的95%的置信区间为(9.8,34.2)。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论