第5章 假设检验_第1页
第5章 假设检验_第2页
第5章 假设检验_第3页
第5章 假设检验_第4页
第5章 假设检验_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计推断法的预备知识常用统计量及其分布样本特征数与总体特征数的关系一.常用统计量及其分布样本均值样本方差样本标准差(一)常用统计量(二)几种常见的总体分布1.正态分布和标准正态分布(1)总体X~

N(μ,σ2)(2)标准正态分布临界值—标准正态分布的上α分位点Z

αZ1-α=-Z

αΦ(zα)=1-ααZαμn为自由度:求和中独立的项数(2)分布临界值—t分布的上α分位点α3.t分布(1)定义:(2)t分布临界值—t分布的上α分位点αtα(n)n>45,t

α(n)≈zαZα为标准正态分布上α分位点t1-α(n)=-t

α(n)4.F分布(1)αFα(n1,n2)(2)F分布临界值—F分布的上α分位点Fα(n1,n2)n1为第一自由度,n2为第二自由度(三)几种常用统计量的分布1、设总体X

~N(μ,σ2),σ2未知.(x1,x2,…xn)为来自该总体的样本.则统计量用途:单总体的均值检验

分别是两总体的样本均值,s12

及s22分别是两总体的样本方差,n1及n2分别是两样本的容量。其中和2、设总体X

~N(μ1,σ2)总体Y

~N(μ2,σ2)(σ2

未知),X与Y独立,且X1,X2,…,Xn1和Y1,Y2,…,Yn2分别是来自X和Y的样本,则统计量用途:双总体的均值检验

~F(n1―1,n2―1)其中s12

和s22

分别是总体X和Y的样本方差。3、设总体X~N(μ1,σ12),Y~N(μ2,σ22

),X与Y独立,且X1,X2,…,Xnl与Y1,Y2,…,Yn2分别是来自总体X和Y的样本,则统计量F=用途:双总体的方差检验二.样本特征数与总体特征数的关系总体X的特征数:E(X)=μD(X)=σ2样本特征数:关系:5.1统计假设检验的基本问题5.2正态总体均值和方差的统计假设检验5.3单因素方差分析5.4用SPSS进行统计假设检验第5章统计假设检验

对总体参数值提出假设

验证先前提出的假设

样本出现矛盾不出现矛盾

拒绝原假设接受原假设基本思路图:统计假设检验实例

二战期间,盟军军事指挥官需要预测德国生产的坦克数量。根据间谍和侦探信息,分析家预计1941年6月,德军生产了1550辆坦克。然而利用连续缴获的坦克数量以及统计分析预计这一数字为244量。之后证明统计学家的预测仅比实际生产的数量少了27量。更加证实了统计抽样方法的价值。在海湾战争的“沙漠风暴”行动中,也应用了相同的分析。假设检验分类:

参数的检验

分布的检验参数的检验包括:一个正态总体(均值和方差)的假设检验两个正态总体(均值和方差)的假设检验假设检验形式:

双边检验(等号成立)

单边检验(不等号成立)

5.1统计假设检验的基本问题一、统计假设检验的基本思想

(以双边检验为例)【例5.1】已知销售发票数额服从正态分布,对该公司所在郊区的顾客来说,过去五年内平均每月销售发票数额为120美元。现抽取12份作为样本,它们的数额为下面的数据:108.98152.22111.45110.59127.46107.2693.3291.97111.5675.71128.58135.11试检验销售发票的均值是否偏离了120美元。

分析:设销售发票数额为X,X~N(μ,σ2),判断:μ=120美元?

作假设:H0:μ=μ0=120(零假设)H1:μ≠μ0=120(备择假设)

在原假设H0成立的情况下与μ0的差异|-μ0|应较小而事件“|-μ0|相当大”则为小概率事件假设检验推断的依据:小概率事件原理.即:小概率事件在一次试验中几乎不可能发生.μ未知,但知

设“|-μ0|≥K”为小概率事件,若给定α(α为很小的正数),K可由下式确定,令

P{|-μ0|≥K}=αα为显著性水平

t为检验统计量于是,即

根据小概率事件原理,如果由样本的一次观察值计算的样本均值满足不等式表明小概率事件在一次试验中居然发生了,这样我们就有理由说假设H0有问题。从而作出拒绝假设H0推断,否则,我们便作出接受假设H0的结论。α/2α/21-α-tα/2(n-1)tα/2(n-1)

接受域拒绝域拒绝域在例5.1中,=112.85,s=20.80,n=12,取α=0.05,则查t分布分位数表得

t0.025(11)=2.2010拒绝域为因此在α=0.05下,接受零假设H0,认为销售发票的均值与120美元无显著差异。二.统计假设检验的基本步骤(双边检验)(1)作假设H0:μ=μ0(零假设)

H1:μ≠μ0(备择假设)

(2)选择检验假设H0的统计量,并确定其分布(3)据样本观测值计算出该统计量的值t.(4)在给定的显著性水平(0<<1)下,查所选统计量服从的分布表,求出临界值±tα/2(n-1)

(5)确定拒绝域并作出判断【例5.1】已知销售发票数额服从正态分布,对该公司所在郊区的顾客来说,过去五年内平均每月销售发票数额为120美元。现抽取12份作为样本,它们的数额为下面的数据:108.98152.22111.45110.59127.46107.2693.3291.97111.5675.71128.58135.11试检验销售发票的均值是否偏离了120美元。解:(1)H0:μ=μ0=120H1:μ≠μ0=120(2)T=~t(n-1)(3)=112.85,s=20.80,n=12,(4)取α=0.05,则查t分布分位数表得

t0.025(11)=2.2010(5)拒绝域为因此在α=0.05下,接受零假设H0,认为销售发票的均值与120美元无显著差异。总结原理:如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。总体(某种假设)抽样样本(观察结果)检验(接受)(拒绝)小概率事件未发生小概率事件发生三.单边检验1.单边检验与双边检验的不同假设:右边检验-H0:μ≤μ0,H1:μ>μ0

左边检验-H0:μ≥μ0,H1:μ<μ0拒绝域:

设总体X服从N(μ,σ2),σ为未知,X1,X2,….,Xn是来自X的样本.给定显著性水平.≥K

(K是某一常数)当H0为真时:检验:H0:μ≤μ0,H1:μ>μ0时,因H0中的全部μ都比H1中的μ要小,当H1为真时,观察值往往偏大,因此拒绝域的形式为:α1-αtα(n-1)

接受域拒绝域即t

≥t(n-1)时,拒绝H0,认为μ>μ0类似地,检验-H0:μ≥μ0,H1:μ<μ0α1-α-tα(n-1)

接受域拒绝域即t

≤t(n-1)时,拒绝H0,认为μ<μ02.单边假设检验的注意事项在证实某一问题时,备则假设H1取为想加以证实的问题;在检验产品质量是否合格时,零假设H0取为合格;在技术革新或改变工艺后,检验某参数值有无显著变化(变大或变小),原假设H0总取不变大(或变小),即保守情形,备则假设是希望的结果.原假设一定要设为“≤或≥”.拒绝域在图形的左侧或右侧大体上与原假设H0中的不等式开口方向一致.四.统计假设检验中的两类判断错误第一类错误:零假设H0本是真的,而做出了否定H0判断,因此也称为“弃真错误”。在管理中也称生产者的风险度,记为α.

其大小为:P{拒绝/H0真}=α第二类错误:零假设H0本来不真,而做出了接受H0的判断,因此也称为“取伪错误”。在管理中也称为使用者的风险度,记为β

其大小为:P{接受/H0不真}=β两类错误的关系:α越大,β越小,反之α越小β越大。当样本容量n增大时,α和β可以同时减小.

五.统计假设检验中的P值1.P的含义

P是一个概率值,如果我们假设零假设为真,P-值是样本统计量大于实测值的概率。

P=2P(T>t)2.利用P值进行决策1)双侧检验若p值

,不能拒绝H0;若p值<,拒绝H0

。2)单侧检验若p/2值

,不能拒绝H0

;若p/2值<,拒绝H0

与S2分别为样本均值和方差。给定显著性水平,关于μ的检验(t检验)(1)作假设:H0:μ=μ0H1:μ≠μ0

H0:μ≥μ0H1:μ<μ0H0:μ≤μ0H1:μ>μ05.2正态总体均值和方差的统计假设检验一.单样本的t检验设总体X服从N(μ,σ2),X1,X2,….,Xn是来自X的样本,σ2未知.

(2)选择检验假设H0的统计量,并确定其分布(3)根据样本数据计算统计量T的值t(4)计算显著性概率P值P=2P(T>t)(5)给定显著性水平α(1)双边检验若p值

,接受H0;若p值<,拒绝H0

(2)单边检验若p/2值

,接受H0;若p/2值<,拒绝H0。(六)下统计结论

二.两个独立样本的t检验设总体X~N(μ1,σ12

),总体Y~N(μ2,σ22)X与Y独立,σ12

=σ22未知。

X1,X2,…Xn1为X的样本,

Y1,Y2,…,Yn2为Y的样本,

、与S12、S22分别为两样本均值和方差

(1)作假设H0:μ1=μ2H1:μ1≠μ2

H0:μ1≥μ2H1:μ1<μ2H0:μ1

≤μ2H1:μ1>μ2

(2)选择检验假设H0的统计量,并确定其分布

(3)据样本观测值计算出该统计量的值t.

(4)计算显著性概率P值P=2P(T>t)(1)双边检验若p值

,接受H0;若p值<,拒绝H0

(2)单边检验若p/2值

,接受H0;若p/2值<,拒绝H0。(6)下统计结论(5)给定的显著性水平(0<<1)三.两个配对样本的t检验一般,设有n对相互独立的观测结果(X1,Y1),(X2,Y2)…(Xn,Yn),令D1=X1-Y1,D2=X2-Y2,…Dn=Xn-Yn则D1,D2,…Dn相互独立.Di服从N(μD,

σD2)(1)假设:H0:μD=0,H1:μD≠0

H0:μD≤0,H1:μD>0H0:μD≥

0,

H1:μD<0

(2)选择检验假设H0的统计量,并确定其分布(4)计算显著性概率P值P=2P(T>t)

(3)据样本观测值计算出该统计量的值t.

(1)双边检验若p值

,接受H0;若p值<,拒绝H0

(2)单边检验若p/2值

,接受H0;若p/2值<,拒绝H0。(6)下统计结论(5)给定的显著性水平(0<<1)

(1)作假设H0:σ12=σ22

H1:σ12

≠σ22

H0:σ12

σ22

H1:σ12

<σ22H0:σ12

σ22

H1:σ12

>σ22(2)选择检验假设H0的统计量,并确定其分布(3)据样本观测值计算出该统计量的值F0

四.两个独立样本的F检验两个独立样本的F检验的目的是利用来自两个总体的独立样本,推断两个总体的方差是否存在显著差异。(5)给定的显著性水平(0<<1)(4)计算显著性概率P值P=2P(F>F0)(1)双边检验若p值

,接受H0;若p值<,拒绝H0

(2)单边检验若p/2值

,接受H0;若p/2值<,拒绝H0。(6)下统计结论

与S2分别为样本均值和方差。给定显著性水平,关于μ的检验(t检验)(1)作假设:H0:μ=μ0H1:μ≠μ0

H0:μ≥μ0H1:μ<μ0H0:μ≤μ0H1:μ>μ05.2正态总体均值和方差的统计假设检验一.单样本的t检验设总体X服从N(μ,σ2),X1,X2,….,Xn是来自X的样本,σ2未知.

(3)据样本观测值计算出该统计量的值t.(4)在给定的显著性水平(0<<1)下,查所选统计量服从的分布表,求出临界值。

(2)选择检验假设H0的统计量,并确定其分布(5)确定拒绝域并作出判断对应于H0:μ=μ0H1:μ≠μ0对应于H0:μ≥μ0H1:μ<μ0

对应于H0:μ≤μ0H1:μ>μ0P121例5.2

二.两个独立样本的t检验设总体X~N(μ1,σ12

),总体Y~N(μ2,σ22)X与Y独立,σ12

=σ22未知。

X1,X2,…Xn1为X的样本,

Y1,Y2,…,Yn2为Y的样本,

、与S12、S22分别为两样本均值和方差

(1)作假设H0:μ1=μ2H1:μ1≠μ2

H0:μ1≥μ2H1:μ1<μ2H0:μ1

≤μ2H1:μ1>μ2

(2)选择检验假设H0的统计量,并确定其分布

(3)据样本观测值计算出该统计量的值t.(4)在给定的显著性水平(0<<1)下,查所选统计量服从的分布表,求出临界值。

(5)确定拒绝域并作出判断对应于H0:μ1=μ2H1:μ1≠μ2对应于H0:μ1≥μ2H1:μ1<μ2

对应于H0:μ1

≤μ2H1:μ1>μ2P122例5.3三.两个配对样本的t检验一般,设有n对相互独立的观测结果(X1,Y1),(X2,Y2)…(Xn,Yn),令D1=X1-Y1,D2=X2-Y2,…Dn=Xn-Yn则D1,D2,…Dn相互独立.Di服从N(μD,

σD2)(1)假设:H0:μD=0,H1:μD≠0

H0:μD≤0,H1:μD>0H0:μD≥

0,

H1:μD<0

(2)选择检验假设H0的统计量,并确定其分布

(3)据样本观测值计算出该统计量的值t.(4)在给定的显著性水平(0<<1)下,查所选统计量服从的分布表,求出临界值。

(5)确定拒绝域并作出判断对应于三种假设的拒绝域分别为:见p123例5.4

(1)作假设H0:σ12=σ22

H1:σ12

≠σ22

H0:σ12

σ22

H1:σ12

<σ22H0:σ12

σ22

H1:σ12

>σ22(2)选择检验假设H0的统计量,并确定其分布(3)据样本观测值计算出该统计量的值F0

四.两个独立样本的F检验两个独立样本的F检验的目的是利用来自两个总体的独立样本,推断两个总体的方差是否存在显著差异。(5)确定拒绝域并作出判断

/2Fα/2(4)在给定的显著性水平(0<<1)下,查所选统计量服从的分布表,求出临界值F

α/2

(n1-1,n2-1)和F

1-α/2

(n1-1,n2-1)。F1-α/2F≥F

α/2

(n1-1,n2-1)或F≤F

1-α/2

(n1-1,n2-1)拒绝域为对应于H0:σ12=σ22

H1:σ12

≠σ22

对应于H0:σ12

σ22

H1:σ12

<σ22拒绝域为F≤F

1-α

(n1-1,n2-1)对应于H0:σ12

σ22

H1:σ12

>σ22拒绝域为F≥F

α

(n1-1,n2-1)P124例5.55.3单因素方差分析5.3.1方差分析的基本概念方差分析定义:检验多个总体均值间差异是否显著的统计方法.方差分析常用术语:实验指标:要考察的结果,用X等表示。如智商。实验因素:影响实验指标的条件,用A等表示。如教育。因素水平:因素所处的特定状态,用Ai等表示。如教育可以取为“良好的教育A1”,“一般的教育A2”和“较差的教育A3”。方差分析分类:

单因素方差分析(只有一个因素改变)多因素方差分析(有多个因素改变)5.3.2单因素方差分析的基本原理1.单因素方差分析的基本思路【例5.6】一位教师采用3种不同的教学方法进行教学,现在想要检查3种不同的教学方法的效果,为此随机地选取了水平相当的15位学生。把他们分成3组,每组5个人,每一组用一种方法教学,一段时间后,这位教师给这15位学生进行统考,统考成绩(单位:分)见下表。方法统考成绩175627158732818568929037379607581试检验这3种教学方法的效果有没有显著差异。A1A2A3实验指标X1.提出假设实验指标:统考成绩

实验因素:教学方法(一个因素)

因素水平:3种不同的教学方法(3个水平,看成3个正态总体)检验:3种教学方法的统考成绩均值之间是否有显著差异?在不同的教学方法下,统考成绩Xi~N(μi,σ2)(i=1,2,3)且各Xi相互独立。提出假设H0:1=

2=3=

←→H1:1,

2,3不全相等单因素方差分析的一般提法

设因素A有s个水平A1,A2,…AS,在水平Ai(i=1,2,…s)下进行n(n≥2)次独立实验,结果如下:12…n合计水平平均A1X11X12…X1nX1.A2X21X22…X2nX2.…………………ASXs1Xs2…XsnXs.合计X..

假设:各个水平Ai(i=1,2,…s)下的样本xi1,xi2,…,xin来自正态总体N(μi,σ2),且设不同水平Ai下的样本之间相互独立。检验假设:H0:1=

2=…=sH1:1,

2,…s不全相等2.平方和的分解(以例5.6为例)全部数据xij与总平均x之间有差异-总误差ST每种教学方法的各个数据xij与水平平均Xi.之间有差异-随机误差SE每种教学方法的水平平均Xi.

与总平均之间有差异-效应误差SA

12345合计水平平均A1X11=75X12=62X13=71X14=58X15=73X1.=339A2X21=81X22=85X23=68X24=92X25=90X2.=416A3X31=73X32=79X33=60X34=75X35=81X3.=368合计X..=1123ST-总误差随机波动引起的误差SE因素A的不同水平所产生的误差SA随机误差平方和SE

效应误差平方和SA

随机误差平方和:(组内误差平方和)效应误差平方和:(组间误差平方和)总误差平方和:平方和一般分解公式

ST=SE+SA3.自由度的分解(以例5.6为例)求和项数共有3×5=15项,而存在因此总误差平方和ST的自由度fT=15-1=14。求和项数共有3×5=15项,而存在因此随机误差平方和SE的自由度fE=15-3=12。求和项数共有3项,而存在因此效应误差平方和SA的自由度fA=3-1=2。

fT=fE+fA自由度的一般分解公式

fT=fE+fAfT=ns-1fE=ns-sfA=s-1方差分析表方差来源平方和由度均方F比临界值显著性因素ASAs-1Fα(s-1,ns-s)误差ESEns-s总和TSTns-14.假设检验问题的拒绝域统计量及其分布:拒绝域:例:为了比较四种不同肥料对小麦亩产量的影响,取一片土壤肥沃程度和水利灌溉条件差不多的土地,分成16块。化肥品种记为A1

,A2,A3

,A4,每种肥料施在四块土地上,得亩产量如下:肥料品种A亩产量A1981,964,917,669A2607,693,506,358A3791,642,810,705A4901,703,792,883问施肥品种对小麦产量有无影响。第一步:提出假设:H0:1=

2=3=4

←→H1:1,2

,3

,4不全相等第二步:构造检验统计量及其分布第三步:计算误差平方和SE=ST-SA=168587.5第四步:列出方差分析表第五步:做出统计决策由于F0.05(3,12)<F<

F0.01(3,12)

,因此拒绝H0,认为不同的肥料品种对小麦产量的影响有显著性差异。5.4用SPSS统计软件进行假设检验一.One-SamplesTTest过程选择选项Analyze→Comparemeans→One-SamplesTtest.1.界面说明【TestVariables框】用于选入需要分析的变量。【TestValue框】在此处输入已知的总体均数,默认值为0。【Options钮】弹出Options对话框,用于定义相关的选项,有:ConfidenceInterval框输入置信概率,默认为95%。MissingValues单选框组Excludescasesanalysisbyanalysis—在参与计算的数据中有缺失值的不参与计算Excludescaseslistwise—所有数据中有缺失值的不参与计算2结果解释如要检验p115例1中,H0:μ=120(美元)H1:μ≠120(美元)则输出如下:表1描述统计表(One-SampleStatistics)

第2列:样本数第4列:样本标准差第3列:样本均值第5列:样本均值标准误差NMeanStd.DeviationStd.ErrorMean数额12112.850820.797996.00386表2t检验表(One-SampleTest)

第2列:t统计量的观测值第3列:自由度第四列:t统计量的观测值的双侧概率p值P=0.514>α=0.05,不应拒绝H0。第5列:样本均值与检验值的差第6、7列:总体均值与原假设值差的95%的置信区间。即有95%的把握认为某种元件的平均寿命在188.98和294.11之间,225包含在这个范围内.故接受H0.TestValue=0tdfSig.(2-tailed)MeanDifference95%ConfidenceIntervaloftheDifferenceLowerUpper数额-1.1911.217112.8508399.6364126.0652二.Independent-SamplesTTest过程选择选项Analyze→Comparemeans→Independent-SamplesTtest.1.界面说明【TestVariables框】选入检验变量(输入全部数据)(如成绩)。【GroupingVariable框】存放分组变量(如组别)【DefineGroups框】UsespecifiedValues:输入分组变量值(如1和2)。CutPoint:用于连续变量,输入一个值作为分割值,将数据分为两组.【Options钮】和One-SamplesTTest对话框的Options钮完全相同,此处不再重复。2.结果解释如要检验p122例5.3中,H0:μ1=μ2

H1:μ1≠μ2则输出如下:描述统计表(GroupStatistics)组别NMeanStd.DeviationStd.ErrorMean班车时间大通公司1561.674.6551.202金龙公司1359.083.095.858第一步:两总体方差是否相等的F检验(第2大列).F值为0.256,对应的概率值为0.619.如α=0.05,由于概率p>0.05,可认为两总体方差无显著差异.

Levene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifference

LowerUpper班车时间Equalvariancesassumed2.501.1261.70426.1002.5901.520-.5345.714

EqualVariancesnotassumed1.75424.490.0922.5901.477-.4555.635两独立样本t检验表(IndependentSamplesTest)

第二步:两总体均值的检验(第3大列).由于两总体方差无显著差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论