版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析
(方法与案例)
作者贾俊平统计学基础
FundamentalStatistics第6章假设检验6.1
假设检验的基本原理6.2
总体均值的检验6.3
总体比例的检验hypothesistest2011年学习目标假设检验的基本思想和原理总体均值的检验总体比例的检验P值的计算与应用6.1假设检验的基本原理
一、假设的陈述二、两类错误与显著性水平三、检验统计量与拒绝域四、利用P值进行决策第6章假设检验一、假设的陈述6.1假设检验的基本原理2011年什么是假设?
(hypothesis)
在参数检验中,对总体参数的具体数值所作的陈述就一个总体而言,总体参数包括总体均值、比例、方差等分析之前必需陈述我认为这种新药的疗效比原有的药物更有效!2011年什么是假设检验?
(hypothesistest)先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的统计方法有参数检验和非参数检验逻辑上运用反证法,统计上依据小概率原理小概率是在一次试验中,一个几乎不可能发生的事件发生的概率在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设2011年原假设
(nullhypothesis)又称“0假设”,研究者想收集证据予以反对的假设,用H0表示所表达的含义总是指参数没有变化或变量之间没有关系
最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它总是有符号
,
或
H0:
=某一数值H0:
某一数值H0:
某一数值例如,H0:
10cmnull2011年也称“研究假设”,研究者想收集证据予以支持的假设,用H1或Ha表示所表达的含义是总体参数发生了变化或变量之间有某种关系备择假设通常用于表达研究者自己倾向于支持的看法,然后就是想办法收集证据拒绝原假设,以支持备择假设
总是有符号
,
或
H1:
某一数值H1:
某一数值H1:
<某一数值备择假设(alternativehypothesis)2011年【例6.1】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和被择假设提出假设(例题分析)解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为
H0:
10cmH1:
10cm
2011年【例6.2】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克。从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设提出假设(例题分析)解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述。建立的原假设和备择假设为
H0:
500H1:
<500500g绿叶洗涤剂2011年【例6.3】一家研究机构估计,某城市中家庭拥有汽车的比例超过30%。为验证这一估计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设提出假设(例题分析)解:研究者想收集证据予以支持的假设是“该城市中家庭拥有汽车的比例超过30%”。建立的原假设和备择假设为
H0:
30%H1:
30%2011年原假设和备择假设是一个完备事件组,而且相互对立在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立先确定备择假设,再确定原假设等号“=”总是放在原假设上因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)提出假设(结论与建议)2011年备择假设没有特定的方向性,并含有符号“
”的假设检验,称为双侧检验或双尾检验(two-tailedtest)
备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailedtest)备择假设的方向为“<”,称为左侧检验
备择假设的方向为“>”,称为右侧检验
双侧检验与单侧检验2011年双侧检验与单侧检验
(假设的形式)假设双侧检验单侧检验左侧检验右侧检验原假设H0:m
=m0H0:m
m0H0:m
m0备择假设H1:m
≠m0H1:m
<m0H1:m
>m0以总体均值的检验为例二、两类错误与显著性水平6.1假设检验的基本原理2011年两类错误与显著性水平研究者总是希望能做出正确的决策,但由于决策是建立在样本信息的基础之上,而样本又是随机的,因而就有可能犯错误原假设和备择假设不能同时成立,决策的结果要么拒绝H0,要么不拒绝H0。决策时总是希望当原假设正确时没有拒绝它,当原假设不正确时拒绝它,但实际上很难保证不犯错误第Ⅰ类错误(
错误)原假设为正确时拒绝原假设第Ⅰ类错误的概率记为
,被称为显著性水平2. 第Ⅱ类错误(
错误)原假设为错误时未拒绝原假设第Ⅱ类错误的概率记为
(Beta)
2011年
错误和
错误的关系你要同时减少两类错误的惟一办法是增加样本量
和
的关系就像翘翘板,
小
就大,
大
就小2011年两类错误的控制一般来说,对于一个给定的样本,如果犯第Ι类错误的代价比犯第Ⅱ类错误的代价相对较高,则将犯第Ⅰ类错误的概率定得低些较为合理;反之,如果犯第Ι类错误的代价比犯第Ⅱ类错误的代价相对较低,则将犯第Ⅰ类错误的概率定得高些一般来说,发生哪一类错误的后果更为严重,就应该首要控制哪类错误发生的概率。但由于犯第Ι类错误的概率是可以由研究者控制的,因此在假设检验中,人们往往先控制第Ι类错误的发生概率2011年显著性水平
(significantlevel)事先确定的用于拒绝原假设H0时所必须的证据能够容忍的犯第Ⅰ类错误的最大概率(上限值)2. 原假设为真时,拒绝原假设的概率抽样分布的拒绝域3. 表示为
(alpha)
常用的值有0.01,0.05,0.104. 由研究者事先确定三、检验统计量与拒绝域6.1假设检验的基本原理2011年依据什么做出决策?若假设为H0:
=500,H1:
<500。样本均值为495,拒绝H0吗?样本均值为502,拒绝H0吗?做出拒绝或不拒绝原假设的依据是什么?传统上,做出决策所依据的是样本统计量,现代检验中人们直接使用由统计量算出的犯第Ⅰ类错误的概率,即所谓的P值2011年根据样本观测结果计算出对原假设和备择假设做出决策某个样本统计量对样本估计量的标准化结果原假设H0为真点估计量的抽样分布检验统计量(teststatistic)
标准化的检验统计量
2011年用统计量决策
(双侧检验)抽样分布H0临界值临界值a/2a/2拒绝H0拒绝H01-
置信水平RegionofRejectionRegionofNonrejectionRegionofRejection2011年用统计量决策
(左侧检验)抽样分布H0临界值a拒绝H01-
置信水平RegionofRejectionRegionofNonrejection2011年用统计量决策
(右侧检验)抽样分布H0临界值
拒绝H01-
置信水平RegionofNonrejectionRegionofRejection2011年统计量决策规则给定显著性水平
,查表得出相应的临界值z
或z
/2,t
或t
/2将检验统计量的值与
水平的临界值进行比较作出决策双侧检验:I统计量I>临界值,拒绝H0左侧检验:统计量<-临界值,拒绝H0右侧检验:统计量>临界值,拒绝H0四、利用P值进行决策6.1假设检验的基本原理2011年用P值决策
(P-value)如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率P值告诉我们:如果原假设是正确的话,我们得到得到目前这个样本数据的可能性有多大,如果这个可能性很小,就应该拒绝原假设被称为观察到的(或实测的)显著性水平决策规则:若p值<
,拒绝H02011年双侧检验的P值
/
2
/
2Z拒绝H0拒绝H00临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值2011年左侧检验的P值
Z拒绝H00临界值计算出的样本统计量1/2P值2011年右侧检验的P值
Z拒绝H00计算出的样本统计量临界值1/2P值2011年拒绝H0P值决策与统计量的比较拒绝H0的两个统计量的不同显著性
Z拒绝H00统计量1
P1
值统计量2
P2
值拒绝H0临界值6.2总体均值的检验
一、大样本的检验方法二、小样本的检验方法第6章假设检验一、大样本的检验方法6.2总体均值的检验2011年总体均值的检验
(大样本)1. 假定条件大样本(n
30)使用z检验统计量
2
已知:
2
未知:2011年总体均值的检验(
2
已知)
(例题分析—大样本)【例6.4】一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随机抽取了40罐进行检验,测得每罐平均容量为255.8ml。取显著性水平
=0.05
,检验该天生产的饮料容量是否符合标准要求?双侧检验绿色健康饮品绿色健康饮品2552552011年总体均值的检验(
2
已知)
(例题分析-大样本)H0
:
=255H1
:
255
=
0.05n
=
40临界值(c):检验统计量:决策:结论:
用Excel中的【NORMSDIST】函数得到的双尾检验P=0.312945不拒绝H0没有证据表明该天生产的饮料不符合标准要求
z01.96-1.960.005拒绝H0拒绝H00.0052011年总体均值的检验(z检验)
(P值的计算与应用)第1步:进入Excel表格界面,直接点击【fx】第2步:在函数分类中点击【统计】,并在函数名菜单下选择【NORM.S.DIST】,然后【确定】第3步:将z的绝对值1.01录入,得到的函数值为
0.843752345
P值=2(1-0.843752345)=0.312495
P值远远大于
,故不拒绝H02011年总体均值的检验(
2
未知)
(例题分析—大样本)【例6.5】一种机床加工的零件尺寸绝对平均误差为1.35mm。生产厂家现采用一种新的机床进行加工以期进一步降低误差。为检验新机床加工的零件平均误差与旧机床相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。利用这些样本数据,检验新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低?(
=0.01)
左侧检验50个零件尺寸的误差数据(mm)1.261.191.310.971.811.130.961.061.000.940.981.101.121.031.161.121.120.951.021.131.230.741.500.500.590.991.451.241.012.031.981.970.911.221.061.111.541.081.101.641.702.371.381.601.261.171.121.230.820.862011年总体均值的检验
(例题分析—大样本)H0
:
1.35H1
:
<1.35
=
0.01n
=
50临界值(c):检验统计量:拒绝H0新机床加工的零件尺寸的平均误差与旧机床相比有显著降低决策:结论:-2.33z0拒绝H00.012011年总体均值的检验
(P值的计算与应用—大样本)第1步:进入Excel表格界面,直接点击【fx】第2步:在函数分类中点击【统计】,并在函数名的菜单下选择【Z.TEST】,然后【确定】第3步:在所出现的对话框【Array】框中,输入原始数据所在区域;在【X】后输入参数的某一假定值(这里为
1.35);在【Sigma】后输入已知的总体标准差(若总体标准差未知则可忽略不填,系统将自动使用样本标准差代替)第4步:用1减去得到的函数值0.995421023
即为P值
P值=1-0.995421023=0.004579
P值<
=0.01,拒绝H0计算P值Excel2011年总体均值的检验
(P值的图示)计算出的样本统计量=2.6061P=0.004579
Z拒绝H00临界值P值2011年总体均值的检验(
2
未知)
(例题分析)【例6.6】某一小麦品种的平均产量为5200kg/hm2
。一家研究机构对小麦品种进行了改良以期提高产量。为检验改良后的新品种产量是否有显著提高,随机抽取了36个地块进行试种,得到的样本平均产量为5275kg/hm2,标准差为120/hm2
。试检验改良后的新品种产量是否有显著提高?(
=0.05)
右侧检验2011年总体均值的检验(
2
未知)
(例题分析)H0
:
5200H1
:
>5200
=
0.05n
=
36临界值(c):检验统计量:拒绝H0
(P=0.000088<
=0.05)改良后的新品种产量有显著提高
决策:结论:z0拒绝H00.051.6452011年总体均值的检验(z检验)
(P值的图示)抽样分布P=0.000088
01.645a=0.05拒绝H01-
计算出的样本统计量=3.75P值2011年总体均值的检验
(大样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0
:m=m0H1:m
m0H0:m
m0H1:m<m0H0:m
m0H1:m>m0统计量
已知
未知拒绝域P值决策拒绝H0二、小样本的检验方法6.2总体均值的检验2011年总体均值的检验
(小样本)1. 假定条件总体服从正态分布小样本(n<
30)检验统计量
2
已知:
2
未知:2011年总体均值的检验
(小样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0
:m=m0H1:m
m0H0
:m
m0H1:m<m0H0:m
m0H1:m>m0统计量
已知
未知拒绝域P值决策拒绝H0注:
已知的拒绝域同大样本2011年总体均值的检验
(例题分析—小样本)【例6.7】一种汽车配件的平均长度要求为12cm,高于或低于该标准均被认为是不合格的。汽车生产企业在购进配件时,通常是经过招标,然后对中标的配件提供商提供的样品进行检验,以决定是否购进。现对一个配件提供商提供的10个样本进行了检验。假定该供货商生产的配件长度服从正态分布,在0.05的显著性水平下,检验该供货商提供的配件是否符合要求?10个零件尺寸的长度(cm)12.210.812.011.811.912.411.312.212.012.32011年总体均值的检验
(例题分析—小样本)H0
:
=12H1
:
12
=0.05df=10-1=9临界值(c):检验统计量:不拒绝H0没有证据表明该供货商提供的零件不符合要求
决策:结论:t02.262-2.2620.025拒绝
H0拒绝H00.0252011年总体均值的检验
(P值的计算与应用-t
检验)第1步:进入Excel表格界面,直接点击【fx】第2步:在函数分类中点击【统计】,并在函数名的菜单下选择【T.DIST】,然后【确定】第3步:在出现对话框的【X】栏中输入计算出的t的绝对值0.7053,在【Deg-freedom】(自由度)栏中输入本例的自由度9,在【Tails】栏中输入2(表明是双侧检验,如果是单测检验则在该栏输入1)第4步:P值=0.498453
P值>
=0.05,故不拒绝H0
2011年一个总体均值的检验
(作出判断)6.3总体比例的检验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论