田间试验与统计方法-第五章假设检验_第1页
田间试验与统计方法-第五章假设检验_第2页
田间试验与统计方法-第五章假设检验_第3页
田间试验与统计方法-第五章假设检验_第4页
田间试验与统计方法-第五章假设检验_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章假设检验概述总体与样本之间的关系包括两个方面:从总体到样本的探讨;由样本推断总体,它是以各种样本统计量的抽样分布为基础的,一般是正态分布、t分布、χ2分布和F分布。对总体做统计推断有两种途径,在实际应用时可相互参照运用首先对所估计的总体做一假设,然后通过样本数据推断这个假设是否接受,这种途径称为统计假设检验(statisticaltestofhypothesis);通过样本统计量估计总体参数,称为总体参数估计(estimationofpopulationparameter)。总体样本统计量(X)估计&检验总体抽样样本(实验结果)检验(抽样分布规律)接受拒绝小概率事件未发生小概率事件发生某种假设统计假设检验图解备择假设:≠10.00g总体(零假设)Mean

X=10.23随机样本拒绝零假设!

接受备择!5.1单个样本的统计假设检验5.1.1一般原理及两种类型的错误基本思想抽样分布假设零假设:记为H0,假设总体的平均数μ等于某一给定的值μ0,即μ-μ0=0,记为H0:μ-μ0=0(零假设是针对试验考查的内容提出的)备择假设:与零假设相对的假设记为HA它是在拒绝H0的状况下,可供选择的假设如HA:μ>μ0,HA:μ<μo及HA:μ≠μ0。备择假设的选定视实际状况而定。

小概率原理小概率的事务是指在一次试验中,几乎是不会发生的,若依据确定的假设条件计算出来的该事务发生的概率很小,而在一次试验中它竟然发生了,则可认为原假设条件不正确,赐予否定。依据小概率原理所建立起来的检验方法称为显著性检验。在生物统计工作中,通常规定0.05或0.01以下为小概率,称为显著性水平,记为“α”。检验统计量:utχ2F等单侧检验(one-sidedtest)上尾检验:拒绝H0后,接受μ>μ0,如左图。下尾检验:拒绝H0后,接受μ<μ0,如右图。样本统计量样本统计量样本统计量临界值双侧检验在生物学问题中,有时只要考虑μ是否等于μ0,并不关切原委是大于还是小于μ0,这时就要运用双侧检验。在α水平上,H0的拒绝域由P(∣U∣>uα/2)=α确定。拒绝域包括大于uα/2或小于-uα/2的区域,这两个尾区的曲线下面积之和为α。由于单侧检验时利用了已知有一侧是不行能的这一条件,从而提高了它的辨别力,所以单侧检验比双侧检验的辨别力更强些。实际应用时,要尽量选用单侧检验,但也要依据实际状况而定。两种类型的错误Ⅰ型错误:假设是正确的,却错误地拒绝了它。犯Ⅰ型错误的概率不会大于α。(以真为假——弃真错误)Ⅱ型错误:当μ≠μ0但错误地接受了μ=μ0的假设时所犯的错误,其慨率为β称β错误。(以假为真——存伪错误)关于两种类型错误的三点说明为了同时降低α和β就需增加样本含量,当样本含量增加后,样本标准误降低,曲线就会变得陡峭,则犯两种错误的概率都会降低。样本含量不变时,你不能同时削减两类错误!当μ1越接近于μ0时,犯Ⅱ型错误的概率愈大;当μ1越远离μ0时,犯Ⅱ型错误的概率愈小。在样本含量和样本平均数都固定时,为了降低犯Ⅰ型错误的概率α(就应将图中的竖线右移),必定增加犯Ⅱ型错误的概率。假设测验基本程序

1、对样本所属的总体提出一个假设,H0或者HA2、规定测验的显著水平α值3、在Ho为正确的假设下,依据平均数或其它统计数的抽样分布,计算统计数的概率。或依据已规定的概率,划出两个否定区域。4.将规定的α值和算得的概率相比较,或者将试验结果和否定区域相比较,从而作出接受或否定的假设5.1.2单个样本显著性检验的程序假设零假设:依据阅历或试验结果;依据某种理论或模型;依据预先的规定。备择假设:除零假设以外的值;担忧会出现的值;希望会出现的值;有重要意义或其他意义的值。显著性水平α=0.10试验条件下不易限制或易产生较大误差α=0.05α=0.01简洁产生严峻后果的一些试验,如药物的毒性试验两种类型的错误α不宜定得太严,太严会增加β。在条件许可的状况下尽量增加样本含量n确定检验方法:u检验、t检验、X2检验、F检验等。建立在α水平上的Ho的拒绝域(留意单侧或双侧)

(一)在σ已知的状况下,单个平均数的显著性检验——u检验1、假设从σ已知的正态或近似正态总体中抽出含量为n的样本。2、零假设H0:μ=μ0备择假设HA:①μ>μ0②μ<μ0③μ≠μ03、显著性水平在α=0.05水平上拒绝H0称为差异显著在α=0.01水平上拒绝H0称为差异极显著4、检验统计量5、相应于2中各备择假设之H0的拒绝域①u>uα②u<-uα③|u|>uα/26、得出结论并赐予说明例已知豌豆籽粒重量听从正态分布N(377.2,3.32)在改善栽培条件后,随机抽取9粒,其籽粒平均重为379.2,若标准差仍为3.3,问改善栽培条件是否显著提高了豌豆籽粒重量?解①已知豌豆的重量听从正态分布,σ已知②假设:H0:μ=377.2HA:μ>377.2③显著性水平:α=0.05④σ已知,运用u检验⑤H0的拒绝域:因HA:μ>μ0,故为上尾检验。u0.05=1.645,u>u0.05,拒绝H0。⑥结论:u>u0.05,即P<0.05,所以拒绝零假设。栽培条件的改善,显著地提高了豌豆籽粒重量。(二)σ未知时平均数的显著性检验——t检验1、假设从σ未知的正态或近似正态总体中抽出含量为n的样本。2、零假设:H0:μ=μ0备择假设:HA:①μ>μ0②μ<μ0③μ≠μ03、显著性水平:在α=0.05水平上拒绝H0称为差异显著在α=0.01水平上拒绝H0称为差异极显著4、检验统计量:当σ未知时以s代替之,标准化的变量称为t,听从n-1自由度的t分布。5、相应于2中各备择假设之H0的拒绝域:①t>tα②t<-tα③|t|>tα/26、得出结论并赐予说明。例已知某玉米种群的平均穗重μ0=300g。喷药后,随机抽取9个果穗,其穗重为:308、305、311、298、315、300、321、294、320g。问喷药前后的果穗重差异是否显著?解①σ未知②假设:H0:μ=300HA:μ≠300药物浓度适合时可促进生长,浓度过高反而会抑制生长,所以喷药的效果未知,需接受双侧检验。③显著性水平:α=0.05④σ未知应运用t检验,已计算出=308,s=9.62⑤H0的拒绝域:因HA:μ≠μ0,故为双侧检验,当|t|>t0.025时拒绝H0。t0.025=2.306。⑥结论:因|t|>t0.025,即P<0.05,所以拒绝零假设。喷药前后果穗重的差异是显著的。若规定α=0.01,t0.01/2=3.355,t<t0.005,因此喷药前后果穗重的差异尚未达到“极显著”。单个样本的平均数的显著性检验小结

单个样本平均值的显著性检验,是通过样本值对总体做推断,即推断该样本是否从零假设总体,在小概率原理的基础上通过判定u

t

值是否具有显著性差异来得出结论。5.2两个样本的差异显著性检验

单个样本的显著性检验须要事先能够提出合理的参数假设值和对参数有某种意义的备择值。然而,实际工作中很难提出,故限制了实际应用。在实际应用时,常常选用两个样本,一个作为处理,一个作为比照,在这两个样本之间作比较,判定它们之间的差异是否用偶然性说明,若不能用偶然性说明时,则认为它们之间存在足够显著的差异,从而推断这两个样原来自两个不同的总体。两个样本平均数差异的测验完全随机设计(成组数据)两个不同的处理在不同的点上实施(有重复),各个点环境基本一样。对处理平均数作误差的测验随机区组设计(成对数据)两个不同的处理在不同的点上实施,各个点环境不尽一样,但两个处理同时出现在一个点上,保证了一个点的处理间,试验环境基本一样。所得的视察值为配对数据,多个这样的成对数据(对内条件基本一样,对间可能有差异),可以获得两处理的平均数,对它们进行误差的测验。5.2.1两个样本总体方差(σ2)已知时,两个平均数间差异显著性的检验-成组数据u检验

1、从σ1和σ2已知的正态或近似正态总体中抽出含量分别为n1和n2的样本。2、零假设H0:μ1=μ2备择假设HA:①μ1>μ2,若已知μ1不行能小于μ2;②μ1<μ2,若已知μ1不行能大于μ2;③μ1≠μ2,包括μ1>μ2和μ1<μ2。3、显著性水平在α=0.05水平上拒绝H0称为差异显著在α=0.01水平上拒绝H0称为差异极显著

4、检验统计量在σi已知时两平均数差的标准化变量:在H0:μ1=μ2下,检验统计量为:

上式的分母称为平均数差的标准误差,记为5、相应于2中各备择假设之H0的拒绝域①u>uα②u<-uα③|u|>uα/26、得出结论并赐予生物学说明例调查两个不同渔场的马面鲀体长,每一渔场调查20条。平均体长分别为:=19.8cm,=18.5cm。σ1=σ2=7.2cm。问在α=0.05水平上,第一号渔场的马面鲀是否显著高于其次号渔场的马面鲀体长?解①马面鲀体长是听从正态分布的随机变量,σ1和σ2已知。②假设:H0:μ1=μ2HA:μ1>μ2③显著性水平:已规定为α=0.05④统计量的值:

⑤建立H0的拒绝域:上尾单侧检验,当u>u0.05时拒绝H0。从表中查出u0.05=1.645.⑥结论:u<u0.05,即P>0.05,尚不能拒绝H0,第一号渔场马面鲀体长并不比其次号的长。5.2.2两个样本总体方差未知,但可假定σ12=σ22=σ2相等,两个样本为小样本时,两平均数间差异显著性检验-成组数据t检验

5.2.3两个样本总体方差未知,且可能不相等时,两个平均数间差异显著性的检验-用近似t检验

5.2.4成对数据的显著性检验-成对数据t检验

建立无效假设和备择假设Ho:μ1=μ2HA:μ1≠μ2确定假设测验的显著水平α=0.05计算统计数(处理均数间差异)系随机误差所致的概率统计推断

两肥料试验结果表

──────────试验点X1X2d──────────1680820602950920303840880-404940870705780810-306880820607920880408810780309940890501078076020──────────

X1、X2为两不同肥料d=X1-X2──────────

计算各差数:

d1=880-820=60d2=950-920=30……d10=780-760=20计算差数的平均数计算差数平均数的标准误计算t值:

查表得该t值的概率范围

配对法与成组法的比较配对法比成组法更简洁检出两组数据平均数之间的差异。平均数及样本含量均相同的条件下,s愈小则t值愈大,从而拒绝H0的可能性越大(即差异显著)。而配对法比成组法的样本方差小,所以配对法比成组法更简洁检出两组数据平均数之间的差异。用配对法比较时,可解除数据之间可能存在的相关,提高检验的实力,从而达到事半功倍的效果。5.2.5二项分布数据的显著性检验——u检验在生物学探讨中,有很多试验或结果是用频率(或百分数)表示的,呈二项分布的试验结果就是如此。如,卵的孵化率、动物幼体的死亡率、某药物对某动物的急性致死率等。对二项分布数据的显著性检验类似对平均数的检验(此检验方法的理论依据:当n很大时,二项分布近似正态分布)单样本频率的假设检验当np或nq<10时,由二项式绽开式干脆检验当np或nq>10时,二项分布趋近正态,可用u检验。样本频率的标准误:u值的计算公式:(需进行连续性矫正。因二项分布的数据为离散型,用正态分布计算二项分布概率时应当计算随机变量落在某一区间的概率。)连续性矫正后计算公式为:例:某商品卤虫休眠卵的保证孵化率为0.9,现随机取1000粒在适宜条件下进行孵化检验,结果有877粒卵成功孵化,问这批休眠卵是否合格?解:H0:p=p0=0.9,HA:p<p0显著性水平α=0.05p=877/1000=0.877当u>u0.05时,拒绝H0;因u0.05=1.645<u,所以拒绝H0。结论:这批卤虫休眠卵不合格。两个样本频率的假设检验假设有两个二项分布总体,分别具有参数φ1和φ2,从上述总体中抽取含量为n1和n2的两个样本,出现某一类别的个体数分别为x1和x2,p1=x1/n1,p2=x2/n2,推断p1和p2之间的差异显著与否?(要求:)检验步骤:1、零假设:H0:φ1=φ2备择假设:HA:φ1>φ2;φ1<φ2φ1≠φ22、显著性水平:α=0.053、检验统计量:其中,φ以p1和p2的加权平均数代替,则因上式的u为近似听从标准正态分布,需对数据做连续性矫正,因为二项分布的数据为离散型,因此用正态分布计算二项分布概率时应当计算随机变量落在某一区间的概率。此区间一般接受([x1-x2]-0.5,[x1-x2]+0.5)。经过连续性矫正后统计量u计算式(p80式5.19)4、建立H0的拒绝域:①u>uα②u<-uα③|u|>uα/25、得出结论并做诞生物学说明。例调查了280名中学生发觉有140名学生睡眠不足,在减轻学生作业负担后,调查120学生仍有40名睡眠不足,问减轻学生负担的效果是否显著?解:H0:φ1=φ2,HA:φ1>φ2

代入式5.19

查表u0.05=1.645,u>u0.05落在拒绝域内。结论:减轻学生负担后,学生的睡眠状况有了明显改善。两个样本间差异显著性检验的小结假设检验再相识▲显著性检验;▲科研数据处理的重要工具;▲某事发生了:是由于碰巧?还是由于必定的缘由?统计学家运用显著性检验来处理这类问题。

问题的提出由于个体差异的存在,即使从同一总体中严格的随机抽样,X1、X2、X3、X4、、、,不同。

因此X1与X2不相同有两种可能(而且只有两种)可能:分别所代表的总体均数相同,由于抽样误差造成了样本均数的差别。差别无显著性

。分别所代表的总体均数不同。差别有显著性。假设检验的目的假设检验的原理/思想反证法:当一件事情的发生只有两种可能A和B,为了确定其中的一种状况A,但又不能干脆证明A,这时否定另一种可能B,则间接的确定了A。概率论:事务的发生不是确定的,只是可能性大小而已。推断是由于何种缘由造成的差异,以做出样本推断总体的决策。

5.3总体参数的区间估计所谓参数估计就是用样本统计量来估计总体参数,有点估计(pointestimation)和区间估计(intervalestimation)之分。将样本统计量干脆作为总体相应参数的估计值叫点估计。点估计只给出了未知参数估计值的大小,没有考虑试验误差的影响,也没有指出估计的牢靠程度。区间估计是在确定概率保证下指出总体参数的可能范围,所给出的可能范围叫置信区间(confidenceinterval),给出的概率保证称为置信度或置信概率(confidenceprobability)。本节介绍正态总体平均数和二项总体百分数P的区间估计。一、正态总体平均数的置信区间设有一来自正态总体的样本,包含n个观测值,样本平均数,标准误。总体平均数为μ。因为听从自由度为n-1的t分布。双侧概率为a时,有:,也就是说t在区间内取值的可能性为1-a,即:对变形得:(5-13)亦即(5-13)式称为总体平均数μ置信度为1-a的置信区间。其中称为置信半径;分别称为置信下限和置信上限;置信上、下限之差称为置信距,置信距越小,估计的精确度就越高。常用的置信度为95%和99%,故由(5-13)式可得总体平均数μ的95%和99%的置信区间如下:(5-14)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论