统计假设测验_第1页
统计假设测验_第2页
统计假设测验_第3页
统计假设测验_第4页
统计假设测验_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计假设测验第1页,课件共62页,创作于2023年2月例1(pp75):某地区的当地小麦品种一般亩产300kg,标准差75kg。现有新品种通过25个小区的试验,获得其平均产量为330kg/亩,新品种与当地品种是否有显著差异?结论:否定H0:μ=300,接受HA:μ

≠300。有95%的把握可以推断新品种与当地品种有显著的差异。4.P(|U|>2)=0.0455P<α|u|>u0.05H0:μ=μ0=300;HA:μ

μ02.α=0.05,u0.05=1.963.在假设正确前提下计算U值分析步骤:第2页,课件共62页,创作于2023年2月样本平均数总体Ӯ样本样本样本样本样本统计推断抽样分布与统计推断的关系

n=25抽样原小麦品种总体

y

2=25=300原总体Ӯ

=330kg抽样分布第3页,课件共62页,创作于2023年2月接受区域

95%否定区域

2.5%否定区域2.5%300270.6329.4图5.1

α=0.05时H0:µ=µ0的接受区和否定区这个值不像我们应该得到的样本均值...330.0...因此我们拒绝假设

=300抽样分布如果这是总体的真实均值接受H0H0:μ=μ0=300HA:μ≠μ0原小麦品种总体

y

2=25=300第4页,课件共62页,创作于2023年2月1.从总体方差已知的正态总体的抽样→样本平均数为→2.从未知总体抽样,只要n≥30→

样本平均数服从→3.从正态总体的抽样,总体方差未知,n<30→

→单个样本平均数的假设测验u测验u测验t测验正态分布正态分布t分布第5页,课件共62页,创作于2023年2月两个样本平均数相比较的假设测验

由两个样本平均数的相差,以测验这两个样本所属的总体平均数有无显著差异。测验方法成组数据的平均数比较成对数据的比较第6页,课件共62页,创作于2023年2月

成组数据的平均数比较又依两个样本所属的总体方差(和)是否已知、是否相等而采用不同的测验方法。1.总体方差已知,或大样本抽样实验------2.总体方差未知的小样本抽样实验,但可假定

-------3.总体方差未知的小样本抽样实验,且样本所属总体方差不等-------u测验t测验近似t测验第7页,课件共62页,创作于2023年2月

成对数据,由于同一配对内两个供试单位的试验条件很是接近,而不同配对间的条件差异又可通过同一配对的差数予以消除,因而可以控制试验误差,具有较高的精确度。

在分析试验结果时,只要假设两样本的总体差数的平均数,而不必假定两样本的总体方差和相同。类似单组设计(单个平均数)进行分析成对数据的比较第8页,课件共62页,创作于2023年2月

设两个样本的观察值分别为y1和y2

,共配成n对,各个对的差数为d

=y1-y2,差数的平均数为,则差数平均数的标准误为:(5·14)因而它具有v=n-1。若假设

,则上式改为:即可测验(5·15A)(5·15B)第9页,课件共62页,创作于2023年2月第三节二项资料的百分数假设测验

许多生物试验的结果是用百分数或成数表示的,如结实率、发芽率等,这些百分数系由计数某一属性的个体数目求得,属间断性的计数资料.

在理论上,这类百分数的假设测验应按二项分布进行,即从二项式(p+q)n的展开式中求出某项属性个体百分数的概率。但是,如样本容量n

较大,p较小,而np和nq又均不小于5时,(p+q)n的分布趋近于正态。因而可以将百分数资料作正态分布处理,从而作出近似的测验。适于用u测验所需的二项样本容量n见表5.6。第10页,课件共62页,创作于2023年2月(样本百分数)(较小组次数)n(样本容量)0.5015300.4020500.3024800.20402000.10606000.05701400表5.6

适于用正态离差测验的二项样本的和n值表第11页,课件共62页,创作于2023年2月一、单个样本百分数(成数)的假设测验

测验某一样本百分数所属总体百分数与某一理论值或期望值p0的差异显著性。由于样本百分数的标准误为:(5·16)故由即可测验H0:p=p0。(5·17)抽样分布μ0值临界值临界值a/2a/2

样本统计量拒绝域拒绝域接受域1-置信水平第12页,课件共62页,创作于2023年2月[例5.8]以紫花和白花的大豆品种杂交,在F2代共得289株,其中紫花208株,白花81株。如果花色受一对等位基因控制,则根据遗传学原理,F2代紫花株与白花株的分离比率应为3∶1,即紫花理论百分数p=0.75,白花理论百分数q=1-p=0.25。问该试验结果是否符合一对等位基因的遗传规律?

假设大豆花色遗传符合一对等位基因的分离规律,紫花植株的百分数是75%,即H0:p=0.75;对HA:p≠0.75。显著水平0.05,作两尾测验,u0.05=1.96。

测验计算:第13页,课件共62页,创作于2023年2月因为实得|u|<u0.05,故P>0.05。

推断:接受H0:p=0.75,即大豆花色遗传是符合一对等位基因的遗传规律的,紫花植株百分数=0.72和p=0.75的相差系随机误差。如果测验H0:p=0.25,结果完全一样。

以上资料亦可直接用次数进行假设测验。当二项资料以次数表示时,,故测验计算:于是结果同上第14页,课件共62页,创作于2023年2月二、两个样本百分数相比较的假设测验

测验两个样本百分数和所属总体百分数p1和p2的差异显著性.

一般假定两个样本的总体方差是相等的,即,设两个样本某种属性个体的观察百分数分别为和,而两样本总体该种属性的个体百分数分别为p1和

p2,则两样本百分数的差数标准误为:(5·18)

上式中的q1=(1-p1),

q2=(1-p2)。这是两总体百分数为已知时的差数标准误公式。第15页,课件共62页,创作于2023年2月如果假定两总体的百分数相同,即p1=p2=p,q1=q2=q,则:

p1和p2

未知时,则在的假定下,可用两样本百分数的加权平均值作为p1和p2的估计。(5·20)(5·19)第16页,课件共62页,创作于2023年2月因而两样本百分数的差数标准误为:(5·21)故由即可对H0:p1=p2作出假设测验。(5·22)第17页,课件共62页,创作于2023年2月两样本百分数的差数标准误为两总体百分数已知在两总体的百分数为未知时,在的假设下,可用样本百分数的加权平均值作为估计值p_x1+x2n1+n2=第18页,课件共62页,创作于2023年2月[例5.9]调查低洼地小麦378株(n1),其中有锈病株355株(y1),锈病率93.92%();调查高坡地小麦396株(n2),其中有锈病346株(y2),锈病率87.31%()。试测验两块麦田的锈病率有无显著差异?

假设H0:两块麦田的总体锈病率无差别,即H0:p1

=p2

;对HA:p1≠p2

。显著水平取

,作两尾测验,u0.05=1.96。测验计算:第19页,课件共62页,创作于2023年2月实得|u|>u0.05,故P<0.05,

推断:否定H0:p1

=p2

接受HA

:p1≠p2

,即两块麦田的锈病率有显著差异。抽样分布μ0值临界值临界值a/2a/2

样本统计量拒绝域拒绝域接受域1-置信水平第20页,课件共62页,创作于2023年2月

[例5.10]

原杀虫剂A在1000头虫子中杀死657头,

新杀虫剂B在1000头虫子中杀死728头,

问新杀虫剂B的杀虫率是否高于原杀虫剂A?

第21页,课件共62页,创作于2023年2月

假设新杀虫剂B的杀虫率并不高于原杀虫剂A,即H0:P2≤P1

;对HA:P2>P1

。显著水平

,作一尾测验,u0.01=(一尾概率)。

测验计算:第22页,课件共62页,创作于2023年2月

实得u<-u0.01=-2.326,故P<0.01,

推断:否定H0:P2≤P1

,接受HA:P2>P1

,即新杀虫剂B的杀虫率极显著地高于原杀虫剂A。μ0值临界值-2.326a样本统计量拒绝域接受域抽样分布1-置信水平第23页,课件共62页,创作于2023年2月三、二项样本假设测验时的连续性矫正

二项总体的百分数的分布是间断性的二项分布。把它当作连续性的正态分布或t分布处理,结果会有些出入,一般容易发生第一类错误。因此,在假设测验时需进行连续性矫正。

(1)在n<30,而<5时这种矫正是必须的;经过连续性矫正的正态离差u值或t

值,分别以uC或tC

表示。

<30但>5时进行连续性矫正。

(2)如果样本大,试验结果符合表5.6条件,则可以不作矫正,用u测验。第24页,课件共62页,创作于2023年2月(一)单个样本百分数假设测验的连续性矫正单个样本百分数的连续性矫正公式为:它具有v=n-1。式中是的估计值(5·23)(5·24)第25页,课件共62页,创作于2023年2月[例5.11]用基因型纯合的糯玉米和非糯玉米杂交,按遗传学原理,预期F1植株上糯性花粉粒的p0=0.5,现在一视野中检视20粒花粉,得糯性花粉8粒,试问此结果和理论百分数p0=0.5是否相符?

假设系p=p0=0.5的一个随机样本,即H0:p=0.5

对HA:p≠0.5

显著水平取,用两尾测验。测验计算:np=nq=20×0.5=10第26页,课件共62页,创作于2023年2月

推断认为实得百分数0.4与理论百分数0.5没有显著差异。

查附表4,v

=

20-1=19,t0.05=2.093,现实得|t|<t0.05

,故P>0.05

=20×0.4=8粒(糯),

=20-8=12粒(非糯)

第27页,课件共62页,创作于2023年2月(二)两个样本百分数相比较的假设测验的连续性矫正

设两个样本百分数中,取较大值的具有y1

和n1

,取较小值的具有y2

和n2

,则经矫正的tC

公式为:(5·25)

它具有v=n1+n2-2

。其中为中的估计值。第28页,课件共62页,创作于2023年2月[例5.12]用新配方农药处理25头棉铃虫,结果死亡15头,存活10头;用乐果处理24头,结果死亡9头,存活15头。问两种处理的杀虫效果是否有显著差异?

本例不符合表5.6条件,故需要进行连续性矫正。

假设两种处理的杀虫效果没有差异,即H0:p1

=p2

;对HA

:p1≠p2

。显著水平,作两尾测验。测验计算:第29页,课件共62页,创作于2023年2月

查附表,v

=24+25-2=47≈45时,t0.05=2.014。现实得|tC|<t0.05

,故P>0.05。

推断:接受H0:p1

=p2

,否定HA

:p1≠p2

,即承认两种杀虫剂的杀虫效果没有显著差异。

本例如不作连续性矫正,t=(0.60-0.375)/0.143,大于1.29,增加了否定H0发生第一类错误的可能性。第30页,课件共62页,创作于2023年2月第四节参数的区间估计

所谓参数的区间估计,是指在一定的概率保证之下,估计出一个范围或区间以能够覆盖参数。这个区间称置信区间(confidenceinterval),区间的上、下限称为置信限(confidencelimit),区间的长度称为置信距。一般以L1和L2分别表示置信下限和上限。保证该区间能覆盖参数的概率以P=(1-

)表示,称为置信系数或置信度。第31页,课件共62页,创作于2023年2月置信区间和置信度均值的抽样分布大量置信区间区间从X-uX

toX+uX

区间有(1-)%可容纳。有

%不包括

第32页,课件共62页,创作于2023年2月原总体

y

2=75样本平均数总体Ӯ样本样本样本样本样本抽样分布总体统计推断图抽样分布与统计推断的关系

n=25抽样=300原总体Ӯ

=330kg第33页,课件共62页,创作于2023年2月为了一般化表示,通常把某一区间的概率用“1-”,两尾概率用表示,两尾概率的临界u值为u所以有一、总体平均数的置信限(一)在总体方差为已知时第34页,课件共62页,创作于2023年2月(一)在总体方差为已知时(二)在总体方差为未知时

的置信区间为:以上式中的为正态分布下置信度1-时的u临界值。并有(5·26A)(5·26B)上式中的为置信度P=(1-

)时t分布的t临界值。并有需由样本均方s2估计,于是置信区间为:(5·27A)(5·27B)第35页,课件共62页,创作于2023年2月[例5.13]某棉花株行圃36个单行的皮棉平均产量为kg,已知=0.3kg,求99%置信度下该株行圃单行皮棉产量的置信区间。

在置信度P=(1-

)=99%下,由附表3查得u0.01=2.58;并算得;故99%置信区间为

推断:估计该株行圃单行皮棉平均产量在4.0~4.2kg之间,此估计值的可靠度有99%。第36页,课件共62页,创作于2023年2月[例5.14]例5.1已算得某春小麦良种在8个小区的千粒重平均数,。试估计在置信度为95%时该品种的千粒重范围。

由附表4查得v=7时

t0.05=2.365,故代入(5·27A)有,即

推断:该品种总体千粒重在33.8~36.6g之间的置信度为95%。在表达时亦可写作形式,即该品种总体千粒重95%置信度的区间是35.2±(2.365×0.58)=35.2±1.4(g)

,即33.8~36.6g。第37页,课件共62页,创作于2023年2月二、两总体平均数差数()的置信限

在一定的置信度下,估计两总体平均数至少能差多少。估计方法依两总体方差是否已知或是否相等而有不同。(一)在两总体方差为已知或两总体方差虽未知但为大样本时

对的1-

置信区间应为:并且

上式中的为平均数差数标准误,为正态分布下置信度为1-

时的u临界值。第38页,课件共62页,创作于2023年2月[例5.15]测得高农选1号甘薯332株的单株平均产量,

15×50(g),5.3×50(g),白皮白心甘薯282株,

12×50(g),3.7×50(g)。试估计两品种单株平均产量的相差在95%置信度下的置信区间。由附表3查得置信度为0.95时,u0.05=1.96;并可算得:

因而,95%的置信限为:

L1=(750-600)-1.96×18=114.7(g)

L2=(750-600)+1.96×18=185.3(g)

故高农选1号甘薯的单株平均产量比白皮白心甘薯多114.7~185.7(g),这个估计有95%的把握。第39页,课件共62页,创作于2023年2月(二)在两总体方差为未知时,

有两种情况:1.假设两总体方差相等,即:的1-置信区间为:并有

以上的为平均数差数标准误,是置信度为1-

,自由度为v=n1+n2-2时t分布的临界值。第40页,课件共62页,创作于2023年2月[例5.16]试估计表5.2资料两种密度667m2产量差数在置信度为99%时的置信区间。在前面已算得:由附表4查得v=8

时,t0.01=3.355

故有L1=(428-440)-(3.355×11.136)=-

49.4,

L2=(428-440)+(3.355×11.136)=25.4(kg)。结果说明,667m2栽30万亩苗的产量可以比667m2栽35万苗的每亩少收49.4kg至每亩多收25.4kg,波动很大。所以这个例子是接受的.的。第41页,课件共62页,创作于2023年2月

当被接受时,意味着两总体平均数相等,即。因此,可用两样本平均数的加权平均数作为对的估计:或因而对的置信区间为:第42页,课件共62页,创作于2023年2月2.两总体方差不相等,即,这时由两样本的和作为和估计而算得的t,已不是v=v1+v2的t分布,而是近似于自由度为的t分布。

可得对的1-的置信区间为:故根据并有

为置信度1-

时自由度的t分布临界值其中第43页,课件共62页,创作于2023年2月[例5.17]试求例5.5资料东方红3号小麦的蛋白质含量与农大139号小麦蛋白质含量的相差的95%置信限。

在例5.5已得:由附表4查得故有L1=(14.3-11.7)-(2.201×0.435)=1.6(%),

L2=(14.3-11.7)+(2.201×0.435)=3.6(%)

因此东方红3号小麦的蛋白质含量可比农大139号高1.6~3.6%,这种估计的可靠度为95%。第44页,课件共62页,创作于2023年2月(三)成对数据总体差数的置信限由可得的1-置信区间:并有

为置信度为1-,v=n-1时t分布的临界t值。其中第45页,课件共62页,创作于2023年2月[例5.18]试求表5.4资料的99%置信限。在例5.6已算得:并由附表4查得v=6时

t0.01=3.707

于是有:L1=-8.3-(3.707×1.997)=-15.7(个),

L2=-8.3+(3.707×1.997)=-0.9(个)。

或写作

以上L1和L2皆为负值,表明A法处理病毒在番茄上产生的病痕数要比B法减小0.9~15.7个,此估计的置信度为99%。第46页,课件共62页,创作于2023年2月三、二项总体百分数p的置信限

二项总体百分数p的置信区间,可按二项分布或正态分布来估计。

(1)二项分布所得结果较为精确,可以根据样本容量n和某一属性的个体数f,在已经制好的统计表(附表9)上直接查得对总体的上、下限,甚为方便。

(2)但附表9只包括小部分n,在不敷应用时,可由正态分布来估计。由正态分布所得的结果只是一近似值,可在资料符合表5.6条件时应用;在置信度P=1-

下,对总体p置信区间的近似估计为:并有以上式中第47页,课件共62页,创作于2023年2月[例5.19]调查100株玉米,得到受玉米螟危害的为20株,即=20/100=0.2或=20。试计算95%置信度的玉米螟危害率置信区间。

由附表9在样本容量n=100的列和左边观察次数f=20株的交叉处查得的数为13和29,即真实次数在13~29范围内。如以表示,则的置信度为95%。

如按正态近似法计算,则故L1=0.2-(1.96×0.04)=0.1216,

L2=0.2+(1.96×0.04)=0.2784第48页,课件共62页,创作于2023年2月四、两个二项总体百分数差数(p1-p2)的置信限这是要确定某一属性个体的百分数在两个二项总体间的相差范围。这一估计只有在已经明确两个百分数间有显著差异时才有意义。若资料符合表5.6条件,该区间可按正态分布估计。在1-

的置信度下,p1-p2的置信区间为:并有其中第49页,课件共62页,创作于2023年2月[例5.20]例5.9已测知低洼地小麦的锈病率=93.92%(n1=378),高坡地小麦的锈病率=87.31%(n2=396),它们有显著差异。试按95%置信度估计两地锈病率相差的置信区间。

由附表3查得u0.05=1.96,而故有

L1=(0.9392-0.8731)-(1.96×0.02075)=0.0256,

L2=(0.9392-0.8731)+(1.96×0.02075)=0.1070,即低洼地的锈病率比高坡地高2.56~10.70%,此估计的置信度为95%。第50页,课件共62页,创作于2023年2月五、区间估计与假设测验

区间估计亦可用于假设测验。对参数所作假设若恰落在该范围内,则这个假设与参数就没有真实的不同,因而接受H0

;反之,如果对参数所作的假设落在置信区间之外,则说明假设与参数不同,所以应否定H0

,接受HA

。第51页,课件共62页,创作于2023年2月[例5.21]例5.1已算得新引入春小麦品种的千粒重,故其95%置信区间的两个置信限为:L1=35.2-(2.365×0.58)=33.8(g)L2=35.2+(2.365×0.58)=36.6(g)

曾经假设,此值落在上述置信区间内,所以不能认为新引入品种与当地原有良种的千粒重有显著差异,即接受。这和例5.1的结论完全相同。第52页,课件共62页,创作于2023年2月[例5.22]在例5.18已求得两种不同处理的病毒,接种在番茄上产生的病痕数的相差,在1-

置信度下的区间为

(个)。

如果假设,则该区间内并不包括0值,所以,两种处理方法是有显著差异的,显著水平是0.05。其结论与例5.6同。第53页,课件共62页,创作于2023年2月[例5.23]在例5.20已求得低洼地小麦锈病率与高坡地小麦锈病率的相差的95%置信区间为:

2.56%≤(p1-p2)≤10.7%。

若假设H0:p1=p2,则该假设在上述置信区间外,故在=0.05水平上否定H0

,接受HA:p1-p2≠0

。第54页,课件共62页,创作于2023年2月

置信区间不仅提供一定概率保证的总体参数范围,而且可以获得假设测验的信息。其间关系可总结为以下几点:(1)若在1-

的置信度下,两个置信限同为正号或同为负号,则否定无效假设,而接受备择假设。

(2)若在1-

置信度下,两个置信限为异号(一正一负),即其区间包括零值,则无效假设皆被接受。如例5.16。

(3)若两个置信限皆为正号,则有一个参数大于另一个参数的结论成立,如例5.15、5.17、5.20等。

(4)若两个置信限皆为负号,则有一个参数小于另一个参数的结论成立。如例5.18.第55页,课件共62页,创作于2023年2月一、概念解释统计推断假设检验(显著性检验)无效假设备择假设显著水平Ⅰ型错误Ⅱ型错误双侧检验(两尾测验)单侧检验(一尾测验)非配对设计(成组设计)两均数差异标准误配对设计自身配对同源配对配对差异均数标准误u检验t检验样本百分数标准误参数估计点估计区间估计置信区间置信度(置信概率)二、简答与计算题1、两尾测验、一尾测验各在什么条件下应用?二者有何关系?2、进行显著性检验应注意什么问题?如何理解显著性检验结论中的“差异不显著”、“差异显著”、“差异极显著”?3、配对试验设计与非配对试验设计有何区别?思考题第56页,课件共62页,创作于2023年2月4、某地杂交玉米在原种植规格下一般亩产为μ0。现改成一种新种植规格,并测得其8个小区的平均产量、标准差s。若要判断新种植规格与原种植规格下玉米产量是否有差异,应用哪种统计方法来分析?5、如下资料是不是成对资料?6、从两个柑桔品种中各取25个果实测Vc含量(用%表示),以比较两品种Vc含量的高低。对此资料应采用哪种方法来分析?花芽数(个)576986植株号123456枝长(cm)8111315149第57页,课件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论