第五章 统计推断_第1页
第五章 统计推断_第2页
第五章 统计推断_第3页
第五章 统计推断_第4页
第五章 统计推断_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章统计推断&5.4参数的区间估计&5.1统计假设测验概述&5.2平均数的假设测验&5.3百分数的假设测验

统计推断的意义和内容统计推断参数估计假设测验点估计区间估计统计推断的前提条件:

资料必须来自随机样本;

统计数的分布规律必须已知。统计推断是据统计数的分布和概率理论,由样本统计数推论总体参数的方法。一、数据结构二、统计假设测验的基本原理三、统计假设测验的基本步骤四、统计假设测验的几何意义五、两尾测验和一尾测验六、统计假设测验的两类错误&5.1统计假设测验概述

µ≠µ0?统计假设:在科学研究中,往往首先要提出一个有关某一总体参数的假设。这种假设称为统计假设。

µ0=300kg,σ=75kg原品种n=25,x=330kg-

µ新品系一、数据结构xi=μ0+εi

(i=1,2,…,n)从服从正态分布N(μ0=300,σ=75)的原品种总体中,随机抽取n个个体构成样本,则样本观察值可表示为xi=μ+εi(i=1,2,…,n)(4.2)而从新品系总体中随机抽取的样本观察值,则为新品系与原品种的产量差异为τ=μ-μ0(4.3)xi

=

μ0

+τ+

εi

(i=1,2,…,n)(4.4)将(4.3)代入(4.2)得二、统计假设测验的基本原理对一个样本的n个观察值xi求平均数上式说明,与μ0的表面差异(-μ0)是由真实差异(μ-

μ0)和试验误差εi构成。

因xi=

μ0

+τ+

εi(i=1,2,…,n)统计假设测验(statisticalhypothesistest):

是指据某种需要,对末知的或不完全清楚的总体提出一些假设(Hypothesis),由样本实际结果经过一定的概率测验,作出接受或否定假设的推论。小机率原理:

概率很小的事件,在一次试验中是不至于发生的。三、统计假设测验的基本步骤例5.1设某地区的单地小麦品种一般亩产300kg,多年种植结果获得标准差为75kg。现有某新品种n=25,平均数330kg,问新品种样本所属总体与当地品种这个总体是否差异显著。第一步统计假设H0:第二步计算统计量判定是否属小概率事件的概率值叫显著水平(significantlevel),一般以α表示。农业上常取0.05和0.01。凡计算出的概率p小于α的事件即为小概率事件。u=2>u0.05=1.96,即对应的概率p<0.05。表明30Kg差异属于试验误差的概率小于5%。根据小概率原理,应否定,即表面差异不全为试验误差,新品系与原品种之间存在真实差异。第三步统计推断

若│u│<

1.96,故p>5%

,接受假设H0,差异不显著。若2.58>│u│≥

1.96,故1%<p≤5%,拒绝假设H0,差异达显著。若│u│≥

2.58,故p≤1%,拒绝假设H0,差异达极显著。第四步依题意写结论

*上例u=2>1.96,新品种产量显著高于当地品种。统计上,当1%<p≤5%称所测差异显著,p≤1%称差异极显著,p>5%称差异不显著,所以,统计假设测验又叫差异显著性测验(differencesignificancetest)显著水平a的选择应根据试验要求和试验结论的重要性而定。H0:µ=µ0=300kg的接受区域为:四、统计假设测验的几何意义小麦品种例x-<µ0-1.96σx-()µ0+1.96σx-()<即270.6<<329.4--x≤(µ0-1.96σx-)σx-x≥(µ0+1.96)或-否定区域为:即<270.6或>329.4五、两尾测验和一尾测验统计假设测验中H0:µ=µ0具有两个否定区,HA:µ≠µ0,这类测验称两尾测验(two-tailedtest),在假设测验中所考虑的概率为左右两尾概率之和。象这种在假设测验中所考虑的概率只用一尾概率的测验称为一尾测验(one-tailedtest)(图5.2)。图5.3选用一尾测验还是两尾测验,应根据专业知识而定。x-当H0:µ≥µ0,HA:µ<µ0,则否定区在分布的左尾。当H0:µ≤µ0,HA:µ>µ0,则否定区在分布的右尾。x-六、统计假设测验的两类错误一、两类错误的概述第一类错误:H0本来是真,而作出了拒绝的判断所犯的错误称”弃真”错误或α错误。第二类错误:H0本来是不真,而作出了接受的判断所犯的错误称”取伪”错误或β错误。犯第一类错误的概率:以小麦品种为例,H0;=0=300,=0.05接受H0,即接受=0=300否定H0,实际上是否定=0=300图5.1由平均数的分布可知,当当现仍用小麦品种一例来说明β值的计算。如果H0:μ=μ0=300㎏是错误的,正确的是μ=315㎏,并设标准误σ=15,则两平均数的分布如图5.6。那么β值的计算方法为u1=270.6-31515=-2.96u2=329.4-31515=0.96查附表1,P(u<-2.96)=0.0015,P(u<0.96)=0.8315。故有β=P(u<0.96)-P(u<-2.96)=0.8315-0.0015=0.83或83%。如果提高显著水平,即α值取小些,则c1、c2线将向左和向右移动,因而β值会增大。如果假设新品种的μ=345㎏,离300㎏更远些(图4.7),则β=0.15=15%。二、降低两类错误的措施1、在样本容量n一定时,提高显著水平,可以减少犯第一类错误的概率,但同时增大了犯第二类错误的概率。

2、在n和显著水平相同的条件下,真正的总体平均数

和假设的平均数

0的相差越大,则犯第二类错误的概率越小。3、为了降低犯两类错误的概率,需采用一个较低的显著水平,如α=0.05。同时适当增加样本容量。如第一节小麦产量一例,如n从25增至225,则-σx=75/√225=5㎏由此计算的接受区间变小,为290.2㎏~309.8㎏。若μ=315㎏,则不能发现H0:µ=µ0为错误的概率β=0.1492=14.92%(图4.8)。4、如显著水平一定,则改进试验技术和增加样本容量可以有效的降低犯两类错误的概率。&5.2平均数的假设测验一、t分布用标准正态分布(u分布)计算所作假设的概率进行的假设测验叫u测验(u-test)_-u=µ0xσx-σ(σx-=√n)sσssx-=√n根据抽样分布有叫样本平均数的标准误,是σx-的估计值。sx-当n≥30N(0,1)。可用u测验测验H0:µ=µ0µ0xx-_s-服从t分布,df=n-1。当n<30µ0xx-_s-µ0xx-_s-t=t分布又叫学生氏t分布。其概率密度函数为f(t)=(df-1)2[]!√

df(1+dft2)(df-2)2[]!df+12()_(-∞<t<∞)因此,t分布的参数为df,其分布曲线为一组对称曲线,围绕μt=0向两侧递降(图5.3)。其累积概率函数为Fdf(t)=P(T<t)=∫t∞_f(T)dT于是左右两尾概率为2[1-Fdf(t)](图5.4)。例如,当df=3时,查这p360附表4,t0.05,3=3.182。这表明从3.182~∞的概率和从-3.182~-∞的概率各为0.025。t0.01,3=5.841,

df不变时:P越大,t越小,反之…两尾测验,H0:μ=μ0t≥tα(df),否定H0,反之接受H0。一尾测验,H0:μ≤μ0t≥t2α(df),否定H0,反之接受H0。若H0:μ≥μ0t≤-t2α(df),否定H0,反之接受H0。这种用t分布计算所作假设的概率,进行的假设测验叫t测验(t-test)(图5.5)二、样本平均数与总体平均数差异的假设测验1.σ已知,或σ未知,但为大样本(n>30)时用u测验。2.当σ未知且为小样本时,用t测验。[例5.2]某地杂交玉米在原种植规格下一般亩产350㎏,现为了间套作,需改成一种新种植规格,新规格下8个小区产量分别为360、340、345、352、370、361、358、354(㎏/亩)。问新规格与原规格下玉米产量差异是否显著?第一步H0:µ=µ0=350㎏

,HA:µ≠µ0。第三步查附表4,t=1.491<t0.05,7=2.365,p>5%,故接受H0,差异不显著。第四步结论:认为改变种植规格后的玉米产量与原种植规格的玉米产量无显著差异。三、两个样本平均数差异的假设测验测验两个处理的效果是否一样。(一)成组数据的平均数比较将试验单位完全随机分为两组,再随机各实施一处理,这样得到的数据称为成组数据,以组的平均数作为比较的标准。1.已知时,用u测验2.末知且时,用u测验sx1-x2--=√s12n1s22n2+--x2)(x1_st′=x1-x2--由此计算的标准化离差不服从t分布。Cochran和Con提出近似t测验法,用t’与t’α相比较,t’>t’α否定H0。t′α=s2x2-tα(df2)tαs2x1-(df1)+x2-s2x1-s2+但n1=n2=n,t’α=

tα(df)近似df=n-1的t分布。(5.19)不要求![例5.2]据以往资料,已知某小麦品种每平方米产量的平均方差为0.4(kg)2。今在该品种的一块地上用A、B两法取样,A法取12个样点,得每平方米产量为1.2(kg);B法取8个样点,得1.4(kg)。试比较A、B两法的每平方米产量是否有显著差异?因为|u|<u0.05=1.96,故P>0.05,推断:接受H0:。结论:A、B两种取样方法所得的每平方米产量没有显著差异。甲生产线(x2)乙生产线(x1)74715654717862576269736361 7262707874776554586362596278536770655354605669584951536662585866715356607065585669687052555557甲、乙两条生产线日产量记录例5.3:某食品厂在甲、乙两条生产线上各测了30个日产量如下表所示。试检验两条生产线的平均日产量有无显著差异。甲生产线(x2)乙生产线(x1)74715654717862576269736361 7262707874776554586362596278536770655354605669584951536662585866715356607065585669687052555557本例两个样本均为大样本,符合检验条件。第一步统计假设H0:第二步计算甲、乙两条生产线日产量记录|u|=3.28>u0.01=2.58,故说明甲生产线日均产量极显著高于乙生产线日均产量。[例5.4]有一水稻施肥试验,处理为甲乙两种施肥方法,完全随机设计,试验结果见表4.1。试测验两种施肥方法水稻产量有无显著差异。表5.1两种施肥方法水稻小区产量(㎏)x1(甲)x2(乙)8.29.68.78.99.48.510.711.29.210.911.110.8H0:µ1=µ2

,HA:µ1≠µ2,α=0.01-x1=8.88(㎏)-x2=10.65(㎏)df=df1+df2=10查附表3,t0.01(10)=3.169,t=4.77>t0.01(10),故否定H0,结论:甲乙两种施肥方法的水稻产量有极显著的差异。[例5.5]研究矮壮素使玉米矮化的效果,抽穗期测定喷施小区玉米8株、对照区9株,株高结果如表4.2。试作测验。表5.3喷矮壮素与否的玉米株高(㎝)x1(喷矮壮素)x2(对照)160160200160200170150210170270180250270290270230170Σ=1410Σ=2100H0:µ1≥µ2

,HA:µ1<µ2,α=0.05-x1=176.3(㎝)-x2=233.3(㎝)SS1=3787.5SS2=18400se2=18400+3787.57+8=1479.17=18.688(㎝)sx1-x2--=√1479.17(+8191)df=df1+df2=7+8=15查附表3,t0.1(15)=1.753,t=3.04>t0.1(15),故否定H0,即认为玉米喷矮壮素后,株高显著矮于对照。176.3-233.318.688=-3.04=t[例5.6]调查玉米三交种5块地和单交种7块地的产量、平均数、均方见表5.4。试测验三交种和单交种产量有无显著差异。表5.4玉米三交种、单交种产量(㎏/亩)产量ni

三交种31028527036030553061167.5233.50单交种330310315325320318322732043.06.14s2xi-s2iH0:µ1=µ2,HA:µ1≠µ2,α=0.05S2x1-S12n11167.55===233.50S2x2-S22n243.67===6.14sx1-x2--=√s12n1s22n2+√233.5+6.14==15.48据遗传学理论或F测验σ12≠σ22,用t′测验。306-32015.48=-0.904=t′查附表3,t0.05(4)=2.776,t0.05(6)=2.447233.5×2.776+6.14×2.447233.5+6.14=2.768=t′0.05现实得t=0.904<tα′故p>0.05。所以不能否定H0,认为玉米三交种和单交种的产量无显著差异。(见4.19式)(二)成对数据的比较

当试验单元间差异较大,用完全随机试验将对试验指标有明显影响。可把条件一致的两个供试单元配成一对,并设多个配对,再对每一配对两个单元随机独立实施一处理,这就是配对试验,实为处理数为2的随机区组试验,这样得到的数据称为成对数据。配对试验的观察值模型为(x11,x21),

(

x12,

x22),……,(

x1n,

x2n)由于各配对间供试单元差异较大,可由di=x1i-x2i消除不同配对间试验单元的差异.因此可通过各配对差数的平均数来推断μd=0或某一常数?-μd)(d_st=d-sd-=√nsd遵从df=n-1的t分布。sd-称为差数标准误-sd=Σ(di-d)2n-1√√Σdi2–(Σdi)2/nn-1=[例5.7]为测定A、B两种病毒对烟草的致病力,取8株烟草,每一株半叶接种A,另半叶接种B,以叶面出现枯斑数的多少作为致病力强弱的指标,得结果于表4.4。试测验两种病毒致病力的差异显著性。表4.4两病毒在烟叶上产生的枯斑数株号12345678∑Ax1i9173118782010Bx2i1011181467175差数di-16134113532H0:µd=0,HA:µd≠0d-328==4.00Sd=4.31查附表3,t0.05(7)=2.365,t=2.632>t0.05(7),故否定H0,接受HA,即A、B两种病毒的致病力有显著差异。[例5.8]表4.5为1990年川单9号和中单2号在四川省不同生态区的同田对比试验结果。试测验川单9号是否比中单2号增产15%以上。∑125721.44728.4993.0平均476.78394.0382.75沐川443.0342.0101.0资中404.0292.3111.7::::名山478.8434.244.6宜宾388.0295.093.0试验地点亩产量差数川单9号(x1)中单2号(x2)di=x1-x2

表4.5川单9号与中单2号同田对比试验结果(㎏/亩)H0:µd≤394.03×15%=59.1(㎏/亩),HA:µd>59.1α=0.05Sd=1012+…+932-9932/1212-1√=39.1599(㎏/亩)sd=-39.1599√12=11.3045(㎏/亩)-μd)(d_st=d-82.75-59.111.3045==2.632查附表3,t0.05(11)(一尾)=t0.10(11)(二尾)=1.796。因为t>t0.05,即P<0.05,所以否定H0,接受HA,认为川单9号确比中单2号增产15%以上。

成对数据的比较是假定各个配对的差数的分布为正态分布,具有N(0,

2);而每一配对的两个供试单位是彼此相关的。

成组数据的比较是假定两个样本皆来自于各自的正态总体,两个样本的各个供试单位都是彼此独立的,两个样本平均数的差数服从平均数为(

1-2),方差为的正态分布。&5.3二项资料百分数的假设测验二项分布属间断性变数资料,但是,当n较大,p不过小,而np和nq又不小于5时,二项分布接近正态分布,因而可将百分数资料作正态分布处理,从而作出近似的测验。关于试验结果为两种以上属性的百分数或次数资料的假设测验留待下章讨论。

np,nq小于5时,通过二项展开式计算概率;

np,nq大于5,小于30时,可以进行u测验,但要作连续性矫正;

np,nq大于30时,可进行u测验,无需作连续矫正。即可测验H0:P=P0一、单个样本百分数(成数)的假设测验这是测验某一样本百分数所属总体百分数P与某一理论值或期望值P0的差异显著性。由于样本百分数的标准误:故:若满足正态接近法的条件,则有服从N~(0,1),故可对H0:P=P0作u测验。无需连续矫正需要连续矫正[例5.7]以紫花和白花的大豆品种杂交,在289个F2植株中,紫花208株,白花81株,问这一结果是否表明大豆花色受一对等位基因控制,即F2代紫花植株与白花植株的分离是否为3∶1?H0:P=P0=0.75,HA:P≠P0α=0.05,u0.05=1.96因∣u∣=1.19<u0.05,故P>0.05所以,不能否定H0

认为大豆花色遗传符合一对等位基因的遗传规律。

二、两个样本百分数差异的假设测验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论