简单试验的统计分析_第1页
简单试验的统计分析_第2页
简单试验的统计分析_第3页
简单试验的统计分析_第4页
简单试验的统计分析_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、简单试验的统计分析第1页,共71页,2022年,5月20日,6点1分,星期二讲授内容和学时讲授内容 学时第一节 参数假设测验 2第二节 参数的区间估计 2第三节 非参数假设测验 4第2页,共71页,2022年,5月20日,6点1分,星期二引 言 一个处理和两个处理的试验称为简单试验,它通常采用按设置重复和随机化两个原则进行的完全随机设计,两个处理试验的设计有时也采用更精细的配对设计。统计分析的目的,是从样本推断总体的分布,其过程称为推断统计。推断统计的内容大致分为两类,一是有关总体的假设检验问题,二是有关总体的参数估计问题。第3页,共71页,2022年,5月20日,6点1分,星期二第一节 参数

2、假设测验一、统计假设测验的基本原理 二、平均数的假设测验三、方差的假设测验四、假设测验的两类错误第4页,共71页,2022年,5月20日,6点1分,星期二一、统计假设测验的基本原理(一)提出统计假设 1. 统计假设的概念 2. 假设的种类 3. 提出无效假设的原因(二)统计假设测验 1. 统计假设测验的概念 2. 方法(三)作出推断 1. 推断的原理 2. 推断的方法第5页,共71页,2022年,5月20日,6点1分,星期二(一)提出统计假设1. 什么叫统计假设:对总体的某些参数所作的假设。实例:假设某地大面积种植玉米品种单产为每公顷7500,标准差为1125。即总体平均数0=7500,=11

3、25。现从外地引入一新品种,通过25个小区试验,平均产量为每公顷7950,即 。 问新引入品种的产量与当地大面积种植品种有无显著差异?即新引入品种产量的总体平均数与大面积种植品种总体产量的平均数0是否不等。仅从抽样结果 ,还不能得出 的结论。这是因为我们研究的仅是从总体中抽出的一部分个体所组成的样本,而不是总体本身,因而不可避免地存在着试验的抽样误差。由于试验误差的随机性,若重复试验, 的取值很可能不再是7950。怎样由样本的试验结果给总体作一结论呢?这就是统计假设检验要解决的问题。 第6页,共71页,2022年,5月20日,6点1分,星期二2. 假设的种类无效假设 假设总体参数与某一指定值相

4、等或假设两个总体参数相等。即在实例中,H0:0 7500 kg。备择假设或对应假设 假设总体参数与某一指定值不相等或假设两个总体参数不相等。即在实例中,HA:0 7500 kg。两者关系 备择假设的意思是说,如果否定了无效假设则当然接受备择假设;如果接受了无效假设,当然也就否定了备择假设。在无效假设和备择假设中,无效假设是被直接测验的假设。 第7页,共71页,2022年,5月20日,6点1分,星期二3. 为什么要提出无效假设 提出无效假设的目的在于:可以从假设的总体里推断其某一统计数的随机抽样分布,从而可以计算出某一样本结果出现的概率,这样就可以研究样本和总体的关系,作为假设检验的理论依据。因

5、此,提出的无效假设必须是有意义的,即在假设的前提下可以确定试验结果的概率。第8页,共71页,2022年,5月20日,6点1分,星期二(二)统计假设测验1. 什么叫统计假设测验 试验样本平均值与总体平均值差异的构成有三种可能性:(1)既有真实差异又有试验误差;(2) 全为真实差异;(3) 全为试验误差。在农业及生物试验中,非处理因素对试验指标(如玉米产量)的干扰总是存在的,因而第二种可能性实际上不存在。第一种可能性既有真实差异又有试验误差,不便于讨论。这样统计推断只能由第三种可能性出发,先假设真实差异不存在,试验表面差异全为试验误差。然后,计算该假设(可视为一随机事件)出现的概率,根据概率的大小

6、来判断假设是否正确,即真实差异是否存在。这一过程为对试验样本所属总体所作假设是否正确的统计证明,一般称统计假设检验或假设测验。因此,统计假设检验没有复杂的统计运算,更多的是逻辑推断。 第9页,共71页,2022年,5月20日,6点1分,星期二2. 方法假设测验方法是先按研究目的提出一个假设;然后通过试验或调查,取得样本资料;最后检查这些资料结果,看看是否和假设所提出的有关总体参数的结果相符合。如果两者之间甚为符合,则接受这个假设H0;如果不符合,则否定它,即推断这个假设是错误的,因而接受其对应假设HA。第10页,共71页,2022年,5月20日,6点1分,星期二(三)作出推断1. 推断的原理当

7、一事件的概率很小时,可认为该事件在一次试验中几乎是不可能事件。这就是“小概率事件实际不可能性”原理。我们将用此原理决定接受或否定假设H0。当表面差异全由随机误差造成的概率小于0.05或0.01时,我们就可认为它不可能全属于抽样误差,从而否定无效假设H0 ,接受备择假设HA 。用来判断是否属于小概率事件的概率值叫显著水平。一般以表示。在农业试验中,常取0.05或0.01,记为0.05或0.01。 第11页,共71页,2022年,5月20日,6点1分,星期二(三)作出推断2. 推断的方法统计假设检验的基本步骤:(1) 对样本所属总体提出统计假设,包括无效假设H0和备择假设HA;(2) 确定显著水平

8、;(3) 测验计算,即在无效假设H0正确的假定下,依据统计数的抽样分布,计算因随机抽样而获得实际差数的概率;(4) 统计推断,即将确定的值与算得的概率相比较,依据“小概率事件实际不可能性”原理作出接受或否定无效假设的推断。第12页,共71页,2022年,5月20日,6点1分,星期二二、平均数的假设测验(一)单个样本平均数的假设测验(二)两个样本平均数相比较的假设测验 (三)百分数资料的假设测验第13页,共71页,2022年,5月20日,6点1分,星期二(一)单个样本平均数的假设测验1. 来自2已知总体的样本平均数的测验 讲双尾测验例子;讲显著水平;讲查u表2. 来自2未知总体的大样本平均数的测

9、验 讲单尾测验例子;比较单、双尾测验3. 来自2未知总体的小样本平均数的测验(1) t分布 特点:4条 t分布的概率(2)t测验:比较t测验与u测验第14页,共71页,2022年,5月20日,6点1分,星期二1. 来自2已知总体的样本平均数的测验实例:某小麦良种的千粒重服从N(0,2),0=33.5 g, 2 =1.6 g。现从外地引入一高产品种,在8个小区种植,得千粒重(g):35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6。问新引入品种的千粒重与当地品种有无显著差异(=0.05)?第15页,共71页,2022年,5月20日,6点1分,星期二实例分析:双尾测验、

10、显著水平、查u表 假设: , 显著水平: 检验计算: =推断:查u的双尾分位数表得: 。由于 ,P0.01,故否定H0而接受HA。其意义为:在显著水平 之下,有极显著的差异(用“*”表示)。第16页,共71页,2022年,5月20日,6点1分,星期二u双尾测验图示(上述例题中=0.01, =33.5 g , 2 =1.6 g , n=8 , )第17页,共71页,2022年,5月20日,6点1分,星期二2. 来自2未知总体的大样本平均数的测验大样本:n30在这种情况下,第18页,共71页,2022年,5月20日,6点1分,星期二单尾与双尾测验比较1两尾尾测验:否定区域为正态分布或t分布左右两个

11、尾部的测验称为两尾测验。2一尾测验:否定区域仅为正态分布或t分布的一尾(左边一尾或右边一尾)的测验称为一尾测验。若否定区域在左边一尾称为左尾测验,在右边一尾称为右尾测验。3两尾测验与一尾测验在测验中的异同:相同点: (1)两种测验的测验步骤相同。 (2)在单个样本平均数、两个样本平均数相比较的假设测验中都可应用。 (3)都可应用u测验或t测验。不同点: (1)假设的形式略有不同。 两尾:H0:0;HA:0 H0:1=2;HA:12 一尾:左尾:H0:0;HA:0 H0:12;HA:12 右尾:H0:0;HA:0 H0:12;HA:12 (2)查u表或t表时值有差异:两尾测验可直接用显著水平查两

12、尾u值表示或t值表;一尾测验则需用2查两尾u值表或t值表。 第19页,共71页,2022年,5月20日,6点1分,星期二u双尾测验(上)与单尾测验(下)图示比较第20页,共71页,2022年,5月20日,6点1分,星期二3. 来自2未知总体的小样本平均数的测验 t分布 t分布的密度函数曲线关于对称,其形状与自由度n有关。密度曲线与t轴间的面积为1 。t值落入区间(-t,t)外的概率为,即 只要知道t分布的自由度n和就可查到,这样的表称为t分布的双侧分位数表,附在书后备用。 第21页,共71页,2022年,5月20日,6点1分,星期二(2) u测验与t测验比较应用条件u测验应用的条件(1)总体方

13、差2已知;(2)总体方差2未知,但样本容量n30的测验。t测验应用 总体方差未知且n30的小样本测验。计算公式和查表u测验计算u值,查u表。t测验计算t值,查t表。第22页,共71页,2022年,5月20日,6点1分,星期二(二)两个样本平均数相比较的假设测验概述1. 成组数据的平均数比较(1) 在两个样本的总体方差已知时,采用u测验(2) 两个样本的总体方差未知,但可假设1222,而两个样本又为小样本时,用t测验:讲求合并均方(3) 两个样本的总体方差未知,且1222,而两个样本又为小样本时,用t测验;矫正。2. 成对数据的比较第23页,共71页,2022年,5月20日,6点1分,星期二(二

14、)两个样本平均数相比较的假设测验含义:这是由两个样本平均数的相差,以测验这两个样本所属的总体平均数有无显著差异。分类:测验方法因试验设计的不同,而可分成组数据的平均数比较和成对数据的比较两种。成组数据的平均数的比较:如果两个处理为完全随机设计,而处理间(组间)的各供试单位彼此独立,则不论两处理的样本容量是否相同,所得数据皆称为成组数据,以组(处理)平均数作为相互比较的标准。 成对数据的比较:若试验设计是将性质相同的两个供试单位配成一对,并设有多个配对;然后每一配对的两个供试单位分别随机地给予不同处理,则所得观察值为成对数据。 第24页,共71页,2022年,5月20日,6点1分,星期二1. 成

15、组数据的平均数比较 成组数据的比较又依两个样本所属的总体方差是否已知和样本大小而采用不同的测验方法。 (1) 在两个样本的总体方差已知时,采用u测验(2) 两个样本的总体方差未知,但可假设1222,而两个样本又为小样本时,用t测验。(3) 两个样本的总体方差未知,且1222,而两个样本又为小样本时,用t测验。第25页,共71页,2022年,5月20日,6点1分,星期二2. 成对数据的比较 采用配对试验设计法,其实质是把两个处理同一重复内的两个试验单元的差异减少到最低限度,使两个处理间的效应差异不为试验单元间的差异所掩盖和混淆如田间试验中将两个处理的每一次重复的两个试验小区排在一起,因为相邻小区

16、的条件较为一致。 第26页,共71页,2022年,5月20日,6点1分,星期二2. 成对数据的比较实例:为测定甲、乙两种病毒对烟草的致病力。取8株烟草,每一株皆半叶随机接种甲病毒,另半叶接种乙病毒,以叶面出现枯斑数多少作为致病力强弱的指标,结果见下表。试检验两种病毒致病力的差异显著性(=0.05)。株号123456781(甲病毒)91731187820102(乙病毒)1011181467175-161341135不同病毒对烟草致病力的试验结果 第27页,共71页,2022年,5月20日,6点1分,星期二实例分析假设: , 显著水平:测验计算: 。 推断:查t表得 ,故可直接推断甲病毒的致病力比

17、乙病毒强(贯彻了双尾假设H0被否定后单尾假设二者必取其一的原则)。第28页,共71页,2022年,5月20日,6点1分,星期二(三)百分数资料的假设测验引言1. 单个样本百分数的假设测验2. 两个样本百分数的假设测验3. 二项样本假设测验时的连续性矫正(1) 原因(2) 矫正方法 单个样本百分数的连续性矫正 两个样本百分数的连续性矫正第29页,共71页,2022年,5月20日,6点1分,星期二(三)百分数资料的假设测验单个处理的随机化试验结果有时用百分率表示,如结实率、发芽率、杀虫率、病株率,以及杂交后代分离成不同类型的百分率等。这些资料属间断性的计数资料,应按二项分布分析。由于当np或(q

18、= 1p)均大于5时,二项分布趋近于正态分布,因此,当np或nq均大于30时,可直接按正态分布处理;否则需进行连续性校正后,再按正态分布对待。第30页,共71页,2022年,5月20日,6点1分,星期二(三)百分数资料的假设测验1. 单个样本百分数的假设测验含义:这是测验某一样本百分数与某一理论值或期望值的差异显著性。2. 两个样本百分数的假设测验含义:这是测验两个样本百分数的差异显著性,一般假设两个样本的总体方差是相等的。第31页,共71页,2022年,5月20日,6点1分,星期二3. 二项样本假设测验时的连续性矫正(1)原因: 二项总体的百分数是由某一属性的个体数计算来的,在性质上属于间断

19、性变异,其分布是间断性的二项分布。因而把它当作连续性的正态分布或t分布处理,结果会有出入。(2)方法:补救的方法是在测验时进行连续性矫正。单个样本百分数的假设测验两个样本百分数的假设测验第32页,共71页,2022年,5月20日,6点1分,星期二三、方差的假设测验(一)单个方差的假设测验(二)两个方差相比较的假设测验第33页,共71页,2022年,5月20日,6点1分,星期二(一)单个方差的假设测验1. 卡平方分布(1)卡方值 (2)卡平方分布(3)卡方分布曲线的特征(4)卡方值表2. 卡平方的测验方法 测验步骤第34页,共71页,2022年,5月20日,6点1分,星期二1. 卡平方分布卡方值

20、次数资料的统计分析方法可用卡平方测验法。2值的计算方式为:2=(O-E)2/E ,式中的O为观察次数,E为理论次数。当2值的下限为零,表示观察次数与理论次数完全符合;上限为+,表示观察次数和理论次数的差异增大时,2值也增大。第35页,共71页,2022年,5月20日,6点1分,星期二卡平方分布第36页,共71页,2022年,5月20日,6点1分,星期二2. 卡平方的测验方法(1) 测验步骤设立无效假设确定显著水平=0.05或0.01在无效假设为正确的假设下,计算超过观察2值的概率以所得概率的大小,接受或否定无效假设第37页,共71页,2022年,5月20日,6点1分,星期二(二)两个方差相比较

21、的假设测验1. F分布(1)F值 (2)F分布(3)F分布的特征 5条(4)F值表2. F测验(1)基本条件(2)测验步骤第38页,共71页,2022年,5月20日,6点1分,星期二1. F分布第39页,共71页,2022年,5月20日,6点1分,星期二2. F测验F分布基本条件变数x遵循正态分布两样本方差彼此独立测验步骤与t或u测验一样,有四个步骤第40页,共71页,2022年,5月20日,6点1分,星期二四、假设测验的两类错误()为什么会发生错误?(二)错误的类型 1. 第一类错误 2. 第二类错误(三)犯错误的概率 1. 犯第一类错误的概率 2. 犯第二类错误的概率(四)减小犯错误的途径

22、 4条第41页,共71页,2022年,5月20日,6点1分,星期二()为什么会发生错误?由试验的一个样本点决断H0的成立与否,这是由结果推断原因的做法,属归纳推理。归纳推理的结果使我们可能犯错误。 由于随机误差的作用,所得到的任何一次试验结果都不是一个必然事件,只根据一次试验结果所作的推断,可以看成是以一定的可靠程度而作出的结论,难免会带有一定的错误。第42页,共71页,2022年,5月20日,6点1分,星期二(二/三)错误的类型和犯错误的概率第一类错误是:H0正确,而样本点碰巧落入H0的否定域而接受HA,这种错误称为弃真错误,弃真错误的概率为。第二类错误是: H0不真,而样本点碰巧落入H0的

23、接受域而接受了H0 ,这种错误称为纳伪错误。纳伪错误的概率为。的大小与H0不真的程度及H0接受域的长短有关。 H0不真的程度越大、1-越大( H0接受域越长),则越大。 第43页,共71页,2022年,5月20日,6点1分,星期二(四)减小犯错误的途径 在样本容量n固定的条件下,提高显著水平(取较小的值),则将增大犯第二类错误的概率值。 在n和显著水平相同的条件下,真总体平均数和假设平均数0的相差(以标准误为单位)愈大,则犯第二类错误的概率值愈小。 为了同时降低犯两类错误的概率,需采用一个较低的显著水平,如=0.05;同时适当增加样本容量n,或适当减小总体方差2,或两者兼而有之。 若显著水平已

24、固定下来,则增加样本容量和改进试验技术可以有效地降低犯第二类错误的概率。第44页,共71页,2022年,5月20日,6点1分,星期二第二节 参数的区间估计、基本概念二、区间估计的特点三、区间估计的方法四、区间估计与假设测验 第45页,共71页,2022年,5月20日,6点1分,星期二、基本概念参数的点估计:以样本的统计数直接估计总体的相应参数。参数的区间估计:在一定的概率保证之下,估计出参数可能在内的一个范围或区限。这个区间称置信区间或置信距,区间的上、下限称为置信限。保证参数在该区间内的概率以P=(1-)表示,称为置信系数或置信度。第46页,共71页,2022年,5月20日,6点1分,星期二

25、二、区间估计的特点置信度1-通常取接近1的值,在实际应用中常取95%和99%,体现了置信水平的中、高两个档次。为什么这样取,这是由于存在着估计精度与置信度的此长彼消的矛盾。区间的平均长度越短,精度越高,置信度越小;反之精度越低,置信度越大。统计学的原则是在可靠度优先的前提下,寻找尽可能短的区间估计。第47页,共71页,2022年,5月20日,6点1分,星期二三、区间估计的方法(一)总体平均数的置信区间估计(二)总体方差的置信区间估计第48页,共71页,2022年,5月20日,6点1分,星期二(一)总体平均数的置信区间估计1. 总体平均数的置信限(详讲)2. 两个总体平均数差数的置信限3. 二项

26、总体百分数的置信限4. 两个二项总体百分数差数的置信限第49页,共71页,2022年,5月20日,6点1分,星期二1. 总体平均数的置信限当2已知时,的置信区间和置信上、下限当2未知且时, 的置信区间和置信上、下限第50页,共71页,2022年,5月20日,6点1分,星期二2. 两个总体平均数差数的置信限当两个方差已知,其置信区间和置信上、下限当未知且不相等,样本容量大于30时,其置信区间和置信上、下限当未知相等且容量小于30时,其置信区间和置信上、下限第51页,共71页,2022年,5月20日,6点1分,星期二3. 二项总体百分数的置信限上限下限第52页,共71页,2022年,5月20日,6

27、点1分,星期二4. 两个二项总体百分数差数的置信限上限下限第53页,共71页,2022年,5月20日,6点1分,星期二(二)总体方差的置信区间估计1. 单个方差的区间估计2. 两个方差比的区间估计第54页,共71页,2022年,5月20日,6点1分,星期二1. 单个方差的区间估计总体方差的区间估计 当已知时,方差置信区间和置信上、下限当未知时,方差置信区间和置信上、下限第55页,共71页,2022年,5月20日,6点1分,星期二2. 两个方差比的区间估计第56页,共71页,2022年,5月20日,6点1分,星期二四、区间估计与假设测验 若在1-的置信度下,两个置信限同为正号或同为负号,在水平上

28、否定H0而接受HA。若在1-的置信度下,两个置信限同为异号或一正一负,在水平上接受H0。若两个置信限同为正号,则有12,p1p2。若两个置信限同为负号,则有12,p1p2。第57页,共71页,2022年,5月20日,6点1分,星期二第三节 非参数假设测验一、分布的适合性测验二、适合性测验(一)k2的适合性测验 (二)k3的适合性测验 三、 独立性测验(一)22相依表的独立性测验(二)2c相依表的独立性测验(三)rc相依表的独立性测验四、卡方的可加性和合并比较第58页,共71页,2022年,5月20日,6点1分,星期二一、分布的适合性测验在分布的检验问题中,我们并不能预知变量X的分布,需要根据样

29、本作出随机变量X的分布函数是否为已知函数F0(x)的判断,因此分布的检验问题是非参数检验问题。分布的检验假设为:用什么统计量来度量经验分布函数与假设分布函数的符合程度呢?一般采用皮尔逊X2统计量检验方法。第59页,共71页,2022年,5月20日,6点1分,星期二实例分析实例:调查玉米受玉米螟为害情况,抽取100株,受害株22。试检验H0:每次抽一株得到受害株的概率。分析:按题意是要检验总体X是否服从的(0,1)分布。由抽样结果知,100株中有22株受害和78株未受害在H0之下,100株中应有20株受害和80株未受害,则 由自由度 ,查附表得 ,故应接受H0 。第60页,共71页,2022年,

30、5月20日,6点1分,星期二二、适合性测验 (一)k2的适合性测验 适合性测验含义:比较实验数据与理论假设是否符合的测验。说明:当自由度为1时,必须进行连续性矫正,矫正方法是用观察次数O与理论次数E的差数的绝对值减去0.5即可;当自由度大于或等于2时,不需要矫正。实例:大豆紫色与白花花色一对等位基因的遗传研究,在F2代获得紫花和白花分别208和81株。问这一资料的实际观察数据是否符合3:1的理论数值( =0.05 )。分析:第一步, H0:观察次数与理论次数相符合,HA:不符合;第二步,=0.05第三步, 计算2= ( O-E-0.5)2/E=1.256 2=3.84第四步, 说明观察次数与理

31、论次数符合。第61页,共71页,2022年,5月20日,6点1分,星期二(二)k3的适合性测验对于划分为两组以上(k3)的资料,自由度大于或等于2时,计算2值不需要矫正。实例:孟德尔在其著名的豌豆杂交试验中,用结黄色圆形种子与结绿色皱形种子的纯种豌豆作为亲本进行杂交将F1代进行自交,得到F2代共556株豌豆,发现其中有四种类型植株:结黄色圆形种子的315株,结黄色皱形种子的101株,结绿色圆形种子的108株,结绿色皱形种子的32株试问这些植株是否符合孟德尔所提出的的理论比例(=0.05)?第62页,共71页,2022年,5月20日,6点1分,星期二实例解答第一步 : H0:观察次数与理论次数相符合,HA:不符合第二步: =0.05第三步 计算2=(O-E)2/E 第四步:查附表得 ,故在0.05水平上应接受H0,即试验结果是符合的理论比例的。第63页,共71页,2022年,5月20日,6点1分,星期二三、 独立性测验 皮尔逊检验是计数资料差异显著性检验的很有力的工具。上面讨论的符合性检验就是常对计数资料进行的。但有时科学假设的“理论值”并不预先确定,而需要从实际所取得的资料中去推算得到。在这种情况下进行的皮尔逊检验就实质而言,常常是为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论