版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计推断原理第一页,共五十八页,编辑于2023年,星期三本章主要介绍统计推断的意义、原理,统计推断与抽样分布的关系,统计推断的思路和一般步骤,两尾检验和一尾检验,统计推断可能犯的两类错误及防止方法第二页,共五十八页,编辑于2023年,星期三生物统计学的一个重要任务是要知道所研究总体的特征值(参数)但是总体特征值一般难以知道:一方面是由于总体很大,即N
大,有时是无限的(无限总体,N∞),因此不可能逐一调查清楚另一方面,有时所要研究的总体目前并不存在,或者只能说是虚拟存在(总体是虚的),无法进行调查作某一试验时更是如此
第三页,共五十八页,编辑于2023年,星期三但不管是何种类型的总体,我们总是可以通过随机抽样(抽样调查)的方法获得该总体的随机样本通过统计推断来定性或定量地分析所研究总体的特征值统计推断就是用样本的特征值(统计量)在一定的概率保证下推断相应总体的特征值(参数)即:随机抽样随机样本随机样本特征值总体特征值(统计量)(参数)
计算估计第四页,共五十八页,编辑于2023年,星期三第一节统计推断的意义和内容第五页,共五十八页,编辑于2023年,星期三所谓统计推断(statisticalinference),就是根据统计量的分布和概率理论,由样本统计量来推断总体的参数实际工作中,一次试验或一次调查所获得的数据资料,通常是一个样本的结果,而我们真正需要知道的是抽取样本的总体特征第六页,共五十八页,编辑于2023年,星期三即:统计分析的结论是针对总体参数而言的,因此,统计推断是科研工作中一个十分重要的工具,对试验设计也有很大的指导意义统计推断包括:统计假设检验(hypothesistest)参数估计(parametricestimation)这样两部分内容第七页,共五十八页,编辑于2023年,星期三统计假设检验又称显著性检验(significancetest)其原理和过程是:对未知的或不完全知道的总体参数提出一些假设(hypothesis
这些假设通常构成完全事件系),然后在某一基本假设的基础上,计算样本的统计量,并分析这一统计量的分布规律最后根据这一统计量作出在一定概率意义下应当接受何种假设的结论第八页,共五十八页,编辑于2023年,星期三这里有一个定量转化为定性的过程:经计算所得到的统计量一般是呈连续分布的(定量),但最后的检验结论只有两种:接受何种假设(定性)即:存在一个临界值,统计量未达到临界值,应当接受一种假设统计量超过临界值,应当接受另一种假设第九页,共五十八页,编辑于2023年,星期三参数估计包括两部分内容:参数的点估计(pointestimation)参数的区间估计(intervalestimation)第十页,共五十八页,编辑于2023年,星期三第二节统计量的抽样分布与统计推断的关系第十一页,共五十八页,编辑于2023年,星期三前面已经讲过,由样本的统计量组成的总体分布(抽样分布)其参数与原总体的相应参数有着很密切的关系同时抽样的结果还告诉我们,样本统计量与总体相应参数之间存在着一定的抽样误差因此,用样本来推断总体的准确性与抽样误差的大小有关,抽样误差的大小用标准误来衡量第十二页,共五十八页,编辑于2023年,星期三标准误不仅反映了抽样误差的大小,而且反映了样本统计量与总体相应参数间的差异程度也反映了用某个样本统计量来估计总体参数的准确程度第十三页,共五十八页,编辑于2023年,星期三第三节统计假设检验第十四页,共五十八页,编辑于2023年,星期三一、统计假设检验的基本思路为了说明问题,我们举几个例子进行讨论例1、随机抽取一批小鼠,随机分为两组,一组注射催产素,一组作为对照(即不注射催产素),半小时后检查这两组小鼠的血糖含量,得:注射催产素组为:=106.88
对照组平均值为:=109.17
同时我们也发现,同一组内的小鼠其血糖含量也是不同的两组小鼠的平均血糖含量之间有个差:那么我们是否可以认为这个差值就是由于催产素注射与否的结果?显然仅凭这一差值-2.29
是不能说明问题的第十五页,共五十八页,编辑于2023年,星期三例2、比较不同日龄(d)正常白化小鼠血浆含N量,得如下一批数据:日龄血浆含N
量35d()0.980.830.940.900.990.920.870.860.8190d()1.001.080.970.931.030.941.111.10对这两组数据进行计算,得:35d组小鼠的90d组小鼠的发现两组小鼠的血浆含N
量有差异:那么我们能否仅凭这一差异就认为日龄的不同,其血浆含N量就有差异呢?35d
的小鼠中也有含N
量高的(如0.990.980.94)90d
的小鼠中也有含N
量低的(如0.930.94)即:同一组内的小鼠其血浆含N
量之间也是有差异的第十六页,共五十八页,编辑于2023年,星期三例3、某药厂宣传说该厂生产的治鱼链球菌病的新药其疗效为90%,我们能轻易相信吗?是否需要做一个试验?如果试验结果是100
尾鱼仅康复了88
尾(p=0.88),我们就能对该厂的宣传效果进行否定吗?如果我们再做一次呢?我们能一直不断地做下去吗?例4、试验某种治疗鱼竖鳞病的新药,将其与常规药物相比较,对400尾鱼施用常规药物,康复了340尾(康复率),相应的,对500尾鱼施用新药,有435尾康复了(康复率),我们是否就可以认为新药一定好于常规药物?第十七页,共五十八页,编辑于2023年,星期三以上几个例题提醒我们,有以下几个问题是需要我们加以注意的:a.我们不可能用总体来做试验,各方面的条件不许可我们这样做,也没有必要这样做b.我们只能用样本来做试验,且由于时间、经费、人力等因素的限制,一般同一个试验只能做一次,通过一次试验就希望能得到一个比较可靠的结果c.试验结束以后,用什么来作为检验的对象?那就是样本的平均值:第十八页,共五十八页,编辑于2023年,星期三用样本的平均值来检验总体平均值用两个样本平均值的差异来检验相应两个总体平均值的差异用样本平均值作为检验对象的理由是:1、我们已经证明了为最小,这说明样本平均值与各变量的差异最小,因此是样本资料最好的代表2、在抽样分布中,我们已经证明了样本平均值是总体平均值的无偏估计量,即的数学期望是3、中心极限定理告诉我们:样本平均值服从或近似服从正态分布
第十九页,共五十八页,编辑于2023年,星期三上述三点,说明样本平均值可以作为检验的对象但是我们又不能仅凭样本平均值的大小就贸然下结论,认为试验有效或试验无效我们必须通过检验(test)为什么?因为任何一次试验都存在误差,即同一组内的观测值都不会完全相同,在正常试验条件下,同一组内的数据之间的差异,一般就是误差第二十页,共五十八页,编辑于2023年,星期三每一个观测值都是试验的表观效应,每一个数据都可以分成两个部分,即试验(处理)效应和误差(各种偶然因素引起的差异)同一总体中的个体所受到的各种偶然因素是不等的每一个数据中所包含的偶然因素是独立的就总体而言,这种偶然因素的影响是相互抵消的用统计学自己的语言来讲,就是:每一个观测值都有自己独立的试验误差第二十一页,共五十八页,编辑于2023年,星期三因此,我们有以下公式存在:观测值(表观效应)=处理效应+误差效应即:进行样本平均,得:同样,两个样本平均值的差异也可以这样分解:实际上,我们感兴趣的、即我们关心的重点是:我们试验所得到的表观效应主要是由处理效应所引起、还是由抽样误差所引起?应当进行权衡第二十二页,共五十八页,编辑于2023年,星期三结合上面的实例:两组小鼠的平均血糖含量之间的差异是否的确由催产素的注射与否所引起?不同日龄正常白化小鼠血浆含N量的差异是否的确由于小鼠的日龄不同而引起?实际试验中鱼链球菌病的治愈率与厂家宣传之间的差异的确是真实差异吗?即厂家是否真的言过其实了?还是的确是试验时的抽样误差?新药和常规药之间的差异是否的确由偶然因素所引起?第二十三页,共五十八页,编辑于2023年,星期三为了使得这种比较和权衡所得到的结论更可靠、更科学、更合理、更可信、更正确,必须对试验和统计分析提出如下要求:1、合理地进行试验设计,正确地进行试验操作,无误地进行抽样,仔细地进行记录,认真地进行校对,以有效地降低试验误差,尽可能避免系统误差,杜绝人为错误,使样本真正代表总体,对试验效应和试验误差作出无偏的估计2、合理地、正确地分析试验结果,以得出有关总体参数假设的统计推断第二十四页,共五十八页,编辑于2023年,星期三二统计假设检验的一般步骤我们以大样本资料或样本虽小但总体方差为已知的情况(u-test)来说明统计假设检验的一般步骤统计假设检验的基本原理和思路是这样的:首先根据具体的试验目的提出一个假设(hypothesis)(然后在假定这一假设成立(或正确)的前提下进行试验,并取得数据)然后同样在这一假设成立(或正确)的前提下,对这些数据或资料进行统计分析,获得该假设成立(或正确)的概率值第二十五页,共五十八页,编辑于2023年,星期三最后根据所获得概率的大小判断所作假设是否成立:a、如果所得概率较大,就表明我们没有足够的理由来否定所作的假设,即我们必须接受这一假设;b、如果所得概率很小,就表示这一假设不大可能成立,应予以否定,从而接受这一假设的对立假设,即接受备择假设上面的a和
b
必有一条被否定,另一条被接受第二十六页,共五十八页,编辑于2023年,星期三尽管所计算的概率值是连续变化的,但我们往往设定一个概率临界值(如p=0.05、p=0.01等等),根据所得概率值是大于p=0.05、还是小于p=0.05来决定所作假设是否成立(或正确)因此,概率值是连续分布的(定量),但假设的接受与否只有两类(定性)第二十七页,共五十八页,编辑于2023年,星期三这里我们首先复习一下u的概念:在这一式子中,显然与的距离越小,u值就越小,查标准正态分布表,得到的概率值越大,表明出现的概率越大;反之,与的距离越大,u值就越大,查标准正态分布表,得到的概率值就越小,表明出现的概率就越小当这一概率小到一定程度时,我们就可以认为这一似乎不大可能在一次试验中出现,亦即这一所在总体的平均值与设定总体的平均值不等,即两个总体不是同一个总体第二十八页,共五十八页,编辑于2023年,星期三反之,我们就没有理由认为所在总体与所设定的总体不是同一个总体在统计检验中所设定的、用以作为资料分析和最终判断基础的假设称为无效假设,无效假设又称为解消假设(nullhypothesis),用表示第二十九页,共五十八页,编辑于2023年,星期三所谓无效假设可以这样理解:我们的试验是无效的,即试验结束以后,所得到的样本平均值并没有超出设定的总体范围,即试验后得到的样本平均值其效果不见得好于原定的效果,即样本平均值所在总体与原设定的总体其实是同一个总体,两者的平均值和并没有本质的差异,两者之间的差异是由抽样误差引起的无效假设的写法:无效假设的含义就是:试验后所得到的样本平均值与原设定的已知总体的平均值之间的差异是由误差所引起的第三十页,共五十八页,编辑于2023年,星期三即样本平均值所在总体与已知总体是同一总体无效假设在统计分析后有可能被接受,也有可能被否定为了在无效假设被否定后有可以被接受的假设,我们还应当在无效假设设立的同时设立一个后备假设,这一后备假设称为备择假设,用表示即备择假设是无效假设被否定后必须被接受的一个假设(下标A
是alternative
之意)备择假设和无效假设是一对对立的假设,两者构成了一个完全事件系第三十一页,共五十八页,编辑于2023年,星期三在根据所得到的概率值进行判断时:接受了无效假设,就自然摒弃了备择假设否定无效假设的同时,就必须接受备择假设备择假设的含义是:样本所在总体与已知总体不是同一个总体,即:所得样本并不来自于这一已知总体将两个假设写完全:既可以是,也可以是第三十二页,共五十八页,编辑于2023年,星期三在设立假设以后,研究样本平均数的抽样分布,分析试验或调查所得样本平均值出现的概率我们会发现,样本平均值一般不会刚好等于已知总体的平均值,两者之间会有一定的差异,这一差异,有可能是抽样误差,也有可能是真实性差异,对此,我们需要借助概率原理来进行判断进行这种判断可以从两个角度,即有两种方法:一是假定是正确的,在此前提下计算出现的概率值,我们可以通过查表的方式来完成:如果所得u
值出现的概率较大,我们就必须接受第三十三页,共五十八页,编辑于2023年,星期三如果所得u值出现的概率较小,我们就应当放弃而
接受这里的概率大小,以=0.05
和=0.01作为两个临界值二是在假定为正确的前提下,对的抽样划出一个区间,这一区间称为接受区间,这一区间是有一定的概率保证的这一区间之外的部分称为否定区间倘若落在接受区间内,我们就接受反之,倘若落在接受区间外,我们就否定而接受
第三十四页,共五十八页,编辑于2023年,星期三下面的是接受区间示意图:第三十五页,共五十八页,编辑于2023年,星期三设这一接受区间的概率保证为95%,由于而即将其变换,得:为接受区间,其概率为95%而和为否定区间,其概率之和为5%同样,为99%接受区间而和为1%的否定区间第三十六页,共五十八页,编辑于2023年,星期三在u-test中以为水平上否定无效假设的两个界限以为水平上否定无效假设的两个界限最后,根据小概率事件实际不可能性原理接受或否定无效假设小概率事件实际不可能性原理是指在一次试验中,概率很小的事件实际上是不可能发生的第三十七页,共五十八页,编辑于2023年,星期三因此当与之间的差异其概率小于时(我们以作为小概率的第一临界值),就可以认为这不是抽样误差,而是实质性差异,从而否定无效假设第三十八页,共五十八页,编辑于2023年,星期三现在我们将假设检验的几个步骤归纳一下:提出假设,进行试验,并计算样本平均数抽样分布的离差u
值查相关附表,查出所得u值出现的概率值,并考察其是否大于预先设定的值由小概率原理作出接受或否定无效假设的推断,并结合专业知识给出合理、科学的解释需要注意的是,当所得概率小于=0.05
以后,还需根据具体情况继续考察其是否小于=0.01
第三十九页,共五十八页,编辑于2023年,星期三我们以一个实例来系统地说明假设检验的步骤:某品种正常鲤鱼每100ml血清中镁离子含量为(数据已经过转换)今抽查某渔场20
尾3
龄鲤鱼的血清镁离子,得如下数据(数据已经过转换):2.42.32.22.02.72.12.32.82.52.62.12.32.52.12.02.52.22.42.32.8试问,这批鲤鱼的血清镁离子含量是否正常由于该例中已有总体方差,因此虽然样本较小,但仍应使用u-test进行检验第四十页,共五十八页,编辑于2023年,星期三该例的核心问题是希望知道:这批鲤鱼在血清镁离子这一性状上是否正常或:这批鲤鱼与正常鲤鱼在血清镁离子这一性状上是否有所区别或:这批鲤鱼在血清镁离子这一性状上是否属于这一鲤鱼品种因此,需要知道这批鲤鱼的平均血清镁离子量与总体鲤鱼之间是否有区别因此,应检查样本鲤鱼群的血清镁离子含量与总体鲤鱼群之间的差异是由抽样误差所引起,还是属于真实性差异第四十一页,共五十八页,编辑于2023年,星期三需要注意的是,样本越小,抽样就越要有代表性,否则,所得到的结论就可能发生很大的偏差首先设立无效假设,即设:样本所在的总体鲤鱼群与原总体无差异vs
:样本所在的总体鲤鱼群与原总体不是一个总体即设该假设可以简化为其次在无效假设已设立的基础上,计算样本平均值,并计算u
值第四十二页,共五十八页,编辑于2023年,星期三当然我们也可以计算样本的标准差,但这一标准差在本例中不起作用,因此可以不管它经计算,得:查附表1,即标准正态分布的分布函数表,得:u=1.49的概率为:这一概率值大于即:因此,我们应当接受无效假设,即接受在接受无效假设的同时,就自动放弃了备择假设这表示这一鲤鱼样本其血清镁离子是正常的对这一结果我们可以从专业的角度进行合理的解释第四十三页,共五十八页,编辑于2023年,星期三下面我们将这一例题系统归置一下:某品种正常成年鲤鱼每100ml血清中镁离子含量为今抽查某渔场20尾三龄鲤鱼的血清镁离子,得如下数据:2.42.32.22.02.72.12.32.82.52.62.12.32.52.12.02.52.22.42.32.8试问,这批鲤鱼的血清镁离子含量是否正常经计算,得:设查附表1
,u=1.49的概率为
p=0.14>0.05接受无效假设,即:这批鲤鱼的血清镁离子属正常范围第四十四页,共五十八页,编辑于2023年,星期三该题也可以这样完成:设立无效假设(同前)计算接受区间:由于处于这一接受区间内,因此,应接受无效假设即:这批鲤鱼的血清镁离子在正常范围以内当接受无效假设时,就说样本平均数与已知总体平均数间差异不显著,如果否定了无效假设而接受备择假设时,我们就说差异显著,如果在水平上否定无效假设,就说差异极显著第四十五页,共五十八页,编辑于2023年,星期三三、一尾检验和两尾检验从上面的例子我们可以看出,鲤鱼血清镁离子的样本平均值有可能大于总体平均值,也有可能小于总体平均值即所得u
值可能会是负值,在左边判断是接受或否定无效假设这u
值也有可能是正值,在右边判断是接受或否定无效假设这种既要考虑左边否定区,又要考虑右边否定区,即须考虑分布曲线两边(即两尾)的检验称为两尾检验第四十六页,共五十八页,编辑于2023年,星期三这是由于事先我们并不知道所得样本平均数是否肯定大于总体平均值,还是肯定小于总体平均值在大多数情况下,一种措施有可能其效应是正向的,也有可能是负向的,即事先我们并不固定抽样或试验的结果会朝向哪个方向,因此我们的备择假设只能是:这里,既包含了,又包含了这种两尾检验是应用最广泛的一种检验方法但有的时候,我们的目的非常明确,即所抽样本只可能是大于总体平均值,或只可能是小于总体平均值例如:某种新型药剂只可能好于常规药剂第四十七页,共五十八页,编辑于2023年,星期三某些有毒物质只能对被试动物产生毒害作用,等等这一类试验的数据假设检验其备择假设只有一种情况,即只有一个否定区间(一尾)这样的假设检验就称为一尾检验一尾检验比两尾检验更容易否定无效假设,因此应用一尾检验必须有非常充分的理由在常用的假设检验中,我们一般采用两尾检验,而对一尾检验应谨慎使用第四十八页,共五十八页,编辑于2023年,星期三两尾检验和一尾检验的比较:第四十九页,共五十八页,编辑于2023年,星期三四、假设检验的两类错误在假设检验中,接受或否定无效假设的理论依据是小概率事件的实际不可能性原理因此,所得结论并不是百分之百的正确的事实上,统计假设检验有可能犯两类错误:如果是正确的,即为真,但检验的结论由于差异显著而被我们否定掉了(此时,我们须冒5%下错结论的风险),或由于差异极显著而被我们否定掉了(须冒1%下错结论的风险),因而犯了错,这一类错误就称为Ⅰ型错误,或称型错误,犯Ⅰ型错误的概率不超过显著水平值
第五十页,共五十八页,编辑于2023年,星期三犯Ⅰ型错误的实质就是把非真实性差异错判为真实性差异,即弃真如果无效假设是错误的,即为假,检验结果却发现差异不显著而被接受,同时摒弃了正确的备择假设在统计学中,所谓的差异不显著,其真实含义是没有充分的理由否定,但也没有理由接受
但我们所执行的是非此即彼原则,因此,既然差异不显著,就必须接受这一类错误称为Ⅱ型错误,或称为型错误,Ⅱ型错误的概率用表示第五十一页,共五十八页,编辑于2023年,星期三这里的差异不显著,有两种含义:一是样本所在总体与已知总体间的确没有差异,样本平均值与已知总体平均值间的差异纯属抽样误差二是样本所在总体与已知总体间有差异,但由于试验误差大而掩盖掉了这种差异Ⅱ型错误就是把真实性差异错判为非真实性差异,即虽然是假的,但通过检验却被接受了,同时摒弃了真的,这称为存伪第五十二页,共五十八页,编辑于2023年,星期三不同时的值第五十三页,共五十八页,编辑于2023年,星期三在统计推断中,我们作出一个判断,有两个方向的错误可能存在,这说明我们不能绝对地肯定,也不应绝对地否定某一假设因此,有一定的把握
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025个人住房按揭贷款合同范本
- 2025货品售卖合同协议
- 2025年度新能源实验室氢能技术研究与应用合同3篇
- 2025年度水泥行业节能减排合作协议3篇
- 2025年度数据中心基础设施安装合同安装协议3篇
- 2025年度养生馆特色疗法加盟合同协议书3篇
- 二零二五年度农村房屋拆除安全协议及历史建筑保护责任书
- 二零二五年度生态农业配套农村房屋买卖合作框架协议3篇
- 2025年度环保建筑材料合作成立公司合同3篇
- 2025年度建筑材料供货与古建筑修复合同3篇
- 西安交通大学《计算物理与程序设计》2022-2023学年第一学期期末试卷
- 《寒假安全教育》课件
- 民营企业融资问题及其对策分析-以美的集团为例【数据论文】11000字
- DB32T 3390-2018 一体化智能泵站应用技术规范
- 中医特色治疗进修汇报
- 2023-2024学年广东省广州市白云区九年级(上)期末语文试卷
- 肛肠科一病一品汇报
- 第9课 作息有规律(说课稿)-2024-2025学年一年级上册道德与法治(统编版)
- 2024年国家公务员考试《申论》真题(地市级)及答案解析
- 【初中生物】尝试对生物进行分类-2024-2025学年七年级生物上册同步教学课件(人教版2024)
- 机械年终考核述职报告
评论
0/150
提交评论