t检验的资料与习题_第1页
t检验的资料与习题_第2页
t检验的资料与习题_第3页
t检验的资料与习题_第4页
t检验的资料与习题_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章定量资料的参数估计与假设检验基础1抽样与抽样误差抽样方法本身所引起的误差。当由总体中随机地抽取样本时,哪个样本被抽到是随机的,由所抽到的样本 得到的样本指标x与总体指标 卩之间偏差,称为实际抽样误差。当总体相当大时,可能被抽取的样本非常多, 不可能列出所有的实际抽样误差,而用平均抽样误差来表征各样本实际抽样误差的平均水平。(T x= CT /Sx=S/2t分布t分布曲线形态与n (确切地说与自由度 v)大小有关。与标准正态分布曲线相比,自由度 v越小,t分布 曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度v愈大,t分布曲线愈接近正态分布曲线,当自由度V=8时,t分布曲线为标准正态

2、分布曲线。t=X-u/Sx=X-u/(S/),V=N-1正态分布(normaldistribution)是数理统计中的一种重要的理论分布,是许多统计方法的理论基础。正态分布有两个参数,卩 和T,决定了正态分布的位置和形态。为了应用方便,常将 一般的正态变量X通过u变换(X-卩)/ t转化成标准正态变量u,以使原来各种形态的正态分布 都转换为 卩=0,t =1的标准正态分布(standardnormaldistribution ),亦称u分布。根据中心极限定理,通过上述的抽样模拟试验表明,在正态分布总体中以固定n,抽取若干个样本时,样本均数的分布仍服从正态分布,即 N(y,c)。所以,对样本均数

3、的分布进行 u 变换,也可变换为标准正态分布 N(0,1)由于在实际工作中,往往 t是未知的,常用s作为t的估计值,为了与u变换区别,称为 t变换,统计量t值的分布称为t分布。假设X服从标准正态分布N( 0,1 ),丫服从x 2 (n)分布,那么Z=X/sqrt(Y/n)的分布称为 自由度为n的t分布,记为Zt(n)。特征:1. 以0为中心,左右对称的单峰分布;2. t分布是一簇曲线,其形态变化与n (确切地说与自由度v)大小有关。自由度v越 小,t分布曲线越低平;自由度v越大,t分布曲线越接近标准正态分布(u分布)曲线,如图.t(n)分布与标准正态N(0,1)的密度函数对应于每一个自由度v,

4、就有一条t分布曲线,每条曲线都有其曲线下统计量 t的分布规 律,计算较复杂。学生的t分布(或也t分布),在概率统计中,在置信区间估计、显着性检验等问题的计算 中发挥重要作用。t分布情况出现时(如在几乎所有实际的统计工作)的总体标准偏差是未知的,并要从数据 估算。教科书问题的处理标准偏差,因为如果它被称为是两类:(1)那些在该样本规模是如此之大的一个可处理的数据为基础估计的差异,就好像它是一定的(2)这些说明数学推理,在其中的问题,估计标准偏差是暂时忽略的,因为这不是一点,这是作者或导师当时的解释。3.均数的参数估计可信区间按一定的或可信度(1- a )用一个区间来估计总体参数所在的范围,该范围

5、通常称为参数的可信区间或者置 信区间,预先给定的概率 (1- a )称为可信度或者置信度,常取95%或 99%1. 点估计用样本统计量直接作为总体参数的估计值。其方法简单,易于理解,但为考虑抽样误差的大小。2. 区间估计既按照预先给定的概率(1-a ),确定的包含总体参数的可能范围。该范围被称为总体参数的可信区间或置信区间。假设检验基础假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<< P<)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,贝U认为假设不成立,若可能性大,贝U还不能

6、认为不假设成立。2穆蚱酬罷数假设检验假设是否正确,要用从总体中抽出的样本进行检验,与此有关的理论和方法,构成假设检验 的内容。设A是关于总体分布的一项命题,所有使命题 A成立的总体分布构成一个集合h0,称为 原假设(常简称假设)。使命题A不成立的所有总体分布构成另一个集合 h1,称为备择假设。如果 h0可以通过有限个实参数来描述,则称为参数假设,否则称为非参数假设(见非参数结果)。如果h0(或h1)只包含一个分布,则称原假设(或备择假设)为简单假设,否则为复合假设。对一个假设 hO进行检验,就是要制定一个规则,使得有了样本以后,根据这规则可以决定是接受它(承认命 题A正确),还是拒绝它(否认命

7、题 A正确)。这样,所有可能的样本所组成的空间(称样本空 间)被划分为两部分HA和HR(HA勺补集),当样本x HA时,接受假设hO;当x HR时,拒绝 hO。集合HF常称为检验的拒绝域,HA称为接受域。因此选定一个检验法,也就是选定一个拒绝 域,故常把检验法本身与拒绝域 HR基本步骤1提出检验假设又称无效假设,符号是 H0;备择假设的符号是H1。H0样本与总体或样本与样本间的差异是由抽样误差引起的;H1:样本与总体或样本与样本间存在本质差异;预先设定的检验水准为;当检验假设为真,但被错误地拒绝的概率,记作a,通常取a =或a =02、 选定统计方法,由样本观察值按相应的公式计算出统计量的大小

8、,如X2值、t值等。根 据资料的类型和特点,可分别选用 Z检验,T检验,3、 根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>a,结论为按a所取水准不显着,不拒绝 H0,即认为差别很可能是由于抽样误差造成的,在统计上 不成立;如果PWa,结论为按所取a水准显着,拒绝H0,接受H1,则认为此差别不大可能仅 由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。t检验 若总体服从正态分布N卩,c),但c未知,记,则t=遵从自由度为n-1的t分 布,可对卩有以下的水平为a的检验,其中t a为自由度为n-1的t分布的上a分

9、位数。这些 检验称为t检验。第五章:定量资料的t检验前言:T检验主要用于样本含量较小(例如 n<30),总体标准差c未知的正态分 布资料。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显着。一、t检验分为单总体检验和双总体检验。1. 单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显着。当总体分 布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。单总体t检验统计量为:t:为样本平均数与总体平均数的离差统计量:为样本平均数卩:为总体平均数c x:为样本标准差n为样本容量2. 双总体t检验是检验两个样本平

10、均数与其各自所代表的总体的差异是否显着。双总体 t检 验又分为两种情况,一是独立样本t检验,一是配对样本t检验。独立样本t检验统计量为:S和S2为两、样本方差;ni和丘为两样本容量。(上面的公式是 1/n汁1/门2不是减!)1/n i-1/n 2的话无法计算相同的样本空间配对样本t检验统计量为:二、适用条件(1)已知一个总体均数;(2)可得到一个样本均数及该样本标准差;(3)样本来自正态或近似正态总体。三、t检验步骤以单总体t检验为例说明:问题:难产儿出生体重n=35,丈二,S=,般婴儿出生体重 卩o=(大规模调查获得),问相同否 解:1.建立假设、确定检验水准 aH):卩=卩 0 (零假设,

11、nullhypothesis )H :卩工卩 0 (备择假设,alternativehypothesis,)双侧检验,检验水准:a =2. 计算检验统计量3. 查相应界值表,确定P值,下结论查附表1,=,t<,P>,按a = 水准,不拒绝H0,两者的差别无统计学意义当总体呈正态分布,如果总体标准差未知,而且样本容量<30,那么这时一切可能的样本平均数与总体平均数的离差统计量呈t分布。检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显着。检验分 为单总体t检验和双总体t检验。四、t检验注意事项1、选用的检验方法必须符合其适用条件(注意:t检验的前提是资料服从

12、正态分布)。理论 上,即使样本量很小时,也可以进行 t检验。(如样本量为10, 一些学者声称甚至更小的样本也行),只要每组中变量呈正态分布,两组方差不会明显不同。如上所述,可以通过观察数据的分 布或进行正态性检验估计数据的正态假设。方差齐性的假设可进行F检验,或进行更有效的Levene's检验。如果不满足这些条件,只好使用非参数检验代替 t检验进行两组间均值的比较。2、区分单侧检验和双侧检验。单侧检验的界值小于双侧检验的界值,因此更容易拒绝,犯第I错误的可能性大。t检验中的p值是接受两均值存在差异这个假设可能犯错的概率。在统计学 上上,当两组观察对象总体中的确不存在差别时,这个概率与我

13、们拒绝了该假设有关。一些学者 认为如果差异具有特定的方向性,我们只要考虑单侧概率分布,将所得到t-检验的P值分为两半。另一些学者则认为无论何种情况下都要报告标准的双侧t检验概率。3、假设检验的结论不能绝对化。当一个统计量的值落在临界域内,这个统计量是统计上显着的,这时拒绝虚拟假设。当一个统计量的值落在接受域中,这个检验是统计上不显着的,这是不 拒绝虚拟假设H0。因为,其不显着结果的原因有可能是样本数量不够拒绝H0,有可能犯第I类错误。4、正确理解P值与差别有无统计学意义。P越小,不是说明实际差别越大,而是说越有理由 拒绝H0,越有理由说明两者有差异,差别有无统计学意义和有无专业上的实际意义并不

14、完全相同。5、假设检验和可信区间的关系结论具有一致性差异:提供的信息不同区间估计给出总体均值可能取值范围,但不给出确切的概率值,假设检验可以给出H0成立与否的概率。6、涉及多组间比较时,慎用t检验。科研实践中,经常需要进行两组以上比较,或含有多个自变量并控制各个自变量单独效应后 的各组间的比较,(如性别、药物类型与剂量),此时,需要用方差分析进行数据分析,方差分 析被认为是T检验的推广。在较为复杂的设计时,方差分析具有许多t-检验所不具备的优点。(进行多次的T检验进行比较设计中不同格子均值时)。第六章定量资料的方差分析方差分析的基本思想和应用条件1. 总变异各样本数值与总均数不同。总变异反映所

15、有观察值的变异,量化值所有数据的均方 MS总来表示。SS总=E( X-) 2MS总=SS总/v 总 v 总=N-12. 组间变异各组别间的均数不相同。包括了变量影响和随机误差。SS组间二艺ni(i-)2MS组间二SS组间/v组间v组间二k-13. 组内变异组内的个数值不同。反映随机误差,又称误差变异SS组内=SS总-SS组间MS组内二SS组内/v组内V组内二N-kF二MS组间/MS组内1、各样本相互独立切随机,服从正态分布。2、总体方差相等,即方差齐性。完全随机设计资料的方差分析(1) 建立假设检验,确定检验水准。(2) 计算检验统计量变异来源SSvMSFP总变异组间变异组内变异(3) 确定P

16、值,做出推断结论随机区组设计资料的方差分析SS总二SS处理+SS区组+SS误差v总=v处理+v区组+v误差变异来源SSvMSF总变异艺(X-) 2N-1处理组习li(i-)2k-1SS处理/v处理MS处理/MS误差区组mj(j-)2b-1SS区组/v区组MS区组/MS误差误SS总-SS处理-SS区组V总-V处理-v区组SS误差/v误差多个样本均数的两两比较又称 q 检验q=(A-B)/(S a-b )=(A-B)/ V(MSe/21/n A+1/nq)n 是样本的例分子为任意两个对比组 A、B 的样本均数之差,分母是差值的标准误, 数,MSe为前述方差分析中算的MS组内或MS误差。又称 Dun

17、nett-t 检验TD=(T-C)/(S T-C )=(T-C)/ V(MSe/21/n T+1/nC)T 代表多个处理组, C 为对照组。t 检验练习题一、单项选择题1. 两样本均数比较 , 检验结果 P 0.05说明A. 两总体均数的差别较小 B. 两总体均数的差别较大C. 支持两总体无差别的结论 D.不支持两总体有差别的结论E. 可以确认两总体无差别2. 由两样本均数的差别推断两总体均数的差别 , 其差别有统计学意义是指A.两样本均数的差别具有实际意义B. 两总体均数的差别具有实际意义C. 两样本和两总体均数的差别都具有实际意义D. 有理由认为两样本均数有差别E. 有理由认为两总体均数有

18、差别3. 两样本均数比较,差别具有统计学意义时,P值越小说明A. 两样本均数差别越大 B. 两总体均数差别越大C.越有理由认为两样本均数不同 D.越有理由认为两总体均数不同E.越有理由认为两样本均数相同4. 减少假设检验的U类误差,应该使用的方法是A.减少I类错误B.减少测量的系统误差C.减少测量的随机误差D.提高检验界值E.增加样本含量5两样本均数比较的t检验和u检验的主要差别是检验只能用于小样本资料检验要求方差已知或大样本资料检验要求数据方差相同检验的检验效能更高检验能用于两大样本均数比较答案:DEDEB二、计算与分析1. 已知正常成年男子血红蛋白均值为140g/L,今随机调查某厂成年男子

19、 60人,测其血红蛋白均值为125g/L,标准差15g/L。问该厂成年男子血红蛋白均值与一般成年男子是否不同参考答案因样本含量n>50 (n = 60),故采用样本均数与总体均数比较的u检验。(1) 建立检验假设,确定检验水平Ho :o,该厂成年男子血红蛋白均值与一般成年男子相同比:!,该厂成年男子血红蛋白均值与一般成年男子不同(2) 计算检验统计量X= 140 125/ ;n 15 、60(3) 确定P值,做出推断结论>,故P<,按a二水准,拒绝H。,接受比,可以认为该厂成年男子血红蛋白均值与一般成年男子不同,该厂成年男子血红蛋白均值低于一般成年男子2. 某研究者为比较耳垂

20、血和手指血的白细胞数,调查12名成年人,同时采取耳垂血和手指血见下表,试比较两者的白细胞数有无不同。表成人耳垂血和手指血白细胞数(10g/L)编号耳垂血手指血123456789101112参考答案本题为配对设计资料,采用配对t检验进行分析(1)建立检验假设,确定检验水平H: d=0,成人耳垂血和手指血白细胞数差异为零H: d0,成人耳垂血和手指血白细胞数差异不为零(2)计算检验统计量d 11.6, d2d 0 d _"ST Sd=td0.967SCn0.912一123.672t二t0.05/2,11 , Pv,拒绝H0,接受H,差别有统计学意义,可以认为两者的白细胞数不同3. 分别测

21、得15名健康人和13名川度肺气肿病人痰中i抗胰蛋白酶含量(g/L)如下表,问健康人与川度肺气肿病人 1抗胰蛋白酶含量是否不同表健康人与川度肺气肿患者a 1抗胰蛋白酶含量(g/L)健康人E度肺气肿患者参考答案由题意得,X12.067,S11.015;X24.323,S21.107本题是两个小样本均数比较,可用成组设计t检验,首先检验两总体方差是否相等。H0: 1 = 2,即两总体方差相等Hi: i2丰l,即两总体方差不等F=S; =1.1072S2 1.0152F005 12,14 =>, F<F0.0512,14,故 P>,按a二水准,不拒绝H,差别无统计学意义。故认为健 康

22、人与川度肺气肿病人a i抗胰蛋白酶含量总体方差相等,可直接用两独立样本均数比较的t检验。(1) 建立检验假设,确定检验水平H0: 12,健康人与川度肺气肿病人1抗胰蛋白酶含量相同Hi:12,健康人与川度肺气肿病人1抗胰蛋白酶含量不同(2) 计算检验统计量2 2S2 (n1 1)S1(n2 1)S2 _ n22t 区 X2)0 1X1 X2ISX1 X2SX1 X2 _(3) 确定P值,做出推断结论t= >t0.001/ 2,26,P<,拒绝H),接受Hl,差别有统计学意义,可认为健康人与川度肺气肿病人a 1抗胰蛋白酶含量不同。4. 某地对241例正常成年男性面部上颌间隙进行了测定,

23、得其结果如下表,问不同身高正常 男性其上颌间隙是否不同表某地241名正常男性上颌间隙(cm)身高(cm)例数均数标准差161116172125参本题属于大样本均数比较,采用两独立样本均数比较的u检验。由上表可知,n4=116, X1 =, S=n? =125, X2 =, S?=(1)建立检验假设,确定检验水平Ho: 12,不同身高正常男性其上颌间隙均值相同比:12,不同身高正常男性其上颌间隙均值不同(2)计算检验统计量X1 X2X1 X2u 1_-:=SX1 x2, S2/ S; /门2(3)确定P值,做出推断结论u = <,故P>,按a =水准,不拒绝H0,差别无统计学意义,尚不能认为不同身高正常男性其上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论