版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Good is good, but better carries it.精益求精,善益求善。sas第九章 t检验和方差分析-t检验和方差分析在科研中,我们往往是根据样本之间的差异,去推断其总体之间是否有差异。样本差异可能是由抽样误差所致,也可能是由本质的不同所致。应用统计学方法来处理这类问题,称为“差异的显著性检验”。若已知总体为正态分布,进行差异的显著性检验,称为“参数性检验”,SAS中MEANS、TTEST、ANOVA、GLM等均属此类检验;若未知总体分布,进行差异的显著性检验,称为“非参数性检验”,SAS中采用NPAR1WAY过程。第一节t检验简介t检验是用于两组数据均值间差异的显著性检
2、验。它常用于以下场合:1样本均值与总体(理论)均值差别的显著性检验检验所测得的一组连续资料是否抽样于均值已知的总体根据大量调查的结果或以往的经验,可得到某事物的平均数(例如生理生化的正常值),以此作总体均值看待。SAS中采用MEANS过程,计算出观察与总体均值的差值,再对该差值的均值进行t检验。2.同一批对象实验前后差异的显著性检验(自身对照比较)或配对资料差异的显著性检验(配对比较检验)比如,在医学研究中,我们常常对同一批病人治疗前后的某些生理生化指标(如血压、体温等)进行测量,以观察疗效;或对同一批人群进行预防接种,以观察预防效果;或把实验对象配成对进行测定,比较其实验结果。SAS中采用M
3、EANS过程,计算出两样本观察的差值(如治疗前、后实验数据的差值),再对该差值的均值进行t检验。3两样本均值差异的显著性检验作两样本均值差异比较的两组原始资料各自独立,没有成对关系。两组样本所包含的个数可以相等,也可以不相等。每组观测值都是来自正态总体的样本。设与为两样本的均值,与为两样本数,为两样本方差,分两种情形,其数学模型为:(1)方差齐(相等)时:(2)方差不齐时:SAS中采用TTEST过程,先作方差齐性检验(F检验),然后根据方差齐(EQUAL)和方差不齐(UNEQUAL)输出t值和P值以及基本统计量。在作方差齐性检验时,用F检验。F值计算公式为:用MEANS过程作t检验1过程格式P
4、ROCMEANSMEANSTDSTDERRTPRT;VAR变量表;2说明(1)PROCMEANS语句中,选择了5个统计量:均值、标准差、标准误差、t值、P值。(2)VAR语句中的变量是分析变量。缺省时,计算所有数值型变量。3举例例1:样本均值与总体均值差别的显著性检验。已知某水样中含CaCO3的真值为20.7mgL,现用某方法重复测定该水样11次,CaCO3的含量为:20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20,23,22。问用该法测CaCO3的含量所得的均值与真值有无显著差别?程序:(yp111.sas)编程说明:在数据步中,变量x读取
5、测定值,产生一个差值变量y(y=x-20.7),在过程步中,计算出Y的均值、标准差、标准误差、t值、P值。结果说明:因t1.0636907,0.05p=0.3125,故用此法测定水中CaCO3的含量的均值与真值间无显著差异。此法可信。例2:配对比较的t检验。研究食物中维生素E与肝脏中维生素A含量的关系。将大白鼠按性别、体重配对。每对随机分配,一个用正常饲料,一个用缺乏维生素E的饲料。经过一个时期饲养,杀死动物测定肝中维生素A的含量,结果如下表:大白鼠肝脏中维生素A含量(IU/g)配对号12345678正常饲料35502000300039503800375034503050缺乏E饲料245024
6、00180032003250270025001750程序:(yp112.sas)编程说明:数据步中,把每对数据中的一个作为x,另一个作为y,计算出差数d(d=x-y),在过程步中,计算差数d的均值、标准差、标准误差、t值、P值。结果说明:因t=4.21p=0.00400.05,故有非常显著差异,即正常饲料组鼠肝维生素A含量比维生素E缺乏组的含量大。例3自身对照比较的t检验。应用克矽平治疗矽肺患者10名,治疗前后血红蛋白的含量如下表,问该药是否会引起血红蛋白的变化?治疗前后血红蛋白的含量(mg%)治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.0
7、13.814.013.513.512.014.711.413.812.0程序:(yp113.sas)编程说明:数据步中,把每对数据中的一个作为x,另一个作为y,计算出差数d(d=x-y),在过程步中,计算差数d的均值、标准差、标准误差、t值、P值。结果说明:因t=1.1989377,O.05F=右边的值,即方差相等假设检验的P值,如果此值大于0.01则在方差相等假设下继续进行,否则只能使用近似T检验。因P=0.0074,说明方差差异显著,即方差不齐。当方差不齐时,T=2.0000,0.05P0.0644,故无显著差异,即此药物对大白鼠肉瘤无显著影响。第二节方差分析当试验结果受到多个因素的影响,
8、而且也受到每个因素的各水平的影响,为从数量上反映各因素以至各因素诸水平对试验结果的影响时使用方差分析的方法。方差分析的基本思想是把全部数据关于总均值的离差平方和分解成几个部分,每一部分表示某因素交互作用所产生的效应,将各部分均方与误差均方相比较,从而确认或否认某些因素或交互作用的重要性。用公式概括为:总变异组间变异+组内变异其中:组间变异由各因素所引起,组内变异由个体差异所引起的,或者说由误差引起的。常用的方差分析法有以下4种:(1)完全随机设计资料的方差分析(单因素方差分析)(2)随机区组设计资料的方差分析(二因素方差分析)(3)拉丁方设计资料的方差分析(三因素方差分析)(4)R*C析因设计
9、资料的方差分析(有交互因素的方差分析)SAS系统中,ANOVA过程可以处理以上情形的方差分析,但它要求每个分类因子的组合观察数相等,即数据是均衡的。若不均衡,就要求用GLM过程进行处理。在只考虑组间变异和误差变异时,称为单向方差分析。此时ANOVA会自动处理均衡和非均衡数据。在方差分析中,每次只研究1个指标时,称之为一元方差分析(简称ANOVA),同时考虑多个指标时,称之为多元方差分析(MANOVA)。在这一节里,我们还将讨论协方差分析。9.2.1均衡数据的方差分析(ANOVA过程)1过程格式PROCANOVA选项CLASS变量表;MODEL因变量表=效应;MEANS效应选择项;2使用说明(1
10、)程序中,CLASS语句和MODEL语句是必需的,而且,CLASS语句必须出现在MODEL语句之前。(2)CLASS语句中的变量是分类变量,可以是数值型,也可以是字符型。(3)MODEL语句指明因变量和自变量(因子变量)效应。效应是分类变量的各种组合,效应可以是主效应、交互效应、嵌套效应和混合效应。对应的效应模型如下:主效应模型MODELy=abc;模型中,a,b,c是主效应,y是因变量。下同。交互模型MODELy=abca*ba*cb*ca*b*c;模型中,a*b,a*c,b*c,a*b*c是交互效应。嵌套效应模型MODELy=abc(ab);模型中,c(ab)是嵌套效应。混合效应模型MOD
11、ELy=ab(a)c(a)b*c(a);(4)MEANS语句是选择语句,计算并输出所列的效应对应的因变量均值,若指明了选择项,则将进行主效应均值间的检验。常用的选择项如下:BON、DUNCAN、LSD、REGWF、REGWO、SNK(Q检验)、SCHEFFE、SIDAK、SMM(GT2)、TUKEY、WALLER。以上选择项在实际应用中,一般选择一种或两种方法即可。ALPHA=p确定检验的显著性水平。缺省值是0.05。3举例(1)完全随机设计资料的方差分析(单因素方差分析)某劳动卫生研究所研究棉布、府绸、的确凉、尼龙四种衣料吸附十硼氢量。每种衣料各做五次测量,所得数据如下表。试检验各种衣料吸附
12、十硼氢量有没有显著差别?各种衣料间棉花吸附十硼氢量棉布府绸的确凉尼龙2.332.483.064.002.002.343.065.132.932.683.004.612.732.342.662.802.332.223.063.60程序:(yp115.sas)编程说明:数据步中,用循环控制变量a做分类变量,其水平数是4,分别代表不同的衣料。过程步中,用CLASS语句指明一个因素a,用MODEL语句反映出该因素的效果模型。结果说明:在输出中,找CLASS语句指出的变量的P值。此例中,P0.0003,可得出各衣料组间有非常显著差异。说明各种衣料间吸附十硼氢量是不同的。R-Square(R平方)对单向方
13、差分析时,描述组间变异占总变异的比例,它越接近1,说明变异越归因于组间变异。(2)随机区组设计资料的方差分析(两因素方差分析)用4种不同方法治疗8名患者,其血浆凝固时间的资料如下表,试分析影响血浆凝固的因素。表:4种方法8名患者血浆凝固时间(分)资料受试者编号(区组)处理组123418.49.49.812.2212.815.212.914.439.69.111.29.849.88.89.912.058.48.28.58.568.69.99.810.978.99.09.210.487.98.18.210.0程序:(yp116.sas)编程说明:数据步中,变量a代表不同治疗方法,其水平数是4,变量
14、b代表区组因素不同患者,其水平数是8。过程步中,用CLASS语句指明两个因素a和b,用MODEL语句指明二因素的效果模型。结果说明:总处理间:F14.03,PO.0001,故总体有非常显著差异。A因素:F=6.62,PO.0025,故认为因素A(治疗方法)对血浆凝固时间影响很大。B因素:F=17.20,P0.0001,故认为因素B(不同患者)对血浆凝固时间影响很大。如果想对4种治疗方法进行两两比较,可在MODEL语句后增加一MEANS语句。例如,用SNK法比较,语句为:MEANSASNK;(yp117.sas)(3)拉丁方设计资料的方差分析(三因素方差分析)若试验中涉及到3个因素,各因素间不存
15、在交互作用,或交互作用很小可忽略不计,同时各因素的水平数又都相同,此种资料称拉丁方设计资料。例:五种防护服,由五人各在不同的五天中穿着测定脉博数,如下表所示。试比较五种防护服对脉搏数有无不同。表:五人穿着五种防护服的脉搏数试验日期受试者甲乙丙丁戊1A12.98B116.2C114.8D104.0E100.62B144.4C119.2D113.2E132.8A115.23C143.0D118.0E115.8A123.0B103.84D133.4E110.8A114.0B98.0C110.65E142.8A110.6B105.8C120.0D109.8程序:(yp118.sas)编程说明:数据步中
16、,变量a代表试验时间因素,变量b代表受试者因素,变量C代表防护服因素。过程步中,用CLASS指明三个因素,MODEL语句反映三个因素的效果模型。结果说明:因F=6.80P0.0011,故总体有非常显著差异,其中只有一个区组B因素(受试者)影响极大(F=16.27P0.001),而区组A因素(试验时间)和处理因素(防护服)都无显著差异。(4)R*C析因设计资料的方差分析(有交互因素的方差分析)治疗缺铁性贫血病人12例,分为4组给予不同治疗,一个月后观察红细胞增加数(百万mm),资料如下表。试分析两种药物对红细胞增加的影响。表:贫血病人治疗后红细胞增加数甲药(A)不用(A0)用(A1)乙药(B)不
17、用(B0)0.80.90.71.31.21.1用(B1)0.91.11.02.12.22.0程序:(yp119.sas)编程说明:数据步中。变量a代表甲药因素变量b代表乙药因素。过程步中,用CLASS语句指明两个因素,用MODEL语句反映主效应(ab)和交互效应(a*b)模型。结果说明:因F=98.75,P=0.00010.01,故总体有非常显著差异,其中A因素(甲药)、B因素(乙药)、a*b因素(a和b的交互作用)都对红细胞增加数有非常大的影响。为进一步分析其影响的强弱,可用MEANS语句:MEANSaba*b:(yp120.sas)(5)用Dunnet法进行均值间的比较(对照组与多个实验组
18、的比较检验)。Dunnett方法在比较若干“实验水平”与“对照水平”时使用一个临界差距(T):,其中ms为将方差分析表中交互效应归入残差平方和后的均方,即:n为样本大小,q为来自Dunnett分布的分位数,可根据样本组个数r,自由度df(交互效应df+残差df),以及比较的显著水平,查表确定。Dunnett多重比较仅适用各“实验水平”与“对照水平”之间差异的比较,不适用于各“实验水平”间的相互差异比较。例:有资料如下表,试比较白血病鼠与正常鼠脾中DNA平均含量(mgg)差别有无显著意义?表;白血病鼠与正常鼠脾中DNA平均含量(mgg)脾中DNA平均含量(mgg)A正常鼠(对照组)12.313.
19、213.715.215.415.816.9B1自发性白血病鼠10.811.612.312.713.513.514.8B2移植性白血病鼠9.810.311.111.711.712.012.3程序:(yp121.sas)编程说明:数据步中,变量a代表因素。过程步中,用MODEL语句指明一因素的效果模型,用MEANS语句进行a因素水平间的Dunnett法比较。结果说明:因F=11.42,P0.0006,故总体或A因素各水平间有非常显著差异。当A因素有意义时,可进一步分析组间的差异。Dunnet法检验时,用“*”指明有显著性,由此可以看出,两组均值(A=2,A=3)与对照组(A=1)相比较,差别有显著
20、意义。若改换对照组,假设是第2组(A=2)。应修改选择项DUNNETT(2)。输出中给出DUNNETt的临界值为2.399、A3与A1均值之差为-1.9,其95置信限的下限和上限分别为-3.597和-O.203。(6)用SNK法(Q检验)作均值间的两两比较。为研究酵解作用对血糖浓度的影响,从8名健康人中抽取了血液并制备成血滤液。每一个受试者的血滤液又分成4份,然后随机地把各份血滤液分别放置0、45、90、135分钟后测定其中血糖浓度(资料见下表)。试比较放置时间对血糖浓度有无影响。表:放置时间对血糖浓度的影响受试者编号(区组号)放置时间(分)04590135195958983295948884
21、31061059790498979590510298978861121121019471051039788895929080程序:(yp122.sas)编程说明:数据步中,变量a代表受试者因素,变量b代表放置时间因素。过程步中,作二因素的方差分析,用CLASS指明二个因素a和b,用MODEL语句指明二因素的效果模型,用MEANS语句对因素b作SNK检验(Q检验)。结果说明:因F=43.66,P0.0001,故总体有非常显著差异。因F=28.74,PO.0001,说明因素A(受试者)对血糖浓度有很大影响。因F=78.49,P0.000l,说明因素B(放置时间)对血糖浓度有很大影响。对B因素各组均
22、值作SNK法比较检验:经SNK检验,可以看出:由于O和45分钟的均值间用同一字母A分组,故无显著差别(Meanswiththesameletterarenotsignificantlydifferent),其余都有显著差别。非平衡数据的方差分析(GLM过程)在SASSTAT中GLM(GeneralLinearModels)过程分析功能最多。它包括:简单回归(一元回归)加权回归多重回归及多元回归多项式回归方差分析(尤其对不平衡设计资料更为有效)偏相关分析协方差分析多元方差分析反应面模型分析重复测量方差分析这里,我们先介绍有关GLM过程在方差分析中的应用。GLM过程里,采用MODEL语句反映因变量
23、与自变量(即效应)的模型,其形式是:模型说明模型类型MODELY=ABC主效应MODELY=ABA*B交互效应MODELY=ABA(B)嵌套效应MODELY1Y2=AB多元方差分析MODELY=AX协方差分析其中A,B,C是分类变量;X,Y是连续型变量。前面介绍的ANOVA过程只能用于平衡设计资料(每个分类因子的组合观察数相等)的方差分析,当不平衡时,只能用GLM过程。1过程格式PROCGLM;CLASS变量表;MOIDEL因变量一效应;MEANS效应选择项;RUN;2使用说明(1)程序中,CLASS语句和MODEL语句是必需的,而且CLASS语句必须出现在MODEL语句之前。(2)CLASS
24、语句中的变量是分类变量,可以是数值型,也可以是字符型。(3)MODEL语句指明因变量和自变量(因子变量)效应,其效应可以是主效应、交互效应、嵌套效应和混合效应。对应的效应模型同ANOVA过程中效应模式相同。(4)MEANS语句是选择语句,计算所列的效应对应的因变量均值,若指明了选择项,则将进行主效应均值间的检验。常用的选择项如下:BON、DUNCAN、LSD、REGWF、REGWQ、SNK(Q检验)、SCHEF、SIDAK、SMM(GT2)、TUKEY、WALLER、DUNNETT(1-n检验)以上选择项在实际应用中,一般选择一种或两种方法即可。ALPHA=p给出检验的显著性水平。缺省值是0.
25、05。3举例(1)单因素方差分析健康男子各年龄组淋巴细胞转化率()如下表,问各组淋巴细胞转化率的均值之间的差异是否显著?表:健康男子各年龄组淋巴细胞转化率()1120岁586161626368707074784150岁5457575860606364666175岁4352555660程序:(yp123.sas)编程说明:变量a代表年龄组因子,有3个水平值;变量n代表各组例数。过程步中,用CLASS语句指明因素为分类变量a,用MODEL语句指明单因素的效果模型。结果说明:因F=9.77,P=0.0010.05,故总体或A因素各水平间有非常显著差异。即说明各年龄组的淋巴细胞转化率有显著差异。(2)
26、二因素方差方析对下表中的假设数据作二因素方差分析。因素BB1B2B3因素AA13.32.61.53.63.11.90.81.63.22.65.24.7A22.21.34.24.35.32.82.02.94.43.84.45.1A33.92.93.12.93.54.92.54.84.65.63.93.0程序:(yp124.sas)编程说明:数据步中,变量a代表因素a,其水平数是2,变量b代表因素b,其水平数是3,变量n是每组的重复次数。过程步中,用CLASS语句指明两个因素a和b,用MODEL语句指明带有交互影响二因素的效果模型。结果说明:通常GLM过程按两种方法输出各因素所引起的离差平方和(T
27、ypeISS,TypeSS)。TypeISS按累积效应(有交互效应)输出,TypeSS按独立效应(只有主效应)输出。即若有充分的理由将所有因素按主次顺序(交互效应在主效应之后)排列在MODEL语句中,应选择TypeISS的结果。否则选择TypeSS的结果。这里我们选择TypeISS的输出。讨论:因F=2.50,O.05PO.0523,故总体无显著差异,但A因素、B因素均有显著差异,而A*B因素无显著差异,这样我们可以排除交互因素再作一次方差分析,即修改上述程序中的MODEL语句(MODELX=AB)。结论:因F4.22,P0.0127,故总体有显著差异,而且A因素、B因素的F值和P值分别为F=
28、4.70,P0.0378,F=3.98,PO.0287,故认为两因素对分析指标都有显著影响。协方差分析协方差分析法是把直线回归法与方差分析法结合起来的一种方法。它利用回归的关系消除自变量不等的影响后,再进行方差分析。如在营养实验中,用直线回归把食物消耗量(或初始重量)与所增体重的关系找出来,然后求出当食物消耗量(或初始重量)化为相等时,各饲料组动物所增体重的调整均值,用协方差分析检验调整均值间的差异。协方差分析适合于完全随机化设计资料、随机化区组设计资料、拉丁方资料、析因设计资料等。1过程格式PROCGLM;CLASS效应;MODEL因变量协变量表效应SOLUTION;LSMEANS效应选择项
29、;RUN;2使用说明(1)CLASS语句指明分类变量(因素),也叫方差变量。(2)MODEL语句指明因变量与协变量、分类变量的模型。选择项SOLUTION要求输出回归方程中各参数的估计值。(3)LSMEANS语句是可选语句。要求输出每个列在该语句中效应的最小二乘方均值。常用的选择项有:E计算最小平方均值的可估计函数STDERR输出最小平方均值标准误差PDIFF输出假设HOE=effects指定模型中的一个效应项用作误差项SINGULAR=n调整可估计性检验3举例实验中将15只白鼠用随机抽样法分为两组,第一组10只白鼠饲以人工母乳,第二组5只白鼠饲以奶粉。现将两组白鼠九周内之食物消耗量(X,克)
30、及所增体重(Y,克)列表下,问:摄取两种不同饲料的白鼠所增体重的均值有无显著的差别?表:摄取两种不同饲料的白鼠所增体重母乳奶粉XYXY549.1123.5704.0171.0532.0117.0690.2170.0510.0124.5517.1113.0526.0104.0567.6126.0373.789.0566.0121.0560.0142.5571.1127.0618.7140.0470.9102.5500.9111.2程序:(yp126.sas)编程说明:数据步中,变量a代表组别,是离散变量,其水平数是2;变量X是协变量,用来读取食物消耗量的数据;变量Y是因变量,用来读取所增体重的数
31、据,变量n是每组的样本数。过程步中,用CLASS语句指明分类变量,用MODEL语句指明因变量与协变量的模型。结果说明:因F0.08,0.050.05,故认为两调整均值间无显著差异。第三节非参数检验(NPARlWAY过程)前面介绍的t检验和方差分析属于参数的假设检验,其前提条件是:总体的分布为正态分布。但在许多实际问题中,总体的分布形式很难确定,或者总体的分布为偏态的,在这种情况下,参数的假设检验就不适用了。一般可选用非参数统计方法。参数检验和非参数检验单样本z和t检验(procmeans,procttest)卡方检验、符号检验、Wilcoxon符号秩检验、K_S检验;(procfreq,pro
32、cunivariate)成对样本两独立样本Wilcoxon符号秩检验,MannWhitneyU检验、K_S检验,(procnpar1way)多个独立样本检验(多重比较)方差分析(procanova,procglm)Kruskal-WillisTest、FriedmanTest(procnpar1way)相关性Pearson相关(proccorr)Spearman、Kendall秩相关(proccorr)在SASSTAT中,NPARlWAY过程专门用来处理单因素的非参数性检验。它基于经验分布函数和跨过单向分类的因变量的秩得分,计算出几个统计量,用以检验变量的分布在跨过不同组时有相同的位置参数。秩得分包括Wilcoxon得分、中位数得分、Savage得分和VanderWaerde
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冀教版四年级下册数学教案
- 农村环境整治与生态建设
- 焊接作业工艺流程标准化与优化方案
- 生产的火灾危险性分类标准
- 高一化学教案:专题第二单元第二课时乙酸酯
- 2024届辽宁省大连海湾某中学高考仿真卷化学试卷含解析
- 2024高中物理章末质量评估四含解析新人教版选修1-1
- 2024高中语文略读课文第8课杨振宁:合璧中西科学文化的骄子课堂练习含解析新人教版选修中外传记蚜
- 2024高中语文第五单元散而不乱气脉中贯自主赏析祭十二郎文学案新人教版选修中国古代诗歌散文欣赏
- 2024高中语文精读课文二第5课1达尔文:兴趣与恒心是科学发现的动力一作业含解析新人教版选修中外传记蚜
- 施工项目环保策划方案
- 内科护理学-第二章-呼吸系统疾病病人的护理试题
- 班组长培训之品质意识培训
- 道德经中德文对照版
- 公路工程随机抽样一览表(路基路面现场测试随机选点方法自动计算)
- 2021版中医症候医保对应中医症候医保2
- 2023年山东省青岛市中考化学试题(含答案解析)
- 安徽华塑股份有限公司年产 4万吨氯化石蜡项目环境影响报告书
- 世界奥林匹克数学竞赛6年级试题
- 药用植物学-课件
- 文化差异与跨文化交际课件(完整版)
评论
0/150
提交评论