方差、相关与回归分析_第1页
方差、相关与回归分析_第2页
方差、相关与回归分析_第3页
方差、相关与回归分析_第4页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、方差、相关与回归分析主要内容方差分析方差分析的过程单因素方差分析二因素方差分析相关分析相关分析的过程回归分析一元回归多元回归9.2 方差方析 方差分析是检验两个或两个以上样本均数间差异是否显著的方法。 在比较几个组时,H0假设通常是设各组平均值相等。检验两个均数间差别的显著性可以用t检验法,也可用方差分析法。方差分析的基本概念样本均数间所以有差别,可能有两 种原因造成:首先它们必须有抽样误差(个体间变异的影响;其次,如果各组所接受的不同处理方法是有不同的作用的,那么,它也是由于处理不同所造成的。方差分析的基本概念如果处理是没有作用的,即各样本均数来自同一总体,那么用方差分析的方法可以算出个体间

2、变异 2的估计值组内均方(M.S组内)。这时,由方差分析法算出的组间均方(M.S组间),也是个体间变异2的估计值。如以组内均方除组间均方,称之为F值,即F=M.S组间/M.S组内,则由于组间和组内均方都是个体间变异2的估计值,因之,如无抽样误差则F应该等于1。但由于组间和组内均方都只是2的估计值,由于抽样误差的关系,组间均方和组内均方都不正好等于2,因之F也不正好等于1,而可以大于或小于1。方差分析的基本概念但由于样本来自相同总体,F值一般不会距1很远,其分布情况(F分布)与组间和组内自由度有关。与此相反,如果处理是确有作用的,即各样本均数不是取自相同总体,这时用方差分析计算出来的组内均方仍是

3、个体间变异2的估计值。但组间均方则不仅是个体变异所致,同时也由于处理的作用不同所致。9.2 方差方析方差分析的基本思想是把全部数据关于总均值的离均差平方和分解成几个部分,每一部分表示某因素或交互作用所产生的效应,将各部分均方与误差均方相比较,从而确认或否认某些因素或交互作用的重要性。方差分析公式概括为: 总变异组间变异组内变异 其中:组间变异由各因素所引起;组内变异由个体差异或者说由误差引起的。 常用的方差分析法有以下种:完全随机设计资料的方差分析(单因素方差分析)随机区组设计资料的方差分析(两因素方差分析)拉丁方设计资料的方差分析(三因素方差分析)R*C析因设计资料的方差分析(有交互因素的方

4、差分析) SAS系统中,ANOVA过程可以处理以上情形的方差分析,但它要求每个分类因子的组合观察数相等,即数据是均衡的。若不均衡,就要求用GLM过程进行处理。9.2.1 均衡数据的方差方析1. 过程格式:PROC ANOVA DATA=数据集;CLASS 变量;MODEL 因变量效应;MEANS 效应/选择项;2. 说明 (1) 程序中,CLASS语句和MODEL语句是必需的,并且CLASS语句必须出现在MODEL语句之前。 (2) CLASS语句中的变量是分类变量,可以是数值型,也可以是字符型。 (3) MODEL语句指明因变量和自变量(因子变量)效应,其效应可以是主效应、交互效应、嵌套效应

5、和混合效应。常用MODEL语句效应模型如下:1)主效应模型 MODEL y=a ;(单因素方差分析模型) MODEL y=a b;(二因素方差分析模型) MODEL y=a b c;(三因素方差分析模型) 模型中,a ,b ,c 是主效应,y 是因变量。 2)交互效应模型 MDOEL y=a b a*b MDOEL y=a b c a*b a*c b*c a*b*c; 模型中, a ,b ,c 是主效应, a*b,a*c,b*c,a*b*c 是交互效应,y 是因变量。(4) MEANS语句是选择语句,计算并输出所列的效应对应的因变量均数,若指明了选择项,则将进行主效应均数间的检验。常用的选择项

6、如下:SNK(Q检验)均数间两两比较 DUNCAN 一组均数与其余各组比较ALPHAp用以确定检验的显著性水平。缺省值是0.05。3. 举例 例1完全随机设计资料的方差分析(单因素方差分析) 某劳动卫生教研组研究棉布、府绸、的确凉、尼龙四种衣料内棉花吸附十硼氢量。每种衣料各做五次测量,所得数据如表9-4。试检验各种衣料间棉花吸附十硼氢量有没有显著差别?表9-4棉布府绸的确凉尼龙2.332.483.064.002.00 2.343.065.132.932.683.004.612.732.342.662.802.332.223.063.60程序如下:DATA an; DROP i; DO i=1

7、TO 5; DO a=1 TO 4; INPUT x ; OUTPUT; END; END; CARDS; 2.33 2.48 3.06 4.00 2.00 2.34 3.06 5.13 2.93 2.68 3.00 4.61 2.73 2.34 2.66 2.80 2.33 2.22 3.06 3.60PROC ANOVA; CLASS a; MODEL x=a;RUN;例2随机区组设计资料的方差分析(两因素方差分析) 用4种不同方法治疗8名患者,其血浆凝固时间的资料如表9-5,试作方差分析。 数据步中,变量a代表不同治疗方法,其水平数是4,变量b代表区组因素,其水平数是8。过程步中,用CL

8、ASS语句指明两个因素a和b,用MODEL语句指明二因素的效果模型。受试者编号(区组) 处理组 1 2 3 4 18.49.49.812.2212.815.212.914.439.69.111.29.849.88.89.912.058.48.28.58.568.69.99.810.978.99.09.210.488.49.49.810.0DATA an; DO b=1 TO 8; DO a=1 TO 4; INPUT x ; OUTPUT; END; END;CARDS; 8.4 9.4 9.8 12.2 12.8 15.2 12.9 14.4 9.6 9.1 11.2 9.8 9.8 8.8

9、 9.9 12.0 8.4 8.2 8.5 8.5 8.6 9.9 9.8 10.9 8.9 9.0 9.2 10.4 7.9 8.1 8.2 10.0PROC ANOVA; CLASS a b; MODEL x=a b;RUN; 例用SNK法(Q检验)作均数间的两两比较 研究酵解作用对血糖浓度的影响,我们从8名健康人中抽取了血液并制备成血滤液。每一个受试者的血滤液又分成4份,然后随机地把各份血滤液分别放置0、45、90、135分钟后测定其中血糖浓度(资料见表9-9)。试比较放置时间对血糖浓度有无影响。受试者编号(区组号)放置时间(分)04595135123456789595106981021

10、1210595 9594105979811210392 89889795971019790 8384909088948880 DATA an; DO a=1 TO 8; DO b=0 TO 135 BY 45; INPUT x ; OUTPUT; END; END; CARDS; 95 95 89 83 95 94 88 84 106 105 97 90 98 97 95 90 102 98 97 88 112 112 101 94 105 103 97 88 95 92 90 80 PROC ANOVA; CLASS a b; MODEL x=a b; MEANS b/SNK; RUN;第十

11、章 相关与回归 在医学上人的身高与体重、体温与脉搏次数、年龄与血压、药物剂量与疗效等均有一定的联系。说明客观事物或现象相互关系的密切程度并用适当的统计指标表示出来,这是相关分析的任务。把客观事物或现象间的关系用函数形式表示出来,则是回归分析所要解决的问题。第十章 相关与回归 CORR过程计算变量间的相关系数,包括PEARSON积矩相关系数等,同时给出单变量描述统计。 REG过程是SAS中通用的基本的回归分析过程,它是用最小二乘法原理求解线性回归方程的有效过程。此外,因为逐步回归分析的方法在实际工作中应用甚广,故将其单独提出来介绍如何使用REG过程进行逐步回归分析。 10.1 CORR 过程10

12、.1.1 相关分析相关是研究随机变量之间相互关系的统计分析方法,它研究随机变量之间相互关系的密切程度。 线性相关,又称简单相关。其统计指标是PEARSON 相关系数 r 。 当研究多个随机变量之间的相互关系时,可对变量进行多元线性相关分析。多元线性相关的统计量是全相关系数R和各偏相关系数。在多元线性相关分析中,变量之间的关系是错综复杂的,两个变量间的简单线性相关系数往往不能正确说明两者的真实关系,只有在其它变量固定,即扣除了其它变量的影响后,计算两变量间的偏相关系数才能反映此两变量的真实情况。 当变量不服从正态分布时,例如按等级分类或相对数资料,这时需用非参数相关分析方法,如等级相关分析法等。

13、10.1.2 语句说明1. 过程格式PROC CORR 选择项; VAR 变量表; WITH 变量表; PARTIAL 变量表; WEIGHT 变量; FREQ 变量; BY 变量表;2.说明 (1) PROC CORR 语句 PROC CORR 选择项; PROC CORR 语句的选择项主要有: PEARSON 计算通常的PEARSON积矩相关,是缺省值。 KENDALL 计算肯德尔-b系数。 SPEARMAN 计算斯皮尔曼等级相关系数。HOEFFDING 计算霍夫丁统计量。OUTP=dataset 产生含有PEARSON 相关的一个新数据集。NOMISS 将带有某一变量缺项值的观测值从所有

14、计算中除去。 NOSIMPLE 抑制简单统计。(2) VAR 语句 (3) WITH 语句 WITH 变量表; 指明特别配对的变量名, 与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。 (4) PARTIAL 语句 PARTIAL 变量表; 指明求偏相关系数时需要固定的偏变量名。 DATA ABC; INFILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL; PROC CORR; VAR HEIGHT WEIGHT VITAL; PROC CORR NOSIMPLE; VAR HEIGHT WEIGH

15、T; WITH VITAL; PROC CORR NOSIMPLE; VAR HEIGHT VITAL; PARTIAL WEIGHT; RUN;10.2 REG 过程10.2.1 简介 回归是研究随机变量和非随机变量之间的数量依存关系的统计分析方法。当自变量X与因变量Y之间呈直线关系时,称为直线回归。直线回归要求因变量是服从正态分布的且方差相等。 当自变量不只一个时,可进行多元线性回归分析。研究一个因变量与多个自变量之间的线性依存关系,称为多元线性回归。 REG 过程是用最小二乘法原理求解线性回归方程的过程。10.2.2 语句说明1. 过程格式 PROC REG 选择项; MODEL 因变量

16、=自变量 /选择项; VAR 变量; FREQ 变量; WEIGHT 变量; BY 变量; (1)PROC REG 语句 PROC REG 选择项;(略)(2)MODEL 语句 MODEL 因变量=自变量表/选择项; 指明因变量和自变量, 选择项是有关回归计算、估计、预测值和残差,常用的选择项有: STB 打印标准回归系数 CORRB 打印估计的相关矩阵 COLLINOINT请求进行自变量的共线 性分析 P 计算预测值及残差 R 请求分析残差 CLM 打印因变量均值95%的 置信界限的上下限 CLI 对各预测值打印95%的 置信界限的上下限3. 举例(1) 简单线性回归分析 仍以上节相关分析资

17、料为例,进行以身高估计肺活量的线性回归分析,同时要求打印出各观测点上因变量均值的95%置信区间。 DATA ABC; INFILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL ; PROC REG; MODEL VITAL=HEIGHT/CLM; RUN;(2)多元线性回归分析 仍以表10-1的资料为例,进行身高、体重与肺活量的多元线性回归分析,程序如下: DATA ABC; INFILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL ; PROC REG; MODEL VITAL=HEIGHT WEIGHT / COLLINOINT; RUN;10.3 逐步回归分析 在进行逐步回归分析时,应用MODEL语句中的SELECTION=name选择项,来选择用于进行逐步回归分析时模型;其中name可以是FORWARD(或F); BACKWARD(或B); STEPWISE ;MAXR; MINR;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论