协方差分析简介_第1页
协方差分析简介_第2页
协方差分析简介_第3页
协方差分析简介_第4页
协方差分析简介_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、协方差分析简介在许多研究中,两组或多组均数的比较还需要控制一些非研究因素的影响,这些非研究因素称为混杂因素(Confounding factor)。为了帮助读者进一步理解分类自变量的线性回归的回归系数的特殊意义。先用下例说明自变量为二分类变量的直线回归中的回归系数检验与成组t检验之间的关系。例12.7 为了评价控制饮食对糖尿病控制的作用,在坚持控制饮食的糖尿病人群和未控制饮食的糖尿病人群中各随机抽取30个对象,测量其空腹血糖如下控制饮食组(group=1)6.6 7.3 7.2 7.3 7.4 6.5 7.3 6.4 7.2 7.7 6.8 6.3 7.1 7.8 7.2 7.7 6.7 7.

2、2 6.8 8 6.9 6.6 7 7.4 7.7 7.1 7.1 7.8 6.4 7.4未控制饮食组(group=0)7.7 7.7 7.2 6.9 7.6 7.4 7.9 6.9 7.5 6.9 8.4 7.2 7.2 7.1 7.8 7.4 7.4 8.4 7.6 7.9 6.9 7.9 7.2 7.5 7 7.2 6.7 7.1 7.3 7.6数据格式groupy116.6217.3317.2417.3517.4616.5717.3816.4917.21017.71116.81216.31317.11417.81517.21617.71716.71817.21916.820182116

3、.92216.623172417.42517.72617.12717.12817.82916.43017.43107.73207.73307.23406.93507.63607.43707.93806.93907.54006.94108.44207.24307.24407.14507.84607.44707.44808.44907.65007.95106.95207.95307.25407.555075607.25706.75807.15907.36007.6正态性检验和方差齐性检验的结果表明二组的资料都近似服从正态分布,并且方差齐性。成组t检验的Stata操作和结果如下ttest y,by(

4、group) Two-sample t test with equal variances- Group | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- 0 | 30 7.416667 .0777682 .4259539 7.257613 7.57572 1 | 30 7.13 .0840293 .4602473 6.958141 7.301859-+-combined | 60 7.273333 .0597484 .4628089 7.153777 7.39289-+- diff | .2866666 .1144937 .057482

5、5 .5158507-Degrees of freedom: 58 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff = 0 Ha: diff > 0 t = 2.5038 t = 2.5038 t = 2.5038 P < t = 0.9924 P > |t| = 0.0151 P > t = 0.0076 上述结果表明两组样本均数的差值为0.286666,两组样本均数差值的标准误为0.1144937。t值为2.5038,相应的P值为0.0151。若设未控制饮食组(g=0)的空腹血糖总体均数为m0,控制

6、饮食组(g=1)的空腹血糖总体均数为m0+b,即饮食控制组的总体均数未饮食控制组的总体均数b,因此两组总体均数相等对应就是b0。因此两组的空腹血糖总体均数可用下列表达式描述。 (1)以空腹血糖为应变量y,以分组变量group为自变量,用线性回归对参数m0和b进行估计,相应的Stata命令和主要结果如下reg y group- y | Coef. Std. Err. t P>|t| 95% Conf. Interval-+- group | -.2866666 .1144937 -2.50 0.015 -.5158507 -.0574825 _cons | 7.416667 .080959

7、3 91.61 0.000 7.254609 7.578724-常数项的估计值为7.416667,正好为未控制组的样本均数;回归系数b的估计值为-.2866666,正好对应两组样本均数的差值,回归系数b0的t检验值为-2.5,正好对应成组t检验的值,相应的P值也相同。由此可知,t检验也可以用直线回归进行分析并且两分类变量为协变量的回归系数的意义就是两组均数的差值,并且不难证明:凡符合成组t检验条件的资料必定满足线性回归对资料的要求:残差正态和方差齐性。因此以下将通过一些例子介绍利用线性回归在校正一些混杂因素情况下对某两组均数进行比较,即协方差分析。例12.8 治疗缺铁性贫血50人,随机分为二组

8、:A组和B组,分别用两种不同的治疗方案对患者进行一个疗程的治疗,由此评价两种治疗方案的疗效。数据如下: A组g=1治疗前y0318316345288329331330305294324312337294治疗后y1492485515426492499500461443475471477442治疗前y0323295359304307300334313313357324336治疗后y1483461525460466457499470493542498517B组g=0治疗前y0298327322325329295326289322342306285316治疗后y14304614494304724224

9、48414448487434409435治疗前y0345321340303323307352308296315331342治疗后y1468454475440429432500437423442453478其中变量y0为患者在治疗前的红细胞数(万/ml),y1为治疗后的红细胞数(万/ml),group为分组变量,group1表示A组和group=0表示B组,相应的Stata格式为:y0y1group1318492123164851334551514288426153294921633149917330500183054611929444311032447511131247111233747711

10、329444211432348311529546111635952511730446011830746611930045712033449912131347012231349312335754212432449812533651712629843002732746102832244902932543003032947203129542203232644803328941403432244803534248703630643403728540903831643503934546804032145404134047504230344004332342904430743204535250004630

11、84370472964230483154420493314530503424780在临床研究中,通常以红细胞增加数作为效应指标评价,因此首先产生红细胞增加数的变量yd,相应的Stata命令如下:gen yd=y1-y0以治疗后的红细胞数治疗前的红细胞数为增加数若不考虑治疗前红细胞数(称为基线红细胞数)对增加数的影响,则参照上例的(1)式,对应可以写出相应的两组总体均数表达式:md=md0+bgroup (2)其中md0为A组的红细胞增加数的总体均数,md0+b为B的红细胞增加数的总体均数,b为两组红细胞增加数总体均数之差。但是一般而言,基线红细胞数低的患者经治疗后的增加数可能要大于基线红细胞数

12、较高的患者的增加数,所以要校正基线红细胞数对红细胞增加数的影响,并假定基线红细胞数与红细胞增加数成线性关系。因此在(2)式中增加基线红细胞数变量y0。md=md0+b1group+b2y0 (3)由(3)式可知,A组(group=0)的红细胞增加数的总体均数为md=md0+b2y0,而B组 (group=1)的红细胞增加数的总体均数为md=md0+b1+b2y0,因此对于同一基线红细胞数y0情况,两组红细胞增加数的总体均数差异为b1,故(3)式消除了不同基线红细胞数y0对两组总体均数差异的影响。b10说明两组的疗效相同;b1>0说明B组疗效优于A组;b1<0说明A组疗效优于B组。我

13、们可以用线性回归方法对(3)式中参数md0,b1和b2进行估计和统计检验(设a0.05),相应的Stata命令和主要结果如下:reg yd g y0- yd | Coef. Std. Err. t P>|t| 95% Conf. Interval-+- g | 34.01444 2.873596 11.84 0.000 28.23351 39.79537 y0 | .2451717 .0782794 3.13 0.003 .0876939 .4026496 _cons | 50.08828 25.02241 2.00 0.051 -.2503122 100.4269-md0的估计值为50

14、.0882828,b1的估计值为34.01444,相应的P值<0.001,因此可以认为:l 在相同的基线红细胞数情况下,A组的红细胞增加数比B组平均高34.01444(万/ml)个红细胞数,并且差别有统计学意义。即:可以认为A组治疗方案的疗效优于B组治疗方案的疗效。l b2的系数估计值为0.2451717,并且差别有统计学意义,因此可以认为基线红细胞数越高,治疗后的红细胞增加的幅度就越大。用上述统计方法要求残差(实际观察值预测值)满足正态分布、两组的残差方差齐性并且基线红细胞数y0与分组变量group无交互作用,故需要对上述条件进行检查,相应的Stata命令和检查结果如下:predict

15、 e,residual 计算残差. swilk e 正态性检验 Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z-+- e | 50 0.95512 2.111 1.593 0.05555设正态性检验的a0.05,正态性检验的P值为0.05555,故可以认为残差近似服从正态分布。sdtest e,by(group) 方差齐性检验Variance ratio test- Group | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- 0 | 25 1.04e-

16、07 1.959625 9.798123 -4.044466 4.044467 1 | 25 6.08e-08 2.059203 10.29601 -4.249986 4.249986-+-combined | 50 8.23e-08 1.406728 9.947072 -2.826926 2.826927- Ho: sd(0) = sd(1) F(24,24) observed = F_obs = 0.906 F(24,24) lower tail = F_L = F_obs = 0.906 F(24,24) upper tail = F_U = 1/F_obs = 1.104 Ha: sd

17、(0) < sd(1) Ha: sd(0) = sd(1) Ha: sd(0) > sd(1) P < F_obs = 0.4051 P < F_L + P > F_U = 0.8101 P > F_obs = 0.5949设方差齐性检验的a0.10,方差齐性的P值为0.8101,故可以认为残差的方差齐性。gen gy0=g*y0 产生基线与分组变量的交互作用项. reg yd g y0 gy0 作线性回归- yd | Coef. Std. Err. t P>|t| 95% Conf. Interval-+- g | -22.92482 49.9281 -0.46 0.648 -123.4249 77.57523 y0 | .1515984 .1131

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论