医用多因素分析-第一讲回归分析_第1页
医用多因素分析-第一讲回归分析_第2页
医用多因素分析-第一讲回归分析_第3页
医用多因素分析-第一讲回归分析_第4页
医用多因素分析-第一讲回归分析_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医用多因素分析Medical Multivariate Statistical Analysis20学时 共5次课 两次考试 随堂考 10月13日,10月20日课程简介 多因素分析即多元统计分析是运用数理统计方法来研究多变量(多指标)问题的理论和方法。 本课程从实用的角度,在介绍多元线性回归分析,1ogistic回归分析,生存分析(包括Cox回归分析),统计思想和方法的基础上,结合SAS统计软件,使用所学分析方法,通过实例讲解各类资料的统计分析过程,实现对常用多因素统计分析方法的掌握,从而培养同学们对各类多因素资料的统计分析能力,以适应现代医学科学研究的需要。参考资料1、于秀林、任雪松,多元统

2、计分析,中国统计出版社2、余松林,医学统计学,人民卫生出版社3、孙振球,医学统计学,人民卫生出版社4、董时富,生物统计学,科学出版社第一讲 回归分析 Regression Analysis 多元统计分析的各种方法中应用最广泛的一种-回归分析方法,回归分析它是处理多个变量间相互依赖关系的一种数理统计方法。变量间的相互依赖关系在实际问题中是大量存在的,回归分析是研究这种相互依赖关系的有效数学方法。回归分析着重研究变量之间能否建立数学表达式,以及所建立的数学表达式的可靠性的问题即回归的显著性问题。主要内容一元线性回归分析多元线性回归分析Logistic回归分析一、一元线性回归基本问题xy(xn ,

3、yn)(x1 , y1)(x2 , y2)(xi , yi)ei = yi-yixy10bb+=一元线性回归模型具体形式一元线性回归模型可表示为 y = b0 + b1 x + e误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响0 和 1 称为模型的参数一元线性回归模型基本假定误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为 E ( y ) = 0+ 1 x对于所有的 x 值,的方差2 都相同误差项是一个服从正态分布的随机变量,即N( 0 ,2 ) 显然对于给定的x值,y是的线性函数,于是有yN( E(y) ,2 )一元线

4、性回归方程 对于一个给定的 x 值,y 的期望值为 E ( y ) = 0+ 1 x 我们可以把 E ( y )作为随机变量y的估计值,这样就有了 把它称为回归方程。上式对 求偏导数,并令偏导数为0,可得到如下方程组使因变量的观察值与估计值之间的离差平方和达到最小来求得 的方法。为此令参数的最小二乘估计对以上方程组求解,可得解为:其中: 在实际问题中,随机变量与一般变量之间究竟是否存在线性相关关系呢?如果Y不随X的变化而变化,则应有 。否则Y应随X的变化而作变化,所以有必要对回归方程作显著性检验。回归方程的显著性检验也是对回归系数的显著性的检验。T检验的方法F检验的方法二、多元线性回归 一元线

5、性回归研究一个因变量与单个自变量之间呈直线关系的一种统计方法。由于事物之间的联系常常是多方面的一个因变量的变化可能同时受到其他多个自变量的影响。如糖尿病患者的血糖变化可能受到胰岛素、糖化血红蛋白、血清总胆固醇,甘油三酯等多种生化指标的影响。对于这种多指标观测资料的回归分析,要用到多元线性回归,多元线性回归用于分析一个因变量与多个自变量之间的线性关系。2.1多元线性回归模型 假定对n例观察对象逐一测定了应变量Y与m个自变量X1,X2,.Xm的数值。, 多元线性回归模型的一般形式为为常数项称为偏回归系数或简称回归系数。多元线性回归模型的应用需满足如下条件:(1)各例观测值Yi相互独立。(2)残差

6、服从均数是0,方差为 的正态分布,它等价于对任意一组给定自变量X1,X2.Xm,应变量Y具有相同的方差,并服从正态分布。多元线性回归分析一般可分为两个步骤:(1)根据样本数据求得模型参数的估计值,从而得到表示应变量Y与自变量数量关系的表达式。 表示Y的估计值,该式称为多元线性回归方程。(2)对回归方程及各自变量做假设检验,并对方程的拟合效果及各自变量的作用大小作出评价。2.2 参数的最小二乘估计 与一元线性回归一样,可以用最小二乘法估计多元线性回归方程的参数。 对于n组观测值,残差的平方和 根据微积分的理论知道,这只需求解下列方程组:正规方程用矩阵形式表示即为: 正规方程组的矩阵解法2.3 回

7、归方程的显著性检验 其中,回归平方和可用下式计算SSR=SST=SSE+SSR 残差平方和SSE=SST-SSR,用于判断是否成立的统计量为FF(m,n-m-1).检验的具体步骤.对规定的显著性水平 ,若则拒绝 ,认为 y 对 存在线性关系,称回归方程显著. 否则,认为 y 对 之间不存在线性关系,称回归方程不显著.2.计算检验统计量至少有一个不为01.提出原假设和备择假设 2.4 回归系数的显著性检验 t检验法步骤 1.提出原假设和备择假设2.计算检验统计量其中而 是 对角线上第 j+1 个元素.标准误的计算较复杂应用到了矩阵运算。 3. 对规定的显著性水平 ,若则拒绝 ,称 对 y 的影响

8、显著,即认为. 否则,接受 ,称 对 y 的影响不显著,即认为. 对于同一资料,不同自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y的回归所起的作用越大。标准回归系数 贡献小的因素未必是不显著因素,因此需要做显著性检验。偏回归平方和检验法利用某自变量Xj的偏回归平方和检验2.5 逐步选择法(变量筛选) 变量筛选的目的是使回归方程中包含所有对因变量作用显著的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。主要方法有:1、向前引入法(Forward)2、向后剔除法(Backward)3、逐步引入剔除法(Stepwise), 即:向前引入法与向后剔除法的结合以上方法需要用到的是

9、F统计量,F(1,n-k-1)详细过程见生物统计学PP.234-235 董时富三、 多元 Logistic 回归分析3.1 基本原理多元线性回归中假设了应变量是连续正态分布变量,而实践中需要分析定性分类数据,例如,生存与死亡、有病与无病等二分类变量。logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法。不是直接分析应变量y与x的关系,而是分析y取某个值的概率p与x的关系,是概率型非线性回归。3.2 Logistic回归模型的建立 若用Z来表示m个自变量的线性组合则有logit回归模型为3.3 参数估计

10、 极大似然估计 (maximum likelihood estimate, MLE) 分层资料的似然函数3.4 参数的意义 (危险因素分析)3.5 假设检验 得到logistic回归方程后,还需要对其回归系数进行假设检验,以说明研究的自变量对应变量Y的影响是否具有统计学意义。为此需要对模型中的回归系数是否均为0作出检验。更典型的问题是对一个回归系数的检验。 常用的检验方法有似然比检验(likelihood ratio test)和Wald检验和计分检验。 SAS系统是一个模块化的集成软件系统。它具有完备的数据存取、管理、分析和显示功能。 基本窗口:包括PROGRAM EDITOR窗口(程序编辑

11、窗,缩写为PGM)、LOG窗口(登录窗或日志窗)和OUTPUT(输出窗)三个窗口。OUTPUT 窗口 包含由大多数SAS过程产生的输出。在SAS会话期间相继产生的输出都附加到OUTPUT窗口内容中。LOG窗口 (显示程序执行过程中的一些信息)当前会话发布的SAS语句;注释、警告和出错信息;数据处理的一些结果。PGM 窗口输入和编辑文本,包括SAS语句;提交SAS语句;拷贝一个外部文件到PGM窗口,或拷贝窗口内容到外部文件上;菜单栏编辑框命令框SAS程序由两步组成:data步Data数据输入与整理模块proc步数据的分析模块SAS语句是由关键词、SAS名、特殊字符或运算符组成并以分号结尾的字符串

12、。SAS 程序data smoke; infile data_eg1.txt; input x1 x2 y count;run;proc print;run;proc logistic des;freq count;model y=x1 x2;run;在logistic过程步中加“des”选项的目的是使SAS过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性病例的优势比。如果不加此选择项,则软件会按照y=0的概率拟合模型,此时,所有参数估计的符号相反,OR值为原来的倒数。 观察例数计算结果OR值OR的95%CI对偏回归系数的假设检验由结果可看出,吸烟和饮酒均为食管癌发病的危险因素,吸烟人群

13、发生食管癌的可能性是不吸烟人群的2.42倍,饮酒人群发生食管癌的可能性是不饮酒人群的1.69倍。 概率p值均小于0.05,说明方程有意义。对所拟合模型的假设检验:3.6 变量筛选例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批患者标本资料,现从中抽取26例。试用logistic回归分析筛选出与癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。 SAS程序data cancer; infile data_eg2.txt ; input x1-x5 y;Proc print;proc logistic des; model y=x1-x5/ selection=step

14、wise sle=0.1 sls=0.1 stb; run;用逐步回归法拟合模型,变量选入和剔除水平均为0.10 logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。 3.7 条件logistic回归 对于配比资料,第i个配比组可以建立一个Logistic回归: Pi 表示第i层在一组危险因素作用下发病的概率, 表示第i层的效应, 、 、 为待估计的参数。条件logistic

15、回归与非条件logistic回归的模型不同之处在常数项上,不同匹配组的常数项 可以各不相同,但是内在假定了自变量在各配比组中对结果变量的作用是相同的即自变量的回归系数与配比组无关。 条件Logistic回归模型的参数估计值是利用条件似然函数得到的,因此称为条件Logistic回归。条件logistic回归分析只估计了表示危险因素作用的 值,表示匹配组效应的常数项被自动地消去了。条件Logistic回归的回归系数检验与分析和非条件Logistic回归完全相同。(参考 医学统计学 孙振球P342)例:某北方城市研究喉癌发病的危险因素,用1:2配对的病例-对照研究方法进行了调查。现选取了6个可能的危

16、险因素并节录25对数据,各因素的赋值说明如下表,试用条件logistic逐步回归分析(变量选入和剔除水平均为0.10) 。因素 变量名 赋值说明咽炎 x1 无=1,偶尔=2,经常=3吸烟量(支/日) x2 0=1,14=2,59=3,1020=4,20=5声嘶史 x3 无=1,偶尔=2,经常=3 摄食新鲜蔬菜 x4 无=1,经常=2,每天=3摄食水果 x5 很少=1,少量=2,经常=3 癌症家族史 x6 无=0,有=1是否患喉癌 Y 病例=1,对照=0data cancer; infile data_eg4.txt; input id y x1-x6; yy=0; if y=0 then yy

17、=1;run;proc phreg; model y=x1-x6/ selection=stepwise sle=0.1 sls=0.1 risklimits ties=discrete; strata id;run;proc phreg; model yy=x1-x6/ selection=stepwise sle=0.1 sls=0.1 risklimits ties=discrete; strata id;run;用离散logistic模型替代比例风险模型定义id为区组变量筛选结果选入4个危险因素:x2,x3,x4,x6X2(吸烟量),x3(声斯史),x4(是否经常摄食新鲜蔬菜),x6(癌症家族史)。参数估计值x4(是否经常摄食新鲜蔬菜)是保护因素。关于模型的常数项条件logistic回归中,常数项在建立条件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论