多元线性回归11_第1页
多元线性回归11_第2页
多元线性回归11_第3页
多元线性回归11_第4页
多元线性回归11_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元线性回归(Multiple Linear Regression Analysis)流行病学与卫生统计学系1多变量分析方法的提出2流行病学的一个重要应用是探索病因或危险因素(包括识别和处理混杂因素及效应修饰因素)。单变量(因素)分析:分析单一特异性因素引起的健康危害或疾病或其它结局效应难以处理多因素引起的疾病3多变量(因素)引起的疾病的病因研究研究设计阶段:匹配统计分析阶段分层分析多变量分析4分层分析是将可能对结局产生影响的变量(外源性变量或混杂变量),按其不同属性分层,再在每层内分析主要变量与结局的联系研究的变量数目(2或3个)较少时,分层分析方法完全适用。5分层分析的例子 口服避孕药与心

2、肌梗死病例对照研究 服OC 未服OC 计 MI 39 114 153 cOR = 2.19 对照 24 154 178 计 63 268 331 如果怀疑年龄有混杂作用,按年龄分层再进行分析。6 口服避孕药与心肌梗死病例对照研究按年龄分层后的结果 40岁 40岁 OC(+) OC(-) 计 OC(+) OC(- ) 计 MI 21(a1) 26(b1) 47(m11) 18(a2) 88(b2) 106(m12 ) 对照 17(c1) 59(d1) 76(m01) 7(c2) 95(d2) 102(m02) 计 38(n11) 85(n01) 123(n1) 25(n12) 183(n02)

3、208(n2) OR1 = 2.80 OR2 = 2.78 cOR/OR1 = 0.78 cOR/OR2 = 0.78 7常用的多变量分析方法协方差分析多元线性回归logistic回归比例风险回归(Cox回归)多重(偏)相关分析主成分分析因子分析聚类分析8统计学处理方法的选择两个或以上自变量资料的统计学分析方法自变量 因变量 统计方法属性(有混杂) 数值 协方差分析属性或数值 数值 多元回归属性或数值 属性(二分) logistic回归数值或属性 二分(属性) 发生的风险(有截缩) Cox(比例风险)回归属性 属性 对数-线性属性或数值 属性(多分) 判别分析数值 因子分析或聚类分析9出生体重

4、危险因素研究ID 编号LOW 出生低体重(bwt=2500=0)AGE 母亲年龄(岁)LWT 母亲末次月经时的体重RACE 种族: 1 白种人 2 黄种人 3 黑人SMOKE 吸烟史: 1 吸烟 0 否PTL 早产史: 1 有 0 无HT 妊娠高血压: 1 有 0 无UI 频繁宫缩: 1 有 0 无FTV 产前访视次数BWT 出生体重(克)10探讨的问题婴儿的出生低体重(low)是否与母亲的种族(race)有关?黑人母亲和非黑人母亲的婴儿出生体重是否有显著性差别?黑人、白人及黄种人母亲,其婴儿的出生体重是否有显著性差别?母亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史是否分别与婴儿的出

5、生体重有关?母亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史哪些因素与婴儿的出生体重有关?在控制了年龄、目前吸烟史、既往早产史、妊娠高血压史,频繁宫缩史之后,婴儿的出生体重是否依旧与种族有关?亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史哪些因素与婴儿的出生低体重有关?11多变量线性回归分析12一、概念13回归是研究变量与变量之间关系的一种手段,通过回归方程表达变量与变量之间的一种依存关系。当研究变量之间的线性关系时就是直线回归(linear regression)14如:UCSF大学的妇产科学及生殖研究所收集1980年-1990年在该生殖中心出生的婴儿及其母亲的资料。母亲的信

6、息:怀孕时的年龄、吸烟史、怀孕前的体重、早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。新生儿的信息:出生时的体重要回答的问题:用回归方程定量的刻画一个新生儿出生体重(因变量Y)与母亲孕期的多个自变量X1,X2,.间的线性依存关系 15出生体重危险因素研究数据库字段注释变量名 字段注释ID 编号BWT 出生体重(克)AGE 母亲年龄(岁)LWT 母亲末次月经时的体重(磅)RACE 种族:1白种人 2黄种人 3黑人SMOKE 吸烟史:1吸烟 0否PTL 早产史 :1有 0否HT 妊娠高血压:1有 0否UI 频繁宫缩:1有 0否FTV 产前访试次数:1一次 2二次及以上

7、0无16设有p个自变量X1,X2,,Xp,一个因变量Y,以及一份由n个个体构成的随机样本(xi1,xi2,xip,yi),i=1,2,,n a:回归方程常数项 bp:偏回归系数,指其它自变量固定的条件 下,某自变量Xp每改变一个单位时,因 变量Y的平均变化量。 :在给定自变量取值条件下y的均数的一 个点估计。17 新生儿出生体重与母亲怀孕时相关因素的关系:对每一个新生儿而言:Yi=b0+b1*agei+b2*smokei+b3*lwti+ 根据所有新生儿及其母亲的观测值,可以得到新生儿出生体重与母亲相关因素的回归方程: i =b0+b1*agei+b2*smokei+b3*lwti+.残差:1

8、8二、线性回归方程 需满足的条件19(一) LINE 原则L(linear): 自变量和因变量呈线性关系;I (independence): 某xi值改变对y的影响与另一xi的水平无关; y呈独立性,即任一个体的y值对另一个体的y值 不提供任何信息;N(normality): xi分别取某定值时得到的一组y值呈正态分布;E (equal variance): 各y值的方差相等,即各xi取不同值时y的不同分布服从方差齐性,即其方差为常数20(二)因变量的选择 因变量必须是定量指标,同时必须满足以上关于线性回归的条件要求,即LINE。21(三)自变量的选择 对于自变量没有强制性要求,但自变量和因变

9、量之间必须是线性关系。 自变量可以为定量指标、定性指标以及等级变量中的任何一种。22 如果自变量为定量指标:(1)同时自变量与因变量之间为线性关系,则可以直接以原变量的形式进入分析;(2)如果自变量与因变量之间为非线性关系,则需做适当转换,如x2,log(x),ex等。 自变量为定性或等级指标: 不需要做自变量与因变量的线性关系检验23自变量为定性指标: 为二分类变量,常用0,1或1,2表示。如x为性别指标,0代表女性,1代表男性,回归方程中对应的回归系数b表示男性比女性的y平均多b。为多分类指标,需要专业判定指标的意义等级变量:直接带入分析定性变量:亚变量(dummy)24亚(哑)变量的设置

10、引入亚(哑)变量的目的在于区分某个变量的不同属性。当自变量为属性变量,特别是不同属性之间无等级高低之分,为说明不同属性对因变量的影响大小,常需引入亚(哑)变量。25亚变量的设置:例1一项探讨影响新生儿出生体重的研究:因变量即结局变量为新生儿出生时的体重;研究的因素包括母亲怀孕时的年龄、母亲末次月经时的体重、母亲的种族、是否吸烟、是否有过早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。26亚变量的设置例1:出生体重危险因素研究变量名 字段注释ID 编号BWT 出生体重(克)AGE 母亲年龄(岁)LWT 母亲末次月经时的体重(磅)RACE 种族:1白种人 2黄种人 3黑人

11、SMOKE 吸烟史:1吸烟 0否PTL 早产史 :1有 0否HT 妊娠高血压:1有 0否UI 频繁宫缩:1有 0否FTV 产前访试次数:1一次 2二次及以上 0无27亚变量的设置:例1将种族分成白人、黑人和黄种人3种属性,可引入2(= 3-1)个亚变量,分别表示各种族,选择其中之一(例如,白人)作为参照变量 x1 x2 白人 0 0 (参照) 黑人 1 0 黄种人 0 1 28亚变量的设置:例2Framingham心脏病研究,随访1,406人18年探讨冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归如何处理年龄与冠心病发生率的关系?连续变量?其他?29亚变量的设置:例2(续)x1 = 0

12、,x2 = 0,x3 = 0,为4049岁(参照)x1 = 1,x2 = 0,x3 = 0,为5054岁x2 = 1,x1 = 0,x3 = 0,为5559岁x3 = 1,x1 = 0,x2 = 0,为6062岁 年龄(岁) x1 x2 x3 4049(参照) 0 0 0 5054 1 0 0 5559 0 1 0 6062 0 0 1 30亚变量的设置:例2(续)得到冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归方程如下:y = 0.0613 + 0.0277x1 + 0.0826x2 + 0.0845x3 + 0.1273x4 + 0.1680 x5上式中y = log(冠心病发生

13、率/(1-冠心病发生率)31亚变量的设置:例2(续)有时自变量(如年龄)虽然是连续变量,但按其每改变一个单位(一岁),来估计其对因变量的影响很微弱,如将其划分成大小不同的几种属性,并设立亚变量,则可看出不同属性对因变量的影响大小。这种指标分解方法的优点是有助于分清究竟哪种属性对所研究疾病危险性的作用较大,也便于研究因素间的交互作用。32三、线性回归基本SAS程序3334PROC REG data=文件名; 调用REG过程并指明对哪个文件执行分析,若省略“data= “ ,则SAS会自动找出在本程序之前最后形成的SAS语句。 35Model 因变量=自变量/选择项;每次调用REG过程至少要有一个

14、MODEL语句。MODEL Y=X; 一个应变量对一个自变量的回归MODEL Y=X1 X2 X3; 一个应变量对多个自变量的回归MODEL Y1 Y2=X1 X2 X3; 多个应变量对多个自变量的回归 36MODEL语句中的选择项之一: 界定有关参数估计值的有关选项:/STB:要求计算模型中各自变量的标准回归系数;/CLM:计算出预测值平均数的95%可信区间的 上、下限;/CLI:计算出各预测值的95%可信区间的上、下限;37多元回归基本SAS程序proc reg; model y=x1 x2/stb;run;38四、几个重要的概念偏回归系数:标准回归系数:决定系数:校正复相关系数:剩余标准

15、差:39偏回归系数(bj)当方程中其他自变量固定时,Xj每改变一个单位,引起Y的平均变化量,也就是说bj的大小反映了Xj对Y的影响程度。 40标准回归系数由于各自变量取值的单位及其离散程度通常不同,所以各量纲不同的回归系数之间不能直接比较大小。为此,需要对偏回归系数进行标准化以消除量纲的影响。 标准回归系数绝对值的大小可用来衡量自变量对应变量Y的贡献大小,以说明各变量在多元回归方程中的重要性。41决定系数(R2)R2=SS回/SS总取值范围在0与1之间,无单位。反映了回归贡献的相对程度,也就是在Y的总变异中回归所能解释的百分比。主要通过决定系数数值的大小来反映回归或相关的实际效果。例如:决定系

16、数=0.9587,说明所求的回归方程能够解释的应变量变异占应变量总变异的95.87%存在的问题:随方程中自变量的增加而加大,即使引入无显著性变量,其值也会略有增加42校正决定系数(R2adj)其中n为拟合模型的观察单位数;m为方程中所含变量个数 43剩余标准差扣除各自变量Xj组合对应变量Y的线性关系影响后所剩下的变异。回归估计精度的指标越小回归方程估计误差也越小,估计精度越高。44剩余标准差一般随方程中自变量的增加而减少但若引入某些对应变量Y无显著作用的自变量时,由于回归平方和增加很小,剩余平方和减少很小,但剩余自由度却减少,故求得的剩余标准差反而加大。即方程中增加有显著作用的变量时,R2ad

17、j增加,MSE减少;而方程中引入无显著作用变量时,R2adj可能减小,MSE反而加大。因此,常以R2adj越大,MSE越小作为多元回归方程估计效果评价的指标。45五、线性回归方程的评价46(一)评价整个方程在水准下是否有显著性在SAS软件中,对多元线性回归方程的假设检验采用方差分析进行 U:回归平方和,反映由于方程中m个自变量与应变量Y间的线性关系,而使应变量Y变异减小的部分; m为回归自由度,即方程中所含自变量的个数; Q为剩余平方和,说明除自变量外,其他随机因素对Y变异的影响; n-m-1为剩余自由度。47如果整个方程在指定的水准下有显著性意义时,并不说明方程中每个自变量xj都对yi有显著

18、性影响。还需对各个自变量的偏回归系数逐个进行检验。但如果整个方程经F检验无显著性,就不必对bj逐个进行检验。48(二)评价方程中每个变量的显著性意义即对方程中的各偏回归系数的假设检验。对每个偏回归系数的检验,在SAS软件中,多元线性回归分析以t检验方法来表达,逐步回归采用F检验。49另外,在多元线性回归分析中,直接建立y与全部自变量之间的线性回归模型通常是不可取的,在建立回归方程的过程中有必要对变量进行筛选。在建立回归方程时,要遵循一个原则,即“少而精”。50(三)几个重要的评价方程质量的指标1. 决定系数(determination coefficient)2. 校正复相关系数(adjust

19、ed multiple correlation coefficient)3. 剩余标准差(residual standard deviation)4. 赤池信息准则(Akaikes Information Criterion,AIC)5. Cp统计量(Cp statistic)51赤池信息准则(AIC)是日本学者赤池于1973年提出的应用于时间序列分析中自回归阶数的确定,多元回归、广义线性回归中自变量的筛选,以及非线性回归模型的比较和选优。有两种估计方法,一个是用极大似然估计,一个是用最小二乘法,均同时考虑了模型中参数的个数以及样本量的大小,其原则也是越小越好。52 Cp统计量C.L.Mall

20、ows(1964)提出了Cp统计量的概念。选用Cp统计量选择模型的准则是:选择Cp最接近p(表示选择的模型中参数的个数)的那个模型。53注意在应用这些准则的时候要注意:只有对因变量y的假设条件相同,且估计方法相同时,才能相互比较。如用AIC判断两个拟合方程的好坏,一个是用极大似然估计,一个是用最小二乘法,则不能直接比较。54在自变量较少时,可以求出所有可能的回归,然后应用上述准则从中选出“最优”回归方程。 如果自变量为m个,则可能的回归方程有2m-1中。55六、变量的选择 和最优模型的建立56变量选择的原则研究假说最优回归模型全模型及其各参数估计值均有显著性意义如效果相似,模型中所包含的变量数

21、越少越好各个变量在专业上都有实际意义57选择变量的常用方法1、前向回归法/前进法(Forward Selection)在供选的多个自变量xi中,按其对y的作用大小(即偏回归平方和的大小),由大到小将自变量逐个引入方程每引入一个自变量即对其作显著性检验,如呈显著性时才正式将其列入方程直至没有新的、有显著性的自变量可引入方程时为止。已引入方程的自变量,在引入新的自变量后,无论有无显著性,不再剔出方程。58选择变量的常用方法(续)2、后向回归法/后退法(Backward Dimination)与前进法相反。即先将供选的多个自变量xi按其对y的作用大小(即偏回归平方和的大小),一起引入方程,然后将各个

22、自变量逐一剔除,并作显著性检验,直至方程中保留的所有变量都有显著性时为止。59选择变量的常用方法(续)3、逐步回归方法(Stepwise REG)在供选的多个自变量xi中按其对y的作用大小(即偏回归平方和的大小),由大到小将自变量逐个引入方程,每引入一个自变量即对其作显著性检验,如有显著性时才正式将其列入方程而每当引入一个新的自变量后对原方程中的原有的自变量也要重新作显著性检验,将退变为作用无显著性的自变量剔除出方程。再引入一个新的自变量,再检验,再剔除,如此逐步循环,直至没有新的、有显著性的自变量可引入方程、方程中的所有变量也都呈显著性时为止。60选择变量的常用方法(续)4、判定法(Rsqu

23、are REG)它与多元回归法类似,以R2的值的大小来判定某变量入选后对模型贡献大小。R2越大,该变量入选后对模型的贡献也越大。61MODEL语句中的选择项之: 界定回归模型的选项:(1) selection=Forward;(前进法) selection=Backward;(后退法) selection=stepwise;(逐步回归法) selection=none;(系统默认值,进行全回归分析)(2) Details;include=正整数(如3);(这个选项规定将model指令前几个(如3个)自变量纳入每一回归模型汇总,此选项不能与selection=none的设定联用。62MODEL语

24、句中的选择项之: 界定回归模型的选项:(4) STOP=正整数(如5); (REG程序搜寻出一个含STOP=正整数个数的最佳回归模型后即停止)(5) SLENTRY= ;(或SLE= ;) 进入模型的显著性水平的设置,其中前进法默认值为0.5,逐步回归法默认值为0.15(6) SLSTAY= ; (或SLS= ;) 保留在模型中的显著性水平的设置,其中后退法默认值为0.10,逐步回归法默认值为0.15(7) NOINT; 回归模型中不包含截距。63 练习后小结64从以上的练习可看到:不同的逐步回归方法所得到的结果不同;不同的界值所得到的结果不同;方程的优劣与界值的大小无必然联系;逐步回归所得到

25、的结果不一定是真正最优的;65如果事先已经确定某自变量对因变量结果有重要影响,则该变量必须一直留在方程中,不参加变量的筛选,不管它是否有显著性。变量筛选接受后,再考虑该变量的回归系数是否与实际情况相符。66如果模型与实际情况不符,则需查找原因。样本量太小或自变量数太多异常值自变量间存在共线性等67六、回归系数反常的原因(此部分不做要求仅供参考)68出现回归系数反常的常见原因样本量不够,或自变量数太多;异常值;自变量的变异太小;自变量间存在共线性。69(一)样本量问题有学者认为,作多元回归分析时所需样本量一般是所研究变量数m的1020倍。但这一要求在复相关系数(决定系数的平方根)大于0.5时尚可

26、,而对于较小的复相关系数则仍然偏小。70(二)异常值及强影响点定义:在回归分析应用中,数据常含有一些异常或极端的观察值,即这些观察值与其他数据远远分开,并可产生较大的残差,严重影响了回归函数的拟合。原因:真实存在录入错误71异常点判别方法:图示法:散点图、残差图:适用于当模型中所含变量少时。统计学指标:学生化残差(studentized residual):当其大于2时,提示所对应的观察值点可能是异常点。72强影响点判别方法:库克氏距离(CookD):通常认为其大于0.5时,可认为第I个观察点对回归函数拟合有较强的影响。 734.MODEL语句中的选择项之: 界定异常值和强影响点的有关参数:/

27、R:进行预测值的残差分析;/INFLUENCE:规定对每个观测值进行影响分析,以判断其观测对估计及预测值的影响。74(三)共线性问题在回归分析中存在多元共线性是一个十分普遍的现象。自变量之间的任何相关都标志着多元共线性的存在。751.共线性的存在所带来的后果:回归系数估计值不稳定,表现为:回归参数估计值的标准误很大;原本非常重要的自变量对回归无统计学意义而不能进入方程;严重时可使样本回归系数可大可小,可正可负,其专业意义无法解释而出现悖论。对这些前提条件和数据可靠性从统计方法上进行检查即为回归诊断,同时也必须结合专业考虑。762. 共线性判别方法:2.1 Xj的容许值(TOL)TOL(j)=1

28、-R2(j)R2(j)为Xj与其余m-1个回归变量间线性相关的程度,如果Xj与其余m-1个自变量共线性严重,则R2(j)=1,则TOL=0,反之TOL=1。这个方法简单,但无明确诊断界限,可作为共线性诊断的参考指标。772.2 方差膨胀因子(VIF)VIF=1/1-R2(j)Ri1,自变量共线性严重,VIF非常大,而容许值接近0(5或10,或容许值10,即可认为有共线关系存在。共线性严重存在的诊断界值:条件指数大于等于10,且所对应的方差比大于0.580解决共线性问题的方法有很多,可以采用岭回归、主成分回归等方法。81MODEL语句中的选择项之一: 界定共线性的有关参数:/TOL(tolera

29、nce of Xj):要求计算模型中各自变量的容许值;/VIF(variance inflation factors):计算、输出各自变量的方差膨胀因子;/COLLIN:对回归模型的自变量(包括回归常数)做共线性分析;/COLLINNOINT:对回归模型的自变量(不包括回归常数)做共线性分析;82应用多变量线性回归分析注意事项适用条件:因变量必须是连续变量,自变量既可以是连续变量、又可以是属性变量。多变量回归分析的应用需符合一定假设:LINE83应用多变量线性回归分析注意事项(续)应用多变量回归分析时,最重要的是注意: 数据是否符合数学模型的假设; 是否有代表性; 考虑R2的大小,如R2很小,说明自变量与因变量的相关关系不大,或是拟合的模型欠妥; 变量变化范围太小,回归平方和就小,不易有显著性; 变量测量误差太大,易出现异常值; 是否样本含量过小?84应用多变量线性回归分析注意事项(续)如果y与xi之间存在依存关系,且有显著性意义,并不证明其间存在因果关系,必须根据变量的本质,结合专业知识作出正确的因果判断。xi并非随机变量,xi的取值范围不能超出观察值范围,故回归方程不能随意

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论