十二、多重线性回归模型_第1页
十二、多重线性回归模型_第2页
十二、多重线性回归模型_第3页
十二、多重线性回归模型_第4页
十二、多重线性回归模型_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重线性回归模型直线回归分析直线回归的回顾最简单的直线回归分析是研究两个变量之间的依存关系。如果因变量y(某种疾病或健康危害或其它结局效应)与自变量x(某种病因或危险因素)之间有依存关系,且在散点图上呈直线趋势,x与y的关系可用简单直线回归方程式来表示。简单直线回归方程式y=a+bx

或y=b0+b1x

或上式y=因变量拟合值(或预期的估计值)

x=自变量观察值

a或b0=方程式中的截距,其含义是x=0时的y值

b或

b1

=回归系数,相当于回归直线的斜率,它的含义是指x每改变一个单位时,y的相应变化回归系数b的估计

Σ(yi-y)(xi-x)b=──────────Σ(xi-x)2

Σxiyi

-(Σyi)(Σxi)/n=────────────

Σxi2-(Σxi)2/na=y-

bx线性回归图示(IMT与SBP)线性回归散点图直线回归方程的评价求出回归方程后,需对方程的意义作出评价,包括两方面:(1)回归系数的显著性(假设)检验:可用方差分析的F检验,也可用t检验,两者的结论一致F检验

Σ(yi-y)2/1F=─────────,ν1=1,ν2=n-2Σ(yi-y)2/(n-2)上式中n=观察的样本数

ν=自由度算得F值后,查F值表即可知P值直线回归方程的评价(续)t检验

bbt

=──=───────────,ν=n-2

sb√[Σ(yi-y)2/(n-2)]上式b=回归系数

sb=回归系数b的标准误用于衡量y的估计值yi的精确性可用于估计b的可信区间算得t值后,查t值表即可知P值。直线回归方程的评价(续)(2)计算决定系数(R2,coefficientofdetermination)

Σ(yi-y)2

回归平方和R2=─────=──────Σ(yi-y)2

总平方和R2数值上与相关系数r的平方相等,取值在0~1之间R2含义是“回归方程总变异中可由x解释部份所占百分比”。直线回归分析的例子某研究显示的成人收缩血压与体重间依存关系的直线回归方程如下:

y=90.243+0.275x上式y=收缩血压(mmHg)

x=体重(磅)

a=90.243b=0.275

sb=0.0816

t=3.371,P=0.0050据此,知道了个体的体重即可估计其收缩血压R2=0.4664,说明体重可解释方程总变异的约46%多变量线性回归分析多变量线性回归分析如果对因变量y(发生疾病或死亡或其它结局效应)能产生影响的自变量x(或称预测变量、危险因素、混杂因素、效应修饰因素)的数目不止1个,而有k个上述(简单)直线回归方程即可写成多变量线性回归方程

多变量线性回归方程

y=b0+b1x1+b2x2+b3x3......+bkxk

+e=b0+Σbjxj

+e(j=0,1,2,3……k)(i=观察对象序号)上式y=因变量(连续变量)

b0

=常数项,其含义同简单直线回归中的ab1、b2、b3......bk

=偏回归系数

e=误差项偏回归系数bk的含义b1的含义是指当b2、b3......的作用保持恒定后,x1改变一个单位时,y将相应平均改变的(b1个)单位或是在x2、x3、......xk与x1、以及x2、x3、…...xk与y的线性关系除去后,x1改变一个单位时,y将相应平均改变b1个单位多变量线性回归中,估计某个自变量的作用时,调整了其它变量的影响b1为正时,随x1增加y也增加b1为负时,随x1增加y就减少偏回归系数bk的含义b2的含义是指当b1、b3、......bk的作用保持恒定后,x2改变一个单位时,y将相应平均改变b2个单位b3、......bk的含义可依次类推多变量线性回归分析(续)建立多变量线性回归方程的关键是求出各个偏回归系数bj偏回归系数估计方法:先收集一组变量的原始数据求各个变量与其均数的离均差平方和、离均差积和按最小二乘法原理,用逆矩阵法解出已有现成的计算机软件可敷应用,十分方便,关键在于掌握适用条件、正确解释结果。标化偏回归系数偏回归系数bi的大小与自变量xj的取值范围宽窄有关偏回归系数是有量纲的,由于各自变量的单位(量纲)不同,它们的偏回归系数无法直接比较如欲比较,需求标准化偏回归系数bsj,其与xj的单位无关

Σ(xj-x)2/(n-1)bsj

=bj×√[───────────]/syΣ(yi-y)2/(n-1)

√[Σ(xj-x)2]=bj×─────────/sy。

√[Σ(yi-y)2]或bsj=

bjsj÷σy,或bsj

=bisj/√varby式中sj为xj的标准差,σy为yi的标准差。标化偏回归系数(续)bj÷σy表示xj改变一个标准差时yi的改变如xj以克表示与xj以千克表示时,前者的bj只有后者的1/1000,而后者的σy也较前者大1000倍但bj

/σy不变,即bj

/σy与单位无关比较不同自变量的bj

/σy大小,可找出绝对值最大的bj

/σy其相应的xj即为对y作用最大的自变量多变量线性回归方程的评价建立了多变量线性回归方程后,只要将x1、x2、x3、......xk的值代入方程即可求得y的估计值多变量回归方程建立后,需对其作出评价,包括三个方面:(1)评价整个方程在α水准下有否显著性,可用F检验。回归均方F=─────,ν1

=k,ν2

=n-k-1

剩余均方上式中k=自变量的数目

n=观察的样本数算出F值后,查表即可知P值。多变量线性回归方程的评价(续)(2)评价方程中每个变量的显著性意义建立多变量线性回归方程不仅要求整个方程有显著性意义,而且要求引入方程的每个自变量也都应有显著性意义。如果方程中增加了没有显著意义的自变量时,剩余方差反而会加大。除去一些无甚作用、无显著性意义的自变量,不仅对方程无害,还可减少计算工作量,方程的应用也较简便。多变量线性回归方程的评价(续)如整个方程在指定的α水准下有显著性意义时,并不说明方程中每个自变量xj都对yi有显著性影响。还需对各个自变量的偏回归系数逐个进行检验。可用t检验或χ2检验。如整个方程经F检验无显著性,就不必对bj逐个进行检验。多变量线性回归方程的评价(续)建立回归方程过程中,如出现无显著性意义的自变量,则要把这些自变量剔除,将该原始变量数据删去,用剩下的数据再重建方程。新方程建立后仍需重复以上检验评价过程,对整个方程和各个自变量再进行检验,如还有不显著的变量需再剔除、再建新方程、再检验,......如此循环,直至方程中所有变量均有显著性意义时为止。变量的选择为保证所建立的方程符合最优回归模型,可将包括自变量组合的所有方程都列出来,逐个进行比较,选择其中最优(剩余标准差最小)者如3个自变量,可拟合7(23-1)个不同的方程如4个自变量,可拟合15(24-1)个不同的方程式如10个自变量,则可拟合1023(210-1)个不同的方程式如20个自变量则可拟合1048575(220-1)个不同的方程式现有计算机及相应的统计学分析软件,采用适当的变量选择方法,可迅速获得满意结果。“最优回归模型”所谓“最优回归模型”是指:(1)全模型及其各参数估计值均有统计学显著性意义(2)如效果相似,模型所包含的变量数越少越好(3)各个变量在专业上都有实际意义变量选择的常用方法逐步回归(stepwiseregression)在供选的多个自变量xi中,按其对y的作用大小(即偏回归平方和的大小),由大到小将自变量逐个引入方程每引入一个自变量,对其作显著性检验,如有显著性才可将其列入方程每引入一个新自变量,再对原方程中的各自变量重新作显著性检验,将退变为无显著性作用的自变量剔除出方程这样,将新自变量一个、一个引入方程,再检验、再剔除,如此逐步循环,直至没有新的、有显著性意义的自变量可引入方程、且方程中所有变量都呈显著性意义时为止。选择变量的常用方法(续)前向入选(forwardselection)在供选的多个自变量xi中,按其对y的作用大小(即偏回归平方和的大小),按由大到小的顺序,将自变量逐个引入方程,每引入一个自变量即对其作显著性检验,如呈显著性时才可将其列入方程,直至没有新的、有显著性的自变量可引入方程时为止已引入方程的自变量,在引入新自变量后,无论有无显著性,不再剔除选择变量的常用方法(续)后向剔除(backwardelimination)恰与前进法相反先将供选的多个自变量xi按其对y的作用大小(即偏回归平方和的大小),一起引入方程,然后将各个自变量逐一剔除,并作显著性检验,直至方程中保留的所有变量都呈显著性意义时为止自变量与因变量之间相关性的稍微差异就可影响自变量进入方程现有电子计算机,进行多变量回归分析在技术上已无困难。多变量线性回归方程的评价(续)(3)计算多变量回归的决定系数(R2)

回归平方和R2

=

总平方和

多变量线性回归方程的评价(续)R2常用于评价回归模型拟合的优劣R2在数值上等于复相关系数的平方R2表示y的变异中由方程各自变量组合所解释部份占总变异的百分比R2取值0~1之间R2越接近1,说明方程对样本数据的拟合效果越好,即y的变异中由各自变量组合所决定的比例越大,估计也越精确R2越接近0,说明方程拟合效果越差,即y的变异中只有很小一部份能由方程各自变量组合所决定,即使整个方程有显著性意义,也不能认为其拟合得好。这时,不能都认为这是随机误差的缘故,显然还有其它有重要作用的因素未注意,值得进一步寻找可能对y有显著影响的其它变量。决定系数(R2)

R2大,并不一定意味bj也大进入方程自变量数目每增一个,不论其对方程是否有贡献,都会使回归平方和加大、剩余平方和减小,从而R2增加同一组数据中,自变量数目最多的回归方程,R2必然最大只要进入回归方程的变量数目足够多,R2便会接近1R2只适合比较自变量数目相同的各回归方程拟合的优劣校正决定系数如仅为增加R2,将一个或多个作用不大的自变量引入方程,虽然会使R2增大,但剩余均方(方差)却会因自由度减小而增大,得不偿失为克服上述缺点,有人提出了校正R2的概念:(k–1)×(1–R2)校正R2=R2–───────────n–k

上式中k=方程中自变量数目

n=样本含量(观察数)

R2=未校正的R2校正R2

校正R2是近似无偏的校正R2的优点:只有新引入的自变量对回归方程有贡献时,新的校正R2值才会较原来的校正R2值增大如新引入的自变量对y不起作用,校正R2值不增加当n>>

k时,R2≈校正R2。多变量线性回归方程的评价(续)也可用Mallow'sCp来评价回归方程上式中RSSp=偏回归平方和

σ2=SSE=全模型的误差平方和

p=方程中自变量数目

n=样本含量(观察数)一般,Cp越小,方程拟合越“佳”,恰与校正R2相反。R2举例研究血清高密度脂蛋白(HDL)含量与血清总胆固醇(TCh)、甘油三酯(TG)、前β脂蛋白(Pre-β)的关系,n=42,k=3,拟合得回归方程:y=48.8645–0.02731x1

+0.01504x2+8.14831x3上式中y=血清高密度脂蛋白含量(mg/dL)

x1

=血清总胆固醇(mg/dL),为连续变量

x2=血清甘油三酯(mg/dL),为连续变量

x3=血清前β脂蛋白,为属性变量

x3=1,为存在前β脂蛋白

x3=0,为不存在前β脂蛋白。R2=0.1777,P=0.057,校正R2

=0.1355拟合效果不满意,提示尚有重要因素未引起注意。多变量线性回归举例Framingham心脏病研究:1,406人随访18年冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归方程:y=0.0613+0.0277x1+0.0826x2

+0.0845x3+0.1273x4+0.1680x5上式y=冠心病发生率

x1

=年龄(50~54),x2

=年龄(55~59),

x3

=年龄(60~62)

x4

=性别

x5=收缩血压在分析一个因素的作用时,已调整了其他因素的可能混杂作用如果哑变量x1x2x3是连续变量,比较x2x3可以x3x2相减多变量线性回归举例(续)用上式估计不同收缩血压水平(

x5

)时的冠心病发生率,已调整了年龄和性别的可能混杂作用由于年龄这个变量有两种以上(四种)属性,故在上式中引入了3个哑(dummy)变量x1、x2和x3或称标识(indicator)变量、或设计(design)变量哑变量的设置引入哑变量的目的在于区分某个自变量的不同属性当自变量为属性变量,特别是不同属性之间无等级高低之分,为说明不同属性对因变量的影响大小,常需引入哑变量有时自变量(如年龄)虽然是连续变量,但按其每改变1个单位(如1岁),来估计其对因变量的影响很微弱,如将其划分成大小不同的几种属性,并设立哑变量,则可看出自变量的不同属性对因变量的影响大小这种指标分解方法的优点是有助于分清究竟自变量的哪种属性对因变量的作用较大,也便于研究变量间的交互作用。收缩血压哑变量的设置收缩血压是连续变量,单位为mmHg,它的偏回归系数反映血压每改变1mmHg,冠心病发生率改变多少为更清楚反映收缩压对冠心病的影响,回归方程中对收缩血压设哑变量:

x5=1,收缩血压≥165mmHgx5=0,收缩血压<165mmHg例如,45岁男性,收缩血压≥165mmHg,y=0.3566

收缩血压<165mmHg,y=0.1886比较收缩血压≥165mmHg与<165mmHg时的冠心病发生率:相对危险性(RR)=0.3566/0.1886=1.89

比值比(OR)=(0.3566/0.6424)/(0.1886/0.8114)=2.38应用多变量分析的目的预测现象解释现象选择自变量的最佳亚集(最佳方程)应用多变量线性回归分析注意事项在病因流行病学研究中,应用多变量线性回归分析的主要目的就是描述多种危险因素(混杂因素、效应修饰因素)与某种疾病、死亡或其它健康结局效应之间的数量关系,估计这些危险因素在疾病中的作用大小或相对作用,有助于病因探索、或根据人群危险因素的存在情况预测疾病危险性(1)正确掌握适用条件:因变量必须是连续变量,自变量可以是连续变量、也可以是属性变量(2)避免滥用:不论数据是否符合适用条件,随便使用现成的统计软件包,盲目套用多变量线性回归模型,对计算的结果又盲目相信,或勉强作出解释,以致得出错误结论应用多变量线性回归分析注意事项(续)(3)应用多变量回归分析时,最重要的是注意:①样本是否有代表性②数据是否符合数学模型的假设③样本含量是否过小④变量变化范围太小,回归平方和就小,不易有统计学显著性⑤变量测量误差太大,易出现异常值⑥考虑R2的大小,如R2很小,说明自变量与因变量的相关关系不大,或是拟合的模型欠妥应用多变量线性回归分析注意事项(续)(4)用多变量回归分析的数据应符合一定的假设:①xi与y呈线性关系②xi分别取某定值时得到的一组y值呈正态分布③各y值的方差相等,即各xi取不同值时y的不同分布服从方差齐性,即其方差为常数④某xi值改变对y的影响与另一xi的水平无关⑤y呈独立性,即任一个体的y值对另一个体的y值不提供任何信息⑥方程的残差呈正态分布实际数据如与上述假设相差甚远,可发生偏倚。应用多变量线性回归分析注意事项(续)(5)如y与xi之间存在依存关系,且有显著性意义,并不证明其间存在因果关系。必须根据变量的本质,结合专业知识作出正确的判断。(6)xi并非随机变量,xi取值范围不能超出观察值范围,故回归方程不能随意外推。不适当的外推可导致错误的结论。线性回归观察数据与外推应用多变量线性回归分析注意事项(续)(7)如各自变量内在的自相关程度较大,bj的误差可能较大,有时使bj不显著,此时宜将内部相关的变量剔除,或两个变量组合成一个新的变量。判断两个变量有无籽相关,用回归诊断。流行病学研究中自变量之间常会存在相关关系,即呈多元共线性,可使偏回归系数发生很大偏倚,甚至使偏回归系数的符号反常、偏回归系数的假设检验呈无显著性如自变量之间存在多元共线性,哪个自变量可进入方程、进入顺序受自变量之间相关性的影响疑及自变量之间呈自相关时,宜进行回归诊断(8)如数据呈现极大或极小的极端值(或异常值)时,不应随意取舍,应对其影响大小作出诊断后,再决定如何处理。

影响诊断

判断自变量某一点值是否异常,可进行影响诊断。根据以下几项指标的大小,判断该点是否强影响点(或异常值)。Cook’sstatisticD(distance)(标化残差)2(估计y值的标准误/残差的标准误)2/kCook’sD=kk=模型的参数数目Cook’sD的大小取决于残差,表示某一观测点的影响大小Cook’sD>50%可认为第i个观测点对回归方程拟合有强影响影响诊断(续)标化残差(standardizedorstudentizedresidual)

残差标化残差

=

残差的标准误标化残差(的绝对值)>2时,该点可能是极端值(强影响点、异常点)对因变量预测值影特别响大的、甚至易致相反结论的观测点,称强影响点或异常点(outlier)应用多变量线性回归分析注意事项(续)(9)如自变量入选方程,说明其对y有作用,可以是独立作用,也可能是交互作用。如疑及两个或以上自变量之间有交互(效应修饰)作用,可在方程中设立交互项,再进行拟合检验。(10)样本含量n可以根据自变量个数k的多少来决定n>k×10n<k的情况在理论上是不适宜的应用多变量线性回归分析注意事项(续)(11)剔除或入选自变量时所规定的P值界限(α水平)不同,所得的回归方程也不相同(12)哪些自变量应列入方程,除考虑该变量估计可能对y有作用外,还需考虑获取该变量数据的难易程度、及所需的相对资源(费用)多少入选方程的自变量数目不宜过多,否则增加工作量如可能,应只列入较少变量,节省工作量、利于实际应用统计学处理方法的选择

单个自变量资料的统计学分析方法自变量因变量统计方法属性属性卡方(χ2)检验二分(属性)数值

t-检验多分(属性)数值方差分析属性二分(属性)发生的概率(有截缩)寿命表法/积限法数值数值回归(或相关)分析统计学处理方法的选择两个或以上自变量资料的统计学分析方法自变量因变量统计方法属性属性对数-线性属性或数值属性(二分)

logistic回归属性或数值属性(多分)判别分析属性数值方差分析数值数值多元回归数值或属性二分(属性)发生的风险(有截缩)

Cox(比例风险)回归属性(有混杂)数值协方差分析数值─因子分析或聚类分析模型简介生活中发生的许多现象都不是独立的,而是相互作用、相互影响的。一种结果的出现往往是多个因素、多个环节共同作用的结果。抛开其他因素,仅考察其中一个影响因素对结果的影响,所得出的结论是片面的,甚至可能是错误的。本章所要讨论的问题是如何同时考虑多个因素对同一结果的影响。此时,因变量只有一个,也称反应变量,常用y表示。自变量也称解释变量,有多个。模型简介

多重线性回归模型其中,βj是偏回归系数(Partialregressioncoefficient),它表示在其它自变量固定不变的情况下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量,p为自变量的个数,ε为残差,独立服从N(0,σ2)分布。自变量与因变量之间存在线性关系,可以通过绘制“散点图矩阵”予以考察;各观测间相互独立;残差服从正态分布;方差齐性。模型简介-应用条件

多重线性回归模型使用最小二乘法来解决方程的估计和检验问题。简单分析实例例1为研究男性高血压患者血压与年龄、身高、体重等变量的关系,随机测量了32名40岁以上男性的血压y、年龄x1、体重指数x2,试建立多重线性回归方程。数据文件见mreg2.sav。简单分析实例-初步分析初步分析:与简单线性回归相类似,先绘制散点图,以便在进行回归分析之前了解各变量之间是否存在线性关系。本例有两个自变量与一个反应变量,绘制散点图矩阵,如下。

绘制散点图矩阵简单分析实例-初步分析简单分析实例简单分析实例简单分析实例结果分析给出了自变量进入模型的方式,此处尚未涉及变量筛选问题,因为两个变量是被强行纳入模型的(Method为Enter),当然就不存在剔除变量的事情了。简单分析实例结果分析模型拟合优度情况的检验,结果显示,复相关系数为0.840,决定系数为0.706,调整的决定系数为0.686,还输出了剩余标准差。简单分析实例结果分析回归模型的假设检验结果,显示F=34.808,P<0.001,说明所建立的回归模型是有统计学意义的,至少有一个自变量的回归系数不为0。简单分析实例结果分析给出了模型的常数项以及两个自变量的偏回归系数及其检验结果,可以写出回归方程如下:Y=54.798+1.379x1+4.513x2主要结果

SPSS结果中输出偏回归系数的同时,也输出了各自的标准偏回归系数。年龄的标准化偏回归系数为0.664,体重指数的标准化偏回归系数为0.247,因此,可以认为,年龄对血压的影响比体重指数对血压的影响大。简单分析实例结果分析例2

仍以例1的资料为例,试作逐步回归分析。数据文件见mreg2.sav。逐步回归逐步回归逐步回归逐步回归输出SPSS在逐步回归过程中拟合的步骤中,每一步引入模型的变量情况,此处只有一个变量引入。结果分析逐步回归结果分析分别输出拟合的模型中,拟合优度情况的检验结果:复相关系数、决定系数、调整的决定系数以及剩余标准差。本例只有一步,故结果很简单,仅拟合一个模型。逐步回归结果分析给出各个拟合模型的常数项以及各自变量的偏回归系数、95%可信区间及其检验结果(此处为仅有一步的结果)。逐步回归结果分析给出拟合模型过程中被剔除的变量情况及其检验结果(此处为仅有一步)。残差分析非标准化残差(原始残差)标准化残差(Pearson残差)学生化残差剔除残差学生化剔除残差残差种类残差分析模型适用条件的检验-因变量与自变量之间存在线性关系的检验(以例1为例:年龄)残差分析模型适用条件的检验-因变量与自变量之间存在线性关系的检验(以例1为例:体重指数)残差分析模型适用条件的检验-独立性的检验通过LinearRegression过程的statistics按钮中的Durbin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论