多元线性回归回归_第1页
多元线性回归回归_第2页
多元线性回归回归_第3页
多元线性回归回归_第4页
多元线性回归回归_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线性回归回归1第一页,共八十五页,2022年,8月28日概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析。常用的统计分析方法有:多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析等。2第二页,共八十五页,2022年,8月28日多变量资料数据格式例号X1X2…XpY1X11X12…X1pY12X21X22…X2pY2┆┆┆…┆┆nXn1Xn2…XnpYnY为定量变量——LinearRegressionY为二项分类变量——BinaryLogisticRegressionY为多项分类变量——MultinomialLogisticRegressionY为有序分类变量——OrdinalLogisticRegressionY为生存时间与生存结局——CoxRegression3第三页,共八十五页,2022年,8月28日

(1)因素筛选:例如影响高血压的诸多因素中:

1)哪些是主要因素?

2)各因素的作用大小?(2)控制混杂因素(3)提高回归方程的估计精度多因素分析只有一个自变量的单因素回归更能缩小应变量Y对其估计值的离差,在预测和统计控制方面应用的效果更好。多因素回归分析主要用途:4第四页,共八十五页,2022年,8月28日Y,X——直线回归Y,X1,X2,…Xm——多元回归(多重回归)一、多元线性回归

(multiplelinearregressoin)例:欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。5第五页,共八十五页,2022年,8月28日β0为回归方程的常数项(constant),表示各自变量均为0时y的平均值;m为自变量的个数;β1、β2、βm为偏回归系数(Partialregressioncoefficient)意义:如β1

表示在X2、X3……Xm固定条件下,X1每增减一个单位对Y的效应(Y增减β个单位)。e为去除m个自变量对Y影响后的随机误差,称残差(residual)。多元回归方程的一般形式(一)多元回归模型6第六页,共八十五页,2022年,8月28日

为y的估计值或预测值(predictedvalue);

b0为回归方程的常数项(constant),表示各自变量均为0时y的估计值;由样本估计而得的多元回归方程:b1、b2、bm为偏回归系数(Partialregressioncoefficient)意义:如b1

表示在X2、X3……Xm固定条件下,X1每增减一个单位对Y的效应(Y增减b个单位)。7第七页,共八十五页,2022年,8月28日适用条件:线性(linear)、独立性(independent)、正态性(normal)、方差齐性(equalvariance)——“LINE”。线性——自变量与应变量的关系是线性的。用散点图判断。独立性——任意两个观察值互相独立。常利用专业知识判断。正态性——就自变量的任何一个线性组合,应变量y均服从正态分布。即要求残差服从正态分布。常用残差图分析。方差齐性——就自变量的任何一个线性组合,应变量y的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。8第八页,共八十五页,2022年,8月28日(1)用各变量的数据建立回归方程(2)对总的方程进行假设检验(3)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。(二)多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。9第九页,共八十五页,2022年,8月28日例127名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表1中,试建立血糖与其它几项指标关系的多元线性回归方程。表127名糖尿病人的血糖及有关变量的测量结果序号i总胆固醇甘油三脂胰岛素糖化血血

糖(mmol/L)(mmol/L)(μU/ml)红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3………………265.840.928.616.413.3273.841.206.459.610.410第十页,共八十五页,2022年,8月28日由上表得到如下多元线性回归方程:1、建立回归方程11第十一页,共八十五页,2022年,8月28日2、回归方程的假设检验——F检验结果无显著性

1)表明所观察的自变量与应变量不存在线性回归关系;

2)也可能由于样本例数过少;结果有显著性表明至少有一个自变量与应变量之间存在线性回归关系。H0:β1=β2=…=βm=0H1:β1、β2、…βm不等于0或不全等于012第十二页,共八十五页,2022年,8月28日13第十三页,共八十五页,2022年,8月28日3、各个偏回归系数的假设检验——t检验将总胆固醇(X1)

剔除。

注意:通常每次只剔除关系最弱的一个因素。

对于同一资料,不同自变量的t值可以相互比较,t的绝对值越大,或P越小,说明该自变量对Y所起的作用越大。14第十四页,共八十五页,2022年,8月28日重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。15第十五页,共八十五页,2022年,8月28日对新建立的回归方程进行检验检验结果有显著性意义。16第十六页,共八十五页,2022年,8月28日对新方程的偏回归系数进行检验检验结果均有意义,因此回归方程保留甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)三个因素。最后获得回归方程为:17第十七页,共八十五页,2022年,8月28日1、确定系数(R2):意义:在y的总变异中,由x变量组建立的线性回归方程所能解释的比例。0~1,越大越优。特点:R2是随自变量的增加而增大。因此,在相近的情况下,以包含的自变量少者为优。(三)回归方程的评价2、R——复相关系数(multiplecorrelationcoefficient)表示m个自变量共同对应变量线性相关的密切程度。0≤R≤1。即Y与的相关系数。18第十八页,共八十五页,2022年,8月28日

3、校正确定系数(adjustedR-square,R2a

)越大越优。R2a不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。

校正确定系数的计算:p为方程中包含的自变量个数,p≤m。R2一定时,p↑→R2

a↓19第十九页,共八十五页,2022年,8月28日20第二十页,共八十五页,2022年,8月28日(四)自变量的筛选基本思路:尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。(1)全局择优法(allpossiblesubsetsselection):(2)逐步选择法前进法(Forwardselection)后退法(Backwardelimination)逐步法(Stepwise)21第二十一页,共八十五页,2022年,8月28日1、全局择优法(最优子集回归)

(allpossiblesubsetsselection):有m个自变量就有2m-1个自变量子集。在各子集中选择最优的回归方程。仅适用于自变量个数不太多的情况。22第二十二页,共八十五页,2022年,8月28日2、向前筛选法(Forwardselection):事先给定一个入选标准,即(通常=0.05),然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。局限性:后续变量的引入可能会使先进入方程的变量变得不重要。23第二十三页,共八十五页,2022年,8月28日3、向后剔除法(Backwardelimination)首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。24第二十四页,共八十五页,2022年,8月28日4、逐步法(Stepwise):给出入选标准(通常1=0.05)和剔除标准(通常2=0.10),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。实际工作中,多采用逐步法。用上述方法对上例资料进行分析。25第二十五页,共八十五页,2022年,8月28日

(六)应用多元线性回归分析时需注意的事项

(1)样本量要求:无精确的计算公式。据经验,样本量应是自变量数的5~10倍以上。(2)做预报时,只能在自变量X的观察值范围内进行;(3)在资料要求上,应变量Y服从正态分布;(4)注意资料的特异点(outlier);26第二十六页,共八十五页,2022年,8月28日(5)观测值重新量化问题二项分类资料:用X表示分类变量,阴性为0,阳性为1。有序多项分类资料:用一个X作为分类变量,以自然数0,1,2,…赋值。如将病情分为轻中重三类时,用X表示病情,赋值方法为:无序多项分类资料:或27第二十七页,共八十五页,2022年,8月28日

上述以职员作为对比水平(基础水平)。哑变量X1、X2、X3分别代表了工人、农民、干部与职员相比的系数。哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。28第二十八页,共八十五页,2022年,8月28日(7)自变量的联合作用分析若要考虑X3、X4对应变量y的联合作用,可设置一个新变量X5=X3X4。若b3、b4和b5都有统计学意义,则说明X3、X4对应变量既有单独作用,又有交互作用。(6)自变量筛选过程中引入和剔除变量时检验水准的确定1)引入变量检验的水准小于或等于剔除变量时检验的水准2)通常引入变量检验的水准为0.05,剔除变量时0.10,但不绝对。29第二十九页,共八十五页,2022年,8月28日说明X3、X4对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。30第三十页,共八十五页,2022年,8月28日(8)自变量的共线性

当自变量之间存在较强的相关关系时,称之为共线性。

后果——偏回归系数的估计值容易失真。当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:

1)在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。

2)偏回归系数的符号与医学专业知识不一致。

3)参数估计的标准误变得很大,使t值变得很小,P值很大。31第三十一页,共八十五页,2022年,8月28日判断方法:利用自变量间的相关系数阵。(r>0.9,共线性可能性大)处理方法:最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。

32第三十二页,共八十五页,2022年,8月28日(9)残差分析——模型诊断通常以标准化残差(standardizedresidual)为纵坐标,以为横坐标,作残差图。33第三十三页,共八十五页,2022年,8月28日34第三十四页,共八十五页,2022年,8月28日简单分析实例例1为研究男性高血压患者血压与年龄、身高、体重等变量的关系,随机测量了32名40岁以上男性的血压y、年龄x1、体重指数x2,试建立多重线性回归方程。数据文件见mreg2.sav。第三十五页,共八十五页,2022年,8月28日简单分析实例-初步分析初步分析:与简单线性回归相类似,先绘制散点图,以便在进行回归分析之前了解各变量之间是否存在线性关系。本例有两个自变量与一个反应变量,绘制散点图矩阵,如下。第三十六页,共八十五页,2022年,8月28日

绘制散点图矩阵简单分析实例-初步分析第三十七页,共八十五页,2022年,8月28日简单分析实例第三十八页,共八十五页,2022年,8月28日简单分析实例第三十九页,共八十五页,2022年,8月28日简单分析实例结果分析

给出了自变量进入模型的方式,此处尚未涉及变量筛选问题,因为两个变量是被强行纳入模型的(Method为Enter),当然就不存在剔除变量的事情了。第四十页,共八十五页,2022年,8月28日简单分析实例结果分析

模型拟合优度情况的检验,结果显示,复相关系数为0.840,决定系数为0.706,调整的决定系数为0.686,还输出了剩余标准差。第四十一页,共八十五页,2022年,8月28日简单分析实例结果分析

回归模型的假设检验结果,显示F=34.808,P<0.001,说明所建立的回归模型是有统计学意义的,至少有一个自变量的回归系数不为0。第四十二页,共八十五页,2022年,8月28日简单分析实例结果分析

给出了模型的常数项以及两个自变量的偏回归系数及其检验结果,可以写出回归方程如下:Y=54.798+1.379x1+4.513x2主要结果第四十三页,共八十五页,2022年,8月28日

SPSS结果中输出偏回归系数的同时,也输出了各自的标准偏回归系数。年龄的标准化偏回归系数为0.664,体重指数的标准化偏回归系数为0.247,因此,可以认为,年龄对血压的影响比体重指数对血压的影响大。简单分析实例结果分析第四十四页,共八十五页,2022年,8月28日例2

仍以例1的资料为例,试作逐步回归分析。数据文件见mreg2.sav。逐步回归第四十五页,共八十五页,2022年,8月28日逐步回归第四十六页,共八十五页,2022年,8月28日逐步回归第四十七页,共八十五页,2022年,8月28日逐步回归

输出SPSS在逐步回归过程中拟合的步骤中,每一步引入模型的变量情况,此处只有一个变量引入。结果分析第四十八页,共八十五页,2022年,8月28日逐步回归结果分析

分别输出拟合的模型中,拟合优度情况的检验结果:复相关系数、决定系数、调整的决定系数以及剩余标准差。本例只有一步,故结果很简单,仅拟合一个模型。第四十九页,共八十五页,2022年,8月28日逐步回归结果分析

给出各个拟合模型的常数项以及各自变量的偏回归系数、95%可信区间及其检验结果(此处为仅有一步的结果)。第五十页,共八十五页,2022年,8月28日逐步回归结果分析

给出拟合模型过程中被剔除的变量情况及其检验结果(此处为仅有一步)。第五十一页,共八十五页,2022年,8月28日残差分析非标准化残差(原始残差)标准化残差(Pearson残差)学生化残差剔除残差学生化剔除残差

残差种类第五十二页,共八十五页,2022年,8月28日残差分析

模型适用条件的检验-因变量与自变量之间存在线性关系的检验(以例1为例:年龄)第五十三页,共八十五页,2022年,8月28日残差分析

模型适用条件的检验-因变量与自变量之间存在线性关系的检验(以例1为例:体重指数)第五十四页,共八十五页,2022年,8月28日残差分析

模型适用条件的检验-独立性的检验通过LinearRegression过程的statistics按钮中的Durbin-Watson检验进行判断。若自变量数少于4个,统计量接近2,基本上可以肯定残差间相互独立。仍以例1为例,结果如下。第五十五页,共八十五页,2022年,8月28日残差分析

模型适用条件的检验-方差齐性的检验第五十六页,共八十五页,2022年,8月28日残差分析

模型适用条件的检验-正态性的检验绘制残差的直方图及PP图的复选框第五十七页,共八十五页,2022年,8月28日残差分析

模型适用条件的检验-正态性的检验结果第五十八页,共八十五页,2022年,8月28日二、Logistic

回归一、概念

Logistic回归是一种适用于应变量为分类值多因素概率型曲线模型。Y为二项分类:非条件Logistic回归——成组设计条件Logistic回归——配对设计Y为多分类:多分类Logistic回归59第五十九页,共八十五页,2022年,8月28日BinaryLogistic适用于应变量为二项分类的资料。应变量(Y)在一组自变量(X)的作用下所发生的结果赋值规则为:logistic回归模型:统计学中,把ln(P/Q)称为P的Logit转换或对数转换,即LogitP。由此得到的回归方程,称为Logistic回归方程。

出现阳性的结果——1,其概率用P来表示;出现阴性的结果——0,其概率用Q或(1–P)来表示。60第六十页,共八十五页,2022年,8月28日由上式可得:由样本估计而得的logistic回归模型:61第六十一页,共八十五页,2022年,8月28日将P/Q称为比数(odds,优势、比值);两个比数之比称为比数比OR(oddsratio,优势比、比值比)。第i个观察对象的发病概率比数(odds)为Pi/Qi,则:第l个观察对象的发病概率比数为Pl/Ql,则:62第六十二页,共八十五页,2022年,8月28日则:式中:——同一因素xj的不同暴露水平之差。

bj——在其它自变量固定不变的情况下,xj的水平每增加一个单位时,ln(OR)的改变量,即所引起的比数比为增加前的ebj倍若Xj赋值为:63第六十三页,共八十五页,2022年,8月28日bj=0时,ORj=1,说明因素xj对疾病不起作用;bj>0时,ORj>1,说明xj是一个危险因素;bj<0时,ORj<1,说明xj是一个保护因素。对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于P<<1,OR可作为RR的近似估计:所以,logistic回归常用于流行病学调查资料,其优点是得到某一因素的回归系数估计值后,就可得到不同水平下相对危险度的近似估计值。64第六十四页,共八十五页,2022年,8月28日模型的应用主要有三个方面:筛选危险因素:求出各协变量对应变量的比数比(OR);校正混杂因素:可以很方便地控制混杂因素,得到校正后比数比的估计值和置信区间;预测与判断:Logistic回归模型是概率型模型,在一定条件下能预测某事件发生的概率,或估计各种自变量组合条件下应变量的某一类结果是否发生。65第六十五页,共八十五页,2022年,8月28日例1某医师希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca是否有关,数据见logistic_binary.sav。简单分析实例第六十六页,共八十五页,2022年,8月28日简单分析实例第六十七页,共八十五页,2022年,8月28日选入应变量选入自变量简单分析实例第六十八页,共八十五页,2022年,8月28日简单分析实例结果分析

此表为应变量取值水平编码,SPSS默认取值水平高的为阳性结果。第六十九页,共八十五页,2022年,8月28日简单分析实例结果分析

本表输出当前模型的-2log(似然值)和两个伪决定系数,但对于logistic回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。第七十页,共八十五页,2022年,8月28日简单分析实例结果分析

此表输出模型中的各自变量的偏回归系数及其标准误、Wald2、自由度、P值、OR值(即exp(B))。第七十一页,共八十五页,2022年,8月28日哑变量设置在回归模型中,回归系数b表示其他自变量不变,x每改变一个单位时,所预测的y的平均变化量,当x为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当x为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用哑变量(dummyvariable)方式对模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论