版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于多元回归和回归原理第1页,讲稿共82页,2023年5月2日,星期三多元统计方法线性回归Logistic回归注:完全可以用于单因素分析,从这一点也可以看出统计学的方法是相通的。SPSS无法进行条件Logistic回归,就像sas没有专门针对配对资料的语句一样,任何统计软件均有局限性。建立方程的计算量很大,一般需软件完成。前人手工计算这两种回归(借助科学计算器),精神可嘉80年代,一个Logistic回归即使用计算机,计算的时间也以天计。第2页,讲稿共82页,2023年5月2日,星期三调整或控制多变量的控制或调整法就是同时记录可能有影响的因素,把他们与可能的危险因素一起作分析单因素分析有统计学意义,多因素分析没有意义的解释,举例第3页,讲稿共82页,2023年5月2日,星期三Inunivariateanalysis,thefamilyhistoriesofSAHandICHwerepositivelyassociatedwitheachofthesubtypesofstroke.whereasafteradjustmentforpotentialriskfactors,familyhistoryofICHnolongershowedasignificantassociationwithhaematoma.单因素分析有意义,多因素没有意义的解释第4页,讲稿共82页,2023年5月2日,星期三Familyhistoryofintracerebralhaematomawasnotanindependentriskfactorforhaematoma,butitmightbeagoodpredictor,whichindirectly
influencesthepathogenesisofintracerebralhaematomaviacertainhereditarycomponentssuchashypertension,andevenlifestylefactorssuchasalcoholconsumption.
第5页,讲稿共82页,2023年5月2日,星期三Isfamilyhistoryanindependentriskfactorforstroke?
JNeurolNeurosurgPsychiatry.1997Jan;62(1):66-70.第6页,讲稿共82页,2023年5月2日,星期三多元线性回归(简单步骤)指标多,难以理解。在计算自动化时代,这是回归的难点,我们不懂如何判断我们的模型的好坏第7页,讲稿共82页,2023年5月2日,星期三回归的实际应用在影响因素分析中
一种是探索模式,在回归模型中探索所有可能的自变量与应变量的关系
一种是控制模式,即控制混杂因素的影响后者对回归模型的要求要小的多,不出现异常情况,可仅对模型拟合稍作考虑。第8页,讲稿共82页,2023年5月2日,星期三SPSS菜单analyze-regression-linear第9页,讲稿共82页,2023年5月2日,星期三变量的数量化(1)自变量为连续型变量:必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男=1,女=0(4)自变量为名义分类:需要采用哑变量(dummyvariables)进行编码
第10页,讲稿共82页,2023年5月2日,星期三名义分类变量的哑变量化假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:亚变量的设置,我们会在Logistic回归模型中讨论第11页,讲稿共82页,2023年5月2日,星期三数据格式第12页,讲稿共82页,2023年5月2日,星期三回归的一些定义应变量(dependentvariable)自变量(independentvariable)偏回归系数pertialregressioncoefficient常数项b0决定系数determinationcoefficient,Rsquare共线性collinearity:自变量间存在着线性关系yi=b0+b1x1i+b2x2i+…+bnxni第13页,讲稿共82页,2023年5月2日,星期三回归方程的建立就是求解b0和bi的过程矩阵的各种计算(求解线性方程)SPSS的实现:
analyze-regression-linear将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性关系,P<0.05,说明所拟合的方程具有统计学意义,但并不说明模型拟合的好坏各自变量的假设检验与评价,检验各自变量和应变量是否有线性关系,P<(可放宽)说明有线性关系,同样t值不说明线性关系的强弱,这样,一个回归方程就建立了,回归方程的建立就是如此easy。第14页,讲稿共82页,2023年5月2日,星期三线性与拟合优度有线性关系拟合优度不一定很好上述F和t检验有统计学意义,只是说明自变量与y有线性关系,但未能表示“关系有多大”举例:上述方程的R2很小,但因为样本量大,F值很大R2的意义:可以由BMI,age和膳食口味解释SBP的4.3%变化我认为,因素分析可以只考虑线性关系的有无。特别是在控制模式中。第15页,讲稿共82页,2023年5月2日,星期三自变量的选择全局择优法:求出所有可能的回归模型(共有2m-1个)对应的准则值;按R2,Cp准则,AIC准则等统计量选择最优模型。求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型缺点:如果自变量个数为4,则所有的回归有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。第16页,讲稿共82页,2023年5月2日,星期三全局择优法决定系数(R2)和校正决定系数(R2c),可以用来评价回归方程的优劣。【R2随着自变量个数的增加而增加,所以需要校正】
校正决定系数(R2c)越大,方程越优。Cp选择法:选择Cp最接近p或p+1的方程(不同学者解释不同)。
Cp无法用Spss直接计算,可能需要手工。其中p为方程中自变量的个数,m为自变量总个数第17页,讲稿共82页,2023年5月2日,星期三Cp准则的计算公式第18页,讲稿共82页,2023年5月2日,星期三AIC准则的计算公式第19页,讲稿共82页,2023年5月2日,星期三自变量的选择逐步选择法逐步选择法:(一)前进法(forward)(二)后退法(backward)(三)逐步回归法(stepwise)小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。第20页,讲稿共82页,2023年5月2日,星期三自变量到底如何选择两种方法结合手工选择,逐步选择法选择后手工增减变量看校正决定系数(R2c)等方程拟合优劣指标的好坏放宽或限制进入方程的标准,特别是在逐步回归的时候硬性进入方程最感兴趣的研究变量第21页,讲稿共82页,2023年5月2日,星期三统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响第22页,讲稿共82页,2023年5月2日,星期三强影响点,记录的选择变量记录第23页,讲稿共82页,2023年5月2日,星期三强影响点,记录的选择从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。第24页,讲稿共82页,2023年5月2日,星期三判断强影响点的指标SPSS软件中的指标analyze-regression-linear-saveSave中的选项均进入数据库,而不出现在output中各种残差越大,单一记录对方程的影响越大第25页,讲稿共82页,2023年5月2日,星期三判断强影响点的指标(2)距1越远,越是强影响点其余指标绝对值越大越是强影响点第26页,讲稿共82页,2023年5月2日,星期三多重共线性自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。容易出现:回归系数的符号与由专业知识不符变量的重要性与专业不符整个方程决定系数R2高,但各自变量对应的回归系数均不显著。第27页,讲稿共82页,2023年5月2日,星期三多重共线性的诊断SPSS中的指标容许度:越近似于0,共线性越强特征根:越近似于0,共线性越强条件指数:越大,共线性越强第28页,讲稿共82页,2023年5月2日,星期三Spss的实现与结果analyze-regression-linear-statistics第29页,讲稿共82页,2023年5月2日,星期三实例以BMI为应变量,SBP,DBP和年龄为自变量进行回归。结果如图极端例子:以SBP为应变量,BMI和复制BMI为自变量,结果为其中之一无法进入方程从第四个特征根看,特征根小,条件指数大,从变量的方差比例来看,SBP和DBP在其中贡献最大,可以说两者有近似共线性不过两者的共线性对方程的影响并不大第30页,讲稿共82页,2023年5月2日,星期三容许度越近于0共线性越大,等于0,完全共线复制的BMI根本无法进入方程后面讨论交互作用的时候我们还要提到共线性第31页,讲稿共82页,2023年5月2日,星期三一、应用影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量影响因素分析,控制混杂因素在医学研究中最为长用,个人认为对模型拟合要求较低,特别在控制混杂的控制模式中后两种用途对模型要求严格第32页,讲稿共82页,2023年5月2日,星期三二、应用条件第33页,讲稿共82页,2023年5月2日,星期三回归系数符号反常与主要变量选不进方程的原因分析有重要影响的因素未包括在内某些变量个体间的差异很大样本内突出点上数据误差大变量的变化范围较小样本数太少上述各项在用最小二乘法求解方程过程中对残差等重要中间指标的影响大,造成最小二乘法的失效。第34页,讲稿共82页,2023年5月2日,星期三线性回归的注意事项应变量为连续变量,自变量可以为连续变量、分类变量或有序变量样本含量:一般要求样本量n至少是方程中自变量个数m的5-10倍逐步回归不是万能的,一个goodoffit好的模型建立需要多方面考证。多重共线性:自变量存在较强的线性关系检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。但共线性的问题会因此而突出,举例共线性很大SPSS菜单在处理回归中选项较少,但完全可以满足一般模型的拟合。其syntax模式应该有更多选项,但鉴于介绍这方面内容的书籍文献较少。如确实需要严格的模型拟合,SAS可能是更好的选择第35页,讲稿共82页,2023年5月2日,星期三回归的发展加权回归有重复测量的回归分析:对每一个回归变量x的y有多次重复的测量值。岭回归分析:改进的最小二乘方,用于自变量相关性大,或某些变量变化范围太小。可用sas实现。第36页,讲稿共82页,2023年5月2日,星期三Logistic回归实际上属于判别分析,因拥有很差的判别效率而不常用。适用于流行病学资料的因素分析实验室中药物的剂量-反应关系临床试验评价疾病的预后因素分析第37页,讲稿共82页,2023年5月2日,星期三二、Logistic回归模型Logistic回归的分类
二分类多分类其中二分较为常用
条件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者者针对成组研究,前者针对配对或配伍研究。第38页,讲稿共82页,2023年5月2日,星期三26例冠心病病人和28例对照者进行病例对照研究(变量赋值表)
自变量为连续变量,最好变为等级或计数资料有统计学家持反对意见认为损失信息第39页,讲稿共82页,2023年5月2日,星期三26例冠心病病人和28例对照者进行病例对照研究(数据格式)
第40页,讲稿共82页,2023年5月2日,星期三Logistic回归方程的建立建立方程就是求解b0,b1…bp第41页,讲稿共82页,2023年5月2日,星期三Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数(bi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。参数意义第42页,讲稿共82页,2023年5月2日,星期三回归系数的意义单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时,logitP的平均变化量。第43页,讲稿共82页,2023年5月2日,星期三多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。调整与控制第44页,讲稿共82页,2023年5月2日,星期三流行病学中的一些基本概念:相对危险度(relativerisk):RR=P1/P2比数
Odds=P/(1-P)比数比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率较小情况下,OR≈RR第45页,讲稿共82页,2023年5月2日,星期三根据Wald检验可知,Logistic回归系数bi服从u分布。因此其可信区间为进而,优势比e(bi)的可信区间为第46页,讲稿共82页,2023年5月2日,星期三参数估计似然函数计算方法最大似然法迭代法初始值迭代次数人为精度可能不收敛总体来说,解比较稳定。第47页,讲稿共82页,2023年5月2日,星期三SPSS的实现analyze-regression-binarylogistic第48页,讲稿共82页,2023年5月2日,星期三analyze-regression-binarylogistic-option模型拟合优度指标,2值越小,P值越大表明模型越好迭代过程,可以监察方程计算的过程参数估计的相关矩阵,每步各协变量的零级相关系数(简单相关系数)均小(<0.80),提示各协变量间相互独立其他第49页,讲稿共82页,2023年5月2日,星期三结果说明内编码缺省值最好不超过总样本量的10%不然代表性太差但也不是绝对第50页,讲稿共82页,2023年5月2日,星期三结果说明(2)
我们只看最后一步模型系数总的检验Step:增加或减少的变量对方程的影响,P越大说明这个变量对方程的影响越小Block:Model:方程内包含的变量总体,如果P>,说明Logistic方程总体有意义,借用线性的解释来说将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性关系,P<0.05,说明所拟合的方程具有统计学意义,但并不说明模型拟合的好坏:真正的模型拟合一般要把其提高到0.20或0.10而非0.05。第51页,讲稿共82页,2023年5月2日,星期三结果3模型拟合优度指标,2值越小,P值越大表明模型越好两种R2的解释与线性方程同,14.9%在流行病学研究中算一个比较好的了判别分析用表第52页,讲稿共82页,2023年5月2日,星期三结果4Wald检验(waldtest)
即广义的t检验,统计量为u,下面详细讨论之参数估计的相关矩阵,每步各协变量的零级相关系数(简单相关系数)均小(<0.80),提示各协变量间相互独立至此,一个最简单logistic方程建立和检验告一段落,下面涉及自变量的选择和强影响点的挑选第53页,讲稿共82页,2023年5月2日,星期三自变量的筛选目的:与多元线性回归分析类似,当自变量的数目较多时,为使logistic回归方程比较稳定和便于解释。方法:一般统计学书介绍和统计软件固有的有前进法、后退法,逐步法。个人认为,还应考虑模型的整体拟合优度,并结合专业知识手工增加或剔除变量第54页,讲稿共82页,2023年5月2日,星期三全局择优指标拟合分类表最大似然函数值L(=1)或logL(=0)即-2loglikelihood=0拟合优度检验通过上述指标,比较不同方程拟合优度的优劣R2越大,拟合越好模型拟合优度指标,2值越小,P值越大表明模型越好第55页,讲稿共82页,2023年5月2日,星期三逐步选择法三种向前逐步法,协变量引入检验均基于score统计量删除变量基于条件估计的似然比删除变量基于最大偏似然估计似然比删除变量基于Wald统计量第56页,讲稿共82页,2023年5月2日,星期三似然比检验(likehoodratiotest)通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。G=-2(lnLp-lnLk)
样本量较大时,G近似服从自由度为待检验因素个数的2分布。第57页,讲稿共82页,2023年5月2日,星期三比分检验(scoretest)
以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。第58页,讲稿共82页,2023年5月2日,星期三Wald检验(waldtest)
即广义的t检验,统计量为u
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
第59页,讲稿共82页,2023年5月2日,星期三上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。但SPSS和SAS软件均采用Wald检验来判断变量在方程中的作用由于软件的计算相对容易,可以多种方法比较,结果多数一致,如果不一致,也均发生在临近界值的变量上,这些变量在方程中本身对应变量的影响就不大,在实际中对研究的影响也较小。第60页,讲稿共82页,2023年5月2日,星期三寻找强影响点,记录的选择残差:非标准化Logit单位学生化标准化偏差绝对值越大,影响越大记录对方程影响大小的指标,值越大影响越大预测值和概率第61页,讲稿共82页,2023年5月2日,星期三
分类自变量的哑变量编码为了便于解释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码,那么所得的,容易造成错误的解释。在sas的计算中无法对分类变量做多种处理?在SAS中使用哑变量必须用数据步建立新变量第62页,讲稿共82页,2023年5月2日,星期三西、中西、中三种疗法哑变量化
原资料哑变量化第63页,讲稿共82页,2023年5月2日,星期三Spss中亚变量的设置分类变量必须转化。如地区对血压的影响。等级资料,当等级之间量度不一时必须转化,如正常,超重和肥胖连续资料不宜直接进入方程时,转化为等级资料或分类资料第64页,讲稿共82页,2023年5月2日,星期三亚变量的SPSS处理菜单第65页,讲稿共82页,2023年5月2日,星期三亚变量的SPSS处理菜单(二)第66页,讲稿共82页,2023年5月2日,星期三亚变量设置(Spss)IndicatorSimpleDifferenceRepeated参照分类为0,其余为1,即各分类与参照分类比较除第一类分类外,各分类与其之前平均分类效应比较第67页,讲稿共82页,2023年5月2日,星期三亚变量设置(2)Helmert:与Difference相反,各水平与其之后水平的平均效应比较Deviation:除参照分类外,各水平与分类的总效应比较Polynomial#◎¥%#¥!◎#¥)9……好像和连续变量有关手工设置亚变量还是有缺点的,如应用于等级资料就不合适第68页,讲稿共82页,2023年5月2日,星期三第二节.条件logistic回归
Sas统计软件所得的结果解释与spss相似第69页,讲稿共82页,2023年5月2日,星期三七、条件Logistic回归对配对/比调查资料,应该用条件Logistic回归分析。对于配比资料,第i个配比组可以建立一个Logistic回归:第70页,讲稿共82页,2023年5月2日,星期三假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。配比设计的Logistic回归模型其中不含常数项。第71页,讲稿共82页,2023年5月2日,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冀少版八年级生物上册第五单元第二节食品保存技术课件
- 探险宾馆安全活动规则
- 电子产品卖场租赁联营协议
- 住宅小区物业管理租赁合同
- 离婚协议书中退休金处理
- 电子电器印刷质量评估准则
- 烘焙店设备安装合同
- 汽车销售广告施工合同文本格式
- 人力资源项目薪资激励策略
- 保险业用电合同管理规定
- Linux网络管理
- 混凝土结构连接化学螺栓锚栓计算表
- 华为AC6005配置清单
- 第五章预应力混凝土工程
- 15吨每小时垃圾渗滤液管式超滤技术方案
- 危大工程台账
- 旺角城广场商铺招商代理协议书
- 自己编制的表格-两孔箱涵(结构、配筋、裂缝、基底应力)箱涵结构计算(恒载+活载)
- 小流量多头泵中文说明书C
- 管理经济学计算题及参考答案(已分类整理)
- 产万吨高密度聚乙烯聚合工段工艺设计
评论
0/150
提交评论