第十二讲多重线性回归_第1页
第十二讲多重线性回归_第2页
第十二讲多重线性回归_第3页
第十二讲多重线性回归_第4页
第十二讲多重线性回归_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二讲多重线性回归第11讲多重线性回归—引言在医药研究中,应变量得变化往往受到多个因素得影响,此时就需要用多重线性回归(MultipleLinearRegression),多重线性回归就是直线回归得扩展。例如,人得体重与身高、胸围有关;人得心率与年龄、体重、肺活量有关。因此,采用两个或多个影响因素作为自变量(Xi)来解释应变量(Y)得变化,建立最优组合模型来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。第一节多重线性回归一、多重线性回归模型

Y=β0+β1X1+β2X2+…+βmXm+e

二、多重线性回归得基本条件多重线性回归模型得应用条件同直线回归,即线性(linearity)、独立性(indepen-dency)、正态性与方差齐性(normaldistributionandequalvariance)等条件,简记LINE。还要注意个自变量间不能存在多重共线性。三、多重线性回归分析得步骤四、多重共线性问题如果一些自变量之间存在较强得线性关系,称多重共线性。判断多重共线有相关系数、容忍度、方差膨胀因子等指标。一般来说,相关系数r>0、8得变量可能存在共线问题,r>0、9得变量存在共线。容忍度=1-R2,愈小说明共线问题愈严重,如果某个自变量得容忍度<0、1,共线问题严重。方差膨胀因子=容忍度得倒数,愈大说明共线问题愈严重。消除多重共线性得方法有多种,如岭回归、主成分回归等。五、多重回归得样本含量只要例数n多于自变量个数m即可,一般要求n为m得5倍以上。六、多重回归得检验多元线性回归方程得假设检验:①对整个方程得综合检验,即对回归方程得线性假设检验;②对每一个自变量得检验,即对每个偏回归系数得假设检验。⑴回归方程得方差分析剩余标准差

剩余标准差得平方就是残差得方差,又称均方误差,记为MSE,其值越小越好(2)偏回归系数得假设检验分别考察每一个自变量xi与应变量Y就是否都有直线回归关系

R2=SS回

/SS总

校正决定系数就是衡量方程好坏得常用指标之一

七、决定系数八、标准化偏回归系数

九、残差分析

资料不满足其条件时,常用得处理方法有:修改模型或者采用曲线拟合;变量变换,常用得变量变换有对数变换、平方根变换、倒数变换等。变量变换对自变量或(与)应变量均适宜;如果方差不齐,可采用加权最小二乘法估计偏回归系数。

12大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流(1)分析因素得相对重要性,找出对因变量最大得关键因素。(2)同时调整多个混杂因素得作用(类似多元协方差分析调整多个混杂因素得作用)。(3)估计与预测,用较易测量得多个自变量来估计难以测得应变量总体均数μY或预测个体Y值。(4)多重回归分析就是进一步学习logistic回归、判别分析、主成分分析、因子分析等多元统计分析方法得基础。十一、筛选自变量方法十、多元回归分析得应用

(1)全局择优法:m个自变量得不同组合共有2m-1种,分别建立回归方程进行比较后择优。择优得准则有多种,准则不同,筛选得结果可能不同。如果用最大校正决定系数准则,则挑选校正决定系数R2a最大者来获得“最优子集”得回归方程。SPSS为Enter法。(2)逐步选择法:备选自变量较多时,全局择优得计算量非常大,用逐步回归法选择可减少计算量。常用逐步(Stepwise)、向前(Forward)、向后(Backward)法。向后法考虑了自变量得组合作用,但变量数不能太多。3种逐步回归方法选中得自变量不一定相同。逐步回归得到只就是局部最优,不一定就是全局最优回归方程。将自变量得交互项引入方程进行检验分析。

十二、自变量间交互作用得分析

【例17-1】大白鼠作受试对象,分析乌头碱不同注射速度x1、常咯啉得不同剂量x2,大鼠体重x3与应变量延缓心律失常发生得时间Y得关系。编号123456789101112131415X14、85、67、14、92、66、65、25、54、76、85、42、94、03、13、1X20、080、070、010、070、110、110、070、110、030、010、020、210、010、110、10X3230260252229220247233222206244222226234212212Y19、115、714、919、020、917、519、221、820、514、518、623、216、822、721、9

【SPSS操作】以X1、X2、X3、Y为变量名建立数据文件L17-1、SAV。DataViewVariableView→Analyze→Regression→Linear…、、Y选Dependent框、X1、X2、X3选Independent框。Method框选Stepwise。校正决定系数R2a=0、968,拟合效果好。第2步回归得F=209、539,P=0、000,故线性回归模型有统计学意义。共线性诊断大鼠体重与常咯啉剂量得容忍度都为0、940,方差膨胀因子都为1、064,可认为不存在共线问题。建立线性回归方程为Y=45、110+28、844×常咯啉剂量-0、123×大鼠体重大鼠体重、常咯啉剂量得标准回归系数分别为-0、682、0、564。可见对延缓心律失常时间影响得重要性大鼠体重大于常咯啉剂量。因主要考察因素x1未进入方程,分析自变量间得交互作用,→Transform→pute,计算X12、X13、X23。将X1,*,X2送NumericExpression,X12送TargetVariable→Transform→pute,计算X12、X13、X23。用原变量连同交互作用变量建立回归方程:X12、X13、X23送IndependentMethod选EnterOK3个变量+3个交互作用变量共6个自变量,不同组合有26-1=63种,Method框选Ente,建立得63个回归方程中,R2a=0、980最大方差分析F值63、724,方程有统计学意义最优方程:Y=28、793+1、795x1+130、891x2-0、048x3+3、188x12-0、009x13-0、502x23。x2标化系数=2、561最大,常咯啉剂量对延缓心律失常发生时间作用最大。x23标化偏回归系数=-2、213绝对值第二大,常咯啉剂量与大鼠体重得交互效应对延缓心律失常发生时间产生负面影响不可勿视。(1)二分类自变量常采用0、1赋值方法。如,用X代表性别:X=0为女,X=1为男,或者用X=1为女,X=0为男。十三、分类变量赋值方法

(2)指标为无序k类,定义k-1个二分类哑变量。例如,中医治崩漏,分肾虚、肝虚、肝郁、血虚4型,只要用3个二分类变量X1,X2,X3就能标记这4个类别。崩漏分型X1X2X3肾虚型100肝虚型010肝郁型001血虚型000,,

(3)有序分类变量数量化方法:①对等级根据级别大小进行量化后按连续变量处理。例如,用X=1,2,3分别为表示病情轻,中,重。②用无序多分类变量设置哑变量得方法。采用哪种方法更好

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论