多元线性回归与Logistic回归课件_第1页
多元线性回归与Logistic回归课件_第2页
多元线性回归与Logistic回归课件_第3页
多元线性回归与Logistic回归课件_第4页
多元线性回归与Logistic回归课件_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线性回归多元线性回归多元线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量。简单线性回归是研究一个因变量(Y)和一个自变量(X)之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。简单线性回归的大部分内容可用于多元回归,因其基本概念是一样的。内容安排多元线性回归模型与参数估计回归方程和偏回归系数的假设检验标准化偏回归系数和确定系数多元回归分析中的若干问题回归分析中自变量的选择多元线性回归分析的作用参数的最小二乘估计与简单回归类似,我们寻求参数B0、B1、B2和Bp的适宜估计数值b0、b1、b2和bp,,使实际观察值和回归方程估计值之间残差平方和最小,即Q=(yi-ŷi)2

=(yi-b0-b1x1i-b2x2i-…-bpxpi)2对b0、b1…、bp分别求偏导数,今偏导数为零可获得P+1个正规方程,求解正规方程可得待估参数值。回归方程和偏回归系数的假设检验回归方程的假设检验:

建立回归方程后,须分析应变量Y与这p个自变量之间是否确有线性回归关系,可用F分析。H0:B1=B2=….=Bp=0H1:H0不正确=0.05F=MS回归

/MS误差

MS回归

=SS回归/pSS回归=bjLjy(j=1,2….,P)MS误差=SS误差/(n-p-1)SS误差为残差平方和偏回归系数的假设检验

回归方程的假设检验若拒绝H0,则可分别对每一个偏回归系数bj作统计检验,实质是考察在固定其它变量后,该变量对应变量Y的影响有无显著性。

H0:Bj=0H1:Bj不为零=0.05F=(Xj的偏回归平方和/1)

/MS误差Xj的偏回归平方和:去Xj后回归平方和的减少量若H0成立,可把Xj从回归方程中剔除,余下变量重新构建新的方程。标准化偏回归系数和确定系数标准化偏回归系数:在比较各自变量对应变量相对贡献大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。

bj´=bj(sj/sy)

回归分析中的若干问题

资料要求:总体服从多元正态分布。但实际工作中分类变量也做分析。n足够大,至少应是自变量个数的5倍分类变量在回归分析中的处理方法有序分类:治疗效果:x=0(无效)x=1(有效)x=2(控制)无序分类:有k类,则用k-1变量(伪变量)多元线性回归方程的评价

评价回归方程的优劣、好坏可用确定系数R2和剩余标准差Sy,x1,2..p。

Sy,x1,2.p=SQRT(SS误差/n-p-1)如用于预测,重要的是组外回代结果。选择变量的统计学标准R2最大

R2=SS回归/SS总adjR2最大:

adjR2=1-MS误差/MS总Cp值最小

Cp=(n-p-1)(MS误差.p/MS误差.全部-1)+(p+1)选择变量的方法最优子集回归分析法:

p个变量有2p-1个方程逐步回归分析向前引入法(forwardselection)向后剔除法(backwardselection)逐步引入-剔除法(stepwiseselection)H0:K个自变量为好H1:K+1个自变量为好向前引入法(forwardselection)自变量由少到多一个一个引入回归方程。将corr(y,xj)最大而又能拒绝H0者,最先引入方程,余此类推。至不能再拒绝H0为止。向后剔除法(backwardselection)自变量先全部选入方程,每次剔除一个使上述检验最不能拒绝H0者,直到不能剔除为止。逐步引入-剔除法(stepwiseselection)先规定两个阀值F引入和F剔除,当候选变量中最大F值>=F引入时,引入相应变量;已进入方程的变量最小F<=F剔除时,剔除相应变量。如此交替进行直到无引入和无剔除为止。(计算复杂)例:测量16名四岁男孩心脏纵径X1(CM)、心脏横径X2(CM)和心象面积Y(CM2)三项指标,得如下数据。试作象面积Y对心脏纵径X1、心脏横径X2多元线性回归分析。例:某科研协作组调查山西某煤矿2期高血压病患者40例,资料如下表,试进行影响煤矿工人2期高血压病病人收缩压的多元线性回归分析。Logistic回归

内容安排Logistic回归模型模型参数的意义Logistic回归模型的参数估计Logistic回归方程的假设检验Logistic回归模型中自变量的筛选Logistic回归的应用

Logistic回归模型先引入Logistic分布函数,表达式为:F(x)=ex/(1+ex)

X的取值在正负无穷大之间;F(x)则在0-1之间取值,并呈单调上升S型曲线。人们正是利用Logistic分布函数这一特征,将其应用到临床医学和流行病学中来描述事件发生的概率。一般地,设某事件D发生(D=1)的概率P依赖于多个自变量(x1,x2,…,xp),且

P(D=1)=eBo+B1X1+…+BpXp/(1+eBo+B1X1+…+BpXp)或

Logit(P)=Bo+B1X1+…+BpXp则称该事件发生的概率与变量间关系符合多元Logistic回归或对数优势线性回归。

logistic回归模型参数的意义

优势比(oddsratio,OR):暴露人群发病优势与非暴露人群发病优势之比。

P(1)/[1-p(1)]OR=———————P(0)/[1-p(0)]Ln(oR)=logit[p(1)]-logit[p(0)]=(B0+B×1)-(B0+B×0)=B可见B是暴露剂量增加一个单位所引起的对数优势的增量,或单位暴露剂量与零剂量死亡优势比的对数。eB就是两剂量死亡优势比。常数项B0是所有变量X等于零时事件发生优势的对数。Logistic回归的参数估计Logistic回归模型的参数估计常用最大似然法,最大似然法的基本思想是先建立似然函数或对数似然函数,似然函数或对数似然函数达到极大时参数的取值,即为参数的最大似然估计值。其步骤为对对数似然函数中的待估参数分别求一阶偏导数,令其为0得一方程组,然后求解。由于似然函数的偏导数为非线性函数,参数估计需用非线性方程组的数值法求解。常用的数值法为Newton-Raphson法。不同研究的设计方案不同,其似然函数的构造略有差别,故Logistic回归有非条件Logistic回归与条件Logistic回归两种。2、偏回归系数的显著性检验:目的是检验回归模型中自变量的系数是否为零,等价于总体优势比OR是否为零。H0:B等于零H1:B不等于零A、wald检验:B、Scoretest:C、likelihoodratiotest(waldchi-squaretest):回归模型中自变量的筛选和多元线性回归分析一样,在Logistic回归分析中也须对自变量进行筛选。方法和多元线性回归中采用的方法一样,有向后剔除法、向前引入法及逐步筛选法三种。筛选自变量的方法有wald检验、Scoretest、likelihoodratiotest(waldchi-squaretest)三种。Logistic回归的应用筛选危险因素校正混杂因素预测与判别例1:在饮酒与食道癌的成组病例对照研究中,共有200例食道癌患者和774例非食道癌对照,年龄是混杂因素,按年龄分层后资料如下:age对象(1=病例0=对照)饮酒不饮酒合计OR25—3411010910611535---4414595.0502616419045----5412521465.6702913816755---6414234766.3602713816565---7411936552.580188810675-2:研究女生月经初潮与体质关系的调查中,某地调查了23名11—15岁女生的月经和体质情况,脉搏X1为30秒脉搏数,体重X2单位为公斤,年龄X3单位为岁。月经Y为0表示未来月经,1表示已来月经。试用非条件Logistic回归进行分析。(X1=40X2=40X3=13p=0.92;X1=39X2=35X3=11p=0.23)例3:在研究新生儿出生时体重、妊娠周数与支气管肺的发育不良病(BPD)的关系时,得下表资料。出生时体重(组中值)妊娠周数观察人数患BPD人数birthweightagenBPD75027413375029.52115750

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论