多因素线性回归_第1页
多因素线性回归_第2页
多因素线性回归_第3页
多因素线性回归_第4页
多因素线性回归_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1多重线性回归分析复旦大学生物统计学教研室2线性回归模型单因素线性回归模型(复习)多重线性回归方程多重线性回归模型模型的参数估计多重线性回归对资料的要求多重线性回归举例应用3单因素线性回归的复习4举例复习单因素回归模型例为了研究3岁至8岁男孩人群平均身高(cm)与年龄(year)的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽3名男孩,共抽18名男孩。资料如下:5本例的研究目的和实现方法研究目的:了解年龄与儿童人群的平均身高对应关系。方法1:可以做普查,得到每个年龄组所有儿童的身高,并且计算每个年龄组的儿童人群的平均身高。方法2:作抽样调查,本例就是通过按年龄组分层抽样调查,获得样本后用回归分析的方法得到每个年龄组儿童人群的平均身高估计值和相应的统计推断。6儿童身高的分布特征一般而言,儿童身高满足同一年龄x的儿童身高y近似服从正态分布,因此对于每个年龄x,均有一个身高y的总体均数。不同年龄x的儿童身高分别近似服从对应不同身高总体均数的正态分布。身高的总体均数是年龄x的一个函数7画散点图考查身高与年龄的分布关系Y的离散程度与X没有关系,并且散点呈直线带8画散点图考查身高总体均数与年龄的关系

年龄组的身高样本均数与年龄的散点图9由散点图确定身高总体均数与年龄

可能是直线关系年龄组的身高样本均数与年龄的散点图显示年龄组的身高样本均数与年龄几乎在一条直线上,略有些偏离直线的点可以理解为样本均数的抽样误差所致(因为样本均数一般不等于总体均数),因此可以假定固定年龄的身高总体均数与年龄x的关系可能是直线关系,即假定:10回归方程并且称上述直线方程为(总体)回归方程。回归方程中,为未知参数,需要用样本资料通过拟合曲线后得到其估计值,并分别记为a和b,相应得到样本估计的回归方程通常称为Y的预测值,其意义为固定x,Y的总体均数的估计值。11Y与x的直线回归关系由总体回归方程可知:当=0时,。即:对于x的任何值,总体均数没有任何改变,因此建立Y与x的直线回归方程就没有任何意义了,所以称0时,Y与x

之间存在直线回归关系,反之=0Y与x

之间称不存在直线回归关系。12回归模型根据正态分布性质,可以得到:固定年龄X,身高Y服从总体均数为,方差为2的正态分布由散点图可以假定总体均数故令,即:,并称为直线回归模型13误差与残差

称为随机误差称为残差(residual)根据上述,直线回归分析要求资料满足固定X,Y服从正态分布等价于残差服从正态分布。14直线回归原理示意图所以如果固定x,Y服从正态分布,其散点图呈直线带分布15直线回归系数的估计用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。即使下列的SSE达到最小值。由此得到16回归系数的意义由总体回归方程可知回归系数表示:x增加一个单位,总体均数增加个单位由于是的估计表达式,所以(样本)回归系数b表示x增加一个单位,估计y平均增加b个单位。

17回归系数假设检验的必要性由于样本回归系数b与总体回归系数存在抽样误差,即:一般情况下,b,因此需要考虑抽样误差对统计推断是否存在重大影响。由于

=0时,,Y与x之间不存在直线回归关系,因此是否为0,涉及到所建立的回归方程是否有意义的重大问题,然而即使=0,样本回归系数b一般不为0,因此需要对回归系数是否等于0进行假设检验。18回归系数的假设检验H0:=0vs.H1:0=0.05回归系数的标准误为其中s为残差的标准差则回归系数的检验统计量为

19回归系数的假设检验残差的标准差s还可以表示为可以证明:H0:=0成立时,检验统计量tb服从自由度为n-2的t分布。即:当出现,=0而言这是小概率事件,故可以拒绝H0:=0,认为0。20回归系数检验统计量t的分布示意图当|t|>t0.05,1,n-2时,对=0而言是小概率事件,对>0而言并非是小概率事件21成组t检验由单因素线性回归实现下列将举例证实成组t检验可以用单因素线性回归实现,以此进一步理解线性回归的意义。举例:在2型糖尿病患者人群和健康人群中分别随机抽取15个年龄在50岁~60岁男性对象,测量其体重指数BMI,分析这两个人群的平均BMI是否不同。22成组t检验由单因素线性回归实现先做成组t检验,借助Stata软件得到下列t检验结果糖尿病组的BMI均数-健康组的BMI均数=1.74,t=4.2754,P=0.0002,95%CI为(0.9063416,2.573658)23成组t检验由单因素线性回归实现定义因变量Y为BMI,糖尿病组定义自变量x=1,健康组定义自变量x=0,数据格式如下借助Stata软件实现线性回归:regyx24成组t检验由单因素线性回归实现Stata输出结果为回归系数=糖尿病组均数-健康组均数=1.74t=4.28,P<0.001,95%可信区间为(0.9063416,2.573658),与t检验结果完全相同25成组t检验由单因素线性回归实现原理因为回归方程为Y是固定X时的Y总体均数,所以X=0时,健康人群的总体均数为,X=1时,糖尿病人群的总体均数为因此糖尿病人群总体均数与健康人群的总体均数之差为,因此检验两个总体均数相等的问题就是检验回归系数的问题。26成组t检验由单因素线性回归实现原理由于预测值是总体均数的估计值,所以x=0,X=1,所以事实上,样本回归方程就是成组t检验由单因素线性回归实现原理27成组t检验由单因素线性回归实现原理由于线性回归模型为X=0时,X=1时即:对于成组t检验资料而言,用X=1和X=0定义分组变量,其资料满足线性回归对资料的要求,故其结果与成组t检验相同。28多重线性回归模型介绍29多重线性回归方程设有m个自变量为,亦称协变量,应变量为Y,则描述Y的总体均数与m个自变量之间的线性关系可以用下列的多重线性回归方程

其中0为常数项,亦称截距,1,2,…,m称为偏回归系数。30多重线性回归模型刻画观察变量Y与自变量之间的对应关系为下列多重线性回归模型i表示除Xi以外的其它自变量固定的情况下,Xi变化一个单位,相应Y的平均变化值,即Y总体均数的相应变化值。31多重线性回归模型0,1,2,…,m

一般是未知的,但可根据样本资料拟合回归方程得到其估计值,,由此可写出相应的样本回归方程称样本偏回归系数,简称偏回归系数。32多重线性回归模型由于多重线性回归方程的参数估计方法采用最小二乘法,对于多个自变量的情况,计算量相对比较烦琐,一般需用计算机完成计算,故以下将通过实例介绍多重线性回归方程的基本分析步骤和分析策略。33多重线性回归举例1欲研究糖尿病患者的总胆固醇(X1)和甘油三酯(X2)对空腹血糖(Y)的影响,某研究者调查40名糖尿病患者的总胆固醇、甘油三酯和空腹血糖的测量值如下,试根据上述研究问题作统计分析。34举例1的数据

总胆固醇X1,和甘油三酯X2对空腹血糖Y35参数估计根据上述研究问题,考虑用多重线性回归进行统计分析,其回归方程为寻找0,1和2

使下列和式SS达到最小,称为最小二乘法。36参数估计结果故借助统计软件,得到下列参数估计由此得到回归方程的估计表达式37线性回归的模型检验借助线性回归的方差分析可以进行模型检验。首先线性回归方程可以把因变量的总变异SS总分解为回归平方和SS回归和残差平方和SS残差。对应的自由度为38线性回归的模型检验模型检验的检验假设H0:1=2=…=m=0H1:1,2,…,m

不全为0=0.05检验统计量39线性回归的模型检验当H0:1=2=…=m=0为真时,即:如果,可以拒绝H0,推断1,2,…,m

不全为0。40线性回归的模型检验本例借助Stata软件输出结果得到:拒绝H0,故可以推断1,2不全为041线性回归模型的单个参数检验单个回归系数i的检验表示其它m-1个自变量均在当前回归模型中的条件下,Xi的回归系数i是否为0的统计检验,具体方法如下:H0:i=0H1:i0=0.05检验统计量42线性回归模型的单个参数检验其中bi是i的最小二乘估计(而且是无偏估计),是bi的标准误,n为样本量,m为模型中的自变量个数。可以证明:当H0:i=0成立时,统计量服从自由度为n-m-1的t分布。即:i=0为真时,对于1次随机抽样而言:出现的概率为0.05,故可拒绝无效假设H0:i=0,并可以认为i0。43线性回归模型的单个参数检验本例单个参数检验结果总胆固醇(X1)上升1mmol/L,估计空腹血糖平均上升0.172mmol/L,差异有统计学意义。甘油三酯(X2)上升1mmol/L,估计空腹血糖平均上升0.318mmol/L,差异有统计学意义。44线性回归模型举例2为了研究0岁至8岁儿童身高增长的规律,在某社区随机抽样,调查了20名男孩和20女孩的年龄和身高,男性取值为1,女性取值为0。试找出儿童身高的一般规律。定义身高为因变量Y,年龄为X1,性别为X245线性回归模型举例2的数据46线性回归模型举例2对于同一性别而言,儿童的平均身高与年龄通常呈线性增长关系,但不同性别的儿童身高及其增长速度有一定的差异,因此试图用下列回归方程表示不同性别的儿童身高与年龄的关系。47线性回归模型举例2方程对于女孩,代入方程,得到下列回归方程1表示女孩的每年的平均身高增长量,0表示女孩出生时的平均身高。对于男孩,代入方程,得到下列回归方程48线性回归模型举例2男孩的每年的平均身高增长量为1+3男孩出生时的平均身长为0+2如果3=0,则男孩与女孩的每年的平均身高增长量相同。如果2=0,则男孩与女孩出生时的平均身长相同。49线性回归模型举例2借助Stata软件输入命令genx1x2=x1*x2产生x1*x2变量regyx1x2x1x2线性回归分析50线性回归模型2举例由线性回归的方差分析结果可以推断:1,2,3不全为0,故可以认为拟合该回归模型是有统计学意义的。拟合回归方程的主要评价指标是决定系数R2R2表示因变量Y与自变量X1,┄,Xm

伴随变化的变异成分占Y总变异的比例。51线性回归模型2举例本例的Stata输出结果如下R2=0.9972,即:Y的99.72%的变异是与X1和X2伴随变化的52线性回归模型举例2由此得到样本估计的回归方程女孩(X2=0)的身高回归方程为女孩在出生时(X1=0)的平均身高约为64.6cm,身高平均每年增长约为8cm,由1的P<0.0001,推断差异有统计学意义。53线性回归模型举例2男孩(X2=1代入方程)的身高回归方程为其中1+3的估计值为8.279,还应检验总体回归系数之和1+3是否为0借助Stata软件:testx1+x1x2=0,得到(1)x1+x1x2=0F(1,36)=6379.64Prob>F=0.0000,故有统计学意义。54线性回归模型对资料的要求线性回归要求资料满足:残差变异程度与任何一个自变量Xi没有关联性残差变化与任何一个自变量Xi没有任何伴随趋势。因变量观察值之间独立(从抽样背景上考察)其中第1条和第2条要求是通过分别作残差与每个自变量的散点图进行判别的。55线性回归模型对资料的要求本例:用Stata命令计算残差predicte,residualgraphex1,xlabelylabel散点图显示残差与X1之间没有明显的伴随趋势56线性回归模型对资料的要求graphex2,xlabelylabel残差与x2的散点图显示没有明显的伴随趋势57举例介绍应用线性回归进行协方差分析例:为了评价缺铁性贫血的两种不同的疗效,某研究者在预试验中收集了40名患者,随机分为A组和B组,两组的治疗方案分别称为A方案和B方案,A方案用分组变量X1=0表示,B方案用X1=1表示。经过一个月治疗后,治疗前红细胞数(万/l)和治疗后的红细胞增加数等如表20-8,记治疗后的红细胞增加数为Y,治疗前的红细胞数为X2,试评价两种治疗方案的疗效差异。58协方差分析举例数据59协方差分析举例记治疗后的红细胞增加数Y的总体均数为,若不考虑治疗前红细胞数(称为基线)对疗效的影响,则可用下列回归方程刻画两种治疗方案的疗效。A方案对应X1=0方程,得到用A方案治疗前后的红细胞数改变量的总体均数为0,B方案对应X1=1

代入方程,得到用B方案治疗前后的红细胞数改变量的总体均数为0+1,因此两种方案的疗效差异的总体均数为1,本质上就是一个成组t检验。60协方差分析举例由于治疗后的红细胞增加数往往与治疗前的红细胞数水平X2有关,一般需要校正治疗前红细胞数水平X2对治疗后的红细胞增加数的影响(称为校正基线对结果的影响),故可用下列回归方程61协方差分析举例由方程A方案(X1=0)的红细胞增加数的总体均数为B方案(X1=1)的红细胞增加数的总体均数为两种治疗方案的红细胞增加数的总体均数差值为62协方差分析举例所以称协方差模型中的1的估计和检验是校正了基线后的两种治疗方案疗效差异的统计推断。借助Stata软件:regyx1x2校正基线后,两组均数差异为0.625,t=2.11,P=0.042<0.05差异有统计学意义。63协方差分析的意义未校正基线是比较两条水平直线的高度差异是否为0,校正基线后是比较两条非水平直线的平行距离是否为064线性回归模型分析应注意问题由于自变量之间往往存在一定的相关性,甚至有可能出现多个自变量的共线问题,以致回归系数的估计出现较大误差,甚至可能出现模型检验是有统计学意义的,但每个回归系数的单个系数检验显示差异无统计学意义,一般要通过筛选自变量或主成分方法解决。多个自变量共线一般用膨胀系数表述。65线性回归模型分析应注意问题设自变量为,以Xi为自变量,其他m-1个变量为自变量做线性回归,得到相应的决定系数R2,由此计算Xi的膨胀系数如果存在某个VIFk>10,则可以认为存在较严重的多元共线。如果远大于1,也可认定多元共线。66自变量的筛选策略一般而言,自变量的筛选策略要根据研究问题和研究背景,分析研究背景,选择最合理的自变量进入模型。例如:干预性研究,干预因素必须放入模型中,同时考虑哪些变量是对评价干预效果是有影响,并且要考虑这些因素能否对干预效果能否控制其混杂作用。例如:要考查不同自变量与因变量之间的直接关系与间接关系。67自变量的筛选策略举例例:为了研究糖尿病患者的C反应蛋白Y与年龄X1和体重指数X2的关系,某研究者调查了60名糖尿病患者,测量和收集了C反应蛋白Y(mg/L)与年龄X1和体重指数X2,试分析C反应蛋白与年龄和体重指数的关系。68自变量的筛选策略举例的数据69自变量的筛选策略举例考虑模型1考虑模型2考虑模型370自变量的筛选策略举例模型1的拟合结果为模型2的拟合结果为71自变量的筛选策略举例模型3的拟合结果3个模型结果综述如下72自变量的筛选策略举例讨论模型1的结果虽然显示X1的P<0.001,推断Y与X1呈线性回归关系,但当模型中增加一个自变量x2时(即:模型3),则X1的P值大大增加,P=0.605,无统计学意义,回归系数大幅度下降,而X2的P值<0.001,其回归系数为0.233,比较模型中仅有一个自变量X2(模型2),其回归系数为0.251,两者相差很小,并且P值也<0.001,进一步分析X1与X2的相关系数为0.702,P<0.001,故可以推断模型1所得到的Y与X1的线性回归关系实际上是X1与X2相关并且Y与X2的线性回归关系而间接形成的。73逐步回归如果作为探索性研究,对研究背景中的许多因素不太了解之间的关系,可以采用逐步回归作为各种关系的初探,其意义为寻找影响Y的主要因素。一般而言,模型的参数越多,模型的拟合程度越好,残差平方和就越小,但回归系数的检验效能就越低,另外过多的参数会导致内部符合程度很好但外部的预测误差会很大,所以从外部预测误差和统计检验的效能角度,希望在基本相同的拟合程度情况下,参数越少越好。74逐步回归逐步回归的基本准则是在满足模型中的所有自变量的回归系数的P值均小于前提下,尽可能地使模型中引入的自变量个数达到最多。严格地讲:逐步回归可以分为前进法(forward),后退法(Backward),逐步前进法(stepwiseforward)和逐步后退法(stepwisebackward)。75逐步回归前进法:从未进入模型的自变量中挑选一个自变量进入模型,要求进入模型时,该自变量回归系数P值<并且比其他为进入模型的自变量的P值都小,每次只挑选一个自变量进入模型,直到在没有进入模型的自变量的P值(如果该变量进入模型)>为止。76逐步回归后退法:将所有待选的自变量全部进入模型,如果存在P值>的自变量,则挑选P值最大的自变量剔除模型中,然后再拟合模型,如果还存在P值>的自变量,则继续剔除P值最大的自变量,直到模型中所有自变量的P值均<为止。77逐步回归逐步前进法:在前进法的基础上,每引入一个自变量,还需考察引入后模型中是否存在自变量>,如果存在某些自变量的P值>,则挑选P值最大的自变量剔除,然后再考察是否还存在自变量的P值>,如果还存在继续按照这个准则剔除,直到模型中的自变量的P均小于,然后在从待选自变量中挑选P值最小并且P<的自变量引入模型,依次循环,直至既没有变量可以引入模型,也没有变量可以剔除模型为止。78逐步回归逐步后退法:在后退法的基础上,每剔除一个自变量,考察一下未进入模型的自变量中有没有自变量满足P<,在P<的自变量中挑选P值最小的自变量进入模型,直至没有自变量可以进入模型后,继续在模型中挑选P值最大并且P>的自变量剔除,依次循环,直至既没有自变量可以剔除,也没有自变量可以引入为止。79逐步回归举例例:为了研究影响糖尿病患者糖化血红蛋白(HbA1c)的主要危险因素,某研究者调查了某医院内分泌门诊的200名糖尿病患者的糖化血红蛋白,年龄,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论