卫生统计学-11 -多重线性回归分析_第1页
卫生统计学-11 -多重线性回归分析_第2页
卫生统计学-11 -多重线性回归分析_第3页
卫生统计学-11 -多重线性回归分析_第4页
卫生统计学-11 -多重线性回归分析_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

11多重线性回归分析身高:不仅受到遗传因素的影响,而且还受到营养状况、体育锻炼情况、居住环境因素的作用;血压:除了与年龄有关外,还与家族史、饮食习惯、劳动强度等因素有关。生物医学研究领域中多因素相互作用现象非常普遍…问题:在影响疾病众多因素中,哪些是主要因素?各个因素作用有多大?由于涉及到的自变量X的增多,变量间的关系变的复杂?多重线性回归:是研究一个因变量和多个自变量之间线性关系的统计学分析方法。目的:用回归方程的方式定量地描述一个因变量Y和多个自变量X1、X2、

X3、…

、Xp

之间的线性依存关系。回归分析1个因变量Y1个自变量X2个以上自变量XY是数值变量Y是分类型变量两个因变量(结局分类变量+时间)生存分析Cox回归④简单回归SimpleregressionLogistic回归Logistic

regression多重回归Multipleregression①②③常用的回归分析中分类:曲线回归线性回归

自变量X因变量Y

统计方法单因单果1个1个简单线性相关simplelinearcorrelation简单线性回归simplelinearregression多因单果多个1个多重相关multiplecorrelation多重回归multipleregression多因多果多个多个典则相关cononicalcorrelation多元回归multivariateregression单因单果(扣除其它变量影响)1个1个部分偏相关partialcorrelation概念区分:11.1多重线性回归的概述例12-1:试对大气污染一氧化氮(NO)的浓度和汽车流量、气温、气湿、风速等的关系进行回归分析。车流量、气温、气湿、风速4因素是否都对空气中NO的浓度有影响?如何定量地描述这种影响?哪个因素对NO的影响最大?哪个因素影响的最小?如何利用这些影响因素去预测空气中NO的浓度?如何预测?效果如何?如果想在控制气温、气湿和风速的条件下,如何定量地描述NO浓度与车流量的关系?多重线性回归拟回答以下问题:1.多重线性回归适用条件仅适用于1个应变量y和多个自变量x。要求1个应变量y和该组因变量x间满足线性、独立性、正态性、方差齐性的要求。注意样本中的极端值,必要时可剔除或进行变量变换。多重线性回归(multiplelinarregression)称为y的预测值,指对于某个确定x的群体,y平均值的估计。b0:常数项(constant),截距(intercept);即所有自变量x取值均为0时,y的平均估计值。bi:变量xi的偏回归系数(partialregressioncoefficient),是总体参数βi

的估计值;指在方程中其它自变量固定不变的情况下,xi每增加或减少一个计量单位,反应变量Y平均变化bi个单位。2.模型的基本结构:回归系数的标准化:问题:对NO浓度的贡献,哪个因素作用的大一点,哪个小一些?2.求标准化偏回归系数:用标准化的数据进行回归模型的拟合,算出它的方程,此时所获得的偏回归系数b’,叫~。1.自变量数据的标准化:b’无单位,可用来比较各个自变量对反应变量的贡献大小未标准化的回归系数(偏回归系数):用来构建回归方程,即方程中各自变量的斜率。标准化的回归系数:用于综合评价各解释变量对因变量Y的贡献大小,标准化的回归系数越大,说明X对Y的影响幅度越大。比较:3.多重线性回归分析的基本步骤:

估计b0、b1、b2

…、bP最小二乘法回归方程和系数β的假设检验列出回归方程,统计应用方差分析和t检验预测和控制、影响因素分析关联趋势的图形考察确定变量筛选的方法数据预处理:强影响点用多重共线性模型诊断:残差分析是否适合该模型(Line)建模准备散点图、散点图矩阵、重叠/三维散点图回归参数的估计:最小二乘估计

(leastsquareestimation)两个自变量时回归平面示意图用最小二乘法拟合直线,使得反应变量观测值Yi与回归方程求得估计值之间的残差(样本点到直线的垂直距离)平方和达到最小。

.

通过SPSS等统计软件,拟合X1、X2、X3、X4关于空气中NO浓度的多重线性回归方程,得:还需要解决的三个问题:就总体而言,这种回归关系是否存在?即总体回归方程是否成立?回归方程的效果如何?也即这四个变量能解释反应变量Y的百分比是多少?四个自变量是否对反应变量Y的影响都有意义?统计推断——假设检验假设检验回归方程的假设检验(modeltest):回归系数的假设检验:目的:检验求得的回归方程在总体中是否成立,即是否至少有一个βi≠0;方法:单因素方差分析。目的:即检验各个偏回归体系数βi是否为0;方法:t检验。统计推断:(1)回归方程的假设检验:总的来说,若该回归方程成立,则这些回归系数里面至少有一个不为0,只要有一个不为0,这个方程来说总的就是成立的。H0:β1=β2=β3=…=βi=0H1:至少有一个

βi≠0(2)对各个回归系数进行假设检验问题:通过假设检验方程总的来说成立,1.即至少有1个βi不为0,但到底哪些为0,哪些不为0?2.再者,即使总体回归系数为零,也可能得到样本偏回归系数不为0的情况。方法:t检验回归方程的解释:

—这3个因素对空气中NO浓度(污染)的影响有多大?

1.确定系数(coefficientofdetermination,R2)

2.复相关系数(multiplecorrelationcoefficient,R)1.确定系数(coefficientofdetermination,R2)或决定系数:回归平方和与总平方和之比。反映了一组自变量X对回归效果的贡献,即Y的总变异中回归关系所能解释的百分比(varianceaccountformula,VAF);反映了回归模型的拟合效果,可作为反应拟合优度(goodnessoffit)的指标。本题:2.复相关系数(multiplecorrelationcoefficient,R)定义:为确定系数R2的算术平方根。反映了随机变量Y与一组自变量X对(X1,X2,…,Xp)之间的线性相关程度,即Y和该组自变量的密切程度。本题:【电脑实现】

—SPSS1.数据录入多重线性回归分析:2.SPSS过程【Method】(自变量的选入方法)Enter(强行进入法)Stepwise(逐步法)Remove(强制剔除法)Backward(向后法)Forward(向前法)自变量筛选方法的选择:【Statistics】RegressionCoefficients:回归系数Estimate:非标准化及标准化回归系数β、标准误,及其显著性检验结果(t值和P值)。Confidenceintervals:非标准化回归系数的95%可信区间。Modelfit:模型拟合优度检验,给出复相关系数R,决定系数R2,调整R2及方差分析结果Rsquaredchange:每剔出或引入一个自变量所引趋同的R2的变化量及相应的F值和P值。Descriptives:输出每个变量的均数、标准差,样本容量,相关系数及单侧检验P值的矩阵。Partandpartialcorrelations:简单相关系数及偏相关系数。Collinearitydiagnostics:输出共线性诊断的统计量。Residuals:用于选择输出残差诊断的信息Allcases:给出所有观察单位的残差、标准化残差和预测值。3.结果及结果输出:

决定系数越大,说明构建的回归方程越好⑴Enter:强制引入法⑵

未标准化的回归系数及标准误回归系数的t检验标准化的回归系数11.2自变量筛选收集资料时,涉及的自变量很多有些可能存在较大的测量误差;利用自变量筛选的准则和方法,产生“最优变量”子集,从而建立预测效果的最优模型。有些自变量对反应变量无影响或影响甚微;有的变量可能与其它的自变量存在高度的相关性——共线性α1:设为入选标准;α2设为剔除标准自变量筛选的常用方法:⑵后退法(backwardregression)⑴前进法(forwardregression)⑶逐步法(stepwiseregression)

⑷最优子集回归法(optimunsubsetsregression)【Method】(自变量的选入方法)Enter(强行进入法)Stepwise(逐步法)Remove(强制剔除法)Backward(向后法)Forward(向前法)自变量筛选方法的选择:3.结果及结果输出:

决定系数越大,说明构建的回归方程越好。⑴STEPWISE:逐步回归方程的决定系数

⑵STEPWISE:逐步回归方程的方差分析表

未标准化的回归系数及标准误回归系数的t检验标准化的回归系数⑶STEPWISE:逐步回归方程的参数估计

回归分析结果:2.影响因素分析:根据SPSS输出结果,可以认为车流量、气温和风速是影响空气中NO浓度的主要因素:当气温、风速保持不变的情况下,车流量增加1千辆,估计NO浓度平均升高0.116×10-6;当车流量、风速保持不变的情况下,气温上升1℃,估计NO浓度平均升高0.004×10-6;当车流量、气温保持不变的情况下,风速增加1m/s,估计NO浓度平均减少0.035×10-6。3.根据标准化偏回归系数,认为作用车流量>气温>风速。4.根据确定系数,方程3因素可解释污染变异的78.7%。1.回归方程称为y的预测值,指对于某个确定x的群体,y平均值的估计。b0:常数项(constant),截距(intercept);即所有自变量x取值均为0时,y的平均估计值。bi:变量xi的偏回归系数(partialregressioncoefficient),指在方程中其它自变量固定不变的情况下,xi每增加或减少一个计量单位,反应变量Y平均变化bi个单位。5.多重共线性分析的注意事项:11多重线性回归分析回归分析1个因变量Y1个自变量X2个以上自变量XY是数值变量Y是分类型变量两个因变量(结局分类变量+时间)生存分析Cox回归④简单回归SimpleregressionLogistic回归Logistic

regression多重回归Multipleregression①②③引子:回归分析曲线回归线性回归回归分析简单线性:多重线性:logistic回归线性回归只1个X:

(简单)多个X:11.3多重线性回归的

前提条件及注意事项2.多重线性回归分析的注意事项:1.前提条件和残差分析—模型假设诊断2.多重共线性的问题3.哑变量的设置4.交互作用11.3.2线性回归分析的前题条件:线性(linear)独立性(independent)正态性(normal)等方差性(equalvariance)线性回归分析的前题条件linenormal正态性equalvariance等方差性反应变量Y的总体平均值与自变量组合之间呈线性关系在一定范围内任意给定各个X值,则反应变量Y服从正态分布在一定范围内,对应于不同X值,Y总体变异保持不变linear线性independent独立性指任意两个观察值互相独立1.线性和方差齐性:残差散点图residualplot模型假设诊断:LINE散点均匀分布在以0为中心,与横轴平行的带状区域内,可以认为基本满足线性和方差齐性的假定条件。散点呈现曲线趋势,提示资料不满足线性的假定。散点随预测值的变化而变化,提示资料不满足方差齐性的假定。散点随预测值的变化而变化且呈曲线趋势,提示资料不满足线性和方差齐性的假定。SPSS电脑实现3.线性和方差齐性检验结果—残差散点图:

散点均匀分布在以0为中心,与横轴平行的带状区域内,可认为基本满足线性和方差齐性的假定条件。2.正态性:残差图residualplot

或正态概率图提示残差满足正态分布3.独立性:应用残差图或Durbin-Watson统计量判断Durbin-Watson统计量的取值一般在0-4之间,如果残差之间相互独立,则取值在2左右,如果取值接近0或4,则提示不满足独立性。SPSS电脑实现3.独立性检验:

若残差之间相互独立,则取值在2左右。如果资料不满足LINE的前提条件:1.不满足线性条件修改模型或采用曲线拟合;2.不满足正态性、方差齐性条件变量变换:包括对数变换、平方根变换、倒数变换等;3.不满足方差齐性:采用其它方法估计偏回归系数。11.3.3多重共线性在进行多重线性回归分析时,除了要满足LINE外,还要求各变量之间不能存在共线性,即各变量之间要相互独立。为此,需要进行共线性诊断;当自变量均为随机变量时,若它们之间高度相关,则称变量间存在多重共线性(multicollinearity);自变量之间不存在多重共线性,即称其互相独立。例11-2

研究胎儿受精龄Y/周与胎儿身长X1/cm、头围X2/cm,体重X3/g之间的依存关系。显然,此处的3个解释变量X1、X2、X3之间存在着高度的共线性,X1、X2、X3两项对Y的过分贡献只能用X2项的负系数抵消,造成其专业意义无法解释而出现悖论。相关系数Correlation容忍度

Torelance方差膨胀因子

VIF条件数Conditionindex方差比例Varianceproportions,VP

方差相关矩阵VarianceMatrix可用来判断变量之间的独立性、或说多重共线性如果两个自变量之间的相关系数超过0.9,则会带来共线性问题,如果在0.8以下,一般不会出现多大问题。共线性诊断——1.两个自变量之间的相关系数2.容忍度

Tolerance/方差膨胀因子

VIF容忍度=1/VIF经验表明:VIF大于5或10时,存在严重的共线性;一般要求Tolerance必须大于0.1,或VIF必须小于10。3.条件数conditionindex/方差比例varianceproportions,VP

一般地,当条件数大于10,且有两个以上的自变量对应的方差比例大于0.5时,可以认为这些自变量是严重相关的。

当模型诊断发现了共线性,应如何处理?删除变量:根据偏相关系数大小,去掉其中一个对因变量影响最小的自变量,或根据方差比例(VP)的大小,去掉VP值大的自变量,重新作共线性检查,直至多重共线性不存在为止;通径分析最好的方法采用主成分回归方法。4.哑变量的设置自变量X的数据类型数值变量分类变量二分类多分类有序多分类无序多分类等距不等距将有序变量或无序多分类变量转换为多个二分类变量的过程称为“哑元化”(dummying),得到的多个二分类变量称为“哑变量”(dummyvariable)例:这种将k个多项无序分类转化为k-1个二分类变量的过程叫分类变量的哑变量化,主要用在多因素分析,如多重线性回归、Logistic回归分析中。血型3个哑变量X1X2X3A100B010AB001O000参考类/参考变量表11-5用3个二分类的哑变量描述血型5.交互作用多重线线性回归中,要注意自变量间是否存在交互作用;可通过引入新的自变量的方法,判断两个或多个原自变量间是否存在交互作用;如果存在交互作用,在模型中应纳入交互相,在结果解释时要考虑交互作用的影响。小结多重线性回归用于研究一个反应变量与多个自变量之间的线性依存关系,常用于筛选危险因素、控制混杂因素、分析交互作用、预测和控制等。其前提条件是LINE,常常用残差分析的方法考察资料是否满足这4个条件;如不满足,可尝试变量变换,或更换回归方程。其估计方程参数依据的是最小二乘法原则。偏回归系数的含义是当其他自变量的取值固定时,自变量每改变一个单位,反应变量的平均改变的单位数。原始偏回归系数用于构建回归方程,标准化偏回归系数用于比较自变量对反应变量的贡献大小。确定系数和调整确定系数用于说明模型中自变量解释变量的百分比,可用来评价方程拟合效果的好坏。复相关系数可用来说明某一个变量与多个变量的线性相关程度。变量筛选的目的是使议程尽量保留对回归贡献较大的重要变量而排除对回归贡献小的变量,以期用尽量简洁的模型达到尽可能高的估计精度。当自变量存在较强的相关性的时候,回归模型会出现多重共线性的现象,使得模型参数估计不稳定或不易解释。案例讨论

预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论