昌平-多重线性回归_第1页
昌平-多重线性回归_第2页
昌平-多重线性回归_第3页
昌平-多重线性回归_第4页
昌平-多重线性回归_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国疾病预防控制中心中国疾病预防控制中心多重线性回归中国疾病预防控制中心中国疾病预防控制中心回归回顾p起源:高尔顿p含义:向均数回归,亢龙有悔,物极必反中国疾病预防控制中心中国疾病预防控制中心回归方法的用途p寻找某现象发生的可能影响因素。p确定不同影响因素的相对重要性。p建立回归模型,对结果进行预测。中国疾病预防控制中心中国疾病预防控制中心常用回归模型p线性回归pLogistic回归pPoisson回归pCox回归p 因变量为连续资料因变量为分类资料因变量为计数资料因变量为生存资料中国疾病预防控制中心中国疾病预防控制中心因变量与自变量p因变量(dependent variable)又称反应变量

2、(response variable)或结果变量,是随机变量,依赖于一个或多个自变量。p自变量(independent variable)有时也被称为解释变量(explanatory variable)或预测变量(predictor variable),是非随机的,不依赖于其它变量。中国疾病预防控制中心中国疾病预防控制中心线性回归的因变量与自变量p因变量必须是定量变量p自变量可以是定量变量,也可以是分类变量p当因变量有一个,自变量也只有一个时,称为简单线性回归(simple linear regression)p当因变量有一个,自变量有多个时,称为多重线性回归(multiple linear

3、regression)p当因变量有多个,自变量有多个时,称为多元回归(multivariate regression)中国疾病预防控制中心中国疾病预防控制中心引例温度发病率(1/10万)-4.80.78-10.764.16.1411.224.7121.753.7724.747.7328.667.2626.549.3721.335.2813.69.885.89.11-13.96p欲分析气温对手足口病发病率的影响,调查了某城市1-12月的气温及手足口病报告发病率,分析手足口病是否随气温的变化而变化中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心发病率=a+b温度中国

4、疾病预防控制中心中国疾病预防控制中心简单线性回归的形式 或 p 为y的估计值或预测值(predicted value)。pa为截距(intercept)、常数项(constant),表示自变量为0时y的估计值。pb为斜率(slope)、回归系数(regression coefficient),表示x每变动一个单位, y估计值的变化量。pe表示随机误差或残差(residual)。bxayy ebxay中国疾病预防控制中心中国疾病预防控制中心哪条线最接近实际数据?中国疾病预防控制中心中国疾病预防控制中心最小二乘法中国疾病预防控制中心中国疾病预防控制中心最小二乘法p普通最小二乘法(Ordinary

5、Least Square,OLS)p求出使Q值最小的a和bp可解得p解决工具:手工计算、Excel计算、统计软件niiniiibxayyyQ1212)()(YXXXB)(1中国疾病预防控制中心中国疾病预防控制中心Excel数据分析pExcel计算p利用Mmult函数、Minverse函数pExcel分析(2007版)p菜单:数据数据分析回归p选定y值输入范围和x值范围中国疾病预防控制中心中国疾病预防控制中心SAS分析过程pSAS软件pProc reg过程:pProc reg ;pModel 因变量=自变量 ;pRun;中国疾病预防控制中心中国疾病预防控制中心SAS分析过程pdata hfm;p

6、input temp hfm;pcards;ppProc reg ;pModel hfm=temp;pRun;中国疾病预防控制中心中国疾病预防控制中心SAS分析结果p模型总体估计结果p变异分解:p总变异=回归所解释变异+残差所解释变异p SS总=SS回归+SS残差中国疾病预防控制中心中国疾病预防控制中心SAS分析结果p参数估计结果中国疾病预防控制中心中国疾病预防控制中心建立模型p建立方程:p发病率=1.943+1.894*气温p预测:p假定气温=20 时,p发病率=1.943+1.894*20=40中国疾病预防控制中心中国疾病预防控制中心线性回归的一般形式p对于m个自变量,线性回归的一般形式:

7、pa为截距项,表示自变量均为0时y的估计值。pbi为偏回归系数(partial regression coefficient),表示其它自变量不变时,xi每变动一个单位, y估计值的变化量。mmxbxbxbay 2211中国疾病预防控制中心中国疾病预防控制中心线性回归的应用条件p符合LINE条件pL,linearity,线性pI ,independent,独立性pN,normality,正态性pE,equal variance,方差齐性中国疾病预防控制中心中国疾病预防控制中心线性回归的应用条件p线性(linearity)p指因变量与自变量呈线性关系,即因变量与自变量在散点图上应大致呈一直线趋势

8、。p可简单通过绘制散点图来观察。p如不满足,可拟合曲线回归或非参数回归等。中国疾病预防控制中心中国疾病预防控制中心线性回归的应用条件p独立性(independent)p指残差之间应相互独立。p通常可根据专业知识来判断,对于聚集性数据、多水平数据、时间序列数据等可采用相应的统计方法进行检验。p对于非独立数据,可考虑非独立数据模型(如多水平模型)、时间序列分析等。中国疾病预防控制中心中国疾病预防控制中心线性回归的应用条件p正态性(normality)p指线性模型的残差应符合正态分布。p可绘制残差的正态概率图,也可对残差进行正态性检验。p如不满足,可考虑对因变量进行数据变换,使其服从正态分布后再拟合

9、线性回归模型,也可采用非参数回归。中国疾病预防控制中心中国疾病预防控制中心线性回归的应用条件p等方差性(equal variance)p指在自变量取值范围内,对于任意自变量取值,因变量都有相同的误差方差。p可通过绘制残差与因变量预测值的散点图来看。理论上,残差应在零水平线上下波动,不应有任何趋势,否则可能提示误差方差不齐。p如不满足,可对因变量进行变量变换;或可采用加权回归分析,消除方差不齐的影响。中国疾病预防控制中心中国疾病预防控制中心残差图示例中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p1. 前提条件考察p对数据的LINE四个条件进行验证,如果符合,可以考虑采用线性回归,否

10、则应根据条件选择其它模型。p一般情况下,线性回归模型本身对轻度的条件偏倚有一定程度的“抗性”,非正态性、异方差性等偏离如果不是很严重,仍可采用线性回归。中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p2. 准备工作自变量变换p如果自变量与因变量是非线性关系,考虑适当的变换p常用变换:p对数变换p指数变换p多项式变换p中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p3.单因素分析p为什么要做单因素分析?p自变量较多时,排除意义不大的变量p初步探索每一自变量与因变量的大致关系p单因素分析时检验水准可适当放宽,可设为0.1、0.15、0.2等均可中国疾病预防控制中心中国疾病预

11、防控制中心线性回归的分析思路p4.多因素分析p多因素分析校正了其它自变量的影响,更能反映出某一自变量对因变量的“纯”影响或作用p多因素分析的变量筛选原则:p“少而精”原则,尽量保留所有对因变量有影响的变量,尽可能地剔除掉可有可无的变量中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p4.多因素分析p变量筛选方法:p向前选择法(forward selection)p向后剔除法(backward elimination)p逐步选择法(stepwise selection)中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p5.模型评价p即模型对实际数据的拟合效果如何p常用的衡量模

12、型“优劣”的指标:p决定系数(R2)p校正决定系数(R2adj)p残差相关指标MSE、RMSE等p赤池信息准则(AIC)中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p决定系数R2(determination coefficient)p反映了因变量的变异能够被自变量所解释的比例pR2越大,表示模型中自变量解释能力越强。p缺点:其值随着自变量的增多而增加,即使加入无意义的变量,该指标值也会随之增加,因此自变量较多时不能较好地反映模型优劣。残差回归回归SSSSSSR2中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p校正决定系数R2adj(adjusted R2)pi=1(如

13、果有截距),i=0(如果无截距)pp表示待估参数个数(含截距)p考虑到了自变量增加对模型的负面影响,可适当消除自变量增加所导致的自由度损失。该值越大,表示模型越优)-(1-122RpninRadj中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p残差平方和SS残差py为实际观测值, 为模型预测值p反映了模型预测值与实际值差别的大小,其值越小,表示模型拟合效果越好2)y -(y残差SSy 中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p残差方差MSE、残差标准差Root MSEp残差方差即残差的方差,也称为剩余方差p残差标准差是残差方差的平方根p这两个值通常随自变量的增加而

14、减少,但增加无意义的自变量后,其值反而变大,与校正决定系数相似p其值越小,反映模型拟合效果越好中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路pAIC指标pSS残差为残差平方和,p为自变量个数(含截距)pAIC指标考虑了模型精度,同时增加了对自由度的“惩罚”项。p与R2adj相比,对自由度的“惩罚”力度更强p拟合标准:其值越小越好2p)nSS(ln残差nAIC中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p6.模型诊断p常见问题:p多重共线性(multi-collinearity)p异常点中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p模型诊断多重共线性p即多

15、个自变量之间存在高度相关p常用共线性诊断指标:p方差扩大因子p容忍度p条件指数中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p共线性诊断指标p1)方差扩大因子(Variance Inflation Factor,VIF)指由于共线性所导致的参数估计值的方差增加量pRj2是其它自变量对自变量xj的决定系数p当VIF大于10,通常表示共线性很强2-11jRjjVIF个回归系数方差无共线性时第个回归系数方差第中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p共线性诊断指标p2)容忍度(Tolerance, TOL) 方差扩大因子VIF的倒数。当TOL小于0.1,通常表示共线性很

16、强中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p共线性诊断指标p3)条件指数(condition index)p根据(XX) 可求出k个特征值,1 2 k p 为最大特征值与最小特征值之比的平方根,称之为条件数。p当条件数大于10,可认为存在共线性p条件数大于30,可认为存在严重共线性k/1中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p模型诊断异常点p异常点:p离群点(outliners)p高杠杆点(high leverage points)p强影响点(influential points)中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p离群点(outl

17、iners)p针对因变量而言,远离其它因变量的值p检测指标:学生残差(student residual)p判断标准:绝对值大于2,考虑可能是离群点iiiihser-1中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p高杠杆点(high leverage points)p针对自变量而言,远离其它自变量的值p检测指标:hii,即H矩阵对角线的值p参数估计值回顾:pH矩阵: , 又称帽子矩阵p标准:大于(k+1)/n,k为自变量个数YXXXB)(1)(1XXXXHHYYXXXXXBY)(1中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p强影响点(influential poin

18、ts)p对模型有较大影响,有没有该点可导致模型的参数估计值发生较大改变pDFBETA:删除某观测值后对参数估计值的影响 标准:大于pDFFITS:删除某观测值后对模型拟合的影响 标准:大于 ,k为自变量数) 1-)/(1(2knk n2/中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p强影响点(influential points)pCookD:杠杆值和残差的综合度量 标准:大于4/(n-k-1),k为自变量个数pCOVRATIO:杠杆值和残差的综合度量,受残差的影响更大 标准:|COVRATIO-1|大于3(k+1)/n中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p

19、7.模型修饰及再评价p根据模型诊断结果,采取相应措施,对模型修饰p对修饰后的模型再次评价中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p8.建立模型p根据模型评价结果,选择相对合理的模型p模型建立需综合考虑统计学和专业知识p允许多个模型存在,关键是一定要符合专业知识中国疾病预防控制中心中国疾病预防控制中心线性回归的分析思路p9.模型解释或预测p根据研究目的对模型解释p如果目的是寻找影响因素,可根据标准化回归系数大小,阐明各自变量的影响大小p如果目的是预测,可在自变量允许的范围内根据不同自变量取值对因变量预测中国疾病预防控制中心中国疾病预防控制中心线性回归的线性回归的SASSAS命令

20、命令pProc glm(general linear mode)pProc reg(regression)pProc genmod(generalized linear model)中国疾病预防控制中心中国疾病预防控制中心Proc regProc reg介绍介绍pProc reg ;pModel 因变量因变量=自变量自变量 ;pRun;中国疾病预防控制中心中国疾病预防控制中心Proc reg命令的命令的model选项选项p (1)变量筛选选项)变量筛选选项p Selection=p 指定变量选择方法,如前进法(指定变量选择方法,如前进法(Forward)、后退法()、后退法(Backward)

21、、)、逐步法(逐步法(Stepwise)、最优子集法()、最优子集法(maxR、minR、Rsquare、Adjrsq、Cp)等,默认为)等,默认为Nonep Slentry=p 变量选择方法为变量选择方法为forward或或stepwise时,用来指定变量入选标准,时,用来指定变量入选标准,forward默认值为默认值为0.5,stepwise默认值为默认值为0.15p Slstay=p 变量选择方法为变量选择方法为backward或或stepwise时,用来指定变量剔除标准,时,用来指定变量剔除标准,backward默认值为默认值为0.1,stepwise默认值为默认值为0.15中国疾病预

22、防控制中心中国疾病预防控制中心Proc reg命令的命令的model选项选项p (2)共线性诊断的选项)共线性诊断的选项p Collinp 给出特征值、条件指数及每一特征值的变异比例。给出特征值、条件指数及每一特征值的变异比例。p Collinointp 与与collin选项执行相同的功能,但是不包括截距项。选项执行相同的功能,但是不包括截距项。p Tolp 给出参数估计值的容忍度给出参数估计值的容忍度p VIFp 给出方差膨胀因子给出方差膨胀因子中国疾病预防控制中心中国疾病预防控制中心Proc reg命令的命令的model选项选项p (3)模型诊断选项)模型诊断选项p Influencep

23、寻找强影响点,分析每一观测对参数估计和预测值的影响度寻找强影响点,分析每一观测对参数估计和预测值的影响度p Rp 进行残差分析进行残差分析中国疾病预防控制中心中国疾病预防控制中心Proc reg命令的命令的model选项选项p (4)拟合优度常用选项)拟合优度常用选项p Aicp 给出给出AIC指标值,将其输出到proc reg语句的outest=选项指定的数据集中p (5)其它常用选项 p Stbp 给出标准化回归系数,用来衡量不同自变量对因变量影响的相对重要性p Nointp 拟合模型时不考虑截距项,仅含自变量中国疾病预防控制中心中国疾病预防控制中心线性回归分析案例地区:0=城市,1=农村

24、地区温度月份发病率(1/10万)地区温度月份发病率(1/10万)0-4.410.491-4.810.780-0.220.731-120.7604.332.9114.136.14011.3414.66111.2424.71021.9523.48121.7553.77025.7627.6124.7647.73030.8736.54128.6767.26027.4828.7126.5849.37022.2914.81121.3935.28014.2104.23113.6109.8806.3113.1615.8119.1100121.311-1123.96中国疾病预防控制中心中国疾病预防控制中心中国疾

25、病预防控制中心中国疾病预防控制中心线性回归分析案例p (1)单因素分析p data aa;p input district temp month hfm;p cards;p 0 -4.4 1 0.49p p 1 -1 12 3.96p ;p proc reg;p model hfm=district;p model hfm=temp;p model hfm=month;p run;对地区做单因素分析对地区做单因素分析对气温做单因素分析对气温做单因素分析对对月份做单因素分析做单因素分析中国疾病预防控制中心中国疾病预防控制中心线性回归分析案例p 地区的单因素分析结果p Parameter Stan

26、dardpVariable DF Estimate Error t Value Pr |t|pIntercept 1 13.21833 5.54785 2.38 0.0263pdistrict 1 12.51083 7.84584 1.59 0.1251p 气温的单因素分析结果p Parameter StandardpVariable DF Estimate Error t Value Pr |t|pIntercept 1 1.17466 3.40868 0.34 0.7337ptemp 1 1.41579 0.19707 7.18 |t|pIntercept 1 16.50818 8.804

27、75 1.87 0.0741pmonth 1 0.45624 1.19633 0.38 0.7066中国疾病预防控制中心中国疾病预防控制中心线性回归分析案例p (2)单因素分析月份作为二次项分析p data aa;p input district temp month hfm;p month2=month*month;p cards;p 0 -4.4 1 0.49p p 1 -1 12 3.96p ;p proc reg;p model hfm=month month2;p run;加入month的二次项生成month的二次项中国疾病预防控制中心中国疾病预防控制中心线性回归分析案例p加入二次项

28、后月份的分析结果p Parameter Standardp Variable DF Estimate Error t Value Pr |t|p Intercept 1 -27.30920 9.34696 -2.92 0.0082p month 1 19.23512 3.30581 5.82 .0001p month2 1 -1.44453 0.24755 -5.84 |t|p Intercept 1 14.73383 13.24616 1.11 0.2799p district 1 14.06729 3.41140 4.12 0.0006p temp 1 2.12244 0.51199 4.

29、15 0.0005p month 1 -10.30384 7.44199 -1.38 0.1822p month2 1 0.68767 0.53888 1.28 0.2173为什么为什么P值变小了?值变小了?为什么月份变得无为什么月份变得无统计学意义了?统计学意义了?中国疾病预防控制中心中国疾病预防控制中心线性回归分析案例p提示:p1、城市的气温高于农村(13.29 vs 12.56)p2、气温越高,手足口报告发病率越高p3、农村手足口报告发病率高于城市(25.73 vs 13.22)中国疾病预防控制中心中国疾病预防控制中心线性回归分析案例p (4)共线性诊断p data aa;p input district temp month hfm;p month2=month*month;p cards;p 0 -4.4 1 0.49p p 1 -1 12 3.96p ;p proc reg;p model hfm=district temp month month2/collin vif tol;p run;共线性诊断选项共线性诊断选项中国疾病预防控制中心中国疾病预防控制中心线性回归分析案例p共线性诊断结果中国疾病预防控制中心中国疾病预防控制中心线性回归分析案例p (5)多因素分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论