(医学课件)相关与回归分析_第1页
(医学课件)相关与回归分析_第2页
(医学课件)相关与回归分析_第3页
(医学课件)相关与回归分析_第4页
(医学课件)相关与回归分析_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、相关分析与回归分析相关分析与回归分析返回总目录返回总目录返回总目录返回总目录返回总目录返回总目录1 相关分析相关分析1. 相关关系的概念及分类相关关系的概念及分类(1)相关关系的概念)相关关系的概念变量之间的依存关系可以分为函数关系和相关关系两种。函数关系是指变量之间保持着严格的依存关系,呈现一一对应的特征。而相关关系是指变量之间保持着不确定的依存关系。线性相关用于双变量正态分布的资料。体现相关程度的指标:相关系数 r (取值范围:-1 r 1)返回本章返回本章返回本章返回本章返回本章返回本章2 2. 相关关系的识别相关关系的识别(1)散点图)散点图识别变量间相关关系最简单的方法就是图形法。图

2、形法就是将所研究变量的观测值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。也可以用于发现异常值。3 典型的散点图典型的散点图0 xy0 xy0 xy0 xy0 xy0 xy(a) 0r1(c) r 1(b) -1r0说明两个变量之间正相关,r0则表明两个变量之间负相关。相关关系的取值介于1和1之间,它的绝对值越接近于1,意味着变量之间的线性相关程度越强。r1或r1时,说明两个变量之间完全线性相关,r0,说明两个变量之间不存在线性相关,r的绝对值介于0和1之间时,则说明两个变量之间存在一定程度的线性相关。6 相关

3、系数强度两变量相关强度的强弱分以下几个等级:当 | r | 0.8 , 视为高度相关当 0.5 | r | 0.8 ,视为中度相关。当 0.3 | r | 0.5 ,视为低度相关。当 | r | 0.3 ,表明2个变量之间的相关程度极弱,在实际应用中可视为不相关。7 221r ntr相关系数的检验相关系数的检验提出假设:01:0,:0HH计算 t 检验统计量: 返回本章返回本章返回本章返回本章返回本章返回本章返回总目录返回总目录返回总目录返回总目录返回总目录返回总目录8 举例举例:分析红细胞内铁含量与血红蛋白的关系。9 SPSS实现-散点图10 SPSS实现-散点图11 SPSS实现-相关系数

4、正态性检验正态性检验正态资料的用正态资料的用”pearson”;非非正态选正态选“spearman”12 得出: 相关系数 r=0.744双侧Pearson检验 P0.001,有统计学意义,可见,铁含量与血红蛋白相关。13 相关分析注意事项直线相关条件:变量是正态分布的随机变量。应用直线相关注意事项: 必需有实际意义 Pearson 相关系数 相关分析中变量X 、Y 服从双变量正态分布 散点图的作用 分层资料 对相关的解释:14 1. 回归分析概述回归分析概述(1)回归分析的概念)回归分析的概念在相关分析在相关分析确定了变量之间相关关系的基础上确定了变量之间相关关系的基础上,采用,采用一定的计

5、算方法,建立起变量间数量变动关系的公式,一定的计算方法,建立起变量间数量变动关系的公式,并根据一个变量的变化来估计或预测另一个变量发展并根据一个变量的变化来估计或预测另一个变量发展变化的研究方法,就是变化的研究方法,就是。 基本思想:基本思想:使样本点到回归直线的使样本点到回归直线的纵向距离纵向距离的平方和的平方和最小。(点都在线上,距离的平方和最小。(点都在线上,距离的平方和=0最好最好-完全相关)完全相关)返回本章返回本章返回本章返回本章返回本章返回本章15 回归分析和相关分析都是对变量之间不严格依存关系的分析,在理论基础和方法上具有一致性。只有存在相关关系的变量才能进行回归分析,相关程度

6、越高,回归分析结果越可靠。 方向一致:一组数据得出的b和r ,符号一致。 假设检验等价:对于同一个样本,假设检验得到的tb和 tr值相等回归可以解释相关:决定系数r2 =SS回/SS总 ,则r2就越接近1, 说明相关性好。返回本章返回本章返回本章返回本章返回本章返回本章回归分析和相关关系之间的联系16 回归分析和相关关系之间的区别u资料要求不同: 线性相关要求两个变量X和Y服从双变量正态分布的随机变量 线性回归要求Y是服从正态分布的随机变量,而X不一定。u应用目的、意义不同:相关关系;数量关系。回归系数b表示X每增减一个单位时,Y平均改变b个单位;相关系数r说明具有线性关联的的两个变量间关系的

7、密切程度与相关方向。u计算方法不同:b = lxy/lxx , r =lxy/lxylxxu取值范围不同:u单位:b有量纲,受X、Y计量单位的影响;r无量纲,不受X、Y 计量单位的影响。17 线性回归模型的前提条件线性回归模型的前提条件线性(线性(linearlinear)X X与与Y Y值之间线性趋势值之间线性趋势独立(独立(independentindependent)个体观察值间独立个体观察值间独立正态(正态(normalnormal)给定给定X, X, 对应的对应的Y Y服从正态分布服从正态分布等方差(等方差(equal varianceequal variance)不同不同X X所对

8、应所对应Y Y的方差相等的方差相等绘制散点图;绘制散点图;计算相关系数计算相关系数;正态概率正态概率P-PP-P图图18 线性回归的步骤1.根据样本数据求得模型参数( 0 1 2. m )的估计值( b0 b1 b2. bm ),得到总体回归方程Y= 0+ 1 X1 + 2 X2 +.+ m Xm 的估计值 (参数估计:最常用最小二乘法)2.对回归方程及各自变量做假设检验;对方程的拟合效果及各自变量的作用大小做出评价 (假设检验: 回归方程,各个自变量)19 2. 回归模型的建立回归模型的建立当变量之间存在显著的线性相关关系时,可以建立如下的线性回归模型来表述这种关系。总体线性回归模型为:式中

9、:iY代表因变量的第i个观测值iX代表自变量的第i个观测值10、是模型的参数(又称偏回归系数)01122iiinniiYXXXu偏回归系数偏回归系数 1 2. m的意义的意义: : 在其他变量取值不变的条在其他变量取值不变的条件下,件下,X X每增加或减少一个单位时每增加或减少一个单位时, , Y Y的平均变化量。的平均变化量。20 线性回归模型参数的估计方法通常有两种:普通最小二乘法和最大似然估计法。最常用的是普通最小二乘法。最小二乘法的意义在于使 达到最小。出使估计值Y和实际观察值Y得残差平方和达到最小值,得到的 的两个公式为:22()iiieyy01bb和1201()iiixxyybxx

10、byb x21 3. 模型的检验模型的检验在回归模型估计出来以后,首先要对其进行一系列的检验,只有通过了检验的模型才能用于对总体变量的估计或预测。(1)拟合优度的检验)拟合优度的检验决定系数:决定系数:2R因变量的样本观测值与其均值的离差称为总离差,记为 。按其来源,总离差可以分解为两个部分:一是因变量的回归值与其样本均值之间的离差,记为 ,它代表能够由回归方程所解释的部分,称为回归离差;二是样本观测值与回归值之间的离差,记为 ,它表示的是不能由回归方程解释的部分,称为剩余离差(残差)。)(yy)(yy) (yy返回本章返回本章返回本章返回本章返回本章返回本章22 决定系数是衡量自变量对因变量

11、变动的解释程度的指标,它取决于回归方程所解释的 y 的总离差的百分比。决定系数的公式定义为:决定系数 = SS回归/SS总校正决定系数 (n为样本容量,k为自变量的个数) 意义:用于衡量方程好坏的指标之一,只有有统计学意义的变量进入方程,Radj 才会增加2R222()(1)1()(1)iiiyynkRyyn 23 估计标准误差(估计标准误差(SE)估计标准误差是回归模型(即估计值)与因变量观测值之间得平均平方误差。这个误差的值越小,说明估计值越接近真实值,回归模型的拟合度越好。估计标准误差的计算公式为:2()2iiyySEn作为回归模型拟合优度的评价指标,估计标准误差显然不如决定系数。因为决

12、定系数是无量纲的系数,并且有确定的取值范围(01),便于对不同资料回归模型拟合优度的比较。返回本章返回本章返回本章返回本章返回本章返回本章返回总目录返回总目录返回总目录返回总目录返回总目录返回总目录24 (2)显著性检验)显著性检验通常回归模型的显著性检验包括系数的检验和方程整体的检验两个部分。回归系数的显著性检验是指根据样本计算结果对总体回归系数有关假设所进行的检验,它的主要目的是了解总体自变量与因变量之间是否真正存在样本回归模型所表述的相关关系。回归系数的检验(回归系数的检验( t 检验)返回本章返回本章返回本章返回本章返回本章返回本章返回总目录返回总目录返回总目录返回总目录返回总目录返回

13、总目录方程整体性检验(方程整体性检验( F 检验)25 假设检验对整个模型的检验对模型的假设检验:方差分析法( F 检验)对模型进行整体检验: H0: 1 2 . m 0 H1: 1,2 ,.,m 不全为0统计量:F 不拒绝H0: 回归模型无统计学意义拒绝H0 :回归模型有统计学意义残差回归残差残差回归回归MSMSSSSSF/26 假设检验对各偏回归系数的假设检验对各偏回归系数的假设检验t 检验检验:H0 : j = 0 , H1 : j 0 单个回归系数的单个回归系数的t t检验:表示其它检验:表示其它m m1 1个个自变量均在当前回归模型中存在时,自变量均在当前回归模型中存在时,X Xj

14、j的回归系数的回归系数j j 是否为是否为0 0的假设检验的假设检验1,0mnsbtjbjjb27 假设检验假设检验 各回归系数各回归系数偏回归平方和的F检验P: 第L步时,方程中自变量的个数SS回l(Xj):第L步时, Xj的偏回归平方和SS残l(Xj):第L步时的残差平方和回归系数偏回归平方和的回归系数偏回归平方和的F F检验:表示其它检验:表示其它m m1 1个自变个自变量均在当前回归模型中存在时,量均在当前回归模型中存在时,X Xj j的回归系数的回归系数j j 是否是否为为0 0的假设检验,与单个回归系数的的假设检验,与单个回归系数的t t检验等价。检验等价。) 1/()(pnSSX

15、SSFljl残回28 最佳预测模型选择准则1最小残差平方和/最大决定系数准则:条件:自变量个数相同时使用,总残差总回ssssssssR1229 最佳预测模型选择准则2最小残差均方/最大调整决定系数准则:较最小残差平方和准则合理(考虑变量数量)1mnSSMS残差残差总残差MSMSRadj1230 自变量筛选全局择优法全局择优法:对自变量各种不同的组合建立的回归方程进行比较,从全部组合中确定最优回归方程:残差均方最小或调整R2最大的回归方程,适用于自变量较少的情况。 缺点:自变量较多时,计算量大。如自变量数 6时,需考虑 261 63个方程;自变量数10时,需考虑21011024个方程.31 自变

16、量筛选逐步选择法逐步选择法 是实际应用中普遍使用的方法 根据选入变量的顺序不同分为:前进法 (forward selection)后退法 (backward selection)逐步回归法(stepwise regression) 共性:每一步只引入或剔除一个自变量Xj 假设检验方法:对偏回归平方和的F检验32 前进法自变量从无到有,从少到多,逐个引入回归方程1.第一个入选自变量的确定:用因变量Y对每一自变量分别做直线回归,对回归平方和最大的自变量做F检验,有统计学意义则引入模型2.对其它变量,在已选入第一个自变量的基础上,计算其它自变量的偏回归平方和,最大的偏回归平方和F检验有统计学意义,则

17、引入3.重复步骤2,直至没有自变量可以引入为止。优点:可自动去掉高度相关的自变量(一个进入方程后,其它的进不来了)局限性:后续变量的引入,可能会使在其之前进入方程的自变量 变得无统计学意义33 后退法1.因变量Y对所有自变量同时做线性回归2.对方程中偏(净)回归平方和最小的变量做F检验,无统计学意义,则剔除3.因变量Y对剩余的所有自变量同时做线性回归4.重复第2步,直至方程中的自变量均不能剔除为止优点:考虑了自变量的组合作用局限性:当自变量数目较多,或某些自变量间高度相关时,可能得不出正确结果(有共线性时,模型参数估计不稳定)34 逐步回归法(常用)在前进和后退法的基础上,双向筛选变量的方法,

18、本质是前进法。1.引入第一个自变量进入方程:用因变量Y对每一自变量分别做直线回归,对回归平方和最大的自变量做F检验,有统计学意义则引入模型2.对方程中的每一个自变量,做偏回归平方和的F检验,剔除“退化”为无统计学意义的自变量,确保每次引进新变量前,方程中的自变量均有统计学意义(按剔出标准)3.重复1和2,直至既无自变量可以引入,也无自变量可以剔除为止35 自变量筛选的检验水准值小:选取自变量的标准严,选入的自变量少值大:选取自变量的标准宽,选入的自变量多 在逐步选择中,入 出。小样本时,一般定为0.10 或0.15大样本时,一般定为0.0536 多重回归的应用影响因素分析(不追求最大R2值,根

19、据专业知识和回归系数改变量确定变量) 可以用于疾病的影响因素分析(如遗传特征、感染途径、程度、自身免疫等)估计与预测:(应选择有较高R2值的模型) 举例: 儿童的性别、年龄别、身高、体重评价生长发育 胎儿的孕周、头颈、胸径和腹径预测出生体重统计控制(回归模型的R2值大,回归系数标准误小) 利用回归方程逆估计,通过控制自变量的值控制Y值 举例:射频治疗仪治疗脑肿瘤, 脑皮质毁损半径均数 0+ 1射频温度+ 2照射时间 按脑皮质毁损半径预定值,确定最佳射频温度和照射时间37 共线性诊断定义:一个或几个回归变量可以由其它的回归变量线性表示时,称回归变量间有共线性。后果:自变量间共线性很高时,最小二乘

20、估计参数不确定,无法取得参数的正确估计值。导致回归系数与专业知识相反,或重要变量不能纳入模型38 多重共线性检验多重共线性是多元回归分析中特有的问题,简单回归不存在此问题。 用于检验各个自变量之间是否是无关的。39 共线性诊断特征根:多个维度特征根约为0证明存在多重共线性。条件指数(condition index)k(大于10提示存在) 0k10 无共线性 10K30 严重共线性VIF:大于5,存在严重共线性方差比例:同一特征值序号上两或几个系数方差比例较大时存在共线性。方差比例越大,共线性越大40 多重共线性的对策增大样本量,可部分的解决共线性问题采用多种自变量筛选方法相结合的方式,建立一个

21、最优的逐步回归方程。从专业的角度加以判断,人为的去除在专业上比较次要的,或者缺失值比较多,测量误差比较大的共线性因子。进行主成分分析,用提取的因子代替原变量进行回归分析。进行岭回归分析,它可以有效的解决多重共线性问题。进行通径分析(Path Analysis)41 SPSS实现方法以及结果解释 根据27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖测量值,建立血糖与其它几项指标的多重线性回归方程。SPSS操作模型建立假设检验模型参数的意义42 SPSS操作步骤操作步骤打开数据文件点击Analyze Regression Linear43 44 V Va ar ri ia

22、 ab bl le es s E En nt te er re ed d/ /R Re em mo ov ve ed db b糖化血红蛋白, 甘油三酯, 胰岛素,总胆固醇a.EnterModel1VariablesEnteredVariablesRemovedMethodAll requested variables entered.a. Dependent Variable: 空腹血糖b. 45 M Mo od de el l S Su um mm ma ar ry y.775a.601.5282.0095Model1RR SquareAdjusted RSquareStd. Error o

23、fthe EstimatePredictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇a. 总残差MSMSRadj121mnSSMS残差残差总残差总回ssssssssR1246 A AN NO OV VA Ab b133.711433.4288.278.000a88.841224.038222.55226RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇a. Dependent Variable:

24、空腹血糖b. 可见,4个自变量均在方程中,F=8.278,P0.00031,拒绝,拒绝H0: 回归模型有统计学意义,回归模型有统计学意义, 1, 2 , 3和和 4 不全为不全为0。47 C Co oe ef ff fi ic ci ie en nt ts sa a5.9432.8292.101.047.142.366.078.390.701.351.204.3091.721.099-.271.121-.339-2.229.036.638.243.3982.623.016(Constant)总胆固醇甘油三酯胰岛素糖化血红蛋白Model1BStd. ErrorUnstandardizedCoef

25、ficientsBetaStandardizedCoefficientstSig.Dependent Variable: 空腹血糖a. 回归方程:标准化偏回归系数:对X、Y进行标准正态差变换建立方程没有单位,绝对值大小说明各自变量对没有单位,绝对值大小说明各自变量对Y的贡献大小,用的贡献大小,用于比较回归方程中各变量的重要性。于比较回归方程中各变量的重要性。4321638. 0271. 0351. 0142. 0943. 5XXXXy48 SPSS实现49 V Va ar ri ia ab bl le es s E En nt te er re ed d/ /R Re em mo ov ve

26、ed dc c总胆固醇, 胰岛素, 糖化血红蛋白,甘油三酯a.Enter.a总胆固醇bRemoveModel12VariablesEnteredVariablesRemovedMethodAll requested variables entered.a. All requested variables removed.b. Dependent Variable: 空腹血糖c. 50 M Mo od de el l S Su um mm ma ar ry y.775a.601.5282.0095.6018.278422.000.773b.598.5461.9721-.003.152122.701Model12RR SquareAdjusted RSquareStd. Error ofthe EstimateR SquareChangeF Changedf1df2Sig. F ChangeChange StatisticsPredictors: (Constant), 总胆固醇, 胰岛素, 糖化血红蛋白, 甘油三酯a. Predictors: (Constant), 胰岛素, 糖化血红蛋白, 甘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论