




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十三章 多重线性回归与相关,多重线性回归的概念及其统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选 关于多重线性回归的应用,多重线性回归的概念及其统计描述,在医学现象中,影响人的生理、病理现象及疾病的因素很多,疾病的发生发展往往是多因素作用的结果,且各因素之间不独立,存在相关性,仅仅进行单因素研究结果不理想。需进行多因素分析。 多重线性回归和相关是一个应变量与多个自变量间联系的线性回归模型和相关关系。是简单线性回归与相关延续。,多重线性回归的概念及其统计描述,例子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化
2、血红蛋白、血清总胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间,多重线性回归的概念及其统计描述,应用场合: 定量地刻画一个因变量Y与多个自变量X1,X2,间的线性依存关系。 资料要求: 因变量一定是随机变量(LINE); 自变量可以是随机变量,也可以是人为给定的。,多重线性回归的概念及其统计描述,一、数据与模型,应用多元线性回归的目的,考察几个地位平等的影响因素对应变量的影响,如上例 根据X前系数考察主要因素扣除其他干扰因素(不易做到均衡可比)后的效应,如在研究新药作用时,可将一些干扰因素纳入多元回归方程。,多元线性回归方程的形式及建立过程,多元线
3、性回归方程的形式及建立过程,多元线性回归方程的形式及建立过程,二、回归参数的估计,多元线性回归方程的形式及建立过程,多元线性回归方程的形式及建立过程,通过解上述方程得到各个偏回归系数以及截距。 由于计算量相当大,一般都是依靠软件包来完成。,多重线性回归的假设检验,多重线性回归的假设检验,有关计算公式,多重线性回归的假设检验,多重线性回归的假设检验,不全为0。,2.决定系数R2,血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。,多重线性回归的假设检验,当只有一个自变量时(直线回归)除了t检验,也可用方差分析对回归系数进行假设检验 因此有:,多重线性回归的假设检验,二、
4、偏回归系数的假设检验 在回归方程具有统计学意义的情况下,检验某个总体偏回归系数是否等于零,据以判断其对应的自变量对回归是否有贡献。 使用t检验,多重线性回归的假设检验,胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。,标准化回归系数bj 的绝对值用来比较各个自变量Xj 对Y的影响程度大小;绝对值越大影响越大。标准化回归方程的截距为0。,3.标准化回归系数,标准化回归系数与一般回归方程的回归系 数的关系:,对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)与总胆固醇 (X1)。胰岛素为负向影响。,复相关系数与偏相关系数,一、决定系数、复相关系数、调整
5、确定系数 1、决定系数,复相关系数与偏相关系数,2、复相关系数,复相关系数与偏相关系数,3、调整决定系数,复相关系数与偏相关系数,二、偏相关系数 复相关系数反映了Y与所有自变量之间的密切程度,但往往需要了解Y与自变量两两之间的关系或两个自变量间的关系。 每两个变量间都可能存在相关,因此计算每两个变量间的简单相关系数不能反映两变量间的真正关系。 为了反映两变量间的真正关系,在保证其他变量保持不变的情况下,计算其相关系数(称为偏相关系数)。 (冷饮销售、游泳人数、气温),复相关系数与偏相关系数,就下表资料讨论:在分析肺活量与体重、身高的关系时,为什么身高与肺活量的简单相关系数有统计学意义,而偏相关
6、系数却没有统计学意义?,复相关系数与偏相关系数,简单回归系数 因变量Y 和自变量Xi的直线回归方程中,b为简单回归系数。 偏回归系数 因变量Y 和多个自变量X1,X2,Xi ,,Xp的直线回归方程中,bi为(样本)偏回归系数。 标准偏回归系数 因变量Y 和多个自变量X1,X2,Xi ,,Xp实施标准化变换后的直线回归方程中, 为(样本)标准偏回归系数。,复相关系数与偏相关系数,简单相关系数 单纯考虑因变量Y和自变量Xi的直线相关关系,ri为简单相关系数。 复相关系数 刻画因变量Y(随机变量)和一组自变量X1,X2,Xi ,,Xp的线性联系的程度, 偏相关系数(以Y与X1为例) 扣除自变量X2,
7、Xi ,,Xp的影响后,刻画因变量Y与自变量X1的线性联系的程度,复相关系数与偏相关系数,判断 偏相关是一个变量与另一些变量的线性组合的相关; 偏相关系数的符号与其对应的偏回归系数的符号一致; 偏相关系数的符号,说明该变量对因变量的作用方向; 复相关系数一定是正值;,方程的评价,1、剩余标准差 反映了回归方程的精度,其值越小说明回归效果越好,方程的评价,2、决定系数 说明所有自变量能解释Y变异的百分比。取值(0,1)越接近1模型拟合越好,方程的评价,3、校正决定系数 考虑了自变量个数的影响,第二节 自变量选择方法,自变量的筛选,选择适当的自变量使得建立的回归模型达到较好的回归效果。 若将对反映
8、变量无影响或影响很小的自变量引入方程,会加大计算量并使回归参数的估计和预测精度降低。 若未将对反映变量影响大的自变量包含在模型中,则回归参数的估计往往是有偏的。 回归模型的正确选择在根本上是依赖与研究问题本身的专业问题,自变量的筛选,一、自变量筛选的标准与原则 1、残差平方和(SSE)缩小与确定系数(R2)增大 若某一自变量的引入使得SSE缩小很多,说明该变量对Y的作用大,则引入;否则不被引入。 若某一变量从模型中被剔除后使得SSE增加很多,说明该变量对Y的作用大,不应剔除;否则剔除。 决定系数R2=1-SSE/SST,它增大与SSE缩小完全等价,自变量的筛选,一、自变量筛选的标准与原则 2、
9、残差均方(MSE)缩小与调整确定系数(Ra2)增大 MSE=SSE/n-k-1考虑了自变量个数的影响 当自变量个数增加,而MSE减少,则该增加变量对Y 是有作用的,MSE越小越好。 调整决定系数Ra2=1-MSE/MST,它也同样考虑了自变量个数的影响, Ra2越大越好与MSE越小越好等价。,自变量的筛选,一、自变量筛选的标准与原则 3、CP统计量 该统计量是从预测出发,基于残差平方和的一个准则。 该统计量越接近方程中自变量个数越好。,Cp接近(p+1)模型为最优,自变量的筛选,二、自变量筛选的常用方法 1、全局择优法 求出所有可能的回归模型(共有2k-1个)对应的准则值,按不同准则选择最优模
10、型。 穷举法,该法仅适用于自变量个数不多的情况。,R2可用来评价回归方程优劣。 随着自变量增加,R2不断增大,对两个不 同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对R2进行校正。 所谓“最优”回归方程指 最大者。,1.校正决定系数 选择法,P为方程中自变量个数。 最优方程的Cp期望值是p+1。 应选择Cp最接近P+1的回归方程为最优。,2. 选择法,全局择优法的局限性,如果自变量个数为4,则所有的回归有241 15个;当自变量数个数为10时,所有可能的回归为 2101 1023个;。;当自变量数个数为50时,所有可能的回归为25011015个。,自变量的筛选,二、自变量筛选的
11、常用方法 2、前向选择(前进法) 自变量从无到有,从少到多。 步骤:每次只引入一个自变量,计算其进入模型后该变量对新模型贡献量的F值,选择最大F与预先指定临界值Fin作比较,小于则停止,大于则引入。 缺点:后续变量的引入可能会使先进入方程的自变量变得不再重要。,Xj入选,自变量的筛选,二、自变量筛选的常用方法 3、后向选择(后退法) 自变量从多到少 步骤:首先建立包含所有自变量的全模型,之后逐个计算剔除某变量后所致SSE增量的F值,将最小F与预先指定临界值Fout比较,小于则剔除,否则停止。 缺点:自变量高度相关时,可能得不出正确的结果。,Xj剔除,自变量的筛选,二、自变量筛选的常用方法 4、
12、逐步选择 双向筛选:引入有意义的变量(前进法),对该模型再剔 除无意义的变量(后退法);反复该过程直到 没有变量被引入或剔除,小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。 注意,引入变量的检验水准要小于或等于剔除变量的检验水准。,开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程; 每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除; 直至方程外无自变量可引入,方程内无自变量可剔除为止。,入值定的越小选取自变量标准越严,被选 入方程内自变量数越少。 入值越大则反之。,小
13、样本:入=0.05,出=0.10。 大样本:入=0.10,出=0.15。 入出,以免Xj上一步剔除后下一步又被选入,逐步回归法实例(令入出0.10),选X4前先建立4个直线回归方程; 选X1前先建立1个含3个自变量、 3个含2个 自变量的多元线性回归方程。,逐步回归法实例(第一步),逐步回归法实例(第二步),逐步回归法实例(X1剔除否),逐步回归法实例(第三步),逐步回归法实例(X4/X1/X3剔除否),逐步回归法实例(第四步),逐步回归法实例(是否剔除),逐步回归法实例(是否剔除),自变量的筛选,不同准则、不同方法选择自变量的结果未必相同,此时需要根据专业知识决定舍去!,它们的共同特点是每一
14、步只引入或剔除一个自变量。 决定其取舍则基于对偏回归平方和的F检验,第三节 多元线性回归的应用及注意事项,多重线性回归的应用,一、在生物医学中的应用 1、定量的建立一个反应变量与多个解释变量之间的线性关系。如:肺活量与身高、体重、年龄、性别之间的线性关系。 2、通过较易测定的变量估计不易测量的变量。如:婴儿体表面积与身高,体重、月龄的线性关系。 3、通过解释变量预测反应变量。如:通过风速、车流量、气温预测空气NO浓度。 4、通过解释变量控制反应变量。如:在气温、风速不变的情况下,通过控制车流量使NO不超过一定水平。 5、影响因素分析,控制混杂因素,1.影响因素分析,年龄(X1) 饮食习惯(X2
15、) 吸烟状况(X3) 工作紧张度(X4) 家族史(X5) ,高血压(Y),bj的意义为在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。故可排除混杂因素。,2.估计与预测 心脏表面积(Y)=b0+b1心脏横径(X1) + b2心脏纵径(X2)+ b3心脏宽径(X3) 新生儿体重(Y)=b0+b1胎儿孕龄(X1)+ b2 胎儿 头径(X2)+ b3胎儿胸径(X3)+ b4胎儿腹径(X4),3.统计控制 利用回归方程进行逆估计,确定Y后控制X 。 采用射频治疗仪治疗脑肿瘤: 脑皮质毁损半径(Y) =b0+b1射频温度(X1)+ b2照射时间(X2),多重线性回归的注意事项,二、非同质
16、资料的合并问题 在解释实际专业问题时,应考虑是否存在混杂因素干扰回归效果;不应将这种非同质资料合并拟合回归模型,应分组拟合模型。,多重线性回归的注意事项,三、多重共线性问题 指自变量之间非独立或线性相关,即回归模型中某自变量近似为其他自变量的线性组合。 多重共线性的存在使得回归系数不稳定。,多重线性回归的注意事项,三、多重共线性问题 识别: 1、回归系数的符号与专业知识不符 2、变量的重要性与专业不符 3、决定系数大,但自变量对应回归系数均无统计学意义 解决办法: 1、自变量筛选 2、主成分分析,(一)变量的数量化,(1)自变量为连续型变量 :必要时作变换,(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1,(3)自变量为二分类:如令男1,女
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海驾校合同标准文本
- 代评职称合同样本
- 公司出售企业合同样本
- 代工成品销售合同标准文本
- 债务人合同样本
- 企管顾问合同标准文本
- 企业租赁机房合同样本
- 公路工程单位合同样本
- 买瓷砖定金合同标准文本
- 2025年商用办公房屋租赁合同样本
- 【道法】人生当自强课件-2024-2025学年统编版道德与法治七年级下册
- 汽车维修质量保证制度
- 外研版(三起)(2024)三年级下册英语Unit 3 单元测试卷(含答案)
- 2024年广州市卫生健康系统招聘“优才计划”考试真题
- 重点营业线施工方案
- 餐饮店菜品成本计算表
- 《水土保持监测技术规范SLT 277-2024》知识培训
- 2025年江苏南京事业单位招聘(787人)高频重点模拟试卷提升(共500题附带答案详解)
- GB/T 33136-2024信息技术服务数据中心服务能力成熟度模型
- 《保护地球爱护家园》课件
- 雾化吸入疗法合理用药专家共识(2024版)解读
评论
0/150
提交评论