版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元线性回归 Multiple Regression卫生统计与信息管理教研室二00七年九月基本概念例 以8岁正常男童的 体重 X1 心脏纵径 X2 儿童心脏面积Y 胸腔横径X3 推算基本概念例:人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度与照射的时间基本概念多元(重)线性回归方程 描述2个或2个以上自变量Xi与1个应变量Y的统计关系的线性方程。 自变量阶数为1的多元线性回归方程被称为一阶线性回归方程。Y(hat)=b0+b1x1+b2 x2 +
2、bmxm基本内容从具有n个样品的m个自变量与1个应变量的样本观测数据出发,建立Xi与Y关系的线性回归方程表达式; Y(hat)=b0+b1x1+b2 x2 +bmxm对所建立的多元线性回归方程进行假设检验: 各i(i=1 2 .m)不全等于0 ;对每一变量进行假设检验: H0:某一J不等于0 ;应用:描述、预报与控制。多元回归分析所要求的条件LINE样本量要求:一般样本含量要求是参与分析的变量(自变量+因变量)个数的510倍,对多元线性回归甚至要求20倍(粗略估计)。数据准备-数据格式数据准备-随机缺失的处理不完全数据样品:1个样品中有一个或几个变量值缺失。“缺失”分为非随机缺失、随机缺失。随
3、机缺失的处理样本含量大,不完全数据样品小,删除该样品;样本含量小,需利用不完全数据样品 用该变量的均数值代替; 缺失值变量与其他变量相关程度大,则建立该缺失 变量与其他变量的回归方程,据此推算缺失值; 其他处理办法数据准备-量化定量资料是否需要进行转换?定性资料数量化回归模型Y|x1, x2xm= 0+1x1+ 2 x2 + mxm0:常数项,截距,指当所有自变量X1、X2、Xm均为0时,应变量的总体平均值Yj(j=1,2,m) :自变量Xj的总体偏回归系数,表示在其他自变量保持不变时,自变量Xj每增加(或减少)一个计量单位,应变量平均变化j个单位回归方程 从样本数据出发,建立的样本回归方程
4、Y(hat)=b0+b1x1+b2 x2 +bmxm Y(hat): Y|x1, x2xm的估计值b0 ,b1,b2,.,bm:参数0 ,1, ,m的估计值,即常数项和偏回归系数回归方程的建立参数估计原理根据最小二乘法原理,通过对微分方程组求偏导数,解出常数项b0 (或待定系数)和偏回归系数b1,b2.bm。最小二乘法原理 使得实际观察值Yi与回归方程的估计值Y(hat)之间的残差平方和最小。正规方程矩阵形式与解的矩阵形式B为方程的解B=(X)-1 XY中 1 x11 x12 x1m y1 b0X= 1 x21 x22 x2m Y= y2 B = b1 1 xn1 xn2 xnm ym bm回
5、归效果的检验建立了回归方程后,需要进行假设性检验整个模型的假设检验各回归参数的假设检验整个模型的假设检验建立检验假设和备择假设H0 : 1=m =0 ,H1 : 1 ,m不全为0整个模型的假设检验方差分析整个模型的假设检验判断结果 根据检验水平a,查F值表,Fa,若FFa ,P a,则拒绝H0 ,可认为回归效果具有统计学意义,否则,接受H0 。回归系数的假设检验建立检验假设和备择假设H0 : j=0 ,H1 : j=0 回归系数的假设检验t检验Sbi=SY.x1,x2.xm(Cii)1/2其中,SY.12.m :剩余标准差 Cii =(X)-1 回归系数的假设检验判断结果 根据检验水平a,查t
6、值表,ta,若tta ,P a,则拒绝H0 , j=0, 否则,接受H0 , j=0, 。回归系数的区间估计bit(n-m-1) Sbi多元线性回归方程的评价有关评价指标F检验Root MSE (剩余标准差)R-Square (决定系数)Adj R-Sq (校正决定系数)Root MSE: SY.x1,x2.xm ,剩余标准差R-Square:回归平方和在Y的总离均差平方和中所占比重 R-Square=SS回归/SS总=1-SS剩余/SS总0R-Square 1 当所有的回归系数均为0,即1=m =0 时, 则R-Square=0 当所有的观测值正好落在拟和的回归平面或超平面上时,即Yi=Yi
7、(hat)时, 则R-Square=1R-Square越接近1,说明回归模型对资料的拟合优度越佳,故R-Square作为衡量模型优劣的测度。 在简单线性回归中,仅一个自变量: R-Square=r-Square使用R-Square评价模型时需注意:较大的R-Square并不一定意味着拟合模型是有用的,可能是因为: 只取得自变量很少几个水平的观察值,此时,尽管R-Square很大,甚至趋于1,但它不能作为衡量模型优劣的测度统计量; 增加自变量, R-Square增大。 R:复相关系数,多元相关系数或全相关系数。表示应变量Y与所有自变量(X1、X2Xm)间线性相关关系的密切程度,是Y(实际值)和Y
8、(hat)(在回归平面或超平面上的估计值)的简单相关系数Adj R-Sq :校正决定系数为避免因自变量增加, R-Square增大的不合理现象,提出Adj R-Sq 。可见,校正决定系数是相对SS残与SS总的自由度进行的加权调整。应 用偏回归系数 j :表示在其他自变量保持不变时,自变量Xj每增加(或减少)一个计量单位,应变量平均变化j个单位,描述Y与Xj的数量关系;j有量纲,如要比较Xi与Xj对Y的影响程度,不能直接根据i与j的绝对值大小下结论,要消除量纲的影响,将i与j标准化。标准化偏回归系数 j= j*Sj/Sy Sj: Xj的标准差 Sy:Y的标准差依据样本,计算bi ,bj ,对bi
9、 ,bj 进行统计检验,差别无统计学意义,推断i与j无差别,差别有统计学意义, i与j有差别,根据绝对值大小决定Xi与Xj对Y的影响程度大小。应 用标准化偏回归系数的假设检验 H0: i=j (i=j) H1: i=j应 用根据较易测得的自变量推算不易测得的应变量如由身高、体重 推算 体表面积应 用各样本观察值XI取值处Y的总体均数的置信区间Y(hat)t(n-m-1) SY(hat)应 用各样本观察值XI取值处Y的个体值的区间(容许区间)Y(hat)t(n-m-1) SY可用于制定多元参考值范围多元回归分析中注意问题LINE条件样本含量资料量化多元共线性多元回归分析中注意问题多元(重)共线性一些自变量或全部自变量间存在高度相关,这时求得的回归系数值不稳定且难以解释,甚至无法求解回归系数值。解决办法:岭回归分析逐步回归分析主成分回归分析实例P19-P28多元相关多个自变量(X1,X2,Xm)与一个应变量Y情况下,各变量间线性关系的密切程度。包括:全体自变量(X1,X2,Xm)与应变量Y间线性关系的密切程度-复相关系数R;各变量两两间线性关系的密切程度-偏相关系数多元相关Xi与Y间偏相关系数消除其余自变量影响后Xi与Y间的线性相关性。Ui:偏回归平方和,在m个自变量中去掉一个自变量Xi后,回归平方和减少的值;Qi(m-1):在m个自变量中去掉一个自变量Xi后,其余m-1个自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度房地产经纪服务协议模板
- 2024专业储藏室转让协议格式
- 2024专业房产买卖协议法律认证文件
- 2024年会计人员劳务协议样本
- 城市便捷汽车租赁协议模板2024
- 2024年度快速货物交易协议模板
- 2024年企业战略决策咨询协议
- 2024年试桩作业施工协议参考样本
- 北京平安普惠个人贷款协议精简
- 2024年化食堂管理承包协议草案
- (必练)广东省军队文职(经济学)近年考试真题试题库(含答案)
- 基于数据挖掘的高职学情分析与课堂教学质量提升研究
- 能源岗位招聘笔试题与参考答案(某大型国企)2024年
- 蔡戈尼效应完整版本
- 农业灌溉装置市场环境与对策分析
- 统编版道德与法治初二上学期期中试卷及答案指导(2024年)
- 部编版小学五年级上册道法课程纲要(知识清单)
- 职业技能等级认定质量控制及规章制度
- 山东省临沂市(2024年-2025年小学四年级语文)人教版期中考试(上学期)试卷及答案
- 英大传媒投资集团限公司2024年应届毕业生招聘(第一批)高频500题难、易错点模拟试题附带答案详解
- 2024人教版道法七年级上册第二单元:成长的时空大单元整体教学设计
评论
0/150
提交评论