版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十四章第十四章 多元线性回归分析多元线性回归分析 Multivariate linear regression 1严选课件 人的体重体重与身高、胸围身高、胸围 血压值血压值与年龄、性别、劳动强度、饮食习惯、吸烟年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史状况、家族史 糖尿病人的血糖血糖与胰岛素、糖化血红蛋白、血清总胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损毁损 半径半径与辐射的温度、辐射的温度、 照射的时间照射的时间 一个变量的变化直接与另一组变量的变化有关:一个变量的变化直接与另一组变量的变化有关: 如: 2严选课件
2、Multivariate linear regression 概念:概念: 多元线性回归分析多元线性回归分析也称复线性回归分析复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个 因变量。 自变量(independent variable)是指独立自由变量的变量,用向量X 表示;因变量(dependent variable)是指非独立的、受其它变量影响 的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回 归分析也称单变量线性回归分析(univariate linear regression analysis) 3
3、严选课件 多元回归分析数据格式多元回归分析数据格式 4严选课件 假定因变量假定因变量Y与与自变量自变量 间存在如下关系:间存在如下关系: mm XXXY 22110 式中, 是常数项, 称为偏回归系数(partial regression coefficient)。 的含义为在其它 自变量保持不变的条件下,自变量 改变一个单位时因变 量Y 的平均改变量。 为随机误差,又称残差(residual), 它表示 的变化中不能由自变量 解释的部 分。 0 m , 21 m,i i 21 Y m,iX i 21 m X,X,X 21 i X 一、多元线性回归方程模型一、多元线性回归方程模型 5严选课件
4、x1 x2 y 22110 XbXbbY 6严选课件 应用条件:应用条件: 注意:注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若 自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对 于自变量是分类变量的情形,需要用广义线性回归模型分析。广义线性回归模型分析。 7严选课件 二、多元线性回归分析的步骤二、多元线性回归分析的步骤 (一)估计各项参数,建立多元线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提下,再分 别对各偏回归系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。 8严选课件 (一)模型的参数估计(一)模型的参数估计 9严选
5、课件 27名糖尿病患者的血 清总胆固醇(x1)、 甘油三酯(x2)、空 腹胰岛素(x3)、糖 化血红蛋白(x4)、 空腹血糖(y)的测量 值列于表中,试建立 血糖与其它几项指标 关系的多元线性回归 方程。 例例14.114.1 10严选课件 各变量的离差矩阵各变量的离差矩阵 11严选课件 线性回归方程模型为:线性回归方程模型为: 12严选课件 1、对模型的假设检验F检验检验 2、对偏回归系数的假设检验F检验检验和和t 检验检验 3、标准偏化回归系数 (二)对模型及偏回归系数的假设检验(二)对模型及偏回归系数的假设检验 13严选课件 1、对模型的假设检验F检验检验 14严选课件 SS回归=b1l
6、1y+ b2l2y + b3l3y + b4l4y =0.142467.6962+0.351589.8025+0.2706142.4347+0.63 8284.5570 =133.7107; 回归=m=4 各变量的离差矩阵各变量的离差矩阵 15严选课件 SS总=lyy=222.5519;总=n-1=26 SS剩余= SS总- SS回归=222.5519-133.7107=88.8412 剩余=n-m-1=22 MS回归= SS回归/回归; MS剩余= SS剩余/剩余; F= MS回归/ MS剩余 1、对模型的假设检验F检验检验 16严选课件 1、对模型的假设检验F检验检验 17严选课件 2、对
7、偏回归系数的假设检验F检验检验和和t 检验检验 回归方程成立只能认为总的来说自变量与因变量间存在线性关 系,但是否每一个自变量都与因变量间存在线性关系,须对其 偏回归系数进行假设检验。 方差分析法 t 检验法 18严选课件 偏回归系数的假设检验-方差分析法方差分析法 19严选课件 偏回归系数的假设检验-方差分析法方差分析法 20严选课件 Parameter Standard Standardized Variable DF Estimate Error t Value Pr |t| Estimate 变量 自由度 偏回归系数 标准误 t值 P值 标准化回归系数 Intercept 22 5.9
8、4327 2.82859 2.10 0.0473 0 X1 22 0.14245 0.36565 0.39 0.7006 0.07758 X2 22 0.35147 0.20420 1.72 0.0993 0.30931 X3 22 -0.27059 0.12139 -2.23 0.0363 -0.33948 X4 22 0.63820 0.24326 2.62 0.0155 0.39774 偏回归系数的假设检验 t 检验检验 21严选课件 指定指定REG过程进行多元线性回归分析,拟合过程进行多元线性回归分析,拟合y 与四个自变量间的多元线性回归方程与四个自变量间的多元线性回归方程 22严选课
9、件 整个方程有整个方程有 统计学意义统计学意义 各自变量的参数估计各自变量的参数估计 对偏回归系数对偏回归系数 的假设检验的假设检验 23严选课件 注注 意意 24严选课件 Y j j YY jj j YY jj jj S S b nl nl b l l bb ) 1/( ) 1/( 变量回归系数bj标准化偏回归系数bj X10.14245 0.07758 X20.35147 0.30931 X3-0.27059-0.33948 X40.6382 0.39774 3、标准化偏回归系数 25严选课件 偏回归系数偏回归系数 偏回归系偏回归系 数标准误数标准误 标准偏回归系数标准偏回归系数 26严选
10、课件 (三)计算相应指标,对模型的拟合效果进行评价 n评价回归方程回归效果的优劣是回归分析的重要内容之一。 常用评价指标有:常用评价指标有: n复相关系数、 n决定系数、 n校正决定系数、 n剩余标准差等。 27严选课件 1.复相关系数 复相关系数(R),衡量因变量Y与回归方程内所有自变量 线性组合件相关关系的密切程度。 0=R=1,没有负值。 R的值越接近1,说明相关关系越密切;越接近0说明相关关 系越弱。 28严选课件 2.决定系数 29严选课件 30严选课件 3、剩余标准差 31严选课件 4、校正决定系数 32严选课件 三、逐步回归分析三、逐步回归分析 33严选课件 (一)最优子集回归法
11、 求出所有自变量可能组合子集的回归方程的模型(共有2m1个) ,按一定准则选择最优模型,常用的准则有: 校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个数; ) AIC(Akaikes Information Criterion)准则; 34严选课件 最优子集法的局限性 如果自变量个数为4,则所有的回归有24115个; 当自变量数个数为10时,所有可能的回归为 2101 1023 个;.;当自变量数个数为50时,所有可能的回归为250 11015个。 35严选课件 (二)逐步选择法(二)逐步选择法 1. 前进法(forward selection)
12、2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)。 它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍 则基于对偏回归平方和的F检验 1; 1; ) 1( 21 )( pn pnSS SSSS F j j 残 回回 36严选课件 (1)前进法)前进法 自变量从无到有、从少到多自变量从无到有、从少到多 1. Y对每一个自变量作直线回归,对回归平方和最大的自变量 作F 检验,有意义(P小)则引入。 2. 在此基础上,计算其它自变量的偏回归平方和,选取偏回归 平方和最大者作F 检验,。 局限性:后续变量的引入可能会使先进入方程
13、的自变量变得不 重要。 37严选课件 (2)后退法)后退法 先将全部自变量放入方程,然后逐步剔除先将全部自变量放入方程,然后逐步剔除 1. 偏回归平方和最小的变量,作F检验及相应的P值,决定它是否 剔除(P大) 。 2. 建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除 的变量即使后来变得有显著性也不能再进入方程 。 38严选课件 (3 3)逐步回归法)逐步回归法 双向筛选:双向筛选:引入引入有意义的变量(前进法),有意义的变量(前进法),剔除剔除无意义变无意义变 量(后退法)量(后退法) 小样本检验水准 a 一般定为0.10或0.15,大样本把a值
14、定为0.05。 a 值越小表示选取自变量的标准越严。 39严选课件 40严选课件 用逐步回归法筛选自变量用逐步回归法筛选自变量 进入方进入方 程的自程的自 变量变量 剔出方剔出方 程的自程的自 变量变量 每一步每一步 时模型时模型 的决定的决定 系数系数R2 C(p)统计量统计量 41严选课件 标准化偏回归系数标准化偏回归系数 y=0.35409x2-0.36013x3+0.41334x4 42严选课件 第三节第三节 多元线性回归的应用及其注意事项多元线性回归的应用及其注意事项 43严选课件 二、二、 多元线性回归应用时的注意事项多元线性回归应用时的注意事项 n1样本含量 n2方程“最优”问题
15、 n3关于逐步回归 n4多元共线性 n5. 异常值识别与强影响分析 44严选课件 45严选课件 46严选课件 n多元共线性是指在进行多元回归分析时,自变量间存在较强的线性 相关关系。共线关系的存在,可使得估计系数方差加大,系数估计 不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果 难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不 重要的那些自变量,剔出方程,另行回归分析。 n对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量 以消除共线性;或者采用岭回归岭回归、主成分回归主成分回归等回归分析方法以 避免共线性指标对结果的影响。 4 4多元共线性多元共线性 47严选课件 多元共线性的表现多元共线性的表现在实际应用中主要表现为:在实际应用中主要表现为: (1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归 系数发生较大变化或当一个自变量被引入或剔除时其余变量偏 回归系数有很大变化; (4)偏回归系数估计值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 勾股定理教案
- 2024-2025学年云南省大理宾川县高平第一完全中学高三上学期期中化学试题及答案
- 金融行业平台价值
- 上海市县(2024年-2025年小学五年级语文)统编版专题练习((上下)学期)试卷及答案
- 浙江省台州市台州十校联考2024-2025学年高一上学期11月期中物理试题含答案
- 人教版九年级历史上册全套教案
- 基层医疗卫生机构公益目标评估指标调查表
- 第五单元《厘米和米》-2024-2025学年二年级数学上册单元测试卷(苏教版)
- 职业学院大数据技术与应用专业人才培养方案
- 人教版英语八年级下册 Unit 8 Section B 随堂练习
- 习作单元解读及其教学策略
- 2023-2024学年北京西城区三十五中高一(上)期中英语试题及答案
- 八年级地理上册第一、二章测试题及(答案)
- 医院护理培训课件:《用药错误案例分析之RCA根本原因分析法》
- 机械设计制造及其自动化应用研究
- 期中测试卷(试题)北师大版三年级上册数学
- 高通量测序技术简介
- 第七节-感染性心内膜炎病人的护理课件
- 塑料吸料机塑胶吸料机吸粉机安全操作及保养规程
- 23版概论第八章 科学发展观
- 矿产资源“三率”指标要求+第14部分:饰面石材和建筑用石料矿产
评论
0/150
提交评论