




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Multiplelinearregression多元(重)线性回归多元(重)线性回归
人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间例子人的体重与身高、胸围例子表15-132例40岁以上男性的年龄、吸烟、体重指数与收缩压表15-132例40岁以上男性的年龄、吸烟、体重指数与多元回归分析数据格式多元回归分析数据格式第一节多元线性回归模型一、回归模型简介第一节多元线性回归模型一、回归模型简介(一)多元线性回归模型的一般形式
(一)多元线性回归模型的一般形式两自变量与应变量的散点图两自变量与应变量的散点图两自变量与应变量的拟合面bj
为xj方向的斜率两自变量与应变量的拟合面bj为xj方向(二)多元线性回归分析的一般步骤
(二)多元线性回归分析的一般步骤二、采用最小二乘法
建立多元线性回归方程二、采用最小二乘法
建立多元线性回归方程第15章多重线性回归课件第15章多重线性回归课件表15-1有三个自变量表15-1有三个自变量表15-1有三个自变量表15-1有三个自变量SAS软件输出结果ParameterEstimatesParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|EstimateIntercept142.788789.881594.330.00020x111.431840.310574.61<.00010.68980x219.490432.421743.920.00050.33641x315.839084.287541.360.18410.20293分别为参数估计值b0、b1、b2、b328SAS软件输出结果ParameterEstimates分SAS软件输出结果dataa;inputnoyx1-x3;cards;1 135 45 0 2.8762 122 41 0 3.251。。。31 152 62 0 3.96232 164 65 0 4.01;proc
reg;modely=x1-x2/stb;run;SAS软件输出结果dataa;第二节回归方程的假设检验与评价
一、回归方程的假设检验二、偏回归系数的假设检验三、有关评价指标
第二节回归方程的假设检验与评价
一、回归方程的假设检验一、回归方程的方差分析
(H0:所有总体回归系数bj为0)
AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel35052.618281684.2060936.58<.0001Error281289.2567246.04488CorrectedTotal316341.87500一、回归方程的方差分析
(H0:所有总体回归系数bj为0)有关计算公式有关计算公式有关计算公式X2X1YModelSSTotalSSResidualSS有关计算公式X2X1YModelSSTotalSSRes二、各回归系数的t检验
ParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|Estimate
变量自由度回归系数标准误t值P值标准化回归系数
Intercept2842.788789.881594.330.00020x1281.431840.310574.61<.00010.68980x2289.490432.421743.920.00050.33641x3285.839084.287541.360.18410.20293二、各回归系数的t检验
标准化回归系数(可说明各自变量相对贡献大小)
变量回归系数bj标准化回归系数b’jljj标准差S常数项42.788780.00000X11.431840.689801471.8756.890561X29.490430.336417.9690.507007X35.839080.202937.6600.497078Y6341.87514.30303标准化回归系数(可说明各自变量相对贡献大小)
三、有关评价指标
(软件有关结果)RootMSE(剩余标准差)6.7856
R-Square(决定系数)0.7967AdjR-Sq(校正决定系数)0.7749DependentMean应变量Y的均值=144.43750三、有关评价指标
(软件有关结果)RootMSE(剩余1.剩余标准差(RootMSE)反映了回归方程的精度,其值越小说明回归效果越好
1.剩余标准差(RootMSE)反映了回归方程的精度2.决定系数
(determinationcoefficient)说明所有自变量能解释Y变异的百分比。取值(0,1),越接近1模型拟合越好
2.决定系数
(determinationcoeffic3.复相关系数
(multiplecorrelation
coefficient)说明所有自变量与Y间的线性相关程度。即与Y间的相关程度。如果只有一个自变量,此时
3.复相关系数
(multiplecorrelatio4.校正决定系数(Adjusteddeterminationcoefficient)
4.校正决定系数(Adjusteddeterminat5.偏回归平方和(sumofsquaresforpartialregression)及其F检验
在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应
;j=1,2,…,p
5.偏回归平方和(sumofsquaresforp
FullModelReducedModel
实例计算实例计算第四节自变量的选择一、全局择优法
二、逐步回归法
第四节自变量的选择一、全局择优法
二、逐步回一、全局择优法根据一些准则(criterion)建立“最优”回归模型校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优)AIC(Akaike’sInformationCriterion)准则;AIC越小越好一、全局择优法根据一些准则(criteri第三节模型的变量筛选根据一些准则(criterion)建立“最优”回归模型校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优)AIC(Akaike’sInformationCriterion)准则;AIC越小越好第三节模型的变量筛选根据一些准则(c(一)校正决定系数(Adjusteddeterminationcoefficient)
(一)校正决定系数(Adjusteddeterminat(二)Cp准则的计算公式(二)Cp准则的计算公式(三)AIC准则的计算公式(三)AIC准则的计算公式1.全局择优法
求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型1.全局择优法求出所有可能的回归模型(共有2mSAS获得的几个准则值结果
ADJRSQCPAIC
ADJRSQCPAICx2x3x40.54563440.343x2x30.40748346.66x1x2x3x40.52823542.157x1x30.37522348.091x1x3x40.48797443.568x40.34653248.405x1x2x40.44683445.655x10.28443250.857x1x40.44137345.07x1x20.27478352.116x2x40.4395345.16x30.23063252.814x3x40.43542345.356x20.17864254.579x1x2x30.40756447.507
SAS获得的几个准则值结果ADJRSQCPAI全局择优法的局限性
如果自变量个数为4,则所有的回归模型有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。全局择优法的局限性如果自变量个数为4,2.逐步选择法
1.前进法(forwardselection)2.后退法(backwardelimination)3.逐步回归法(stepwiseregression)
它们的共同特点是每一步只引入或剔除一个自变量。决定引入或剔除基于对偏回归平方和的F检验2.逐步选择法1.前进法(forward(一)前进法
自变量从无到有、从少到多
Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。
局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。(一)前进法自变量从无到有、从少到多Y对每一个(二)后退法
先将全部自变量放入方程,然后逐步剔除
偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)
。建立新的回归方程。重复上述过程。
局限性:自变量高度相关时,可能得不出正确的结果
。(二)后退法先将全部自变量放入方程,然后逐步剔除(三)逐步回归法
双向筛选;引入有意义的变量(前进法),剔除无意义变量(后退法)小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。(三)逐步回归法双向筛选;引入有意义的变量(前第四节多元线性回归的应用及其注意事项第四节多元线性回归的应用及其注意事项一、应用影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量一、应用影响因素分析,控制混杂因素二、应用条件二、应用条件三、应用的注意事项(一)变量的数量化
(二)样本含量
(三)统计“最优”与专业的“最优”
(四)多重共线性
(五)交互作用
(六)残差图
(七)偏相关系数
三、应用的注意事项(一)变量的数量化
(二)样本含量
(一)变量的数量化(1)自变量为连续型变量(必要时作变换)(2)自变量为有序变量(依次赋值,如疗效好中差,可分别赋值3、2、1)(3)自变量为二分类(可令男=1,女=0)(4)自变量为名义分类(需要采用哑变量(dummyvariables)进行编码)(一)变量的数量化(1)自变量为连续型变量(必要时作变换)名义分类变量的哑变量化假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:名义分类变量的哑变量化假如职业分类为工、农、商、学、举例
姓名性别sex年龄职业(J)J1J2J3J4张山男119学生0001李四女025商人0010王五男130军人0000赵六女040农民0100钱七女036工人1000孙八男130商人0010刘九男126军人0000注意:1.哑变量是同时存在,其统计学意义是相对而言的。2.哑变量有无意义可采用加与不加入哑变量的偏回归平方和F检验确定。举例
(二)样本含量观察个体数n与变量个数m的比例一般至少应为:观察个体n:变量m
=5~10(二)样本含量观察个体数n与变量个数m的比例一般至少(三)统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响(三)统计“最优”与专业的“最优”不同准则、方法得出的“最优(四)多重共线性自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。xxxxxxxxxxxxxX1X2Y(四)多重共线性自变量间存在着相关关系,使一个或几个多重共线性的识别与解决办法筛选自变量用主成分回归岭回归回归系数的符号与专业知识不符变量的重要性与专业不符R2高,但各自变量对应的回归系数均不显著。方差膨胀因子(VarianceInflationFactors,VIF)>10多重共线性的识别与解决办法筛选自变量回归系数的符号与专业知识(五)交互作用
当某一自变量对应变量的作用大小与另一个自变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园教育资源共享合作合同(2篇)
- 《机器学习技术应用》课件-任务1-2 校园消费数据统计分析
- 2025商业地产租赁合同怎样写
- 数字经济模式对企业资源优化及效率影响之研究
- 浙江省台州市十校2024-2025学年高一下学期4月期中考试语文试题(含答案)
- 胶质母细胞瘤的临床护理
- 幼小衔接班英语教学设计
- 青岛版五年级数学下册第二单元“分数的基本性质”教学设计教学设计
- 2025液压旋挖钻机钻孔施工合同范本
- 2025年心理咨询师之心理咨询师基础知识考试题库
- 现代风险导向审计在天衡会计师事务所的应用研究
- JGJ107-2016钢筋机械连接技术规程
- 妇科医生进修汇报课件
- 动态分析与设计实验报告总结
- 2024年江苏省泰州市海陵区中考一模数学试卷
- 从汽车检测看低空飞行器检测发展趋势
- DB32T 4740-2024 耕地和林地损害程度鉴定规范
- 五一节假日安全生产培训
- 中考英语二轮复习课件:中考解题技巧-读写综合
- 《铁路基本安全知识》课程标准
- 三年级下册口算练习1000道附答案
评论
0/150
提交评论