第十一讲多元线性回归模型_第1页
第十一讲多元线性回归模型_第2页
第十一讲多元线性回归模型_第3页
第十一讲多元线性回归模型_第4页
第十一讲多元线性回归模型_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一讲多元线性回归模型第一页,共十五页,编辑于2023年,星期一安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics安徽财经大学AnhuiUniversityofFinance&Economics1959第十一讲多元线性回归模型第二页,共十五页,编辑于2023年,星期一回归分析就是根据实验数据或历史数据,研究变量之间的相关关系,建立起一个数学模型,进而将此模型用于预测或控制.一般:设Y是一个为因变量(内生变量、被解释变量),为自变量(解释变量)如果,其中是随机误差,称上述表达式为多元线性回归模型.

第三页,共十五页,编辑于2023年,星期一利用多元回归模型解决实际问题有以下几个步骤:

(1)作出各解释变量与因变量的散点图,根据散点图的形状决定是否可以进行线性回归;(2)建立模型求解回归系数,并对其进行检验,如果原始数据含有异常点,则应删除异常点或者引入虚拟变量加以改进模型;(3)对模型的残差进行分析,如果存在异方差,则应对模型进行调整;(4)对模型的残差进行自相关性的DW检验,如果存在自相关,则通过广义差分变换消除自相关性;(5)对模型的结果给出合理的解释.第四页,共十五页,编辑于2023年,星期一多元线性回归模型的Matlab实现

多元线性回归的命令:[b,bint,r,rint,s]=regress(y,X,alpha)其中:输入y:因变量(列向量),X:1与自变量组成的矩阵,Alpha:显著性水平(缺省时设定为0.05)s:4个统计量:可决系数R2,F值,F(1,n-2)分布大于F值的概率p,残差的误差平方和S2输出:b=(),bint:b的置信区间,r:残差(列向量),rint:r的置信区间R2,越接近1越好;p<时回归模型有效,S2越小越好第五页,共十五页,编辑于2023年,星期一rcoplot(r,rint)然后作出残差及其置信区间图形,命令为:根据图形,如果有异常点(该点为红色),剔除异常点后再次进行回归。

最后对模型进行检验:

(1)残差的正态检验:由jbtest检验,h=0表明残差服从正态分布,h=1表明残差不服从正态分布(2)残差的异方差检验(3)残差的自相关性检验(后续课程介绍)第六页,共十五页,编辑于2023年,星期一例1:根据下面的数据建立血压与年龄、体重指数、吸烟习惯之间的回归模型

序号血压年龄体重指数吸烟习惯序号血压年龄体重指数吸烟习惯11443924.20211363625.0022154731.11221425026.2131384522.60231203923.50101545619.30301756927.41(完整数据详细见后面的程序中)第七页,共十五页,编辑于2023年,星期一说明:体重指数=体重(kg)/身高(m)的平方吸烟习惯:0表示不吸烟,1表示吸烟首先做出血压与年龄,血压与体重指数之间的散点图

散点图命令为:

y=[144 215 138 145 162 142 170 124 158 154162 150 140 110 128 130 135 114 116 124136 142 120 120 160 158 144 130 125 175];x1=[39 47 45 47 65 46 67 42 67 5664 56 59 34 42 48 45 18 20 1936 50 39 21 44 53 63 29 25 69];第八页,共十五页,编辑于2023年,星期一x2=[24.231.122.624.025.925.129.519.727.219.328.025.827.320.121.722.227.418.822.621.525.026.223.520.327.128.628.322.025.327.4];x3=[010110101010000100000100110101];plot(x1,y,'*')figure(2);plot(x2,y,'or')可见血压与年龄、血压与体重指数存在一定的线性相关性,所以建立多元线性回归模型:

y与x1的散点图y与x2的散点图第九页,共十五页,编辑于2023年,星期一其次建立模型(继续输入):Y=y';X=[ones(30,1),x1',x2',x3'];%1与自变量组成的矩阵[b,bint,r,rint,s]=regress(y',X);%多元线性回归b,bint,srcoplot(r,rint)%作出残差及其置信区间图形回归系数回归系数估计值(b)回归系数置信区间(bint)045.3636[3.553787.1736]10.3604[-0.07580.7965]23.0906[1.05305.1281]311.8246[-0.148223.7973]R2=0.6855

F=18.8906

p<0.0001s2=169.7917输出结果:第十页,共十五页,编辑于2023年,星期一第三模型的改进。的置信区间包含零点,残差与残差置信区间的图形(如下图)也有异常点,利用索引向量删除第二与第十点。再次进行回归第十一页,共十五页,编辑于2023年,星期一a=[1,3:9,11:30];Y1=Y(a,:);X1=X(a,:);[b1,bint1,r1,rint1,s1]=regress(Y1,X1);b1,bint1,s1命令如下:回归系数回归系数估计值回归系数置信区间058.5101[29.906487.1138]10.4303[0.12730.7332]22.3449[0.85093.8389]310.3065[3.387817.2253]R2=0.8462F=44.0087

p<0.0001s2=53.6604这时置信区间不包含零点,F统计量增大,可决系数从0.6855增大到0.8462,S2从169.7减少到53.6第十二页,共十五页,编辑于2023年,星期一最后得到回归模型为:模型的检验(残差的正态检验)输入命令:h=jbtest(r1)结果:h=0表明残差服从正态分布

说明血压与吸烟习惯的相关性最大,与体重指数的相关性次之,与年龄的相关性最小。第十三页,共十五页,编辑于2023年,星期一对于实际问题建立的模型应该注意:(1)模型中是否应该具有常数项,这取决于该常数的实际意义是什么?(2)对于牵涉到有关专业的问题,必须请教有关专家决定自变量的取舍.对于此题的结果医学院的专家认为:模型中的常数无法给出合理的解释,此外吸烟与血压的高低没有关系.因此,可以考虑建立血压与年龄、体重指数之间的二元回归模型.第十四页,共十五页,编辑于2023年,星期一X1=[75.277.680.77679.581.898.367.77415190.8102.3115.6125137.8175.6155.2];X2=[30.631.333.929.632.527.924.823.633.927.745.542.64045.851.767.265];X3=[21.121.422.921.421.521.721.52122.424.723.224.323.129.124.627.526.5];y=[1090.411331242.11003.21283.21012.21098.8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论