数学建模培训回归分析_第1页
数学建模培训回归分析_第2页
数学建模培训回归分析_第3页
数学建模培训回归分析_第4页
数学建模培训回归分析_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数学建模与数学建模与matlab软件软件-回归分析回归分析教学目的教学目的教学内容教学内容2、掌握用数学软件求解回归分析问题。、掌握用数学软件求解回归分析问题。1、直观了解回归分析基本内容。、直观了解回归分析基本内容。1、回归分析的基本理论。、回归分析的基本理论。3、实验作业。、实验作业。2、用数学软件求解回归分析问题。、用数学软件求解回归分析问题。变量之间的关系变量之间的关系确定性关系确定性关系相 关 关 系相 关 关 系2rS 确定性关系确定性关系身高和体重身高和体重相关关系相关关系相关关系的特征是相关关系的特征是:变量之间的关系很难用一变量之间的关系很难用一种精确的方法表示出来种精确的方

2、法表示出来.确定性关系确定性关系和和相关关系相关关系的联系的联系由于存在测量误差等原因由于存在测量误差等原因,确定性关系在实际确定性关系在实际问题中往往通过相关关系表示出来问题中往往通过相关关系表示出来;另一方面另一方面,当对当对事物内部规律了解得更加深刻时事物内部规律了解得更加深刻时,相关关系也有可相关关系也有可能转化为确定性关系能转化为确定性关系.回归分析回归分析处理变量之间的相关关系的一处理变量之间的相关关系的一种数学方法种数学方法,它是最常用的数理统计方法它是最常用的数理统计方法.回归分析的任务回归分析的任务根据试验数据估计回归根据试验数据估计回归函数函数;讨论回归函数中参数的点估计讨

3、论回归函数中参数的点估计、区间估计区间估计;对回归函数中的参数或者回归函数本身进行假设对回归函数中的参数或者回归函数本身进行假设检验检验;利用回归函数进行预测与控制等等利用回归函数进行预测与控制等等.一元线性回归一元线性回归多元线性回归多元线性回归回归分析回归分析数学模型及定义数学模型及定义*模型参数估计模型参数估计* *检验、预测与控制检验、预测与控制可线性化的一元非线可线性化的一元非线性回归(曲线回归性回归(曲线回归)数学模型及定义数学模型及定义*模型参数估计模型参数估计*多元线性回归中的多元线性回归中的检验与预测检验与预测逐步回归分析逐步回归分析一、数学模型一、数学模型例例1 测测16名

4、成年女子的身高与腿长所得数据如下:名成年女子的身高与腿长所得数据如下:以身高以身高x为横坐标,以腿长为横坐标,以腿长y为纵坐标将这些数据点(为纵坐标将这些数据点(xI,yi)在平面直角坐标系上标出在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图散点图xy10作图命令:作图命令:x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164;y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;plot(x,y,+)一

5、元线性回归分析的主要任务是:一元线性回归分析的主要任务是:xY10,称为 y 对对 x的回归直线方程的回归直线方程.二、模型参数估计二、模型参数估计1、回归系数的最小二乘估计、回归系数的最小二乘估计其中其中niiniiynyxnx111,1niiiniiyxnxyxnx11221,1 010令上两式为 ,解得, ,得01为此,将上式分别对,求偏导,得011001112()2()niiiniiiiQyxQx yx 22110 xxyxxyxy1121 niiiniixxyyxx或(0,1)iiiLS 用这种方法求出的估计称为 的最小二乘估计,简称估计。(经验)回归方程为)(110 xxyxy10

6、( ,)(1,2,., )( , )iinx yinx y 显然, 是拟合直线的斜率,是拟合直线的截距。个点的几何重心落在拟合直线上。22111()()2()()nnxxiyyiiinxyiiiLxxLyyLxxyy( )为了便于记忆,引入下列记号:1这时 可简记为:21112100(,),()niiNxx注意:所以它是 的无偏估计,同样,也是的无偏估计。1.xyxxLL记niniiiiieyyxyQQ11221010)(),(称Qe为残差平方和残差平方和或剩余平方和剩余平方和. 可以证明: 2()(2)eE Qn )2(2nQee2于是的无偏估计为222010eeee称为剩余方差(残差的方差

7、),它是的无偏估计,且分别与,独立。也叫剩余标准差。显然,越接近于 ,说明线性回归方程(1)越显著。 回归方程的显著性检验回归方程的显著性检验111 由(1)知,当| |越大,y与x的变化趋势越明显;反之,当当| |越小,y与x的变化趋势越不明显;特别当=0,y与x不存在线性关系。y 在实际工作中,实现我们并不能断定 与x之间有线性关系,式(1)只是一种假设。当然这个假设不是没有根据,我们可以通过专业知识或散点图做粗略判断。但在求出回归方程之后,还须对这种线性回归方程同实际观测数据拟合的效果进行检验。三、检验、预测与控制三、检验、预测与控制1 xyxy() 对 没有显著影响,此时应去掉预报变量

8、x;(2) 对 有显著影响,但这种影响不能用线性关系表示;(3)除了x以外,还有其他不可忽略的变量对y的影响,从而削弱了x对y的影响。此时应用多元回归模型。22211220111220111()()()()()innyyiiinneiiiiiinniiiiyyeeyyeLyyynyQyyyxUyyxyLQUUQLQ 设总离差平方和剩余平方和回归平方和 由于,因此 越大, 就越小。于是U,越接近1,或U越大,则线性回归效果越显著。()F检验法检验法 ()t检验法检验法niiniixxxnxxxL12212)(其中当0H成立时,exxLT1t(n-2)故)2(21ntT,拒绝0H,否则就接受0H.

9、()r检验法检验法当|r| r1-时,拒绝 H0;否则就接受 H0.记 niniiiniiiyyxxyyxxr11221)()()(2、回归系数的置信区间、回归系数的置信区间0和和1置信水平为置信水平为 1-的置信区间分别为的置信区间分别为 xxexxeLxnntLxnnt221022101)2(,1)2(和 xxexxeLntLnt/)2(,/)2(2112112的的置置信信水水平平为为 1-的的置置信信区区间间为为 )2(,)2(22221nQnQee3、预测与控制、预测与控制(1)预测)预测(2)控制)控制四、可线性化的一元非线性回归四、可线性化的一元非线性回归 (曲线回归)(曲线回归)

10、例例2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀, 容积不断增大容积不断增大.我们希望知道使用次数与增大的容积之间的关我们希望知道使用次数与增大的容积之间的关 系系.对一钢包作试验,测得的数据列于下表:对一钢包作试验,测得的数据列于下表:解答24681012141666.577.588.599.51010.511散散点点图图此即此即非线性回归非线性回归或或曲线回归曲线回归 问题(需要配曲线)问题(需要配曲线)配曲线的一般方法是:配曲线的一般方法是:通常选择的六类曲线如下:通常选择的六类曲线如下:一、数学模型及定义一、数学模型及定义n

11、yyY.1,nknnkkxxxxxxxxxX.1.1.1212222111211,k.10,n.21返回返回二、模型参数估计二、模型参数估计2、多多项项式式回回归归返回返回三、多元线性回归中的检验与预测三、多元线性回归中的检验与预测 ()F检验法检验法()r检验法检验法(残差平方和)残差平方和)2、预测、预测(1)点预测)点预测(2)区间预测)区间预测1knQee返回返回四、逐步回归分析四、逐步回归分析(4)“有进有出有进有出”的逐步回归分析。的逐步回归分析。(1)从所有可能的因子(变量)组合的回归方程中选择最优者;)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回

12、归方程中逐次剔除不显著因子;)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;)从一个变量开始,把变量逐个引入方程;选择选择“最优最优”的回归方程有以下几种方法:的回归方程有以下几种方法: “最优最优”的回归方程的回归方程就是包含所有对就是包含所有对Y有影响的变量有影响的变量, 而不包而不包含对含对Y影响不显著的变量回归方程。影响不显著的变量回归方程。 以第四种方法,即以第四种方法,即逐步回归分析法逐步回归分析法在筛选变量方面较为理在筛选变量方面较为理想想. 这个过程反复进行,直至既无不显著的变量从回归方这个过程反复进行,直至既无不显著的变量从回归方程中

13、剔除,又无显著变量可引入回归方程时为止。程中剔除,又无显著变量可引入回归方程时为止。逐步回归分析法逐步回归分析法的思想:的思想: 从一个自变量开始,视自变量对从一个自变量开始,视自变量对Y作用的显著程度,从作用的显著程度,从大到地依次逐个引入回归方程。大到地依次逐个引入回归方程。 当引入的自变量由于后面变量的引入而变得不显著时,当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。要将其剔除掉。 引入一个自变量或从回归方程中剔除一个自变量,为引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。逐步回归的一步。 对于每一步都要进行对于每一步都要进行Y值检验,以确保每次引入新的显

14、值检验,以确保每次引入新的显著性变量前回归方程中只包含对著性变量前回归方程中只包含对Y作用显著的变量。作用显著的变量。返回返回统计工具箱中的回归分析命令统计工具箱中的回归分析命令1、多元线性回归、多元线性回归2、多项式回归、多项式回归3、非线性回归、非线性回归返回返回xy10ppxxy.110y=a1xm+a2xm-1+amx+am+1多元线性回归多元线性回归 b=regress( Y, X )npnnppxxxxxxxxxX.1.1.1212222111211nYYYY.21pb.101、确定回归系数的点估计值:确定回归系数的点估计值:ppxxy.1103、画出残差及其置信区间:、画出残差及

15、其置信区间: rcoplot(r,rint)2、求回归系数的点估计和区间估计、并检验回归模型:、求回归系数的点估计和区间估计、并检验回归模型: b, bint,r,rint,stats=regress(Y,X,alpha)回归系数的区间估计回归系数的区间估计残差残差用于检验回归模型的统计量,用于检验回归模型的统计量,有三个数值:相关系数有三个数值:相关系数r2、F值、与值、与F对应的概率对应的概率p置信区间置信区间 显著性水平显著性水平(缺省时为(缺省时为0.05)例例 某商场一年内每月的销售收入某商场一年内每月的销售收入X(万元万元)与销售费用与销售费用Y (万元万元)统计如表,试统计如表,

16、试求销售费用求销售费用Y关于销售收入关于销售收入X的线性回归方程。的线性回归方程。解:建立回归模型解:建立回归模型 y=b0+b1xx1=187.1 179.5 157.0 197.0 239.4 217.8 227.1 233.4 242.0 251.9 230.0 271.8;y=25.4 22.8 20.6 21.8 32.4 24.4 29.3 27.9 27.8 34.2 29.2 30.0;x=ones(12,1) x1;b, bint,r,rint,stats=regress(y,x)b = 3.4130 0.1081bint = -7.0791 13.9050 0.0608 0

17、.1554stats = 0.7218 25.9430 0.0005回归方程为:回归方程为:y= 3.4130+0.1081xB0的置信区间:的置信区间: -7.0791 13.9050b1的置信区间:的置信区间: 0.0608 0.1554复相关系数复相关系数R=0.7218,F统计量值为统计量值为25.9430,显著性概率,显著性概率P= 0.0005作回归残差图:作回归残差图:rcoplot(r,rint)从残差图可以看出,所有数从残差图可以看出,所有数据的残差都包含零,且显著据的残差都包含零,且显著性概率性概率P0.01,回归效果显,回归效果显著。如果某个数据的残差不著。如果某个数据的

18、残差不包含零,则常把它视为异常包含零,则常把它视为异常值,在回归中应把它剔除,值,在回归中应把它剔除,再进行回归。再进行回归。例例1 解:解:1、输入数据:输入数据: x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164; X=ones(16,1) x; Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;2、回归分析及检验:回归分析及检验: b,bint,r,rint,stats=regress(Y,X) b,bint,statsTo MATLAB(liti11)

19、题目3、残差分析,作残差图:、残差分析,作残差图: rcoplot(r,rint) 从残差图可以看出,除第二个数据外,其余数据的残从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明差离零点均较近,且残差的置信区间均包含零点,这说明回归模型回归模型 y=-16.073+0.7194x能较好的符合原始数据,而能较好的符合原始数据,而第二个数据可视为异常点第二个数据可视为异常点. 4、预测及作图:、预测及作图:z=b(1)+b(2)*x plot(x,Y,k+,x,z,r)246810121416-5-4-3-2-101234Residual Case

20、Order PlotResidualsCase Number返回返回To MATLAB(liti12)多多 项项 式式 回回 归归 (一)一元多项式回归(一)一元多项式回归 (1)确定多项式系数的命令:)确定多项式系数的命令:p,S=polyfit(x,y,m) 其中 x=(x1,x2,xn) ,y=(y1,y2,yn) ;p=(a1,a2,am+1)是多项式 y=a1xm+a2xm-1+amx+am+1的系数;S 是一个矩阵,用来估计预测误差.(2)一元多项式回归命令:一元多项式回归命令:polytool(x,y,m)1、回归:、回归:y=a1xm+a2xm-1+amx+am+12、预测和预

21、测误差估计:、预测和预测误差估计:(1)Y=polyval(p,x)求)求polyfit所得的回归多项式在所得的回归多项式在x处处 的预的预 测值测值Y; (2)Y,DELTA=polyconf(p,x,S,alpha)求)求polyfit所得所得 的回归多项式在的回归多项式在x处的预测值处的预测值Y及预测值的显著性为及预测值的显著性为1- alpha的置信区间的置信区间Y DELTA;alpha缺省时为缺省时为0.5.解:解: 直接作二次多项式回归:直接作二次多项式回归: t=1/30:1/30:14/30; s=11.86 15.67 20.60 26.69 33.71 41.93 51.

22、13 61.49 72.90 85.44 99.08 113.77 129.54 146.48; p,S=polyfit(t,s,2)To MATLAB(liti21)1329. 98896.652946.4892tts得回归模型为得回归模型为 :Y=polyconf(p,t,S) plot(t,s,k+,t,Y,r)预测及作图预测及作图To MATLAB(liti23)(二)多元二项式回归(二)多元二项式回归命令:命令:rstool(x,y,model, alpha)n m矩阵矩阵显著性水平显著性水平(缺省时为(缺省时为0.05)n维列向量维列向量 例例3 设某商品的需求量与消费者的平均收入

23、、商品价格的统计数设某商品的需求量与消费者的平均收入、商品价格的统计数 据如下,建立回归模型,预测平均收入为据如下,建立回归模型,预测平均收入为1000、价格为、价格为6时时 的商品需求量的商品需求量.需求量10075807050659010011060收入10006001200500300400130011001300300价格5766875439选择纯二次模型,即 2222211122110 xxxxy解:解: 直接用多元二项式回归:直接用多元二项式回归:x1=1000 600 1200 500 300 400 1300 1100 1300 300;x2=5 7 6 6 8 7 5 4 3

24、 9;y=100 75 80 70 50 65 90 100 110 60;x=x1 x2; rstool(x,y,purequadratic) 在画面左下方的下拉式菜单中选在画面左下方的下拉式菜单中选”all”, 则则beta、rmse和和residuals都传送到都传送到Matlab工作区中工作区中.在左边图形下方的方框中输入在左边图形下方的方框中输入1000,右边图形下方的方框中输,右边图形下方的方框中输入入6。 则画面左边的则画面左边的“Predicted Y”下方的数据变为下方的数据变为88.47981,即,即预测出平均收入为预测出平均收入为1000、价格为、价格为6时的商品需求量为

25、时的商品需求量为88.4791.在在Matlab工作区中输入命令:工作区中输入命令: beta, rmseTo MATLAB(liti31)非线性回非线性回 归归 (1)确定回归系数的命令:)确定回归系数的命令: beta,r,J=nlinfit(x,y,model, beta0)(2)非线性回归命令:非线性回归命令:nlintool(x,y,model, beta0,alpha)1、回归:、回归:残差残差Jacobian矩阵矩阵回归系数回归系数的初值的初值是事先用是事先用m-文件定文件定义的非线性函数义的非线性函数估计出的估计出的回归系数回归系数输入数据输入数据x、y分别为分别为 矩阵和矩阵

26、和n维列向维列向量,对一元非线性回量,对一元非线性回归,归,x为为n维列向量。维列向量。mn2、预测和预测误差估计:、预测和预测误差估计:Y,DELTA=nlpredci(model, x,beta,r,J)求求nlinfit 或或nlintool所得的回归函数在所得的回归函数在x处的预测值处的预测值Y及预测值的及预测值的显著性为显著性为1-alpha的置信区间的置信区间Y DELTA.例例 4 对第一节例对第一节例2,求解如下:,求解如下:2、输入数据:、输入数据: x=2:16; y=6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.60

27、 10.80 10.60 10.90 10.76; beta0=8 2;3、求回归系数:、求回归系数: beta,r ,J=nlinfit(x,y,volum,beta0); beta4、得结果:、得结果:beta = 11.6036 -1.0641即得回归模型为:即得回归模型为:xey10641. 16036.11To MATLAB(liti41)题目题目4、预测及作图:、预测及作图: YY,delta=nlpredci(volum,x,beta,r ,J); plot(x,y,k+,x,YY,r)To MATLAB(liti42)例例5 财政收入预测问题:财政收入与国民收入、工业总产值、财

28、政收入预测问题:财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。农业总产值、总人口、就业人口、固定资产投资等因素有关。下表列出了下表列出了1952-1981年的原始数据年的原始数据,试构造预测模型。,试构造预测模型。 解解 设国民收入、工业总产值、农业总产值、总人口、就业设国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资分别为人口、固定资产投资分别为x1、x2、x3、x4、x5、x6,财政收,财政收入为入为y,设变量之间的关系为:,设变量之间的关系为: y= ax1+bx2+cx3+dx4+ex5+fx6使用非线性回归方法求解。使用非线性回

29、归方法求解。1 对回归模型建立对回归模型建立M文件文件model.m如下如下: function yy=model(beta0,X) a=beta0(1); b=beta0(2); c=beta0(3); d=beta0(4); e=beta0(5); f=beta0(6); x1=X(:,1); x2=X(:,2); x3=X(:,3); x4=X(:,4); x5=X(:,5); x6=X(:,6); yy=a*x1+b*x2+c*x3+d*x4+e*x5+f*x6; 2. 主程序主程序liti6.m如下如下:X=598.00 349.00 461.00 57482.00 20729.00 44.00 . 2927.00 6862.00 1273.00 100072.0 43280.00 496.00;y=184.00 216.00 248.00 254.00 268.00 286.00 357.00 444.00 506.00 . 271.00 230.00 266.00 323.00 393.00 466.00 352.00 303.00 447.00 . 564.00 638.00 658.00 691.00 655.00 692.00 657.00 723.00 922.00 . 890.00 82

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论