第八章--统计回归模型_第1页
第八章--统计回归模型_第2页
第八章--统计回归模型_第3页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章统计回归模型回归分析是研究一个变量 Y与其它假设干变量 X之间相关关系的一种数学工具 它是在一组试验 或观测数据的根底上,寻找被随机性掩盖了的变量之间的依存关系粗略的讲,可以理解为用一种确定的函数关系去近似代替比拟复杂的相关关系这个函数称为回归函数回归分析所研究的主要问题是如何利用变量X、Y的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等回归分析包含的内容广泛此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归、多项式回归(1) 一元多项式回归元多项式回归模型的一般形式为y 0 ixmmX如果从数据的散点图上发现回归y与x呈现较明显的二次(或高次)函

2、数关系,那么可以选用一元多项式1. 用函数polyfit估计模型参数,其具体调用格式如下:p=polyfit(x,y,m) p返回多项式系数的估计值; m设定多项式的最高次数; x,y为对应数据点值.p,S=polyfit(x,y,m) S是一个矩阵,用来估计预测误差2. 输出预估值与残差的计算用函数polyval实现,其具体调用格式如下:Y=polyval(p,X) 求polyfit所得的回归多项式在 X处的预测值 Y.Y,DELTA=polyval(p,X,S) p,S为polyfit的输出,DELTA为误差估计.在线性回归模型中,丫土DELTA以50%的概率包含函数在 X处的真值.3.

3、模型预测的置信区间用polyconf实现,其具体调用格式如下:Y,DELTA=polyconf(p,X,S,alpha) 求polyfit所得的回归多项式在 X处的预测值 Y及预测值的显著 性为1-alpha的置信区间 丫土DELTA,alpha缺省时为0.05.4. 交互式画图工具polytool,其具体调用格式如下:polytool(x,y,m);polytool(x,y,m,alpha);用m次多项式拟合x,y的值,默认值为1,alpha为显著性水平.例1观测物体降落的距离s与时间t的关系,得到数据如下表,求s.t (s)1/302/303/304/305/306/307/30s (cm

4、)t (s)8/309/3010/3011/3012/3013/3014/30s (cm)解根据数据的散点图,应拟合为一条二次曲线.选用二次模型,具体代码如下:%输入数据t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;%多项式系数拟合p,S=polyfit(t,s,2);那么得回归模型为:2? 489.2946t65.8896t9.1329.%的拟合值及预测值 y的置信半径deltay,dalta=polyc on f(p,t,S

5、);得结果如下:y=Colu mns 1 through 11Colu mns 12 through 14113.7759 129.5637dalta=Colu mns 1 through 110.0937 0.0865 0.08290.0817 0.08230.0827Colu mns 12 through 140.0829 0.0865%交互式画图polytool(t,s,2);polytool所得的交互式图形如图8-1所示.图8-1(2)多元二项式回归多元二项式回归模型的一般形式为y 01x1. mXmjkXjXk多元二项式回归命令:rstoolx,y,model ,alplxa表示 n

6、 m 矩阵;y 表示 n维列向量; alpha 为显表示由以下4个模型中选择model1个用字符串输入,缺省时为线性模型:著性水平缺省时为0.05;1X1purequadratic纯二次:1X12jjXj ;in teract ion交叉: y1X1m Xmjkxj xk ;quadratic完全二次:y1X1jk Xj Xk .linear线性:y 。需求量10075807050659010011060收入10006001200500300400130011001300300价格5766875439例2设某商品的需求量与消费者的平均收入、 均收入为1000价格为6时的商品需求量.j,k m商

7、品价格的统计数据如下,建立回归模型,预测平解 选择纯二次模型,即y 01x12X2211 X1222 X2 .%输入数据x1=1000 600 1200 500 300 400 1300 1100 1300 300; x2=5 7 6 6 8 7 5 4 3 9;x=x1 x2;y=100 75 80 70 50 65 90 100 110 60;%多元二项式回归rstoolx,y,purequadratic;得如下结果:图8-2得到一个如下列图的交互式画面,左边是 x1=1000固定时的曲线y x1及其置信区间,右边是x2 =6固定时的曲线 yx2及其置信区间.用鼠标移动图中的十字线,或在图

8、下方窗口内输入,可改变x1,x2.在左边图形下方的方框中输入1000,右边图形下方的方框中输入6,那么画面左边的“PredictedY1 下方的数据变为1,.在画面左下方单击Export在出现的窗体中单击 ok按钮,那么beta、rmse和residuals都传送到Matlab工作区中.在Matlab工作区中输入命令:beta,rmse,得结果:beta故回归模型为:y 110.5313 0.1464为 26.5709x2 0.0001x2 1.8475x2,,说明此回归模型的显著性较好.二、多元线性回归多元线性回归模型的一般形式为y 01x1Xmm在Matlab统计工具箱中使用函数regre

9、ss实现多元线性回归.具体调用格式为:b=regress(Y,X)b,b in t,r,ri nt,stats=regress(Y,X,alpha)Y1X11X12X1 m其中 Y丫2 , X1X21X22x2m.对于 兀线性回归,取m 1即可.b为输出冋量;Yn1Xn1xn2xnmb, bi nt表示回归系数估计值和它们的置信区间;检验回归模型的统计量,有四个数值:相关系数r表示残差;rint表示残差的置信区间;stats表示用于2 2R、F值、与F值对应的概率P、s的值.相关系数R2越接近1,说明回归方程越显著;FF1 m, n m 1时拒绝H0, F越大,说明回归方程越显著;与F对应的概

10、率P 时拒绝H0,回归模型成立;alpha表示显著性水平缺省时为0.05.残差及其置信区间可以用命令rcoplotr,rint画出.例3某湖泊八年来湖水中COD浓度实测值y与影响因素,如湖区工业产值X、总人口数X2、捕鱼量X3、降水量X4的资料,建立y的水质分析模型.湖水浓度与影响因素数据表X1X2X3X4y解 作出因变量y与各自变量的样本散点图作散点图的目的主要是观察因变量y与各自变量间是否有比拟好的线性关系,以便选择恰当的数学模型形式图8-3、图8-4、图8-5、图8-6分别为y与Xi、x2、x3、x4的散点图.从图中可以看出这些点大致分布在一条直线旁边,因此有较好的线性关系,可以采用线性

11、回归图8-4 y与X2的散点图图8-3 y与xi的散点图图8-5 y与X3的散点图在Matlab中实现回归的具体代码如下:%输入数据图8-6 y与X4的散点图x1=1.376 1.375 1.387 1.401 1.412 1.428 1.445 1.477;x2=0.450 0.475 0.485 0.500 0.535 0.545 0.550 0.575;x3=2.170 2.554 2.676 2.713 2.823 3.088 3.122 3.262; x4=0.8922 1.1610 0.5346 0.9589 1.0239 1.0499 1.1065 1.1387; x=o nes

12、(8,1) x1 x2 x3 x4;y=5.19 5.30 5.60 5.82 6.00 6.06 6.45 6.95;%多元线性回归b,bi nt,r,ri nt,stats=regress(y,x);得如下结果:bint =rint =stats =故回归模型为:y 13.9849 13.1920X, 2.4228x2 0.0754x3 0.1897x4 ,此外,由 stats 的值可知 R20.9846 , F 47.9654 , P 0.0047。%残差分析,作残差图rcoplot(r,ri nt)图8-7从残差图可以看出, 除第一和第六个数据外, 其余数据的残差离零点均较近, 且残差

13、的置信区间均 包含零点 . 第一和第六个数据可视为异常点,将其去掉后重新拟合可得新的回归模型 .三、非线性回归非线性回归模型的一般形式为y f(X, ), x(Xi,X2,, Xm) ,( 1, 2 , k),其中f 对回归系数 是非线性的 . 非线性回归包括如下几个用于计算回归参数、预测输出、置信区间以及输出交互图像的函数.1. 非线性最小二乘参数估计对于非线性方程的的系数估计通常采用最小二乘估计,又叫做非线性最小二乘回归在Matlab中采用 nlinfit 实现,其调用格式如下: beta=nlinfit(X,y,fun,beta0) 返回非线性回归方程系数的最小二乘估计值. 非线性方程由

14、 fun 给定, fun 为用户提供形如y f (beta,x)的函数,beta为待估系数;betaO为回归系数 的初值.beta,r,J=nlinfit(X,y,fun,beta0)返回回归系数 beta、残差r、Jacobi矩阵J.2. 最小二乘估计参数的置信区间求非线性最小二乘估计的系数的置信区间用 nlparci 计算。其输入为 nlinfit 函数的输出 beta, r, J。函数具体调用格式如下:ci=nlparci(beta,r,J) 返回系数 beta 的 95%置信区间 .ci=nlparci(beta,r,J,alpha) 返回系数beta的100(1-alpha)%置信区

15、间.3. 最小二乘估计模型的预测输出及其置信区间 非线性最小二乘估计模型的预测输出及其置信区间用 nlpredci 计算 . 函数具体调用格式如下:ypred,delta=nlpredci(fun,inputs,beta,r,J)返回模型在对应in puts处的输出预测值 ypred,给出95%的置信区间ypred-delta, ypred+delta; ypred,delta=nlpredci(fun,inputs,beta,r,J,alpha)返回模型在对应 inputs 处的输出预测值 ypred ,给出 100(1-alpha)% 的置信区间 ypred-delta, ypred+de

16、lta .4. 非线性拟合和预测的交互图形工具nlintool 是非线性拟合和预测的交互图形工具 . 函数具体调用格式如下: nlintool(X,y,fun,beta0)返回 X, y 的非线性最小二乘法的曲线拟合图,并画出 95%的置信区间;nlintool(x,y,fun,beta0,alpha)给出曲线拟合图及 100(1-alpha)% 的置信区间;nlintool(x,y,fun, beta0,alpha, xnamey,name)给出曲线拟合图及 100(1-alpha)%的置信区间,标出 x, y变量名称.例4在化工生产中获得的氯气的级分y随生产时间x下降,假定在x 8时,y与

17、x之间有如下形式的非线性模型:a (0.49 a)eb(x 8)现收集 43 组数据, 如下所示 . 要求利用该数据求 a, b 的值以及它们 95%的置信区间 . 并画出拟合曲线 此处设 a, b .x:8.00,8.00,10.00,10.00,10.00,10.00,12.00,12.00,12.00,14.00,14.00,14.00,16.00,16.00,16.00,18.00,18.00, 20.00,20.00,20.00,20.00,22.00,22.00,24.00,24.00,24.00,26.00,26.00,26.00,28.00,28.00,30.00,30.00,

18、30.00,y:0.49,0.49,0.48,0.47,0.48,0.47,0.46,0.46,0.45,0.43,0.45,0.43,0.43,0.44,0.43,0.43,0.46,0.42,0.42,0.43,0.41,解首先编写函数fun,表示出需要拟合模型的函数形式 %拟%合模型的函数形式function y=fun(beta0,x)a=beta0(1);b=beta0(2);y=a+(0.49-a)*exp(-b*(x-8);编写程序对数据进行最小二乘拟合和处理%输%入数据x=8.00 8.00 10.00 10.00 10.00 10.00 12.00 12.00 12.00 1

19、4.00 14.00 14.00 16.00 16.00 16.00 18.00 18.00 20.00 20.00 20.00 20.00 22.00 22.00 24.00 24.00 24.00 26.00 26.00 26.00 28.00 28.00 30.00 30.00 30.00 32.00 32.00 34.00 36.00 36.00 38.00 38.00 40.00 42.00;y=0.49 0.49 0.48 0.47 0.48 0.47 0.46 0.46 0.45 0.43 0.45 0.43 0.43 0.44 0.43 0.43 0.46 0.42 0.42

20、0.43 0.41 0.41 0.40 0.42 0.40 0.40 0.41 0.40 0.41 0.41 0.40 0.40 0.40 0.38 0.41 0.40 0.40 0.41 0.38 0.40 0.40 0.39 0.39;beta0=0.30 0.02;beta,r,J=nlinfit(x,y,fun,beta0);beta%系%数初值%系%数最小二乘估计值为betaci=nlparci(beta,r,J);nlintool(x,y,fun,betaO,生产时间 x,氯气级分 y);%求% 95%置信区间%显%示拟合结果和置信区间得如下结果:beta=ci=可知a与b的最小二

21、乘估计值分别为和,它们95%的置信区间分别为0.3805,0.3988和 0.0771,0.1251.所以用最小二乘法对该模型系数进行估计,最终的模型表达式为0.3896 0.1004e0.1011 (x 8)最终得到的拟合图如下所示图8-8在图8-8中,中间的实线为拟合曲线,两侧的虚线标出其95%置信区间.四、逐步回归实际问题中影响因变量的因素可能很多,希望从中挑选出影响显著的自变量来建立回归模型.这就涉及到了变量选择的问题.逐步回归就是一种从众多变量中有效地选择重要变量的方法逐步回归的命令是 stepwise,它提供了一个交互式画面,通过此工具可以自由地选择变量,进行统计分析,其调用格式为

22、stepwisex,y,inmodel,alpha.其中x表示自变量数据, n m阶矩阵;y表示因变量数据,n 1阶矩阵;inmodel表示矩阵的列 数指标缺省时设定为全部自变量;alpha表示显著性水平缺省时为0.5.运行 stepwise命令时产生三个图形窗口:Stepwise Plot, Stepwise Table, Stepwise History.在Stepwise Plot窗口,虚线表示该变量的拟合系数与0无显著差异,实线表示有显著差异,红色线表示从模型中移去的变量,蓝色线表示存在模型中的变量,单击一条会改变其状态Stepwise Table窗口中列出了一个统计表,包括回归系数及

23、其置信区间,以及模型的统计量剩余标准差RMSE、相关系数R-square、F值、与F对应的概率P .例5水泥凝固时放出的热量 y与水泥中4种化学成分x1、x2、x3、x4有关,今测得一组数据如下, 试用逐步回归法确定一个线性模型序号12345678910111213x17111117113122111110x226295631525571315447406668x3615886917221842398x46052204733226442226341212y解 在Matlab中实现逐步回归的具体代码如下:%数据输入:x1=7 1 11 11 7 11 3 1 2 21 1 11 10;x2=26

24、 29 56 31 52 55 71 31 54 47 40 66 68;x3=6 15 8 8 6 9 17 22 18 4 23 9 8;x4=60 52 20 47 33 22 6 44 22 26 34 12 12;x=x1 x2 x3 x4;y=78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4;%逐步回归%先在初始模型中取全部自变量:stepwise(x,y)得图8-9所示的结果.图8-9从图8-9中可以看出,x3、x4的P值较大,其对模型影响不显著假设要移去x3、x4两个变量,在 Matla

25、b中输入:stepwise(x,y,1,2)得图8-10所示的结果.图 8-10移去变量x3和x4后模型具有显著性,虽然剩余标准差RMSE没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好对变量y和x1、x2作线性回归,在 Matlab中输入:X=o nes13,1 x1 x2;b=regressy,X得结果:b=讨论题1.根据经验,在人的身高相等的情况下,血压的收缩压y与体重x1,年龄x2有关,现在收集了 13个男子的有关数据,如下表所示,试建立y与x1、x2的回归模型x1x250202030305060504055404020y1201411241261171251231251

26、321231321551472.下表为1980-1991年间以1987年不变价计算的美国个人消费支出y与美国国内生产总值 x的数据单位:10亿美元.1在直角坐标系下,作x与y的散点图,并判断y与x是否存在线性相关关系?2试求y与x的一元线性回归方程.3对所得的回归方程作显著性检验0.05.4假设x0=4500,试求对应的y0的点预测和包含概率为95%的区间预测.年份yx年份yx1980198619811987198219881983198919841990198519913.某地人事部门研究中学教师的薪金与他们的资历、性别、教育程度、及培训情况等因素之间的关系,要建立一个数学模型,分析人事策略

27、的合理性,特别是考察女教师是否受到不公正的待遇,以及她们的婚姻状况是否会影响收入 为此,从当地教师中随机选中 3414位进行观察,然后从中保存了 90 个观察对象,得到关键数据如下表 Zx1x2x3x4x5x6x79987000000101514110000102818110100125019110000102819010100102819000000101827000001107230000000129030110000120430010000135231012010120431000100110438000000111841110000112742000000125942110100112

28、742110000112742000100109547000001111352000001146252012010118254110000140454000100118254000000159455112110145966000100123767110100Zx1x2x3x4x5x6x7123767010100149675010000142478110100142479010000134791110100134392000001131094000100181410300211015341030000001430103110000143911111010019461141131102216114

29、114110183411411411114161170000012052139110100208714000211122641540021112201158114011299215911511116951620100001792167110100169017300000118271740000012604175112110172019901000017202090000002159209014100185221001000021042131101001852220000001185222200000022102221100002266223010000202722311000018522270

30、00100185223200000119952350000012616245113110232425311010018522570100012054260000000Zx1x2x3x4x5x6x72617284113110194828711000017202900100012604308112110185239110101194231900010020273251100001942326110100172032911010020483370000002334346112111172035500000119423571100002117380110001274238711211127404031

31、1211119424061101002266437010000243645301000020674580100002000464112110表中符号介绍如下:Z-月薪元;x1-工作时间月;x2=1-男性,x2=0-女性;x3=1-男性或单身女性,x3=0-已婚女性; x4-学历取值0-6,值越大表示学历越高;x5=1-受雇于重点中学,x5=0-其它;x6=1-受过培训的毕业生, x6=0-未受过培训的毕业生或受过培训的肄业生;x7=1-已两年以上未从事教学工作,x7=0-其它。注意组合x2,x3=1,1,0,1,0,0的含义.进行变量选择,建立变量x1-x7与Z的回归模型不一定包括每个自变量,

32、说明教师的薪金与哪些变量的关系密切,是否存在性别和婚姻状况上的差异为了数据处理上的方便,建议对薪金取对数后作为因变量4.热敏电阻器的电阻y与温度x之间的关系模型为2yiexp -x 3试根据下表中的数据给出参数1, 2,3的估计xyxyxyxy50347807016370908266110442755286107513720957030115382060236508011540100600512033076519630859744105514712528725.财政收入预测问题:财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固 定资产投资等因素有关下表列出了 1952-1981年的原始数据,试构造预测模型.年份国民收入 亿元工业总产 值亿元农业总产值 亿元总人口 万人就业人口 万人固定资产投资 亿元财政收入亿元1952598349461574822072944

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论