数学实验回归_第1页
数学实验回归_第2页
数学实验回归_第3页
数学实验回归_第4页
数学实验回归_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大学数学实验作业回归分析班级: 姓名: 学号: 日期: 目录【实验目的】3【实验内容】3题目1(课本习题第13章第1题)3【问题描述】3【问题求解】3【拓展实验、思考、对比、分析】8【本题小结】9题目2(课本习题第13章第2题)9【问题描述】9【问题求解】9【拓展实验、思考、对比、分析】12【本题小结】12题目3(课本习题第13章第10题)12【问题描述】12【问题求解】13【拓展实验、思考、对比、分析】20【本题小结】23【实验感想收获】24注:本实验作业脚本文件均以ex13_1_1形式命名,其中ex代表作业,13_1_1表示第十三章第一题第一个程序。 【实验目的】1. 了解回归分析的基本原

2、理,掌握MATLAB实现的方法。2. 练习使用回归分析解决实际问题。【实验内容】题目1(课本习题第13章第1题) 【问题描述】用切削机床加工时,为实时地调整机床需测定刀具的磨损程度,每隔一小时测量刀具的厚度得到以下数据(见下表),建立刀具厚度对于切削时间的回归模型,对模型和回归系数进行检验,并预测7.5h和15h之后的刀具厚度,用(30)式和(31)式两种办法计算预测区间,解释计算结果。时间/h012345678910刀具厚度/cm30.629.128.428.128.027.727.527.227.026.826.5【问题求解】先作出刀具厚度和时间的关系图(代码见下面部分):可见,刀具厚度和

3、切削时间大致成线性关系。故建立刀具厚度和时间的线性关系模型: 在Matlab中编写代码如下:%-作业题13_1脚本M文件源程序ex13_1_1-clear all;clc;%输入数据x=0:10;y=30.6 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5;figure(1)plot(x,y,'*')xlabel('切削时间/h')ylabel('刀具厚度/cm')title('刀具厚度与切削时间关系图 ') % 加入X轴标记,Y轴标记和标题n=length(x);X=ones(

4、n,1),x'b,bint,r,rint,s=regress(y',X);b,bint,sfigure(2)rcoplot(r,rint)得到结果为:b = 29.5455 -0.3291bint = 28.9769 30.1140 -0.4252 -0.2330s = 0.8696 60.0018 0.0000 0.1985将上述结果列表,得到:表1 题1(刀具厚度与切削时间关系)的计算结果回归系数回归系数估计值回归系数置信区间29.5455(28.9769,30.1140)-0.3291(-0.4252,-0.2330) 同时得到残差与置信区间图:图1 题1(刀具厚度与切削

5、时间关系)残差及其置信区间图由残差及其置信区间图可以看出,第一个数据偏离较大,可以剔除它。剔除第一个数据后再次计算(代码略),得到的结果为:b = 29.0533 -0.2588bint = 28.8334 29.2732 -0.2942 -0.2233s = 0.9726 283.5599 0.0000 0.0195表2 题1(刀具厚度与切削时间关系)剔除第一个数据后的计算结果回归系数回归系数估计值回归系数置信区间29.0533(28.8334,29.2732)-0.2588(-0.2942,-0.2233) 图2 题1剔除第一个数据后残差及其置信区间图由结果可见,模型的精度提高。但仍有一个

6、数据是新的异常点,可以再次进行剔除(结果不再列出。)下面取未剔除数据的模型进行分析。由前面的计算结果可得,刀具厚度对于切削时间的回归模型为x=29.5455-0.3291tx为刀具厚度,t为切削时间。根据:的置信区间均不包含零点; ;用MATLAB命令finv(0.95,1,n-2)计算得到F(1,n-2), ,可以得到模型检验是有效的。为求预测值和预测区间,运行如下代码:%-作业题13_1脚本M文件源程序ex13_1_2-clear all;clc;%输入原始数据x=0:10;y=30.6 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5;n

7、=length(x);afa=0.05;yy=29.5455-0.3291*x;s=sqrt(sum(y-yy).*(y-yy)/(n-2);xbar=mean(x);sxx=sum(x-xbar).*(x-xbar);t=tinv(1-afa/2,n-2); x0=7.5,15;deday1=t*s*sqrt(x0-xbar).*(x0-xbar)/sxx+1/n+1);deday2=s*norminv(1-afa/2);y0=29.5455-0.3291*x0A=y0-deday1;y0+deday1B=y0-deday2;y0+deday2得t=7.5h时,刀具厚度预测值为27.0772

8、cm,预测区间为25.9974, 28.1571(按30式计算)和26.2039, 27.9506(按31式计算);t=15h时,刀具厚度预测值为24.6090cm,预测区间为23.1835, 26.0345 (按30式计算)和23.7357, 25.4823 (按31式计算)。从以上预测区间可以看出,31式预测结果区间比30式预测区间小。当n很大时,且x0接近均值xbar时,可以忽略30式根号内的前两项,且近似于N(0,1)的1-/2分位数,因此有了31式的计算结果。在误差允许范围内,31式的结果与30式的结果想接近,可以提高计算效率。【拓展实验、思考、对比、分析】关于异常点或离群点的思考:

9、由原始数据残差置信区间图发现,第一个数据点为异常点。剔除前s = 0.8696 60.0018 0.0000 0.1985,剔除后s = 0.9726 283.5599 0.0000 0.0195,发现决定系数R2,F值显著增大,残差置信区间明显减小,说明拟合的结果更加理想。剔除一个异常点后,发现在新的残差置信区间图中又发现第一个数据为异常点,再次剔除,得到s = 0.9959 1715.0000 0.0000 0.001904,发现R2,F值再次增大。新的异常点的产生是因为在原来的残差图中,异常点偏离0较大,其余点相对来说偏离0较小,是正常的。剔除第一个数据点后,残差置信区间变小,相对于其余

10、数据点偏离0较大的点就成了新的异常点。针对本体的情况,认为在切削开始阶段,用直线拟合刀具厚度与时间的关系不是很理想,可以考虑用其它模型进行拟合,比如二次函数。考虑用二项式回归对前五个数据进行拟合。建立如下模型:在matlab中编写如下程序:%-作业题13_1脚本M文件源程序ex13_1_3-clear all;clc;x=0:4;y=30.6 29.1 28.4 28.1 28.0;n=length(x);X=ones(n,1),x', x'.* x'b,bint,r,rint,s=regress(y',X);b,bint,srcoplot(r,rint)得到如

11、下结果:b = 30.5371 -1.5343 0.2286bint = 29.9896 31.0847 -2.1829 -0.8856 0.0731 0.3841s = 0.9921 125.1094 0.0079 0.0183根据:和的置信区间均不包含零点; ;用MATLAB命令finv(0.95,1,n-2)计算得到F(1,n-2), ,可以得到模型检验是有效的。【本题小结】1、 刀具厚度对于刀具的切削时间的模型为x=29.5455-0.3291t(没有剔除异常点)。根据:的置信区间均不包含零点; ;用MATLAB命令finv(0.95,1,n-2)计算得到F(1,n-2), ,可以得到

12、模型检验是有效的。2、 t=7.5h时,刀具厚度预测值为27.0772cm,预测区间为25.9974, 28.1571(按30式计算)和26.2039, 27.9506(按31式计算);t=15h时,刀具厚度预测值为24.6090cm,预测区间为23.1835, 26.0345 (按30式计算)和23.7357, 25.4823 (按31式计算)。3、本题目中前几个数据点不宜用一元线性回归模型进行拟合,用二项式模型拟合较好题目2(课本习题第13章第2题) 【问题描述】电影院调查电视广告费用和报纸广告费用对每周收入的影响,得到下面的数据(见下表),建立回归模型并进行检验,诊断异常点的存在并进行处

13、理。每周收入9690959295959494电视广告费用1.52.01.52.53.32.34.22.5报纸广告费用5.02.04.02.53.03.52.53.0【问题求解】设电影院每周收入()和电视广告费用()、报纸广告费用()满足模型:在Matlab中编写代码如下:%-作业题13_2脚本M文件源程序ex13_2_1-clear all;clc;y=96 90 95 92 95 95 94 94;x1=1.5 2.0 1.5 2.5 3.3 2.3 4.2 2.5;x2=5.0 2.0 4.0 2.5 3.0 3.5 2.5 3.0;n=length(y);X=ones(n,1),x1&#

14、39;,x2'b,bint,r,rint,s=regress(y',X);b,bint ,srcoplot(r,rint)得到的计算结果为:回归系数回归系数估计值回归系数置信区间83.2116(78.8058,87.6174)1.2985(0.4007,2.1962)2.3372(1.4860,3.1883) 根据:和的置信区间均不包含零点; ;用MATLAB命令finv(0.95,1,n-2)计算得到F(1,n-2), ,可以得到模型检验是有效的。但是和的置信区间较长,说明模型精度还不够高。由图可见,第一个数据为异常点,将其剔除之后,再用matlab计算得到结果如下:回归系数

15、回归系数估计值回归系数置信区间81.4881(78.7878,84.1883)1.2877(0.7964,1.7790)2.9766(2.3281,3.6250) 可见,回归系数、的置信区间变短,变大,变小,说明模型的精度提高。同时,和的置信区间不包含零点;。故模型是有效。综上可得,异常点经过处理后最终得到的回归模型为:其中y为每周收入;x1为电视广告费用;x2为报纸广告费用。【拓展实验、思考、对比、分析】考虑用matlab中二项式回归rstool函数对题目中数据进行分析。在matlab中输入rstool(x,y,'linear',0.05)%-作业题13_2脚本M文件源程序e

16、x13_2_2-clear all;clc;y=96 90 95 92 95 95 94 94;x1=1.5 2.0 1.5 2.5 3.3 2.3 4.2 2.5;x2=5.0 2.0 4.0 2.5 3.0 3.5 2.5 3.0;n=length(y);X=x1',x2'rstool(X,y,'linear',0.05)得到,s=0.6998,得到模型为与剔除异常点之前数据用regress得到的公式完全一样。【本题小结】1、 剔除异常点之前得到的模型为,根据和的置信区间均不包含零点; ;用MATLAB命令finv(0.95,1,n-2)计算得到F(1,n-

17、2), ,可以得到模型检验是有效的。但是和的置信区间较长,说明模型精度还不够高。2、 剔除异常点之后得到的模型为,且回归系数、的置信区间变短,变大,变小,说明模型的精度提高。同时,和的置信区间不包含零点;。故模型是有效。3、 用rstlool函数得到的结果与regress相同。题目3(课本习题第13章第10题) 【问题描述】下表列出了某城市18位3544岁经理的年平均收入(千元),风险偏好度和人寿保险额(千元)的数据,其中风险偏好度是根据发给每个经历的问卷调查表综合评估得到的,它的数值越大,就越偏爱高风险。研究人员想研究此年龄段中的经历所投保的人寿保险额与年均收入及风险偏好度之间的关系。研究者

18、预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对于风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。通过下表中的数据来建立一个合适的回归模型,验证上面的看法,并给出进一步的分析。序号序号119666.2907104937.408526340.96451110554.3762325272.99610129846.186748445.0106137746.1304512657.2044141430.366361426.8525155639.060574938.12241624579.380184935.8

19、4061713352.7668926675.79691813355.9166【问题求解】根据题中所给的条件,给出以下四种模型:模型1:.认为风险偏好对人寿保险额没有二次效应,且两个自变量没有交互效应 y=0+1x1+2x123x2+模型2:认为风险偏好对人寿保险额有二次效应,但两个自变量没有交互效应 y=0+1x1+2x123x2+4x22+模型3:认为风险偏好对人寿保险额没有二次效应,但两个自变量有交互效应 y=0+1x1+2x123x2+4x1x2+模型4:认为风险偏好对人寿保险额有二次效应,且两个自变量有交互效应 y=0+1x1+2x123x2+4x225x1x2+现在检验者四种模型中,

20、哪一种更加符合要求编写程序进行检验:%-作业题13_10脚本M文件源程序ex13_10_1-clear;clc;y=196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133;x1=66.29 40.964 72.996 45.01 57.204 26.852 38.122 35.84 75.796 37.408 54.376 46.186 46.13 30.366 39.06 79.38 52.766 55.916;x2=7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6;n=length(y);对于模型1

21、,程序主要语句如下:X=ones(n,1),x1',(x1.*x1)',x2'b1,bint1,r1,rint1,s1=regress(y',X)将结果整理成为表格如下:回归系数回归系数估计值回归系数置信区间-62.3489-73.5027, -51.19520.83960.3951, 1.28400.03710.03300, 0.04125.68465.2604, 6.1089对于模型2,程序主要语句如下:X=ones(n,1),x1',(x1.*x1)',x2',(x2.*x2)'b2,bint2,r2,rint2,s2=re

22、gress(y',X)将结果整理成为表格如下:回归系数回归系数估计值回归系数置信区间-60.9104-72.6072,-49.21350.93030.4389,1.42180.03590.0310,0.04084.45291.6910,7.214740.1159-0.1408,0.3727R2=0.9996 F=8274 P<5.4437×10-22 s2=3.2632对于模型3,程序主要语句如下:X=ones(n,1),x1',(x1.*x1)',x2',(x1.*x2)'b3,bint3,r3,rint3,s3=regress(y&#

23、39;,X)将结果整理成为表格如下:回归系数回归系数估计值回归系数置信区间-65.9461-79.6004,-52.29170.87310.4197,1.32650.03740.0332 ,0.04156.60054.5786,8.62234-0.0138-0.0436,0.0160R2=0.9996 F=8304.4 P<5.3154×10-22 s2=3.2513对于模型4,程序主要语句如下:将结果整理成为表格如下:回归系数回归系数估计值回归系数置信区间-65.3856-78.7266,-52.04471.01720.5202,1.51410.03580.0310,0.04

24、065.21712.2785,8.155840.1662-0.0956,0.42795-0.0196-0.0501,0.0109R2=0.9997 F=7110.2 P<2.1634×10-20 s2=3.0381从分析的结果看,仅模型1所有回归系数的置信区间不包含0,故认为模型1中变量有效,但是考虑到模型4中R2较大,s2较小,回归系数4、5的置信区间包含0,但是模型的拟合程度非常好,所以初步认为模型1与模型4有效,它们的回归方程为:模型1:y= -62.3489+0.8396x1+0.0371x12+5.6846x2模型4:y= -65.3856+1.0172x1+0.03

25、58x12+5.2171 x2+0.1662x22-0.0196x1x2为了得到更加精确的模型,我继续进行了残差分析:对于模型1,程序主要语句如下:X=ones(n,1),x1',(x1.*x1)',x2'b1,bint1,r1,rint1,s1=regress(y',X);rcoplot(r1,rint1)残差分析图像如下:由图像可知第5组数据残差较大,去掉后再次进行分析将结果整理成为表格如下:回归系数回归系数估计值回归系数置信区间-65.4793-75.0115, -55.94720.98790.6030, 1.37270.03580.0323, 0.039

26、35.57895.2189, 5.9390残差图像如下:从表格中看出,修改后的模型1 ,非常大,s2比较小,符合要求,修改后模型1所以回归方程为:y= -65.4793+0.9879x1+0.0358x12+5.5789x2同理,对模型4也进行残差分析,程序主要语句如下:X=ones(n,1),x1',(x1.*x1)',x2',(x2.*x2)',(x1.*x2)'b4,bint4,r4,rint4,s4=regress(y',X)rcoplot(r4,rint4)残差图像如下:由图像可知第3、5和7组数据残差较大,去掉后再次进行分析将结果整理

27、成为表格如下:回归系数回归系数估计值回归系数置信区间-64.7763-72.7255,-56.82701.10750.8382,1.37680.03470.0321,0.03743.87221.7991,5.945440.29170.0962,0.48715-0.0160-0.0332 ,0.0011R2=0.9999 F=20637 P<5.5902×10-18 s2=0.8125残差图像如下:从表格中看出,修改后的模型1 ,非常大,s2比较小,虽然5的置信区间包含0,即不能确定年均收入和人寿保险额是否对人寿保险额有交互效应,但仍然认为模型符合要求,修改后模型4所以回归方程为

28、:y= -64.7763+1.1075x1+0.0347x12+3.8722 x2+0.2917x22-0.0160x1x2所以综上所述,将结果呈现如下:未观察残差,剔除异常点之前:模型1:.认为风险偏好对人寿保险额没有二次效应,且两个自变量没有交互效应y= -62.3489+0.8396x1+0.0371x12+5.6846x2模型4:认为风险偏好对人寿保险额有二次效应,且两个自变量有交互效应y= -65.3856+1.0172x1+0.0358x12+5.2171 x2+0.1662x22-0.0196x1x2观察残差,剔除异常点之后:模型1:.认为风险偏好对人寿保险额没有二次效应,且两个

29、自变量没有交互效应y= -65.4793+0.9879x1+0.0358x12+5.5789x2模型4:认为风险偏好对人寿保险额有二次效应,且两个自变量有交互效应y= -64.7763+1.1075x1+0.0347x12+3.8722 x2+0.2917x22-0.0160x1x2【拓展实验、思考、对比、分析】逐步回归的基本思路为,先从候选集合中确定一个初始子集,然后每次从子集外(候选集合内)引入一个对y影响显著的变量,再对原来子集中的变量一一进行检验,剔除那些变得不显著的变量。用matlab中stepwise逐步回归法对本题中重要变量进行选择,编写程序如下:%-作业题13_10脚本M文件源

30、程序ex13_10_2-clear;clc;y=196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133;x1=66.29 40.964 72.996 45.01 57.204 26.852 38.122 35.84 75.796 37.408 54.376 46.186 46.13 30.366 39.06 79.38 52.766 55.916;x2= x1.2;x3=7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6;x4= x3.2;x5= x1.x3;x=x1' x2' x3

31、9; x4' x5'stepwise(x,y,1,2,3) 模型1:.认为风险偏好对人寿保险额没有二次效应,且两个自变量没有交互效应 y=0+1x1+2x123x2+上面得到的便是模型1的结果模型2:认为风险偏好对人寿保险额有二次效应,但两个自变量没有交互效应 y=0+1x1+2x123x2+4x22+按下x4点,加入x32项,得到如下结果:模型3:认为风险偏好对人寿保险额没有二次效应,但两个自变量有交互效应 y=0+1x1+2x123x2+5x1x2+按下x5点,将x1*x3交互项加入其中,得到如下结果模型4:认为风险偏好对人寿保险额有二次效应,且两个自变量有交互效应 y=0

32、+1x1+2x123x2+4x225x1x2+按下x4,x5点,加入x32项与x1与x2交互项x1*x3,得到如下结果整理得到如下表格:模型1-62.30.0840.0375.6840.99958110701.803302-60.90.9300.0364.4520.1160.9996182741.806403-62.00.7990.0385.792-5.27e-0190.999618270.41.806804-57.00.9920.0352.2720.352-1.61e-0180.999759705.91.49190根据剩余标准差s最小的原则,我们该选择模型4,即变量应该选择x1,x2,x3,x4即每一个变量都比较重要。当然,stepwise比较适用于影响因素较多的情况,本题目中影响因素较少,完全可以采用穷举法逐一分析。【本题小结】1、从分析的结果看,仅模型1所有回归系数的置信区间不包含0,故认为模型1中变量有效,但是考虑到模型4中R2较大,s2较小,回归系数4、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论