回归分析在实际案例中的应用教材_第1页
回归分析在实际案例中的应用教材_第2页
回归分析在实际案例中的应用教材_第3页
回归分析在实际案例中的应用教材_第4页
回归分析在实际案例中的应用教材_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、重庆交通大学 现代测量数据 学生课题论文 课 题 名 称:回归分析在实际案例中的应用 指 导 老 师: 刘 国 栋 学 院 :土木工程学院 年级专业班 :2013 级测绘工程一班 学 生 姓 名:陈 涛 学 生 学 号:631301040116 课题学习时间 : 2015年 11 月 目录 1、引言 3 2、分类及要点说明 4 2.1 、分类 4 2.2 、要点说明 4 3、回归分析模型及步骤 5 3.1 、回归模型 5 3.2 、回归分析步骤 6 4、一元线性回归案例分析 6 4.1 、案例叙述 6 4.2 、数据输入与分析 6 4.3 、解算方法 7 4.3.1 、手动解算 7 4.3.2

2、 、矩阵的 MATLAB解算 8 4.3.3 、多项式法解算 9 4.4 、模型参数的显著性检验 10 4.5 、模型检验 10 4.6 、利用回归方程进行预测和预报控制 13 5、多元线性回归案例分析 14 5.1 、案例叙述 14 5.2 、数据输入与分析 15 5.3 、解算方法 17 5.4 、模型参数的显著性检验 18 5.5 、模型检验 19 5.6 、利用回归方程进行预测和预报控制 20 6、结论 20 参 考 文 献 21 回归分析在实际案例中的应用 陈涛 1 (1. 重庆交通大学土木工程学院,重庆 400074;) 摘要 数学是一门很重要的学科,许多的数学家研究出了各种定理、

3、公式以及 规律方法,并且都证明了它的正确性,应用这些定理公式及规律方法解决了 许多疑难问题,回归分析就是其中之一。回归分析是数学分析中的一个重要 方法,这种方法可以从对大量数据的处理中得到函数规律从而建立数学模 型,它在解决数据分析中的问题时应用广泛、灵活,是解决数据处理问题的 一个强有力的工具;另外在解决一些大数据问题或者计算量较大的问题时, 借助于一些辅助的数据处理软件会显得简单快捷的多, 在这个大数据时代很 多问题也必须借助于这些软件进行处理,这已经成为一种常态化, MATLAB 就是这样的一种软件。 MATLAB可以通过编程实现几乎所有的数据处理问题, 他强大的数据处理能力使得一些人工

4、不能解算的大数据处理问题得以实现; 本文将结合实际的案例利用 MATLAB软件向大家介绍如何运用回归分析解决 实际的问题。 关键词 :回归分析,一元回归,多元回归, MATLAB解算 1、引言 回归分析就是指利用数据统计原理, 对大量统计数据进行数学处理, “加以 去粗取精、去伪存真、由此及彼、由表及里的改造制作工夫”,从而得出反映事 物内部规律性的东西。 并确定因变量与某些自变量的相关关系, 建立一个相关性 较好的回归方程(函数表达式) ,并加以外推,用于预测今后的因变量的变化的 数理统计分析分析方法。 现实世界中变量之间的关系可以分成两类, 一类是确定 关系,即我们常说的函数关系, 这种关

5、系可以使用函数来进行分析和描述; 另一 类是不确定关系, 即我们常说的相关关系, 如我们即将研究的大坝库水位和大坝 沉陷量之间的关系和 中国税收收入与 “国内生产总值 (GDP)”、“财政支出”、“商 品零售物价指数”之间的关系。 2、分类及要点说明 2.1 、分类 1、根据因变量和自变量的个数来分类: 一元回归分析;多元回归分析; 2、根据因变量和自变量的函数表达式来分类: 线性回归分析;非线性回归分析; 2.2 、要点说明 1、通常情况下,线性回归分析是回归分析法中最基本的方法,当遇到非线性回 归分析时,可以借助数学手段将其化为线性回归;因此,主要研究线性回归 问题,一点线性回归问题得到解

6、决,非线性回归也就迎刃而解了,例如,取 对数使得乘法变成加法等;当然,有些非线性回归也可以直接进行,如多项 式回归等; 2、在社会经济现象中,很难确定因变量和自变量之间的关系,它们大多是随机 性的,只有通过大量统计观察才能找出其中的规律。随机分析是利用统计学 原理来描述随机变量相关关系的一种方法; 3、由回归分析法的定义知道,回归分析可以简单的理解为信息分析与预测。信 息即统计数据,分析即对信息进行数学处理,预测就是加以外推,也就是适 当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立, 然后就可以在该定义域上取值进行 “未来预测”。当然,还可以对回归方程进 行有效控制; 4、相

7、关关系可以分为确定关系和不确定关系。但是不论是确定关系或者不确定 关系,只要有相关关系,都可以选择一适当的数学关系式,用以说明一个或 几个变量变动时,另一变量或几个变量平均变动的情况。 3、回归分析模型及步骤 3.1 、回归模型 1、确定变量之间是否存在相关关系,若存在,则找出数学表达式; 2、根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这 种控制或预测可以达到何种精确度。 3.2 、回归分析步骤 1、根据自变量与因变量的现有数据以及关系,初步设定回归方程; 2、求出合理的回归系数; 3、进行相关性检验,确定相关系数; 4、在符合相关性要求后,即可根据已得的回归方程与具体条

8、件相结合,来确定 事物的未来状况,并计算预测值的置信区间; 4、一元线性回归案例分析 4.1 、案例叙述 根据已知数据求出表示大坝库水位和大坝沉陷量之间的一元线性回归方程。 已知数据: 编号 库水位 (m) 沉陷量( mm) 编号) 库水位( m) 沉陷量( mm) 1 102.714 -1.96 7 135.046 -5.46 2 95.154 -1.88 8 140.373 -5.69 3 114.364 -3.96 9 144.958 -3.94 4 120.170 -3.31 10 141.011 -5.82 5 126.630 -4.94 11 130.308 -4.18 6 129

9、.393 -5.69 12 121.234 -2.90 4.2 、数据输入与分析 设库水位为 x,沉陷量 y,将以上数据输入 MATLAB中进行分析, 利用 matlab软件可以得到 y 关于 x 的散点图如图 1 所示: -1.5 -2 -2.5 -3 -3.5 -4 -4.5 -5 -5.5 -6 95 100 105 110 115 120 125 130 135 140 145 图 1 y 关于 x 的散点图 由于提取的数据包含有其它各方面的影响因素,综合考虑其它因素的影响 可以看 y 和 x 成线性相关关系,可以设库水位 x 与 y 为一元回归线性模型: y 0 1x 4.3 、解算

10、方法 解: 计算 0、 1的值: 4.3.1 、手动解算 124.9813 4.26 1 10 xxi 10 i 1 n 2 sxx1xi x 2537.87 10 i 1 1 10 y 10 i 1 yi sxyxi x( yi y) 190.0911 sxy i1 190.0911 0.0749 sxx2537.87 0 y x 1 5.0967 故回归方程为: y 5.0967 0.0749x 4.3.2 、矩阵的 MATLAB解算 在 matlab 中输入编码如下: x=102.714 95.154 114.364 120.170 126.630 129.393 135.046 140

11、.373 144.958 141.011; %输入 x 的数据 y=-1.96 -1.88 -3.96 -3.31 -4.94 -5.69 -5.46 -5.69 -3.94 -5.82;%输入 y 的数据 X=sum(x)/10; %求 x 数据的平均值 Y=sum(y)/10; %求 y 数据的平均值 A=ones(1,10)*X; %构建一个 1 行 10 列值为 X 的矩阵 B=ones(1,10)*Y; %构建一个 1 行 10 列值为 Y 的矩阵 Sx=x-A; %矩阵减法 Sy=y-B; %矩阵减法 Sxx=sum(Sx.*Sx); %对矩阵 Sx 中的值先平方再求和 Sxy=s

12、um(Sx.*Sy); %矩阵 Sx 中的值与矩阵 Sxy 中的值先相乘再求和 P1=Sxy/Sxx; P0=Y-X*P1; 结果输出: P1=Sxy/Sxx P1 = -0.0749 P0=Y-X*P1 P0 = 5.0967 故回归模型为: y 5.0967 0.0749x 4.3.3 、多项式法解算 在 matlab 中输入程序编码利用多项式解求参数: x=102.714 95.154 114.364 120.170 126.630 129.393 135.046 140.373 144.958 141.011; %输入 x 的数据 y=-1.96 -1.88 -3.96 -3.31 -

13、4.94 -5.69 -5.46 -5.69 -3.94 -5.82;%输入 y 的数据 P,S=polyfit(x,y,1); % 确定多项式系数的 MATLAB命令 结果输出: P = -0.0749 5.0967 故回归模型为: y 5.0967 0.0749x 4.4 、模型参数的显著性检验 在 matlab 中输入以下的编码: X=ones(10,1),x; %构建 10 行 2 列矩阵 X,第一列值都为 1,第二列为 x 的转置 b,bint,r,rint,s=regress(y,X); % 计算 y,X 相关系数 ,分析其相关程度, 以 0.05 的显著性水平检验相关系数的显著性

14、 s2=sum(r.2)/8; % r 中值的平方求和除 8 b,bint 结果输出: b = 5.0967 -0.0749 bint = 0.0046 10.1887 -0.1153 -0.0345 参数 b1=5.0967 、b2=-0.0749 均在其置信区间 0.0046 ,10.1887 , -0.1153 , -0.0345 内,所以模型参数满足要求。 4.5 、模型检验 同样在 MATLAB中可以得到残差数据如图 2 所示: s = 0.6954 18.2659 0.0027 0.7795 s2 = 10 0.7795 由这些数据可知: R2=0.6954,F=18.2659,p

15、=0.0027 ,S2 =0.7795; 此处 p=0.00270.05 ,基本符合要求,模型有效; 同时在 matlab 中输入编码 rcoplot(r,rint) 得到模型的残差分布图 1,由图 知第九组数据存在问题: -3 Residual Case Order Plot 2 1 Residu 0 -1 -2 1234 5 6 7 8 9 10 Case Number 图 2 初始残差分布图 将第九组数据剔除, 取一到八组和十、 十一组数据重新计算得到以下模型和 数据: y 7.0218 0.0916x bint = 3.6458 10.3979 -0.1187 -0.0644 11 模

16、型参数满足要求; 0.8833 60.5277 0.0001 0.2973 s2 = 0.2973 R2=0.8833,F=60.5277,p=0.0001 ,S2 =0.2973;p=0.00010.05 满足要求,模型有效; 去除异常点的残差分布如图 3 所示: 此时残差图显示所有数据都满足要求, 模型比剔除异常点前的模型更好; 此 处我们将最后一组数据带入发现结果差别较大, 因此最后一组数据应该也属于异 常点。 Residual Case Order Plot 1.5 1 0.5 Residual 0 -0.5 -1 -1.5 1 2 3 4 5 6 7 8 9 10 Case Numb

17、er 图 3 去除异常点的残差分布图 12 在剔除两个异常点后我们可以再画 y关于 x的散点图如图 4所示: -1.5 -2 -2.5 -3 -3.5 -4 -4.5 -5 -5.5 -6 95 100 105 110 115 120 125 130 135 140 145 图4 无异常点的 y关于 x的散点图 通过对比会发现剔除异常点后的散点图更能体现库水位和沉陷量之间的线 性关系,所以最终的回归模型为: y 7.0218 0.0916x 4.6 、利用回归方程进行预测和预报控制 通过得到的回归模型可知, 要使得大坝在理论上的沉陷量为零, 大坝的库水 位应该为 x=7.0218/0.0916

18、=76.66m ,虽然在现实生活中不一定能够达到这样的 要求,这个数据也不一定就是实际上使得大坝的沉陷为零的库水位值, 但是至少 也是理论上的一个与实际真值相差最小的值, 能够为大坝管理人员提供了一个用 于评估和研究的理论数据。 13 5、多元线性回归案例分析 5.1 、案例叙述 为了反映中国税收增长的全貌, 选择包括中央和地方税收的 国家财政收入 中的“各项税收”(简称“税收收入”)作为被解释变量, 以放映国家税收的增长; 选择“国内生产总值(GDP)”作为经济整体增长水平的代表; 选择中央和地方 “财 政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的 代表。由于税制改

19、革难以量化,而且 1985 年以后财税体制改革对税收增长影响 不是很大,可暂不考虑。所以解释变量设定为可观测“国内生产总值(GDP)”、 “财政支出”、“商品零售物价指数” 。 从中国统计年鉴收集到以下数据: 年份 财政收入 (亿元) 国内生产 总值 ( 亿 元) 财政支出 (亿元) 商品零售 价格指数 (%) Y X1 X2 X3 1978 519.28 3624.1 1122.09 100.7 1979 537.82 4038.2 1281.79 102 1980 571.7 4517.8 1228.83 106 1981 629.89 4862.4 1138.41 102.4 1982

20、700.02 5294.7 1229.98 101.9 1983 775.59 5934.5 1409.52 101.5 1984 947.35 7171 1701.02 102.8 1985 2040.79 8964.4 2004.25 108.8 1986 2090.73 10202.2 2204.91 106 1987 2140.36 11962.5 2262.18 107.3 1988 2390.47 14928.3 2491.21 118.5 14 1989 2727.4 16909.2 2823.78 117.8 1990 2821.86 18547.9 3083.59 102.1

21、 1991 2990.17 21617.8 3386.62 102.9 1992 3296.91 26638.1 3742.2 105.4 1993 4255.3 34636.4 4642.3 113.2 1994 5126.88 46759.4 5792.62 121.7 1995 6038.04 58478.1 6823.72 114.8 1996 6909.82 67884.6 7937.55 106.1 1997 8234.04 74462.6 9233.56 100.8 1998 9262.8 78345.2 10798.18 97.4 1999 10682.58 82067.5 1

22、3187.67 97 2000 12581.51 89468.1 15886.5 98.5 2001 15301.38 97314.8 18902.58 99.2 2002 17636.45 104790.6 22053.15 98.7 5.2 、数据输入与分析 按表中数据将 y,x1 ,x2,x3输入 MATLAB中进行分析,得到以下的散点图: 15 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 0.5 1 图 6 y 关于 18000 16000 14000 12000 10000 8000 6000 4000 2000 1.5 x

23、2 的散点图 2.5 4 x 10 4 0 95 100 105 110 115 120 125 图 7 y 关于 x3 的散点图 对图形分析可以设为多元回归模型: y 0 1x1 2x2 3x 3 16 5.3 、解算方法 在 MATLAB中利用矩阵编写程序代码进行解算,程序编码如下: format long %设置浮点型 14928.3 18902.58 的输出格式 16909.2 22053.15 y=519.28 18547.9 ; %X2 的数据 537.82 21617.8 X3=100.7 571.7 26638.1 102 629.89 34636.4 106 700.02 4

24、6759.4 102.4 775.59 58478.1 101.9 947.35 67884.6 101.5 2040.79 74462.6 102.8 2090.73 78345.2 108.8 2140.36 82067.5 106 2390.47 89468.1 107.3 2727.4 97314.8 118.5 2821.86 104790.6 117.8 2990.17 ; %X1 的数据 102.1 3296.91 X2=1122.09 102.9 4255.3 1281.79 105.4 5126.88 1228.83 113.2 6038.04 1138.41 121.7 1

25、229.98 114.8 6909.82 1409.52 106.1 8234.04 1701.02 100.8 9262.8 2004.25 97.4 10682.58 2204.91 97 12581.51 2262.18 98.5 15301.38 2491.21 99.2 17636.45 2823.78 98.7 ; %y的数据 3083.59 ; %X3 的数据 X1=3624.1 3386.62 n=25; ;m=3; 4038.2 3742.2 X=ones(n,1),x1,x2 4517.8 4642.3 ,x3; %构造 n 行 4 列矩 4862.4 5792.62 阵

26、X,第一列为 1 ,第二列 5294.7 6823.72 为 X1 转置 5934.5 7937.55 b,bint,r,rint,s=re 7171 9233.56 8964.4 10798.18 gress(y,X); %计算 y,X 10202.2 13187.67 相关系数 , 分析其相关程 11962.5 15886.5 度,以 0.05 的显著性水平 17 检验相关系数的显著性 s2=sum(r.2)/(n-m-1); % r 中值的平方求和除 (n-m-1) b,bint,s, 结果输出: b = 1.0e+03 * -2.582755482904195 0.0000220671

27、54277 0.000702104075794 0.023985062289075 故所求模型为: y 2582.755483 0.022067x1 0.702104x2 23.985062x3 5.4 、模型参数的显著性检验 在解算的同时可以求出以下参数: bint = 1.0e+03 * -4.538864982100863 0.000010468615698 0.000632985821410 0.005812781056010 由于 b = 1.0e+03 * -2.582755482904195 0.000022067154277 0.000702104075794 0.023985

28、062289075 -0.626645983707528 0.000033665692856 0.000771222330178 0.042157343522140 b1, ,b2,b3,b4 都在其置信区间 -4538.864982100863 ,-626.645983707528, 0.010468615698 ,0.033665692856, 0.632985821410 , 0.771222330178, 5.812781056010 ,42.157343522140 内,所以模型参数满足要求; 18 5.5 、模型检验 同样在 MATLAB中可以得到以下的残差数据: s = 1.0e

29、+04 * 0.000099743048911 0.271725387862814 0.000000000000000 6.967443168409442 s2 = 6.967443168409445e+04 R2=0.99743,F=2717.2538786,p=0.000 , S2 =69674.43168;此处 p0.05; 输入 rcoplot(r,rint) 代码可得残差分布如图 8 所示: Residual Case Order Plot 800 600 400 Resid2u0a0l 0 -200 -400 -600 -800 5 10 15 Case Number 图 8 残差

30、分布图 20 25 由图可知残差在零点上下分布均匀且相隔不远、 没有异常点, 所以模型检验 合格、有效。 19 5.6 、利用回归方程进行预测和预报控制 根据求出来的回归模型可知, 财政收入总体的趋势是处于上涨趋势, 这是非 常积极的; 另一方面,影响财政收入的最主要原因是商品零售价格指数, 政府应 该在这方面引起重视, 国内生产总值对财政收入的影响比较小, 财政支出的影响 也相对适中。 6、结论 从这两个案例我们知道回归分析能够通过给定的变量之间的对应数据求出 变量之间的相关关系, 并将这种相关关系通过函数模型表现出来, 使研究者可以 跳过繁杂的数据看到变量间最本质的联系; 通过案例二我们也

31、应该得到一些启发 在多元模型中并不是线性相关性最大的自变量对因变量的影响最大, 从最终的函 数模型和开始的散点图对应来看是这样的; 但同时我也产生了很多的疑问, 比如 在第一个案例中存在异常值, 在取前十组数据时、 通过残差图知道第九组数据是 异常数据,在排除这个值后将最后一组数据代入得到的函数模型发现结果与实际 的结果差别很大, 在此我作出的决定是认为该组数据仍然是异常数据, 而实际上 真的就是如此吗?有没有可能删除的异常点才是真正能反应实际情况的数据, 而 留下的那十组中的更多的点才是异常点呢?我想如果将这些数据放在一百组中 可能就有答案了吧, 因为从大坝库水位和大坝沉陷量之间的散点图来看

32、实在是不 能非常直观的看出如案例二中 y 与x2 那样的线性关系。 20 1 胡晓东,董辰辉 . MATLAB 从入门到精通 M. 人民邮电出版社: 2010 Xiao-dong hu, Dong Chen fai. MATLAB from entry to master M. Peoples posts and telecommunications publishing house, 2010 2 何晓群,刘文卿 .应用回归分析(第三版) M. 北京:中国人民大学出版社, 2011 Xiao-qun he, wen-ching liou. Application of regression analysis (third edition) M. Beijing: China renmin university press, 2011 3 百度文库 . 网址: http:/ Baidu library. Web site: http:/ abstract mathematics is a very important subject, many mathematicians developed various theorem, formul

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论