




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/7/28,1,第四部分 回归分析,回归分析的概念 一元线性回归 多元线性回归 多项式回归 非线性回归 逐步回归,2020/7/28,2,4.1 回归分析的概念,在工农业生产和科学研究中,常常需要研究变量之间的关系。变量之间的关系可以分为两类:确定性关系、非确定性关系。确定性关系就是指存在某种函数关系。然而,更常见的变量之间的关系存在着某种不确定性。例如:商品的销售量与当地人口有关,人口越多,销售量越大,但它们之间并没有确定性的数值关系,同样的人口,可能有不同的销售量。这种既有关联,又不存在确定性数值关系的相互关系,就称为相关关系。 回归分析就是研究变量之间相关关系的一种数理统计分析方
2、法。在回归分析中,主要研究以下几个问题:,2020/7/28,3,4.1 回归分析的概念,(1)拟合:建立变量之间有效的经验函数关系; (2)变量选择:在一批变量中确定哪些变量对因变量有显著影响,哪些没有实质影响; (3)估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断; (4)预测:给定某个自变量,预测因变量的值或范围。 根据自变量个数和经验函数形式的不同,回归分析可以分为许多类别。,2020/7/28,4,4.2 一元线性回归,一元线性回归模型 给定一组数据点(x1, y1),(x2 ,y2),.,(xn, yn),如果通过散点图可以观察出变量间大致存在线性函数关系,
3、则可以建立如下模型:,其中a,b称为一元线性回归的回归系数;表示回归值与测量值之间的误差。 针对该模型,需要解决以下问题: (1)如何估计参数a,b以及2; (2)模型的假设是否正确? (3)如何应用所求的回归方程对试验指标进行预测。,2020/7/28,5,4.2 一元线性回归,回归系数的最小二乘估计 已知(x1, y1),(x2 ,y2),.,(xn, yn),代入回归模型得到:,采用最小二乘法(即使观测值与回归值的离差平方和最小):,2020/7/28,6,4.2 一元线性回归,回归系数估计量的性质,2020/7/28,7,4.2 一元线性回归,对2的估计,对a,b ,2的区间估计,20
4、20/7/28,8,4.2 一元线性回归,样本相关系数及其显著性检验,显然:样本相关系数R的符号决定于Lxy,因此与相关系数b的符号一致。说明: (1)当R=0时, Lxy =0,因此b=0,说明Y的变化与X无关,此时Y与X毫无线性相关关系; (2)当R=1时, 所有的样本点都在回归直线上,此时称Y与X完全线性相关,R=1,完全正相关,R=-1,完全负相关; (3)当0|R|1时, 说明X与Y存在一定的线性相关关系,0R1,正相关; -1 R0,负相关;R的绝对值越大,相关关系越显著。,2020/7/28,9,4.2 一元线性回归,给定显著性水平a,查表得F的临界值Fa,若F*Fa (F*为F
5、的观测值),则拒绝假设即认为X与Y之间相关关系显著;否则认为Y与X不存在线性相关关系;也可使用P=PFF* 来比较,若P Fa),则拒绝假设即认为X与Y之间相关关系显著;一般使用时,P接近于0。,显著性检验:原假设H0:b=0,的值可以使用polyfit()或regress()命令计算,用法参看MATLAB具体说明。,2020/7/28,10,4.2 一元线性回归,利用回归模型进行预测,当回归模型和系数通过检验后,可由给定的x0值代入回归方程得到Y的点预测值y0:,给定显著性水平a,可以得到Y的预测区间:,2020/7/28,11,4.2 一元线性回归,利用回归模型进行控制,观察值y在某个区间
6、(y1,y2)取值时,应如何控制x的取值范围,使得响应的观察值落入指定区间的概率至少为1-a.解方程:,解得x1,x2,即可以得到x的控制区间的两个端点值。,x1,x2,y2,y1,2020/7/28,12,4.2 一元线性回归,异常数据的剔除,当用regress()命令得到回归模型的系数估计值和残差及残差置信区间时,由于残差符合均值为零的正态分布,所以残差置信区间应该通过零点。用rcoplot(r,rint)画出残差图,由图可容易看出异常数据点,剔除这些异常点,重新进行回归分析,可使模型预测更精确。,2020/7/28,13,4.2 一元线性回归,例4.1人口预测 1949年1994年我国人
7、口数据资料如下: 年份xi 49 54 59 64 69 74 79 84 89 94 人数yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我国人口增长的规律, 预报1999、2005年我国人口数。,建模分析步骤: (1) 在坐标系上作观测数据的散点图。 (2) 根据散点分布的几何特征提出模型 (3) 利用数据估计模型的参数 (4) 计算拟合效果 (1)散点图,2020/7/28,14,4.2 一元线性回归,(2)人口线性增长模型 假设:人口随时间线性地增加,模型:y = a + b x+ (3) 利用数据估计模型的参数 观测值的模型:yi
8、= a + b xi + i ,i = 1,n 拟合的精度: Q = i 2 = (yi - a b xi)2, 误差平方和。 最小二乘法:求参数 a 和 b,使得误差平方和最小。 用MATLAB中的regress()命令 可以算出:a = 2.032, b = 0.148 模型:y = 2.032 + 0.148 x (4)拟合精度 Q = 0.3280 , R2=0.9928 , F=1101.878 ,P=0 由R2和P表明拟合效果很好! (5)预报 当X=99时,Y=12.62亿;当X=105时,Y=13.508亿,2020/7/28,15,4.3 多元线性回归,多元线性回归模型,其中
9、i称为多元线性回归的回归系数;表示回归值与测量值之间的误差。,2020/7/28,16,4.3 多元线性回归,回归系数的最小二乘估计,已知(xi1, xi2,., xim, yi),i=1,2,.,n,代入回归模型,利用最小二乘法可得到回归系数的最小二乘估计。令:,2020/7/28,17,4.3 多元线性回归,2020/7/28,18,4.3 多元线性回归,回归模型的检验 回归模型是否为线性函数形式?问题可转化为检验原假设:H0: 1=2 = .=m=0,与一元回归分析一样F检验,命令说明等类似。,2020/7/28,19,4.3 多元线性回归,回归系数的检验 上个检验被拒绝时,表明回归系数
10、不全为零,但不排除某个或某些系数为零。检验原假设:H0: i=0,若假设成立,表明因素Xi对Y的影响不显著。,2020/7/28,20,4.3 多元线性回归,例4.2 为了研究火柴销量与各因素间的回归关系,收集数据:,2020/7/28,21,4.3 多元线性回归,MATLAB实现: x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,. 14.48,28.16;20.29,33.53,28.37,16.97,24.26;22.61,37.31,. 42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;
11、31.19,. 45.73,52.46,27.04,7.39;30.5,50.59,45.3,23.08,3.88;29.63,. 58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.82,20.09;. 29.25,71.25,53.29,33.57,21.22; x=ones(size(x1(:,1),x1(:,2:5);y=x1(:,1); b,bint,r,rint,stats=regress(y,x,0.05) b =17.2597 0.0486 0.2218 0.0705 -0.2469 stats = 0.9980 626.2680 0.000
12、0 0.1011 Q=r*r=0.5057 2=Q/n-2=0.0632,2020/7/28,22,4.4 多项式回归,一元多项式回归模型,可以转化为多元线性回归推导公式(略)。可用polyfit()命令实现。辅助命令:polyval()、polyconj()、polytool()等参看MATLAB帮助。,多元二项式回归模型,命令: rstool()参看MATLAB帮助。,2020/7/28,23,4.5 非线性回归,非线性回归命令:,nlinfit()、nlparci()、nlpredci()、nlintool()等参看MATLAB帮助。,非线性回归转化为线性回归:,如: y=aebx z
13、= ln a + b x = a* + b x . y = a xb z = ln y = lnb ln x = a*+ b u y = 1/(abx) z = 1/y = a + bx . y = x/(b+ax) z = 1/y = a + b/x = a + b u y = (1+ax)/(1+bx) ?,y=cxe-dx ?, y=L/(1+ceax) ?,2020/7/28,24,4.5 非线性回归,例4.3 赛跑的成绩与赛跑距离 表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录. 距离 x(m) 100 200 400 800 1000 1500 时间 t (s)
14、9.95 19.72 43.86 102.4 133.9 212.1 试用这些数据建模分析赛跑的成绩与赛跑距离的关系,(1)散点图 用线性模型误差比较大,2020/7/28,25,4.5 非线性回归,(2) 模型 假设:t = a xb, 令 z = ln t, u = ln x , 则有: z = ln t = ln ab ln x = a* + bu (3) 利用数据估计模型的参数 可以算出:a* = 3.0341, b = 1.1453,a=ea*=0.0481 R2= 0.9987 ,P= 0 模型:y = 0.0481 * x1.1453 (4)拟合精度 拟合值:9.395 20.7
15、82 45.968 101.679 131.288 208.88 原值: 9.95 19.72 43.86 102.4 133.9 212.1 Q = 23.5746,2020/7/28,26,4.6 逐步回归,实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效选择重要变量的方法。以下只讨论线性回归的情况。 原理:若候选的自变量集合为S=x1,x2,.,xm,从中选出一个子集S1,假设包含k个自变量,由S1和因变量y构造的回归模型的误差平方和为Q,则模型的剩余平方和s2=Q/(n-l-1), n为数据样
16、本容量。所选子集S1应使s尽量小。通常模型包含的自变量越多,Q越小,但若模型中包含有对y影响很小的量,那么Q不会由于包含这些变量在内而减少,反而可能因k的增大而增大,因此可将s2最小作为衡量变量选择的一个数量标准。,2020/7/28,27,4.6 逐步回归,步骤:先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对 有影响最大的,再对原来子集中的变量进行检验,从变得不显著得变量中剔除一个影响最小的,直到不能引入和剔除为止。 注意事项:一要适当地选定引入变量的显著性水平ain和剔除变量的显著性水平aout,显然,ain越大,引入的额变量越多,aout越大,剔除的变量越少;二在最初选择变
17、量时应尽量选择相互独立性强的那些变量。 MATLAB实现:命令stepwise(x,y,inmodel,alpha) x是自变量数据(n行m列);y是因变量数据(n行1列);inmodel是矩阵x的列数的指标,给出初始模型中包括的子集,缺省时设定为全部自变量;alpha为显著性水平。,2020/7/28,28,4.4 逐步回归,例4.4 为了研究火柴销量与各因素间的回归关系,收集数据:,2020/7/28,29,4.4 逐步回归,确定一个线性模型。 MATLAB实现: x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,. 14.48,28.1
18、6;20.29,33.53,28.37,16.97,24.26;22.61,37.31,. 42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;31.19,. 45.73,52.46,27.04,7.39;30.5,50.59,45.3,23.08,3.88;29.63,. 58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.82,20.09;. 29.25,71.25,53.29,33.57,21.22; x=x1(:,2:5);y=x1(:,1); stepwise(x,y),2020/7/28,30,4.4 逐步回归,stepwise初始界面:S1为空。(红色表示未加入),2020/7/28,31,4.4 逐步回归,第一步:将最显著的x2加入S1。,2020/7/28,32,4.4 逐步回归,第二步:将x4、 x3加入S1(可以看出剩余标准差RMSE在减小),2020/7/28,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小鸡插画测试题及答案
- 激光技术工程师证书考试试题及答案的解析技巧
- 当代文化产业管理试题及答案
- 系统架构设计师考试人际交往题目及答案
- 经济师保险 试题及答案
- 数学概念测试题及答案
- 新课改地区高三政治期末考试选择题汇编专练-专题十二发展中国特色社会主义文化(下)
- 系统架构设计师多领域技术融合试题及答案
- 系统规划与管理师考试常见问题的自我答疑与技巧提升研究试题及答案
- 母猪行为控制的科学技术试题及答案
- 湖北省武汉市2025届高中毕业生四月调研考试数学试卷及答案(武汉四调)
- 2025-2030中国实验动物行业市场深度调研及市场前瞻与投资战略研究报告
- 湖南湘潭高新集团有限公司招聘考试真题2024
- 2025春季学期国开电大本科《政府经济学》一平台在线形考(形考任务1至4)试题及答案
- 2025至2030年中国台式特定电磁波谱治疗器数据监测研究报告
- 正式恋爱协议书
- 2024年多媒体应用设计师理论知识试题及答案
- 创建全国文明城市培训
- 2024-2025学年七年级数学人教版(2024)下学期期中考试模拟卷A卷(含解析)
- 2025年兰州粮油集团有限公司招聘笔试参考题库含答案解析
- GB 21258-2024燃煤发电机组单位产品能源消耗限额
评论
0/150
提交评论