




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.2.2一元线性回归模型参数的最小二乘估计(4)1.经验回归方程:我们将
称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.
这种求经验回归方程的方法叫做最小二乘法.2.最小二乘估计:经验回归方程中的参数计算公式为:
复习引入3.残差:对于响应变量Y,通过观测得到的数据称为
值,通过经验回归方程得到的
称为
,
减去
称为残差,即
.4.残差分析:
是随机误差的估计结果,通过对
的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为
.观测预测值观测值预测值残差残差残差分析5.残差图法:在残差图中,如果残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.6.求非线性经验回归方程的步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是响应变量;(2)由经验确定非线性经验回归方程的模型;(3)通过变换,将非线性经验回归模型转化为线性经验回归模型;(4)按照公式计算经验回归方程中的参数,得到经验回归方程;(5)消去新元,得到非线性经验回归方程.编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95问题:人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图令x=ln(t-1895).通过x=ln(t-1895),将年份变量数据进行变换,得到新的成对数据(精确到0.01),如下表所示.编号12345678x0.002.833.263.563.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95根据最小二乘法,可得新的经验回归方程为①将x=ln(t-1895)代入(*)式,得到由创纪录年份预报世界纪录的经验回归方程(1)直接观察法在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色),如图(5)所示.我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.(5)下面通过残差来比较这两个经验回归方程对数据刻画的好坏.思考:对于男子短跑100m世界纪录关于纪录产生年份关系的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?在上表中,用ti表示编号为i的年份数据,用yi表示编号为i的纪录数据,则经验回归方程①和②的残差计算公式分别为两个经验回归方程的残差(精确到0.001)如下表所示.观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的拟合效果要远远好于①.编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022
②①编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反.可以通过比较残差的平方和来比较两个模型的效果.由可知Q2小于Q1.因此在残差平方和最小的标准下,非线性回归模型的拟合效果要优于一元线性回归模型的拟合效果.(2)
残差分析通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果.决定系数R2的计算公式为在R2表达式中,由于与经验回归方程无关,残差平方和
与经验回归方程有关,因此R2越大,表示残差平方和越小,即模型的拟合效果越好;
R2越小,表示残差平方和越大,即模型的拟合效果越差.(3)利用决定系数R2刻画回归效果.显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.还可以证明,在一元线性回归模型中R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.决定系数R2的计算公式为编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022由上述残差表可算出经验回归方程①和②的决定系数R2分别为由于因此经验回归方程②的刻画效果比经验回归方程①的好很多.课本120页在回归分析中,分析残差能够帮助我们解决哪些问题?解:分析残差可以帮助我们解决以下几个问题:(1)寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.(2)分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.例:为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:
(1)作出散点图,并求经验回归方程;(2)求出R2;(3)进行残差分析.x51015202530y7.258.128.959.9010.911.8例题(2)求出R2;x51015202530y7.258.128.959.9010.911.8解:列表如下:0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31解:由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系.0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31(3)进行残差分析.(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.(2)画出解释变量与响应变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型.(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.(5)得出结果后需进行线性回归分析.①残差平方和越小,模型的拟合效果越好.②决定系数R2取值越大,说明模型的拟合效果越好.建立线性回归模型的基本步骤:注意:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.归纳总结1.已知某种商品的单价x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:x1416182022y1210753求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.解:练习列残差表如下:y1210753129.77.45.12.800.3-0.4-0.10.24.62.6-0.4-2.4-4.4故回归模型的拟合效果很好.(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;课本120页2.1997-2006年我国的国内生产总值(GDP)的数据如下:年份GDP/亿元年份GDP/亿元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:画GDP与年份的散点图,如图所示,可以观察到随着年份的增加GDP也随之增加,GDP值与年份呈现近似线性关系,可以用一元线性回归模型刻画.(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;课本120页2.1997-2006年我国的国内生产总值(GDP)的数据如下:年份GDP/亿元年份GDP/亿元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:用y表示GDP的值,t表示年份,用一元线性回归模型拟合数据,用统计软件计算,得到经验回归方程为残差的计算结果见下表.年份1997199819992000200120022003200420052006残差171267752-1734-6873-11145-15145-14296-4732589223157(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;课本120页2.1997-2006年我国的国内生产总值(GDP)的数据如下:年份GDP/亿元年份GDP/亿元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:2017年的GDP预报值为359684亿元,2017年的实际的GDP为820754亿元,预测值比实际值少461070亿元.(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由.课本120页2.1997-2006年我国的国内生产总值(GDP)的数据如下:年份GDP/亿元年份GDP/亿元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:上面建立的回归方程的R2=0.9213,说明在1997-2006年内,该模型年份能够解释92.13%的GDP值变化,因此所建立的模型较好地刻画了GDP和年份的关系.但因为残差呈现一定的规律性,中间是负数,两边是正数,所以可以考虑用非线性回归模型拟合数据.(5)随着时间的发展,又收集到2007-2016年的GDP数据如下:建立年份(1997-2016)为解释变量,GDP为响应变量的经验回归方程,并预测2017年的GDP,与实际的GDP误差是多少?你能发现什么?年份GDP/亿元年份GDP/亿元2007270232.32012540367.42008319515.52013595244.42009349081.42014643974.02010413030.32015689052.12011489300.62016744127.2课本120页解:仍用y表示GDP的值,t表示年份,用一元线性回归模型拟合1997-2016年的数据,用统计软件计算,得到经验回归方程为利用上述模型,预测2017年的GDP值为704025亿元,而2017年GDP的实际值820754亿元,预测值比实际值少116729亿元通过两个模型预测2017年的GDP值,发现第2个模型预测的更准确,说明建立的模型自变量的取值范围决定了模型的适用范围,通常不能超出太多,否则会出现较大的误差.在使用经验回归方程进行预测时,需要注意下列问题:(1)经验回归方程只适用于所研究的样本的总体.例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.(2)经验回归方程一般都有时效性.例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.事实上,它是响应变量的可能取值的平均值.哪位同学建立的回归模型拟合效果最好()A.甲B.乙C.丙D.丁1.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:
甲乙丙丁R20.980.780.500.85解析:决定系数R2越大,表示回归模型的拟合效果越好.随堂检测哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高(
)A.甲B.乙C.丙D.丁
甲乙丙丁散点图残差平方和1151061241033.某工厂为研究某种产品产量x(吨)与所需某种原料y(吨)的相关性,在生产过程中收集4组对应数据(x,y)如下表所示:5.9x3467y2.534m解析:根据样本(4,3)处的残差为-0.15,4.某电脑公司有6名产品推销员,其工作年限与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程竣工验收报告建筑物隔音性能检测
- 盐田楼顶防水施工方案
- 2025年网络安全产业布局及发展预测:市场规模与技术趋势分析
- 厨房排风管施工方案
- 江苏省南京市南京师范大学附属中学2024-2025学年高一上学期期末考试数学试卷(解析版)
- 幕墙竞标方案模板范本
- 升降平台钢筋施工方案
- 巡视通道修缮施工方案
- 装修施工方案与技术措施
- 电梯井道整改施工方案
- (中职)中职生创新创业能力提升教课件完整版
- 2024至2030年中国石油沥青市场前景及投资机会研究报告
- 2024年安徽教师招聘教师招聘笔试真题及答案
- 武汉大学张俊:2024生成式人工智能大模型及其电力系统数智化应用前沿报告
- (高清版)AQ 1056-2008 煤矿通风能力核定标准
- 护理美学-第十一章 护理审美评价
- 河道修防工(中级)技能鉴定理论考试题库(含答案)
- 《内陆干旱区季节性河流生态流量(水量)确定技术导则》
- 生物专业英语翻译和单词(专业版)
- 压力性损伤全程链式管理
- 特色高中建设实施方案
评论
0/150
提交评论