【课件】8.2.2一元线性回归模型参数的最小二乘估计(2)课件-2021-2022学年高二下学期数学人教A版(2019)选择性必修第三册_第1页
【课件】8.2.2一元线性回归模型参数的最小二乘估计(2)课件-2021-2022学年高二下学期数学人教A版(2019)选择性必修第三册_第2页
【课件】8.2.2一元线性回归模型参数的最小二乘估计(2)课件-2021-2022学年高二下学期数学人教A版(2019)选择性必修第三册_第3页
【课件】8.2.2一元线性回归模型参数的最小二乘估计(2)课件-2021-2022学年高二下学期数学人教A版(2019)选择性必修第三册_第4页
【课件】8.2.2一元线性回归模型参数的最小二乘估计(2)课件-2021-2022学年高二下学期数学人教A版(2019)选择性必修第三册_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

8.2.2一元线性回归模型参数的最小二乘估计(2)复习:1.经验回归方程:我们将

称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法.2.最小二乘估计:经验回归方程中的参数计算公式为:

例1

经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(如下表),试根据这些数据建立树高关于胸径的经验回归方程.编号123456789101112胸径/cm18.120.122.224.426.028.329.632.433.735.738.340.2树高/cm18.819.221.021.022.122.122.422.623.024.323.924.7解:以胸径为横坐标、树高为纵坐标作散点图如图示.

散点大致分布在一条从左下角到右上角的直线附近,表明两个变量正线性相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.用d表示胸径,h表示树高,根据最小二乘法,计算可得经验回归方程为例1

经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(如下表),试根据这些数据建立树高关于胸径的经验回归方程.编号123456789101112胸径/cm18.120.122.224.426.028.329.632.433.735.738.340.2树高/cm18.819.221.021.022.122.122.422.623.024.323.924.7相应的经验回归直线如图(1)所示.(1)编号胸径/cm树高观测值/m树高预测值/m残差/m118.118.819.4-0.6220.119.219.9-0.7322.221.020.40.6424.421.020.90.1526.022.121.30.8628.322.121.90.2729.622.422.20.2832.422.622.9-0.3933.723.023.2-0.21035.724.323.70.61138.323.924.4-0.51240.224.724.9-0.2计算残差:以胸径为横坐标,残差为纵坐标,作残差图,如图(2)所示.作残差图:观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.00.51.0-0.5-1.0152025303540残差/m胸径/cm••••••••••••••45(2)问题人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.951.画散点图:由散点图可知,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.根据最小二乘法,由表中数据可得经验回归方程为2.求经验回归方程:将经验回归方程叠加到散点图,如图(3)所示.由图形可知,第一点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.(3)3.修改模型:对模型进行修改,以使其更好地反映散点的分布特征.仔细观察图形,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征.注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线的周围.其中c1和c2为未知参数,且c2<0.用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1,c2是待定参数.现在问题转化为如何利用成对数据估计参数c1和c2.为了利用一元线性回归模型估计参数c1和c2,我们引进一个中间变量x,令x=ln(t-1895).通过x=ln(t-1895),将年份变量数据进行变换,得到新的成对数据(精确到0.01),如下表所示.编号12345678x0.002.833.263.563.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95作出上表的散点图:由散点图可知,现在散点的分布呈现出很强的线性相关特征,故可以一元线性回归模型建立经验回归方程.根据最小二乘法,可得新的经验回归方程为再在散点图中画出(*)式所对应的经验回归直线,如图(4)所示.(4)图(4)表明,经验回归方程(*)对于改进后的成对数据具有非常好的拟合精度.将图(4)与图(3)进行对比,可以发现x和Y之间的线性相关程度比原始样本数据的线性相关程度强得多.将x=ln(t-1895)代入(*)式,得到由创纪录年份预报世界纪录的经验回归方程在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色),如图(5)所示.我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.(5)下面通过残差来比较这两个经验回归方程对数据刻画的好坏.用ti表示编号为i的年份数据,用yi表示编号为i的纪录数据,则经验回归方程①和②的残差计算公式分别为两个经验回归方程的残差(精确到0.001)如下表所示.观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的拟合效果要远远好于①.编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反.可以通过比较残差的平方和来比较两个模型的效果.由可知Q2小于Q1.因此在残差平方和最小的标准下,非线性回归模型的拟合效果要优于一元线性回归模型的拟合效果.决定系数R2:通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果.决定系数R2的计算公式为在R2表达式中,由于与经验回归方程无关,残差平方和与经验回归方程有关,因此R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.决定系数R2:决定系数是总偏差平方和中回归平方和所占的比重.显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.还可以证明,在一元线性回归模型中R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.回归平方和总偏差平方和编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022由上述残差表可算出经验回归方程①和②的决定系数R2分别为由于因此经验回归方程②的刻画效果比经验回归方程①的好很多.

例2为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:

(1)作出散点图,并求经验回归方程;(2)求出R2;(3)进行残差分析.x51015202530y7.258.128.959.9010.911.8(2)求出R2;(3)进行残差分析.x51015202530y7.258.128.959.9010.911.8解:(2)列表如下:0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31解:(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系.0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31变式已知某种商品的单价x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:x1416182022y1210753求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.解:列残差表如下:y1210753129.77.45.12.800.3-0.4-0.10.24.62.6-0.4-2.4-4.4故回归模型的拟合效果很好.

例3某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi(i=1,2,‧‧‧,10)的数据,得到散点图如图所示.(1)利用散点图判断y=a+bx和y=c‧xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);(2)对数据作出如下处理,令ui=lnxi,vi=lnyi,得到相关统计量的值如下表.根据第(1)问的判断结果及表中数据,求y关于x的回归方程.附:对于一组数据(u1,v1),(u2,v2),‧‧‧,(un,vn),其回归直线的斜率和截距的最小二乘估计分别为解:(1)由散点图可知,选择回归类型y=c‧xd更合适.(2)对y=c‧xd两边取对数,的lny=lnc+dlnx,变式某地今年上半年患某种传染病的人数y(人)与月份x(月)之间满足函数关系,模型为y=aebx,确定这个函数解析式.月份x/月123456人数y/人526168747883解:x123456u=lny3.95124.11094.21954.30414.35674.4188在使用经验回归方程进行预测时,需要注意下列问题:(1)经验回归方程只适用于所研究的样本的总体.例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.(2)经验回归方程一般都有时效性.例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.事实上,它是响应变量的可能取值的平均值.课本120页1.在回归分析中,分析残差能够帮助我们解决哪些问题?解:分析残差可以帮助我们解决以下几个问题:(1)寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.(2)分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由.课本120页2.1997-2006年我国的国内生产总值(GDP)的数据如下:年份GDP/亿元年份GDP/亿元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5(5)随着时间的发展,又收集到2007-2016年的GDP数据如下:建立年份(1997-2016)为解释变量,GDP为响应变量的经验回归方程,并预测2017年的GDP,与实际的GDP误差是多少?你能发现什么?年份GDP/亿元年份GDP/亿元2007270232.32012540367.42008319515.52013595244.42009349081.42014643974.02010413030.32015689052.12011489300.62016744127.2(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;课本120页2.1997-2006年我国的国内生产总值(GDP)的数据如下:年份GDP/亿元年份GDP/亿元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:(1)画GDP与年份的散点图,如图所示,可以观察到随着年份的增加GDP也随之增加,GDP值与年份呈现近似线性关系,可以用一元线性回归模型刻画.(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;课本120页2.1997-2006年我国的国内生产总值(GDP)的数据如下:解:(2)用y表示GDP的值,t表示年份,用一元线性回归模型拟合数据,用统计软件计算,得到经验回归方程为残差的计算结果见下表.年份1997199819992000200120022003200420052006残差171267752-1734-6873-11145-15145-14296-4732589223157(3)2017年的GDP预报值为359684亿元,2017年的实际的GDP为820754亿元,预测值比实际值少461070亿元.(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由.课本120页2.1997-2006年我国的国内生产总值(GDP)的数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论