版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.2.2一元线性回归模型参数的最小二乘估计(第2课时)教学设计课时教学内容本节的主要内容是一元线性回归模型,它是线性回归分析的核心内容,也是后续研究两变量间的相关性有关问题的基础.通过散点图直观探究分析得出的直线拟合方式不同,拟合的效果就不同,它们与实际观测值均有一定的偏差.在经历用不同估算方法描述两个变量线性相关关系的过程中,解决用数学方法刻画从整体上看各观测点到拟合直线的距离最小的问题,让学生在此基础上了解更为科学的数据处理方式——最小二乘法,有助于他们更好地理解核心概念“经验回归直线”,并最终体现回归方法的应用价值.课时教学目标1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.2.了解非线性回归模型.3.会通过分析残差和利用R2判断回归模型的拟合效果.教学重点、难点重点:一元线性回归模型的基本思想,经验回归方程,最小二乘法.难点:求最小二乘估计,残差分析.教学过程设计环节一创设情境,引入课题例经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高,在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表8.23),试根据这些数据建立树高关于胸径的经验回归方程.表8.23编号123456胸径/cm18.120.122.224.426.028.3树高/m18.819.221.021.022.122.1编号789101112胸径/cm29.632.433.735.738.340.2树高/m22.422.623.024.323.924.7分析:因为要由胸径预测树高,所以要以成对样本数据的胸径为横坐标、树高为纵坐标描出散点,进而得到散点图,再根据散点图推断树高与胸径是否线性相关.如果是,再利用公式(2)计算出,即可.解:以胸径为横坐标、树高为纵坐标作散点图,得到图8.29.在图8.29中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.用d表示胸径,表示树高,根据最小二乘法,计算可得经验回归方程为,相应的经验回归直线如图8.210所示,根据经验回归方程,由表8.23中胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如表8.24所示表8.24编号胸径/cm树高观测值/m树高预测值/m残差/m118.118.819.350.6220.119.219.850.7322.221.020.370.6424.421.020.920.1526.022.121.320.8628.322.121.900.2729.622.422.220.2832.422.622.920.3933.723.023.240.21035.724.323.740.61138.323.924.390.51240.224.724.860.2以胸径为横坐标,残差为纵坐标,作残差图,得到图8.211.观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.【师生互动】教师让学生总结建立线性回归模型的一般步骤.建立线性回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.(2)画出解释变量与响应变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型.(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.(5)得出结果后需进行线性回归分析.①残差平方和越小,模型的拟合效果越好.②决定系数R2取值越大,说明模型的拟合效果越好.需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.环节二观察分析,感知概念问题人们常将男子短跑100m的高水平运动员称为“百米飞人”.表8.25给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据,试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.表8.25编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到图8.212.【师生活动】师:以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图如下图所示.由散点图可以看出,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.现在用丫表示男子短跑100m的世界纪录,f表示纪录产生的年份,你能利用一元线性回归模型求经验回归方程吗?在图8.212中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为.①将经验回归直线叠加到散点图,得到图8.213师:在散点图中画出经验回归直线,你能看出其中存在的问题吗?生:得到下图:环节三抽象概括,形成概念观察:从图8.213中可以看到,经验回归方程①较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?以经验回归直线为参照,可以发现经验回归方程的不足之处,以及散点的更为精细的分布特征,例如,第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方,这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?仔细观察图8.212,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数的图象具有类似的形状特征.注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线的周围,其中,为未知的参数,且.【设计意图】目的是使学生明白,不是所有的两个变量的关系都适合用一元线性回归模型刻画.师:这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.师:你能对模型进行修改,以使其更好地反映散点的分布特征吗?生:仔细观察散点图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数的图象具有类似的形状特征.【设计意图】提醒学生需熟悉常见非线性函数模型的特点.用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中,是待定参数.现在问题转化为如何利用成对数据估计参数和.为了利用一元线性回归模型估计参数和,我们引进一个中间变量x,令.通过,将年份变量数据进行变换,得到新的成对数据(精确到0.01),如表8.26所示.表8.26编号12345678x0.002.833.263.563.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95如果表8.26对应的散点图呈现出很强的线性相关特征,我们就可以借助一元线性回归模型和新的成对数据,对参数和作出估计,进而可以得到Y关于t的非线性经验回归方程.在直角坐标系中画出表8.26中成对数据的散点图,如图8.214所示,散点的分布呈现出很强的线性相关特征.因此,用一元线性回归模型拟合表8.26中的成对数据,得到经验回归方程,(*)再在图8.214中画出(*)式所对应的经验回归直线,得到图8.215.(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).图8.215表明,经验回归方程(*)对于表8.26中的成对数据具有非常好的拟合精度.将图8.215习图8.213进行对比,可以发现和之间的线性相关程度比原始样本数据的线性相关程度强得多.将代入式,得到由创纪录年份预报世界纪录的经验回归方程 ②在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色),表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.【师生活动】师:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个经验回归方程①②,你能判断哪个经验回归方程拟合的精度更好吗?生:散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.【设计意图】分析两个模型的拟合效果,由比较不同回归模型拟合效果的需要,引出评价模型好坏的指标.环节四辨析理解深化概念下面通过残差来比较这两个经验回归方程对数据刻画的好坏.在表8.25中,用表示编号为的年份数据,用表示编号为的纪录数据,则经验回归方程①和②的残差计算公式分别为(2).残差分析:残差平方和越小,模型拟合效果越好.两个经验回归方程的残差(精确到0.001)如表8.27所示.观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的合效果要远远好于①.表8.25编号12345678t189619121921193019361956196019680.5910.2840.3010.2180.1960.1110.0920.2050.0010.0070.0120.0150.0180.0520.0210.022在一般情说下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反.可以通过比较残差的平方和来比较两个模型的效果.由 ,.可知小于.因此在残差平方和最小的标准下,非线性回归模型的拟合效果要优于一元线性回归模型的拟合效果.(3).利用决定系数刻画回归效果.也可以用决定系数来比较两个模型的拟合效果,的计算公式为在表达式中,与经验回归方程无关,残差平方和与经验回归方程有关.因此越大,表示残差平方和越小,即模型的拟合效果越好;越小,表示残差平方和越大,即模型的拟合效果越差.由表8.27容易算出经验回归方程①和②的分别约为0.7325和0.9983,因此经验回归方程②的刻画效果比经验回归方程①的好很多.用新的观测数据来检验模型的拟合效果另外,我们还可以用新的观测数据来检验模型的拟合效果.事实上,我们还有1968年之后的男子短跑100m世界记录数据,如表8.28所示.表8.28编号9101112131415年份1983198819911991199419961999记录/s9.939.929.909.869.859.849.79编号161718192021年份200220052007200820081009记录/s9.789.779.749.729.699.58在散点图8.212中,绘制表8.28中的散点(绿色),再添加经验回归方程①所对应的经验回归直线(红色),以及经验回归方程②所对应的经验回归曲线(蓝色),得到图8.217显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①.环节五概念应用,巩固内化思考:在上述问题情境中,男子短跑100m世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗?在使用经验回归方程进行预测时,需要注意下列问题:(1)经验回归方程只适用于所研究的样本的总体.例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.(2)经验回归方程一般都有时效性.例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.事实上,它是响应变量的可能取值的平均值.师生互动:学生总结建立非线性回归模型的基本步骤.教师及时补充完善.建立非线性经验回归模型的基本步骤:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换,将非线性经验回归模型转化为线性经验回归模型;4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常.判断模型的拟合效果的依据如下:①残差平方和越小,模型的拟合效果越好.②决定系数斤取值越大,说明模型的拟合效果越好.需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.【设计意图】探索非线性回归分析问题的求解方法,培养学生的数学应用意识.环节六归纳总结,反思提升本节课学习的概念有哪些?(1)非线性回归模型.(2)决定系数.2.比较两个模型拟合效果的方法:(1)残差法,残差越大,拟合效果越差;残差越小,拟合效果越小.(2)R2法,R2越接近1,拟合效果越好,R2越接近0,拟合效果越差.3.对于线性回归模型与非线性回归模型,当数据的散点图分布在直线带状区域内,则选用线性回归模型刻画;当数据的散点分布在曲线带状区域内,要先对数据进行适当变换,再利用线性回归模型进行拟合.4.在解决问题时,用到了哪些数学思想?转化与化归思想.【设计意图】通过总结,让学生进一步巩固本节所学内容,提高概括能力。环节七 目标检测,作业布置完成教材:第121页习题8.2第4题.【设计意图】通过练习巩固本节所学知识,通过学生解决问题,发展学生的数学运算、逻辑推理、直观想象、数学建模的核心素养。练习(第120页)1.在回归分析中,分析残差能够帮助我们解决哪些问题?1.【解析】分析残差可以帮助我们解决以下几个问题:(1)寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.(2)分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.2.19972006年我国的国内生产总值(GDP)的数据如下:年份GDP/亿元年份GDP/亿元199779715.02002121717.4199885195.52003.137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由(5)随着时间的发展,又收集到2007—2016年的GDP数据如下:年份GDP/亿元年份GDP/亿元2007270232.32012540367.42008319515.52013595244.42009349081.42014643974.02010413030.32015689052.12011489300.62016744127.2建立年份(19972016)为解释变量,GDP为响应变量的经验回归方程,并预测2017年的GDP,与实际的GDP误差是多少?你能发现什么?2.【解析】(1)画GDP与年份的散点图,如图所示,可以观察到随着年份的增加GDP也随之增加,GDP值与年份呈现近似线性关系,可以用一元线性回归模型刻画.(2)用表示GDP的值,表示年份,用一元线性回归模型拟合数据,用统计软件计算,得到经验回归方程为,残差的计算结果见下表.年份19971998199920002001残差1712677521734687311145年份20022003200420052006残差15145142964732589223157(3)2017年的GDP预报值为359684亿元,2017年的实际的GDP为820754亿元,预测值比实际值少461070亿元.(4)上面建立的回归方程的,说明在19972006年内,该模型年份能够解释92.13%的GDP值变化,因此所建立的模型较好地刻画了GDP和年份的关系.但因为残差呈现一定的规律性,中间是负数,两边是正数,所以可以考虑用非线性回归模型拟合数据.(5)仍用表示GDP的值,表示年份,用一元线性回归模型拟合19972016年的数据,用统计软件计算,得到经验回归方程为.利用上述模型,预测2017年的GDP值为704025亿元,而2017年GDP的实际值820754亿元,预测值比实际值少116729亿元.通过两个模型预测2017年的GDP值,发现第2个模型预测的更准确,说明建立的模型自变量的取值范围决定了模型的适用范围,通常不能超出太多,否则会出现较大的误差.习题8.2(第120页)1.如果散点图中所有的散点都落在一条斜率为非0的直线上,请回答下列问题:(1)解释变量和响应变量的关系是什么?(2)是多少?1.【解析】(1)解释变量和响应变量是线性函数关系.(2).2.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如表所示.零件数/个102030405060708090100加工时间/min626875818995102108115122(1)画出散点图;(2)建立加工时间关于零件数的一元线性回归模型;(3)关于加工零件的个数与加工时间,你能得出什么结论?2.(1)散点图如图所示.(2)用表示零件加工时间,表示零件数.利用统计软件计算,得到经验回归方程为.(3)零件数每增加一个,加工时间平均增加.3.根据8.1.2节例2中某城市居民年收入与A商品销售额的数据:(1)建立A商品销售额关于居民年收入的一元线性回归模型;(2)如果这座城市居民的年收入达到40亿元,估计A商品的销售额是多少.3.(1)先画A商品销售额与居民年收入的散点图,如图所示.用表示A商品销售额,x表示居民年收入,利用统计软件计算,得到经验回归方程为.(2)如果这座城市居民年收入达到40亿元,估计A商品的销售额约为万元.4.人口问题是关乎国计民生的大问题.下表是1949—2016年我国的人口总数(摘自中国统计年鉴—2017)年份总人口/万人年份总人口/万人年份总人口/万人194954167198210165420001267431950551961983103008200112762719515630019841043572002128453195561465198510585120031292271960662071986107507200412998819657253819871093002005130756197082992198811102620061314481971852291989112704200713212919728717719901143332008132802197389211199111582320091334501974908591992117171201013409119759242019931185172011134735197693717199411985020121354041977949741995121121201313607219789625919961223892014136782197997542199712362620151374621980987051998124761201613827119811000721999125786(1)画出散点图;(2)建立总人口数关于年份的一元线性回归模型;(3)直接用上面建立的回归模型预测2020年的我国人口总数,得到的结果合理吗?为什么?4.(1)画人口总数与年份的散点图,如图所示.(2)用表示人口总数,表示年份.利用统计软件计算,得到经验回归方程.(3)利用经验回归方程得到2020年我国人口总数的预测值为149850万人.得到的这个预测结果不合理.将拟合直线画在散点图上,可以看到,2000年以后,我国人口总数的增长速度逐渐平稳且呈下降趋势,因此运用上述经验回归模型预测2020年我国的人口总数会出现高估.也可以通过观察残差图,看到残差具有中间为正,两边为负的特点.可以考虑用其他统计模型拟合数据.5.在某地区的一段时间内观测到的不小于某震级x的地震数N的数据如下表:震级x3.03.23.43.63.84.04.24.44.64.85.0地震数N28381203801479510695764155023842269819191356973震级x5.25.45.65.86.06.26.46.66.87.0地震数N74660443527420614898574125试建立经验回归方程表示二者之间的关系,该模型对预测地震有帮助吗?5.先画地震数与震级的散点图,如图(1)所示.从散点图可以看出,震级与不小于该震级的地震数之间不线性相关.从图中可以看出,随着的增加,所考察的地震数近似地以指数形式衰减.作变换,得到的数据见下表.震级x3.03.23.43.63.84.0 4.24.24.44.64.85.0y4.4534.3094.1704.0293.8833.7413.5853.4313.2833.1322.988震级x5.25.45.65.86.06.26.46.66.87.0—y2.8732.7812.6382.4382.3142.1701.9911.7561.6131.398一和的散点图如图(2)所示.从这个散点图中可以看出和之间有很强的线性相关性,因此可以用一元线性回归模型拟合它们之间的关系.利用统计软件计算,可得模型参数的最小二乘估计,,从而经验回归方程为.其决定系数,说明可以解释的99.73%的变化.因此可以用经验回归方程描述和之间的关系.该模型不能直接用于预报地震,因为它不能预报何时发生地震,震级是多少.6.生活中有许多变量之间的关系是值得我们去研究的.例如,数学成绩、物理成绩和化学成绩两两之间是相关的吗?哪两个学科成绩之间相关性更大,你能解释其中的原因吗?语文成绩对数学成绩有影响吗?等等,请用你们班的某次考试成绩,研究它们之间的关系如果它们之间有关系,请建立统计模型进行分析.阅读与思考回归与相关回归分析法和相关分析法是统计学中的两种重要方法,前者用于由一个变量的变化去推测另一个变量的变化,后者研究随机变量间的相关关系,它们是由英国科学家高尔顿创立的.高尔顿的科研兴趣十分广泛,在地理学、气象学、统计学、心理学、人类学等众多领域都有建树他在遗传学的研究中发现了一个令人困惑的问题,通常,高个子的人会和高个子的人结婚,矮个子的人会和矮个子的人结婚,而人类的遗传是把上一代的优势性状传递给下一代这样,在人群中,高个子、矮个子的比例都应逐渐增多,而中等个子的比例应逐渐下降.但事实并非如此,为什么呢?这个问题一直萦绕在他的心
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年规范员工聘任协议范本版B版
- 2024年螺杆机系列化产品批量采购合同范本3篇
- 2024年贵阳八中校园小卖部租赁经营合同
- 2024年高品质纱窗买卖协议版B版
- 2024年绘画项目承接协议
- 2024年空运合作合同书模板版B版
- 2024年黄金抵押借款合同范本(简化版)
- 2024年绿色节能轻钢房建筑安装工程合同3篇
- 2024年财产分割协议书:离异双方权益保障
- 2024年精装修门窗供货与安装合同
- 食品质量安全法律法规培训
- 医疗仪器安装与调试方案
- 陕西省陕西师大附中2025届高一物理第一学期期末统考模拟试题含解析
- 人教版2024年小学二年级上学期语文期末考试往年真题
- 2024年保安员证考试题库及答案(共130题)
- 期末综合素养评价 (三)(试题)-2024-2025学年一年级上册数学
- 肠易激综合征护理查房
- 2023-2024学年衢州市八年级语文上学期期末试卷(附答案解析)
- 《税费计算与申报》课程标准(含课程思政)
- 开源软件组件漏洞检测与自动修复技术研究综述
- 防范工贸行业典型事故三十条措施解读
评论
0/150
提交评论