8.2.2一元线性回归模型参数的最小二乘估计(第二课时)课件高二下学期数学人教A版选择性_第1页
8.2.2一元线性回归模型参数的最小二乘估计(第二课时)课件高二下学期数学人教A版选择性_第2页
8.2.2一元线性回归模型参数的最小二乘估计(第二课时)课件高二下学期数学人教A版选择性_第3页
8.2.2一元线性回归模型参数的最小二乘估计(第二课时)课件高二下学期数学人教A版选择性_第4页
8.2.2一元线性回归模型参数的最小二乘估计(第二课时)课件高二下学期数学人教A版选择性_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

8.2.2一元线性回归模型参数的最小二乘估计

(第二课时)非线性关系的回归模型一.求一元线性回归方程的步骤:

(1)以成对样本数据描出散点图,通过散点图观察成对样本数据是否线性相关

(2)判断两个变量之间的线性相关关系

(4)残差分析:残差表、残差图对回归模型的拟合效果进行评估。复习引入其中:问题人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.951.画散点图:

以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到右图.在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.由散点图可知,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.根据最小二乘法,由表中数据可得经验回归方程为2.求经验回归方程:将经验回归方程叠加到散点图,如图(3)所示.(3)思考2:你能对模型进行修改,以使其更好地反映散点的分布特征吗?散点更趋向于落在中间下凸且递减的某条曲线附近.已学的函数_________________的图象具有类似的形状特征.思考1:仔细观察图中散点与直线的位置关系,你能看出其中存在的问题吗?y=﹣lnx、y=﹣lgx由图形可知,第一点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.为了利用一元线性回归模型估计参数c1和c2,我们引进一个中间变量x,令x=ln(t-1895).通过x=ln(t-1895),将年份变量数据进行变换,得到新的成对数据(精确到0.01),如下表所示.思考3:如何利用成对数据估计参数c1和c2?注意到短跑的第1个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=c1+c2ln(t−1895)的周围,其中c1和c2为未知参数,且c2<0.非线性经验回归函数作出(xi,yi)的散点图,可见x与y呈现出很强的负线性相关特征.精确到0.01思考3:如何利用成对数据估计参数c1和c2?该经验回归方程对于表中的成对数据xi,yi具有非常好的拟合精度.x和Y之间的线性相关程度比t和Y的线性相关程度强得多.由图可看出,散点图中各散点都非常靠近②的图象,非线性经验回归方程②对于原始数据的拟合效果远远好于线性经验回归方程①(2)残差分析:

残差平方和越小,模型拟合效果越好.用ti表示编号为i的年份数据,用yi表示编号为i的纪录数据,则经验回归方程①和②的残差计算公式分别为两个经验回归方程的残差(精确到0.001)如下表所示.编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的拟合效果要远远好于①.思考4:你能否通过残差分析来比较这两个经验回归方程对数据刻画的好坏?方程②各项残差的绝对值远远小于方程①,即方程②的拟合效果要远远好于①.一般情况下,直接一一比较两个模型的各项残差绝对值比较困难,因为对于某些散点,模型①的残差的绝对值比模型②的小,而另一些散点的情况则相反.方案二:通过比较残差的平方和来比较两个模型的效果.在残差平方和最小的标准下,非线性回归模型的拟合效果要优于一元线性回归模型的拟合效果.方案一:通过比较残差的绝对值之和来比较两个模型的效果.方案二:通过比较残差的平方和来比较两个模型的效果.经验回归方程②的拟合效果要优于经验回归方程①的拟合效果.方案三:通过比较决定系数R2来比较两个模型的效果.残差平方和总偏差平方和(与回归方程无关)(与回归方程有关)R2越大,残差平方和越小,模型拟合效果越好.经验回归方程②刻画效果比经验回归方程①的好很多.(3)用决定系数R2来比较这两个模型的拟合效果通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果.决定系数R2的计算公式为残差平方和偏差平方和(与经验回归方程有关)(与经验回归方程无关)R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型的拟合效果越差.显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.①R2越大,R2越接近1,残差平方和越小,模型拟合效果越好.②样本相关系数r刻画线性相关关系的正负和强弱;

决定系数R2刻画模型拟合效果的好坏.③还可以证明,在含有1个解释变量一元线性回归模型中R2=r2,

即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.

例2为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:

(1)作出散点图,并求经验回归方程;(2)求出R2;(3)进行残差分析.x51015202530y7.258.128.959.9010.911.8(2)求出R2;(3)进行残差分析.x51015202530y7.258.128.959.9010.911.8解:(2)列表如下:0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31解:(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系.0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31练习:已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系如表所示:x1416182022y1210753(1)求y关于x的经验回归方程;(2)借助残差平方和与R2说明回归模型拟合效果如何.变式已知某种商品的单价x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:x1416182022y1210753求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.解:列残差表如下:y1210753129.77.45.12.800.3-0.4-0.10.24.62.6-0.4-2.4-4.4故回归模型的拟合效果很好.考点非线性经验回归问题

例3:近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),绘制了如图所示的散点图.(1)根据散点图判断在推广期内,y=a+bx与y=c·dx(c,d为大于0的常数)哪一个适宜作为每天使用扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由)【解】根据散点图判断,y=c·dx适宜作为每天使用扫码支付的人次y关于活动推出天数x的回归方程类型.(2)根据(1)的判断结果求y关于x的经验回归方程,并预测活动推出第8天使用扫码支付的人次.参考数据:其中v=lgy,解决非线性回归问题的方法及步骤

例4

某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi(i=1,2,‧‧‧,10)的数据,得到散点图如图所示.(1)利用散点图判断y=a+bx和y=c‧xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);(2)对数据作出如下处理,令ui=lnxi,vi=lnyi,得到相关统计量的值如下表.根据第(1)问的判断结果及表中数据,求y关于x的回归方程.附:对于一组数据(u1,v1),(u2,v2),‧‧‧,(un,vn),其回归直线的斜率和截距的最小二乘估计分别为解:(1)由散点图可知,选择回归类型y=c‧xd更合适.(2)对y=c‧xd两边取对数,的lny=lnc+dlnx,变式某地今年上半年患某种传染病的人数y(人)与月份x(月)之间满足函数关系,模型为y=aebx,确定这个函数解析式.月份x/月123456人数y/人526168747883解:x123456u=lny3.95124.11094.21954.30414.35674.4188[2020全国卷I-5]某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)得到下面的散点图:由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()练习2.2020年初,新型冠状病毒(COVID-19)引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如下表所示:由表格可得y关于x的二次回归方程为y=6x2+a,则此回归模型第4周的残差(实际值与预报值之差)为(

)A.0 B.1 C.4 D.5周数(x)12345治愈人数(y)2173693142在使用经验回归方程进行预测时,需要注意下列问题:(1)经验回归方程只适用于所研究的样本的总体.例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.(2)经验回归方程一般都有时效性.例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.事实上,它是响应变量的可能取值的平均值.练习1.在回归分析中,分析残差能够帮助我们解决哪些问题解:分析残差可以帮助我们解决以下几个问题:(1)寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.(2)分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;2.1997-2006年我国的国内生产总值(GDP)的数据如下:年份GDP/亿元年份GDP/亿元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:(1)画GDP与年份的散点图,如图所示,可以观察到随着年份的增加GDP也随之增加,GDP值与年份呈现近似线性关系,可以用一元线性回归模型刻画.(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;2.1997-2006年我国的国内生产总值(GDP)的数据如下:解:(2)用y表示GDP的值,t表示年份,用一元线性回归模型拟合数据,用统计软件计算,得到经验回归方程为残差的计算结果见下表.年份1997199819992000200120022003200420052006残差171267752-1734-6873-11145-15145-14296-4732589223157(3)2017年的GDP预报值为359684亿元,2017年的实际的GDP为820754亿元,预测值比实际值少461070亿元.(4)你认为这个模型能较好地刻画GDP和年份的关系吗请说明理由.2.1997-2006年我国的国内生产总值(GDP)的数据如下:解:(4)上面建立的回归方程的R2=0.9213,说明在1997-2006年内,该模型年份能够解释92.13%的GDP值变化,因此所建立的模型较好地刻画了GDP和年份的关系.但因为残差呈现一定的规律性,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论