回归分析的基本思想及其初步应用 课件_第1页
回归分析的基本思想及其初步应用 课件_第2页
回归分析的基本思想及其初步应用 课件_第3页
回归分析的基本思想及其初步应用 课件_第4页
回归分析的基本思想及其初步应用 课件_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.1回归分析的基本思想及其初步应用

基础知识是形成学科能力的源头。本栏目根据课标要求,精准梳理,清晰呈现主要知识及内在关系。关键处合理挖空、易错处及时提醒,多策并举,夯实基础。请以此为载体,安排学生课前预习,以便打造高效课堂!1.会用散点图分析两个变量是否存在相关关系.2.会求回归方程,掌握建立回归模型的步骤,会选择回归模型.

1.本节课的重点是了解回归模型,了解模型拟合效果的分析工具——残差分析和R2.2.本节课的难点是解释残差、理解R2的含义.1.线性回归模型(1)回归直线方程其中的计算公式还可以写成

_________(2)线性回归模型:y=bx+a+e.其中e称为随机误差.2.刻画回归效果的形式(1)残差分析①残差图:作图时纵坐标为______,横坐标可以选为____________,或__________,或____________等,这样作出的图形称为残差图.②残差分析:残差点比较_____地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度______,说明模型拟合精度越高,回归方程的预报精度越高.残差样本编号身高数据体重估计值均匀越窄(2)残差平方和公式残差平方和为刻画方式残差平方和______,模型拟合效果越好.越小(3)相关指数R2公式R2=1-.________意义R2表示______变量对于______变量变化的贡献率.刻画方式R2越______于1,表示回归的效果越好.解释预报接近1.线性回归模型是函数关系吗?提示:y=bx+a+e与函数关系不同,在回归模型中,y的值由x和随机误差e共同确定,即x只能解释部分y的变化.因此有时我们把x称为解释变量,把y称为预报变量.2.要确定回归方程,需确定的量是什么?提示:要确定回归直线方程,关键是确定和的值.3.对于回归方程=4.75x+257,当x=28时,y的估计值是_____.【解析】把x=28代入方程=4.75x+257得=4.75×28+257=390.答案:3904.若一个样本中,则相关指数R2等于_______.【解析】答案:0.951.随机误差产生的三个原因(1)由线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型是什么)所引起的误差.可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e中.(2)忽略了某些因素的影响.影响变量y的因素不只有变量x,可能还包括其他许多因素(例如,在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e中.(3)观测误差.由于测量工具等原因,导致y的观测值产生误差(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e中.2.残差分析判断模型拟合效果的方法计算残差计算出残差作残差图

如果样本点的残差较大,就要分析样本数据的采集是否有错误;另一方面,可以通过残差点分布的水平带状区域的宽窄说明模型拟合效果,反映回归方程的预报精度.带状区域的宽度越窄,说明模型的拟合精度越高,回归方程的预报精度越高.横坐标选取为样本编号或解释变量或预报变量,纵坐标为残差,作出残差图.残差分析3.利用R2进行两个模型拟合效果的比较对于给定的样本点(x1,y1),(x2,y2),…,(xn,yn),两个含有未知参数的模型(1)和(2)其中a和b都是未知参数,可以按如下的步骤来比较它们的拟合效果:①分别建立对应于两个模型的回归方程其中和分别是参数a和b的估计值.②分别计算模型(1)和模型(2)的③若则模型(1)的拟合效果比模型(2)好;如果则模型(1)的拟合效果不如模型(2).

核心要点是提升学科素养的关键。本栏目突破核心要点,讲练结合,提醒认知误区,点拨规律技巧,循序渐进,培养主动思考意识,提升自主探究能力。请根据授课情况有选择地讲解,帮助学生理解突破教材重难点!

求回归方程【技法点拨】1.对线性回归分析的认识在研究两个变量之间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,具备相关关系时再求回归方程.如果本身两个变量不具备相关关系,或者说它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的,而且用其估计和预测也是不可信的.(关键词:用散点图判断是否线性相关)2.求线性回归方程的步骤列表表示列表表示出xi,yi过程计算根据上面数据计算代入计算代入公式可以计算出的具体数值写出方程由上面计算的结果可得出结论方程【典例训练】1.某种产品的产量x(台)与单位产品成本y(元/台)之间的回归方程为=356-1.5x,这说明()(A)产量每增加一台,单位产品成本增加356元(B)产量每增加一台,单位产品成本减少1.5元(C)产量每增加一台,单位产品成本平均增加356元(D)产量每增加一台,单位产品成本平均减少1.5元2.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,因此必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据,如下表所示:x(0.01%)104180190177147134150191204121y(min)100200210185155135170205235125

(1)作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗?(2)求回归方程;(3)预测当钢水含碳量为160时,应冶炼多少分钟?【解析】1.选D.由题意,该方程在R上为单调递减,函数模型是一个递减的函数模型,产量每增加一台,单位产品成本下降1.5元.故选D.2.(1)以x轴表示含碳量,y轴表示冶炼时间,作散点图如图所示,从图中可以看出,各点散布在一条直线附近,即它们线性相关.(2)列出下表,并用科学计算器进行计算:i12345678910xi104180190177147134150191204121yi100200210185155135170205235125xiyi10400360003990032745227851809025500391554794015125设所求的回归方程为所以所求的回归方程为(3)当x=160时,1.267×160-30.51≈172(min),即冶炼时间大约为172min.【归纳】解答题1的关键点和解答题2时易忽视的问题.提示:(1)解答回归直线问题时应准确理解回归直线方程中各参数的意义.(2)求回归直线方程时一定要记牢公式,准确计算.因为回归方程所求的量大都是估计数值,所以要注意一些关键词的使用,如“估计”“约为”,这是易忽视的问题.【变式训练】某种产品的广告费用支出x万元与销售额y万元之间有如下的对应数据:(1)根据上表提供的数据,求出y关于x的回归直线方程;(2)据此估计广告费用为10万元时,所得的销售收入.x24568y2030505070【解题指南】正确利用求回归直线方程的步骤求解,注意数据计算的准确性.【解析】(1)∴回归直线方程为(2)当x=10时,预报y的值为

残差分析【技法点拨】1.残差分析在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后我们可以通过残差来判断模型拟合的效果、判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.(关键词:用残差来判断拟合效果)2.残差图的分析方法残差图的纵坐标为残差,横坐标通常可以是样本编号、解释变量或预报变量等,残差图是一种散点图.残差散点图中的残差点比较均匀地落在水平的带状区域中,并且沿水平方向散点的分布规律相同,说明残差是随机的,所选择的回归模型建模是合理的,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(关键词:残差点比较均匀地落在水平带状区域中)【典例训练】1.给出下列结论:(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)在回归分析中,可用相关指数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好(其中).(3)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好.(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.以上结论中,正确的有()个.(A)1(B)2

(C)3

(D)42.已知某商品的价格x(元)与需求量y(件)之间的关系有如下一组数据x1416182022y1210753(1)画出y关于x的散点图;(2)求出回归直线方程;(3)计算R2的值,并说明回归模型拟合程度的好坏(参考数据:【解析】1.选C.解题流程:2.解题流程:

画散点图

计算数据

回归直线回归直线方程为:

计算R2值



结论回归模型拟合效果很好.【互动探究】在本题条件不变的情况下,画出残差图.【解析】【想一想】R2与残差平方和有什么关系?提示:R2越大,残差平方和越小;反之,残差平方和越大.【变式训练】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:编号12345678910零件数x/个102030405060708090100加工时间y/分626875818995102108115122(1)建立以零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?【解析】(1)根据表中数据作出散点图,从而可以判断出用线性回归模型来拟合数据.计算得加工时间对零件数的线性回归方程为残差数据如下表:

编号12345

残差0.39-0.290.03-0.650.67

编号678910

残差-0.010.31-0.37-0.050.27(2)以零件数为横坐标,残差为纵坐标作出残差图如图所示.由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.

非线性回归分析【技法点拨】1.求非线性回归方程的步骤(1)确定变量,作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果;(5)根据相应的变换,写出非线性回归方程.2.常见的几种变形形式(1)幂函数曲线y=axb两边取对数变形为lny=lna+blnx,令y′=lny,x′=lnx,a′=lna,从而得到y′=a′+bx′.(2)指数函数曲线y=aebx两边取对数变形为lny=lna+bx,令y′=lny,a′=lna,从而得到y′=a′+bx.(3)负指数函数曲线两边取对数变形为令y′=lny,a′=lna得y′=a′+bx′.(4)对数函数曲线y=a+blnx令x′=lnx,得y=a+bx′【典例训练】1.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是()(A)y=a·xb(B)y=a+blnx(C)y=a·ebx

(D)2.在某化学实验中,测得如下表所示的6组数据,其中x/min表示化学反应进行的时间,y/mg表示未转化物质的质量.(1)设y与x之间具有函数关系y=cdx,试根据测量数据估计c和d的值;(2)估计化学反应进行到10min时未转化物质的质量.x/min123456y/mg39.832.225.420.316.213.3【解析】1.选B.由散点图知,此曲线类似对数函数型曲线,可用B项函数进行拟合.2.(1)在y=cdx的两边取自然对数,可得lny=lnc+xlnd.设lny=z,lnc=a,lnd=b,则z=a+bx,由已知数据可得下表.x/min123456y/mg39.832.225.420.316.213.3z=lny3.6843.4723.2353.0112.7852.588由公式,得所以所以线性回归方程即lnc≈3.9057,lnd≈-0.2219,所以c≈49.685,d≈0.8010.故根据测量数据估计c≈49.685,d≈0.8010.(2)由(1)知y与x之间的关系为y=49.685×0.8010x,当x=10时,y的估计值为49.685×0.801010≈5.4.所以估计化学反应进行到10min时未转化物质的质量为5.4mg.【思考】(1)解答题2最容易犯的错误是什么?(2)保留放在2题中非线性目标函数回归分析的关键是什么?提示:(1)解答题2最容易犯把非线性看成线性目标函数来解答的错误.(2)非线性目标函数回归分析的关键是采用转化、化归的思想,把非线性回归分析转化为线性回归分析来解决.【变式训练】在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y与x之间的回归方程.【解题指南】首先画出散点图,根据散点图考虑把非线性相关关系转化为线性相关关系来解决.x0.250.5124y1612521【解析】由数值表可作散点图如图,根据散点图可知y与x近似地呈反比例函数关系,设令则原数据变为:t4210.50.25y1612521由置换后的数值表作散点图如下:由散点图可以看出y与t呈近似的线性相关关系,列表如下:itiyitiyi141664162562212244144315512540.5210.25450.2510.250.06251∑7.753694.2521.3125430所以所以所以所以y与x的回归方程是

规避误区、规范解答是提高数学成绩的有效途径。本栏目通过“见式得分,踩点得分”呈现得分点,点评失分点,帮助学生形成识错、纠错、避错能力,借以养成严谨的数学思维和良好的规范答题习惯。【易错误区】回归方程理解中的误区【典例】(2011·山东高考)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程中的为9.4,据此模型预报广告费用为6万元时销售额为()广告费用x(万元)4235销售额y(万元)49263954(A)63.6万元(B)65.5万元(C)67.7万元(D)72.0万元【解题指导】【解析】选B.由表可计算因为点在回归直线上,且为9.4,所以解得故回归方程为令x=6得【阅卷人点拨】通过阅卷后分析,对解答本题的常见错误及解题启示总结如下:(注:此处的①②见解析过程)常见错误选C在解题过程中,把数据中的值,如点(4,49)代入②处的回归方程,求出值,误认为点(4,49)在回归直线上,而导致出错.再把x=6代入取其近似值,错选C.这是极易犯的错误.选A或D把其他点代入回归方程,和上面一样,犯了同样的错,或在①处把求错,而导致错选答案.解题启示(1)回归直线不一定过样本中的某一点,应该正确理解回归直线;(2)在应用回归方程时,要时刻牢记回归直线一定经过样本中心点【即时训练】已知x与y之间的一组数据:则y与x的回归直线必过()(A)点(2,2)(B)点(1.5,0)(C)点(1,2)(D)点(1.5,4)x0123y1357【解析】选D.∴样本点的中心为(1.5,4),∴线性回归方程必过点(1.5,4).1.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有()(A)b与r的符号相同(B)a与r的符号相同(C)b与r的符号相反(D)a与r的符号相反【解析】选A.当斜率b>0时,说明两个变量正相关,∴r>0;当斜率b<0时,说明两个变量负相关,∴r<0,故b与r的符号相同.2.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25,其中拟合效果最好的模型是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论