数学教案:回归分析的基本思想及其初步应用第二课时_第1页
数学教案:回归分析的基本思想及其初步应用第二课时_第2页
数学教案:回归分析的基本思想及其初步应用第二课时_第3页
数学教案:回归分析的基本思想及其初步应用第二课时_第4页
数学教案:回归分析的基本思想及其初步应用第二课时_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学必求其心得,业必贵于专精学必求其心得,业必贵于专精学必求其心得,业必贵于专精第二课时教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路--进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.重点难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.eq\o(\s\up7(),\s\do5(教学过程))eq\b\lc\\rc\(\a\vs4\al\co1(引入新课))(幻灯片)编号12345678身高/cm165165157170175165155170体重/kg4857505464614359上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x只能解释部分y的变化.同学们考虑一下,随机变量e的均值是多少?方差又是多少?活动设计:学生思考回答问题.学情预测:学生回答E(e)=0,D(e)=σ2〉0.教师提问:能否通过D(e)来刻画线性回归模型的拟合程度?学情预测:随机误差e的方差越小,通过回归直线预报真实值y的精度越高.随机误差是引起预报值与真实值y之间的误差的原因之一,其大小取决于随机误差的方差.设计意图:说明研究随机误差e的必要性,通过研究随机误差e可以分析预报值的可信度.提出问题:既然可以用随机变量e的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢?学生活动:学生独立思考,小组合作交流讨论.活动结果:可以采用抽样统计的思想,通过随机变量e的样本来估计σ2的大小.设计目的:复习抽样统计思想,以便通过随机变量e的样本来估计总体.eq\b\lc\\rc\(\a\vs4\al\co1(探究新知))提出问题:既然e表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e的样本来计算σ2呢?学生活动:分组合作讨论交流.学情预测:由函数模型eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))和回归模型y=bx+a+e可知e=y-eq\o(y,\s\up6(^)),这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的eq\o(b,\s\up6(^))和eq\o(a,\s\up6(^))为斜率和截距的估计值,它们与真实值a和b之间存在误差,因此eq\o(y,\s\up6(^))是估计值,所以eq\o(e,\s\up6(^))=y-eq\o(y,\s\up6(^))也是一个估计值.由上可知,对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…n,称其估计值eq\o(e,\s\up6(^))i=yi-eq\o(y,\s\up6(^))i为相应于点(xi,yi)的残差.将所有残差的平方加起来,即eq\i\su(i=1,n,e)eq\o(,\s\up6(^))eq\o\al(2,i),这个和称作残差平方和.类比样本方差估计总体方差的思想,可以用eq\o(σ,\s\up6(^))2=eq\f(1,n-2)eq\i\su(i=1,n,e)eq\o(,\s\up6(^))eq\o\al(2,i)=eq\f(1,n-2)eq\i\su(i=1,n,)(yi-eq\o(y,\s\up6(^))i)2(n〉2)作为σ2的估计量,通常,eq\o(σ,\s\up6(^))2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.设计目的:通过问题诱思,引入残差概念.eq\b\lc\\rc\(\a\vs4\al\co1(理解新知))提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据.学生活动:独立完成.活动结果:编号12345678身高(cm)165165157170175165155170体重(kg)4857505464614359残差eq\o(e,\s\up6(^))-6。3732。6272。419-4。6181.1376.627-2.8830.382提出问题:根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做出散点图(这样的散点图称作残差图).学生活动:分组合作,共同完成.活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论.活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散.提出问题:如何从残差图来判断模型的拟合程度?学生活动:独立思考也可相互讨论.活动结果:因为eq\o(σ,\s\up6(^))2越小,预报精度越高,即模型的拟合程度越高,而eq\o(σ,\s\up6(^))2越小,eq\o(e,\s\up6(^))的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R2来刻画回归的效果,其计算公式是:R2=1-eq\f(\i\su(i=1,n,)(yi-\o(y,\s\up6(^))i)2,\i\su(i=1,n,)(yi-\x\to(y))2)提出问题:分析上面计算相关指数R2的公式,如何根据R2来判断模型的拟合效果?学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:因为对于确定的样本数据而言,eq\i\su(i=1,n,)(yi-eq\x\to(y))2是一个定值,故R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R2.学生活动:学生独立计算获得数据.活动结果:R2≈0.64。根据R2≈0。64就可得出“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”.由此就不难理解为什么预报体重和真实值之间有差距了.设计目的:结合图象,让学生直观感受残差图在刻画回归模型拟合效果方面的应用,体会残差分析和相关指数的意义.提出问题:根据前面得到的回归方程,能否预测一名美国女大学生的体重?建立回归模型后能否一劳永逸,在若干年后还可以使用,或者适用于多年以前的女大学生体重预测?学生活动:讨论交流总结发言.活动结果:在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体;(2)我们建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整?学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.eq\b\lc\\rc\(\a\vs4\al\co1(运用新知))例1一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:编号12345678910零件数x/个102030405060708090100加工时间y/分626875818995102108115122(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?分析:首先根据散点图粗略判断变量是否具有线性相关性,判断是否可以用线性回归模型来拟合数据,然后通过残差eq\o(e,\s\up6(^))1,eq\o(e,\s\up6(^))2,…,eq\o(e,\s\up6(^))n来判断模型拟合的效果,判断原始数据是否存在可疑数据.解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据.根据公式可求得加工时间对零件数的线性回归方程为eq\o(y,\s\up6(^))=0。668x+54.96。残差数据如下表:编号12345678910残差eq\o(e,\s\up6(^))0.39-0。290。03-0.650.67-0.010.31-0.37-0.050.27(2)画出残差图残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据.【变练演编】例2在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:价格x/元1416182022需求量y/件5650434137求出y对x的回归方程,并说明拟合效果的好坏.思路分析:先根据散点图判断两个变量是否线性相关,若相关,求出回归直线方程,然后通过相关指数的大小来评价拟合效果的好坏.解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得eq\x\to(x)=18,eq\x\to(y)=45。4,由计算公式得eq\o(b,\s\up6(^))=-2。35,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=87。7。故y对x的回归方程为eq\o(y,\s\up6(^))=-2.35x+87.7,列表:yi-eq\o(y,\s\up6(^))i1.2-0.1-2。40。31yi-eq\x\to(y)10。64.6-2.4-4.4-8。4所以eq\i\su(i=1,5,)(yi-eq\o(y,\s\up6(^))i)2=8。3,eq\i\su(i=1,5,)(yi-eq\x\to(y))2=229。2。相关指数R2=1-eq\f(\i\su(i=1,5,)(yi-\o(y,\s\up6(^))i)2,\i\su(i=1,5,)(yi-\x\to(y))2)≈0.946。因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析?活动设计:学生分组讨论,回顾课本解答问题.活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点.【达标检测】1.分析下列残差图,所选用的回归模型效果最好的是()ABCD2.下列说法正确的是()①回归直线方程适用于一切样本和总体;②回归直线方程一般都有时间性;③样本的取值范围会影响回归直线方程的适用范围;④根据回归直线方程得到的预测值是预测变量的精确值.A.①③④B.②③C.①②D.③④3.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈__________,表明“气温解释了85%的热茶销售杯数变化"或者说“热茶销售杯数差异有85%是由气温引起的”.答案:1。D2。B3。0。85.eq\b\lc\\rc\(\a\vs4\al\co1(课堂小结))学生回顾本节课学习的内容,尝试总结,然后不充分的地方由学生相互补充,最后在老师的引导下,用精炼的语言进行概括:1.判断变量是否线性相关的方法以及各自的特点;2.在运用回归模型时需注意的事项;3.建立回归模型的基本步骤.设计意图:让学生自己小结,这是一个多维整合的过程,是一个高层次的自我认识过程.eq\b\lc\\rc\(\a\vs4\al\co1(补充练习))【基础练习】1.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是()A.①②B.②③C.①③D.①②③2.甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和eq\i\su(i=1,n,)(yi-eq\o(y,\s\up6(^))i)2如下表甲乙丙丁散点图残差平方和115106124103哪位同学的实验结果体现拟合A,B两变量关系的模型拟合精度高?()A.甲B.乙C.丙D.丁3.关于x与y有如下数据:x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:eq\o(y,\s\up6(^))=6.6x+17.5,乙:eq\o(y,\s\up6(^))=7x+17。试比较哪一个模型拟合效果更好.答案或提示:1。D2。D3.解析:设甲模型的相关指数为Req\o\al(2,1),则Req\o\al(2,1)=1-eq\f(\i\su(i=1,5,)(yi-\o(y,\s\up6(^))i)2,\i\su(i=1,5,)(yi-\x\to(y))2)=1-eq\f(155,1000)=0。845;设乙模型的相关指数为Req\o\al(2,2),则可求得Req\o\al(2,2)=0.82,因为Req\o\al(2,1)>Req\o\al(2,2),所以甲模型的拟合效果更好.【拓展练习】4.假设某种农作物基本苗数x与有效穗数y之间存在相关关系,今测得5组数据如下:x15。025。830。036。644.4y39.442。942.943.149。2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56。7预报有效穗数.(3)计算各组残差;(4)求R2,并说明随机误差对有效穗数的影响占百分之几?解:(1)散点图如图:(2)由图可以看出,样本点呈条状分布,有比较好的线性相关关系,因此可用线性回归方程来建立两个变量之间的关系.设线性回归方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),由数据可以求得:eq\o(b,\s\up6(^))≈0。291,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=34。67。故所求的线性回归方程为eq\o(y,\s\up6(^))=0.291x+34。67。当x=56。7时,eq\o(y,\s\up6(^))=0。291×56。7+34.67=51.1697。估计有效穗数为51.1697。(3)各组数据的残差分别是eq\o(e,\s\up6(^))1≈0。37,eq\o(e,\s\up6(^))2≈0.72,eq\o(e,\s\up6(^))3≈-0。5,eq\o(e,\s\up6(^))4≈-2.22,eq\o(e,\s\up6(^))5≈1。61.(4)残差平方和:eq\i\su(i=1,5,)(yi-eq\o(y,\s\up6(^))i)2=8。4258,又eq\i\su(i=1,5,)(yi-eq\x\to(y))2=50.18,∴R2=1-eq\f(\i\su(i=1,5,)(yi-\o(y,\s\up6(^))i)2,\i\su(i=1,5,)(yi-\x\to(y))2)=1-eq\f(8.4258,50.18)≈0。832.即解释变量(农作物基本苗数)对有效穗数的影响约占了83。2%,所以随机误差对有效穗数的影响约占1-83。2%=16。8%。eq\o(\s\up7(),\s\do5(设计说明))本课时从上一节课的案例出发,通过分析随机误差产生的原因,引入随机变量、残差、残差平方和、相关指数的有关概念,从相关指数和残差分析等角度探讨回归模型拟合的效果,并通过案例说明利用所建立的回归模型进行预报时需要注意的问题,然后总结建立回归模型的基本步骤.在教学过程中以问题为引导思考的动机,注重对学生合作意识的培养,通过对案例的分析,培养学生对数据的处理能力,让学生初步了解回归分析思想在实际生活中的运用.eq\o(\s\up7(),\s\do5(备课资料))有关总偏差平方和、回归平方和、残差平方和以及相关指数等概念的说明1.总偏差平方和:SST=eq\i\su(i=1,n,)(yi-eq\x\to(y))2,刻画了预报变量y的变化剧烈程度.2.回归平方和:SSR=eq\i\su(i=1,n,)(eq\o(y,\s\up6(^))i-eq\x\to(y))2,公式中所有预测值的平均值也等于eq\x\to(y),故eq\f(1,n)eq\i\su(i=1,n,y)eq\o(,\s\up6(^))i=eq\f(1,n)eq\i\su(i=1,n,)(eq\o(b,\s\up6(^))xi+eq\o(a,\s\up6(^)))=eq\o(b,\s\up6(^))eq\x\to(x)+eq\o(a,\s\up6(^))=eq\o(b,\s\up6(^))eq\x\to(x)+eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=eq\x\to(y),因此回归平方和又可以写成。从而回归平方和刻画了估计量eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x的变化程度.由于估计量由解释变量x所决定,所以,回归平方和刻画了预报变量的变化中由解释变量通过线性回归模型引起的那一部分的变化程度.3.残差平方和:SSE=eq\i\su(i=1,n,)(yi-eq\o(y,\s\up6(^))i)2,刻画了残差变量变化的程度.4.偏差平方和分解:即指公式eq\i\su(i=1,n,)(yi-eq\x\to(y))2=eq\i\su(i=1,n,)(eq\o(y,\s\up6(^))i-eq\x\to(y))2+eq\i\su(i=1,n,)(yi-eq\o(y,\s\up6(^))i)2,称为平方和分解公式,用文字表示为:总偏差平方和=回归平方和+残差平方和.公式证明如下:假设观测数据为(xi,yi),i=1,2,…,n,则eq\i\su(i=1,n,)(yi-eq\x\to(y))2=eq\i\su(i=1,n,)(yi-eq\o(y,\s\up6(^))i+eq\o(y,\s\up6(^))i-eq\x\to(y))2=eq\i\su(i=1,n,)(yi-eq\x\to(y))2+eq\i\su(i=1,n,)(yi-eq\o(y,\s\up6(^))i)2+2eq\i\su(i=1,n,)(eq\o(y,\s\up6(^))i-eq\x\to(y))(yi-eq\o(y,\s\up6(^))i).而eq\i\su(i=1,n,)(eq\o(y,\s\up6(^))i-eq\x\to(y))(yi-eq\o(y,\s\up6(^))i)=eq\i\su(i=1,n,)(eq\o(b,\s\up6(^))xi-eq\o(b,\s\up6(^))eq\x\to(x))(yi-eq\o(a,\s\up6(^))-eq\o(b,\s\up6(^))xi)=eq\i\su(i=1,n,b)eq\o(,\s\up6(^))(xi-eq\x\to(x))eq\b\lc\[\rc\](\a\vs4\al\co1(yi-\o(a,\s\up6(^))-\o(b,\s\up6(^))\x\to(x)-b(xi-\x\to(x))))=eq\o(b,\s\up6(^))eq\i\su(i=1,n,)(xi-eq\x\to(x))eq\b\lc\[\rc\](\a\vs4\al\co1((yi-\x\to(y))-\o(b,\s\up6(^))(xi-\x\to(x))))=eq\o(b,\s\up6(^))eq\b\lc\[\rc\](\a\vs4\al\co1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论