回归分析的基本思想及其初步应用学案_第1页
回归分析的基本思想及其初步应用学案_第2页
回归分析的基本思想及其初步应用学案_第3页
回归分析的基本思想及其初步应用学案_第4页
回归分析的基本思想及其初步应用学案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

eq\a\vs4\al(回归分析的基本思想及其初步应用)预习课本P80~89,思考并完成以下问题1.什么是回归分析?2.什么是线性回归模型?3.求线性回归方程的步骤是什么?eq\a\vs4\al([新知初探])1.回归分析(1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn).设其回归直线方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),其中eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^))是待定参数,由最小二乘法得eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2)=eq\f(\i\su(i=1,n,x)iyi-nxy,\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).(3)线性回归模型线性回归模型eq\b\lc\{\rc\(\a\vs4\al\co1(y=bx+a+e,,Ee=0,De=σ2)),其中a,b为模型的未知参数,通常e为随机变量,称为随机误差.x称为解释变量,y称为预报变量.[点睛]对线性回归模型的三点说明(1)非确定性关系:线性回归模型y=bx+a+e与确定性函数y=a+bx相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具.(2)线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))中eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^))的意义是:以eq\o(a,\s\up6(^))为基数,x每增加1个单位,y相应地平均增加eq\o(b,\s\up6(^))个单位.2.线性回归分析(1)残差:对于样本点(xi,yi)(i=1,2,…,n)的随机误差的估计值eq\o(e,\s\up6(^))i=yi-eq\o(y,\s\up6(^))i称为相应于点(xi,yi)的残差,eq\i\su(i=1,n,)(yi-eq\o(y,\s\up6(^))i)2称为残差平方和.(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.(3)R2=1-eq\f(\i\su(i=1,n,)yi-\o(y,\s\up6(^))i2,\i\su(i=1,n,)yi-\x\to(y)2)越接近1,表示回归的效果越好.eq\a\vs4\al([小试身手])1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)(1)残差平方和越小,线性回归方程的拟合效果越好.()(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.()(3)R2越小,线性回归方程的拟合效果越好.()答案:(1)√(2)×(3)×2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________.答案:正相关3.在残差分析中,残差图的纵坐标为________.答案:残差4.如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于________,解释变量和预报变量之间的相关系数等于________.答案:01或-1求线性回归方程[典例]某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据x681012y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^));(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.[解](1)散点图如图:(2)eq\i\su(i=1,n,x)iyi=6×2+8×3+10×5+12×6=158,eq\x\to(x)=eq\f(6+8+10+12,4)=9,eq\x\to(y)=eq\f(2+3+5+6,4)=4,eq\i\su(i=1,n,x)eq\o\al(2,i)=62+82+102+122=344.eq\o(b,\s\up6(^))=eq\f(158-4×9×4,344-4×92)=eq\f(14,20)=0.7,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=4-0.7×9=-2.3,故线性回归方程为eq\o(y,\s\up6(^))=0.7x-2.3.(3)由(2)中线性回归方程知,当x=9时,eq\o(y,\s\up6(^))=0.7×9-2.3=4,故预测记忆力为9的同学的判断力约为4.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.(2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.[活学活用]某工厂1~8月份某种产品的产量与成本的统计数据见下表:月份12345678产量(吨)5.66.06.16.47.07.58.08.2成本(万元)130136143149157172183188以产量为x,成本为y.(1)画出散点图;(2)y与x是否具有线性相关关系?若有,求出其回归方程.解:(1)由表画出散点图,如图所示.(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为x和y线性相关关系显著,下面求其回归方程,首先列出下表.xiyixeq\o\al(2,i)xiyi15.613031.36728.026.013636.00816.036.114337.21872.346.414940.96953.657.015749.001099.067.517256.251290.078.018364.001464.088.218867.241541.6∑54.81258382.028764.5计算得eq\x\to(x)=6.85,eq\x\to(y)=157.25.∴eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,8,x)iyi-8xy,\i\su(i=1,8,x)\o\al(2,i)-8\x\to(x)2)=eq\f(8-8××,-8×≈22.17,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=157.25-22.17×6.85≈5.39,故线性回归方程为eq\o(y,\s\up6(^))=22.17x+5.39.回归分析题点一:线性回归分析1.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:x1416182022y1210753求出y对x的回归直线方程,并说明拟合效果的程度.解:eq\x\to(x)=eq\f(1,5)(14+16+18+20+22)=18,eq\x\to(y)=eq\f(1,5)(12+10+7+5+3)=7.4.eq\i\su(i=1,5,x)eq\o\al(2,i)=142+162+182+202+222=1660,eq\i\su(i=1,5,x)iyi=14×12+16×10+18×7+20×5+22×3=620,可得回归系数eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,5,x)iyi-5xy,\i\su(i=1,5,x)\o\al(2,i)-5\x\to(x)2)=eq\f(620-5×18×,1660-5×182)=-1.15.所以eq\o(a,\s\up6(^))=7.4+1.15×18=28.1所以回归直线方程:eq\o(y,\s\up6(^))=-1.15x+28.1.列出残差表:yi-eq\o(y,\s\up6(^))i00.3-0.4-0.10.2yi-eq\x\to(y)4.62.6-0.4-2.4-4.4则eq\i\su(i=1,5,)(yi-eq\o(y,\s\up6(^))i)2=0.3,eq\i\su(i=1,5,)(yi-eq\x\to(y))2=53.2.R2=1-eq\f(\i\su(i=1,5,)yi-\o(y,\s\up6(^))i2,\i\su(i=1,5,)yi-\x\to(y)2)≈0.994.所以回归模型的拟合效果很好.题点二:非线性回归分析2.为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下时间x/天123456繁殖个数y612254995190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程.解:(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y1=c1ec2x的周围,于是令z=lny,则x123456z1.792.483.223.894.555.25由计算器算得,eq\o(z,\s\up6(^))=0.69x+1.112,则有eq\o(y,\s\up6(^))=e0.69x+1.112.(1)当两个变量已明显呈线性相关关系时,则无需作散点图,就可直接求回归直线方程,否则要先判定相关性再求回归方程.判断拟合效果的好坏需要利用R2确定,R2越接近1,说明拟合效果越好.(2)非线性回归方程的求法①根据原始数据(x,y)作出散点图;②根据散点图,选择恰当的拟合函数;③作恰当的变换,将其转化成线性函数,求线性回归方程;④在③的基础上通过相应的变换,即可得非线性回归方程.层级一学业水平达标1.在对两个变量x,y进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是()A.①②⑤③④ B.③②④⑤①C.②④③①⑤ D.②⑤④③①解析:选D对两个变量进行回归分析时,首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释;故正确顺序是②⑤④③①,故选D.2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是()A.0 B.1C.2 D.3解析:选D①选用的模型是否合适与残差点的分布有关;对于②③,R2的值越大,说明残差平方和越小,随机误差越小,则模型的拟合效果越好.3.下图是根据变量x,y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,由这些散点图可以判断变量x,y具有相关关系的图是()A.①② B.①④C.②③ D.③④解析:选D根据散点图中点的分布情况,可判断③④中的变量x,y具有相关的关系.4.(重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数eq\x\to(x)=3,eq\x\to(y)=3.5,则由该观测数据算得的线性回归方程可能为()A.eq\o(y,\s\up6(^))=0.4x+2.3B.eq\o(y,\s\up6(^))=2x-2.4C.eq\o(y,\s\up6(^))=-2x+9.5D.eq\o(y,\s\up6(^))=-0.3x+4.4解析:选A依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5)代入A,B得A正确.5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),其中eq\o(b,\s\up6(^))=0.76,eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元 B.11.8万元C.12.0万元 D.12.2万元解析:选B由题意知,eq\x\to(x)=eq\f++++,5)=10,eq\x\to(y)=eq\f++++,5)=8,∴eq\o(a,\s\up6(^))=8-0.76×10=0.4,∴当x=15时,eq\o(y,\s\up6(^))=0.76×15+0.4=11.8(万元).6.以下是某地区的降雨量与年平均气温的一组数据:年平均气温(℃)12.5112.8412.8413.6913.3312.7413.05年降雨量(mm)542507813574701432464根据这组数据可以推断,该地区的降雨量与年平均气温________相关关系.(填“具有”或“不具有”)解析:画出散点图,观察可知,降雨量与年平均气温没有相关关系.答案:不具有7.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq\f(1,2)x+1上,则这组样本数据的样本相关系数为________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:18.下列说法正确的命题是________(填序号).①回归直线过样本点的中心(eq\x\to(x),eq\x\to(y));②线性回归方程对应的直线eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))至少经过其样本数据点(x1,y1),(x2,y2),…,(xn,yn)中的一个点;③在残差图中,残差点分布的带状区域的宽度越宽,其模型拟合的精度越高;④在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好.解析:由回归分析的概念知①④正确,②③错误.答案:①④9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),其中eq\o(b,\s\up6(^))=-20,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x);(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)eq\x\to(x)=eq\f(1,6)(8+8.2+8.4+8.6+8.8+9)=8.5,eq\x\to(y)=eq\f(1,6)(90+84+83+80+75+68)=80,从而eq\o(a,\s\up6(^))=eq\x\to(y)+20eq\x\to(x)=80+20×8.5=250,故eq\o(y,\s\up6(^))=-20x+250.(2)由题意知,工厂获得利润z=(x-4)y=-20x2+330x-1000=-20eq\b\lc\(\rc\)(\a\vs4\al\co1(x-\f(33,4)))2+361.25,所以当x=eq\f(33,4)=8.25时,zmax=361.25(元).即当该产品的单价定为8.25元时,工厂获得最大利润.10.关于x与y有以下数据:x24568y3040605070已知x与y线性相关,由最小二乘法得eq\o(b,\s\up6(^))=6.5,(1)求y与x的线性回归方程;(2)现有第二个线性模型:eq\o(y,\s\up6(^))=7x+17,且R2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.解:(1)依题意设y与x的线性回归方程为eq\o(y,\s\up6(^))=6.5x+eq\o(a,\s\up6(^)).eq\x\to(x)=eq\f(2+4+5+6+8,5)=5,eq\x\to(y)=eq\f(30+40+60+50+70,5)=50,∵eq\o(y,\s\up6(^))=6.5x+eq\o(a,\s\up6(^))经过(eq\x\to(x),eq\x\to(y)),∴50=6.5×5+eq\o(a,\s\up6(^)),∴eq\o(a,\s\up6(^))=17.5,∴y与x的线性回归方程为eq\o(y,\s\up6(^))=6.5x+17.5.(2)由(1)的线性模型得yi-eq\o(y,\s\up6(^))i与yi-eq\x\to(y)的关系如下表:yi-eq\o(y,\s\up6(^))i-0.5-3.510-6.50.5yi-eq\x\to(y)-20-1010020所以eq\i\su(i=1,5,)(yi-eq\o(y,\s\up6(^))i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155.eq\i\su(i=1,5,)(yi-eq\x\to(y))2=(-20)2+(-10)2+102+02+202=1000.所以Req\o\al(2,1)=1-eq\f(\i\su(i=1,5,)yi-\o(y,\s\up6(^))i2,\i\su(i=1,5,)yi-\x\to(y)2)=1-eq\f(155,1000)=0.845.由于Req\o\al(2,1)=0.845,R2=0.82知Req\o\al(2,1)>R2,所以(1)的线性模型拟合效果比较好.层级二应试能力达标1.在建立两个变量y与x的回归模型中,分别选择4个不同模型,求出它们相对应的R2如表,则其中拟合效果最好的模型是()模型1234R20.670.850.490.23A.模型1 B.模型2C.模型3 D.模型4解析:选B线性回归分析中,相关系数为r,|r|越接近于1,相关程度越大;|r|越小,相关程度越小,故其拟合效果最好.故选B.2.如果某地的财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区财政收入为10亿元,则年支出预计不会超过()A.10亿 B.9亿C.10.5亿 D.9.5亿解析:选C∵x=10时,y=0.8×10+2+e=10+e,又∵|e|≤0.5,∴y≤10.5.3.某咖啡厅为了了解热饮的销售量y(个)与气温x(℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:气温(℃)181310-1销售量(个)24343864由表中数据,得线性回归方程eq\o(y,\s\up6(^))=-2x+a.当气温为-4℃时,预测销售量约为()A.68 B.66C.72 D.70解析:选A∵eq\x\to(x)=eq\f(1,4)(18+13+10-1)=10,eq\x\to(y)=eq\f(1,4)(24+34+38+64)=40,∴40=-2×10+a,∴a=60,当x=-4时,y=-2×(-4)+60=68.4.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和eq\i\su(i=1,n,)(yi-eq\o(y,\s\up6(^))i)2如下表:甲乙丙丁散点图残差平方和115106124103哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高()A.甲 B.乙C.丙 D.丁解析:选D根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中eq\i\su(i=1,n,)(yi-eq\x\to(y))2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.故选D.5.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围,令eq\o(z,\s\up6(^))=lny,求得回归直线方程为eq\o(z,\s\up6(^))=0.25x-2.58,则该模型的回归方程为________.解析:因为eq\o(z,\s\up6(^))=0.25x-2.58,eq\o(z,\s\up6(^))=lny,所以y=e0.25x-2.58.答案:y=e0.25x-2.586.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论