新教材同步备课2024春高中数学第8章成对数据的统计分析8.2一元线性回归模型及其应用8.2.1一元线性回归模型8.2.2第2课时回归分析及非线性回归模型教师用书新人教A版选择性必修第三册_第1页
新教材同步备课2024春高中数学第8章成对数据的统计分析8.2一元线性回归模型及其应用8.2.1一元线性回归模型8.2.2第2课时回归分析及非线性回归模型教师用书新人教A版选择性必修第三册_第2页
新教材同步备课2024春高中数学第8章成对数据的统计分析8.2一元线性回归模型及其应用8.2.1一元线性回归模型8.2.2第2课时回归分析及非线性回归模型教师用书新人教A版选择性必修第三册_第3页
新教材同步备课2024春高中数学第8章成对数据的统计分析8.2一元线性回归模型及其应用8.2.1一元线性回归模型8.2.2第2课时回归分析及非线性回归模型教师用书新人教A版选择性必修第三册_第4页
新教材同步备课2024春高中数学第8章成对数据的统计分析8.2一元线性回归模型及其应用8.2.1一元线性回归模型8.2.2第2课时回归分析及非线性回归模型教师用书新人教A版选择性必修第三册_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2课时回归分析及非线性回归模型学习任务1.了解残差、残差图的概念.(数学抽象)2.会通过分析残差和利用R2判断回归模型的拟合效果.(数学运算、数据分析)3.了解非线性回归模型,掌握对数函数模型、指数函数模型和幂函数模型的求解过程.(数学运算、数学建模)设某幼苗从观察之日起,第x天的高度为ycm,测得的一些数据如表所示:第x度y/cm0479111213作出这组数的散点图近似描述y与x的关系,很显然,这些散点不在一条直线附近.你能求出这个函数模型吗?知识点1残差及残差图(1)对于响应变量Y,通过观测得到的数据称为观测值.通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果.通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等.(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.(3)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.知识点2对模型刻画数据效果的分析(1)残差图法:在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.(2)(3)决定系数R2法:可以用R2=来比较两个模型的拟合效果,R2越小,模型拟合效果越差,R2越大,模型拟合效果越好.决定系数R2的取值范围是什么?[提示]0≤R2≤1.知识点3非线性回归方程(1)非线性回归分析的思想研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.(2)非线性经验回归方程当回归方程不是形如y=bx+a(a,b∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.1.思考辨析(正确的画“√”,错误的画“×”)(1)残差平方和越接近0,线性回归模型的拟合效果越好. ()(2)在画两个变量的散点图时,响应变量在x轴上,解释变量在y轴上. ()(3)R2越小,线性回归模型的拟合效果越好. ()(4)在残差图中,纵坐标为残差,横坐标可以选为样本编号. ()[答案](1)√(2)×(3)×(4)√2.在两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的决定系数R2如下,其中拟合效果最好的模型是()A.模型1的决定系数R2为0.98B.模型2的决定系数R2为0.80C.模型3的决定系数R2为0.50D.模型4的决定系数R2为0.25A[R2越大拟合效果越好.]3.从某省“双一流”大学中随机选出8名女大学生,得到其身高x(单位:cm)与体重y(单位:kg)的数据如下表:x165165157170175165155170y4857505464614359若已知y与x的经验回归方程为y=0.85x-85.71,则选取的女大学生身高为175cm时,相应的残差为________kg.0.96[当x=175cm时,y=0.85×175-85.71=63.04(kg),∴相应的残差e=64-63.04=0.96(kg).]类型1残差与残差分析【例1】(1)对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是()ABCD(2)已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回归方程为y=2x+a,若样本点(r,1)与(1,s)的残差相同,则有()A.r=s B.s=2rC.s=-2r+3 D.s=2r+1(1)A(2)C[(1)用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.(2)样本点(r,1)的残差为1-2r-a,样本点(1,s)的残差为s-a-2.依题意得1-2r-a=s-故s=-2r+3.](1)残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.(2)残差是随机误差的估计值,ei=yi-yi.[跟进训练]1.两个线性相关变量x与y的统计数据如表所示:x99.51010.511y1110865其经验回归方程是y=bx+40,则相对应于点(11,5)的残差为()A.0.1B.0.2C.0.3D.0.4B[由于y=bx+40过样本中心点(10,所以8=10b+40,则因此y=-3.2x+40.当x=11时,y=-3.2×11+40=4.8,所以残差e=5-y=5-4.82.已知某成对样本数据的残差图如图,则样本点数据中可能不准确的是从左到右第________个.6[原始数据中的可疑数据往往是残差绝对值过大的那个数据,即偏离平衡位置过大.]类型2残差平方和与决定系数R2【例2】已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:x1416182022y1210753(1)求y关于x的经验回归方程;(2)借助残差平方和与R2说明回归模型拟合效果的好坏.[解](1)x=15×(14+16+18+20+22)=18,y=15×(12+10+7+5+3)所以b==620-5×18a=7.4+1.15×18=28.1,所以所求经验回归方程是y=-1.15x+28.1.(2)列出残差表为yi-yi00.3-0.4-0.10.2yi-y4.62.6-0.4-2.4-4.4所以所以回归模型的拟合效果很好.刻画回归效果的三种方法(1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适.(2)(3)决定系数R2法:R2=1-越接近1,表明模型的拟合效果越好.[跟进训练]3.为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图并求经验回归方程;(2)求出R2并说明回归模型拟合的程度;(3)进行残差分析.[解](1)散点图如图所示.样本点分布在一条直线附近,y与x具有线性相关关系.由表中数据,得x=16×(5+10+15+20+25+30)=17.5y=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487i=1计算得b≈0.183,故所求经验回归方程为y=6.285+0.183x.(2)列表如下:yi-yi0.050.005-0.08-0.0450.040.025yi-y-2.237-1.367-0.5370.4131.4132.313可得所以R2=1-0.0131814.6783≈0.9991(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.类型3非线性回归分析【例3】为了研究某种细菌随时间x变化,繁殖的个数y的变化,收集数据如表所示:天数x/天123456繁殖个数y/个612254995190(1)用天数作解释变量,繁殖个数作响应变量,作出这些数据的散点图,根据散点图判断:y=a+bx与y=c1ec2x哪一个作为繁殖的个数y关于时间x变化的回归方程类型为最佳?xyzi=1i=1i=13.562.833.5317.5596.50512.04其中(2)根据(1)的判断最佳结果及表中的数据,建立y关于x的回归方程.[解](1)作出散点图,如图1所示.由散点图看出样本点分布在一条指数函数y=c1ec(2)令z=lny,则z=bx+x123456z1.792.483.223.894.555.25相应的散点图如图2.从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.a=z-bx=1.115,得则有y=e0.69x+1.115.[母题探究](变设问)在本例条件不变的情况下,试估计第7天细菌繁殖个数.[解]∵y=e0.69x+1.115,∴当x=7时,y≈382(个),即第7天细菌繁殖个数约为382个.解决非线性回归问题的方法及步骤(1)确定变量:确定解释变量为x,响应变量为y.(2)画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型.(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题.(4)分析拟合效果:通过计算决定系数等来判断拟合效果.(5)写出非线性回归方程.提醒:当数据量较大时,可采用计算器或者数学软件来求回归方程.[跟进训练]4.(源自湘教版教材)实验中获得了某化学品的化学反应时间和转化率的数据如表,试建立转化率y关于反应时间x的回归方程(结果保留三位小数).时间x/min6080100120140150160170转化率y/%6.139.9915.0220.9231.1138.8547.2555.05[解]根据收集的数据作散点图(图1).观察散点图可知,样本点并没有分布在某条直线附近,因而变量y与x之间没有明显的线性相关关系,所以不能直接利用线性回归模型来刻画这两个变量之间的关系.根据已有的数学知识,可以认为样本点分布在指数曲线y=c1ec2x的附近,其中c1和c为估计参数c1和c2,在y=c1ec2x的两端取对数,得到lny=lnc1+c再令z=lny,a=lnc1,b=c2,则得到直线方程z=bx+a.将题表中的数据进行代换,得到的数据见下表.x6080100120140150160170z(=lny)1.8132.3022.7093.0413.4383.6603.8554.008图2是根据上表中数据作出的散点图.从图2中可以看出,变换后的样本点分布在一条直线的附近,说明z和x之间具有线性相关关系,因此可以用线性回归方程来拟合.对上表中的数据,用最小二乘法可得线性回归方程为z=0.019x+0.686.再利用y=ez可得到转化率y关于反应时间x的非线性回归方程为y=e0.686·e0.019x≈1.986e0.019x.1.下面四个残差图中,可以满足一元线性回归模型中对随机误差的假定的是()ABCDA[由残差图显示的分布情况即可看出,图A显示的残差分布比较集中,且成带状分布,满足一元线性回归模型中对随机误差的假定.]2.下列说法错误的是()A.残差点分布的带状区域越窄,回归方程的拟合效果越好B.残差平方和越小,决定系数R2越大C.决定系数R2可以大于1D.通过经验回归方程得到的预报值是响应变量的可能取值的平均值,不一定是响应变量的精确值C[由R2的计算公式,知B正确,C错误;A,D均正确.]3.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性作试验,并用回归分析的方法分别求得相关系数r与残差平方和m如表:甲乙丙丁r0.820.780.690.85m106115124103则________同学的试验结果体现了A,B两变量更强的线性相关性.丁[由题表可知,丁同学的相关系数r最大且残差平方和m最小,故丁同学的试验结果体现了A,B两变量更强的线性相关性.]4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条曲线y=ebx+a的周围,令z=lny,求得经验回归方程为z=0.25x-2.58,则该模型的经验回归方程为________.y=e0.25x-2.58[由z=0.25x-2.58得ln回顾本节知识,自主完成以下问题:1.对模型刻画数据效果的分析有哪些常见方法?[提示]残差图法,残差平方和法和R2法.2.决定系数R2与相关系数r一样吗?[提示]在含有一个解释变量的线性回归模型中,决定系数R2恰好等于相关系数r的平方.在线性回归模型中有0≤R2≤1,因此R2和两个变量的相关系数r都能刻画用线性回归模型拟合数据的效果.|r|越大,R2就越大,线性回归模型拟合数据的效果就越好.课时分层作业(二十一)回归分析及非线性回归模型一、选择题1.下列四个残差图中回归模型的拟合效果最好的是()ABCDB[B选项显示的残差分布比较集中,且成窄带状分布,满足一元线性回归模型中对随机误差的假定.]2.甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和甲乙丙丁散点图残差平方和115106124103试验结果体现拟合A,B两变量关系的模型拟合精度高的同学是()A.甲B.乙C.丙D.丁D[残差平方和越小,拟合效果越好.]3.若对于变量x,y的10组统计数据的回归模型中,计算得R2=0.95,又知残差平方和为A.241.1 B.245.1C.2411 D.2451C[由题意知残差平方和i=1又R2=1-=0.95,所以4.若一函数模型为y=sin2α+2sinα+1,为将y转化为t的线性经验回归方程,则需作变换t等于()A.sin2α B.(sinα+1)2C.sin2α+1 D.以上都不对B[因为y是关于t的线性经验回归方程,实际上即y是关于t的一次函数,又因为y=(sinα+1)2,若令t=(sinα+1)2,则可得y与t的函数关系式为y=t,此时变量y与变量t是线性相关关系.]5.某同学将收集到的六组数据(xi,yi)(i=1,2,3,4,5,6)制成如图所示的散点图,并通过计算得到其经验回归直线l1的方程为y=0.68x+a,其样本相关系数为r1,决定系数为R12.经过残差分析确定点F为“离群点”(对应残差过大的点),把它去掉后,再利用剩下的五组数据计算得到其经验回归直线l2的方程为y=bx+0.68,其样本相关系数为r2,决定系数为R22A.r1C.a=0.12 D.0<b<0.68B[由题图可知两变量正线性相关,故r1>0,r2>0,且r1<r2,故R12<R22,故A中结论正确,B中结论不正确.经计算可得,在去除点F前,x=3.5,y=2.5,去除点F后,x=3,y=2.又经验回归直线l1:y=0.68x+a必经过点(3.5,2.5),所以a二、填空题6.已知经验回归方程y=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是________.0.03[因为残差ei=yi-yi,所以残差平方和为(4.9-5)2+(7.1-7)2+(9.1-7.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=3e2x+1的图象附近,设u=lny,则可通过转换得到经验回归方程____________.u=1+ln3+2x[由y=3e2x+1,得lny=ln3e2x+1,即lny=ln3+2x则经验回归方程为u=1+ln3+2x.]8.(2023·河南郑州期末)2022年9月1日至23日(日期代码分别为1,2,…,23),某餐馆在区域M内投放广告单数量y(万张)与日期代码x的数据满足回归方程y=e0.38+bx,则b=参考数据:y1y2y3·…·y23=e89.7,x=120.29[对y=e0.38+bx的两边取自然对数,得lny因为ln(y1y2y3·…·y23)=lne89.7=89.7,所以lny1+所以3.9=12b+0.38,所以b≈0.29三、解答题9.已知x与y之间的数据如表:x23456y2.23.85.56.57.0(1)求y关于x的经验回归方程;(2)完成下面的残差表,并判断(1)中线性回归模型的拟合效果是否良好.(若R2>0.9,则认为回归模型拟合效果良好)x23456yi-yia=y-bx,R2=1-i=1[解](1)由题中表格数据可得x=4,y=5i=1则b=112.3-5×故y=1.23x+0.08.(2)设ei=yi-yi,所以e1=-0.34,e2=0.03,e3=0.5,e4=0.27,e5=-0.46,则残差表如表所示,x23456yi-yi-0.340.030.50.27-0.46因为=(2.2-5)2+(3.8-5)2+(5.5-5)2+(6.5-5)2+(7-5)2=15.78,所以R2=1-0.65115.78≈0.96>0.9所以该线性回归模型的拟合效果良好.10.以模型y=cekx去拟合一组数据时,为了求出经验回归方程,设z=lny,将其变换后得到经验回归方程z=0.2x+3,则c,k的值分别是()A.e2,0.6 B.e2,0.3C.e3,0.2 D.e4,0.6C[因为y=cekx,所以等式两边同时取对数可得lny=ln(cekx)=lnc+lnekx=kx+lnc.因为z=lny,所以上式可化为z=kx+lnc.因为z=0.2x+3,则k=0.2,lnc=3,所以c=e3,k=0.2.]11.某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:广告支出费用x2.22.64.05.35.9销售量y3.85.47.011.612.2根据表中的数据可得经验回归方程y=2.27x-1.08,R2≈0.96,以下说法正确的是()A.第三个样本点对应的残差e3=-1,回归模型的拟合效果一般B.第三个样本点对应的残差e3=1,回归模型的拟合效果较好C.销售量y的多少有96%是由广告支出费用引起的D.销售量y的多少有4%是由广告支出费用引起的C[由题意得e3=7-(2.27×4-1.08)=-1,由于R2≈0.96,所以该回归模型拟合的效果比较好,故A,B错误;在线性回归模型中,R2表示解释变量对于响应变量的贡献率,R2≈0.96,则销售量y的多少有96%是由广告支出费用引起的,C正确,D错误.]12.已知变量y关于x的非线性经验回归方程为y=ebx1234yee3e4e6若x=5,则预测y的值可能为()A.e5B.e112C.e7DD[将式子两边取对数,得到lny=bx-令z=lny,得到列出x,z的取值对应的表格如下:x1234z1346则x=1+2+3+44=2.5,z=1+3+4+64∵(x,z)满足∴3.5=b×2.5-0.5,解得b=1.6,∴z=1.6x-0.5,当x=5时,y=e1.6×5-0.5=e15213.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:地区A区B区C区D区E区外来务工人员数50004000350030002500留在当地过年的人数占比80%90%80%80%84%根据这5个地区的数据求得留在当地过年人员数y与外来务工人员数x的经验回归方程为y=0.8135x+a.该市对外来务工人员中选择留在当地过年的人员每人补贴1000元,该市F区有10000名外来务工人员,根据经验回归方程估计F区需要给外来务工人员中选择留在当地过年的人员的补贴总额为________万元.(参考数据:0.8135×36≈29.29)818.6[由题意得,x=5000+4000+3500+3000+25005=3600y=5000×0.8+4000×因为经验回归直线一定过样本的中心点(x,y所以2980=0.8135×3600+a,解得a≈51,即y当x=10000时,y=0.8135×10000+51=8186,所以估计补贴总额为8186×0.1=818.6(万元).]14.耐盐碱水稻俗称“海水稻”,是一种可以长在滩涂和盐碱地的水稻.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为y=bx+0.88.海水浓度xi/‰34567亩产量yi/吨0.620.580.490.40.31残差ei(1)求b,并估计当浇灌海水浓度为8‰时该品种的亩产量;(2)①完成上述残差表;②统计学中常用决定系数R2来刻画回归效果,R2越大,模型拟合效果越好,如假设R2=0.8,就说明预报变量y的差异有80%是由解释变量x引起的.请计算决定系数R2(精确到0.01),并指出亩产量的变化多大程度上是由海水浓度引起的?附:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论