人教A版普通高中数学一轮复习第九章第三节一元线性回归模型及其应用学案_第1页
人教A版普通高中数学一轮复习第九章第三节一元线性回归模型及其应用学案_第2页
人教A版普通高中数学一轮复习第九章第三节一元线性回归模型及其应用学案_第3页
人教A版普通高中数学一轮复习第九章第三节一元线性回归模型及其应用学案_第4页
人教A版普通高中数学一轮复习第九章第三节一元线性回归模型及其应用学案_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节一元线性回归模型及其应用考试要求:1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计的求法.3.针对实际问题,会用一元线性回归模型进行预测.自查自测知识点一变量的相关关系1.判断下列说法的正误,正确的打”√”,错误的打”×”.(1)相关关系是一种非确定性关系.(√)(2)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(3)经验回归直线y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.(×)2.(教材改编题)下列变量间的关系,不是相关关系的是()A.一块农田的水稻产量与施肥之间的关系B.正方形的面积与边长之间的关系C.商品销售收入与其广告费支出之间的关系D.人体内的脂肪含量与年龄之间的关系B解析:对于A,水稻产量与施肥之间没有明确的等量关系,是相关关系,故A错误;对于B,正方形的面积与边长之间有着明确的等量关系,不是相关关系,故B正确;对于C,商品销售收入与其广告费支出之间没有明确的等量关系,故C错误;对于D,人体内的脂肪含量与年龄之间没有明确的等量关系,故D错误.3.以下两个变量成负相关的是②.(填序号)①学生的学籍号与学生的数学成绩;②坚持每天吃早餐的人数与患胃病的人数;③气温与冷饮销售量;④电瓶车的质量和行驶每千米的耗电量.核心回扣(1)相关关系的定义:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类①按变量间的增减性分为正相关和负相关.正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势.负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.②按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们就称这两个变量非线性相关或曲线相关.自查自测知识点二相关关系的刻画1.调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.8245,下列说法正确的是()A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈现负相关C.花瓣长度和花萼长度呈现正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245C解析:因为相关系数r=0.8245>0.75,且散点图呈左下角到右上角的带状分布,所以花瓣长度和花萼长度呈正相关.若从样本中抽取一部分,则这部分的相关系数不一定是0.8245.2.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则表示两个变量间线性相关程度最强的是()A.-0.82 B.0.78C.-0.69 D.0.87D解析:由样本相关系数的绝对值|r|越大,变量间的线性相关性越强,知各选项中r=0.87的绝对值最大,故其线性相关程度最强.3.(教材改编题)在对两个变量x,y进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.则下列操作顺序正确的是()A.①②④③ B.③②④①C.②③①④ D.②④③①D解析:根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),i=1,2,…,n,然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释.4.下列关于y与x的经验回归方程中,变量x,y成正相关关系的是()A.y=-2.1x+1.8 B.y=1.5x+1.5C.y=-0.5x+2.1 D.y=-1.2x+3.2B解析:对于A,由方程y=-2.1x+1.8,可得b=-2.1<0,所以变量x,y成负相关关系;对于B,由方程y=1.5x+1.5,可得b=1.5>0,所以变量x,y成正相关关系;对于C,由方程y=-0.5x+2.1,可得b=-0.5<0,所以变量x,y成负相关关系;对于D,由方程y=-1.2x+3.2,可得b=-1.2<0,所以变量x,y成负相关关系.核心回扣相关关系的刻画(1)散点图:为了直观描述成对样本数据的变化特征,把每组成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.(2)样本相关系数①我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中②样本相关系数r的取值范围为[-1,1].若r>0时,成对样本数据正相关;若r<0时,成对样本数据负相关;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.(3)一元线性回归模型称Y=bx+a+e,Ee=0,De=σ2为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a(4)最小二乘法将y=bx+a称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计,其中b=,a=y-b自查自测知识点三残差与残差分析1.某种产品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表关系.x1345y30406050y与x的经验回归方程为y=6.5x+24,当广告费支出为5万元时,残差为()A.20 B.-10C.10 D.-6.5D解析:因为y与x的经验回归方程为y=6.5x+24,所以当x=5时,y=6.5×5+24=56.5,则50-56.5=-6.5.故当广告费支出为5万元时,残差为-6.5.2.观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是()ABCDB解析:对于A,残差与观测时间有线性关系,故A错误;对于B,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,故B正确;对于C,残差与观测时间有非线性关系,故C错误;对于D,图中残差的方差不是一个常数,随着观测时间变大而变大,故D错误.3.给出下列命题:①已知两个变量线性相关,若它们的相关程度越强,样本相关系数的绝对值应越接近1;②经验回归直线必过点(x,y);③在刻画回归模型的拟合效果时,残差平方和越小,决定系数R2的值越大,说明拟合效果越好;④根据最小二乘法,由一组样本点(xi,yi),i=1,2,…,n,求得的经验回归方程是y=bx+a,对所有的解释变量xi,bxi+a的值一定与yi有误差.其中为真命题的是.(填序号)①②③解析:对于①,由变量间线性相关性与样本相关系数的关系可知,若它们的相关程度越强,则样本相关系数的绝对值应越接近于1,故①为真命题;对于②,由样本数据得到的经验回归方程y=bx+a的特点可知,经验回归直线必过点(x,y),故对于③,在刻画经验回归模型的拟合效果时,残差平方和越小,决定系数R2的值越大,说明拟合效果越好,故③为真命题;对于④,根据最小二乘法,由一组样本点(xi,yi),i=1,2,…,n,求得的经验回归方程是y=bx+a,对所有的解释变量xi,bxi+a的值不一定与yi有误差,可能相等,故④为假命题.核心回扣1.残差与残差分析(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差.(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.2.对模型刻画数据效果的分析(1)残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.(2)残差平方和法残差平方和(yi-yi)2越小,模型的拟合效果越好.(3)决定系数R2法可以用决定系数R2=1-来比较两个模型的拟合效果,R2越大,模型的拟合效果越好;R2越小,模型的拟合效果越差.【常用结论】经验回归直线y=bx+a必过样本点的中心(x,y).应用某单位为了了解办公楼用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:气温/℃181310-1用电量/(kW·h)24343864由表中数据得到经验回归方程y=-2x+a,当气温为-4℃时,预测用电量约为()A.68kW·h B.52kW·hC.12kW·h D.28kW·hA解析:由表格数据可得x=10,y=40,根据经验回归直线必过(所以经验回归方程为y=-2x+60,因此当x=-4时,y=68.变量间相关关系的判断1.(多选题)下列命题正确的是()A.任意两个变量都具有相关关系B.圆的周长与该圆的直径具有相关关系C.某商品的需求量与该商品的价格之间的关系是一种非确定性关系D.当两个变量相关且样本相关系数r>0时,表明两个变量正相关CD解析:对于A,圆的半径和圆的面积是函数关系,故A错误;对于B,圆的周长与该圆的直径具有函数关系,故B错误;对于C,商品的需求量与商品的价格、质量等有关系,故C正确;对于D,当样本相关系数r>0时,表明两个变量正相关,故D正确.2.(多选题)对两组数据进行统计后得到的散点图如图,对应样本相关系数分别为r1,r2,则下列结论正确的是()图1图2A.r1<0 B.r2>1C.r1+r2>0 D.|r1|>|r2|AC解析:由散点图可知,题图1中y与x成负相关,故-1<r1<0,故A正确;题图2中y与x正相关,故1>r2>0,故B错误;题图2中的散点较题图1中的散点更密集,更集中于一条直线附近,故|r2|>|r1|,r1+r2>0,故C正确,D错误.忽视散点图的结构特点导致错误(1)两个变量具有正线性相关关系时,其散点是在从左下方到右上方的直线附近.(2)两个变量具有负线性相关关系时,其散点是在从左上方到右下方的直线附近.一元线性回归模型及其应用考向1相关系数的计算及应用【例1】(2024·济南模拟)某食品加工厂新研制出一种袋装食品(规格:500克/袋),下面是近六个月每袋出厂价格xi(单位:元)与销售量yi(单位:万袋)的对应关系表:月份序号123456xi10.510.91111.51212.5yi2.221.91.81.51.4计算得=782.56,=19.9,=122.(1)计算该食品加工厂这六个月内这种袋装食品的平均每袋出厂价格、平均月销售量和平均月销售收入.(2)求每袋出厂价格与月销售量的样本相关系数(精确到0.01).(3)若样本相关系数|r|≥0.75,则认为相关性很强,否则没有较强的相关性.你认为该食品加工厂制订的每袋食品的出厂价格与月销售量是否有较强的相关性.附:样本相关系数,eq\r(0.322)≈0.57.解:(1)该食品加工厂这六个月内这种袋装食品的平均每袋出厂价格为x=16×平均月销售量为y=16×平均月销售收入为16=eq\f(1,6)×122=eq\f(61,3)(万元).(2)由已知,每袋出厂价格与月销售量的样本相关系数为r===122−6×11.4×1.8=−1.122.8×0.46=-≈-1.122×0.57≈(3)由于每袋出厂价格与月销售量的样本相关系数|r|≈0.98>0.75,所以该食品加工厂制定的每袋食品的出厂价格与月销售量有较强的相关性.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某条曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一条直线附近,变量之间就有线性相关关系.(2)样本相关系数法:利用样本相关系数判断,|r|越接近1,相关性越强.考向2线性回归模型【例2】一般机械设备中约有80%的零件因磨损而失效报废.零件磨损是由多方面因素造成的,某机械设备的零件随着使用时间的增加,”磨损指数”也在增加.现根据相关统计,得到一组数据如表所示.使用时间t/年12345磨损指数r/%4.55.66.46.87.2(1)求r关于t的经验回归方程.(2)在每使用完一整年后,工人会对该零件进行检测分析,若该零件在下一年使用过程中的”磨损指数”超过10%,则该零件需要在本次检测后立即进行报废处理.根据(1)中的经验回归方程,估计该零件使用多少年后需要进行报废处理.附:=30.5,=98.1,经验回归直线的斜率和截距的最小二乘估计公式分别为,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).解:(1)因为=30.5,所以eq\x\to(r)=eq\f(30.5,5)=6.1.又eq\x\to(t)=eq\f(1+2+3+4+5,5)=3,=98.1,=55,所以eq\o(b,\s\up6(^))==eq\f(98.1-5×3×6.1,55-5×32)=0.66,所以a=r-K000故r关于t的经验回归方程为r=0.66t+4.12.(2)由(1)可知,当t=8时,r=0.66×8+4.12=9.4<10,当t=9时,r=0.66×9+4.12=10.06>10.故估计该零件使用8年后需要进行报废处理.求经验回归方程的步骤考向3非线性回归模型及拟合效果判断【例3】(2024·青岛模拟)某高科技公司对其产品研发年投资额x(单位:亿元)与其年销售量y(单位:万件)的数据进行统计,整理后得到如下统计表1和散点图.通过初步分析,求得年销售量y关于年投资额x的经验回归方程为y=1.2x-1.3.表1x12345y0.511.535.5表2x12345z=lny-0.700.41.11.7(1)该公司科研团队通过进一步分析散点图的特征后,计划用y=ebx+a作为年销售量y关于年投资额x的非线性经验回归方程,请根据参考数据及表2的数据,求出此方程;(2)若求得一元线性回归模型的决定系数R12=0.88,请根据参考数据,求出(1)中非线性回归模型的决定系数附:=55,=13.4;e-0.68≈0.51,e-0.09≈0.91,e0.50≈1.65,e1.09≈2.97,e1.68≈5.37.经验回归直线的斜率和截距的最小二乘估计公式分别为,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x),决定系数R2=1-=1-.解:(1)由y=ebx+a,可得lny=bx+a,即z=bx+a,则z=−0.7+0+0.4+1.1+1.75y=0.5+1+1.5+3+5.55x=1+2+3+4+55b=13.4−5×3×0.555−5×a=0.5-0.59×3=-1.27,所以z=lny=0.59x-1.27,即非线性经验回归方程为y=e0.59x-1.27.(2)由(1)可知y=e0.59x-1.27,则可得数据如下表:x12345y0.511.535.5y0.510.911.652.975.37所以R22≈≈0.997,显然R21.非线性回归分析的解题步骤2.拟合效果判断不同模型的拟合效果由决定系数R2进行判断,R2越大,模型的拟合效果越好.某企业为改进生产,决定对某产品的生产数量及成本相关数据进行统计,收集了该产品的成本费y(单位:万元/吨)及同批次产品生产数量x(单位:吨)的20组数据.现分别用两种模型①y=bx+a,②y=dx+ceq\x\to(x)=14.5,eq\x\to(y)=10,eq\x\to(t)=0.08,(xi-eq\x\to(x))2=665,(ti-eq\x\to(t))2=0.04,(xi-eq\x\to(x))(yi-eq\x\to(y))=-450,(ti-eq\x\to(t))·(yi-eq\x\to(y))=4,其中ti=eq\f(1,xi),eq\x\to(t)=eq\f(1,20).若用R2=1-刻画拟合效果,得到模型①,②的R2值分别为R12=0.7891(1)利用R12和R22比较模型(2)根据(1)中所选择的模型,求y关于x的经验回归方程及同批次产品生产数量为25吨时y的预测值.附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线y=bx+a的斜率和截距的最小二乘估计分别为eq\o(b,\s\up6(^))=,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).解:(1)应该选择模型②.理由如下:由题意可知,R22>R12(2)令t=1x,则成本费y与t可用一元线性回归模型来拟合,有y=dt+c由已知可得eq\o(d,\s\up6(^))==eq\f(4,0.04)=100,所以eq\o(c,\s\up6(^))=eq\x\to(y)-eq\o(d,\s\up6(^))eq\x\to(t)=10-100×0.08=2,则y关于t的经验回归方程为y=100t+2,即成本费y与同批次产品生产数量x的非线性经验回归方程为y=100x当x=25时,y=10025所以同批次产品生产数量为25吨时,y的预测值为6万元/吨.残差分析【例4】(2024·衡水模拟)某新能源汽车生产公司,为了研究某生产环节中两个变量x,y之间的相关关系,统计样本数据得到如下表格:xi2023252730yi22.4334.6由表格中的数据可以得到y关于x的经验回归方程为y=0.25x+a,据此计算,下列选项中残差的绝对值最小的样本数据是()A.(30,4.6) B.(27,3)C.(25,3) D.(23,2.4)C解析:由表中数据可得x=15×(20+23+25+27+30)=25,y=15由y关于x的经验回归方程为y=0.25x+a,过样本点中心(x,可得3=0.25×25+a,解得a=-3.25,故y关于x的经验回归方程为y=0.25x-3.25.对于A,当x=30时,y=0.25×30-3.25=4.25,残差的绝对值为|4.6-4.25|=0.35;对于B,当x=27时,y=0.25×27-3.25=3.5,残差的绝对值为|3-3.5|=0.5;对于C,当x=25时,y=0.25×25-3.25=3,残差的绝对值为|3-3|=0;对于D,当x=23时,y=0.25×23-3.25=2.5,残差的绝对值为|2.4-2.5|=0.1.关于残差分析(1)通过残差分析发现原始数据中的可疑数据.(2)判断所建立模型的拟合效果.残差平方和越小,拟合效果越好;反之拟合效果越差.小王经营了一家酒店,去年经营状况逐步向好,该店各个月的营业收入y(单位:万元)随月份x的变化统计如下:x1234567y111318※28※35其中第4个月和第6个月的数据由于某种原因造成模糊,但知道7天的营业收入平均值是23.已知营业收入y与月份x可以用经验回归方程y=bx+a拟合,且第7个月的残差是-0.6,则a+b的值是()A.10.4 B.6.2C.4.2 D.2A解析:由残差ei=yi-yi,得-0.6=35-y7,即y7=35.6,所以35.6=7b+a①.又x=17×(1+2+3+4+5+6+7)=4,y由经验回归直线y=bx+a经过样本点中心(x,得23=4b+a②.联立①②,解得a=6.2,b=4.2,所以a+b=10.4.课时质量评价(五十九)1.下列有关线性回归的说法,不正确的是()A.具有相关关系的两个变量不是因果关系B.散点图能直观地反映数据的相关程度C.经验回归直线最能代表线性相关的两个变量之间的关系D.任何一组数据都有经验回归方程D解析:根据两个变量具有相关关系的概念,可知A正确;散点图能直观地描述呈相关关系的两个变量的相关程度,且经验回归直线最能代表它们之间的线性相关关系,所以B,C正确;具有相关关系的成对样本数据才有经验回归方程,所以D不正确.2.对两个变量x,y进行线性回归分析,计算得到样本相关系数r=-0.9962,则下列说法中正确的是()A.x与y正相关B.x与y具有较强的线性相关关系C.x与y几乎不具有线性相关关系D.x与y的线性相关关系还需进一步确定B解析:因为样本相关系数r=-0.9962,所以x与y负相关.因为|r|=0.9962,非常接近1,所以线性相关性很强.故选B.3.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bx B.y=a+bx2C.y=a+bex D.y=a+blnx4.某供电公司为了分析本地某小区的用电量y(单位:kW·h)与气温x(单位:°C)之间的关系,随机统计了4天的用电量与当天的气温,这两者之间的对应关系如下表:气温x/°C181310-1用电量y/(kW·h)24343864若上表中的数据可用经验回归方程y=-2x+b(b∈R)来预测,则当气温为-4°C时,该小区相应的用电量约为kW·h.68解析:由表中数据可得x=18+13+10−14则将(10,40)代入经验回归方程可得,40=-20+b,得b=60,则经验回归方程为y=-2x+60.当x=-4时,y=-2×(-4)+60=68.故当气温为-4℃时,该小区相应的用电量约为68kW·h.5.新能源汽车的核心部件是动力电池,电池占了整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,下表是2022年某企业的前5个月碳酸锂的价格y(单位:万元/千克)与月份x的统计数据.月份代码x12345碳酸锂价格y/(万元/千克)0.50.61m1.5根据表中数据,得出y关于x的经验回归方程为y=0.28x+a,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m=.1.4解析:由题可知,当x=5时,有1.5-y=1.5-(0.28×5+a)=-0.06,解得a=0.16.又x=1+2+3+4+55y=0.5+0.6+1+m+1.55=3.6+m且经验回归直线过样本点的中心(x,y),所以0.28×3+0.16=3.6+m56.(多选题)某工厂为了研究某种产品的产量x(单位:吨)与所需某种材料的用量y(单位:吨)之间的相关关系,在生产过程中收集了4组数据如表所示.根据表中数据可得经验回归方程为y=0.7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论