人教A版数学(选择性必修三讲义)第20讲8.2一元线性回归模型及其应用(8.2.1一元线性回归模型+8.2.2一元线性回归模型参数的最小二乘法估计)(学生版+解析)_第1页
人教A版数学(选择性必修三讲义)第20讲8.2一元线性回归模型及其应用(8.2.1一元线性回归模型+8.2.2一元线性回归模型参数的最小二乘法估计)(学生版+解析)_第2页
人教A版数学(选择性必修三讲义)第20讲8.2一元线性回归模型及其应用(8.2.1一元线性回归模型+8.2.2一元线性回归模型参数的最小二乘法估计)(学生版+解析)_第3页
人教A版数学(选择性必修三讲义)第20讲8.2一元线性回归模型及其应用(8.2.1一元线性回归模型+8.2.2一元线性回归模型参数的最小二乘法估计)(学生版+解析)_第4页
人教A版数学(选择性必修三讲义)第20讲8.2一元线性回归模型及其应用(8.2.1一元线性回归模型+8.2.2一元线性回归模型参数的最小二乘法估计)(学生版+解析)_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第02讲8.2一元线性回归模型及其应用(8.2.1一元线性回归模型+8.2.2一元线性回归模型参数的最小二乘法估计)课程标准学习目标①了解一元线性回归模型的含义,理解两个变量之间随机关系的一元线性回归模型的作用与意义。②了解残差在线性回归与非线性回归问题的作用及意义。③了解一元线性回归模型参数与最小二乘估计的推导过程,理解最小二乘估计的原理。④会结合题意求一元线性回归方程。⑤会用相关指数进行分析模型拟合的效果情况.。通过本节课的学习,要求会求一元线性回归方程,会进行残差分析,能判断回归模型的拟合效果,能利用样本数据建立统计模型并能进行预测知识点1:一元线性回归模型(1)一元线性回归模型我们称为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差.(2)随机误差在线性回归模型中,和为模型的未知参数,是与之间的误差,通常为随机变量,称为随机误差.它的均值,方程.线性回归模型的完整表达式为,在此模型中,随机误差的方差越小,用预报真实值的精度越高.知识点2:一元线性回归模型参数的最小二乘法(1)经验回归方程的求解法:最小二乘法回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.其中【即学即练1】(2024上·全国·高三专题练习)某校数学建模学生社团进行了一项实验研究,采集了的一组数据如下表所示:23456752.54540302517.5该社团对上述数据进行了分析,发现与之间具有线性相关关系.(1)画出表中数据的散点图,并指出与之间的相关系数是正还是负;(2)求出关于的线性回归方程,并写出当时,预测数据的值.附:在线性回归方程中,,其中为样本平均值.【答案】(1)散点图见解析,负(2),【详解】(1)由题意得散点图如图所示:由图可知与之间成负相关关系,所以是负.(2)因为,,,,所以,,∴关于线性回归方程为,所以当时,.(2)求经验回归方程的步骤①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;②列表求出,的值;③利用公式先计算,再根据经验回归直线过样本点的中心计算;④写出经验回归方程.求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.(3)经验回归方程的性质①经验回归直线一定过点,点通常称为样本点的中心;②一次函数的单调性由的符号决定,函数递增的充要条件是;函数递减的充要条件是.这说明:与正相关的充要条件是;与负相关的充要条件是.③在经验回归方程中,是经验回归直线的斜率,是截距.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,平均减小个单位.知识点3:残差(1)残差对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.(3)残差分析残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.【即学即练2】(2024·全国·高三专题练习)对于一组具有线性相关关系的样本数据,其样本中心为,回归方程为,则相应于样本点的残差为(

)A. B.C. D.【答案】C【详解】因为残差是实际观察值与估计值(拟合值)之间的差,所以相应于样本点的残差为,故选:C.知识点4:决定系数(1)残差平方和残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.(2)决定系数决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.【即学即练3】(2023下·青海西宁·高二校考阶段练习)甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:甲乙丙丁R20.980.780.500.85建立的回归模型拟合效果最好的同学是.【答案】选甲相关指数R2越大,表示回归模型拟合效果越好.【详解】相关指数越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.(3)决定系数与相关系数的联系与区别①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.题型01由散点图判断是否线性相关【典例1】(2023下·河南南阳·高二唐河县第一高级中学校考阶段练习)2003年春季,我国部分地区SARS流行,党和政府采取果断措施,防治结合,很快使病情得到控制,下表是某同学记载的5月1日至5月12日每天北京市SARS治愈者数据,以及根据这些数据绘制出的散点图日期5.15.25.35.45.55.65.75.85.95.105.115.12人数100109115118121134141152168175186203下列说法:①根据此散点图,可以判断日期与人数具有线性相关关系;②根据此散点图,可以判断日期与人数具有一次函数关系.其中正确的个数为(

)A.0个 B.1个 C.2个 D.以上都不对【典例2】(2023·全国·高二专题练习)某个男孩的年龄与身高的统计数据如下表所示:年龄x(岁)123456身高y(cm)788798108115120(1)画出散点图;(2)判断y与x是否具有线性相关关系,如果相关,是正相关还是负相关.【变式1】(2023下·高二课时练习)下列四个图中,两个变量x,y具有线性相关关系的是(

)A.①② B.①②④ C.②③④ D.②④题型02求回归直线方程【典例1】(2024上·江西赣州·高二统考期末)大气污染物(直径不大于2.5的颗粒物)的浓度超过一定限度会影响人的身体健康.为研究浓度y(单位:)与汽车流量x(单位:千辆)的线性关系,研究人员选定了10个城市,在每个城市建立交通监测点,统计了24h内过往的汽车流量以及同时段空气中的浓度,得到如下数据:城市编号12345678910总和x1.3001.4440.7861.6521.7561.7541.2001.5001.2000.90813.5y667621170156120721201001291030并计算得,,.(1)求变量关于的线性回归方程;(2)根据内浓度确定空气质量等级,浓度在0~35为优,35~75为良,75~115为轻度污染,115~150为中度污染,150~250为重度污染,已知某城市内过往的汽车流量为1360辆,判断该城市的空气质量等级.参考公式:线性回归方程为,其中以.【典例2】(2024上·重庆沙坪坝·高三重庆八中校考阶段练习)在入室盗窃类案件中,出现频率最高的痕迹物证之一就是足迹.负重行走对足迹步伐特征影响的规律强,而且较为稳定.正在行走的人在负重的同时,步长变短,步宽变大,步角变大.因此,以身高分别为170cm,175cm,180cm的人员各20名作为实验对象,让他们采取双手胸前持重物的负重方式行走,得到实验对象在负重0kg,5kg,10kg,15kg,20kg状态下相对稳定的步长数据平均值.并在不同身高情况下,建立足迹步长s(单位:cm)关于负重x(单位:kg)的三个经验回归方程.根据身高170cm组数据建立线性回归方程①:;根据身高175cm组数据建立线性回归方程②:根据身高180cm组数据建立线性回归方程③:.(1)根据身高180cm组的统计数据,求,的值,并解释参数的含义;身高180cm不同负重情况下的步长数据平均值负重x/kg05101520足迹步长s/cm74.3573.5071.8068.6065.75(2)在一起盗窃案中,被盗窃物品重为9kg,在现场勘查过程中,测量得犯罪嫌疑人往返时足迹步长的差值为4.464cm,推测该名嫌疑人的身高,并说明理由.附:.为回归方程,,,,【典例3】(2024上·全国·高三专题练习)某种产品的广告费支出x(单位:万元)与销售额y(万元)之间有如下一组数据:广告费支出x24568销售额y3040605070(1)求出样本点中心(2)求回归直线方程(其中,)【变式1】(2024上·黑龙江牡丹江·高三牡丹江市第二高级中学校联考期末)近期,一些地方中小学生“课间10分钟”问题受到社会广泛关注,国家号召中小学要增加学生的室外活动时间.但是进入12月后,天气渐冷,很多学生因气温低而减少了外出活动次数.为了解本班情况,一位同学统计了一周(5天)的气温变化和某一固定课间该班级的学生出楼人数,得到如下数据:温度(零下)710111517出楼人数201617107(1)利用最小二乘法,求变量之间的线性回归方程;附:用最小二乘法求线性回归方程的系数:(2)预测当温度为时,该班级在本节课间的出楼人数(人数:四舍五入取整数).(3)为了号召学生能够增加室外活动时间,学校举行拔河比赛,采取3局2胜制(无平局).在甲、乙两班的较量中,甲班每局获胜的概率均为,设随机变量X表示甲班获胜的局数,求的分布列和期望.【变式2】(2024上·全国·高三专题练习)下面给出了根据我国年年水果人均占有量(单位:)和年份代码绘制的散点图(年年的年份代码分别为).

(1)根据散点图分析与之间的相关关系;(2)根据散点图相应数据计算得,,求关于的线性回归方程.(精确到)附:回归方程中斜率和截距的最小二乘估计公式分别为:,【变式3】(2024·全国·高三专题练习)在一次抽样调查中测得个样本点,得到下表及散点图.

(1)根据散点图判断与哪一个适宜作为关于的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立与的回归方程;(计算结果保留整数)参考公式:题型03求样本中心(根据样本中心求参数)【典例1】(2024上·全国·高三专题练习)具有线性相关关系的变量的一组数据如下:x0123y-5-4.5-4.2-3.5其线性回归直线方程为,则回归直线经过(

)A.第一、二、三象限 B.第二、三、四象限C.第一、二、四象限 D.第一、三、四象限【典例2】(2024下·全国·高二随堂练习)已知取表中的数值,若具有线性相关关系,线性回归方程为,则=(

)0134a4.34.86.7A.2.2 B.2.4 C.2.5 D.2.6【典例3】(2024下·全国·高二随堂练习)某公司一种型号的产品近期销售情况如表:月份23456销售额(万元)15.116.317.017.218.4根据上表可得到回归直线方程,据此估计,该公司7月份这种型号产品的销售额为(

)A.18.85万元 B.19.3万元 C.19.25万元 D.19.05万元【典例4】(多选)(2024上·浙江宁波·高三统考期末)某电商平台为了对某一产品进行合理定价,采用不同的单价在平台试销,得到的数据如下表所示:单价x/元88.599.510销量y/万件8985807868根据以上数据得到与具有较强的线性关系,若用最小二乘估计得到经验回归方程为,则(

)A.相关系数 B.点一定在经验回归直线上C. D.时,对应销量的残差为【变式1】(2024上·四川绵阳·高二绵阳南山中学实验学校校考期末)已知x与y之间的一组数据:x0123y1357则y与x的线性回归方程为必过点(

)A.(2,2) B.(1.5,0)C.(1.5,4) D.(1,

2)【变式2】(2024上·重庆·高三重庆巴蜀中学校考期中)已知变量x,γ呈线性相关关系,回归方程为,且变量x,y的样本数据如下表所示x-2-1012y54m21据此计算出在时,预测值为-0.2,则m的值为(

)A.3 B.2.8 C.2 D.1【变式3】(2024下·全国·高二随堂练习)变量x,y的数据如下所示:x54321y21.5110.5回归直线恒过点.【变式4】(2024上·全国·高三专题练习)某地建立了农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:年份20192020202120222023年份代码12345年借阅量万册4.95.15.55.75.8根据上表,可得关于的线性回归方程为.则.题型04根据回归直线方程估计数据【典例1】(2024上·黑龙江齐齐哈尔·高三校联考期末)已知在特定的时期内某人在一个月内每天投入的体育锻炼时间(分钟)与一个月内减轻的体重(斤)的一组数据如表所示:3040506070一个月内减轻的体重与每天投入的体育锻炼时间之间具有较强的线性相关关系,其线性回归直线方程是,据此模型估计当此人在一个月内每天投入的体育锻炼时间为90分钟时,该月内减轻的体重约为(

)A.斤 B.斤 C.斤 D.斤【典例2】(2024下·全国·高二随堂练习)某科学兴趣小组的同学认为生物都是由蛋白质构成的,高温可以使蛋白质变性失活,于是想初步探究某微生物的成活率与温度的关系,微生物数量(个)与温度的部分数据如下表:温度481018微生物数量(个)30221814由表中数据算得回归方程为,预测当温度为时,微生物数量为个.【变式1】(2024上·全国·高三专题练习)如果在一次实验中,测得的五组数值如下表所示,经计算知,y对x的线性回归方程是,预测当时,(

)x01234y1015203035A.73.5 B.74 C.74.5 D.75【变式2】(2024上·全国·高三专题练习)牛膝是苋科多年生药用草本植物,具有活血通经、补肝肾、强筋骨等功效,可用于治疗腰膝酸痛等症状.某农户种植牛膝的时间(单位:天)和牛膝的根部直径(单位:)的统计表如下:20304050600.81.32.23.34.5由上表可得经验回归方程为,若此农户准备在时采收牛膝,据此模型预测,此批牛滕采收时间预计是第天.题型05残差计算【典例1】(2024·全国·高三专题练习)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为(

)A.38.1 B.22.6 C. D.91.1【典例2】(2024·云南楚雄·云南省楚雄彝族自治州民族中学校考一模)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为.【典例3】(2023·全国·高二专题练习)随机选取变量和变量的对观测数据,选取的第对观测数据记为,其数值对应如下表所示:编号计算得:,,,,.(1)求变量和变量的样本相关系数(小数点后保留位),判断这两个变量是正相关还是负相关,并推断它们的线性相关程度;(2)假设变量关于的一元线性回归模型为.(ⅰ)求关于的经验回归方程,并预测当时的值;(ⅱ)设为时该回归模型的残差,求、、、、的方差.参考公式:,,.【变式1】(2024·全国·高三专题练习)根据一组样本数据,,,的散点图分析x与y之间是否存在线性相关关系,求得其线性回归方程为,则在样本点处的残差为(

)A. B. C. D.【变式2】(2024·全国·高三专题练习)从某大学中随机选取8名女大学生,其身高x(单位:cm)与体重y(单位:kg)数据如下表:x165165157170175165155170y4857505464614359若已知y与x的线性回归方程为,设残差记为观测值与预测值之间的差(即残差)那么选取的女大学生身高为175cm时,相应的残差为.【变式3】(2023·高二课时练习)高中女学生的身高预报体重的回归方程是(其中,的单位分别是cm,kg),则此方程在样本点处的残差是.题型06相关指数计算【典例1】(2024上·全国·高三期末)2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:建立了y与x的两个回归模型:模型①:,模型②:;序号1234567x234681013y15222740485460(1)根据表格中的数据,比较模型①,②的相关指数的大小;(2)据(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..回归模型模型①模型②79.3120.2【典例2】(2023·全国·高二专题练习)已知与之间的数据如下表:(1)求关于的线性回归方程;(2)完成下面的残差表:并判断(1)中线性回归方程的回归效果是否良好(若,则认为回归效果良好).附:,,,.【典例3】(2021下·山东青岛·高二统考期中)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如下表所示:月份物流成本利润残差根据最小二乘法公式求得线性回归方程为.(1)求的值,并利用已知的线性回归方程求出月份对应的残差值;(2)请先求出线性回归模型的决定系数(精确到);若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)决定系数,请说明以上两种模型哪种模型拟合效果更好?(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为万元.请重新根据最小二乘法的思想与公式,求出新的线性回归方程.附1(修正前的参考数据):,,,.附2:.附3:,.【变式1】(2022下·宁夏·高二六盘山高级中学校考阶段练习)有一组统计数据和,根据数据建立了如下的两个模型:①,②.通过残差分析发现第①个线性模型比第②个线性模型拟合效果好.若分别是相关指数和残差平方和,则下列结论正确的是.①>,②<,③<,④>.【变式2】(2023上·重庆·高三重庆八中校考阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,.x141152168182195204223254277y23.124.227.227.828.731.432.534.836.2以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,.(ⅰ)求;(ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数.附:相关系数,决定系数,.【变式3】(2023·广东汕头·统考二模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过试验测得行驶里程与某品牌轮胎凹槽深度的数据如下:行驶里程/万km0.000.641.291.932.573.223.864.515.15轮胎凹槽深度/mm10.028.377.396.485.825.204.554.163.82以行驶里程为横坐标、轮胎凹槽深度为纵坐标作散点图,如图所示.(1)根据散点图,可认为散点集中在直线附近,由此判断行驶里程与轮胎凹槽深度线性相关,并计算得如下数据,请求出行驶里程与轮胎凹槽深度的相关系数(保留两位有效数字),并推断它们线性相关程度的强弱;2.576.20115.1029.46附:相关系数(2)通过散点图,也可认为散点集中在曲线附近,考虑使用对数回归模型,并求得经验回归方程及该模型的决定系数.已知(1)中的线性回归模型为,在同一坐标系作出这两个模型,据图直观回答:哪个模型的拟合效果更好?并用决定系数验证你的观察所得.附:线性回归模型中,决定系数等于相关系数的平方,即.A夯实基础B能力提升A夯实基础一、单选题1.(2024·四川绵阳·统考二模)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,x2468y58.213m则下列说法正确的是(

)A.B.变量y与x是负相关关系C.该回归直线必过点D.x增加1个单位,y一定增加2个单位2.(2024上·全国·高三专题练习)变量,之间有如下对应数据:44.55.56121110已知变量对呈线性相关关系,且回归方程为,则的值是()A.10 B.9 C.8 D.73.(2024上·全国·高三期末)某同学在研究变量之间的相关关系时,得到以下数据:并采用最小二乘法得到了线性回归方程,则(

)4.85.878.39.12.84.17.29.111.8A. B. C. D.4.(2024·全国·高三专题练习)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是(

)A.

B.

C.

D.

5.(2024下·全国·高二随堂练习)一组成对数据样本中心点为,由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使(

)最小.A.总偏差平方和 B.残差平方和C.回归平方和 D.竖直距离和6.(2024·全国·高三专题练习)为研究每平方米平均建筑费用与楼层数的关系,某开发商收集了一栋住宅楼在建筑过程中,建筑费用的相关信息,将总楼层数与每平米平均建筑成本(单位:万元)的数据整理成如图所示的散点图:则下面四个回归方程类型中最适宜作为每平米平均建筑费用和楼层数的回归方程类型的是(

)A. B.C. D.7.(2024上·山东滨州·高三统考期末)某学校一同学研究温差(单位:℃)与本校当天新增感冒人数(单位:人)的关系,该同学记录了5天的数据:5689121620252836由上表中数据求得温差与新增感冒人数满足经验回归方程,则下列结论不正确的是(

)A.与有正相关关系 B.经验回归直线经过点C. D.时,残差为0.28.(2024上·全国·高三专题练习)已知一组成对数据中y关于x的一元非线性回归方程,已知,则(

)A. B.1 C. D.二、多选题9.(2024·全国·模拟预测)下列有关回归分析的结论中,正确的有(

)A.若回归方程为,则变量y与x负相关B.运用最小二乘法求得的经验回归直线一定经过样本点的中心C.若决定系数的值越接近于1,表示回归模型的拟合效果越好D.若散点图中所有点都在直线上,则相关系数10.(2024上·广东揭阳·高三统考期末)2023年入冬以来,流感高发,某医院统计了一周中连续5天的流感就诊人数y与第天的数据如表所示.x12345y2110a15a90109根据表中数据可知x,y具有较强的线性相关关系,其经验回归方程为,则(

)A.样本相关系数在内 B.当时,残差为-2C.点一定在经验回归直线上 D.第6天到该医院就诊人数的预测值为130三、填空题11.(2024上·广东深圳·高三统考期末)某同学收集了变量,的相关数据如下:x0.5233.545y15为了研究,的相关关系,他由最小二乘法求得关于的线性回归方程为,经验证回归直线正好经过样本点,则.12.(2023·高二单元测试)下列关于回归分析的说法正确的是(填上所有正确说法的序号)①相关系数越小,两个变量的相关程度越弱;②残差平方和越大的模型,拟合效果越好;③用相关指数来刻画回归效果时,越小,说明模型的拟合效果越好;④用最小二乘法求回归直线方程,是寻求使取最小值时的、的值;⑤在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高.四、解答题13.(2023上·辽宁沈阳·高二校考期末)某班社会实践小组在寒假去书店体验图书销售员工作,并对某图书定价x(元)与当天销量y(本/天)之间的关系进行调查,得到了一组数据,发现变量大致呈线性关系,数据如下表所示定价x(元)681012销量y(本/天)141187参考数据:,参考公式:回归方程中斜率的最小二乘估计值公式为(1)根据以上数据,求出y关于x的回归直线方程;(2)根据回归直线方程,预测当该图书每天的销量为4本时,该图书的定价是多少元?14.(2023上·黑龙江鸡西·高三鸡西市第一中学校校考期末)直播带货是一种直播和电商相结合的销售手段,目前已被广大消费者所接受.针对这种现状,某公司决定逐月加大直播带货的投入,直播带货金额稳步提升,以下是该公司2023年前5个月的带货金额:月份12345带货金额万元350440580700880(1)计算变量的相关系数(结果精确到0.01).(2)求变量之间的线性回归方程,并据此预测2023年6月份该公司的直播带货金额.参考数据:,参考公式:相关系数,线性回归方程的斜率,截距.B能力提升15.(2023上·河南焦作·高二博爱县第一中学校考期中)已知高三某学生为了迎接高考,参加了学校的5次模拟考试,其中5次的模拟考试成绩如表所示,次数(x)12345考试成绩(y)498499497501505设变量x,y满足回归直线方程.(1)假如高考也符合上述的模拟考试的回归直线方程,高考看作第10次模拟考试,预测2024年的高考的成绩;(2)从上面的5次考试成绩中随机抽取3次,其中2次成绩都大于500分的概率.参考公式:回归直线方程中的斜率和截距的最小二乘估计公式分别为,.16.(2023·全国·模拟预测)2015—2019年,中国社会消费品零售额占GDP的比重超过4种,2020年后,中国社会消费品零售额占GDP的比重逐年下降.下表为2018—2022年中国社会消费品零售额(单位:万亿元)及其占GDP的比重y(单位:%)的数据,其中2018—2022年对应的年份代码x依次为1~5.年份代码x12345社会消费品零售额37.840.839.244.144.0社会消费品零售额占GDP的比重y/%41.341.539.038.636.7(1)由上表数据,是否可用一元线性回归模型拟合y与x的关系,请用相关系数加以说明.(2)请建立y关于x的一元线性回归方程.(3)从2018—2022年中国社会消费品零售额这5个数据中随机抽取2个数据.若抽取的2个数据中至少有1个数据大于40.0,求这2个数据恰好有1个数据不小于44.0的概率.附:,,,,相关系数.对于一组数据,其一元线性回归直线的斜率和截距的最小二乘估计公式分别为,.17.(2023上·云南昆明·高三校考阶段练习)云南省统计局发布《全省旅游业发展情况(2015-2022年)》报告,其中2015年至2022年游客总人数y(单位:亿人次)的数据如下表:年份20152016201720182019202020212022年份代号x12345678游客总人数y3.34.35.76.98.15.36.58.4为了预测2023年云南省游客总人数,根据2015年至2022年游客总人数y的数据建立线性回归模型一,得到回归方程:,但由于受到2020年疫情影响,估计预测不准确,若用2015年至2019年数据建立线性回归模型二,得到回归方程:(1)根据和预测2023年云南省游客总人数(预测数据精确到0.1);(2)为了检验两种模型的预测效果,对两种模型作残差分析得到:模型一:总偏差平方和,残差平方和;模型二:总偏差平方和,残差平方和,用来比较模型一与模型二的拟合效果(精确到0.001);(3)根据2020年至2022年游客总人数y的数据建立线性回归模型三,求回归方程,并根据预测2023年云南省游客总人数(预测数据精确到0.1).参考公式:,,,.第02讲8.2一元线性回归模型及其应用(8.2.1一元线性回归模型+8.2.2一元线性回归模型参数的最小二乘法估计)课程标准学习目标①了解一元线性回归模型的含义,理解两个变量之间随机关系的一元线性回归模型的作用与意义。②了解残差在线性回归与非线性回归问题的作用及意义。③了解一元线性回归模型参数与最小二乘估计的推导过程,理解最小二乘估计的原理。④会结合题意求一元线性回归方程。⑤会用相关指数进行分析模型拟合的效果情况.。通过本节课的学习,要求会求一元线性回归方程,会进行残差分析,能判断回归模型的拟合效果,能利用样本数据建立统计模型并能进行预测知识点1:一元线性回归模型(1)一元线性回归模型我们称为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差.(2)随机误差在线性回归模型中,和为模型的未知参数,是与之间的误差,通常为随机变量,称为随机误差.它的均值,方程.线性回归模型的完整表达式为,在此模型中,随机误差的方差越小,用预报真实值的精度越高.知识点2:一元线性回归模型参数的最小二乘法(1)经验回归方程的求解法:最小二乘法回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.其中【即学即练1】(2024上·全国·高三专题练习)某校数学建模学生社团进行了一项实验研究,采集了的一组数据如下表所示:23456752.54540302517.5该社团对上述数据进行了分析,发现与之间具有线性相关关系.(1)画出表中数据的散点图,并指出与之间的相关系数是正还是负;(2)求出关于的线性回归方程,并写出当时,预测数据的值.附:在线性回归方程中,,其中为样本平均值.【答案】(1)散点图见解析,负(2),【详解】(1)由题意得散点图如图所示:由图可知与之间成负相关关系,所以是负.(2)因为,,,,所以,,∴关于线性回归方程为,所以当时,.(2)求经验回归方程的步骤①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;②列表求出,的值;③利用公式先计算,再根据经验回归直线过样本点的中心计算;④写出经验回归方程.求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.(3)经验回归方程的性质①经验回归直线一定过点,点通常称为样本点的中心;②一次函数的单调性由的符号决定,函数递增的充要条件是;函数递减的充要条件是.这说明:与正相关的充要条件是;与负相关的充要条件是.③在经验回归方程中,是经验回归直线的斜率,是截距.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,平均减小个单位.知识点3:残差(1)残差对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.(3)残差分析残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.【即学即练2】(2024·全国·高三专题练习)对于一组具有线性相关关系的样本数据,其样本中心为,回归方程为,则相应于样本点的残差为(

)A. B.C. D.【答案】C【详解】因为残差是实际观察值与估计值(拟合值)之间的差,所以相应于样本点的残差为,故选:C.知识点4:决定系数(1)残差平方和残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.(2)决定系数决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.【即学即练3】(2023下·青海西宁·高二校考阶段练习)甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:甲乙丙丁R20.980.780.500.85建立的回归模型拟合效果最好的同学是.【答案】选甲相关指数R2越大,表示回归模型拟合效果越好.【详解】相关指数越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.(3)决定系数与相关系数的联系与区别①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.题型01由散点图判断是否线性相关【典例1】(2023下·河南南阳·高二唐河县第一高级中学校考阶段练习)2003年春季,我国部分地区SARS流行,党和政府采取果断措施,防治结合,很快使病情得到控制,下表是某同学记载的5月1日至5月12日每天北京市SARS治愈者数据,以及根据这些数据绘制出的散点图日期5.15.25.35.45.55.65.75.85.95.105.115.12人数100109115118121134141152168175186203下列说法:①根据此散点图,可以判断日期与人数具有线性相关关系;②根据此散点图,可以判断日期与人数具有一次函数关系.其中正确的个数为(

)A.0个 B.1个 C.2个 D.以上都不对【答案】B【详解】由题意,做出散点图如下图所示,

由图可知,日期与人数具有线性相关关系,但不是一次函数关系,①正确,②错误,故选:B.【典例2】(2023·全国·高二专题练习)某个男孩的年龄与身高的统计数据如下表所示:年龄x(岁)123456身高y(cm)788798108115120(1)画出散点图;(2)判断y与x是否具有线性相关关系,如果相关,是正相关还是负相关.【答案】(1)答案见解析(2)y与x具有线性相关关系,且是正相关关系.【详解】(1)散点图如图所示:

(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系,且是正相关关系.【变式1】(2023下·高二课时练习)下列四个图中,两个变量x,y具有线性相关关系的是(

)A.①② B.①②④ C.②③④ D.②④【答案】D【详解】由图可知,②④中的点集中在一条直线的附近,所以图②④中的两个变量具有线性相关关系,故选:D.题型02求回归直线方程【典例1】(2024上·江西赣州·高二统考期末)大气污染物(直径不大于2.5的颗粒物)的浓度超过一定限度会影响人的身体健康.为研究浓度y(单位:)与汽车流量x(单位:千辆)的线性关系,研究人员选定了10个城市,在每个城市建立交通监测点,统计了24h内过往的汽车流量以及同时段空气中的浓度,得到如下数据:城市编号12345678910总和x1.3001.4440.7861.6521.7561.7541.2001.5001.2000.90813.5y667621170156120721201001291030并计算得,,.(1)求变量关于的线性回归方程;(2)根据内浓度确定空气质量等级,浓度在0~35为优,35~75为良,75~115为轻度污染,115~150为中度污染,150~250为重度污染,已知某城市内过往的汽车流量为1360辆,判断该城市的空气质量等级.参考公式:线性回归方程为,其中以.【答案】(1)(2)轻度污染【详解】(1)由题意得,又因为,所以所以所以变量y关于x的线性回归方程为.(2)当辆千辆时,可得因为所以该城市的空气质量等级为轻度污染.【典例2】(2024上·重庆沙坪坝·高三重庆八中校考阶段练习)在入室盗窃类案件中,出现频率最高的痕迹物证之一就是足迹.负重行走对足迹步伐特征影响的规律强,而且较为稳定.正在行走的人在负重的同时,步长变短,步宽变大,步角变大.因此,以身高分别为170cm,175cm,180cm的人员各20名作为实验对象,让他们采取双手胸前持重物的负重方式行走,得到实验对象在负重0kg,5kg,10kg,15kg,20kg状态下相对稳定的步长数据平均值.并在不同身高情况下,建立足迹步长s(单位:cm)关于负重x(单位:kg)的三个经验回归方程.根据身高170cm组数据建立线性回归方程①:;根据身高175cm组数据建立线性回归方程②:根据身高180cm组数据建立线性回归方程③:.(1)根据身高180cm组的统计数据,求,的值,并解释参数的含义;身高180cm不同负重情况下的步长数据平均值负重x/kg05101520足迹步长s/cm74.3573.5071.8068.6065.75(2)在一起盗窃案中,被盗窃物品重为9kg,在现场勘查过程中,测量得犯罪嫌疑人往返时足迹步长的差值为4.464cm,推测该名嫌疑人的身高,并说明理由.附:.为回归方程,,,,【答案】(1),,参数的含义详见解析(2)嫌疑人身高为175cm,理由详见解析【详解】(1)由题意可知:,,,所以,;的含义表示,负重每增加足迹步长减少.(2)设被盗窃物品重为9kg时,身高170cm的步长误差为,高175cm的步长误差为,高180cm的步长误差为,由题意可得,,,,因为与测量得犯罪嫌疑人往返时足迹步长的差值最接近,所以犯罪嫌疑人身高为175cm.【典例3】(2024上·全国·高三专题练习)某种产品的广告费支出x(单位:万元)与销售额y(万元)之间有如下一组数据:广告费支出x24568销售额y3040605070(1)求出样本点中心(2)求回归直线方程(其中,)【答案】(1)(2)【详解】(1)由题意可得:,,所以样本点中心为.(2)由题意可得:,,所以,,所以回归直线方程为.【变式1】(2024上·黑龙江牡丹江·高三牡丹江市第二高级中学校联考期末)近期,一些地方中小学生“课间10分钟”问题受到社会广泛关注,国家号召中小学要增加学生的室外活动时间.但是进入12月后,天气渐冷,很多学生因气温低而减少了外出活动次数.为了解本班情况,一位同学统计了一周(5天)的气温变化和某一固定课间该班级的学生出楼人数,得到如下数据:温度(零下)710111517出楼人数201617107(1)利用最小二乘法,求变量之间的线性回归方程;附:用最小二乘法求线性回归方程的系数:(2)预测当温度为时,该班级在本节课间的出楼人数(人数:四舍五入取整数).(3)为了号召学生能够增加室外活动时间,学校举行拔河比赛,采取3局2胜制(无平局).在甲、乙两班的较量中,甲班每局获胜的概率均为,设随机变量X表示甲班获胜的局数,求的分布列和期望.【答案】(1)(2)19(3)分布列见解析;期望为【详解】(1),,,,,回归直线方程为.(2)当时,(人),所以,预测当温度为时,该班级在本节课间的出楼人数为19人.(3)随机变量可取0,1,2.,,,所以的分布列为:012p所以的数学期望为.【变式2】(2024上·全国·高三专题练习)下面给出了根据我国年年水果人均占有量(单位:)和年份代码绘制的散点图(年年的年份代码分别为).

(1)根据散点图分析与之间的相关关系;(2)根据散点图相应数据计算得,,求关于的线性回归方程.(精确到)附:回归方程中斜率和截距的最小二乘估计公式分别为:,【答案】(1)与之间是正相关关系(2)【详解】(1)由散点图可以看出,散点大致分布在某一直线的附近,且当由小变大时,也由小变大,与之间是正相关关系.(2)由表格数据得:,,,,关于的线性回归方程为.【变式3】(2024·全国·高三专题练习)在一次抽样调查中测得个样本点,得到下表及散点图.

(1)根据散点图判断与哪一个适宜作为关于的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立与的回归方程;(计算结果保留整数)参考公式:【答案】(1)(2)【详解】(1)由题中散点图可以判断,适宜作为关于的回归方程;(2)令,则,原数据变为由表可知与近似具有线性相关关系,计算得,,,所以,,则.所以关于的回归方程是.题型03求样本中心(根据样本中心求参数)【典例1】(2024上·全国·高三专题练习)具有线性相关关系的变量的一组数据如下:x0123y-5-4.5-4.2-3.5其线性回归直线方程为,则回归直线经过(

)A.第一、二、三象限 B.第二、三、四象限C.第一、二、四象限 D.第一、三、四象限【答案】D【详解】解:由图表中的数据知:x,y呈正相关,所以,又,则样本中心为,在第四象限,所以回归直线经过第一、三、四象限,故选:D【典例2】(2024下·全国·高二随堂练习)已知取表中的数值,若具有线性相关关系,线性回归方程为,则=(

)0134a4.34.86.7A.2.2 B.2.4 C.2.5 D.2.6【答案】A【详解】由题意可知:,,所以样本中心为,代入回归方程有:,解得.故选:.【典例3】(2024下·全国·高二随堂练习)某公司一种型号的产品近期销售情况如表:月份23456销售额(万元)15.116.317.017.218.4根据上表可得到回归直线方程,据此估计,该公司7月份这种型号产品的销售额为(

)A.18.85万元 B.19.3万元 C.19.25万元 D.19.05万元【答案】D【详解】由表中数据可得,,因为回归直线过样本点的中心,所以,解得,所以回归直线方程为,则该公司7月份这种型号产品的销售额为万元.故选:D【典例4】(多选)(2024上·浙江宁波·高三统考期末)某电商平台为了对某一产品进行合理定价,采用不同的单价在平台试销,得到的数据如下表所示:单价x/元88.599.510销量y/万件8985807868根据以上数据得到与具有较强的线性关系,若用最小二乘估计得到经验回归方程为,则(

)A.相关系数 B.点一定在经验回归直线上C. D.时,对应销量的残差为【答案】BC【详解】由表中数据可得,所以样本中心为,故在经验回归直线上,B正确,由可得与具负相关,故A错误,将代入可得,解得,C正确,当时,,所以残差为,D错误,故选:BC【变式1】(2024上·四川绵阳·高二绵阳南山中学实验学校校考期末)已知x与y之间的一组数据:x0123y1357则y与x的线性回归方程为必过点(

)A.(2,2) B.(1.5,0)C.(1.5,4) D.(1,

2)【答案】C【详解】由已知,,所以回归直线一定过中心点.故选:C.【变式2】(2024上·重庆·高三重庆巴蜀中学校考期中)已知变量x,γ呈线性相关关系,回归方程为,且变量x,y的样本数据如下表所示x-2-1012y54m21据此计算出在时,预测值为-0.2,则m的值为(

)A.3 B.2.8 C.2 D.1【答案】C【详解】由题意知回归方程为过点,则,即;又,,由于回归方程为必过样本中心点,故,故选:C【变式3】(2024下·全国·高二随堂练习)变量x,y的数据如下所示:x54321y21.5110.5回归直线恒过点.【答案】【详解】变量的平均值为,变量的平均值为,故回归直线恒过点.故答案为:.【变式4】(2024上·全国·高三专题练习)某地建立了农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:年份20192020202120222023年份代码12345年借阅量万册4.95.15.55.75.8根据上表,可得关于的线性回归方程为.则.【答案】【详解】根据表格可知,,,代入,可得.故答案为:题型04根据回归直线方程估计数据【典例1】(2024上·黑龙江齐齐哈尔·高三校联考期末)已知在特定的时期内某人在一个月内每天投入的体育锻炼时间(分钟)与一个月内减轻的体重(斤)的一组数据如表所示:3040506070一个月内减轻的体重与每天投入的体育锻炼时间之间具有较强的线性相关关系,其线性回归直线方程是,据此模型估计当此人在一个月内每天投入的体育锻炼时间为90分钟时,该月内减轻的体重约为(

)A.斤 B.斤 C.斤 D.斤【答案】A【详解】由表中数据可得,,将代入得,解得,即,则当时,.故选:A.【典例2】(2024下·全国·高二随堂练习)某科学兴趣小组的同学认为生物都是由蛋白质构成的,高温可以使蛋白质变性失活,于是想初步探究某微生物的成活率与温度的关系,微生物数量(个)与温度的部分数据如下表:温度481018微生物数量(个)30221814由表中数据算得回归方程为,预测当温度为时,微生物数量为个.【答案】9【详解】由表格数据可知,,,因为点在直线上,所以,即,故当时,,即预测当温度为时,微生物数量为9个.故答案为:9【变式1】(2024上·全国·高三专题练习)如果在一次实验中,测得的五组数值如下表所示,经计算知,y对x的线性回归方程是,预测当时,(

)x01234y1015203035A.73.5 B.74 C.74.5 D.75【答案】B【详解】由题意可得:,即样本中心点为,则,解得,所以,令时,,预测当时,.故选:B【变式2】(2024上·全国·高三专题练习)牛膝是苋科多年生药用草本植物,具有活血通经、补肝肾、强筋骨等功效,可用于治疗腰膝酸痛等症状.某农户种植牛膝的时间(单位:天)和牛膝的根部直径(单位:)的统计表如下:20304050600.81.32.23.34.5由上表可得经验回归方程为,若此农户准备在时采收牛膝,据此模型预测,此批牛滕采收时间预计是第天.【答案】110【详解】,,又过点,所以,即,当时,,所以此批牛膝采收时间预计是第110天.故答案为:110题型05残差计算【典例1】(2024·全国·高三专题练习)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为(

)A.38.1 B.22.6 C. D.91.1【答案】C【详解】因为观测值减去预测值称为残差,所以当时,,所以残差为.故选:C.【典例2】(2024·云南楚雄·云南省楚雄彝族自治州民族中学校考一模)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为.【答案】/【详解】经验回归直线过样本点的中心,,,经验回归方程为.当时,,残差为.故答案为:.【典例3】(2023·全国·高二专题练习)随机选取变量和变量的对观测数据,选取的第对观测数据记为,其数值对应如下表所示:编号计算得:,,,,.(1)求变量和变量的样本相关系数(小数点后保留位),判断这两个变量是正相关还是负相关,并推断它们的线性相关程度;(2)假设变量关于的一元线性回归模型为.(ⅰ)求关于的经验回归方程,并预测当时的值;(ⅱ)设为时该回归模型的残差,求、、、、的方差.参考公式:,,.【答案】(1)答案见解析(2)①答案见解析;②【详解】(1)解:,所以,这两个变量负相关,且具有较强的线性相关性.(2)解:①,则,所以,关于的经验回归方程为,当时,则,所以,当时,的预测值为;②由,计算得该回归模型的残差如下表所示:所以,残差的方差为.【变式1】(2024·全国·高三专题练习)根据一组样本数据,,,的散点图分析x与y之间是否存在线性相关关系,求得其线性回归方程为,则在样本点处的残差为(

)A. B. C. D.【答案】B【详解】把代入,得,所以在样本点处的残差.故选:B.【变式2】(2024·全国·高三专题练习)从某大学中随机选取8名女大学生,其身高x(单位:cm)与体重y(单位:kg)数据如下表:x165165157170175165155170y4857505464614359若已知y与x的线性回归方程为,设残差记为观测值与预测值之间的差(即残差)那么选取的女大学生身高为175cm时,相应的残差为.【答案】4【详解】已知y与x的线性同归方程为当时:,相应的残差为:故答案为:4【变式3】(2023·高二课时练习)高中女学生的身高预报体重的回归方程是(其中,的单位分别是cm,kg),则此方程在样本点处的残差是.【答案】1.5【详解】由样本数据得到,女大学生的身高预报体重的回归方程是,当时,,此方程在样本处残差为:.故答案为:1.5.题型06相关指数计算【典例1】(2024上·全国·高三期末)2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:建立了y与x的两个回归模型:模型①:,模型②:;序号1234567x234681013y15222740485460(1)根据表格中的数据,比较模型①,②的相关指数的大小;(2)据(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..回归模型模型①模型②79.3120.2【答案】(1)(2)收益为【详解】(1)对于模型①,对应的,故对应的,故对应的相关指数,对于模型②,同理对应的相关指数,.(2)故模型②拟合精度更高、更可靠.故对A型材料进行应用改造的投入为17亿元时的直接收益为.【典例2】(2023·全国·高二专题练习)已知与之间的数据如下表:(1)求关于的线性回归方程;(2)完成下面的残差表:并判断(1)中线性回归方程的回归效果是否良好(若,则认为回归效果良好).附:,,,.【答案】(1);(2)表格见解析,良好.【详解】(1)由已知图表可得,,,,则,,故.(2)∵,∴,,,,,则残差表如下表所示,∵,∴,∴该线性回归方程的回归效果良好.【典例3】(2021下·山东青岛·高二统考期中)现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如下表所示:月份物流成本利润残差根据最小二乘法公式求得线性回归方程为.(1)求的值,并利用已知的线性回归方程求出月份对应的残差值;(2)请先求出线性回归模型的决定系数(精确到);若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)决定系数,请说明以上两种模型哪种模型拟合效果更好?(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为万元.请重新根据最小二乘法的思想与公式,求出新的线性回归方程.附1(修正前的参考数据):,,,.附2:.附3:,.【答案】(1),;(2);线性回归模型拟合程度更好;(3).【详解】(1)因为,,所以,解得,所以月份对应的残差值;(2)由已知公式得,,所以线性回归模型拟合程度更好;(3)由(1)可知,第八组数据的利润应为(万元)此时,又,,,所以,所以,所以重新采集数据后,线性回归方程为.【变式1】(2022下·宁夏·高二六盘山高级中学校考阶段练习)有一组统计数据和,根据数据建立了如下的两个模型:①,②.通过残差分析发现第①个线性模型比第②个线性模型拟合效果好.若分别是相关指数和残差平方和,则下列结论正确的是.①>,②<,③<,④>.【答案】①③【详解】解:用相关指数的值判断模型的拟合效果,越大,说明残差平方和越小,模型的拟合效果越好,因为第①个线性模型比第②个线性模型拟合效果好,所以,;故答案为:①③【变式2】(2023上·重庆·高三重庆八中校考阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,.x141152168182195204223254277y23.124.227.227.828.731.432.534.836.2以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,.(ⅰ)求;(ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数.附:相关系数,决定系数,.【答案】(1),答案见解析(2)(ⅰ)0;(ⅱ)0.9847【详解】(1)不妨设选择的成对数据分别为,,则.又由表格数据得,当时,,则.因为任意两个样本点都在一条直线上,则样本量为2的样本相关系数绝对值都是1(在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的.样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.一般来说,样本量越大,根据样本相关系数推新变量之间相关的正负性及线性相关的程度越可靠,而样本量越小,则越不可靠.(2)(ⅰ)(直线经过数据的中心).(ⅱ)∵,∴,则,越大,越接近于1,则模型的拟合效果越好,因此经验回归方程②的拟合效果更好,为最优模型.【变式3】(2023·广东汕头·统考二模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过试验测得行驶里程与某品牌轮胎凹槽深度的数据如下:行驶里程/万km0.000.641.291.932.573.223.864.515.15轮胎凹槽深度/mm10.028.377.396.485.825.204.554.163.82以行驶里程为横坐标、轮胎凹槽深度为纵坐标作散点图,如图所示.(1)根据散点图,可认为散点集中在直线附近,由此判断行驶里程与轮胎凹槽深度线性相关,并计算得如下数据,请求出行驶里程与轮胎凹槽深度的相关系数(保留两位有效数字),并推断它们线性相关程度的强弱;2.576.20115.1029.46附:相关系数(2)通过散点图,也可认为散点集中在曲线附近,考虑使用对数回归模型,并求得经验回归方程及该模型的决定系数.已知(1)中的线性回归模型为,在同一坐标系作出这两个模型,据图直观回答:哪个模型的拟合效果更好?并用决定系数验证你的观察所得.附:线性回归模型中,决定系数等于相关系数的平方,即.【答案】(1),相关性较强(2)答案见解析【详解】(1)由题意,,∵,∴,∴行驶里程与轮胎凹楳深度成负相关,且相关性较强.(2)由图像可知,车胎凹槽深度与对数回归预报值残差、偏离更小,拟合度更高,线性回归预报值偏美较大.由题(1)得线性回归模型的相关系数,决定系数,由题意,对数回归模型的决定系数,∵,∴对数回归模型的拟合度更高.A夯实基础B能力提升A夯实基础一、单选题1.(2024·四川绵阳·统考二模)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,x2468y58.213m则下列说法正确的是(

)A.B.变量y与x是负相关关系C.该回归直线必过点D.x增加1个单位,y一定增加2个单位【答案】C【分析】根据给定数据及回归方程求出样本中心点,再逐项判断即可得解.【详解】依题意,,由,解得,A错误;回归方程中,,则变量y与x是正相关关系,B错误;由于样本中心点为,因此该回归直线必过点,C正确;由回归方程知,x增加1个单位,y大约增加2个单位,D错误.故选:C2.(2024上·全国·高三专题练习)变量,之间有如下对应数据:44.55.56121110已知变量对呈线性相关关系,且回归方程为,则的值是()A.10 B.9 C.8 D.7【答案】B【分析】计算出,代入回归方程,求出的值.【详解】,则有,解得故选:B.3.(2024上·全国·高三期末)某同学在研究变量之间的相关关系时,得到以下数据:并采用最小二乘法得到了线性回归方程,则(

)4.85.878.39.12.84.17.29.111.8A. B. C. D.【答案】D【分析】画出散点图,数形结合得到答案.【详解】画出散点图如下:

从而可以看出中,.故选:D4.(2024·全国·高三专题练习)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是(

)A.

B.

C.

D.

【答案】D【分析】根据残差的特点,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.即可得到答案.【详解】用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,显然D选项的拟合精度最高.故选:D.5.(2024下·全国·高二随堂练习)一组成对数据样本中心点为,由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使(

)最小.A.总偏差平方和 B.残差平方和C.回归平方和 D.竖直距离和【答案】B【分析】使用最小二乘法的定义进行求解.【详解】最小二乘法求回归方程,是为了使残差平方和最小,B正确;其他选项错误.故选:B6.(2024·全国·高三专题练习)为研究每平方米平均建筑费用与楼层数的关系,某开发商收集了一栋住宅楼在建筑过程中,建筑费用的相关信息,将总楼层数与每平米平均建筑成本(单位:万元)的数据整理成如图所示的散点图:则下面四个回归方程类型中最适宜作为每平米平均建筑费用和楼层数的回归方程类型的是(

)A. B.C. D.【答案】C【分析】通过观察散点图并结合选项函数的类型得出结果.【详解】观察散点图,可知是一个单调递减的曲线图,结合选项函数的类型可得回归方程类型是反比例类型,故C正确.故选:C.7.(2024上·山东滨州·高三统考期末)某学校一同学研究温差(单位:℃)与本校当天新增感冒人数(单位:人)的关系,该同学记录了5天的数据:5689121620252836由上表中数据求得温差与新增感冒人数满足经验回归方程,则下列结论不正确的是(

)A.与有正相关关系 B.经验回归直线经过点C. D.时,残差为0.2【答案】C【分析】根据和的变化规律,即可判断A;计算,即可判断B;将样本点中心代入回归直线方程,即可求,即可判断C;根据回归直线方程计算时的,计算,即可判断D.【详解】由表格可知,越大,越大,所以与有正相关关系,故A正确;,,样本点中心为,经验回归直线经过点,故B正确;将样本点中心代入直线方程,得,所以,故C错误;,当时,,,故D正确.故选:C8.(2024上·全国·高三专题练习)已知一组成对数据中y关于x的一元非线性回归方程,已知,则(

)A. B.1 C. D.【答案】B【分析】根据题意,求得和的平均数,根据样本中心满足回归方程,即可求解.【详解】因为y关于x的一元非线性回归方程,设,则回归直线方程,又因为,可得,即样本中心为,将样本中心代入回归直线方程,可得,解得,即.故选:B.二、多选题9.(2024·全国·模拟预测)下列有关回归分析的结论中,正确的有(

)A.若回归方程为,则变量y与x负相关B.运用最小二乘法求得的经验回归直线一定经过样本点的中心C.若决定系数的值越接近于1,表示回归模型的拟合效果越好D.若散点图中所有点都在直线上,则相关系数【答案】ABC【分析】根据统计案例相关知识逐项分析判断.【详解】对于选项A:因为回归方程为,可知,所以变量y与x负相关,故A正确;对于选项B:由线性回归方程的性质可知:回归直线一定经过样本点的中心,故B正确;对于选项C:决定系数的值越接近于1,表示回归模型的拟合效果越好,故C正确;对于选项D:散点图中所有点都在直线上,则,且,所以变量y与x正相关,即,可知,故D错误.故选:ABC.10.(2024上·广东揭阳·高三统考期末)2023年入冬以来,流感高发,某医院统计了一周中连续5天的流感就诊人数y与第天的数据如表所示.x12345y2110a15a90109根据表中数据可知x,y具有较强的线性相关关系,其经验回归方程为,则(

)A.样本相关系数在内 B.当时,残差为-2C.点一定在经验回归直线上 D.第6天到该医院就诊人数的预测值为130【答案】AD【分析】x,y具有较强的正相关关系,可判断相关系数的范围,判断A;计算x,y的平均值,代入回归直线方程求出a的值,即可求出时的预测值,求得残差,判断B;看是否适合回归直线方程,判断C;将代入回归直线方程,求出预测值,判断D.【详解】由题意可知x,y具有较强的正相关关系,故样本相关系数在内,A正确;根据题意得,故,解得,故当时,,残差为,B错误;点即点,当时,,即点不在经验回归直线上,C错误;当时,,即第6天到该医院就诊人数的预测值为130,D正确,故选:AD三、填空题11.(2024上·广东深圳·高三统考期末)某同学收集了变量,的相关数据如下:x0.5233.545y15为了研究,的相关关系,他由最小二乘法求得关于的线性回归方程为,经验证回归直线正好经过样本点,则.【答案】69【分析】结合线性回归方程必过样本中心点求解.【详解】因为线性回归方程经过样本点,所以.因为:,所以.所以:.故答案为:6912.(2023·高二单元测试)下列关于回归分析的说法正确的是(填上所有正确说法的序号)①相关系数越小,两个变量的相关程度越弱;②残差平方和越大的模型,拟合效果越好;③用相关指数来刻画回归效果时,越小,说明模型的拟合效果越好;④用最小二乘法求回归直线方程,是寻求使取最小值时的、的值;⑤在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高.【答案】④⑤【分析】利用相关系数与两个变量的相关程度的关系可判断①;利用残差的定义可判断②;利用相关指数与模型的拟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论