新高考数学一轮复习讲义 第49讲 成对数据的统计分析(原卷版)_第1页
新高考数学一轮复习讲义 第49讲 成对数据的统计分析(原卷版)_第2页
新高考数学一轮复习讲义 第49讲 成对数据的统计分析(原卷版)_第3页
新高考数学一轮复习讲义 第49讲 成对数据的统计分析(原卷版)_第4页
新高考数学一轮复习讲义 第49讲 成对数据的统计分析(原卷版)_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第49讲成对数据的统计分析(精讲)题型目录一览①相关关系的判断②线性回归方程③非线性回归方程④残差和相关指数的问题⑤独立性检验一、知识点梳理一、知识点梳理一、变量间的相关关系1.变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2.散点图将样本中的SKIPIF1<0个数据点SKIPIF1<0描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3.相关系数若相应于变量SKIPIF1<0的取值SKIPIF1<0,变量SKIPIF1<0的观测值为SKIPIF1<0,则变量SKIPIF1<0与SKIPIF1<0的相关系数SKIPIF1<0,通常用SKIPIF1<0来衡量SKIPIF1<0与SKIPIF1<0之间的线性关系的强弱,SKIPIF1<0的范围为SKIPIF1<0.(1)当SKIPIF1<0时,表示两个变量正相关;当SKIPIF1<0时,表示两个变量负相关.(2)SKIPIF1<0越接近SKIPIF1<0,表示两个变量的线性相关性越强;SKIPIF1<0越接近SKIPIF1<0,表示两个变量间几乎不存在线性相关关系.当SKIPIF1<0时,所有数据点都在一条直线上.(3)通常当SKIPIF1<0时,认为两个变量具有很强的线性相关关系.二、线性回归1.线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程SKIPIF1<0的求法为SKIPIF1<0其中,SKIPIF1<0,SKIPIF1<0,(SKIPIF1<0,SKIPIF1<0)称为样本点的中心.2.残差分析对于预报变量SKIPIF1<0,通过观测得到的数据称为观测值SKIPIF1<0,通过回归方程得到的SKIPIF1<0称为预测值,观测值减去预测值等于残差,SKIPIF1<0称为相应于点SKIPIF1<0的残差,即有SKIPIF1<0SKIPIF1<0.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点SKIPIF1<0比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和SKIPIF1<0分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:SKIPIF1<0.SKIPIF1<0越接近于SKIPIF1<0,说明残差的平方和越小,也表示回归的效果越好.三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1.建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.四、独立性检验1.分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为SKIPIF1<0SKIPIF1<0总计SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0总计SKIPIF1<0SKIPIF1<0SKIPIF1<0从SKIPIF1<0列表中,依据SKIPIF1<0与SKIPIF1<0的值可直观得出结论:两个变量是否有关系.2.等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现SKIPIF1<0与SKIPIF1<0相差很大,就判断两个分类变量之间有关系.3.独立性检验(1)定义:利用独立性假设、随机变量SKIPIF1<0来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.(2)公式:SKIPIF1<0,其中SKIPIF1<0SKIPIF1<0为样本容量.(3)独立性检验的具体步骤如下:①计算随机变量SKIPIF1<0的观测值SKIPIF1<0,查下表确定临界值SKIPIF1<0:SKIPIF1<00.50.400.250.150.100.050.0250.0100.0050.001SKIPIF1<00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828②如果SKIPIF1<0,就推断“SKIPIF1<0与SKIPIF1<0有关系”,这种推断犯错误的概率不超过SKIPIF1<0;否则,就认为在犯错误的概率不超过SKIPIF1<0的前提下不能推断“SKIPIF1<0与SKIPIF1<0有关系”.【常用结论】常见的非线性回归模型(1)指数函数型SKIPIF1<0(SKIPIF1<0且SKIPIF1<0,SKIPIF1<0)两边取自然对数,SKIPIF1<0,即SKIPIF1<0,令SKIPIF1<0,原方程变为SKIPIF1<0,然后按线性回归模型求出SKIPIF1<0,SKIPIF1<0.(2)对数函数型SKIPIF1<0令SKIPIF1<0,原方程变为SKIPIF1<0,然后按线性回归模型求出SKIPIF1<0,SKIPIF1<0.(3)幂函数型SKIPIF1<0两边取常用对数,SKIPIF1<0,即SKIPIF1<0,令SKIPIF1<0,原方程变为SKIPIF1<0,然后按线性回归模型求出SKIPIF1<0,SKIPIF1<0.(4)二次函数型SKIPIF1<0令SKIPIF1<0,原方程变为SKIPIF1<0,然后按线性回归模型求出SKIPIF1<0,SKIPIF1<0.(5)反比例函数型SKIPIF1<0型令SKIPIF1<0,原方程变为SKIPIF1<0,然后按线性回归模型求出SKIPIF1<0,SKIPIF1<0.二、题型分类精讲二、题型分类精讲题型一相关关系的判断策略方法判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:eq\o(b,\s\up7(^))>0时,正相关;eq\o(b,\s\up7(^))<0时,负相关.【典例1】(多选题)对小明在连续9次高考模拟数学测试中的成绩(单位:分)进行统计得到如图所示的散点图.他的同桌小刚根据散点图对他的数学成绩的分析中,正确的有(

).A.小明的数学成绩总的趋势是在逐步提高B.小明在这连续9次测试中的最高分与最低分的差超过40分C.小明的数学成绩与测试序号具有线性相关性,且为负相关D.小明的数学成绩与测试序号具有线性相关性,且为正相关【典例2】(多选题)在下列所示的四个图中,每个图的两个变量间具有相关关系的是(

).A. B. C. D.【题型训练】一、单选题1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是(

)A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系2.某生物兴趣小组为研究一种红铃虫的产卵数y与温度x(单位:℃)的关系.现收集了7组观测数据SKIPIF1<0得到下面的散点图:由此散点图,在20℃至36℃之间,下面四个回归方程类型中最适宜作为红铃虫产卵数y和温度x的回归方程类型的是(

)A.SKIPIF1<0 B.SKIPIF1<0 C.SKIPIF1<0 D.SKIPIF1<03.根据身高和体重散点图,下列说法正确的是(

)A.身高越高,体重越重 B.身高越高,体重越轻 C.身高与体重成正相关 D.身高与体重成负相关4.在如图所示的散点图中,若去掉点SKIPIF1<0,则下列说法正确的是(

A.样本相关系数SKIPIF1<0变大B.变量SKIPIF1<0与变量SKIPIF1<0的相关程度变弱C.变量SKIPIF1<0与变量SKIPIF1<0呈正相关D.变量SKIPIF1<0与变量SKIPIF1<0的相关程度变强5.变量X与Y相对应的一组数据为SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0;变量U与V相对应的一组数据为SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0.SKIPIF1<0表示变量Y与X之间的线性相关系数,SKIPIF1<0表示变量V与U之间的线性相关系数,则(

).A.SKIPIF1<0 B.SKIPIF1<0C.SKIPIF1<0 D.SKIPIF1<06.在研究急刹车的停车距离问题时,通常假定停车距离等于反应距离(SKIPIF1<0,单位:m)与制动距离(SKIPIF1<0,单位:m)之和.如图为某实验所测得的数据,其中“KPH”表示刹车时汽车的初速度SKIPIF1<0(单位:km/h).根据实验数据可以推测,下面四组函数中最适合描述SKIPIF1<0,SKIPIF1<0与SKIPIF1<0的函数关系的是(

)A.SKIPIF1<0,SKIPIF1<0 B.SKIPIF1<0,SKIPIF1<0C.SKIPIF1<0,SKIPIF1<0 D.SKIPIF1<0,SKIPIF1<0题型二线性回归方程策略方法求线性回归方程的一般步骤【典例1】某工厂生产某种产品的月产量(单位:千件)与单位成本(单位:元/件)的数据如下:月份产量x/千件单位成本y/(元/件)127323723471437354696568(1)计算产量与单位成本的相关系数;(2)建立产量与单位成本的回归方程;(3)若该工厂计划7月份生产7千件该产品,则单位成本预计是多少?【题型训练】一、单选题1.对四组数据进行统计,获得如下散点图,将四组数据相应的相关系数进行比较,正确的是(

A.SKIPIF1<0 B.SKIPIF1<0 C.SKIPIF1<0 D.SKIPIF1<02.变量SKIPIF1<0,SKIPIF1<0之间有如下对应数据:SKIPIF1<044.55.56SKIPIF1<0121110SKIPIF1<0已知变量SKIPIF1<0对SKIPIF1<0呈线性相关关系,且回归方程为SKIPIF1<0,则SKIPIF1<0的值是(

)A.10 B.9 C.8 D.73.某公司一种型号的产品近期销售情况如表:月份SKIPIF1<023456销售额SKIPIF1<0(万元)15.116.317.017.218.4根据上表可得到回归直线方程SKIPIF1<0,据此估计,该公司7月份这种型号产品的销售额为(

)A.18.85万元 B.19.3万元 C.19.25万元 D.19.05万元4.已知某生产商5个月的设备销售数据如下表所示:时间代码SKIPIF1<012345销售台数SKIPIF1<0(单位:百台)5781416.5生产商发现时间代码和销售台数有很强的相关性,决定用回归方程SKIPIF1<0进行模拟,则SKIPIF1<0的值是(

)参考数据、公式:SKIPIF1<0;SKIPIF1<0;若SKIPIF1<0,则SKIPIF1<0A.3.2 B.3.1 C.3 D.2.95.某社区为了丰富退休人员的业余文化生活,自2018年以来,始终坚持开展“悦读小屋读书活动”.下表是对2018年以来近5年该社区退休人员的年人均借阅量的数据统计:年份20182019202020212022年份代码SKIPIF1<012345年人均借阅量SKIPIF1<0(册)SKIPIF1<0SKIPIF1<0162228(参考数据:SKIPIF1<0)通过分析散点图的特征后,年人均借阅量SKIPIF1<0关于年份代码SKIPIF1<0的回归分析模型为SKIPIF1<0,则2023年的年人均借阅量约为(

)A.31 B.32 C.33 D.346.某地为响应“扶贫必扶智,扶智就扶知识、扶技术、扶方法”的号召,建立了农业科技图书馆,供农民免费借阅.现收集了该图书馆五年的借阅数据如下表:年份20162017201820192020年份代码x12345年借阅量y(万册)4.95.15.55.75.8根据上表,可得y关于x的线性回归方程为SKIPIF1<0,则下列说法中错误的是(

).A.SKIPIF1<0B.借阅量4.9,5.1,5.5,5.7,5.8的第75百分位数为5.7C.y与x的线性相关系数SKIPIF1<0D.2021年的借阅量一定少于6.12万册7.用模型SKIPIF1<0拟合一组数据组SKIPIF1<0,其中SKIPIF1<0,设SKIPIF1<0,得变换后的线性回归方程为SKIPIF1<0,则SKIPIF1<0(

)A.SKIPIF1<0 B.SKIPIF1<0 C.70 D.35二、多选题8.“冬吃萝卜夏吃姜,不劳医生开药方.”鲁山县张良镇生产的黄姜,有“姜中之王”的美誉,自汉朝起便为历代宫廷贡品,闻名天下.某黄姜种植户统计了某种有机肥料的施肥量x(单位:吨)与姜的产量y(单位:吨)的一组数据,由表中数据,得到回归直线方程为SKIPIF1<0,则下列结论正确的是(

)施肥量x(吨)0.60.811.21.4姜的产量y(吨)3.14.25.26.47.3A.SKIPIF1<0B.姜的产量与这种有机肥的施肥量正相关C.回归直线过点SKIPIF1<0D.当施肥量为1.8吨时,预计姜的产量约为8.48吨9.某商店的某款商品近5个月的月销售量SKIPIF1<0(单位:千瓶)如下表:第SKIPIF1<0个月12345月销售量SKIPIF1<02.53.244.85.5若变量SKIPIF1<0和SKIPIF1<0之间具有线性相关关系,用最小二乘法建立的经验回归方程为SKIPIF1<0,则下列说法正确的是(

)A.点SKIPIF1<0一定在经验回归直线SKIPIF1<0上B.SKIPIF1<0C.相关系数SKIPIF1<0D.预计该款商品第6个月的销售量为7800瓶10.由变量SKIPIF1<0和变量SKIPIF1<0组成的10个成对样本数据SKIPIF1<0得到的经验回归方程为SKIPIF1<0,设过点SKIPIF1<0的直线方程为SKIPIF1<0,记SKIPIF1<0,则(

)A.变量SKIPIF1<0正相关B.若SKIPIF1<0,则SKIPIF1<0C.经验回归直线SKIPIF1<0至少经过SKIPIF1<0中的一个点D.SKIPIF1<011.某学校数学学习兴趣小组利用信息技术手段探究两个数值变量x,y之间的线性关系,随机抽取8个样本点SKIPIF1<0,SKIPIF1<0,……,SKIPIF1<0,由于操作过程的疏忽,在用最小二乘法求经验回归方程时只输入了前6组数据,得到的线性回归方程为SKIPIF1<0,其样本中心为SKIPIF1<0.后来检查发现后,输入8组数据得到的新的经验回归方程为SKIPIF1<0,新的样本中心为SKIPIF1<0,已知SKIPIF1<0,SKIPIF1<0,则(

)A.新的样本中心仍为SKIPIF1<0B.新的样本中心为SKIPIF1<0C.两个数值变量x,y具有正相关关系D.SKIPIF1<0三、填空题12.某课外兴趣小组对某地区不同年龄段的人群阅读经典名著的情况进行了相关调查,相关数据如下表.年龄区间/岁SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0赋值变量SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0人群数量SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0根据表中数据,人群数量SKIPIF1<0与赋值变量SKIPIF1<0之间呈线性相关,且关系式为SKIPIF1<0,则SKIPIF1<0.13.数学兴趣小组对具有线性相关的两个变量x和y进行了统计分析,得到了下表:x4681012ya2bc6并由表中数据求得y关于x的回归方程为SKIPIF1<0,若a,b,c成等差数列,则SKIPIF1<0.14.已知对于一组数据SKIPIF1<0,SKIPIF1<0,…,SKIPIF1<0,y关于x的经验回归方程为SKIPIF1<0,若SKIPIF1<0,则SKIPIF1<0=.15.网购作为一种新的消费方式,因其具有快捷、商品种类齐全、性价比高等优势而深受广大消费者认可.某网购公司统计了近五年在本公司网购的人数,得到如下的相关数据(其中“SKIPIF1<0”表示2015年,“SKIPIF1<0”表示2016年,且x为整数,依次类推;y表示人数):SKIPIF1<012345SKIPIF1<0(万人)2050100150180根据表中的数据,可以求出SKIPIF1<0,若预测该公司的网购人数能超过300万人,则SKIPIF1<0的最小值为.四、解答题16.某农科所对冬季昼夜温差与某反季节大豆种子发芽多少之间的关系进行分析研究,他们记录了12月1日至5日的昼夜温差与每天100颗种子的发芽数,数据如下.日期12月1日12月2日12月3日12月4日12月5日温差x(℃)101113128发芽数y(颗)2325302616该农科所确定的研究方案:先从五组数据中选取两组,用剩下的3组数据求线性回归方程,再用被选取的两组数据进行检验.(1)若先选取的是12月1日和5日的数据,请根据2日至4日的三组数据,求y关于x的线性回归方程SKIPIF1<0;(2)若由线性回归方程得到的估计数据与检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试判断(1)中所得到的线性回归方程是否可靠.注:SKIPIF1<0,SKIPIF1<0.17.某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:商店名称ABSKIPIF1<0SKIPIF1<0E销售额x/千万元35679利润额y/百万元23345(1)画出散点图,观察散点图,说明两个变量有怎样的相关性;

(2)用最小二乘法计算利润额y对销售额x的回归直线方程;(3)当销售额为4(千万元)时,估计利润额的大小.参考公式:SKIPIF1<0,SKIPIF1<0,SKIPIF1<0.18.新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入SKIPIF1<0(亿元)与产品收益SKIPIF1<0(亿元)的数据统计如下:研发投入SKIPIF1<0(亿元)12345产品收益SKIPIF1<0(亿元)3791011(1)计算SKIPIF1<0,SKIPIF1<0的相关系数SKIPIF1<0,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若SKIPIF1<0,则线性相关程度一般,若SKIPIF1<0,则线性相关程度较高)(2)求出SKIPIF1<0关于SKIPIF1<0的线性回归方程,并预测若想收益超过50(亿元)则需研发投入至少多少亿元?(结果保留一位小数)参考数据:SKIPIF1<0,SKIPIF1<0.附:相关系数公式:SKIPIF1<0,回归直线方程的斜率SKIPIF1<0,截距SKIPIF1<0.19.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间.相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.已知图①是某次马拉松比赛中一位跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是本次马拉松比赛(全程约42千米)前5000名跑者成绩(单位:分钟)的频率分布直方图.

(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)在本次比赛中,该跑者如果将心率控制在160(单位:次/分钟)左右跑完全程,估计他跑完全程花费的时间及他能获得的名次.参考公式:SKIPIF1<0中,SKIPIF1<0,SKIPIF1<0,其中SKIPIF1<0,SKIPIF1<0为样本平均值.20.如图是M市某爱国主义教育基地宣传栏中标题为“2015~2022年基地接待青少年人次”的统计图.根据该统计图提供的信息解决下列问题.①参考数据:SKIPIF1<00123SKIPIF1<0SKIPIF1<0SKIPIF1<090330②参考公式:对于一组数据SKIPIF1<0,其回归直线SKIPIF1<0的斜率和截距的最小二乘法公式分别为:SKIPIF1<0.(1)求M市爱国主义教育基地所统计的8年中接待青少年人次的平均值和中位数;(2)由统计图可看出,从2019年开始,M市爱国主义教育基地接待青少年的人次呈直线上升趋势,请你用线性回归分析的方法预测2024年基地接待青少年的人次.21.2023年是全面贯彻落实党二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经济增长呈现稳中有进的可喜现象.2023年8月4日,贵州省工业和信息化厅召开推进贵州刺梨产业高质量发展专题会议,安排部署加快推进特色优势产业刺梨高质量发展工作,集中资源、力量打造“贵州刺梨”公共品牌.贵州省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合总产值的各项数据如下:年份x,综合产值y(单位:亿元)年份20182019202020212022年份代码SKIPIF1<012345综合产值SKIPIF1<023.137.062.1111.6150.8(1)根据表格中的数据,可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,请用相关系数加以说明(精确到0.01);(2)求出y关于x的经验回归方程,并预测2023年底贵州省刺梨产业的综合总产值.参考公式:相关系数SKIPIF1<0回归方程SKIPIF1<0中斜率和截距的最小二乘法估计公式分别为SKIPIF1<0;参考数据:SKIPIF1<022.在入室盗窃类案件中,出现频率最高的痕迹物证之一就是足迹.负重行走对足迹步伐特征影响的规律强,而且较为稳定.正在行走的人在负重的同时,步长变短,步宽变大,步角变大.因此,以身高分别为170cm,175cm,180cm的人员各20名作为实验对象,让他们采取双手胸前持重物的负重方式行走,得到实验对象在负重0kg,5kg,10kg,15kg,20kg状态下相对稳定的步长数据平均值.并在不同身高情况下,建立足迹步长s(单位:cm)关于负重x(单位:kg)的三个经验回归方程.根据身高170cm组数据建立线性回归方程①:SKIPIF1<0;根据身高175cm组数据建立线性回归方程②:SKIPIF1<0根据身高180cm组数据建立线性回归方程③:SKIPIF1<0.(1)根据身高180cm组的统计数据,求SKIPIF1<0,SKIPIF1<0的值,并解释参数SKIPIF1<0的含义;身高180cm不同负重情况下的步长数据平均值负重x/kg05101520足迹步长s/cm74.3573.5071.8068.6065.75(2)在一起盗窃案中,被盗窃物品重为9kg,在现场勘查过程中,测量得犯罪嫌疑人往返时足迹步长的差值为4.464cm,推测该名嫌疑人的身高,并说明理由.附:SKIPIF1<0.为回归方程,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<023.下图是我国2014年至2020年生活垃圾无害化处理量(单位:亿吨)的折线图.

注:年份代码1-7分别对应年份2014-2020(2021年后代码依次类推).(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2023年我国生活垃圾无害化处理量.附注:参考数据:SKIPIF1<0.参考公式:相关系数SKIPIF1<0回归方程SKIPIF1<0中斜率和截距的最小二乘估计公式分别为:SKIPIF1<0.24.2023年,国家不断加大对科技创新的支持力度,极大鼓舞了企业投入研发的信心,增强了企业的创新动能.某企业在国家一系列优惠政策的大力扶持下,通过技术革新和能力提升,极大提升了企业的影响力和市场知名度,订单数量节节攀升,右表为该企业今年1~4月份接到的订单数量.月份t1234订单数量y(万件)5.25.35.75.8(1)试根据样本相关系数r的值判断订单数量y与月份t的线性相关性强弱(SKIPIF1<0,则认为y与t的线性相关性较强,SKIPIF1<0,则认为y与t的线性相关性较弱).(结果保留两位小数)(2)建立y关于t的线性回归方程,并预测该企业5月份接到的订单数量.附:相关系数,SKIPIF1<0回归方程SKIPIF1<0中斜率和截距的最小二乘法估计公式分别为SKIPIF1<0,SKIPIF1<0,SKIPIF1<0.25.2015-2019年,中国社会消费品零售额占SKIPIF1<0的比重超过4成,2020年后,中国社会消费品零售额占SKIPIF1<0的比重逐年下降.下表为2018-2022年中国社会消费品零售额(单位:万亿元)及其占SKIPIF1<0的比重SKIPIF1<0(单位:%)的数据,其中2018-2022年对应的年份代码SKIPIF1<0依次为1~5.年份代码SKIPIF1<012345社会消费品零售额37.840.839.244.144.0社会消费品零售额占SKIPIF1<0的比重SKIPIF1<041.341.539.038.636.7附:SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,相关系数SKIPIF1<0.对于一组数据SKIPIF1<0,SKIPIF1<0,…,SKIPIF1<0,其一元线性回归直线SKIPIF1<0的斜率和截距的最小二乘估计公式分别为SKIPIF1<0,SKIPIF1<0.(1)由上表数据,是否可用一元线性回归模型拟合SKIPIF1<0与SKIPIF1<0的关系,请用相关系数加以说明.(2)请建立SKIPIF1<0关于SKIPIF1<0的一元线性回归方程.26.某二手汽车经销商对其所经营的某型号二手汽车的使用年数SKIPIF1<0(SKIPIF1<0)与每辆车的销售价格SKIPIF1<0(万元)进行整理,得到如下对应数据:使用年数SKIPIF1<0246810售价SKIPIF1<01613975(1)根据表中数据,用最小二乘法求SKIPIF1<0关于SKIPIF1<0的线性回归方程SKIPIF1<0;(2)已知每辆该型号汽车的收购价格SKIPIF1<0(万元)与使用年数SKIPIF1<0(SKIPIF1<0)的函数关系为SKIPIF1<0,根据(1)中所求回归方程,预测SKIPIF1<0为何值时,该经销商销售一辆该型号汽车所获得的利润SKIPIF1<0最大,最大利润是多少?附:回归直线的斜率和截距的最小二乘估计公式:SKIPIF1<0,SKIPIF1<0;参考数据:SKIPIF1<0.题型三非线性回归方程策略方法对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.【典例1】今年刚过去的4月份是“全国消费促进月”,各地拼起了特色经济”,带动消费复苏、市场回暖.“小饼烤炉加蘸料,灵魂烧烤三件套”,最近,淄博烧烤在社交媒体火爆出圈,吸引全国各地的游客坐着高铁,直奔烧烤店,而多家店铺的营业额也在近一个月内实现了成倍增长.因此某烧烤店老板考虑投入更多的人工成本,现有以往的服务人员增量x(单位:人)与年收益增量y单位:万元)的数据如下:服务人员增量x/人234681013年收益增量y/万元13223142505658据此,建立了y与x的两个回归模型:

模型①:由最小二乘公式可求得SKIPIF1<0与SKIPIF1<0的一元线性经验回归方程为SKIPIF1<0;模型②:由散点图(如图)的样本点分布,可以认为样本点集中在曲线SKIPIF1<0的附近.对数据进行初步处理后,得到了一些统计的量的值:SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,其中SKIPIF1<0,SKIPIF1<0(1)根据所给的统计量,求模型②中SKIPIF1<0关于SKIPIF1<0的经验回归方程(精确到0.1);(2)根据下列表格中的数据,比较两种模型的决定系数SKIPIF1<0,并选择拟合精度更高的模型,预测服务人员增加25人时的年收益增量.回归模型模型①模型②回归方程SKIPIF1<0SKIPIF1<0SKIPIF1<0182.479.2附:样本SKIPIF1<0的最小二乘估计公式为SKIPIF1<0,SKIPIF1<0,刻画样本回归效果的决定系数SKIPIF1<0【题型训练】一、单选题1.某科技公司为加强研发能力,研发费用逐年增加,最近6年的研发费用y(单位:亿元)与年份编号x得到样本数据SKIPIF1<0,令SKIPIF1<0,并将SKIPIF1<0绘制成下面的散点图.若用方程SKIPIF1<0对y与x的关系进行拟合,则(

A.SKIPIF1<0,SKIPIF1<0 B.SKIPIF1<0,SKIPIF1<0C.SKIPIF1<0,SKIPIF1<0 D.SKIPIF1<0,SKIPIF1<02.某校一个课外学习小组为研究某作物种子的发芽率SKIPIF1<0和温度SKIPIF1<0(单位:SKIPIF1<0)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据SKIPIF1<0得到下面的散点图:

由此散点图,在10℃至35℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是(

)A.SKIPIF1<0 B.SKIPIF1<0 C.SKIPIF1<0 D.SKIPIF1<03.如图是某地在50天内感染新冠病毒的累计病例y(单位:万人)与时间x(单位:天)的散点图,则下列最适宜作为此模型的回归方程类型的是(

A.SKIPIF1<0 B.SKIPIF1<0C.SKIPIF1<0 D.SKIPIF1<04.用模型SKIPIF1<0拟合一组数据时,设SKIPIF1<0,将其变换后得到回归方程为SKIPIF1<0,则SKIPIF1<0(

)A.SKIPIF1<0 B.1 C.SKIPIF1<0 D.25.某市卫健委用模型SKIPIF1<0的回归方程分析SKIPIF1<0年SKIPIF1<0月份感染新冠肺炎病毒的人数,令SKIPIF1<0后得到的线性回归方程为SKIPIF1<0,则SKIPIF1<0(

)A.SKIPIF1<0 B.SKIPIF1<0 C.SKIPIF1<0 D.SKIPIF1<0二、解答题6.一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入SKIPIF1<0(单位:千万元)对每件产品成本SKIPIF1<0(单位:元)的影响,对近SKIPIF1<0年的年技术创新投入SKIPIF1<0和每件产品成本SKIPIF1<0的数据进行分析,得到如下散点图,并计算得:SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0.(1)根据散点图可知,可用函数模型SKIPIF1<0拟合SKIPIF1<0与SKIPIF1<0的关系,试建立SKIPIF1<0关于SKIPIF1<0的回归方程;(2)已知该产品的年销售额SKIPIF1<0(单位:千万元)与每件产品成本SKIPIF1<0的关系为SKIPIF1<0.该企业的年投入成本除了年技术创新投入,还要投入其他成本SKIPIF1<0千万元,根据(1)的结果回答:当年技术创新投入SKIPIF1<0为何值时,年利润的预报值最大?(注:年利润=年销售额一年投入成本)参考公式:对于一组数据SKIPIF1<0、SKIPIF1<0、SKIPIF1<0、SKIPIF1<0,其回归直线SKIPIF1<0的斜率和截距的最小乘估计分别为:SKIPIF1<0,SKIPIF1<0.7.新型冠状病毒肺炎COVID-19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.下表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.日期代码x12345678累计确诊人数y481631517197122为了分析该国累计感染人数的变化趋势,小王同学分别用两杆模型:①SKIPIF1<0,②SKIPIF1<0对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差SKIPIF1<0):经过计算得SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,其中SKIPIF1<0,SKIPIF1<0.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?(结果保留整数)附:回归直线的斜率和截距的最小二乘估计公式分别为:SKIPIF1<0,SKIPIF1<0.8.某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度SKIPIF1<0(SKIPIF1<0)与灭死率SKIPIF1<0的数据,得下表:浓度SKIPIF1<0(SKIPIF1<0)SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0灭死率SKIPIF1<00.10.240.460.760.94(1)以SKIPIF1<0为解释变量,SKIPIF1<0为响应变量,在SKIPIF1<0和SKIPIF1<0中选一个作为灭死率SKIPIF1<0关于浓度SKIPIF1<0(SKIPIF1<0)的经验回归方程,不用说明理由;(2)(i)根据(1)的选择结果及表中数据,求出所选经验回归方程;(ii)依据(i)中所求经验回归方程,要使灭死率不低于SKIPIF1<0,估计该灭草剂的浓度至少要达到多少SKIPIF1<0?参考公式:对于一组数据SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,其经验回归直线SKIPIF1<0的斜率和截距的最小二乘法估计分别为SKIPIF1<0,SKIPIF1<0.9.为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:天数x123456繁殖个数y612254995190(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断SKIPIF1<0(a,b为常数)与SKIPIF1<0(SKIPIF1<0,SKIPIF1<0为常数,且SKIPIF1<0,SKIPIF1<0)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程SKIPIF1<0(SKIPIF1<0,SKIPIF1<0为常数,且SKIPIF1<0,SKIPIF1<0),令SKIPIF1<0,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<03.5062.833.5317.50596.5712.09①证明:“对于非线性回归方程SKIPIF1<0,令SKIPIF1<0,可以得到繁殖个数的对数z关于天数x具有线性关系(即SKIPIF1<0,β,α为常数)”;②根据(1)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).附:对于一组数据SKIPIF1<0,SKIPIF1<0,…,SKIPIF1<0,其回归直线方程SKIPIF1<0的斜率和截距的最小二乘估计分别为SKIPIF1<0,SKIPIF1<0.10.多年来,清华大学电子工程系黄翔东教授团队致力于光谱成像芯片的研究,2022年6月研制出国际首款实时超光谱成像芯片,相比已有光谱检测技术,实现了从单点光谱仪到超光谱成像芯片的跨越,为制定下一年的研发投入计划,该研发团队为需要了解年研发资金投入量x(单位:亿元)对年销售额SKIPIF1<0(单位:亿元)的影响,结合近12年的年研发资金投入量x,和年销售额SKIPIF1<0,的数据(SKIPIF1<0,2,SKIPIF1<0,12),该团队建立了两个函数模型:①SKIPIF1<0②SKIPIF1<0,其中SKIPIF1<0均为常数,e为自然对数的底数,经对历史数据的初步处理,得到散点图如图,令SKIPIF1<0,计算得如下数据:SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0206677020014SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0460SKIPIF1<03125000SKIPIF1<021500(1)设SKIPIF1<0和SKIPIF1<0的相关系数为SKIPIF1<0和SKIPIF1<0的相关系数为SKIPIF1<0,请从相关系数的角度,选择一个拟合程度更好的模型;(2)(i)根据(1)的选择及表中数据,建立SKIPIF1<0关于SKIPIF1<0的回归方程(系数精确到0.01);(ii)若下一年销售额SKIPIF1<0需达到80亿元,预测下一年的研发资金投入量SKIPIF1<0是多少亿元?附:①相关系数SKIPIF1<0,回归直线SKIPIF1<0中斜率和截距的最小二乘估计公式分别为:SKIPIF1<0,SKIPIF1<0;②参考数据:SKIPIF1<0.11.某乡镇全面实施乡村振兴,大力发展特色产业——富硒水果.工作人员统计了近8年富硒水果种植面积SKIPIF1<0(单位:百亩)与年销售额SKIPIF1<0(单位:千万元)的数据SKIPIF1<0.经计算得到如下处理后的统计量:SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,SKIPIF1<0,其中SKIPIF1<0,SKIPIF1<0.(1)根据以上数据,从相关系数的角度,判断SKIPIF1<0与SKIPIF1<0哪个适宜作为年销售额SKIPIF1<0关于种植面积SKIPIF1<0的回归方程类型(相关系数精确到0.01).(2)根据(1)的判断结果及相关数据,建立SKIPIF1<0关于SKIPIF1<0的回归方程(系数精确到0.01).(3)该乡镇计划年销售额不低于10亿元,请预测种植面积至少为多少亩.附:相关系数SKIPIF1<0,回归直线SKIPIF1<0的斜率与截距的最小二乘估计分别为SKIPIF1<0,SKIPIF1<0.参考数据:SKIPIF1<0,SKIPIF1<0.题型四残差和相关指数的问题策略方法对于预报变量SKIPIF1<0,通过观测得到的数据称为观测值SKIPIF1<0,通过回归方程得到的SKIPIF1<0称为预测值,观测值减去预测值等于残差,SKIPIF1<0称为相应于点SKIPIF1<0的残差,即有SKIPIF1<0SKIPIF1<0.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.【典例1】(单选题)已知一组样本数据SKIPIF1<0,SKIPIF1<0,,SKIPIF1<0,根据这组数据的散点图分析SKIPIF1<0与SKIPIF1<0之间的线性相关关系,若求得其线性回归方程为SKIPIF1<0,则在样本点SKIPIF1<0处的残差为(

)A.38.1 B.22.6 C.SKIPIF1<0 D.91.1【典例2】(单选题)营养学家对某地区居民的身高SKIPIF1<0与营养摄入量SKIPIF1<0的几组数据进行研究后发现两个变量存在相关关系,该营养学家按照不同的曲线拟合SKIPIF1<0与SKIPIF1<0之间的回归方程,并算出相关指数SKIPIF1<0如下表所示:拟合曲线直线指数曲线抛物线三次曲线SKIPIF1<0与SKIPIF1<0的回归方程SKIPIF1<0SKIPIF1<0SKIPIF1<0SKIPIF1<0相关指数SKIPIF1<00.8930.9860.9310.312则这组数据模型的回归方程的最好选择应是(

)A.SKIPIF1<0 B.SKIPIF1<0C.SKIPIF1<0 D.SKIPIF1<0【题型训练】一、单选题1.某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉SKIPIF1<0后,下列说法正确的是(

)A.相关系数r变小 B.决定系数SKIPIF1<0变小C.残差平方和变大 D.解释变量x与预报变量y的相关性变强2.对两个变量SKIPIF1<0和SKIPIF1<0进行回归分析,得到一组样本数据:SKIPIF1<0、SKIPIF1<0、SKIPIF1<0、SKIPIF1<0,则下列说法中不正确的是(

)A.由样本数据得到的线性回归方程SKIPIF1<0必过样本点的中心SKIPIF1<0B.残差平方和越小的模型,拟合的效果越好C.用相关指数SKIPIF1<0来刻画回归效果,SKIPIF1<0的值越小,说明模型的拟合效果越好D.若变量SKIPIF1<0和SKIPIF1<0之间的相关系数SKIPIF1<0,则变量SKIPIF1<0与SKIPIF1<0之间具有线性相关关系3.某校数学兴趣小组在某座山测得海拔高度SKIPIF1<0(单位:千米)与气压SKIPIF1<0(单位:千帕)的六组数据SKIPIF1<0绘制成如下散点图,分析研究发现SKIPIF1<0点相关数据不符合实际,删除SKIPIF1<0点后重新进行回归分析,则下列说法正确的是(

A.删除点SKIPIF1<0后,样本数据的两变量SKIPIF1<0正相关B.删除点SKIPIF1<0后,相关系数SKIPIF1<0的绝对值更接近于1C.删除点SKIPIF1<0后,新样本的残差平方和变大D.删除点SKIPIF1<0后,解释变量SKIPIF1<0与响应变量SKIPIF1<0相关性变弱二、多选题4.某研究小组采集了SKIPIF1<0组数据,作出如图所示的散点图.若去掉SKIP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论