高中数学复习专题52 统计案例(解析版)_第1页
高中数学复习专题52 统计案例(解析版)_第2页
高中数学复习专题52 统计案例(解析版)_第3页
高中数学复习专题52 统计案例(解析版)_第4页
高中数学复习专题52 统计案例(解析版)_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题52统计案例【题型归纳目录】题型一:变量间的相关关系题型二:线性回归题型三:非线性回归题型四:独立性检验题型五:误差分析【考点预测】知识点一、变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2、散点图将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.(1)当时,表示两个变量正相关;当时,表示两个变量负相关.(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.(3)通常当时,认为两个变量具有很强的线性相关关系.知识点二、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为其中,,,(,)称为样本点的中心.2、残差分析对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:.越接近于,说明残差的平方和越小,也表示回归的效果越好.知识点三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.知识点四、独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为总计总计从列表中,依据与的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.3、独立性检验(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.(2)公式:,其中为样本容量.(3)独立性检验的具体步骤如下:①计算随机变量的观测值,查下表确定临界值:0.50.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.(2)两个分类变量和是否有关系的判断标准:统计学研究表明:当时,认为与无关;当时,有的把握说与有关;当时,有的把握说与有关;当时,有的把握说与有关.【方法技巧与总结】常见的非线性回归模型(1)指数函数型(且,)两边取自然对数,,即,令,原方程变为,然后按线性回归模型求出,.(2)对数函数型令,原方程变为,然后按线性回归模型求出,.(3)幂函数型两边取常用对数,,即,令,原方程变为,然后按线性回归模型求出,.(4)二次函数型令,原方程变为,然后按线性回归模型求出,.(5)反比例函数型型令,原方程变为,然后按线性回归模型求出,.【题型归纳目录】题型一:变量间的相关关系题型二:线性回归题型三:非线性回归题型四:独立性检验题型五:误差分析【典例例题】题型一:变量间的相关关系例1.(2022·上海嘉定·高三阶段练习)通过抽样调研发现,当地第三季度的医院心脑血管疾病的人数和便利店购买冷饮的人数的相关系数很高,甲认为这是巧合,两者其实没有关系:乙认为冷饮的某种摄入成分导致了疾病;丙认为病人对冷饮会有特别需求:丁认为两者的相关关系是存在的,但不能视为因果,请判断哪位成员的意见最可能成立(

)A.甲 B.乙 C.丙 D.丁【答案】D【解析】当地第三季度的医院心脑血管疾病的人数和便利店购买冷饮的人数的相关系数很高,但相关关系是一种非确定性关系,相关关系不等于因果关系,丁的意见最可能成立.故选:D.例2.(2022·四川·成都七中高三阶段练习(理))某统计部门对四组数据进行统计分析后,获得如图所示的散点图.下面关于相关系数的比较,正确的是()A. B. C. D.【答案】C【解析】由图可知:所对应的图中的散点呈现正相关,而且对应的相关性比对应的相关性要强,故,所对应的图中的散点呈现负相关,且根据散点的分布情况可知,因此,故选:C例3.(2022·上海交大附中高三阶段练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:头),并计算得,,,,.(1)估计该地区这种野生动物的数量;(2)求样本的相关系数.(精确到0.01)【解析】(1)由已知得样本平均数,从而该地区这种野生动物数量的估计值为.(2)由,,,可得样本的相关系数为.变式1.(2022·陕西·宝鸡市陈仓高级中学高三开学考试(理))对两个变量x,y进行线性相关检验,得线性相关系数r1=0.8995,对两个变量u,v进行线性相关检验,得线性相关系数r2=﹣0.9568,则下列判断正确的是()A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强

B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强

C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强

D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强【答案】C【解析】依题意:,所以正相关,负相关,,所以的线性相关性较强.故选:C变式2.(2022·全国·高三专题练习)甲、乙、丙、丁四位同学各自对两变量的线性相关性做试验,分别求得样本相关系数,如下表:甲乙丙丁则试验结果中两变量有更强线性相关性的是(

)A.甲 B.乙 C.丙 D.丁【答案】B【解析】由已知,乙的相关系数的绝对值为,是四人中最大的,因此乙同学有更强的相关性.故选:B.变式3.(2022·江苏·南京市第一中学高三阶段练习)某网络电视剧已开播一段时间,其每日播放量有如下统计表:开播天数x(单位:天)12345当天播放量y(单位:百万次)335910(1)请用线性回归模型拟合y与x的关系,并用相关系数加以说明;(2)假设开播后的两周内(除前5天),当天播放量y与开播天数x服从(1)中的线性关系.若每百万播放量可为制作方带来0.7万元的收益,且每开播一天需支出1万元的广告费,估计制作方在该剧开播两周内获得的利润.参考公式:,,.参考数据:xiyi=110,=55,=224,≈10.5.注:①一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱.②利润=收益-广告费.【解析】(1)由题得.所以.所以.所以线性回归方程为.相关系数,所以每日的播放量和开播天数线性相关性较强.(2)设利润为,则所以估计制作方在该剧开播两周内获得的利润为万元..答:估计制作方在该剧开播两周内获得的利润为万元..题型二:线性回归例4.(2022·重庆南开中学高三阶段练习)重庆位于北半球亚热带内陆地区,其气候特征恰如几句俗谚:春早气温不稳定,夏长酷热多伏旱,秋凉绵绵阴雨天,冬暖少雪云雾多.尤其是10月份,昼夜温差很大,某数学兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了2021年10月某六天的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期第一日第三日第五日第四日第二日第六日昼夜温差(℃)47891214就诊人数(个)其中:,,2,3,4,5,6,参考数据:,,.(1)根据散点图可以认为与之间存在线性相关关系,且相关系数,请用最小二乘法求出线性回归方程(,用分数表示);(2)分析数据发现:第六日就诊人数,第一日就诊患者中有3个小孩,其他患者全是大人,现随机的从第一日所有就诊患者中选出2人,若2人中至少有一个小孩的概率为;①求的值;②若,求,,,的值(只写结果,不要求过程).(参考公式:,,)【解析】(1)因为,所以,因为,,所以,得,因为,所以,因为,,所以,所以,,即线性回归方程(2)①由题意可得:2人中至少有一个小孩的概率为,得:所以或(舍)②由(1)得,因为,,所以,得,因为,所以,所以,因为,,所以,,,.例5.(2022·全国·高三专题练习)已知,的取值如表:01344.34.86.7若,具有线性相关关系,且回归方程为,则__________.【答案】【解析】将代入回归方程为,可得,应填答案.例6.(2022·河北衡水·高三阶段练习)已知一组样本数据,,…,(,,,…,不相等),若这组数据的样本相关系数为,则在这组样本数据的散点图中,所有样本点(,2,…,n)所在的曲线可能是(

)A. B. C. D.【答案】A【解析】样本相关系数r的绝对值越接近于1,样本数据的散点图越接近于一条直线.因为该组数据的样本相关系数,故样本数据呈负相关,所以所有样本点(,2,…,n)所在的曲线可能在直线上,故选:A.变式4.(2022·全国·高三专题练习(文))给出下列说法:①回归直线恒过样本点的中心,且至少过一个样本点;②两个变量相关性越强,则相关系数就越接近1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程中,当解释变量增加一个单位时,预报变量平均减少0.5个单位.其中说法正确的是(

)A.①②④ B.②③④ C.①③④ D.②④【答案】B【解析】对于①中,回归直线恒过样本点的中心,但不一定过一个样本点,所以不正确;对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数就越接近1,所以是正确的;对于③中,根据方差的计算公式,可得将一组数据的每个数据都加一个相同的常数后,方差是不变的,所以是正确的;对于④中,根据回归系数的含义,可得在回归直线方程中,当解释变量增加一个单位时,预报变量平均减少0.5个单位,所以是正确的.故选:B.变式5.(2022·全国·高三专题练习)对于数据组,如果由线性回归方程得到的对应于自变量的估计值是,那么将称为相应于点的残差.某工厂为研究某种产品产量(吨)与所需某种原材料吨)的相关性,在生产过程中收集4组对应数据如下表所示:34562.534根据表中数据,得出关于的线性回归方程为,据此计算出样本点(4,3)处的残差为-0.15,则表中的值为(

)A.3.3 B.4.5 C.5 D.5.5【答案】B【解析】由题意可知,在样本(4,3)处的残差-0.15,则,即,解得,即,又,且线性方程过样本中心点(,),则,则,解得.故答案为:B变式6.(2022·全国·高三专题练习)已知两个变量和之间有线性相关关系,经调查得到如下样本数据,345673.52.41.1-0.2-1.3根据表格中的数据求得同归方程,则下列说法正确的是(

)A., B.,C., D.,【答案】B【解析】由已知数据,可知随着的增大而减小,则变量和变量之间存在负相关的关系,,当时,则,即:,.故选:B.变式7.(2022·全国·高三专题练习)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数(天)3456繁殖个数(千个)2.534.5由最小二乘法得与的线性回归方程为,则当时,繁殖个数的预测值为()A.4.9 B.5.25C.5.95 D.6.15【答案】B【解析】由题意,根据表格中的数据,可得,即样本中心为,代入回归直线方程,即,解得,即回归直线的方程为,当时,,故选B.变式8.(2022·北京师大附中高三阶段练习(文))为了规定工时定额,需要确定加工某种零件所需的时间,为此进行了次试验,得到组数据:,由最小二乘法求得回归直线方程为.若已知,则A. B. C. D.【答案】C【解析】由题意,可得,代入回归直线的方程,可得,所以,故选C.变式9.(2022·广东·顺德一中高三阶段练习)据一组样本数据,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点和误差较大,去除后重新求得的经验回归直线的斜率为1.2,则(

)A.去除两个误差较大的样本点后,的估计值增加速度变快B.去除两个误差较大的样本点后,重新求得的回归方程一定过点C.去除两个误差较大的样本点后,重新求得的回归方程为D.去除两个误差较大的样本点后,相应于样本点的残差为0.05【答案】C【解析】对A,因为,所以去除两个误差较大的样本点后的估计值增加速度变慢,故A错误;对B,当时,,设去掉两个误差较大的样本点后,横坐标的平均值为,纵坐标的平均值为,则,,故B错误;对C,因为去除两个误差较大的样本点后,重新求得回归直线的斜率为1.2,所以,解得,所以去除两个误差较大的样本点后的经验回归方程为,故C正确;对D,因为,所以,故D错误.故选:C.变式10.(2022·全国·高三专题练习)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入x(亿元)与产品收益y(亿元)的数据统计如下:研发投入x(亿元)12345产品收益y(亿元)3791011(1)计算x,y的相关系数r,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)(2)求出y关于x的线性回归方程,并预测研发投入20(亿元)时产品的收益.参考数据:,,.附:相关系数公式:,回归直线方程的斜率,截距.【解析】(1)∵,,,∴,∴该中医药企业的研发投入x与产品收益y具有较高的线性相关程度.(2)∵,,∴.∴y关于x的线性回归方程为,将代入线性回归方程可得,,∴预测研发投入20(亿元)时产品的收益为40.3(亿元).变式11.(2022·全国·模拟预测(文))2020年,国庆“遇上”中秋,中国人把这个“超长黄金周”过出了年味.假期期间,全国各大旅游景点、车站、机场人头攒动的景象也吸引了世界的目光.外国媒体、专家和网友“实名羡慕”,这一派热闹景象证明了抗疫的成功,也展示了中国经济复苏的劲头.抗疫的成功离不开国家强大的医疗卫生体系,下表是某省2013年至2019年医疗卫生机构数(单位:万个):年份2013201420152016201720182019年份代号1234567医疗卫生机构数4.24.34.54.74.84.84.9(1)求关于的线性回归方程(,保留两位小数);(2)规定若某年的实际医疗卫生机构数与估计值的差的绝对值不超过500个,则称该年是“吻合”年.利用(1)的结果,假设2020年该省医疗卫生机构数的估计值为实际值,现从2013年至2020年这8年中任选3年,其中“吻合”年的个数为,求的分布列与数学期望.参考数据:,.参考公式:线性回归方程中斜率和截距的最小二乘估计公式分别为:,.【解析】(1)由题意得,,则,所以关于的线性回归方程为.(2)2013年至2019年这7年该省医疗卫生机构数的估计值与实际值(单位:万个)如下表所示:年份2013201420152016201720182019实际值4.24.34.54.74.84.84.9估计值4.244.364.484.64.724.844.96则2013年至2020年这8年中“吻合”年有2013年,2015年,2018年,2020年,共4年,故的所有可能取值为0,1,2,3,且,,故的分布列为0123所以.变式12.(2022·全国·高三专题练习)在我国抗疫期间,素有“南抖音,北快手”之说的小视频除了给人们带来生活中的快乐外,更在于传递了一种正能量,为抗疫起到了积极的作用,但一个优秀的作品除了需要有很好的素材外,更要有制作上的技术要求,某同学学习利用“快影”软件将已拍摄的素材进行制作,每次制作分三个环节来进行,其中每个环节制作合格的概率分别为,,,只有当每个环节制作都合格才认为一次成功制作,该小视频视为合格作品.(1)求该同学进行3次制作,恰有一次合格作品的概率;(2)若该同学制作10次,其中合格作品数为,求的数学期望与方差;(3)该同学掌握技术后制作的小视频被某广告公司看中,聘其为公司做广告宣传,决定试用一段时间,每天制作小视频(注:每天可提供素材制作个数至多40个),其中前7天制作合格作品数与时间如下表:(第天用数字表示)时间()1234567合格作品数()3434768其中合格作品数()与时间()具有线性相关关系,求关于的线性回归方程(精确到0.01),并估算第14天能制作多少个合格作品(四舍五入取整)?(参考公式,,参考数据:.)【解析】(1)由题意知:制作一次视频成功的概率为,所以该同学进行3次制作,恰有一次合格作品的概率.(2)根据题意可得:,所以,,(3)根据表格数据可计算出:,,所以,所以,所以关于的线性回归方程为,令,得,即估计第14天能制作13个合格作品.题型三:非线性回归例7.(2022·广东·顺德一中高三阶段练习)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长.已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:年份(年)20142015201620172018201920202021年份代码x12345678保有量y/千辆1.952.924.386.589.8715.0022.5033.70参考数据:,,其中(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;【解析】(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是,令,则因为,所以,,,所以;(2)设传统能源汽车保有量每年下降的百分比为r,依题意得,),解得,设从2021年底起经过x年后的传统能源汽车保有量为y千辆,则有x,设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有,所以,解得,故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过传统能源汽车.例8.(2022·全国·高三专题练习)2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区2019年11月至2020年11月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1至13分别对应2019年11月至2020年11月)(

)根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:0.9230.973注:是样本数据中的平均数,是样本数据中的平均数,则于列说法不一定成立的是(

)A.当月在售二手房均价与月份代码呈正相关关系B.根据可以预测2021年2月在售二手房均价约为1.0509万元/平方米C.曲线与的图形经过点D.回归曲线的拟合效果好于【答案】C【解析】对于A,散点从左下到右上分布,所以当月在售二手房均价与月份代码呈正相关关系,故A正确;对于B,令,由,所以可以预测2021年2月在售二手房均价约为1.0509万元/平方米,故B正确;对于C,非线性回归方程不一定经过,故错误;对于D,越大,拟合效果越好,故D正确.故选:C.例9.(2022·全国·高三专题练习)一只红铃虫的产卵数y和温度x有关,现收集了6组观测数据,y(单位:个)与温度x(单位:℃)得到样本数据(,2,3,4,5,6),令,并将绘制成如图所示的散点图.若用方程对y与x的关系进行拟合,则(

)A., B.,C., D.,【答案】A【解析】因为,令,则z与x的回归方程为.根据散点图可知z与x正相关,所以.由回归直线图象可知:回归直线的纵截距大于0,即,所以,故选:A.变式13.(2022·全国·高三专题练习)用模型拟合一组数据时,令,将其变换后得到回归直线方程,则(

)A.e B. C. D.2【答案】D【解析】对两边同时取对数,则,令,则,所以,所以.故选:D.变式14.(2022·全国·高三专题练习)在一组样本数据,,,的散点图中,若所有样本点(,2,,7)都在曲线附近波动,经计算,,,则实数(

)A.0.5 B.0.5 C.1 D.1【答案】A【解析】因为,,所以,解得.故选:A.变式15.(2022·全国·高三专题练习)如图是一组实验数据构成的散点图,以下函数中适合作为与的回归方程的类型是(

)A. B. C. D.【答案】D【解析】由散点图中各点的变化趋势知,各点不在一条直线上,排除A.由散点图中各点呈单调递减趋势,排除B.又图中点的横坐标有正有负,故排除C.故选:D.变式16.(2022·全国·高三专题练习)如图是一组实验数据构成的散点图,以下函数中适合作为与的回归方程的类型是(

)A. B. C. D.【答案】D【解析】由散点图中各点的变化趋势:非线性、且上单调递减,所以适合指数型模型.故选:D变式17.(多选题)(2022·全国·高三专题练习)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有(

)A. B.C. D.【答案】ABC【解析】对于选项A:,令则;对于选项B:令;对于选项C:即令则;对于选项D:令则此时斜率为,与最小二乘法不符.故选:ABC变式18.(2022·全国·高三专题练习)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①;②,其中、、、均为常数,为自然对数的底数.令,,经计算得如下数据:262156526805.36112501302.612(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)根据(1)的选择及表中数据,建立关于的回归方程;(系数精确到0.01)(3)若希望2021年盈利额为250亿元,请预测2021年的研发资金投入额为多少亿元.(结果精确到0.01)【解析】(1)设和的相关系数为,和的相关系数为.由题意,,,则,因此从相关系数的角度,模型的拟合程度更好.(2)先建立关于的线性回归方程,由,得,即.,,所以关于的线性回归方程为,所以,则.(3)2021年盈利额(亿元),所以,则.因为,所以.所以2021年的研发资金投入量约为27.56亿元.变式19.(2022·全国·高三专题练习)在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x(单位:元)与购买人数y(单位:万人)的数据如下表:旅游类别城市展馆科技游乡村特色游齐鲁红色游登山套票游园套票观海套票套票价格x(元)394958677786购买数量y(万人)16.718.720.622.524.125.6在分析数据、描点绘图中,发现散点集中在一条直线附近,其中附:①可能用到的数据:.②对于一组数据,其回归直线的斜率和截距的最小二乘估计值分别为(1)根据所给数据,求y关于x的回归方程;(2)按照文旅部门的指标测定,当购买数量y与套票价格x的比在区间上时,该套票受消费者的欢迎程度更高,可以被认定为“热门套票”,现有三位同学从以上六款旅游套票中,购买不同的三款各自旅游.记三人中购买“热门套票”的人数为X,求随机变量X的分布列和期望.【解析】(1)散点集中在一条直线附近,设回归直线方程为由,则,,变量关于的回归方程为,,,,综上,y关于x的回归方程为;(2)由,解得,,乡村特色游,齐鲁红色游,登山套票,游园套票为“热门套票”,则三人中购买“热门套票”的人数X服从超几何分布,的可能取值为,的分布列为:123P.变式20.(2022·全国·高三专题练习)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x12345市场规模y3.984.565.045.866.36参考数据:,,,其中.参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.(1)由上表数据可知,可用函数模型拟合y与x的关系,请建立y关于x的回归方程(,的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X,若,求X的分布列与期望.【解析】(1)设,则,因为,,,所以.把代入,得.即关于的回归方程为;(2)由题意知,,,由得,所以,的取值依次为0,1,2,3,4,,,,,,所以X的分布列为X01234P.变式21.(2022·湖南·长沙市明德中学高三开学考试)近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用x表示活动推出的天数,y表示每天来访的人次,绘制了以下散点图.(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及下表中的数据,求y关于x的回归方程,并预测活动推出第8天售楼部来访的入次,参考数据:其中,.线性回归方程:,其中,.(3)己知此楼盘第一天共有10套房源进行销售,其中6套正价房,4套特价房,设第一天卖出的4套房中特价房的数量为,求的分布列与数学期望.【解析】(1)根据散点图可得随的增大,增长速度越来越快,不满足线性回归,故判断适合作为人次y关于活动推出天数x的回归方程类型(2)由(1)知,,两边同时取对数得,令,,则,由题意知,又,,所以,所以所以,则y关于x的回归方程为,当时,,故预测活动推出第8天售楼部到访人次为690;(3)由题意可知的取值可能为0,1,2,3,4,,,,,.所以的分布列为:01234P所以题型四:独立性检验例10.(2022·江苏·南京市秦淮中学高三阶段练习)某校为引导学生学习党史,校党委宣传组织了党史知识竞赛,对前来参赛的150名学生(男生100人,女生50人),成绩不低于80分的学生为“党史达人”,成绩低于80分的学生为“非党史达人”,统计了他们的成绩情况,结果如下:男生中有60人被评为“党史达人”,女生中有40人被评为“党史达人”.(1)完善列联表,并判断:是否有99%的把握认为党史成绩优秀与否与性别有关?性别是否为党史达人党史达人非党史达人男生女生(2)如果用这150名学生中,男生和女生“党史达人”的频率分别代替该校男生和女生被评为“党史达人”的概率,且每位学生是否被评为“党史达人”相互独立,现从该校学生中随机抽取3人(2男1女),设随机变量表示“3人中党史达人”的人数,试求的分布列和数学期望.附:.【解析】(1)根据已知数据,完善列联表如图,性别是否为党史达人党史达人非党史达人男生6040女生4010

因为所以没有99%的把握认为党史成绩优秀与否与性别有关.(2)由已知得该校男生和女生被评为“党史达人”的概率分别,的取值有0,1,2,3所以,的分布列为:0123的期望为例11.(2022·四川·树德中学高三阶段练习(文))根据分类变量x与y的观察数据,计算得到.依据下面给出的临界值表,0.500.400.250.150.100.050.0250.0100.0050.4550.7081.3232.0722.7063.8415.0246.6357.879可知下列判断中正确的是(

)A.有95%的把握认为变量x与y独立B.有95%的把握认为变量x与y不独立C.变量x与y独立,这个结论犯错误的概率不超过10%D.变量x与y不独立,这个结论犯错误的概率不超过10%【答案】D【解析】因为,且,所以依据表中给出的独立性检验知:变量x与y不独立,这个结论犯错误的概率不超过10%,故选:D例12.(2022·浙江省苍南中学高三阶段练习)在新高考改革中,浙江省新高考实行的是7选3的模式,即语数外三门为必考科目,然后从物理、化学、生物、政治、历史、地理、技术(含信息技术和通用技术)7门课中选考3门.某校高二学生选课情况如下列联表一和列联表二(单位:人)选物理不选物理总计男生340110450女生140210350总计480320800表一选生物不选生物总计男生150300450女生150200350总计300500800表二试根据小概率值的独立性检验,分析物理和生物选课与性别是否有关(

)附:A.选物理与性别有关,选生物与性别有关B.选物理与性别无关,选生物与性别有关C.选物理与性别有关,选生物与性别无关D.选物理与性别无关,选生物与性别无关【答案】C【解析】由题意,先分析物理课是否与性别有关:根据表格数据,结合题干表格数据,,因此,有充分证据推断选择物理学科与性别有关再分析生物课是否与性别有关:根据表格数据,结合题干表格数据,,因此,没有充分证据推断选择生物学科与性别有关故选:C变式22.(2022·全国·高三专题练习)为考察一种新药预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的列联表中.由列联表中的数据计算得.参照附表,下列结论正确的是(

)0.0250.0100.0050.0015.026.6357.87910.828A.在犯错误的概率不超过0.1%的前提下,认为“药物有效”B.在犯错误的概率不超过0.1%的前提下,认为“药物无效”C.有99.99%以上的把握认为“药物有效”D.有99.99%以上的把握认为“药物无效”【答案】A【解析】因为,即,所以在犯错误的概率不超过0.1%的前提下,认为“药物有效”或有99.9%以上的把握认为“药物有效”.故选:A.变式23.(2022·福建厦门·高三期末(文))某艺术馆为了研究学生性别和喜欢国画之间的联系,随机抽取80名学生进行调查(其中有男生50名,女生30名),并绘制等高条形图,则这80名学生中喜欢国画的人数为(

)A.24 B.32 C.48 D.58【答案】D【解析】由等高条形图可知,这80名学生中喜欢国画的人数为:.故选:D变式24.(2022·全国·高三专题练习)观察下列各图,其中两个分类变量x,y之间关系最强的是(

)A. B.C. D.【答案】D【解析】观察等高条形图发现与相差很大,就判断两个分类变量之量关系最强.故选:D变式25.(2022·广西·玉林高级中学一模(理))假设有两个分类变量和的列联表如下:注:的观测值.对于同一样本,以下数据能说明和有关系的可能性最大的一组是()A. B. C. D.【答案】A【解析】根据独立性检验的方法和列联表可得,当与相差越大,则分类变量和有关系的可能性越大,即相差越大,与相差越大.由各选项可得A满足条件,选A.变式26.(2022·广东·高三阶段练习)某短视频平台为更好地了解用户喜好,将不同类别的视频精准推送给相应感兴趣的用户,增强用户使用短视频软件的体验感,该短视频平台会将某一类别的短视频随机投放给不同的用户群体,根据用户观看视频的时长判断该用户是否对这类视频感兴趣,进而推断此类视频适合的观看群体,达到精准推送的目的(该短视频平台规定观看时长在10秒以内的为对推送内容不感兴趣的用户,观看时长在10秒及以上的为对推送内容感兴趣的用户).为了解“萌宠类”短视频适合的用户群体,该平台将这一类别的视频随机推送给100名用户(其中男性50人,女性50人),并得到用户的观看时长数据如表所示.观看时长(单位:秒)总计男性用户921l44250女性用户3121910650(1)根据上述表格,完成下面的列联表,并依据小概率值的独立性检验,能否认为该平台用户对“萌宠类”视频感兴趣与性别有关联?性别“萌宠类”视频合计感兴趣不感兴趣男女合计(2)从这100名用户里对“萌宠类”视频不感兴趣的用户中,按性别利用分层随机抽样的方法抽取6名用户,并在这6名用户中随机抽取3人,记抽取的男性用户人数为X,求X的分布列和数学期望.参考公式和数据:,.0.10.050.010.0050.0012.7063.8416.6357.87910.828【解析】(1)由题可得,列联表完成如下:性别“萌宠类”视顿合计感兴趣不感兴趣男203050女351550合计5545100零假设为:该平台用户对“萌宠类”视领感兴趣与性别无关联.根据列联表的数据,经计算得到依据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为该平台用户对“萌宠类”视频感兴趣与性别无关联.(2)由题可知,抽取的6名用户中男性用户人数为,则女性用户人数为2.再从中抽取3人,则X的可能取值为1,2,3,,,则X的分布列为X123P.变式27.(2022·湖南岳阳·高三阶段练习)伴随经济的飞速发展,中国全民健身赛事活动日益丰富,公共服务体系日趋完善.据相关统计数据显示,中国经常参与体育锻炼的人数比例为37.2%,城乡居民达到《国民体质测定标准》合格以上的人数比例达到90%以上.健身之于个人是一种自然而然的习惯,之于国家与民族,则是全民健康的基础柱石之一,某市一健身连锁机构对去年的参与了该连锁机构健身的会员进行了统计,制作成如下两个统计图,图1为该健身连锁机构会员年龄等级分布图,图2为一个月内会员到健身连锁机构频数分布扇形图若将会员按年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或40岁及以上)两类,将一月内来健身房锻炼16次及以上的会员称为“健身达人”,15次及以下的会员称为“健身爱好者”,且已知在“健身达人”中有是“年轻人”.(1)现从该健身连锁机构会员中随机抽取一个容量为100人的样本,根据上图的数据,补全下方列联表,并判断依据小概率值的独立性检验,能否认为是否为“健身达人”与年龄有关;类别年轻人非年轻人合计健身达人健身爱好者合计100临界值表:(2)将(1)中的频率作为概率,连锁机构随机选取会员进行回访,抽取3人回访.①若选到的3人中2人为“年轻人”,1人为“非年轻人”,再从这3人中随机选取的1人,了解到该会员是“健身达人”,求该人为非年轻人的概率;②设3人中既是“年轻人”又是“健身达人”的人数为随机变量X,求X的分布列和期望值.【解析】(1)根据年轻人标准结合图1可得年轻人占比为80%,则年轻人人数为,则非年轻人为20人,根据图2表格得健身达人所占比60%,所以其人数为,根据其中年轻人占比,所以健身达人中年轻人人数为,则非年轻人为10人;健身爱好者人数为,再通过总共年轻人合计为80人,则健身爱好者中年轻人人数为,3根据非年轻人总共为20人,则健身爱好者中非年轻人人数为,具体表格填写如下.列联表为类别年轻人非年轻人合计健身达人501060健身爱好者301040合计8020100零假设,是否为“健身达人”与年龄无关.所以,依据的独立性检验,不能认为“健身达人”与年龄有关;(2)①设事件为:该人为年轻人,事件为:该人为健身达人,故此人为“非年轻人”的概率为则②由(1)知,既是年轻人又是健身达人的概率为,,故X的分布列:0123的数学期望值.变式28.(2022·全国·高三专题练习)某种疾病可分为,两种类型,为了解该疾病的类型与患者性别是否相关,在某地区随机抽取了若干名该疾病的患者进行调查,发现女性患者人数是男性患者的2倍,男性患型疾病的人数占男性患者的,女性患型疾病的人数占女性患者的.,0.100.050.010.0050.0012.7063.8416.6357.87910.828(1)若本次调查得出“在犯错误的概率不超过0.005的前提下认为‘所患疾病的类型’与‘性别’有关”的结论,求被调查的男性患者至少有多少人?(2)某团队进行预防型疾病的疫苗的研发试验,试验期间至多安排2个周期接种疫苗,每人每个周期接种3次,每次接种费用为元.该团队研发的疫苗每次接种后产生抗体的概率为,如果一个周期内至少2次出现抗体,则该周期结束后终止试验,否则进人第二个周期.若,试验人数为1000人,试估计该试验用于接种疫苗的总费用.【解析】(1)设男性患者有人,则女性患者有人,列联表如下:型病型病合计男女合计假设:患者所患疾病类型与性别之间无关联,根据列联表中的数据,经计算得到,要使在犯错误的概率不超过的前提下认为“所患疾病类型”与“性别”有关,则,解得,因为,,所以的最小整数值为,因此,男性患者至少有人.(2)设该试验每人的接种费用为元,则的可能取值为,.则,,所以,因为,试验人数为人,所以估计该试验用于接种疫苗的总费用为,即元.变式29.(2022·全国·高三专题练习)某校设置了篮球挑战项目,现在从本校学生中随机抽取了60名男生和40名女生共100人进行调查,统计出愿意接受挑战和不愿意接受挑战的男女生比例情况,具体数据如图表:(1)根据条件完成下列列联表:愿意不愿意总计男生女生总计(2)判断是否在犯错误的概率不超过1%的情况下愿意接受挑战与性别有关;(3)挑战项目共有两关,规定:挑战过程依次进行,每一关都有两次机会挑战,通过第一关后才有资格参与第二关的挑战,若甲参加每一关的每一次挑战通过的概率均为0.5,记甲通过的关数为,求的分布列和数学期望.参考公式与数据:0.10.050.0250.012.7063.8415.0246.635【解析】(1)根据条件列联表如下:愿意不愿意总计男生154560女生202040总计3565100(2),则不能认为犯错误的概率不超过1%的情况下愿意接受挑战与性别有关;(3)记甲第次通过第一关为,第次通过第二关为,的可能取值为,,,,的分布列012数学期望.题型五:误差分析例13.(2022·全国·高三专题练习)在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于预报变量变化的贡献率,则(

)A. B. C.1 D.2【答案】C【解析】因为样本数据所对应的点都在直线上,所以.故选:C例14.(2022·全国·高三专题练习)小华为了研究数学名次和物理名次的相关关系,记录了本班五名同学的数学和物理的名次,如图.后来发现第四名同学数据记录有误,那么去掉数据后,下列说法错误的是(

)A.样本线性相关系数变大 B.残差平方和变大C.变量、的相关程度变强 D.线性相关系数越趋近于【答案】B【解析】由散点图知,去掉后,与的线性相关程度变强,且为正相关,所以变大,且线性相关系数越趋近于,去掉后,散点分布更均匀,残差平方和变小.故ACD正确,B错误.故选:B.例15.(2022·全国·高三专题练习)下列说法错误的是(

)A.相关系数r的绝对值越大,两个变量的线性相关性越强B.在回归分析中,残差平方和越大,模型的拟合效果越好C.相关指数,表示解释变量对于预报变量变化的贡献率为64%D.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高【答案】B【解析】,相关系数r的绝对值越接近1,两个变量的线性相关性越强,故A正确;在回归分析中,残差平方和越小,模型的拟合效果越好,故B错误;相关指数,表示解释变量对于预报变量变化的贡献率为64%,故C正确;在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,故D正确;故选:B.变式30.(2022·全国·高三专题练习)如下表,根据变量与之间的对应数据可求出.其中.现从这个样本点对应的残差中任取一个值,则残差不大于的概率为(

)A. B. C. D.【答案】C【解析】由表中的数据可知,,设的最后一个数据为,则,,将,代入得,这个样本点对应的残差分别为:,,,,,所以残差不大于的概率为.故选:.变式31.(2022·全国·高三专题练习(文))根据一组样本数据,,,的散点图分析x与y之间是否存在线性相关关系,求得其线性回归方程为,则在样本点处的残差为(

)A. B. C. D.【答案】B【解析】把代入,得,所以在样本点处的残差.故选:B.变式32.(2022·全国·高三开学考试)已知一系列样本点,,,,其中,.响应变量关于的线性回归方程为.对于响应变量,通过观测得到的数据称为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值,称为残差,即,称为相应于点的残差.参考公式:,,.(1)证明:;(2)证明:,并说明与线性回归模型拟合效果的关系.【解析】(1)因为,所以,且,,所以,,所以;(2)根据给出的相关系数公式,以及回归直线斜率和截距的最小二乘估计,可知,记,所以,且,又,所以,又,所以,且当越小时,相关性越强,线性回归模型拟合效果越好,即越大时,线性回归模型拟合效果越好.变式33.(2022·全国·高三专题练习)为了帮助移民人口尽快脱贫,党中央作出对口扶贫的战略部署,在对口扶贫政策的帮扶下,某移民村庄100位移民近5年以来的人均年收入统计如下表:年份20162017201820192020年份代码12345人均年收入(千元)1.32.85.78.913.8现要建立关于的回归方程,有两个不同回归模型可以选择,模型一:,模型二:.现用最小二乘法原理,已经求得模型一的方程为.(1)用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(结果最后保留到小数点后一位);(2)若画出关于的散点图,无法确定上述哪个模型拟合效果更好,现计算出模型一的残差平方和为,请计算模型二的残差平方和,并用它来判断哪个模型拟合效果更好.附:参考数据:,其中,.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘法估计公式分别为,.【解析】(1)令,则,所以,,,,所以.(2)当时,,当时,,当时,,当时,,当时,,模型二的残差平方和,因为,所以模型二拟合效果更好.变式34.(2022·山东师范大学附中模拟预测)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.经计算得到以下数据:,.(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.【解析】(1)由题意可知,;∴y关于x的线性回归方程是;(2)①用指数回归模型拟合y与x的关系,相关指数,线性回归模型拟合y与x的关系,相关指数,且,∴用比拟合效果更好.②中,令,则,故预测温度为时该昆虫产卵数约为190个.【过关测试】一、单选题1.(2022·四川·树德中学高三阶段练习(文))某工厂研究某种产品的产量(单位:吨)与需求某种材料(单位:吨)之间的相关关系,在生产过程中收集里组数据如表所示.根据表中数据可得回归直线方程为,则下列四个说法中正确的个数为(

)34672.5345.9①变量与正相关;②与的相关系数;③;④产量为8吨时,预测所需材料约为5.95吨.A.4个 B.3个 C.2个 D.1个【答案】B【解析】因为回归直线方程,所以产量与材料呈正相关,所以相关系数,故①正确,②错误;由表格可得,则,解得,故③正确;所以回归直线方程,当时,,即产量为8吨时预测所需材料约为5.95吨,故④正确;故选:B2.(2022·四川·树德中学高三阶段练习(理))以模型去拟合一组数据,设将其变换后得到线性回归方程,则原模型中的值分别是(

)A., B.,C., D.,【答案】B【解析】两边取对数,可得,令可得∵线性回归方程∴,解得.故选:B.3.(2022·黑龙江·佳木斯一中三模(文))下列说法正确的序号是(

)①在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位;②利用最小二乘法求回归直线方程,就是使得最小的原理;③已知,是两个分类变量,若它们的随机变量的观测值越大,则“与有关系”的把握程度越小;④在一组样本数据,,…,(,,,…,不全相等)的散点图中,若所有样本都在直线上,则这组样本数据的线性相关系数为.A.①③ B.①② C.②④ D.③④【答案】B【解析】对于①,在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位,故①正确;对于②,用离差的平方和,即:作为总离差,并使之达到最小;这样回归直线就是所有直线中取最小值的那一条。由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法叫做最小二乘法;所以利用最小二乘法求回归直线方程,就是使得最小的原理;故②正确;对于③,对分类变量与,对它们的随机变量的观测值来说,越小,则“与有关系”的把握程度越小,故③错误;对于④,相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为,故④错误.故选:B.4.(2022·四川省仁寿县文宫中学高三阶段练习(理))某医疗研究所为了检查新研发的疫苗对某种病毒的预防作用,把1000只已注射疫苗的小白鼠与另外1000只未注射疫苗的小白鼠的感染记录作比较,提出原假设:“这种疫苗不能起到预防该病毒传染的作用.”并计算得,则下列说法正确的是()A.这种疫苗对预防该病毒传染的有效率为1%B.若某人未使用疫苗,则他有99%的可能性传染该病毒C.有99%的把握认为“这种疫苗能起到预防该病毒传染的作用”D.有1%的把握认为“这种疫苗能起到预防该病毒传染的作用”【答案】C【解析】由已知,,说明假设不合理的程度为99%,即这种疫苗不能起到防范病毒的作用不合理的程度约为99%,所以有99%的把握认为这种疫苗能起到预防病毒的作用.故选:C.5.(2022·四川省德阳市第三中学高三开学考试)在下列4组样本数据的散点图中,样本相关系数最小的是(

)A. B. C. D.【答案】B【解析】由散点图变化趋势可知,,,,,又第2组散点图中的散点更为集中,更接近于一条直线,所以,故样本相关系数最小的是.故选:B.6.(2022·全国·高三专题练习)针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立,则的最小值为(

)附:,附表:0.050.013.8416.635A.7 B.8 C.9 D.10【答案】C【解析】根据题意,不妨设,于是,由于依据的独立性检验认为喜欢短视频和性别不独立,根据表格可知,解得,于是最小值为.故选:C7.(2022·全国·高三专题练习)中国是茶的故乡,也是茶文化的发源地.茶的发现和利用已有四千七百多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出特色茶食品“金萱排骨茶”,为了解每壶“金萱排骨茶”中所放茶叶量x(单位:克)与食客的满意率y的关系,通过调查研究发现选择函数模型来拟合y与x的关系,根据以下数据:茶叶量x/克123454.344.364.444.454.51可求得y关于x的回归方程为(

)(附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,)A. B.C. D.【答案】B【解析】对等式两边同时取对数,可得:易知:,则综上,可得:又有:可得:故选:B8.(2022·全国·高三专题练习)用模型拟合一组数,若,,设,得变换后的线性回归方程为,则(

)A.12 B. C. D.7【答案】B【解析】由已知,,所以,,,所以,由题意,满足线性回归方程为,所以,所以,此时线性回归方程为,即,可将此式子化为指数形式,即为,因为模型为模型,所以,,所以.故选:B.二、多选题9.(2022·湖北·荆州中学高三阶段练习)某地为响应“扶贫必扶智,扶智就扶知识、扶技术、扶方法”的号召,建立农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:年份20162017201820192020年份代码12345年借阅量(万册)4.95.15.55.75.8根据上表,可得关于的经验回归方程为,则(

)A.B.借阅量4.9,5.1,5.5,5.7,5.8的上四分位数为5.7C.与的线性相关系数D.2021年的借阅量一定不少于6.12万册【答案】ABC【解析】对于A,因为,,所以,得,所以A正确,对于B,因为,所以借阅量4.9,5.1,5.5,5.7,5.8的上四分位数为5.7,所以B正确,对于C,因为,所以y与x的线性相关系数,所以C正确,对于D,由选项A可知线性回归方程为,当时,,所以2021年的借阅量约为6.12万册,所以D错误,故选:ABC10.(2022·云南·昆明一中高三开学考试)下列说法正确的是(

)A.相关系数的绝对值越大,变量的线性相关性越强B.某人每次射击击中目标的概率为,若他射击6次,击中目标的次数为,则C.若随机变量满足,且,则D.若样本数据的方差是12,则数据的方差是7【答案】ABC【解析】A:由相关系数的实际意义:绝对值越大,变量线性相关性越强,正确;B:由题意,击中目标的次数服从分布,故,正确;C:根据正态分布的对称性及已知条件知:,故,正确;D:由,故数据的方差,错误.故选:ABC11.(2022·全国·高三专题练习)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个歧义点和后,得到新的回归直线的斜率为3.则下列说法正确的是(

)A.相关变量x,y具有正相关关系B.去除两个歧义点后的回归直线方程为C.去除两个歧义点后,样本(4,8.9)的残差为D.去除两个歧义点后,随x值增加相关变量y值增加速度变小【答案】ABC【解析】对A,因为回归直线的斜率大于0,即相关变量x,y具有正相关关系,故A正确;对B,将代入得,则去掉两个歧义点后,得到新的相关变量的平均值分别为,,此时的回归直线方程为,故B正确;对C,x=4时,,残差为8.9-9=-0.1,故C正确;对D,斜率3>1,此时随x值增加相关变量y值增加速度变大,D错误.故选:ABC.12.(2022·全国·模拟预测)下列说法正确的是(

)A.若随机变量,,则B.若随机变量,则C.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则c,k的值分别是,0.5D.从10名男生、5名女生中随机选取4人,则其中至少有一名女生的概率【答案】AC【解析】对于A:随机变量,,则,故A正确;对于B:陏机变量,则,故,故B错误;对于C:因为,所以两边取对数得,令,可得,因为,所以,,所以,故C正确;对于D:从10名男生、5名女生中选取4人,则其中至少有一名女生分为:1名女生3名男生、2名女生2名男生、3名女生1名男生和4名都是女生四种情况.共有种情况.而,所以其中至少有一名女生的概率为,故D错误.故选:AC.三、填空题13.(2022·全国·高三专题练习)有甲、乙两个班级共计105人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是________.①列联表中c的值为30,b的值为35;②列联表中c的值为20,b的值为45;③根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”;④根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”.【答案】②③【解析】由题意得在全部105人中随机抽取1人,成绩优秀的概率为,则成绩优秀的学生有人,甲班有10人,则乙班20人,即c=20,成绩非优秀的学生有75人,乙班由30人,则甲班哟有45人,即b=45,故①错误,②正确;由列联表可得,故按95%的可靠性要求,能认为“成绩与班级有关系”,③正确,④错误;故答案为:②③14.(2022·全国·高三专题练习)为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有________.①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多②被调查的女生中喜欢登山的人数比不喜欢登山的人数多③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关【答案】①③【解析】因为被调查的男女生人数相同,由等高堆积条形统计图可知,喜欢登山的男生占80%,喜欢登山的女生占30%,所以A正确,B错误;设被调查的男女生人数均为n,则由等高堆积条形统计图可得列联表如下男女合计喜欢0.8n0.3n1.1n不喜欢0.2n0.7n0.9n合计nn2n由公式可得:.当时,,可以判断喜欢登山和性别有关,故C正确;而,所以的值与n的取值有关.故D错误.故答案为:①③.15.(2022·全国·高三专题练习)为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:药物疾病合计未患病患病服用a50-a50未服用80-aa-3050合计8020100若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为___________(其中a≥40且a∈)(参考数据:≈2.58,≈3.29)参考公式临界值表0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828【答案】46【解析】由题意可得,整理得:,所以或,解得:或,又因为a≥40且a∈,所以,所以a的最小值为46.故答案为:46.16.(2022·全国·高三专题练习)一只红铃虫产卵数和温度有关,现测得一组数据,可用模型拟合,设,其变换后的线性回归方程为,若,,为自然常数,则________.【答案】【解析】经过变换后,得到,根据题意,故,又,故,,故,于是回归方程为一定经过,故,解得,即,于是.故答案为:.四、解答题17.(2022·四川·树德中学高三阶段练习(文))某花圃为提高某品种花苗质量,开展技术创新活动,在实验地分别用甲、乙方法培训该品种花苗.为观测其生长情况,分别在实验地随机抽取各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80及以上的花苗为优质花苗.(1)求图中的值,并求综合评分的中位数.(2)填写下面的列联表,并判断是否有99%的把握认为优质花苗与培育方法有关.优质花苗非优质花苗合计甲培优法20乙培优法10合计附:下面的临界值表仅供参考.(参考公式:,其中)【解析】(1)由直方图的性质可知:,解得,

因为,所以中位数位于之间,设中位数为,则有,解得,故综合评分的中位数为;(2)根据第一问,优质花苗的频率为0.6,样本中优质花苗的数量为60,得如下列联表:优质花苗非优质花苗合计甲培优法203050乙培优法401050合计6040100所以,

所以有得到把握任务优质花苗与培育方法有关;18.(2022·四川省仁寿县文宫中学高三阶段练习(理))文旅部门统计了某网红景点在2022年3月至7月的旅游收入(单位:万),得到以下数据:月份34567旅游收入1012111220(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由;(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,依据的独立性检验,能否认为“游客是否喜欢该网红景点与性别有关联”.喜欢不喜欢总计男100女60总计110参考公式:相关系数,参考数据:.线性回归方程:,其中,.临界值表:【解析】(1)由已知得:,,因为,说明与的线性相关关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论