成对数据的统计相关性【新教材】2022年人教A版高中数学选择性必修练习(含答案)_第1页
成对数据的统计相关性【新教材】2022年人教A版高中数学选择性必修练习(含答案)_第2页
成对数据的统计相关性【新教材】2022年人教A版高中数学选择性必修练习(含答案)_第3页
成对数据的统计相关性【新教材】2022年人教A版高中数学选择性必修练习(含答案)_第4页
成对数据的统计相关性【新教材】2022年人教A版高中数学选择性必修练习(含答案)_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

成对数据的统计相关性第I卷(选择题)一、单选题1.恩格尔系数(Engel’sCoefficien)是食品支出总额占个人消费支出总额的比重.居民可支配收入是居民可用于最终消费支出和储蓄的总和,即居民可用于自由支配的收入.如图为我国2013年至2019年全国恩格尔系数和居民人均可支配收入的折线图.给出三个结论:①恩格尔系数与居民人均可支配收入之间存在负相关关系;②一个国家的恩格尔系数越小,说明这个国家越富裕;③一个家庭收入越少,则家庭收入中用来购买食品的支出所占的比重就越小.其中正确的是()A.① B.② C.①② D.②③2.某电子商务平台每年都会举行“年货节”商业促销狂欢活动,现统计了该平台从2012年到2020年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将销售额看成年份序号(2012年作为第1年)的函数.运用Excel软件,分别选择回归直线和三次函数回归曲线进行拟合,效果如下图,则下列说法中正确的个数为()①销售额与年份序号呈正相关关系;②销售额与年份序号线性相关不显著;③三次函数回归曲线的效果好于回归直线的拟合效果;④根据三次函数回归曲线可以预测2021年“年货节”期间的销售额约为8454亿元.A.1 B.2 C.3 D.43.下列命题错误的是()A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1B.设,且,则C.线性回归直线一定经过样本点的中心D.在残差图中,残差点分布的带状区域的宽带越狭窄,其模型拟合的精度越高4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是()A.y=a•xb B.y=a•ebx C.y=a+blnx D.5.有一个食品商店为了调查气温对热饮销售的影响,经过调查得到关于卖出的热饮杯数与当天气温的数据如下表,绘出散点图如下.通过计算,可以得到对应的回归方程=-+,根据以上信息,判断下列结论中正确的是()摄氏温度-504712151923273136热饮杯数15615013212813011610489937654A.气温与热饮的销售杯数之间成正相关B.当天气温为2℃时,这天大约可以卖出143杯热饮C.当天气温为10℃时,这天恰卖出124杯热饮D.由于x=0时,的值与调查数据不符,故气温与卖出热饮杯数不存在线性相关性6.下列有关线性回归分析的四个命题:①线性回归直线必过样本数据的中心点;②回归直线就是散点图中经过样本数据点最多的那条直线;③当相关性系数时,两个变量正相关;④如果两个变量的相关性越强,则相关性系数就越接近于1.其中真命题的个数为()A.1个 B.2个 C.3个 D.4个7.对于散点图下列说法正确一个是()A.一定可以看出变量之间的变化规律 B.一定不可以看出变量之间的变化规律C.可以看出正相关与负相关有明显区别 D.看不出正相关与负相关有什么区别8.根据如表样本数据:x3579y632得到回归方程,(回归方程的斜率,截距,满足:),则下列结论:①变量x与y是线性正相关关系,②变量x与y是线性负相关关系,③,④,其中正确的是()A.①③ B.②③ C.①④ D.②④9.下列关于回归分析的说法中错误的是()A.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适B.两个模型中残差平方和越小的模型拟合的效果越好C.在线性回归方程中,当解释变量x每增加一个单位时,预报变量就平均增加0.2个单位D.甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好10.下面四个命题中,错误的是()A.从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B.对分类变量X与Y的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大C.两个随机变量相关性越强,则相关系数的绝对值越接近于0D.在回归直线方程=+12中,当解释变量x每增加一个单位时,预报变量平均增加个单位11.下列说法错误的是()A.回归直线过样本点的中心.B.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小C.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1D.在回归直线方程=+中,当解释变量x每增加1个单位时,预报变量平均增加个单位12.某学校开展研究性学习活动,某同学获得一组实验数据如下表:x34y12对于表中数据,现给出以下拟合曲线,其中拟合程度最好的是A. B. C. D.13.下面属于相关关系的是A.气温和冷饮销量之间的关系B.速度一定时,位移和时间的关系C.亩产量为常数时,土地面积与产量之间的关系D.正方体的体积和棱长的关系14.下列说法中错误的是A.从某社区65户高收入家庭,28户中等收入家庭,105户低收入家庭中选出100户调查社会购买力的某一项指标,应采用的最佳抽样为分层抽样.B.线性回归直线一定过样本中心点C.若两个随机变量的线性相关性越强,则相关系数的值越接近于D.若一组数据的众数是,则这组数据的中位数是15.在线性回归模型中,分别选择了4个不同的模型,它们的相关指数依次为、、、,其中回归效果最好的模型的相关指数为()A. B. C. D.16.有如下几个结论:①相关指数R2越大,说明残差平方和越小,模型的拟合效果越好;②回归直线方程:,一定过样本点的中心:③残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适;④在独立性检验中,若公式,中的|ad-bc|的值越大,说明“两个分类变量有关系”的可能性越强.其中正确结论的个数有()个.A.1 B.2 C.3 D.417.“吸烟有害健康,吸烟会对身体造成伤害”,哈尔滨市于年月日规定室内场所禁止吸烟.美国癌症协会研究表明,开始吸烟年龄()分别为岁、岁、岁和岁,其得肺癌的相对危险度()依次为、、、、;每天吸烟()支、支、支者,其得肺癌的相对危险度()分别为、和.用表示变量与之间的线性相关系数,用表示变量与之间的线性相关系数,则下列说法正确的是A. B. C. D.18.下列说法中错误的是A.先把高二年级的2000名学生编号为1到2000,再从编号为1到50的50名学生中随机抽取1名学生,其编号为,然后抽取编号为,,的学生,这样的抽样方法是系统抽样法B.线性回归直线一定过样本中心点C.若两个随机变量的线性相关性越强,则相关系数的值越接近于1D.若一组数据1、、3的平均数是2,则该组数据的方差是19.某公司在2016年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:月份1月2月3月4月5月6月收入x支出y根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系20.下列四个命题:①残差平方和越小的模型,拟合的效果越好;②用相关指数来刻画回归效果,越小,说明模型拟合的效果越好;③散点图中所有点都在回归直线附近;④随机误差满足,其方差的大小可用来衡量预报精确度.其中正确命题的个数是()A.1 B.2 C.3 D.4第II卷(非选择题)二、解答题21.2020年合肥市GDP迈上1万亿新台阶,城市核心竞争力首次进入长江经济带TOP10,金融省会城市竞争力进入全国TOP10,合肥的发展离不开中国科学院合肥分院、中国科学技术大学等一批一流高等学校的人才支撑、科技支撑,再次验证了“科学技术是第一生产力”的科学性.下表是合肥量子通讯关键设备生产企业每月生产的一种核心产品的产量:x件(3<x≤15)与相应的生产总成本(万元)的四组对照数据:x57911y200299430611研究人员建立了y与x的3种回归模型,利用计算机求得相应预报值结果如下:x57911①y180317453590②y215287416617③y203294426618(1)请计算3种回归模型的残差(实际值-预报值),根据残差分析判断哪一个模型的拟合效果最好并说明理由.(2)研究人员统计了该核心产品20个月的销售单价(万元),得到频数分布表如下:销售单价分组[75,85)[85,95)[95,105)频数587若以这20个月销售单价的平均值定为今后的销售单价(同一组中的数据用该组区间的中点值作代表),结合你对(1)的判断,当月产量为12件时,预测当月的利润(四舍五入,不保留小数).(可能用到的数据:123=1728,22.某公司对项目进行生产投资,所获得的利润有如下统计数据表:项目投资金额(单位:百万元)所获利润(单位:百万元)(1)请用线性回归模型拟合与的关系,并用相关系数加以说明;(2)该公司计划用百万元对、两个项目进行投资.若公司对项目投资百万元所获得的利润近似满足:,求、两个项目投资金额分别为多少时,获得的总利润最大?附:①对于一组数据、、、,其回归直线方程的斜率和截距的最小二乘法估计公式分别为:,.②线性相关系数.一般地,相关系数的绝对值在以上(含)认为线性相关性较强;否则,线性相关性较弱.参考数据:对项目投资的统计数据表中,,.23.“海水稻”就是耐盐碱水稻,是一种介于野生稻和栽培稻之间的普遍生长在海边滩涂地区,具有耐盐碱的水稻,它比其它普通的水稻均有更强的生存竞争能力,具有抗涝,抗病虫害,抗倒伏等特点,还具有预防和治疗多种疾病的功效,防癌效果尤为显著.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度(‰)对亩产量(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量与海水浓度之间的相关关系,用最小二乘法计算得与之间的线性回归方程为.海水浓度(‰)34567亩产量(吨)残差(1)请你估计:当浇灌海水浓度为8‰时,该品种的亩产量.(2)①完成上述残差表:②统计学中,常用相关指数来刻画回归效果,越大,模型拟合效果越好,并用它来说明预报变量与解释变量的相关性.你能否利用以上表格中的数据,利用统计学的相关知识,说明浇灌海水浓度对亩产量的贡献率?(计算中数据精确到)(附:残差公式,相关指数)24.如图是某企业年至年的污水净化量(单位:吨)的折线图.注:年份代码分别对应年份.(1)由折线图看出,可用线性回归模型拟合和的关系,请用相关系数加以说明;(2)建立关于的回归方程,预测年该企业的污水净化量;(3)请用数据说明回归方程预报的效果.参考数据:=54,,,,参考公式:相关系数,线性回归方程,,,反映回归效果的公式为:,其中越接近于,表示回归的效果越好.25.已知某地区某种昆虫产卵数和温度有关.现收集了一只该品种昆虫的产卵数(个)和温度()的7组观测数据,其散点图如所示:根据散点图,结合函数知识,可以发现产卵数和温度可用方程来拟合,令,结合样本数据可知与温度可用线性回归方程来拟合.根据收集到的数据,计算得到如下值:2774182表中,.(1)求和温度的回归方程(回归系数结果精确到);(2)求产卵数关于温度的回归方程;若该地区一段时间内的气温在之间(包括与),估计该品种一只昆虫的产卵数的范围.(参考数据:,,,,.)附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为.参考答案1.C【分析】通过对2013年至2019年全国恩格尔系数和居民人均可支配收入的折线图的分析,了解两者间的相关性而作出判断.【详解】由折线图可知,恩格尔系数在逐年下降,居民人均可支配收入在逐年增加,故两者之间存在负相关关系,结论①正确;恩格尔系数越小,居民人均可支配收入越多,经济越富裕,结论②正确;家庭收入越少,人们为解决温饱问题,收入的大部分用来购买食品,结论③错误.故选:C2.B【分析】由散点图分布趋势知①正确;由相关系数知②错误;根据两模型相关系数大小关系可知③正确;将代入三次函数方程即可求得的预估值,知④错误.【详解】根据图象可知,散点从左下到右上分布,销售额与年份序号呈正相关关系,①正确;相关系数,靠近,销售额与年份序号线性相关显著,②错误;根据三次函数回归曲线的相关指数,相关指数越大,拟合效果越好,所以三次函数回归曲线的拟合效果好于回归直线的拟合效果,③正确;由三次函数,当时,亿元,④错误.故选:B.3.B【分析】利用相关关系判断A;由正态分布的性质判断B;由线性回归直线的性质判断C;由残差的性质判断D.【详解】对于A,根据相关系数的意义可知,A正确;对于B,由,知,即概率密度函数的图像关于直线对称,所以,则,故B错误;对于C,根据线性回归直线的性质可知,C正确;对于D,根据残差图的意义可知,D正确;4.C【分析】由图可知函数的函数值既可以为正,也可为负,结合选项分析即可得到答案.【详解】解:由散点图可知,此曲线类似对数函数型曲线,因此可用函数y=a+blnx模型进行拟合,而选项A、B、D中函数值只能为负或只能为正,所以不符合散点图.故选:C.5.B【分析】对每一个选项逐一分析判断得解.【详解】A.气温与热饮的销售杯数之间成负相关,所以该选项错误;B.当x=2时,y=-2×+=,即这一天大约可以卖出143杯热饮,所以该选项是正确的;C.当天气温为10°C时,这天大约可以124杯热饮,所以该选项错误;D.不能根据x=0时,的值与调查数据不符,判断气温与卖出热饮杯数不存在线性相关性.所以该选项错误.故选B6.B【分析】根据回归方程及相关概念判断即可.【详解】①线性回归直线必过样本数据的中心点(),故①正确;②回归直线在散点图中可能不经过任一样本数据点,故②错误;③当相关性系数时,则两个变量正相关,故③正确;④如果两个变量的相关性越强,则相关性系数r就越接近于1或-1,故④错误.故真命题的个数为2个故选:B7.C【分析】根据散点图与两个变量的关系求解.【详解】给出一组样本数据,总可以作出相应的散点图,但不一定能分析出两个变量的关系,不一定存在回归直线来模拟数据,但是通过散点图可以看出正相关与负相关有明显区别.故选:C8.B【分析】由表达式判断应为负相关,由样本中心经过回归方程反推出值即可【详解】由题可知,变量x与y是线性负相关关系,求得,由样本中心过线性回归方程得,由故正确序号为:②③故选:B9.D【分析】根据回归分析的相关概念对各个选项一一进行判断可得答案.【详解】解:A项,残差可用于判断模型的模拟效果,当残差图中残差点比较均匀地落在水平的带状区域中,说明模拟效果好,选用的模型比较合适;当残差图中残差点之间相差越大,形成带状区间越宽,则模拟效果越差,故A项表述正确;B项,残差平方和即全部误差的平方和,残差平方和越小,则全部误差越小,模型拟合的效果越好,故B项表述正确;C.由线性回归方程的性质,在方程中,当解释变量x每增加一个单位时,预报变量就平均增加0.2个单位,可得C项表述正确;D项,是指相关系数,的值越大,说明相关程度越强,则残差平方和越小,模型的拟合效果越好,故模型甲的拟合效果更好;故选:D.10.C【分析】根据统计的相关知识,对各选项逐个判断即可.【详解】两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C错误.故选:C.11.B【分析】利用线性回归的有关知识即可判断出.【详解】A.回归直线过样本点的中心,故A正确;

B.对分类变量X与Y的随机变量K2的观测值k来说,k越大,“X与Y有关系”可信程度越大,故B不正确;

C.两个随机变量相关性越强,则相关系数的绝对值越接近1,故C正确;

D.在线性回归方程=+中,当x每增加1个单位时,预报量平均增加个单位,故D正确.故选:B12.D【分析】根据的数值变化规律推测二者之间的关系,最贴切的是二次关系.【详解】根据实验数据可以得出,近似增加一个单位时,的增量近似为,,,6,比较接近,故选D.13.A【分析】根据相关关系的定义逐一对四个选项进行判断.【详解】选项A:气温和冷饮销量之间的关系是正相关关系;选项B:速度一定时,位移与时间成正比例关系,是确定关系;选项C:亩产量为常数时,土地面积与产量成正比例关系,是确定关系;选项D:因为正方体的体积等于棱长的立方,所以正方体的体积与棱长是确定关系,故本题选A.14.C【分析】分别对四个选项进行判断,得到选项为正确,选项错误.【详解】对于,由于各个家庭收入差距明显适于用分层抽样,正确;对于,线性回归直线一定过样本中心点,正确;对于,两个随机变量的线性相关性越强,则相关系数的值越接近于,错误;对于,一组数据、、、的众数是,;所以该组数据的中位数为,正确.故选D项.15.A【分析】比较相关指数的大小,越接近于1,模型的拟合效果越好.【详解】在两个变量与的回归模型中,它们的相关指数越接近于1,模型的拟合效果越好,在题目所给的四个数据中是最大的相关指数,所以选A.16.D【分析】根据相关指数定义、残差平方和含义可得①为真,根据回归直线方程特征可得②为真,根据残差点含义可得③为真,根据卡方含义可得④为真.【详解】相关指数R2越大,则残差平方和越小,模型的拟合效果越好;回归直线方程:,一定过点;若残差点比较均匀地落在水平的带状区域中,则选用的模型比较合适;在独立性检验中,若公式,中的|ad-bc|的值越大,则越大,“两个分类变量有关系”的可能性越强.选D.17.D【分析】根据题意知,相关系数是负相关,相关系数是正相关,由此得出结论.【详解】根据题意,开始吸烟年龄()岁与其得肺癌的相对危险度()是负相关关系,所以;每天吸烟()支与其得肺癌的相对危险度()是正相关关系,所以..故选D.18.C【详解】对于A,根据抽样方法特征是数据多,抽样间隔相等,是系统抽样,A正确;对于B,线性回归直线一定过样本中心点,B正确;对于C,两个随机变量的线性相关性越强,则相关系数|r|的值越接近于1,C错误;对于D,一组数据1、a、3的平均数是2,∴a=2;∴该组数据的方差是s2=×[(1﹣2)2+(2﹣2)2+(3﹣2)2]=,D正确.故选:C19.C【解析】月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系,故选C.20.B【分析】根据回归分析中相关指数,残差平方和的意义,以及回归直线的原理,依次判断选项即可.【详解】根据回归方程的性质得到①残差平方和越小的模型,拟合的效果越好,故正确;②用相关指数来刻画回归效果,越靠近1,说明拟合效果越好,越靠近0,拟合效果越不好,故②不正确;③散点图中所有点都在回归直线附近,不正确,应该是大部分点都在回归直线附近,而不是所有点;故不正确;随机误差e满足E(e)=0,其方差D(e)的大小用来衡量预报的精确度,④正确;故答案为B.21.(1)答案见解析;(2)利润约为347万元.【分析】(1)利用已知的数值直接求3种回归模型的残差,然后比较;(2)先计算出这20个月的销售单价的平均值,再利用模型③的函数表示出生产总成本y,进而可表示出当月利润【详解】解析:(1)3种模型的残差数据如下x57911y200299430611残差e20−18−2321残差e−151214−6残差e−354−7根据残差分析,模型③拟合效果最好.理由是残差的绝对值比较小,残差平方和最小.(2)这20个月的销售单价的平均值是80×5+90×8+100×720设当月利润为z(万元),则z=91x−y(万元)所以z=91×12−80.15×e所以当月产量为12件时,预测当片的利润约为347万元22.(1);答案见解析;(2)对、项目分别投资百万元,百万元时,获得总利润最大.【分析】(1)计算出、的值,将表格中的数据代入最小二乘法公式,求出、的值,可得出回归直线方程,并计算出相关系数的值,可得出结论;(2)求得,利用基本不等式可求得的最大值,利用等号成立求得的值,即可得出结论.【详解】解:(1)对项目投资的统计数据进行计算,有,,,所以,,所以回归直线方程为:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论