2025年新高考数学一轮复习第9章第02讲成对数据的统计分析(五大题型)(练习)(学生版+解析)_第1页
2025年新高考数学一轮复习第9章第02讲成对数据的统计分析(五大题型)(练习)(学生版+解析)_第2页
2025年新高考数学一轮复习第9章第02讲成对数据的统计分析(五大题型)(练习)(学生版+解析)_第3页
2025年新高考数学一轮复习第9章第02讲成对数据的统计分析(五大题型)(练习)(学生版+解析)_第4页
2025年新高考数学一轮复习第9章第02讲成对数据的统计分析(五大题型)(练习)(学生版+解析)_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第02讲成对数据的统计分析目录TOC\o"1-2"\h\z\u01模拟基础练 2题型一:变量间的相关关系 2题型二:一元线性回归模型 3题型三:非线性回归 5题型四:列联表与独立性检验 7题型五:误差分析 1002重难创新练 1303真题实战练 21题型一:变量间的相关关系1.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是(

)A. B.C. D.2.(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为(

).A. B. C. D.3.观察下列散点图,其中两个变量的相关关系判断正确的是(

)A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关4.(2024·四川凉山·三模)调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是(

)A.学生身高和体重没有相关性B.学生身高和体重呈正相关C.学生身高和体重呈负相关D.若从样本中抽取一部分,则这部分的相关系数一定是题型二:一元线性回归模型5.在2024年8月8日召开的中国操作系统产业大会上,国产操作系统银河麒麟发布了首个人工智能版本,该系统通过多项技术创新实现了人工智能与操作系统的深度融合,可广泛应用于自动驾驶、医疗健康、教育等多个领域,标志着中国在自主操作系统领域实现新突破.某新能源车企采用随机调查的方式并统计发现市面上可以实现自动驾驶的新能源汽车上可为乘客提供的功能数目与汽车上所安装的人工智能芯片个数线性相关,且根据样本点求得的回归直线方程为,若在回归直线上,则.6.(2024·江西·一模)已知变量y与x线性相关,由样本点求得的回归方程为,若点在回归直线上,且,,则.7.题图所示是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.注:年份代码1~7分别对应年份2014~2020.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;(2)建立y关于t的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.附注:参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.8.(2024·高三·重庆·开学考试)传统燃油汽车与新能源汽车相比,有着明显的缺点:如传统燃油汽车在行驶过程中会产生尾气排放和噪音污染,环保性能较差、能源效力较低等我国近几年着重强调可持续发展,加大在新能源项目的支持力度,积极推动新能源汽车产业迅速发展某汽车制造企业对某地区新能源汽车的销售情况进行调查,得到下面的统计表.年份t20192020202120222023年份代码12345销量y(万辆)1113182127(1)统计表明销量y与年份代码x有较强的线性相关关系,求y关于x的线性同归方程,并预测该地区新能源汽车的销量最早在哪一年能突破50万辆;(2)该企业随机调查了该地区2023年的购车情况.据调查,该地区2023年购置新能源汽车与传统燃油汽车的人数的比例大约为.从被调查的2023年所有车主中按分层抽样抽取12人,再从12人中随机抽取3人,记这3人中购置新能源汽车的人数为X,求X的分布列和期望.参考公式:对于一组数据,其回归直线中斜率和截距的最小二乘估计公式分别为:.题型三:非线性回归9.(2024·四川内江·模拟预测)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量(单位:千件)的数据统计表.(百万)12345(千件)0.511.535.5(1)若该公司科研团队计划用方案①作为年销售量关于年投资额的回归分析模型,请根据统计表的数据及参考公式,确定该经验回归方程;(2)若该公司科研团队计划用方案②作为年销售量关于年投资额的回归分析模型,的残差平方和,请根据统计表的数据及参考公式,比较两种模型的拟合效果哪种更好?并选择拟合精度更高的模型,预测年投入额为6百万元时,产品的销售量约为多少?(计算结果保留到小数点后两位)参考公式及数据:,10.红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y(个)和平均温度x(℃)有关,现收集了7组数据,得到下面的散点图及一些统计量的值.(1)根据散点图判断,与(其中e为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度(℃)的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出关于的回归方程;附:回归方程中,.参考数据52152347.333.62781.33.6(2)现在有10根棉花纤维,其中有6根为长纤维,4根为短纤维,从中随机抽取3根棉花纤维,设抽到的长纤维棉花的根数为X,求X的分布列.11.(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)中的判断结果,建立y关于x的回归方程;(3)根据(2)的结果,估计2024年的企业利润.参考公式及数据;,,,,,,题型四:列联表与独立性检验12.为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有.①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多②被调查的女生中喜欢登山的人数比不喜欢登山的人数多③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关13.观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是(

)A. B.C. D.14.为了检测某种抗病毒疫苗的免疫效果,需要进行动物与人体试验.研究人员将疫苗注射到200只小白鼠体内,一段时间后测量小白鼠的某项指标值,按分组,绘制频率分布直方图如图所示.试验发现小白鼠体内产生抗体的共有160只,其中该项指标值不小于60的有110只.假设小白鼠注射疫苗后是否产生抗体相互独立.(1)填写下面的列联表,并根据列联表及的独立性检验,判断能否认为注射疫苗后小白鼠产生抗体与指标值不小于60有关;单位:只抗体指标值合计小于60不小于60有抗体没有抗体合计(2)为检验疫苗二次接种的免疫抗体性,对第一次注射疫苗后没有产生抗体的40只小白鼠进行第二次注射疫苗,结果又有20只小白鼠产生抗体.(i)用频率估计概率,求一只小白鼠注射2次疫苗后产生抗体的概率;(ii)以(i)中确定的概率作为人体注射2次疫苗后产生抗体的概率,进行人体接种试验,记100个人注射2次疫苗后产生抗体的数量为随机变量.求及取最大值时的值.参考公式:(其中为样本容量)参考数据:0.1000.0500.0100.0052.7063.8416.6357.87915.某市销售商为了解A、B两款手机的款式与购买者性别之间是否有关系,对一些购买者做了问卷调查,得到列联表如表所示:购买A款购买B款总计女252045男154055总计4060100(1)根据小概率之值的独立检验,能否认为购买手机款式与性别有关?(2)用购买每款手机的频率估计一个顾客购买该款手机的概率,从所有购买两款手机的人中,选出3人作为幸运顾客,记3人中购买款手机的人数为,求的分布列与数学期望.参考公式:(其中).临界值表:0.100.050.0100.0050.0012.7063.8416.6357.87910.82816.树德中学为了调查中学生周末回家使用智能手机玩耍网络游戏情况,学校德育处随机选取高一年级中的100名男同学和100名女同学进行无记名问卷调查.问卷调查中设置了两个问题:①你是否为男生?②你是否使用智能手机玩耍网络游戏?调查分两个环节:第一个环节:先确定回答哪一个问题,让被调查的200名同学从装有3个白球,3个黑球(除颜色外完全相同)的袋子中随机摸取两个球,摸到同色两球的学生如实回答第一个问题,摸到异色两球的学生如实回答第二个问题;第二个环节:再填写问卷(只填“是”与“否”).回收全部问卷,经统计问卷中共有70张答案为“是”.(1)根据以上的调查结果,利用你所学的知识,估计该校中学生使用智能手机玩耍网络游戏的概率;(2)据核查以上的200名学生中有30名男学生使用智能手机玩耍网络游戏,按照(1)中的概率计算,依据小概率值α=0.15的独立性检验,能否认为中学生使用智能手机玩耍网络游戏与性别有关联;若有关联,请解释所得结论的实际含义.参考公式和数据如下:.α0.150.100.050.0250.005xα2.0722.7063.8415.0247.879题型五:误差分析17.在建立两个变量与的回归模型时,分别选择了4个不同的模型,模型1、2、3、4的决定系数依次为0.20,0.48,0.96,0.85,则其中拟合效果最好的模型是(

)A.模型1 B.模型2 C.模型3 D.模型418.已知一系列样本点的一个经验回归方程为,若样本点的残差为2,则(

).A. B.1 C. D.519.(2024·广西贵港·模拟预测)下列说法中错误的是(

)A.独立性检验的本质是比较观测值与期望值之间的差异B.两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强C.若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为0.98D.由一组样本数据()求得的回归直线方程为,设,则20.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数如下,其中拟合效果最好的模型是(

)A.模型1(决定系数为0.97) B.模型2(决定系数为0.85)C.模型3(决定系数为0.40) D.模型4(决定系数为0.25)21.(2024·山东·一模)相关变量的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程,相关系数为;方案二:剔除点,根据剩下数据得到线性回归直线方程:,相关系数为.则(

A.B.C.D.22.(2024·四川·模拟预测)下表是某工厂记录的一个反应器投料后,连续8天每天某种气体的生成量(L):日期代码x12345678生成的气体y(L)481631517197122为了分析该气体生成量变化趋势、工厂分别用两种模型:①,②对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下:注:残差:经计算得,,,,其中,(1)根据残差图、比较模型①,模型②的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)若在第8天要根据(2)问求出的回归方程来对该气体生成量做出预测,那么估计第9天该气体生成量是多少?(精确到个位)附:回归直线的斜率和截距的最小二乘估计公式分别为:,.23.(2024·河北唐山·三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如下表所示:第年12345678910居民年收入32.231.132.935.737.138.039.043.044.646.0商品销售额25.030.034.037.039.041.042.044.048.051.0依据表格数据,得到下面一些统计量的值.379.6391247.624568.9(1)根据表中数据,得到样本相关系数.以此推断,与的线性相关程度是否很强?(2)根据统计量的值与样本相关系数,建立关于的经验回归方程(系数精确到0.01);(3)根据(2)的经验回归方程,计算第1个样本点对应的残差(精确到0.01);并判断若剔除这个样本点再进行回归分析,的值将变大还是变小?(不必说明理由,直接判断即可).附:样本的相关系数,,,.1.中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾):中国体育代表团夏季奥运会获得金牌数届数第27届第28届第29届第30届第31届第32届届数代码123456地点2000年悉尼2004年雅典2008年北京2012年伦敦2016年里约热内卢2021年东京金牌数283248382638根据以上数据,建立关于的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为(

)(精确到0.01,金牌数精确到1,参考数据:);参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:.A.29 B.33 C.37 D.452.某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:),图①为选取的15名志愿者身高与臂展的折线图,图②为身高与臂展所对应的散点图,并求得其回归直线方程为,则下列结论中不正确的为(

)A.15名志愿者身高的极差小于臂展的极差B.15名志愿者身高和臂展成正相关关系C.可估计身高为的人臂展大约为D.身高相差的两人臂展都相差3.(2024·高三·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则(

)A., B.,C., D.,4.在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则(

)A.13.5 B.14 C.14.5 D.155.(2024·湖南邵阳·三模)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数(

)A. B. C. D.6.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度(

)510152025103105110111114(参考数据:,,)A.很强 B.很弱 C.无相关 D.不确定7.(2024·高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为(

)男性运动员(人)女性运动员(人)对主办方表示满意200220对主办方表示不满意5030注:0.6000.0500.0100.0012.7063.8416.63510.828A.0 B.1 C.2 D.38.(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为(

)A.9.6 B.11.0 C.11.3 D.12.09.(多选题)现统计具有线性相关关系的变量X,Y,Z的n组数据,如下表所示:变量123…n平均数方差X…Y…Z…并对它们进行相关性分析,得到,Z与的相关系数是,,Z与Y的相关系数是,则下列判断正确的是(

)附:经验回归方程中斜率和截距的最小二乘估计公式分别为,,相关系数.A. B.C. D.10.(多选题)(2024·高三·河北保定·开学考试)某机构抽样调查一批零件的尺寸和质量,得到样本数据,并计算得该批零件尺寸和质量的平均值分别为3和60,方差分别为4和400,且.则(

)(参考公式:相关系数.回归直战的方程是:,其中)A.样本数据的相关系数为B.样本数据关于的经验回归方程为C.样本数据所得回归直线的残差平方和为0D.若数据均满足正态分布,则估计11.(多选题)(2024·福建泉州·一模)为了研究青少年长时间玩手机与近视率的关系,现从某校随机抽查600名学生,经调查,其中有的学生近视,有的学生每天玩手机超过1小时,玩手机超过1小时的学生的近视率为.用频率估计概率,则(

)(附:,其中.)0.100.050.010.0050.0012.7063.8416.6357.87910.828A.如果抽查的一名学生近视,则他每天玩手机超过1小时的概率为B.如果抽查的一名学生玩手机不超过1小时,则他近视的概率为C.根据小概率值的独立性检验,可认为每天玩手机超过1小时会影响视力D.从该校抽查10位学生,每天玩手机超过1小时且近视的人数的期望为512.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则.(结果精确到0.001)室外工作室内工作总计有呼吸系统疾病150无呼吸系统疾病100总计20013.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为.14.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:262156526805.36112501302.612请从相关系数的角度分析,模型拟合程度更好是;利用模型拟合程度更好的模型以及表中数据,建立关于的回归方程为;(系数精确到0.01)附:①相关系数,回归直线中:,15.(2024·高三·上海·开学考试)为了缓解高三学生学业压力,学校开展健美操活动,高三某班文艺委员调查班级学生是否愿意参加健美操,得到如下的列联表.性别愿意不愿意男生610女生186(1)根据该列联表,并依据显著水平的独立性检验,判断能否认为“学生性别与是否愿意参加健美操有关”;(2)在愿意参加的所有学生中,根据性别,分层抽样选取8位学生组织班级健美操队,并从中随机选取2人作为领队,记这2人中女生人数为随机变量,求的分布及期望.附:.16.(2024·高三·广西贵港·开学考试)为了研究学生的性别和是否喜欢跳绳的关联性,随机调查了某中学的100名学生,整理得到如下列联表:男学生女学生合计喜欢跳绳353570不喜欢跳绳102030合计4555100(1)依据的独立性检验,能否认为学生的性别和是否喜欢跳绳有关联?(2)已知该校学生每分钟的跳绳个数,该校学生经过训练后,跳绳个数都有明显进步.假设经过训练后每人每分钟的跳绳个数都增加10,该校有1000名学生,预估经过训练后该校每分钟的跳绳个数在内的人数(结果精确到整数).附:,其中.0.10.050.012.7063.8416.635若,则,.17.为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).编号12345学习时间x3040506070数学成绩y65788599108(1)求数学成绩与学习时间的相关系数(精确到0.001);(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.没有进步有进步合计参与周末在校自主学习35130165未参与周末不在校自主学习253055合计60160220附:方差:相关系数:回归方程中斜率和截距的最小二乘估计公式分别为,,.0.100.050.0100.0050.0012.7063.8416.6357.87910.82818.(2024·河北秦皇岛·三模)将保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中15个区域进行编号,统计抽取到的每个区域的某种水源指标和区域内该植物分布的数量,得到数组.已知,,.(1)求样本的样本相关系数;(2)假设该植物的寿命为随机变量(可取任意正整数),研究人员统计大量数据后发现,对于任意的,寿命为的样本在寿命超过的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均为0.1,这种现象被称为“几何分布的无记忆性”.(i)求的表达式;(ii)推导该植物寿命期望的值(用表示,取遍),并求当足够大时,的值.附:样本相关系数;当足够大时,.19.(2024·黑龙江哈尔滨·模拟预测)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:(日)12345(万人)4550606580(1)计算的相关系数(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅游团中随机同时抽取两名游客,两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和个女游客,设重复进行三次抽奖中恰有一次中奖的概率为,当取多少时,最大?参考公式:,,,参考数据:.1.(2024年上海秋季高考数学真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:时间范围学业成绩优秀5444231不优秀1341471374027(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?(附:其中,.)2.某(2024年高考全国甲卷数学(理)真题)工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:优级品合格品不合格品总计甲车间2624050乙车间70282100总计96522150(1)填写如下列联表:优级品非优级品甲车间乙车间能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()附:0.0500.0100.001k3.8416.63510.8283.(2022年高考全国甲卷数学(文)真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:,乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:0.0500.0100.001k3.8416.63510.8286.(2020年全国统一高考数学试卷(理科)(新课标Ⅲ))某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:,P(K2≥k)0.050

0.0100.001k3.8416.63510.8287.(2020年全国统一高考数学试卷(文科)(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=,≈1.414.第02讲成对数据的统计分析目录TOC\o"1-2"\h\z\u01模拟基础练 2题型一:变量间的相关关系 2题型二:一元线性回归模型 4题型三:非线性回归 7题型四:列联表与独立性检验 11题型五:误差分析 1602重难创新练 2103真题实战练 37题型一:变量间的相关关系1.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是(

)A. B.C. D.【答案】B【解析】由散点图可知,相关系数所在散点图呈负相关,所在散点图呈正相关,所以都为正数,都为负数.所在散点图近似一条直线上,线性相关性比较强,相关系数的绝对值越接近,而所在散点图比较分散,线性相关性比较弱点,相关系数的绝对值越远离.综上所得:.

故答案为:B.2.(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为(

).A. B. C. D.【答案】C【解析】由散点图可知,图一两个变量成正相关,且线性相关性较强,故,图二、图三两个变量都成负相关,且图二的线性相关性更强,故,,,故,所以.故选:C.3.观察下列散点图,其中两个变量的相关关系判断正确的是(

)A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关【答案】A【解析】根据给定的散点图,可得a中的数据分布在左下方到右上方的区域里,为正相关,b中的数据分布在左上方到右下方的区域里,为负相关,c中的数据各点分布不成带状,相关性不明确,不相关.故选:A.4.(2024·四川凉山·三模)调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是(

)A.学生身高和体重没有相关性B.学生身高和体重呈正相关C.学生身高和体重呈负相关D.若从样本中抽取一部分,则这部分的相关系数一定是【答案】B【解析】由散点图可知,散点的分布集中在一条直线附近,所以学生身高和体重具有相关性,不正确;又身高和体重的相关系数为,相关系数,所以学生身高和体重呈正相关,正确,不正确;从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是,不正确.故选:.题型二:一元线性回归模型5.在2024年8月8日召开的中国操作系统产业大会上,国产操作系统银河麒麟发布了首个人工智能版本,该系统通过多项技术创新实现了人工智能与操作系统的深度融合,可广泛应用于自动驾驶、医疗健康、教育等多个领域,标志着中国在自主操作系统领域实现新突破.某新能源车企采用随机调查的方式并统计发现市面上可以实现自动驾驶的新能源汽车上可为乘客提供的功能数目与汽车上所安装的人工智能芯片个数线性相关,且根据样本点求得的回归直线方程为,若在回归直线上,则.【答案】【解析】由题意,点在回归直线上,所以,所以,又,由在回归直线上,得,所以,所以.故答案为:.6.(2024·江西·一模)已知变量y与x线性相关,由样本点求得的回归方程为,若点在回归直线上,且,,则.【答案】6【解析】由题意,点在回归直线上,代入可得,,解得,因,且样本中心点在回归直线上,将条件代入得:,故,解得.故答案为:6.7.题图所示是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.注:年份代码1~7分别对应年份2014~2020.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;(2)建立y关于t的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.附注:参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.【解析】(1)由折线图看出,y与t之间存在较强的正相关关系,理由如下:因为,,,,,所以.因为,故y与t之间存在较强的正相关关系;(2)由(1)结合题中数据可得,,,所以y关于t的回归方程,2022年对应的t值为9,故,预测2022年该地生活垃圾无害化处理量为1.82万吨.8.(2024·高三·重庆·开学考试)传统燃油汽车与新能源汽车相比,有着明显的缺点:如传统燃油汽车在行驶过程中会产生尾气排放和噪音污染,环保性能较差、能源效力较低等我国近几年着重强调可持续发展,加大在新能源项目的支持力度,积极推动新能源汽车产业迅速发展某汽车制造企业对某地区新能源汽车的销售情况进行调查,得到下面的统计表.年份t20192020202120222023年份代码12345销量y(万辆)1113182127(1)统计表明销量y与年份代码x有较强的线性相关关系,求y关于x的线性同归方程,并预测该地区新能源汽车的销量最早在哪一年能突破50万辆;(2)该企业随机调查了该地区2023年的购车情况.据调查,该地区2023年购置新能源汽车与传统燃油汽车的人数的比例大约为.从被调查的2023年所有车主中按分层抽样抽取12人,再从12人中随机抽取3人,记这3人中购置新能源汽车的人数为X,求X的分布列和期望.参考公式:对于一组数据,其回归直线中斜率和截距的最小二乘估计公式分别为:.【解析】(1)设关于的线性回归方程,依题意,,,,,因此,,则关于的线性回归方程为,令,解得,,取,所以该地区新能源汽车的销量最早在年能突破万辆.(2)依题意,按1:3分层抽样知,12人中有9人购置了传统燃油汽车,3人购置了新能源汽车,所有可能的取值为,,,,,,,,所以的分布列为:期望.题型三:非线性回归9.(2024·四川内江·模拟预测)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量(单位:千件)的数据统计表.(百万)12345(千件)0.511.535.5(1)若该公司科研团队计划用方案①作为年销售量关于年投资额的回归分析模型,请根据统计表的数据及参考公式,确定该经验回归方程;(2)若该公司科研团队计划用方案②作为年销售量关于年投资额的回归分析模型,的残差平方和,请根据统计表的数据及参考公式,比较两种模型的拟合效果哪种更好?并选择拟合精度更高的模型,预测年投入额为6百万元时,产品的销售量约为多少?(计算结果保留到小数点后两位)参考公式及数据:,【解析】(1)由题意,,,所以线性回归方程为.(2)按(1)可得,根据题意可得如下数据:x12345y0.511.535.51.12.33.54.7方案①的残差平方和为,由于,故方案②非线性回归方程拟合效果更好.当时,(千件),故当年投入额为6百万元时,产品的销售量约为9.68千件.10.红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害.每只红铃虫的平均产卵数y(个)和平均温度x(℃)有关,现收集了7组数据,得到下面的散点图及一些统计量的值.(1)根据散点图判断,与(其中e为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度(℃)的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出关于的回归方程;附:回归方程中,.参考数据52152347.333.62781.33.6(2)现在有10根棉花纤维,其中有6根为长纤维,4根为短纤维,从中随机抽取3根棉花纤维,设抽到的长纤维棉花的根数为X,求X的分布列.【解析】(1)根据散点图的形状,判断更适宜作为平均产卵数y关于平均温度x的回归方程类型,将两边同时取自然对数,得,依题意,,,因此,则,于是z关于x的线性回归方程为,所以y关于x的回归方程为.(2)依题意,X的可能值为,,,所以X的分布列为:012311.(2024·山东济南·三模)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)中的判断结果,建立y关于x的回归方程;(3)根据(2)的结果,估计2024年的企业利润.参考公式及数据;,,,,,,【解析】(1)由散点图的变化趋势,知适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型;(2)由题意得:,,,,所以;(3)令,,估计2024年的企业利润为99.25亿元.题型四:列联表与独立性检验12.为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有.①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多②被调查的女生中喜欢登山的人数比不喜欢登山的人数多③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关【答案】①③【解析】因为被调查的男女生人数相同,由等高堆积条形统计图可知,喜欢登山的男生占80%,喜欢登山的女生占30%,所以A正确,B错误;设被调查的男女生人数均为n,则由等高堆积条形统计图可得列联表如下男女合计喜欢0.8n0.3n1.1n不喜欢0.2n0.7n0.9n合计nn2n由公式可得:.当时,,可以判断喜欢登山和性别有关,故C正确;而,所以的值与n的取值有关.故D错误.故答案为:①③.13.观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是(

)A. B.C. D.【答案】B【解析】等高的条形图中所占比例相差越小,随机变量的观测值越小.故选:B.14.为了检测某种抗病毒疫苗的免疫效果,需要进行动物与人体试验.研究人员将疫苗注射到200只小白鼠体内,一段时间后测量小白鼠的某项指标值,按分组,绘制频率分布直方图如图所示.试验发现小白鼠体内产生抗体的共有160只,其中该项指标值不小于60的有110只.假设小白鼠注射疫苗后是否产生抗体相互独立.(1)填写下面的列联表,并根据列联表及的独立性检验,判断能否认为注射疫苗后小白鼠产生抗体与指标值不小于60有关;单位:只抗体指标值合计小于60不小于60有抗体没有抗体合计(2)为检验疫苗二次接种的免疫抗体性,对第一次注射疫苗后没有产生抗体的40只小白鼠进行第二次注射疫苗,结果又有20只小白鼠产生抗体.(i)用频率估计概率,求一只小白鼠注射2次疫苗后产生抗体的概率;(ii)以(i)中确定的概率作为人体注射2次疫苗后产生抗体的概率,进行人体接种试验,记100个人注射2次疫苗后产生抗体的数量为随机变量.求及取最大值时的值.参考公式:(其中为样本容量)参考数据:0.1000.0500.0100.0052.7063.8416.6357.879【解析】(1)由频率分布直方图知,200只小白鼠按指标值分布为:在内有(只);在)内有(只);在)内有(只);在)内有(只);在内有(只)由题意,有抗体且指标值小于60的有50只;而指标值小于60的小白鼠共有(只),所以指标值小于60且没有抗体的小白鼠有20只,同理,指标值不小于60且没有抗体的小白鼠有20只,故列联表如下:单位:只抗体指标值合计小于60不小于60有抗体50110160没有抗体202040合计70130200零假设为:注射疫苗后小白鼠产生抗体与指标值不小于60无关联.根据列联表中数据,得.根据的独立性检验,没有充分证据认为注射疫苗后小白鼠产生抗体与指标值不小于60有关.(2)(i)令事件“小白鼠第一次注射疫苗产生抗体”,事件“小白鼠第二次注射疫苗产生抗体”,事件“小白鼠注射2次疫苗后产生抗体”.记事件发生的概率分别为,则,.所以一只小白鼠注射2次疫苗后产生抗体的概率.(ii)由题意,知随机变量,所以.又,设时,最大,所以解得,因为是整数,所以.15.某市销售商为了解A、B两款手机的款式与购买者性别之间是否有关系,对一些购买者做了问卷调查,得到列联表如表所示:购买A款购买B款总计女252045男154055总计4060100(1)根据小概率之值的独立检验,能否认为购买手机款式与性别有关?(2)用购买每款手机的频率估计一个顾客购买该款手机的概率,从所有购买两款手机的人中,选出3人作为幸运顾客,记3人中购买款手机的人数为,求的分布列与数学期望.参考公式:(其中).临界值表:0.100.050.0100.0050.0012.7063.8416.6357.87910.828【解析】(1)零假设:假设购买手机款式与性别无关..由.根据小概率值的独立检验,我们推断不成立,即认为购买手机款式与性别有关.(2)由题设,从所有购买两款手机的人中,选出1人购买款手机的概率为,所以,选出3人作为幸运顾客,其中购买款手机的人数,故,,,.分布列如下:0123所以.16.树德中学为了调查中学生周末回家使用智能手机玩耍网络游戏情况,学校德育处随机选取高一年级中的100名男同学和100名女同学进行无记名问卷调查.问卷调查中设置了两个问题:①你是否为男生?②你是否使用智能手机玩耍网络游戏?调查分两个环节:第一个环节:先确定回答哪一个问题,让被调查的200名同学从装有3个白球,3个黑球(除颜色外完全相同)的袋子中随机摸取两个球,摸到同色两球的学生如实回答第一个问题,摸到异色两球的学生如实回答第二个问题;第二个环节:再填写问卷(只填“是”与“否”).回收全部问卷,经统计问卷中共有70张答案为“是”.(1)根据以上的调查结果,利用你所学的知识,估计该校中学生使用智能手机玩耍网络游戏的概率;(2)据核查以上的200名学生中有30名男学生使用智能手机玩耍网络游戏,按照(1)中的概率计算,依据小概率值α=0.15的独立性检验,能否认为中学生使用智能手机玩耍网络游戏与性别有关联;若有关联,请解释所得结论的实际含义.参考公式和数据如下:.α0.150.100.050.0250.005xα2.0722.7063.8415.0247.879【解析】(1)因为摸到同色两球的概率,所以回答第一个问题的人数为人,回答第二个问题的人数为人,因为男女人数相等,是等可能的,所以回答第一个问题,选择“是”的同学人数为人,则回答第二个问题,选择“是”的同学人数为人,所以估计中学生在考试中有作弊现象的概率为.(2)由(1)可知200名学生使用智能手机玩网络游戏估计有50人,则有20名女生使用智能手机玩网络游戏男女合计使用智能手机玩游戏302050不用智能手机玩游戏7080150100100200零假设为:使用智能手机玩耍游戏与性别无关,根据小概率值的独立性检验,推断不成立,因此认为使用智能手机玩耍网络游戏与性别有关,此推断犯错误的概率不大于.在男生中使用智能手机玩耍游戏和不使用智能手机玩耍游戏的概率分别为,在女生中使用智能手机玩耍游戏和不使用智能手机玩耍游戏的概率分别为,在被调查者中男生使用智能手机玩耍游戏是女生的倍,于是根据概率稳定概率的原理,我们可以认为男士使用智能手机玩耍网络游戏的概率大于女生使用智能手机玩耍网络游戏的概率.题型五:误差分析17.在建立两个变量与的回归模型时,分别选择了4个不同的模型,模型1、2、3、4的决定系数依次为0.20,0.48,0.96,0.85,则其中拟合效果最好的模型是(

)A.模型1 B.模型2 C.模型3 D.模型4【答案】C【解析】因为越大,表示残差平方和越小,即模型的拟合效果越好,所以这4个不同的模型拟合效果最好的模型是模型3.故选:C18.已知一系列样本点的一个经验回归方程为,若样本点的残差为2,则(

).A. B.1 C. D.5【答案】C【解析】由题意得,得,故选:C.19.(2024·广西贵港·模拟预测)下列说法中错误的是(

)A.独立性检验的本质是比较观测值与期望值之间的差异B.两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强C.若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为0.98D.由一组样本数据()求得的回归直线方程为,设,则【答案】C【解析】A,独立性检验的本质是比较观测值与期望值之间的差异,从而确定研究对象是否有关联,A正确;B,两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强,B正确;C,若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为1,C错误;D,由残差分析可知,介于0与1之间,D正确.故选:C20.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数如下,其中拟合效果最好的模型是(

)A.模型1(决定系数为0.97) B.模型2(决定系数为0.85)C.模型3(决定系数为0.40) D.模型4(决定系数为0.25)【答案】A【解析】在两个变量与x的回归模型中,它们的决定系数越接近,模型拟合效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型,故选:A.21.(2024·山东·一模)相关变量的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程,相关系数为;方案二:剔除点,根据剩下数据得到线性回归直线方程:,相关系数为.则(

A.B.C.D.【答案】D【解析】由散点图得负相关,所以,因为剔除点后,剩下点数据更线性相关性更强,则更接近,所以.故选:D.22.(2024·四川·模拟预测)下表是某工厂记录的一个反应器投料后,连续8天每天某种气体的生成量(L):日期代码x12345678生成的气体y(L)481631517197122为了分析该气体生成量变化趋势、工厂分别用两种模型:①,②对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下:注:残差:经计算得,,,,其中,(1)根据残差图、比较模型①,模型②的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)若在第8天要根据(2)问求出的回归方程来对该气体生成量做出预测,那么估计第9天该气体生成量是多少?(精确到个位)附:回归直线的斜率和截距的最小二乘估计公式分别为:,.【解析】(1)选择模型①,理由如下:根据残差图可以看出:模型①的残差点分布在x轴附近,模型②的残差点距离x轴较远,所以,模型②的残差明显比模型①大,所以模型①的拟合效果相对较好;(2)由(1)可知y关于x的回归方程为,令,则,由所给的数据可得,,,则,所以y关于x的回归方程为.(3)将代入回归方程,可得,所以预测该气体第9天的生成量约为157L.23.(2024·河北唐山·三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如下表所示:第年12345678910居民年收入32.231.132.935.737.138.039.043.044.646.0商品销售额25.030.034.037.039.041.042.044.048.051.0依据表格数据,得到下面一些统计量的值.379.6391247.624568.9(1)根据表中数据,得到样本相关系数.以此推断,与的线性相关程度是否很强?(2)根据统计量的值与样本相关系数,建立关于的经验回归方程(系数精确到0.01);(3)根据(2)的经验回归方程,计算第1个样本点对应的残差(精确到0.01);并判断若剔除这个样本点再进行回归分析,的值将变大还是变小?(不必说明理由,直接判断即可).附:样本的相关系数,,,.【解析】(1)根据样本相关系数,可以推断线性相关程度很强.(2)由及,可得,所以,又因为,所以,所以与的线性回归方程.(3)第一个样本点的残差为:,由于该点在回归直线的左下方,故将其剔除后,的值将变小.1.中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾):中国体育代表团夏季奥运会获得金牌数届数第27届第28届第29届第30届第31届第32届届数代码123456地点2000年悉尼2004年雅典2008年北京2012年伦敦2016年里约热内卢2021年东京金牌数283248382638根据以上数据,建立关于的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为(

)(精确到0.01,金牌数精确到1,参考数据:);参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:.A.29 B.33 C.37 D.45【答案】C【解析】,,所以,所以关于的线性回归方程为.2024年对应,代入回归方程得,故选:C.2.某运动制衣品牌为了使成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:),图①为选取的15名志愿者身高与臂展的折线图,图②为身高与臂展所对应的散点图,并求得其回归直线方程为,则下列结论中不正确的为(

)A.15名志愿者身高的极差小于臂展的极差B.15名志愿者身高和臂展成正相关关系C.可估计身高为的人臂展大约为D.身高相差的两人臂展都相差【答案】D【解析】对于A,身高极差大约为20,臂展极差大约为25,故A正确;对于B,很明显根据散点图以及回归直线得到,身高矮一些,臂展就可能短一些,身高高一些,臂展就可能长一些,故B正确;对于C,身高为,代入回归直线方程可得到臂展的预测值为,但不是准确值,故C正确;对于D,身高相差的两人臂展的预测值相差,但并不是准确值,回归直线上的点并不都是准确的样本点,故D不正确.故选:D.3.(2024·高三·上海·单元测试)下图是某地区2010年至2019年污染天数(单位:天)与年份的折线图.根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,则(

)A., B.,C., D.,【答案】C【解析】根据2010年至2014年数据,2015年至2019年的数据,2010年至2019年的数据分别建立线性回归模型,,,∴由图知:2010年至2014年数据为;2015年至2019年数据为;2010年至2019年数据为;均成递减趋势.又,,,且极差分别为6、51、65,三条回归方程的直线大致图象,如下图示:∴回归方程的斜率大小关系为,且截距.故选:C.4.在研究变量与之间的相关关系时,进行实验后得到了一组样本数据,,…,,,利用此样本数据求得的经验回归方程为,现发现数据误差较大,剔除这对数据后,求得的经验回归方程为,且,则(

)A.13.5 B.14 C.14.5 D.15【答案】A【解析】因为,剔除异常数据数据后,,因为点在直线上,所以,解得,设利用原始数据求得的经验回归直线过点,则,因为,所以.故选:A.5.(2024·湖南邵阳·三模)某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数(

)A. B. C. D.【答案】A【解析】由题意可得,即修正前的样本中心点为,假设甲输入的x1,y则,则,且,则,则改为正确数据后,则,,所以修正后的样本中心点为,将点代入回归直线方程可得,解得.故选:A.6.为考察两个变量,的相关性,搜集数据如表,则两个变量的线性相关程度(

)510152025103105110111114(参考数据:,,)A.很强 B.很弱 C.无相关 D.不确定【答案】A【解析】由题可得,,则,因为相关系数很接近于1,故两个变量的线性相关程度很强.故选:A.7.(2024·高三·上海·课堂例题)为了调查各参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下表所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为;②在犯错误的概率不超过的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为(

)男性运动员(人)女性运动员(人)对主办方表示满意200220对主办方表示不满意5030注:0.6000.0500.0100.0012.7063.8416.63510.828A.0 B.1 C.2 D.3【答案】B【解析】因为对主办方表示满意的男性运动员的人数为,所以在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为,所以命题①错误,又因为,所以命题②错误,命题③正确,故选:B.8.(2024·福建宁德·三模)2024海峓两岸各民族欢度“三月三”暨福籽同心爱中华福建省第十一届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据,其中为第次入口人流量数据(单位:百人),由此得到关于的回归方程.已知,根据回归方程(参考数据:),可顶测下午4点时入口游客的人流量为(

)A.9.6 B.11.0 C.11.3 D.12.0【答案】C【解析】设,,则所以,,且则,得,所以,下午4点对应的,此时预测游客的人流量.故选:C9.(多选题)现统计具有线性相关关系的变量X,Y,Z的n组数据,如下表所示:变量123…n平均数方差X…Y…Z…并对它们进行相关性分析,得到,Z与的相关系数是,,Z与Y的相关系数是,则下列判断正确的是(

)附:经验回归方程中斜率和截距的最小二乘估计公式分别为,,相关系数.A. B.C. D.【答案】ACD【解析】由已知得到选项AC正确,相关系数相等所以,D正确,由方差性质可得,B错误.故选:ACD.10.(多选题)(2024·高三·河北保定·开学考试)某机构抽样调查一批零件的尺寸和质量,得到样本数据,并计算得该批零件尺寸和质量的平均值分别为3和60,方差分别为4和400,且.则(

)(参考公式:相关系数.回归直战的方程是:,其中)A.样本数据的相关系数为B.样本数据关于的经验回归方程为C.样本数据所得回归直线的残差平方和为0D.若数据均满足正态分布,则估计【答案】ABD【解析】A.,,故A正确;B.由A可知,,,所以,故B正确;C.残差平方和表示随机误差的效应,一组数据的残差平方和越小,其拟合程度越好,不一定等于0,故C错误;D.由题意可知,,,,,利用对称性可知,,故D正确.故选:ABD11.(多选题)(2024·福建泉州·一模)为了研究青少年长时间玩手机与近视率的关系,现从某校随机抽查600名学生,经调查,其中有的学生近视,有的学生每天玩手机超过1小时,玩手机超过1小时的学生的近视率为.用频率估计概率,则(

)(附:,其中.)0.100.050.010.0050.0012.7063.8416.6357.87910.828A.如果抽查的一名学生近视,则他每天玩手机超过1小时的概率为B.如果抽查的一名学生玩手机不超过1小时,则他近视的概率为C.根据小概率值的独立性检验,可认为每天玩手机超过1小时会影响视力D.从该校抽查10位学生,每天玩手机超过1小时且近视的人数的期望为5【答案】AC【解析】设“任选1名学生近视”,“任选1名学生每天使用手机超过1小时”则,,,所以,则,故A正确;因为,,即,解得,故B错误;由题意,可得列联表:视力每天使用手机时长合计超过1h不超过1h近视60180240不近视60300360合计120480600由上表可知,可以认为每天玩手机超过1小时会影响视力,故C正确;由题意知,任取1人,取得每天玩手机超过1小时且近视的概率为,10人中每天玩手机超过1小时且近视的人数为,则,所以,故D错误.故选:AC12.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了的严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康状况,得到列联表如下,则.(结果精确到0.001)室外工作室内工作总计有呼吸系统疾病150无呼吸系统疾病100总计200【答案】3.968【解析】补全列联表室外工作室内工作总计有呼吸系统疾病150200350无呼吸系统疾病50100150总计200300500.故答案为:3.968.13.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为.【答案】0.5/【解析】将代入,得,解得,所以,故当时,,所以残差.故答案为:0.5.14.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:262156526805.36112501302.612请从相关系数的角度分析,模型拟合程度更好是;利用模型拟合程度更好的模型以及表中数据,建立关于的回归方程为;(系数精确到0.01)附:①相关系数,回归直线中:,【答案】模型的拟合程度更好【解析】设和的相关系数为,和的相关系数为,由题意,,,则,因此从相关系数的角度,模型的拟合程度更好.先建立关于的线性回归方程,由,得,即,,,所以关于的线性回归方程为,所以,则.故答案为:①模型的拟合程度更好;②15.(2024·高三·上海·开学考试)为了缓解高三学生学业压力,学校开展健美操活动,高三某班文艺委员调查班级学生是否愿意参加健美操,得到如下的列联表.性别愿意不愿意男生610女生186(1)根据该列联表,并依据显著水平的独立性检验,判断能否认为“学生性别与是否愿意参加健美操有关”;(2)在愿意参加的所有学生中,根据性别,分层抽样选取8位学生组织班级健美操队,并从中随机选取2人作为领队,记这2人中女生人数为随机变量,求的分布及期望.附:.【解析】(1)列联表如下:性别愿意不愿意合计男生61016女生18624合计241640零假设为:是否愿意参加健美操与学生性别无关.根据列联表中的数据,可得,根据小概率值的独立性检验,我们推断不成立,既认为是否愿意参加健美操与学生性别有关联,此判断犯错误的概率不大于0.005.(2)根据列联表可得愿意参加健美操的学生中女生占全部的,∴选取的8人中,女生有人,男生有人,∴随机变量的可取值:0,1,2.∴,,.∴随机变量的分布列:012数学期望.16.(2024·高三·广西贵港·开学考试)为了研究学生的性别和是否喜欢跳绳的关联性,随机调查了某中学的100名学生,整理得到如下列联表:男学生女学生合计喜欢跳绳353570不喜欢跳绳102030合计4555100(1)依据的独立性检验,能否认为学生的性别和是否喜欢跳绳有关联?(2)已知该校学生每分钟的跳绳个数,该校学生经过训练后,跳绳个数都有明显进步.假设经过训练后每人每分钟的跳绳个数都增加10,该校有1000名学生,预估经过训练后该校每分钟的跳绳个数在内的人数(结果精确到整数).附:,其中.0.10.050.012.7063.8416.635若,则,.【解析】(1):学生的性别和是否喜欢运动无关.,所以根据的独立性检验,不能认为学生的性别与是否喜欢跳绳有关.(2)训练前该校学生每人每分钟的跳绳个数,则,,,即训练前学生每分钟的跳绳个数在,,,,由(人)估计训练前该校每分钟的跳绳个数在内的人数为.即预估经过训练后该校每分钟的跳绳个数在内的人数为.17.为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).编号12345学习时间x3040506070数学成绩y65788599108(1)求数学成绩与学习时间的相关系数(精确到0.001);(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合,并求出关于的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,的方差为200);(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.没有进步有进步合计参与周末在校自主学习35130165未参与周末不在校自主学习253055合计60160220附:方差:相关系数:回归方程中斜率和截距的最小二乘估计公式分别为,,.0.100.050.0100.0050.0012.7063.8416.6357.87910.828【解析】(1),,又的方差为,,,.(2)由(1)知接近1,故与之间具有极强的线性相关关系,可用线性回归直线方程模型进行拟合:,,,故当时,,故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.(3)零假设:周末在校自主学习与成绩进步无关,根据数据,计算得到:,因为,所以依据的独立性检验,可以认为“周末自主学习与成绩进步”有关.18.(2024·河北秦皇岛·三模)将保护区分为面积大小相近的多个区域,用简单随机抽样的方法抽取其中15个区域进行编号,统计抽取到的每个区域的某种水源指标和区域内该植物分布的数量,得到数组.已知,,.(1)求样本的样本相关系数;(2)假设该植物的寿命为随机变量(可取任意正整数),研究人员统计大量数据后发现,对于任意的,寿命为的样本在寿命超过的样本里的数量占比与寿命为1的样本在全体样本中的数量占比相同,均为0.1,这种现象被称为“几何分布的无记忆性”.(i)求的表达式;(ii)推导该植物寿命期望的值(用表示,取遍),并求当足够大时,的值.附:样本相关系数;当足够大时,.【解析】(1)由,,.得样本相关系数,.(2)(i)依题意,,又,则,当时,把换成,则,两式相减得,即,又,所以对任意都成立,从而是首项为0.1,公比为0.9的等比数列,所以.(ii)由定义知,,而,,显然,于是,两式相减得,因此,当足够大时,,则,可认为,所以该植物寿命期望的值是10.19.(2024·黑龙江哈尔滨·模拟预测)2024年初,冰城哈尔滨充分利用得天独厚的冰雪资源,成为2024年第一个“火出圈”的网红城市,冰城通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2024年1月1日至5日,哈尔滨太平国际机场接待外地游客数量如下:(日)12345(万人)4550606580(1)计算的相关系数(计算结果精确到0.01),并判断是否可以认为日期与游客人数的相关性很强;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)为了吸引游客,在冰雪大世界售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为:从该旅游团中随机同时抽取两名游客,两名游客性别不同则为中奖.已知某个旅游团中有5个男游客和个女游客,设重复进行三次抽奖中恰有一次中奖的概率为,当取多少时,最大?参考公式:,,,参考数据:.【解析】(1)因为,所以,,,所以,由此可以认为两者的相关性很强.(2)由(1)知,.所以=.因为,所以回归方程为.(3)记,,,即.,令,则,得,,,,所以在上单调递增,在上单调递减,当时,取得最大值.由,解得或(舍去),当时,恰有一次中奖的概率最大.1.(2024年上海秋季高考数学真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:时间范围学业成绩优秀5444231不优秀1341471374027(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?(附:其中,.)【解析】(1)由表可知锻炼时长不少于1小时的人数为占比,则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为.(2)估计该地区初中生的日均体育锻炼时长约为.则估计该地区初中学生日均体育锻炼的时长为0.9小时.(3)由题列联表如下:其他合计优秀455095不优秀177308485合计222358580提出零假设:该地区成绩优秀与日均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论