版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题9.3成对数据的统计分析【七大题型】【新高考专用】TOC\o"1-3"\h\u【题型1变量的相关关系】 4【题型2样本相关系数】 6【题型3一元线性回归模型】 8【题型4非线性回归模型】 11【题型5残差分析】 16【题型6列联表与独立性检验】 18【题型7独立性检验与其他知识综合】 211、成对数据的统计分析考点要求真题统计考情分析(1)了解样本相关系数的统计含义(2)了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题(3)会利用统计软件进行数据分析2022年新高考全国I卷:第20题,12分2023年全国甲卷(文数、理数):第19题,12分2024年全国甲卷(文数):第18题,12分2024年天津卷:第3题,5分2024年上海卷:第13题,5分、第19题,12分成对数据的统计分析是高考的重点、热点内容,从近几年的高考情况来看,主要以解答题的形式考查,一般会与概率等知识结合考查,综合性强,难度中等;有时也会在选择、填空题中出现,难度不大;复习时要加强此类问题的训练.【知识点1变量的相关关系】1.变量的相关关系(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.【知识点2样本相关系数】1.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.【知识点3一元线性回归模型】1.一元线性回归模型把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.2.线性经验回归方程与最小二乘法设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+(i=1,2,,n),得|-(+a)|=||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).3.残差分析对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.4.回归分析的三大常用结论(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.【知识点4列联表与独立性检验】1.2×2列联表假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为XY合计y1y2x1aba+bx2cdc+d合计a+cb+da+b+c+d2×2列联表给出了成对分类变量数据的交叉分类频数.2.独立性检验(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d则.(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.3.独立性检验的应用问题的解题策略解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表;(2)根据公式计算;(3)通过比较与临界值的大小关系来作统计推断.【方法技巧与总结】1.经验回归直线过点.2.求时,常用公式.3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.【题型1变量的相关关系】【例1】(2024·辽宁葫芦岛·一模)已知变量x与y的回归直线方程为y=3x−1,变量y与z负相关,则(
)A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关C.x与y负相关,x与z正相关 D.x与y正相关,x与z负相关【解题思路】根据已知条件,结合回归方程可判断x与y正相关,再由变量y与z负相关,即可判断x与z负相关.【解答过程】根据回归方程y=3x−1可知变量x与y正相关,又变量y与z负相关,由正相关、负相关的定义可知,x与z负相关.故选:D.【变式1-1】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是(
)A.某商品的销售价格与销售量 B.汽车匀速行驶时的路程与时间C.气温与冷饮的销售量 D.人的年龄与视力【解题思路】根据相关关系的概念逐项判定,即可求解.【解答过程】对于A,某商品的销售价格与销售量呈负相关关系,故错误;对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.故选:C.【变式1-2】(23-24高二下·四川眉山·期末)根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:编号123456x11.21.41.61.82.0F3.083.764.315.025.516.25据此给出以下结论:①这两变量不相关;②这两个变量负相关;③这两个变量正相关.其中所有正确结论的个数是(
)A.3 B.2 C.1 D.0【解题思路】根据散点图判断.【解答过程】画出弹簧伸长长度x和相应所受外力F的散点图,可以判断这两变量相关,且为正相关,故①②错误,③正确.故选:C.【变式1-3】(2024·全国·模拟预测)观察下列散点图,其中两个变量的相关关系判断正确的是(
)A.a为正相关,b为负相关,c为不相关 B.a为负相关,b为不相关,c为正相关C.a为负相关,b为正相关,c为不相关 D.a为正相关,b为不相关,c为负相关【解题思路】根据给定的散点图,结合相关性,即可求解.【解答过程】根据给定的散点图,可得a中的数据分布在左下方到右上方的区域里,为正相关,b中的数据分布在左上方到右下方的区域里,为负相关,c中的数据各点分布不成带状,相关性不明确,不相关.故选:A.【题型2样本相关系数】【例2】(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为(
).A.r1>r2>r3 B.【解题思路】根据散点图判断两变量的线性相关性,再根据线性相关性与相关系数的关系判断即可.【解答过程】由散点图可知,图一两个变量成正相关,且线性相关性较强,故r1图二、图三两个变量都成负相关,且图二的线性相关性更强,故r2<0,r3<0,r2故选:C.【变式2-1】(23-24高二上·辽宁·期末)在一组样本数据x1,y1、x2,y2、⋯、xn,ynn≥2、xA.2 B.−2 C.−1 D.1【解题思路】根据相关系数的与线性相关关系可得解.【解答过程】因为所有的样本点都在直线y=−2x+1上,所以相关系数r满足r=1又因为−2<0,所以r<0,所以r=−1.故选:C.【变式2-2】(2024·四川成都·二模)对变量x,y有观测数据xi,yii∈N*,得散点图1;对变量u,v有观测数据ui,viA.变量x与y呈现正相关,且r1<r2 B.变量xC.变量x与y呈现正相关,且r1>r2 D.变量x【解题思路】利用散点图,结合相关系数的知识可得答案.【解答过程】由题意可知,变量x,y的散点图中,y随x的增大而增大,所以变量x与y呈现正相关;再分别观察两个散点图,图1比图2点更加集中,相关性更好,所以线性相关系数r1故选:C.【变式2-3】(2024·湖南·模拟预测)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分x与骑行用时y(单位:小时)如下表:身体综合指标评分x12345用时(y/小时)9.58.87.876.1由上表数据得到的正确结论是(
)参考数据:i=1参考公式:相关系数r=i=1A.身体综合指标评分x与骑行用时y正相关B.身体综合指标评分x与骑行用时y的相关程度较弱C.身体综合指标评分x与骑行用时y的相关程度较强D.身体综合指标评分x与骑行用时y的关系不适合用线性回归模型拟合【解题思路】求出相关系数,根据相关系数的大小确定答案即可.【解答过程】因为相关系数r=i=1即相关系数近似为−1,y与x负相关,且相关程度相当高,从而可用线性回归模型拟合y与x的关系.所以选项ABD错误,C正确.故选:C.【题型3一元线性回归模型】【例3】(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如表所示:若y与x线性相关,且线性回归方程为y=−0.6x+a,则下列说法不正确的是(时间x12345销售量y/万只54.543.52.5A.由题中数据可知,变量y与x负相关B.当x=5时,残差为0.2C.可以预测当x=6时销量约为2.1万只D.线性回归方程y=−0.6x+a【解题思路】对于选项A,利用表中数据变化情况或看回归方程的b正负均可求解;对于选项B,利用样本中心点求出线性回归方程,再利用回归方程即可求出预测值,进而可求出残差;对于选项C,利用回归方程即可求出预测值;对于选项D,利用回归方程一定过样本中心点即可求解.【解答过程】对于选项A,从数据看,y随x的增大而减小,所以变量y与x负相关,故A正确;对于选项B,由表中数据知x=1+2+3+4+55所以样本中心点为(3,3.9),将样本中心点(3,3.9)代入y=−0.6x+a中得所以线性回归方程为y=−0.6x+5.7,所以y5=−0.6×5+5.7=2.7对于选项C,当x=6时销量约为y=−0.6×6+5.7=2.1对于选项D,由B选项可知a=3.9+1.8=5.7故选:B.【变式3-1】(2024·河北沧州·二模)随着“一带一路”经贸合作持续深化,西安某地对外贸易近几年持续繁荣,2023年6月18日,该地很多商场都在搞“6⋅18”促销活动.市物价局派人对某商品同一天的销售量及其价格进行调查,得到该商品的售价x(单位:元)和销售量y(单位:百件)之间的一组数据:x2025303540y578911用最小二乘法求得y与x之间的经验回归方程是y=0.28x+a,当售价为45元时,预测该商品的销售量件数大约为(A.11.2 B.11.75 C.12 D.12.2【解题思路】求出x,y,根据回归直线方程必过样本中心点x,y求出【解答过程】因为x=15所以回归直线y=0.28x+a过点30,8,故8=0.28×30+a所以y=0.28x−0.4,将x=45代入y=0.28x−0.4中,得即当售价为45元时,该商品的销售量件数大约为12.2百件.故选:D.【变式3-2】(2024·青海西宁·二模)只要骑车,都应该戴头盔.骑行头盔是骑行中生命坚实的保护屏障.骑行过程中的摔倒会对头部造成很大的损害,即使骑行者是以较低的车速沿着坡度平稳的自行车道骑行,也同样不可忽视安全问题.佩戴头盔的原因很简单也很重要——保护头部,减少伤害.相关数据表明,在每年超过500例的骑车死亡事故中,有75%的死亡原因是头部受到致命伤害造成的,医学研究发现,骑车佩戴头盔可防止85%的头部受伤,并且大大减小了损伤程度和事故死亡率.某市对此不断进行安全教育,下表是该市某主干路口连续5年监控设备抓拍到通过该路口的骑电动车不戴头盔的人数的统计数据:年份20192020202120222023年份序号x12345不戴头盔人数y1450130012001100950(1)求不戴头盔人数y与年份序号x之间的线性回归方程;(2)预测该路口2024年不戴头盔的人数.参考公式:回归方程y=bx+【解题思路】(1)根据所给数据求出x,y,i=15xi−x2,(2)求出x=6时y即可得解.【解答过程】(1)由题意知x=1+2+3+4+55所以i=15i=15xi所以b=所以a=所以不戴头盔人数y与年份序号x之间的线性回归方程为y=−120x+1560(2)当x=6时,y=−120×6+1560=840即预测该路口2024年不戴头盔的人数为840.【变式3-3】(2024·吉林延边·二模)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.该企业为了了解研发资金的投入额x(单位:百万元)对年收入的附加额y(单位:百万元)的影响,对往年研发资金投入额xi和年收入的附加额y投入额x234568911年收入的附加额y3.64.14.85.46.27.57.99.1(1)求年收入的附加额y与投入额x的经验回归方程;(2)若年收入的附加额与投入额的比值大于1,则称对应的投入额为“优秀投资额”,现从上面8个投入额中任意取3个,用X表示这3个投入额为“优秀投资额”的个数,求X的分布列及数学期望.【参考数据】i=18xiyi【附】在经验回归方程y=bx+a中,【解题思路】(1)根据已知数据和参考公式,即可出y与投入额x的经验回归方程;(2)求出X的所有可能取值和对应的概率,即可求出X的分布列,再由期望公式即可求出答案.【解答过程】(1)x=2+3+4+5+6+8+9+118b=又因为a=y−所以年收入的附加额y与投入额x的线性回归方程为y(2)8个投入额中,“优秀投资额”的个数为5个,故X的所有可能取值为0,1,2,3,PX=0=C33C则X的分布列为X0123P115155EX=0×1【题型4非线性回归模型】【例4】(2024·陕西安康·模拟预测)随着移动互联网和直播带货技术的发展,直播带货已经成为一种热门的销售方式,特别是商家通过展示产品,使顾客对商品有更全面的了解.下面统计了某新手开启直播带货后从6月份到10月份每个月的销售量yi(万件)(i=1,2,3,4,5)的数据,得到如图所示的散点图.其中6月份至10月份相应的代码为xi(i=1,2,3,4,5)(1)根据散点图判断,模型①y=a+bx与模型②y=c+dx2哪一个更适宜作为月销售量y关于月份代码(2)(i)根据(1)的判断结果,建立y关于x的回归方程;(计算结果精确到0.01)(ⅱ)根据结果预测12月份的销售量大约是多少万件?参考公式与数据:b=i=1nxi−xyi−yi=1n【解题思路】(1)根据散点图结合一次函数以及二次函数图象特征分析判断;(2)(i)令t=x(ⅱ)令x=7,代入回归方程运算求解即可.【解答过程】(1)由散点图可知增加幅度不一致,且散点图接近于曲线,非线性,结合图象故选模型②y=c+dx(2)(i)令t=x2,则可得t=15则d=i=15所以y关于t的回归方程为y=1.65+0.25t即y关于x的回归方程y=1.65+0.25(ⅱ)令x=7,可得y=1.65+0.25×预测12月份的销售量大约是13.9万件.【变式4-1】(2024·全国·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①y=bx+a,②y=c+dx根据收集到的数据,计算得到下表数据,其中tiyti=1i=1i=1i=17.52.2582.504.5012.142.88(1)根据残差图,判断应选择哪个模型;(无需说明理由)(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)附:对于一组具有线性相关关系的数据x1,y1【解题思路】(1)根据残差图分析判断;(2)令t=x,y与t可用线性回归来拟合,有y=c+dt,然后根据公式结合已知的数据求出c,d,从而可求出y关于t【解答过程】(1)选择模型②,理由如下:由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以模型②比较合适.(2)根据模型②,令t=x,y与t可用线性回归来拟合,有则d=i=1则y关于t的经验回归方程为y^=0.64t+6.06,所以y关于x的经验回归方程为由题意,y^=0.64x+6.06>8,解得x>97所以,要使年收益增量超过8亿元,研发人员增量至少为10人.【变式4-2】(2024·福建南平·模拟预测)某大型商场的所有饮料自动售卖机在一天中某种饮料的销售量y(单位:瓶)与天气温度x(单位:℃)有很强的相关关系,为能及时给饮料自动售卖机添加该种饮料,该商场对天气温度x和饮料的销售量y进行了数据收集,得到下面的表格:x10152025303540y41664256204840968192经分析,可以用y=a⋅2kx作为y关于(1)根据表中数据,求y关于x的经验回归方程(结果保留两位小数);(2)若饮料自动售卖机在一天中不需添加饮料的记1分,需添加饮料的记2分,每台饮料自动售卖机在一天中需添加饮料的概率均为13,在商场的所有饮料自动售卖机中随机抽取3台,记总得分为随机变量X,求X参考公式及数据:对于一组数据x1,y1【解题思路】(1)设z=log2y,m=log2a,转化为z=kx+m,利用最小二乘法,求得k=(2)根据题意,得到变量X的可能取值为3,4,5,6,利用独立重复试验的概率公式,求得相应的概率,列出分布列,结合期望的公式,即可求解.【解答过程】(1)解:设z=log2y,m=log2因为log24=2,loglog28192=13,所以由表中的数据可得x=则i=17所以k=则m=z−所以y关于x的经验回归方程为y^(2)解:由题意,随机变量X的可能取值为3,4,5,6,可得PX=3=2PX=5=C所以变量X的分布列为X3456P8421所以,期望为E【变式4-3】(2024·重庆·二模)某商场推出“云闪付”购物活动,由于推广期内优惠力度较大,吸引了越来越多的顾客使用这种支付方式.现统计了活动刚推出一周内每天使用“云闪付”支付的人数,用x表示活动推出的天数,y表示每天使用该支付方式的人数,统计数据如下表所示:x1234567y613254073110201根据散点图判断,在推广期内,支付的人数y关于天数x的回归方程适合用y=c⋅d(1)求该回归方程,并预测活动推出第8天使用“云闪付”的人数;(lgc,(2)推广期结束后,商场对顾客的支付方式进行统计,结果如下表:支付方式云闪付会员卡其它支付方式比例303040商场规定:使用会员卡支付的顾客享8折,“云闪付”的顾客随机优惠,其它支付方式的顾客无优惠,根据统计结果得知,使用“云闪付”的顾客,享7折的概率为13,享8折的概率为16,享9折的概率为12.设顾客购买标价为a元的商品支付的费用为X,根据所给数据用事件发生的频率估计相应事件发生的概率,写出X参考数据:设vi参考公式:对于一组数据u1,v1,【解题思路】(1)由y=c⋅d(2)根据概率的乘法公式进行求解列出分布列,根据期望公式计算结果.【解答过程】(1)由y=c⋅dx,得lgy=lgc+lgd⋅x,设v=x=4,lgd=把样本中心点4,1.59代入方程得lgc=所以v=0.24x+0.63,即lg其回归方程为y=当x=8时,y=(2)X的可能取值为:0.7a,0.8a,0.9a,a.PP分布列如下:X0.7a0.8a0.9aaP0.10.350.150.4所以,购物的平均费用为:EX【题型5残差分析】【例5】(2024·河南·模拟预测)已知一组样本数据x1,y1,x2,y2,,xn,yA.38.1 B.22.6 C.−38.1 D.91.1【解题思路】对于响应变量y,通过观测得到的数据为观测值,通过线性回归方程得到y的称为预测值,观测值减去预测值称为残差.【解答过程】因为观测值减去预测值称为残差,所以当x=9时,y=−30.4+13.5×9=91.1所以残差为53−91.1=−38.1.故选:C.【变式5-1】(2024·河北石家庄·三模)下列残差满足一元线性回归模型中对随机误差的假定的是(
)A.
B.
C.
D.
【解题思路】根据一元线性回归模型对随机误差的假定即可判断结果.【解答过程】图A显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图B说明残差的方差不是一个常数,随观测时间变大而变大;图C显示残差与观测时间有线性关系,应将时间变量纳入模型;图D的残差较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,可见D满足一元线性回归模型对随机误差的假定.故选:D.【变式5-2】(23-24高二下·河北唐山·阶段练习)某种产品的广告费支出x与销售额y(单位:万元)之间有下表关系:x24568y3040605070y与x的线性回归方程为y=6.5x+17.5,当广告支出5万元时,随机误差的效应(残差)为(
A.−10 B.−20 C.20 D.10【解题思路】随机误差的效应(残差)为观测值减去预测值【解答过程】当广告支出5万元时,观测值为60,预测值为y=6.5×5+17.5=50,则随机误差的效应(残差)为60−50=10故选:D.【变式5-3】(23-24高二下·安徽·阶段练习)设某制造公司进行技术升级后的第x个月(x=1,2,3,4,5)的利润为y(单位:百万元),根据统计数据,求得y关于x的经验回归方程为y=6x+3,若x=1时的观测值y=10,则x=1时的残差为(
A.−1 B.1 C.3 D.6【解题思路】利用残差的定义求解.【解答过程】解:因为x=1时的预测值为y^所以残差为10−9=1.故选:B.【题型6列联表与独立性检验】【例6】(2024·上海闵行·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表:不吸烟者吸烟者总计不患慢性气管炎者121162283患慢性气管炎者134356总计134205339假设H0:患慢性气管炎与吸烟没有关系,即它们相互独立.通过计算统计量χ2,得χ2≈7.468,根据χ2分布概率表:P(χ2≥6.635)≈0.01,①“患慢性气管炎与吸烟没有关系”成立的可能性小于5%②有99%③χ2分布概率表中的0.05、0.01A.0个 B.1个 C.2个 D.3个【解题思路】根据χ2【解答过程】解:因为χ2≈7.468,且所以有99%即“患慢性气管炎与吸烟没有关系”成立的可能性小于5%故①②正确;χ2分布概率表中的0.05、0.01故选:D.【变式6-1】(2024·辽宁鞍山·二模)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的45,女生选学生物学的人数占女生人数35.若有90%附表:P0.1000.0500.0100.0050.001k2.7063.8416.6357.87910.828其中,K2A.20 B.30 C.35 D.40【解题思路】借助卡方计算即可得.【解答过程】设总人数为2n,则男生选学生物学的人数为45n,女生选生物学的人数为则K2即n≥2.706×212≈28.413,又n为5故选:A.【变式6-2】(2024高三·全国·专题练习)某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:有效无效合计使用方案A组96120使用方案B组72合计32(1)完成上述列联表,并比较两种治疗方案有效的频率;(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关?附:K2P(K20.0050.0100.001k03.8416.63510.828【解题思路】(1)根据合计数可以完善表格,结合频数可得频率;(2)根据列联表的数据和卡方公式,计算观测值,比较观测值和临界值可得结论.【解答过程】解:(1)列联表如下:有效无效合计使用方案A组9624120使用方案B组72880合计16832200使用方案A组有效的频率为96120=0.8;使用方案B组有效的频率为72(2)K2所以,不能在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关.【变式6-3】(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:时间范围学业成绩0,0.50.5,11,1.51.5,22,2.5优秀5444231不优秀1341471374027(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)(3)是否有95%(附:χ2=n(ad−bc)2【解题思路】(1)求出相关占比,乘以总人数即可;(2)根据平均数的计算公式即可得到答案;(3)作出列联表,再提出零假设,计算卡方值和临界值比较大小即可得到结论.【解答过程】(1)由表可知锻炼时长不少于1小时的人数为占比179+43+28580则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为29000×25(2)估计该地区初中生的日均体育锻炼时长约为15800.52则估计该地区初中学生日均体育锻炼的时长为0.9小时.(3)由题列联表如下:1,2其他合计优秀455095不优秀177308485合计222358580提出零假设H0其中α=0.05.χ2则零假设不成立,即有95%【题型7独立性检验与其他知识综合】【例7】(2024·江苏南通·模拟预测)跑步是人们日常生活中常见的一种锻炼方式,其可以提高人体呼吸系统和心血管系统机能,抑制人体癌细胞生长和繁殖.为了解人们是否喜欢跑步,某调查机构在一小区随机抽取了40人进行调查,统计结果如下表.喜欢不喜欢合计男12820女101020合计221840(1)根据以上数据,判断能否有95%的把握认为人们对跑步的喜欢情况与性别有关?(2)该小区居民张先生每天跑步或开车上班,据以往经验,张先生跑步上班准时到公司的概率为23,张先生跑步上班迟到的概率为13.对于下周(周一~周五)上班方式张先生作出如下安排:周一跑步上班,从周二开始,若前一天准时到公司,当天就继续跑步上班,否则,当天就开车上班,且因公司安排,周五开车去公司(无论周四是否准时到达公司).设从周一开始到张先生第一次开车去上班前跑步上班的天数为X,求X的概率分布及数学期望附:χ2=nP0.1000.0500.0250.0100.001x2.7063.8415.0246.63510.828【解题思路】(1)由2×2列联表中的数据,求得χ2(2)由题意,得到变量X的可能取值为1,2,3,4,求得相应的概率,列出分布列,结合期望的公式,即可求解.【解答过程】(1)解:假设H0根据题意,由2×2列联表中的数据,可得χ2因为Pχ(2)解:由题意,随机变量X的所有可能取值分别为1,2,3,4,可得PX=1=13,PX=4所以变量X的概率分布为X1234P1248所以,期望为EX【变式7-1】(2024·安徽芜湖·三模)在学校食堂就餐成为了很多学生的就餐选择.现将一周内在食堂就餐超过3次的学生认定为“喜欢食堂就餐”,不超过3次的学生认定为“不喜欢食堂就餐”.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,统计数据如下:男生女生合计喜欢食堂就餐402060不喜欢食堂就餐103040合计5050100(1)依据小概率值α=0.(2)该校甲同学逢星期二和星期四都在学校食堂就餐,且星期二会从①号、②号两个套餐中随机选择一个套餐,若星期二选择了①号套餐,则星期四选择①号套餐的概率为45;若星期二选择了②号套餐,则星期四选择①号套餐的概率为23,求甲同学星期四选择(3)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为X.事件“X=k”的概率为PX=k,求使PX=k取得最大值时参考公式:χ2=nα0.10.050.010.0050.001x2.7063.8416.6357.87910.828【解题思路】(1)计算χ2(2)全概率公式计算概率;(3)依题意可得ξ∼B10,35,即可得到【解答过程】(1)H0由列联表可得χ所以依据小概率值α=0.(2)记星期二选择了①号套餐为事件A1,选择②号套餐为A星期四选择了①号套餐为事件B1,选择②号套餐为B则PA所以PB所以PB(3)依题意可得学生“喜欢饭堂就餐”的概率P=60则ξ∼B10,35,所以若Pξ=k取得最大值,则PC即25≥又0≤k≤10且k∈N,所以k=6【变式7-2】(2024·湖南邵阳·三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数y与天数x的情况,对统计得到的样本数据xixyYi=1i=1i=15.58.71.930138579.75表中Yi=ln(1)依据散点图推断,y=bx+a与y=ebx+a哪一个更适合作为未佩戴头盔人数y与天数(2)依据(1)的结果和上表中的数据求出y关于x的回归方程.(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:性别佩戴头盔合计不佩戴佩戴女性81220男性14620合计221840依据α=0.10的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?参考公式:b=i=1nxiyiα0.150.100.050.0250.0100.0050.001x2.0722.7063.8415.0246.6357.87910.828【解题思路】(1)根据散点图的形状,可判断更适宜作为未佩戴头盔人数y与天数x的回归方程类型.(2)将y=e(3)应用卡方公式求卡方值,由独立性检验的基本思想下结论即可.【解答过程】(1)依据散点图可以判断,y=ebx+a更适合作为未佩戴头盔人数y与天数(2)由Yi=ln依题意得b=a=所以Y=−0.3x+3.55,即y=e(3)零假设H0根据列联表中的数据,经计算得到:χ2根据小概率值α=0.10的独立性检验,我们推断H0此推断犯错误的概率不超过0.10.【变式7-3】(2024·陕西西安·模拟预测)某医疗科研小组为研究某市市民患有疾病A与是否具有生活习惯B的关系,从该市市民中随机抽查了100人,得到如表数据.(注:用M表示M的对立事件)疾病A生活习惯B具有不具有患病2515未患病2040(1)是否有超过99%的把握认为,该市市民患有疾病A与是否具有生活习惯B(2)从该市市民中任选一人,M表示事件“选到的人不具有生活习惯B”,N表示事件“选到的人患有疾病A”,试利用该调查数据,求PN(3)从该市市民中任选3人,记这3人中具有生活习惯B,且未患有疾病A的人数为X,试利用该调查数据,求X的数学期望的估计值.附:k2=nα0.100.050.0100.001k2.7063.8416.63510.828【解题思路】(1)先完善列联表,然后根据公式计算卡方,对照临界值表即可得结论;(2)根据表中数据分别求出P(M(3)由二项分布的期望公式可得.【解答过程】(1)由已知得列联表如下:疾病A生活习惯B合计具有不具有患病251540未患病204060合计4555100根据列联表中的数据,经计算得:k故有超过99%的把握认为,该市市民患有疾病A与是否具有生活习惯B(2)由(1)数据可得:P(M所以P(N(3)由(2)知,P(N所以X~B3,15,所以E(X)一、单选题1.(23-24高二下·重庆沙坪坝·阶段练习)已知变量x和y满足关系y=−x+1,变量y与z正相关,则(
)A.x与y负相关,x与z负相关 B.x与y正相关,x与z正相关C.x与y正相关,x与z负相关 D.x与y负相关,x与z正相关【解题思路】根据关系式判断x,y负相关,再由变量y与z正相关可得x,z负相关即可判断.【解答过程】因为变量x和y满足关系y=−x+1,变量y与z正相关,由正相关、负相关的定义可知x与y负相关,x与z负相关.故选:A.2.(2024·广西贵港·模拟预测)下列说法中错误的是(
)A.独立性检验的本质是比较观测值与期望值之间的差异B.两个变量x,y的相关系数为r,若r越接近1,则x与y之间的线性相关程度越强C.若一组样本数据(xi,yi)(D.由一组样本数据(xi,yi)(i=1,2,3,⋯,n【解题思路】根据独立检验和线性回归方程的相关性质进行判断,得到答案.【解答过程】A,独立性检验的本质是比较观测值与期望值之间的差异,从而确定研究对象是否有关联,A正确;B,两个变量x,y的相关系数为r,若r越接近1,则x与y之间的线性相关程度越强,B正确;C,若一组样本数据(xi,yi)(D,由残差分析可知,i=1n故选:C.3.(2024·上海·模拟预测)在研究线性回归模型时,样本数据xi,yii=1,2,3,⋯,n所对应的点均在直线y=−12A.−1 B.1 C.−12【解题思路】结合回归方程,根据线性相关系数的性质可得结论.【解答过程】因为样本数据所对应的点都在直线y=−1所以变量y,x为负相关关系,且r=−1,故选:A.4.(2024·江西南昌·三模)如图对两组数据x,y和v,u分别进行回归分析,得到散点图如图,并求得线性回归方程分别是y=b1x+a1和u=b2v+a2,并对变量x,y进行线性相关检验,得到相关系数A.b1>0 B.b2<0 C.【解题思路】由两散点图中散点的位置关系直接得答案.【解答过程】由散点图可知,x与y负相关,v与u正相关,则b1<0,且图形中点x,y比v,u更加集中在一条直线附近,则r1>r2,又r1故C错误,D正确.故选:D.5.(2024·湖南邵阳·三模)某学习小组对一组数据xi,yii=1,2,3,⋯,7进行回归分析,甲同学首先求出回归直线方程y=5x+4,样本点的中心为2,m.乙同学对甲的计算过程进行检查,发现甲将数据2,3误输成3,2,将这两个数据修正后得到回归直线方程A.5013 B.2533 C.1123【解题思路】根据题意分析求得x2+x【解答过程】由题意可得m=5×2+4=14,即修正前的样本中心点为2,14,假设甲输入的x1,y则3+x2+且2+y2+则改为正确数据后,则x=17所以修正后的样本中心点为137将点137,997代入回归直线方程y=kx+7故选:A.6.(2024·湖北荆州·三模)根据变量Y和x的成对样本数据,由一元线性回归模型Y=bx+a+eEe=0,De=A.满足一元线性回归模型的所有假设B.不满足一元线性回归模型的E(e)=0的假设C.不满足一元线性回归模型的D(e)=σD.不满足一元线性回归模型的E(e)=0和D(e)=σ【解题思路】根据一元线性回归模型Y=bx+a+eE(e)=0,D(e)=【解答过程】用一元线性回归模型Y=bx+a+eE(e)=0,D(e)=σ2根据对应的残差图,残差的均值E(e)=0不可能成立,且残差图中的点分布在一条拋物线形状的弯曲带状区域上,说明残差与坐标轴变量有二次关系,D(e)=σ故选:D.7.(2024·天津河北·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型y=c1ec2年份2018年2019年2020年2021年2022年年份代码x12345z=ln22.433.64由上表可得经验回归方程z=0.52x+a,则2026年该科技公司云计算市场规模y的估计值为(
(参考公式:a=A.e5.08 B.e5.6 C.e6.12【解题思路】根据a=z−bx可得线性回归方程,再由回归方程求出2026年【解答过程】因为x所以a=即经验回归方程z=0.52x+1.44当x=9时,z=0.52×9+1.44=6.12所以y=即2026年该科技公司云计算市场规模y的估计值为e6.12故选:C.8.(2024·四川成都·三模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀甲班10b乙班c30附:K2=nP0.050.0250.0100.005k3.8415.0246.6357.879已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是(
A.甲班人数少于乙班人数B.甲班的优秀率高于乙班的优秀率C.表中c的值为15,b的值为50D.根据表中的数据,若按97.5%【解题思路】根据条件解出b=45,c=20,然后直接计算即可判断A,B,C错误,使用K2的计算公式计算K2,并将其与【解答过程】对于C,由条件知10+b+c+30=105,10+c105=27,故所以b=45,c=20,故C错误;对于A,由于甲班人数为10+b=10+45=55,乙班人数为c+30=20+30=50<55,故A错误;对于B,由于甲班优秀率为1055=2对于D,由于K2故选:D.二、多选题9.(2024·广东东莞·三模)下列选项中正确的有(
)A.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的绝对值越接近于1B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高C.已知随机变量X服从正态分布N2,σD.若数据2x1+1,2【解题思路】对于AB,结合相关系数,残差的定义,即可求解;对于C,结合正态分布的对称性,即可求解;对于D,结合方差的线性公式,即可求解.【解答过程】若两个具有线性相关关系的变量的相关性越强,则线性相关系数|r|的值越接近于1,故A正确;在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,故B正确;随机变量X服从正态分布N(2,σ则P(2<X<4)=P(X<4)−P(X≤2)=0.8−0.5=0.3,故C错误;设数据x1,x2,…,x16的方差为m,因为数据2x1+1,则22×m=8,解得故选:ABD.10.(2024·湖北武汉·模拟预测)某科技公司统计了一款App最近5个月的下载量如表所示,若y与x线性相关,且线性回归方程为y^=−0.6x+a月份编号x12345下载量y(万次)54.543.52.5A.y与x负相关 B.aC.预测第6个月的下载量是2.1万次 D.残差绝对值的最大值为0.2【解题思路】对于A:根据回归方程分析判断;对于B:根据线性回归方程必过样本中心点,运算求解;对于C:根据回归方程进而预测;对于D:根据题意结合残差的定义分析判断.【解答过程】对于A:因为−0.6<0,所以变量y与x负相关,故A正确;对于B:x=y=y=−0.6x+a,则解得a=5.7,故B对于C:当x=6时,y=−0.6×6+5.7=2.1故可以预测第6个月的下载量约为2.1万次,故C正确;对于D:当x=1时,y1=−0.6×1+5.7=5.1,当x=2时,y2=−0.6×2+5.7=4.5,当x=3时,y3=−0.6×3+5.7=3.9,当x=4时,y4=−0.6×4+5.7=3.3,当x=5时,y5=−0.6×5+5.7=2.7,故残差绝对值的最大值为0.2,故D正确.故选:ACD.11.(2024·广东江门·模拟预测)某中学为更好的开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的35,女生中选修外出研学课程的人数占女生总人数的12.若依据α=0.05的独立性检验,可以认为“选修外出研学课程与性别有关”.则调查人数中男生可能有(男生女生合计选修外出研学课程aba+b未选修外出研学课程cdc+d合计a+cb+d附:P0.050.010k3.8416.635K2=A.150人 B.225人 C.300人 D.375人【解题思路】设男生人数为5nn∈N∗,根据题意用n表示出女生人数、男生中“选修外出研学课程”人数、女生中“选修外出研学课程”人数,进而表示出表格中其它人数,利用公式计算出K2,由【解答过程】设男生人数为5nn∈N∗男生女生合计选修外出研学课程3n5n11n不选修外出研学课程2n5n9n合计5n5n10n则K2若有95%的把握认为喜欢选修外出研学课程与性别有关,则10n解得n>38.03,则5n>190.13.故选:BCD.三、填空题12.(2024·全国·模拟预测)某试验小组收集了部分父亲和儿子的身高数据,通过测量与回归方程计算得到如下五组儿子身高的观测值与估计值,则该组统计数据的决定系数R2=儿子身高观测值/cm161.3167.7170.0173.5177.5儿子身高估计值/cm161.3167.7170.0173.5177.5【解题思路】根据决定系数的意义及表格中的数据即可求解.【解答过程】因为决定系数R2从表中数据可知没有误差,所以R2故答案为:1.13.(2024·陕西铜川·模拟预测)已知某品牌的新能源汽车的使用时间x(年)与维护费用y(千元)之间有如下数据:使用时间x(年)246810维护费用y(千元)2.43.24.46.87.6若x与y之间具有线性相关关系,且y关于x的线性回归方程为y=0.7x+a.据此估计,该品牌的新能源汽车的使用时间为12年时,维护费用约为【解题思路】求出x,y,得到样本中心点坐标,将其代入回归方程可求出a,然后将【解答过程】由题意可得x=2+4+6+8+10由于回归直线过样本的中心点,所以0.7×6+a=4.88,解得所以回归直线方程为y=0.7x+0.68,当x=12时,y所以当该品牌的新能源汽车的使用时间为12年时,维护费用约为9.08千元.故答案为:9.08.14.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:药物疾病合计未患病患病服用m50−m50未服用80−mm−3050合计8020100取显著性水平α=0.05,若本次考察结果支持“药物对疾病预防有显著效果”,则m(m≥40,m∈N)的最小值为44.(参考公式:χ2=n【解题思路】由题意列出不等式,结合近似计算求出m的取值范围,即可得答案.【解答过程】由题意可知χ2则(100m−4000)2解得m≥43.92或m≤36.08,而m≥40,m∈N,故m的最小值为44.故答案为:44.四、解答题15.(2024·河南新乡·模拟预测)氮氧化物是一种常见的大气污染物,下图为我国2015年至2023年氮氧化物排放量(单位:万吨)的折线图,其中年份代码1~9分别对应年份2015~2023.已知i=19yi≈12000,i=19(1)可否用线性回归模型拟合y与t的关系?请分别根据折线图和相关系数加以说明.(2)若根据所给数据建立回归模型y=−138t+2025附:相关系数r=i=1【解题思路】(1)根据题意,由相关系数的计算公式代入计算,即可判断;(2)根据题意,由线性回归方程的意义,即可判断.【解答过程】(1)从折线图看,各点落在一条直线附近,因而可以用线性回归模型拟合y与t的关系,由题意知t=相关系数r=i=1故可以用线性回归模型拟合y与t的关系.(2)可以预测2024年的氮氧化物排放量,但不可以预测2034年的氮氧化物排放量.理由如下:①2024年与所给数据的年份较接近,因而可以认为短期内氮氧化物排放量将延续该趋势,故可以用此模型进行预测;②2034年与所给数据的年份相距过远,而影响氮氧化物排放量的因素有很多,这些因素在短期内可能保持不变,但从长期看很有可能会变化,因而用此模型预测可能是不准确的.16.(2024·青海·二模)某企业近年来的广告费用x(百万元)与所获得的利润y(千万元)的数据如下表所示,已知y与x之间具有线性相关关系.年份20182019202020212022广告费用x/百万元1.51
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《常用英文单词》课件
- 公司固定资产转让合同
- 和村集体合作协议
- 2024年度货物销售合同标的及详细交付时间表2篇
- 鱼塘协议书范本
- 思想文化工作培训
- 建筑工程劳务合同范本标准版
- 钢筋工程2024年度施工进度与工期保障协议2篇
- 6alpha-Hydroxymaackiain-minus-6a-Hydroxymaackiain-生命科学试剂-MCE
- 沈阳正规土地转租合同书标准版可打印
- 国内外供应链管理研究现状分析
- 教科版小学科学四年级上册期末检测试卷及答案(共三套)
- 新版PEP六上unit6howdoyoufeelALet27stalk市公开课一等奖省赛课微课金奖P
- (附答案)2024公需课《百县千镇万村高质量发展工程与城乡区域协调发展》试题广东公需科
- 自动洗碗机毕业设计
- 核医学辐射防护与安全要求(HJ 1188-2021)
- 工程建设监理收费标准(发改价格【2007】670号)
- 第六章-电影符号学课件
- 保密室搬迁方案设计
- 2024年-催收行业保密协议模板
- 小学运动会入场评分表
评论
0/150
提交评论