2025届高考数学一轮复习第9章统计与统计案例第3讲变量间的相关关系与统计案例创新教学案含解析新人教版_第1页
2025届高考数学一轮复习第9章统计与统计案例第3讲变量间的相关关系与统计案例创新教学案含解析新人教版_第2页
2025届高考数学一轮复习第9章统计与统计案例第3讲变量间的相关关系与统计案例创新教学案含解析新人教版_第3页
2025届高考数学一轮复习第9章统计与统计案例第3讲变量间的相关关系与统计案例创新教学案含解析新人教版_第4页
2025届高考数学一轮复习第9章统计与统计案例第3讲变量间的相关关系与统计案例创新教学案含解析新人教版_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE第3讲变量间的相关关系与统计案例[考纲解读]1.会作两个相关变量的数据的散点图,会利用散点图相识变量间的相关关系;依据最小二乘法求出回来直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预料]从近三年高考状况来看,本讲是高考中的一个热点考查内容.预料2024年将会考查:①回来直线方程的推断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回来方程(1)相关关系的分类①正相关:从散点图上看,点散布在从eq\o(□,\s\up1(01))左下角到eq\o(□,\s\up1(02))右上角的区域内,如图1;②负相关:从散点图上看,点散布在从eq\o(□,\s\up1(03))左上角到eq\o(□,\s\up1(04))右下角的区域内,如图2.(2)线性相关关系:从散点图上看,假如这些点从整体上看大致分布在eq\o(□,\s\up1(05))一条直线旁边,则称这两个变量之间具有线性相关关系,这条直线叫做eq\o(□,\s\up1(06))回来直线.(3)回来方程①最小二乘法:使得样本数据的点到回来直线的eq\o(□,\s\up1(07))距离的平方和最小的方法叫做最小二乘法.②回来方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其回来方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),则eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\i\su(i=1,n,)xi-\o(x,\s\up6(-))2)=eq\f(\i\su(i=1,n,x)iyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\i\su(i=1,n,x)\o\al(2,i)-n\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).其中,eq\o(b,\s\up6(^))是回来方程的eq\o(□,\s\up1(08))斜率,eq\o(a,\s\up6(^))是在y轴上的eq\o(□,\s\up1(09))截距,eq\o(x,\s\up6(-))=eq\f(1,n)eq\o(∑,\s\up6(n),\s\do4(i=1))xi,eq\o(y,\s\up6(-))=eq\f(1,n)eq\o(∑,\s\up6(n),\s\do4(i=1))yi,eq\o(□,\s\up1(10))(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-)))称为样本点的中心.说明:回来直线eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))必过样本点的中心(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-))),这个结论既是检验所求回来直线方程是否精确的依据,也是求参数的一个依据.(4)样本相关系数r=eq\f(\i\su(i=1,n,)xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\i\su(i=1,n,)xi-\o(x,\s\up6(-))2\i\su(i=1,n,)yi-\o(y,\s\up6(-))2)),用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量eq\o(□,\s\up1(11))正相关;②当r<0时,表明两个变量eq\o(□,\s\up1(12))负相关;③r的肯定值越接近1,表明两个变量的线性相关性eq\o(□,\s\up1(13))越强;r的肯定值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.2.残差分析(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为eq\o(e,\s\up6(^))i=yi-eq\o(y,\s\up6(^))i=yi-eq\o(b,\s\up6(^))xi-eq\o(a,\s\up6(^)),i=1,2,…,n,eq\o(e,\s\up6(^))i称为相应于点(xi,yi)的残差.(2)残差平方和为eq\o(∑,\s\up6(n),\s\do4(i=1))(yi-eq\o(y,\s\up6(^))i)2.(3)相关指数:R2=1-eq\o(□,\s\up1(01))eq\f(\o(∑,\s\up6(n),\s\do4(i=1))yi-\o(y,\s\up6(^))i2,\o(∑,\s\up6(n),\s\do4(i=1))yi-\o(y,\s\up6(-))2).3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的eq\o(□,\s\up1(01))不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的eq\o(□,\s\up1(02))频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=eq\o(□,\s\up1(03))eq\f(nad-bc2,a+bc+da+cb+d),其中n=eq\o(□,\s\up1(04))a+b+c+d为样本容量.(3)独立性检验利用随机变量eq\o(□,\s\up1(05))K2来推断“两个分类变量eq\o(□,\s\up1(06))有关系”的方法称为独立性检验.1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)“名师出高徒”可以说明为老师的教学水平与学生水平成正相关关系.()(3)只有两个变量有相关关系,所得到的回来模型才有预料价值.()(4)事务X,Y关系越亲密,则由观测数据计算得到的K2的观测值越大.()(5)由独立性检验可知,有99%的把握认为物理成果优秀与数学成果有关,某人数学成果优秀,则他有99%的可能物理优秀.()答案(1)×(2)√(3)√(4)√(5)×2.小题热身(1)设回来方程为eq\o(y,\s\up6(^))=3-5x,则变量x增加一个单位时()A.y平均增加3个单位 B.y平均削减5个单位C.y平均增加5个单位 D.y平均削减3个单位答案B解析因为-5是斜率的估计值,说明x每增加一个单位,y平均削减5个单位.故选B.(2)在下列各图中,两个变量具有相关关系的图是()A.①② B.①③C.②④ D.②③答案D解析①为函数关系;②明显成正相关;③明显成负相关;④没有明显相关性.(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简洁随机抽样方法从不同地区调查了100位育龄妇女,结果如表.非一线一线总计愿生452065不愿生132235总计5842100算得K2=eq\f(100×45×22-20×132,58×42×35×65)≈9.616.附表:P(K2≥k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C解析因为K2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”.(4)已知变量x,y具有线性相关关系,它们之间的一组数据如下表所示,若y关于x的回来方程为eq\o(y,\s\up6(^))=1.3x-1,则m=________.x1234y0.11.8m4答案3.1解析由已知得eq\o(x,\s\up6(-))=eq\f(1,4)×(1+2+3+4)=2.5,eq\o(y,\s\up6(-))=eq\f(1,4)(0.1+1.8+m+4)=eq\f(1,4)×(5.9+m).因为(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-)))在直线eq\o(y,\s\up6(^))=1.3x-1上,所以eq\o(y,\s\up6(-))=1.3×2.5-1=2.25,所以eq\f(1,4)×(5.9+m)=2.25,解得m=3.1.题型一相关关系的推断1.下列两变量中不存在相关关系的是()①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成果与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A.①②⑤ B.①③⑥C.④⑤⑥ D.②⑥答案A解析依据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.下列命题中正确的为()A.线性相关系数r越大,两个变量的线性相关性越强B.线性相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,模型拟合的效果越好D.用相关指数R2来刻画回来效果,R2越小,说明模型的拟合效果越好答案C解析线性相关系数r的肯定值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3答案A解析易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线旁边,则r2<r4<0<r3<r1.故选A.1.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.|r|越趋近于1相关性越强.见举例说明3.(3)线性回来直线方程中:eq\o(b,\s\up6(^))>0时,正相关;eq\o(b,\s\up6(^))<0时,负相关.2.推断拟合效果的两个方法(1)残差平方和越小,拟合效果越好.见举例说明2.(2)相关指数R2越大,越接近于1,拟合效果越好.1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若全部样本点(xi,yi)(i=1,2,…,n)都在直线y=eq\f(1,2)x+1上,则这组样本数据的样本相关系数为()A.-1 B.0C.eq\f(1,2) D.1答案D解析全部点均在直线上,则样本相关系数最大即为1,故选D.2.四名同学依据各自的样本数据探讨变量x,y之间的相关关系,并求得线性回来方程,分别得到以下四个结论:①y与x负相关且eq\o(y,\s\up6(^))=2.347x-6.423;②y与x负相关且eq\o(y,\s\up6(^))=-3.476x+5.648;③y与x正相关且eq\o(y,\s\up6(^))=5.437x+8.493;④y与x正相关且eq\o(y,\s\up6(^))=-4.326x-4.578.其中肯定不正确的结论的序号是()A.①② B.②③C.③④ D.①④答案D解析由回来方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))知当eq\o(b,\s\up6(^))>0时,y与x正相关,当eq\o(b,\s\up6(^))<0时,y与x负相关,∴①④肯定错误.题型二回来分析角度1线性回来方程及应用1.某汽车的运用年数x与所支出的修理总费用y的统计数据如表:运用年数x/年12345修理总费用y/万元0.51.22.23.34.5依据上表可得y关于x的线性回来方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x-0.69,若该汽车修理总费用超过10万元就不再修理,干脆报废,据此模型预料该汽车最多可运用(不足1年按1年计算)()A.8年 B.9年C.10年 D.11年答案D解析由y关于x的线性回来直线eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x-0.69过样本点的中心(3,2.34),得eq\o(b,\s\up6(^))=1.01,即线性回来方程为eq\o(y,\s\up6(^))=1.01x-0.69,令eq\o(y,\s\up6(^))=1.01x-0.69=10,得x≈10.6,所以预料该汽车最多可运用11年.故选D.2.(2024·东北三省三校三模)现代社会,“鼠标手”已成为常见病.一次试验中,10名试验对象进行160分钟的连续鼠标点击嬉戏,每位试验对象完成的嬉戏关卡一样,鼠标点击频率平均为180次/分钟,试验探讨人员测试了试验对象运用鼠标前后的握力改变,前臂表面肌电频率(sEMG)等指标.(1)10名试验对象试验前、后握力(单位:N)测试结果如下:试验前:346,357,358,360,362,362,364,372,373,376.试验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算试验后握力平均值比试验前握力的平均值下降了多少N?(2)试验过程中测得时间t(分)与10名试验对象前臂表面肌电频率(sEMG)的中位数y(Hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y关于时间t的线性回来方程;(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲惫状态,依据(2)中9组数据分析,运用鼠标多少分钟就该进行休息了?参考数据:eq\o(∑,\s\up6(9),\s\do4(i=1))(ti-eq\x\to(t))(yi-eq\o(y,\s\up6(-)))=-1800;参考公式:回来方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))t+eq\o(a,\s\up6(^))中斜率和截距的最小二乘估计公式分别为:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))ti-\x\to(t)yi-\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))ti-\x\to(t)2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\x\to(t)解(1)依据题意得到茎叶图如下图所示:由图中数据可得eq\o(x,\s\up6(-))1=eq\f(1,10)×(346+357+358+360+362+362+364+372+373+376)=363,eq\o(x,\s\up6(-))2=eq\f(1,10)×(313+321+322+324+330+332+334+343+350+361)=333,∴eq\o(x,\s\up6(-))1-eq\o(x,\s\up6(-))2=363-333=30(N),∴故试验前后握力的平均值下降了30N.(2)由题意得eq\x\to(t)=eq\f(1,9)×(0+20+40+60+80+100+120+140+160)=80,eq\o(y,\s\up6(-))=eq\f(1,9)×(87+84+86+79+78+78+76+77+75)=80,eq\o(∑,\s\up6(9),\s\do4(i=1))(ti-eq\x\to(t))2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,又eq\o(∑,\s\up6(9),\s\do4(i=1))(ti-eq\x\to(t))(yi-eq\o(y,\s\up6(-)))=-1800,∴eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(9),\s\do4(i=1))ti-\x\to(t)yi-\o(y,\s\up6(-)),\o(∑,\s\up6(9),\s\do4(i=1))ti-\x\to(t)2)=eq\f(-1800,24000)=-0.075,∴eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\x\to(t)=80-(-0.075)×80=86,∴y关于时间t的线性回来方程为eq\o(y,\s\up6(^))=-0.075t+86.(3)九组数据中40分钟到60分钟y的下降幅度最大,提示60分钟时肌肉已经进入疲惫状态,故运用鼠标60分钟就该休息了.角度2非线性回来模型的应用3.(2024·莆田二模)某芯片公司为制定下一年的研发投入安排,需了解年研发资金投入量xi(单位:亿元)对年销售额yi(单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y=α+βx2,②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.现该公司收集了近12年的年研发资金投入量xi和年销售额yi的数据,i=1,2,…,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.令ui=x2,vi=lnyi(i=1,2,…,12),经计算得如下数据:eq\o(x,\s\up6(-))eq\o(y,\s\up6(-))eq\i\su(i=1,12,)(xi-eq\o(x,\s\up6(-)))2eq\i\su(i=1,12,)(yi-eq\o(y,\s\up6(-)))2eq\o(u,\s\up6(-))eq\o(v,\s\up6(-))20667702004604.20eq\i\su(i=1,12,)(ui-eq\o(u,\s\up6(-)))2eq\i\su(i=1,12,)(ui-eq\o(u,\s\up6(-)))·(yi-eq\o(y,\s\up6(-)))eq\i\su(i=1,12,)(vi-eq\o(v,\s\up6(-)))2eq\i\su(i=1,12,)(xi-eq\o(x,\s\up6(-)))·(vi-eq\o(v,\s\up6(-)))3125000215000.30814(1)设{ui}和{yi}的相关系数为r1,{xi}和{vi}的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)①依据(1)的选择及表中数据,建立y关于x的回来方程(系数精确到0.01);②若下一年销售额y需达到90亿元,预料下一年的研发资金投入量x是多少亿元?附:相关系数r=eq\f(\i\su(i=1,n,)xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\i\su(i=1,n,)xi-\o(x,\s\up6(-))2\i\su(i=1,n,)yi-\o(y,\s\up6(-))2)),回来直线eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\i\su(i=1,n,)xi-\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-));参考数据:308=4×77,eq\r(90)≈9.4868,e4.4998≈90.解(1)由题意,r1=eq\f(\i\su(i=1,12,)ui-\o(u,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\i\su(i=1,12,)ui-\o(u,\s\up6(-))2\i\su(i=1,12,)yi-\o(y,\s\up6(-))2))=eq\f(21500,\r(3125000×200))=eq\f(21500,25000)=eq\f(43,50)=0.86,r2=eq\f(\i\su(i=1,12,)xi-\o(x,\s\up6(-))vi-\o(v,\s\up6(-)),\r(\i\su(i=1,12,)xi-\o(x,\s\up6(-))2\i\su(i=1,12,)vi-\o(v,\s\up6(-))2))=eq\f(14,\r(770×0.308))=eq\f(14,77×0.2)=eq\f(10,11)≈0.91,则|r1|<|r2|,因此从相关系数的角度,模型y=eλx+t的拟合程度更好.(2)①先建立v关于x的线性回来方程,由y=eλx+t,得lny=t+λx,即v=t+λx;由于λ=eq\f(\i\su(i=1,12,)xi-\o(x,\s\up6(-))vi-\o(v,\s\up6(-)),\i\su(i=1,12,)xi-\o(x,\s\up6(-))2)=eq\f(14,770)≈0.018,t=eq\o(v,\s\up6(-))-λeq\o(x,\s\up6(-))=4.20-0.018×20=3.84,所以v关于x的线性回来方程为eq\o(v,\s\up6(^))=0.02x+3.84,所以lneq\o(y,\s\up6(^))=0.02x+3.84,则eq\o(y,\s\up6(^))=e0.02x+3.84.②下一年销售额y需达到90亿元,即y=90,代入eq\o(y,\s\up6(^))=e0.02x+3.84,得90=e0.02x+3.84,又e4.4998≈90,所以4.4998≈0.02x+3.84,所以x≈eq\f(4.4998-3.84,0.02)=32.99,所以预料下一年的研发资金投入量约是32.99亿元.1.利用线性回来方程时的关注点(1)正确理解计算eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^))的公式和精确的计算是求线性回来方程的关键.(2)回来直线方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))必过样本点中心(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-))).见举例说明1.(3)在分析两个变量的相关关系时,可依据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回来方程来估计和预料.2.非线性回来方程的求法(1)依据原始数据(x,y)作出散点图.(2)依据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回来方程.(4)在(3)的基础上通过相应变换,即可得非线性回来方程.见举例说明3.1.(2024·南宁二模)一汽车销售公司对开业4年来某种型号的汽车“五一”实惠金额与销售量之间的关系进行分析探讨并做了记录,得到如下资料.日期第1年第2年第3年第4年实惠金额x(千元)10111312销售量y(辆)22243127经过统计分析(利用散点图)可知x,y线性相关.(1)用最小二乘法求出y关于x的线性回来方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^));(2)若第5年实惠金额为8.5千元,估计第5年的销售量y(辆)的值.参考公式:eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\i\su(i=1,n,)xi-\o(x,\s\up6(-))2)=eq\f(\i\su(i=1,n,x)iyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\i\su(i=1,n,x)\o\al(2,i)-n\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).解(1)由题意,得eq\o(x,\s\up6(-))=11.5,eq\o(y,\s\up6(-))=26,eq\i\su(i=1,4,x)iyi=1211,eq\i\su(i=1,4,x)eq\o\al(2,i)=534,∴eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,4,x)iyi-4\o(x,\s\up6(-))\o(y,\s\up6(-)),\i\su(i=1,4,x)\o\al(2,i)-4\o(x,\s\up6(-))2)=eq\f(1211-4×11.5×26,534-4×11.52)=eq\f(15,5)=3,则eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-))=26-3×11.5=-8.5.∴eq\o(y,\s\up6(^))=3x-8.5.(2)当x=8.5时,eq\o(y,\s\up6(^))=17,∴第5年实惠金额为8.5千元时,销售量估计为17辆.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx+a,②y=cedx拟合,得到回来方程分别为eq\o(y,\s\up6(^))(1)=0.24x-8.81,eq\o(y,\s\up6(^))(2)=1.70e0.022x,作残差分析,如下表:身高x(cm)60708090100110体重y(kg)6810141518eq\o(e,\s\up6(^))(1)0.410.011.21-0.190.41eq\o(e,\s\up6(^))(2)-0.360.070.121.69-0.34-1.12(1)求表中空格内的值;(2)依据残差比较模型①②的拟合效果,确定选择哪个模型;(3)若残差大于1kg的样本点被认为是异样数据,应剔除,剔除后对(2)所选择的模型重新建立回来方程.(结果保留到小数点后两位)附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回来直线eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))的斜率和截距的最小二乘估计分别为eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xi-\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).解(1)依据残差分析,把x=80代入eq\o(y,\s\up6(^))(1)=0.24x-8.81中,得eq\o(y,\s\up6(^))(1)=10.39.∵10-10.39=-0.39,∴表中空格内的值为-0.39.(2)模型①残差的肯定值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,模型②残差的肯定值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1kg的样本点被剔除后,剩余的数据如下表:身高x(cm)607080100110体重y(kg)68101518eq\o(e,\s\up6(^))(1)0.410.01-0.39-0.190.41由公式eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xi-\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)),得回来方程为eq\o(y,\s\up6(^))=0.24x-8.76.题型三独立性检验1.假设有两个分类变量X和Y的2×2列联表如下:YXy1y2总计x1a10a+10x2c30c+30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为()A.a=45,c=15 B.a=40,c=20C.a=35,c=25 D.a=30,c=30答案A解析依据2×2列联表与独立性检验可知,当eq\f(a,a+10)与eq\f(c,c+30)相差越大时,X与Y有关系的可能性越大,即a,c相差越大,eq\f(a,a+10)与eq\f(c,c+30)相差越大.故选A.2.(2024·南昌三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对成果作了数据分析(满分100分),成果为85分以上的同学称为“地理之星”,得到了如下列联表:地理之星非地理之星合计男生7女生合计假如从全班45人中随意抽取1人,抽到“地理之星”的概率为eq\f(1,3).(1)完成“地理之星”与性别的2×2列联表,并回答是否有90%以上的把握认为获得“地理之星”与“性别”有关?(2)若已知此次考试中获得“地理之星”的同学的成果平均值为90,方差为7.2,请你推断这些同学中是否有得到满分的同学,并说明理由.(得分均为整数分)参考公式:K2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.临界值表:P(K2≥k0)0.100.050.0100.0050.001k02.7063.8416.6357.87910.828解(1)依据题意知“地理之星”总人数为45×eq\f(1,3)=15,填写列联表如下:地理之星非地理之星合计男生7815女生82230合计153045依据表中数据,计算K2=eq\f(45×7×22-8×82,15×30×15×30)=1.8<2.706,所以没有90%的把握认为获得“地理之星”与性别有关.(2)没有得满分的同学,记各个分值由高到低分别为x1,x2,…,x15;①若有2个以上的满分,则s2=eq\f(1,15)×[(100-90)2+(100-90)2+…+(x15-90)2]>eq\f(40,3)>7.2,不符合题意.②若恰有1个满分,为使方差最小,则其他分值需集中分布在平均数90的旁边,且为保证平均值为90,则有10个得分为89,其余4个得分为90,此时方差取得最小值,∴seq\o\al(2,min)=eq\f(1,15)×[(100-90)2+4×(90-90)2+10×(89-90)2]=eq\f(22,3)>7.2,与题意方差为7.2不符合,所以这些同学中没有得满分的同学.独立性检验的一般步骤(1)依据样本数据列出2×2列联表;(2)计算随机变量K2的观测值k,查表确定临界值k0;(3)假如k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.学生会为了调查学生对2024年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注关注总计男生301545女生451055总计7525100依据表中数据,通过计算统计量K2=eq\f(nad-bc2,a+bc+da+cb+d),并参考以下临界数据:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828若由此认为“学生对2024年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过()A.0.10 B.0.05C.0.025 D.0.01答案A解析由题意可得K2=eq\f(100×30×10-15×452,45×55×75×25)≈3.030>2.706,由此认为“学生对2024年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2.(2024·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,其次组工人用其次种生产方式.依据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)依据茎叶图推断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式其次种生产方式(3)依据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=eq\f(nad-bc2,a+bc+da+cb+d),P(K2≥k0)0.0500.0100.001k03.8416.63510.828解(1)其次种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用其次种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此其次种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用其次种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此其次种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用其次种生产方式的工人完成生产任务平均所需时间低于80分钟,因此其次种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用其次种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用其次种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此其次种生产方式的效率更高.(以上给出了4种理由,考生答出其中随意一种或其他合理理由均可)(2)由茎叶图知m=eq\f(79+81,2)=80.列联表如下:超过m不超过m第一种生产方式155其次种生产方式515(3)由于K2的观测值k=eq\f(40×15×15-5×52,20×20×20×20)=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.组基础关1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1 D.r2=r1答案C解析对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.2.某人探讨中学生的性别与成果、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1成果性别不及格及格总计男61420女102232总计163652表2视力性别好差总计男41620女122032总计163652表3智商性别偏高正常总计男81220女82432总计163652表4阅读量性别丰富不丰富总计男14620女23032总计163652A.成果 B.视力C.智商 D.阅读量答案D解析Keq\o\al(2,1)=eq\f(52×6×22-10×142,16×36×20×32),令eq\f(52,16×36×20×32)=m,则Keq\o\al(2,1)=82m,同理,Keq\o\al(2,2)=m×(4×20-12×16)2=1122m,Keq\o\al(2,3)=m×(8×24-8×12)2=962m,Keq\o\al(2,4)=m×(14×30-6×2)2=4082m,∴Keq\o\al(2,4)>Keq\o\al(2,2)>Keq\o\al(2,3)>Keq\o\al(2,1),则与性别有关联的可能性最大的变量是阅读量.故选D.3.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若全部样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-eq\f(1,3)旁边波动.经计算eq\o(∑,\s\up6(6),\s\do4(i=1))xi=11,eq\o(∑,\s\up6(6),\s\do4(i=1))yi=13,eq\o(∑,\s\up6(6),\s\do4(i=1))xeq\o\al(2,i)=21,则实数b的值为________.答案eq\f(5,7)解析令t=x2,则曲线的回来方程变为线性的回来方程,即y=bt-eq\f(1,3),此时eq\x\to(t)=eq\f(\o(∑,\s\up6(6),\s\do4(i=1))x\o\al(2,i),6)=eq\f(7,2),eq\o(y,\s\up6(-))=eq\f(\o(∑,\s\up6(6),\s\do4(i=1))yi,6)=eq\f(13,6),代入y=bt-eq\f(1,3),得eq\f(13,6)=b×eq\f(7,2)-eq\f(1,3),解得b=eq\f(5,7).4.针对时下的“韩剧热”,某校团委对“学生性别和喜爱韩剧是否有关”作了一次调查,其中女生人数是男生人数的eq\f(1,2),男生喜爱韩剧的人数占男生人数的eq\f(1,6),女生喜爱韩剧的人数占女生人数的eq\f(2,3).若有95%的把握认为是否喜爱韩剧和性别有关,则男生至少有________人.P(K2≥k0)0.0500.0100.001k03.8416.63510.828答案12解析设男生人数为x,由题意可得列联表如下:喜爱韩剧不喜爱韩剧总计男生eq\f(x,6)eq\f(5x,6)x女生eq\f(x,3)eq\f(x,6)eq\f(x,2)总计eq\f(x,2)xeq\f(3x,2)若有95%的把握认为是否喜爱韩剧和性别有关,则k>3.841,即k=eq\f(\f(3x,2)\b\lc\(\rc\)(\a\vs4\al\co1(\f(x,6)·\f(x,6)-\f(5x,6)·\f(x,3)))2,x·\f(x,2)·\f(x,2)·x)=eq\f(3x,8)>3.841,解得x>10.243.因为eq\f(x,6),eq\f(x,2)为整数,所以若有95%的把握认为是否喜爱韩剧和性别有关,则男生至少有12人.5.(2024·全国卷Ⅱ)下图是某地区2000年至2024年环境基础设施投资额y(单位:亿元)的折线图.为了预料该地区2024年的环境基础设施投资额,建立了y与时间变量t的两个线性回来模型.依据2000年至2024年的数据(时间变量t的值依次为1,2,…,17)建立模型①:eq\o(y,\s\up6(^))=-30.4+13.5t;依据2010年至2024年的数据(时间变量t的值依次为1,2,…,7)建立模型②:eq\o(y,\s\up6(^))=99+17.5t.(1)分别利用这两个模型,求该地区2024年的环境基础设施投资额的预料值;(2)你认为用哪个模型得到的预料值更牢靠?并说明理由.解(1)利用模型①,该地区2024年的环境基础设施投资额的预料值为eq\o(y,\s\up6(^))=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2024年的环境基础设施投资额的预料值为eq\o(y,\s\up6(^))=99+17.5×9=256.5(亿元).(2)利用模型②得到的预料值更牢靠.理由如下:(ⅰ)从折线图可以看出,2000年至2024年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2024年的数据建立的线性模型①不能很好地描述环境基础设施投资额的改变趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2024年的数据对应的点位于一条直线的旁边,这说明从2010年起先环境基础设施投资额的改变规律呈线性增长趋势,利用2010年至2024年的数据建立的线性模型eq\o(y,\s\up6(^))=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的改变趋势,因此利用模型②得到的预料值更牢靠.(ⅱ)从计算结果看,相对于2024年的环境基础设施投资额220亿元,由模型①得到的预料值226.1亿元的增幅明显偏低,而利用模型②得到的预料值的增幅比较合理,说明利用模型②得到的预料值更牢靠.(以上给出了2种理由,考生答出其中随意一种或其他合理理由均可)组实力关1.某职称晋级评定机构对参与某次专业技术考试的100人的成果进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级胜利,否则晋级失败(满分为100分).(1)求图中a的值;(2)估计该次考试的平均分eq\o(x,\s\up6(-))(同一组中的数据用该组的区间中点值代表);(3)依据已知条件完成下面的2×2列联表,并推断能否有85%的把握认为“晋级胜利”与性别有关.晋级胜利晋级失败合计男16女50合计参考公式:P(K

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论