2021届高考数学教学案:第9章 第讲 变量间的相关关系与统计案例含解析_第1页
2021届高考数学教学案:第9章 第讲 变量间的相关关系与统计案例含解析_第2页
2021届高考数学教学案:第9章 第讲 变量间的相关关系与统计案例含解析_第3页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学必求其心得,业必贵于专精2021届高考数学人教版一轮创新教学案:第9章 第3讲变量间的相关关系与统计案例含解析第3讲变量间的相关关系与统计案例考纲解读1。会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程(重点)2了解独立性检验(只要求22列联表)的基本思想、方法及其初步应用考向预测从近三年高考情况来看,本讲是高考中的一个热点考查内容预测2021年将会考查:回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;独立性检验思想在实际问题中的应用试题以解答题的形式呈现,难度为中等此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1

2、。相关关系与回归方程(1)相关关系的分类正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线(3)回归方程最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),,(xn,yn),其回归方程为x,则, .其中,是回归方程的斜率,是在y轴上的截距,xi,yi,(,)称为样本点的中心说明:回归直

3、线x必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据(4)样本相关系数r,用它来衡量两个变量间的线性相关关系当r0时,表明两个变量正相关;当r0.75时,认为两个变量有很强的线性相关关系2残差分析(1)残差:对于样本点(x1,y1),(x2,y2),(xn,yn),它们的随机误差为eiyibxia,i1,2,,n,其估计值为iyiiyixi,i1,2,n,i称为相应于点(xi,yi)的残差(2)残差平方和为 (yii)2.(3)相关指数:r21。3独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列

4、出两个分类变量的频数表,称为列联表假设有两个分类变量x和y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为22列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量k2,其中nabcd为样本容量(3)独立性检验利用随机变量k2来判断“两个分类变量有关系”的方法称为独立性检验1概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值()(4)事件x,y关系越密切,则由观测数据计算得到的k2的观测

5、值越大()(5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99的可能物理优秀()答案(1)(2)(3)(4)(5)2小题热身(1)设回归方程为35x,则变量x增加一个单位时()ay平均增加3个单位 by平均减少5个单位cy平均增加5个单位 dy平均减少3个单位答案b解析因为5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位故选b。(2)在下列各图中,两个变量具有相关关系的图是()a b c d答案d解析为函数关系;显然成正相关;显然成负相关;没有明显相关性(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用

6、简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表非一线一线总计愿生452065不愿生132235总计5842100算得k29.616。附表:p(k2k0)0.0500。0100.001k03.8416.63510.828参照附表,得到的正确结论是()a在犯错误的概率不超过0.1的前提下,认为“生育意愿与城市级别有关”b在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”c有99%以上的把握认为“生育意愿与城市级别有关”d有99以上的把握认为“生育意愿与城市级别无关”答案c解析因为k29。6166.635,所以有99%以上的把握认为“生育意愿与城市级别有关”(4)已知变

7、量x,y具有线性相关关系,它们之间的一组数据如下表所示,若y关于x的回归方程为1。3x1,则m_.x1234y0。11.8m4答案3。1解析由已知得(1234)2.5,(0.11.8m4)(5。9m)因为(,)在直线1.3x1上,所以1。32.512。25,所以(5.9m)2.25,解得m3。1。题型一相关关系的判断1下列两变量中不存在相关关系的是()人的身高与视力;曲线上的点与该点的坐标之间的关系;某农田的水稻产量与施肥量;某同学考试成绩与复习时间的投入量;匀速行驶的汽车的行驶距离与时间;商品的销售额与广告费a b c d答案a解析根据相关关系的定义知,中两个变量不存在相关关系2下列命题中正

8、确的为()a线性相关系数r越大,两个变量的线性相关性越强b线性相关系数r越小,两个变量的线性相关性越弱c残差平方和越小的模型,模型拟合的效果越好d用相关指数r2来刻画回归效果,r2越小,说明模型的拟合效果越好答案c解析线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故a,b错误;残差平方和越小,相关指数r2越大,越接近于1,拟合效果越好,故c正确,d错误3对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()ar2r40r3r1 br4r20r1r3cr4r20r3r1 dr2r400时,正相关;r0时,负相关r|越趋近于1相关性越强见举例说明3.(3)线性回

9、归直线方程中:0时,正相关;0时,负相关2判断拟合效果的两个方法(1)残差平方和越小,拟合效果越好见举例说明2。(2)相关指数r2越大,越接近于1,拟合效果越好 1在一组样本数据(x1,y1),(x2,y2),,(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为()a1 b0 c. d1答案d解析所有点均在直线上,则样本相关系数最大即为1,故选d。2四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:y与x负相关且2。347x6。423;y与x负相关

10、且3。476x5。648;y与x正相关且5。437x8。493;y与x正相关且4。326x4.578.其中一定不正确的结论的序号是()a b c d答案d解析由回归方程x知当0时,y与x正相关,当0时,y与x负相关,一定错误题型二回归分析角度1线性回归方程及应用1某汽车的使用年数x与所支出的维修总费用y的统计数据如表:使用年数x/年12345维修总费用y/万元0。51.22.23.34.5根据上表可得y关于x的线性回归方程x0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)()a8年 b9年 c10年 d11年答案d解析由y关于x的

11、线性回归直线x0.69过样本点的中心(3,2。34),得1.01,即线性回归方程为1。01x0。69,令1.01x0。6910,得x10.6,所以预测该汽车最多可使用11年故选d.2(2019东北三省三校三模)现代社会,“鼠标手已成为常见病一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(semg)等指标(1)10名实验对象实验前、后握力(单位:n)测试结果如下:实验前:346,357,358,360,362,362,364,372,373,376。实

12、验后:313,321,322,324,330,332,334,343,350,361。完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少n?(2)实验过程中测得时间t(分)与10名实验对象前臂表面肌电频率(semg)的中位数y(hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75)建立y 关于时间t的线性回归方程;(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?参考数据: (ti)(yi)1

13、800;参考公式:回归方程 t中斜率和截距的最小二乘估计公式分别为:, 解(1)根据题意得到茎叶图如下图所示:由图中数据可得1(346357358360362362364372373376)363,2(313321322324330332334343350361)333,1236333330(n),故实验前后握力的平均值下降了30 n。(2)由题意得(020406080100120140160)80,(878486797878767775)80, (ti)2(080)2(2080)2(4080)2(6080)2(8080)2(10080)2(12080)2(14080)2(16080)2240

14、00,又 (ti)(yi)1800,0.075,80(0。075)8086,y关于时间t的线性回归方程为0.075t86。(3)九组数据中40分钟到60分钟y的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了角度2非线性回归模型的应用3(2019莆田二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量xi(单位:亿元)对年销售额yi(单位:亿元)的影响该公司对历史数据进行对比分析,建立了两个函数模型:yx2,yext,其中,,t均为常数,e为自然对数的底数现该公司收集了近12年的年研发资金投入量xi和年销售额yi的数据,i1,2,,12,并对这些数据

15、作了初步处理,得到了如下的散点图及一些统计量的值令uix2,viln yi(i1,2,12),经计算得如下数据:(xi)2(yi)220667702004604。20(ui)2(ui)(yi)(vi)2(xi)(vi)3125000215000。30814(1)设ui和yi的相关系数为r1,xi和vi的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0。01);若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元?附:相关系数r,回归直线x中斜率和截距的最小二乘估计公式分别为, ;参考数据:3

16、08477,9。4868,e4.499890。解(1)由题意,r10。86,r20。91,则|r1|r2|,因此从相关系数的角度,模型yext的拟合程度更好(2)先建立v关于x的线性回归方程,由yext,得ln ytx,即vtx;由于0.018,t4.200.018203.84,所以v关于x的线性回归方程为0.02x3。84,所以ln 0。02x3.84,则e0。02x3。84.下一年销售额y需达到90亿元,即y90,代入e0.02x3.84,得90e0。02x3.84,又e4.499890,所以4.49980。02x3。84,所以x32.99,所以预测下一年的研发资金投入量约是32。99亿元

17、1利用线性回归方程时的关注点(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键(2)回归直线方程x必过样本点中心(,)见举例说明1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测2非线性回归方程的求法(1)根据原始数据(x,y)作出散点图(2)根据散点图选择恰当的拟合函数(3)作恰当的变换,将其转化成线性函数,求线性回归方程(4)在(3)的基础上通过相应变换,即可得非线性回归方程见举例说明3. 1(2019南宁二模)一汽车销售公司对开业4年来某种型号的汽车“五一”优惠金额与销售量之间的

18、关系进行分析研究并做了记录,得到如下资料日期第1年第2年第3年第4年优惠金额x(千元)10111312销售量y(辆)22243127经过统计分析(利用散点图)可知x,y线性相关(1)用最小二乘法求出y关于x的线性回归方程x;(2)若第5年优惠金额为8.5千元,估计第5年的销售量y(辆)的值参考公式:, .解(1)由题意,得11。5,26,iyi1211,534,3,则 26311.58.5。3x8。5.(2)当x8.5时,17,第5年优惠金额为8。5千元时,销售量估计为17辆2对某地区儿童的身高与体重的一组数据,我们用两种模型ybxa,ycedx拟合,得到回归方程分别为(1)0。24x8。81

19、,(2)1。70e0.022x,作残差分析,如下表:身高x(cm)60708090100110体重y(kg)6810141518(1)0。410。011.210.190.41(2)0。360。070.121.690。341.12(1)求表中空格内的值;(2)根据残差比较模型的拟合效果,决定选择哪个模型;(3)若残差大于1 kg的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程(结果保留到小数点后两位)附:对于一组数据(x1,y1),(x2,y2),(xn,yn),其回归直线x的斜率和截距的最小二乘估计分别为, 。解(1)根据残差分析,把x80代入(1)0。24x8。8

20、1中,得(1)10.39.1010.390。39,表中空格内的值为0.39.(2)模型残差的绝对值的和为0。410。010。391.210。190。412.62,模型残差的绝对值的和为0.360.070。121。690。341.123.7.2.627.2,不符合题意若恰有1个满分,为使方差最小,则其他分值需集中分布在平均数90的附近,且为保证平均值为90,则有10个得分为89,其余4个得分为90,此时方差取得最小值,s(10090)24(9090)210(8990)27.2,与题意方差为7.2不符合,所以这些同学中没有得满分的同学独立性检验的一般步骤(1)根据样本数据列出22列联表;(2)计算

21、随机变量k2的观测值k,查表确定临界值k0;(3)如果kk0,就推断“x与y有关系”,这种推断犯错误的概率不超过p(k2k0);否则,就认为在犯错误的概率不超过p(k2k0)的前提下不能推断“x与y有关系” 1学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注关注总计男生301545女生451055总计7525100根据表中数据,通过计算统计量k2,并参考以下临界数据:p(k2k0)0.500。400。250。150.100.050.0250.0100。0050.001k00。4550。7081。3232。0722.7063。8415。024

22、6.6357。87910。828若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关,则此结论出错的概率不超过()a0。10 b0.05 c0.025 d0.01答案a解析由题意可得k23.0302.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0。10.故选a。2(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)

23、根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:k2,p(k2k0)0.0500。0100。001k03。8416.63510。828解(1)第二种生产方式的效率更高理由如下:由茎叶图可知:用第一种生产方式的工人中,有75的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75的工人完成生产任务所需时间至多79分钟因此第二种生产方式的效率更高

24、由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85。5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73。5分钟因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产

25、方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知m80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于k2的观测值k106。635,所以有99%的把握认为两种生产方式的效率有差异组基础关1变量x与y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12。5,4),(13,5);变量u与v相对应的一组数据为(10,5),(11.3,4),(11。8,3),(12。5,2),(13,1)r1表示变量y与x之间的线性相关系

26、数,r2表示变量v与u之间的线性相关系数,则()ar2r10 b0r2r1cr200;对于变量v与u而言,v随u的增大而减小,故v与u负相关,即r20,故选c.2某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1成绩性别不及格及格总计男61420女102232总计163652表2视力性别好差总计男41620女122032总计163652表3智商性别偏高正常总计男81220女82432总计163652表4阅读量性别丰富不丰富总计男14620女23032总计163652a成绩 b视力 c智商

27、d阅读量答案d解析k,令m,则k82m,同理,km(4201216)21122m,km(824812)2962m,km(143062)24082m,kkkk,则与性别有关联的可能性最大的变量是阅读量故选d.3在一组样本数据(x1,y1),(x2,y2),(x6,y6)的散点图中,若所有样本点(xi,yi)(i1,2,,6)都在曲线ybx2附近波动经计算xi11,yi13,x21,则实数b的值为_答案解析令tx2,则曲线的回归方程变为线性的回归方程,即ybt,此时,,代入ybt,得b,解得b。4针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,

28、男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的。若有95的把握认为是否喜欢韩剧和性别有关,则男生至少有_人p(k2k0)0。0500.0100。001k03.8416.63510.828答案12解析设男生人数为x,由题意可得列联表如下:喜欢韩剧不喜欢韩剧总计男生x女生总计x若有95%的把握认为是否喜欢韩剧和性别有关,则k3.841,即k3.841,解得x10.243.因为,为整数,所以若有95的把握认为是否喜欢韩剧和性别有关,则男生至少有12人5(2018全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投

29、资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,,7)建立模型:9917。5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.519226。1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为9917。59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:()

30、从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917。5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的

31、预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)组能力关1某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分)(1)求图中a的值;(2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面的22列联表,并判断能否有85%的把握认为“晋级成功与性别有关晋级成功晋级失败合计男16女50合计参考公式:p(k2k0)0。400.250.150。100。05

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论