艺考生专题讲义40 线性回归和独立性检验_第1页
艺考生专题讲义40 线性回归和独立性检验_第2页
艺考生专题讲义40 线性回归和独立性检验_第3页
艺考生专题讲义40 线性回归和独立性检验_第4页
艺考生专题讲义40 线性回归和独立性检验_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

考点40线性关系和独立性检验知识梳理一.线性关系1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数.的计算公式.注意:回归方程必过样本中心,这也是做小题的依据和检验所求回归方程是否正确。(3)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.二.独立性检验(1)2×2列联表设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d(2)独立性检验利用随机变量K2(也可表示为χ2)的观测值(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.精讲精练题型一一次线性关系【例1-1】(2024·山东高三专题练习)某工厂的每月各项开支与毛利润(单位:万元)之间有如下关系,与的线性回归方程,则()245683040605070A.17.5 B.17 C.15 D.15.5【答案】A【解析】由题意,根据表中的数据,可得,,即样本中心为,代入与的线性回归方程为,解得.故选:A.【例1-2】(2024·全国高三专题练习)西尼罗河病毒(WNV)是一种脑炎病毒,WNV通常是由鸟类携带,经蚊子传播给人类.1999年8-10月,美国纽约首次爆发了WNV脑炎流行.在治疗上目前尚未有什么特效药可用,感染者需要采取输液及呼吸系统支持性疗法,有研究表明,大剂量的利巴韦林含片可抑制WNV的复制,抑制其对细胞的致病作用.现某药企加大了利巴韦林含片的生产,为了提高生产效率,该药企负责人收集了5组实验数据,得到利巴韦林的投入量x(千克)和利巴韦林含片产量y(百盒)的统计数据如下:投入量x(千克)12345产量y(百盒)1620232526由相关系数可以反映两个变量相关性的强弱,,认为变量相关性很强;,认为变量相关性一般;,认为变量相关性较弱.(1)计算相关系数r,并判断变量x、y相关性强弱;(2)根据上表中的数据,建立y关于x的线性回归方程;为了使某组利巴韦林含片产量达到150百盒,估计该组应投入多少利巴韦林?参考数据:.参考公式:相关系数,线性回归方程中,,.【答案】(1),x与y具有很强的相关性;(2)54.2千克.【解析】(1),,,,,则所以x与y具有很强的相关性.(2)由(1)得,,,所以y关于x的线性回归方程为.当(百盒)时,(千克)故要使某组利巴韦林含片产量达到150百盒,估计该组应投入54.2千克利巴韦林.【举一反三】1.(2024·全国高三专题练习)某工厂某产品产量(千件)与单位成本(元)满足回归直线方程,则以下说法中正确的是()A.产量每增加件,单位成本约下降元 B.产量每减少件,单位成本约下降元C.当产量为千件时,单位成本为元 D.当产量为千件时,单位成本为元【答案】A【解析】令,因为,所以产量每增加件,单位成本约下降元.2.(2024·安徽省六安中学高三开学考试)“关注夕阳、爱老敬老”—某马拉松协会从年开始每年向敬老院捐赠物资和现金.下表记录了第年(年是第一年)与捐赠的现金(万元)的对应数据,由此表中的数据得到了关于的线性回归方程,则预测年捐赠的现金大约是()A.万元 B.万元 C.万元 D.万元【答案】C【解析】由已知得,,所以样本点的中心点的坐标为,代入,得,即,所以,取,得,预测2019年捐赠的现金大约是万元.3.(2024·全国高三专题练习)基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验、某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:月份月份代码市场占有率()(1)请在给出的坐标纸中作出散点图,并用相关系数说明可用线性回归模型拟合月度市场占有率与月份代码之间的关系;(2)求关于的线性回归方程,并预测该公司年月份的市场占有率;(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本分别为元/辆和元/辆的、两款车型报废年限各不相同,考虑到公司的经济效益,该公司决定先对两款单车各辆进行科学模拟测试,得到两款单车使用寿命频数表如下:报废年限车型年年年年总计经测算,平均每辆单车每年可以为公司带来收入元.不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每辆单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据、如果你是该公司的负责人,你会选择采购哪款车型?参考数据:,,参考公式:相关系数;回归直线方程为,其中,【答案】(1)散点图见解析,可用线性回归模型拟合两变量之间的关系;(2),;(3)应选择款车型.【解析】(1)散点图如图所示,,∴,∴,∴两变量之间具有较强的线性相关关系,故可用线性回归模型拟合两变量之间的关系;(2),又,∴,∴回归直线方程为;∴年月的月份代码,∴,∴估计年月的市场占有率为;(3)用频率估计概率,款单车的利润的分布列为:∴(元),款单车的利润的分布列为:∴(元),以每辆单车产生利润的期望值为决策依据,故应选择款车型.4.(2024·全国高三专题练习)近年来,“双11”网购的观念逐渐深入人心.某人统计了近年某网站“双11”当天的交易额,,统计结果如下表:年份20152016201720182019年份代码x12345交易额y/百亿元912172126(1)请根据上表提供的数据,用相关系数说明与的线性相关程度,线性相关系数保留三位小数.(统计中用相关系数来衡量两个变量之间线性关系的强弱.若相应于变量的取值,变量的观测值为(),则两个变量的相关系数的计算公式为:.统计学认为,对于变量,如果,那么负相关很强;如果,那么正相关很强;如果或,那么相关性一般;如果,那么相关性较弱);(2)求出关于x的线性回归方程,并预测年该网站“双11”当天的交易额.参考公式:,;参考数据:.【答案】(1)0.998;变量与的线性相关程度很强;(2);百亿元.【解析】(1)由题意,根据表格中的数据,可得:,,则,,所以所以变量与的线性相关程度很强.(2)由(1)可得,,,又由,所以,则,可得关于的线性回归方程为令,可得,即年该网站“双11”当天的交易额百亿元.题型二独立性检验【例2】(2024·江苏泰州市·高三期末)2024年是脱贫攻坚的收官之年,国务院扶贫办确定的贫困县全部脱贫摘帽,脱贫攻坚取得重大胜利,为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,西部某县新建了甲、乙两家玩具加工厂,加工同一型号的玩具质监部门随机抽检了两个厂的各100件玩具,在抽取中的200件玩具中,根据检测结果将它们分成“A”、“B”、“C”三个等级,A、B等级都是合格品,C等级是次品,统计结果如下表所示:等级ABC频数2012060(表一)厂家合格品次品合计甲75乙35合计(表二)在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由原厂家自行销.(1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有95%的把握认为产品的合格率与厂家有关?(2)每件玩具的生产成本为30元,A、B等级产品的出厂单价分别为60元、40元.另外已知每件次品的销毁费用为4元.若甲厂抽检的玩具中有10件为A等级,用样本的频率估计概率,试判断甲、乙两厂能否都能盈利,并说明理由.附:,其中.0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828【答案】(1)列联表答案见解析,没有95%的把握认为产品的合格率与厂家有关;(2)甲厂能盈利,乙不能盈利,理由见解析.【解析】(1)2×2列联表如下厂家合格品次品合计甲7525100乙6535100合计14060200,没有95%的把握认为产品的合格率与厂家有关.(2)甲厂10件A等级,65件B等级,25件次品,对于甲厂,单件产品利润X的可能取值为30,10,.X的分布列如下:X3010P,甲厂能盈利,对于乙厂有10件A等级,55件B等级,35件次品,对于乙厂,单位产品利润Y的可能取值为30,10,,Y分布列如下:Y3010P,乙不能盈利.【举一反三】1.(2024·山东高三专题练习)共享单车进驻城市,绿色出行引领时尚.某市有统计数据显示,2024年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示.若将共享单车用户按照年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”.已知在“经常使用单车用户”中有是“年轻人”.(1)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列列联表,并根据列联表的独立性检验,判断是否有85%的把握认为经常使用共享单车与年龄有关?年轻人非年轻人合计经常使用单车用户120不常使用单车用户80合计16040200使用共享单车情况与年龄列联表(2)将(1)中频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量,求的分布列与期望.参考数据:独立性检验界值表0.150.100.0500.0250.0102.0722.7063.8415.0246.635其中,,【答案】(1)列联表见解析,有的把握可以认为经常使用共享单车与年龄有关;(2)分布列见解析,数学期望为.【解析】(1)补全的列联表如下:年轻人非年轻人合计经常使用共享单车10020120不常使用共享单车602080合计16040200于是,,,,∴,即有的把握可以认为经常使用共享单车与年龄有关.(2)由(1)的列联表可知,经常使用共享单车的“非年轻人”占样本总数的频率为,即在抽取的用户中出现经常使用单车的“非年轻人”的概率为0.1,∵,∴,,,∴的分布列为01230.7290.2430.0270.001.∴的数学期望.【举一反三】1.(2024·全国高三专题练习)某工厂为了提高生产效率,对生产设备进行了技术改造,为了对比技术改造后的效果,采集了技术改造前后各20次连续正常运行的时间长度(单位:天)数据,整理如下:改造前:19,31,22,26,34,15,22,25,40,35,18,16,28,23,34,15,26,20,24,21改造后:32,29,41,18,26,33,42,34,37,39,33,22,42,35,43,27,41,37,38,36(1)完成下面的列联表,并判断能否有99%的把握认为技术改造前后的连续正常运行时间有差异?超过30不超过30改造前改造后(2)工厂的生产设备的运行需要进行维护,工厂对生产设备的生产维护费用包括正常维护费,保障维护费两种.对生产设备设定维护周期为T天(即从开工运行到第kT天,k∈N*)进行维护.生产设备在一个生产周期内设置几个维护周期,每个维护周期相互独立.在一个维护周期内,若生产设备能连续运行,则只产生一次正常维护费,而不会产生保障维护费;若生产设备不能连续运行,则除产生一次正常维护费外,还产生保障维护费.经测算,正常维护费为0.5万元/次;保障维护费第一次为0.2万元/周期,此后每增加一次则保障维护费增加0.2万元.现制定生产设备一个生产周期(以120天计)内的维护方案:T=30,k=1,2,3,4.以生产设备在技术改造后一个维护周期内能连续正常运行的频率作为概率,求一个生产周期内生产维护费的分布列及均值.附:P(K2≥k)0.0500.0100.001k3.8416.63510.828【答案】(1)见解析,有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)见解析;均值为2.275万元.【解析】(1)列联表为:超过30不超过30改造前515改造后155有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)由题知,生产周期内有4个维护周期,一个维护周期为30天,一个维护周期内,生产线需保障维护的概率为.设一个生产周期内需保障维护的次数为,则;一个生产周期内的正常维护费为万元,保障维护费为万元.一个生产周期内需保障维护次时的生产维护费为万元.设一个生产周期内的生产维护费为X,则X的所有可能取值为2,2.2,2.6,3.2,4.所以,的分布列为22.22.63.24一个生产周期内生产维护费的均值为2.275万元.2.(2024·四川成都市·高三一模)一网络公司为某贫困山区培养了名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这名“乡土直播员”中每天直播时间不少于小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面列联表:网红乡土直播员乡土直播达人合计男104050女203050合计3070100(1)根据列联表判断是否有的把握认为“网红乡土直播员”与性别有关系?(2)在“网红乡土直播员”中按分层抽样的方法抽取人,在这人中选人作为“乡土直播推广大使”.设被选中的名“乡土直播推广大使”中男性人数为,求的分布列和期望.附:,其中.【答案】(1)有的把握认为“网红乡土直播员”与性别有关系;(2)分布列见解析;期望为.【解析】(1)由题中列联表,可得.∴有的把握认为“网红乡土直播员”与性别有关系.(2)在“网红乡土直播员”中按分层抽样的方法抽取6人,男性人数为人;女性人数为人.由题,随机变量所有可能的取值为,,.,,,∴的分布列为012∴的数学期望.题型三非一次性回归方程【例3-1】(2024·全国高三专题练习)在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是()A. B.C. D.()【答案】B【解析】散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.【例3-2】.(2024·全国高三专题练习)根据公安部交管局下发的通知,自2024年6月1日起,将在全国开展“一盔一带”安全守护行动,其中就要求骑行摩托车、电动车需要佩戴头盔,为的就是让大家重视交通安全.某地交警部门根据某十字路口的监测数据,从穿越该路口的骑行者中随机抽查了200人,得到如图所示的列联表:戴头盔不带头盔合计男性3090120女性107080合计40160200(1)是否有97.5%的把握认为自觉带头盔行为与性别有关?(2)通过一定的宣传和相关处罚措施出台后,交警在一段时间内通过对某路口不带头盔的骑行者统计,得到上面的散点图和如下数据:天数123456人数1106044343028观察散点图,发现两个变量不具有线性相关关系,现考虑用函数对两个变量的关系进行拟合,通过分析得y与有一定的线性相关关系,并得到以下参考数据(其中):3.50.4112.250.1681911.492816173.8306请选择合适的参考数据,求出y关于x的回归方程.参考公式:.0.0500.0250.0100.0050.001k3.8415.0246.6357.87910.828对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:,.【答案】(1)没有;(2).【解析】(1)由列联表计算.故没有的把握认为骑行者自觉带头盔行为与性别有关.(2)由,则可转化为,又,得,则.故y关于x的回归方程为【举一反三】1.(2024·河南周口市·高三月考)已知变量关于变量的回归方程为,其一组数据如下表所示:1234若,则()A.5 B.6 C.7 D.8【答案】B【解析】由,得,令,则,由题意,,,因为满足,所以,解得,所以,所以,令,解得.故选:B.2.(2024·全国高三专题练习)近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:表:根据以上数据,绘制了散点图.1234567611213466101196(1)根据散点图判断,在推广期内与(,均为大于零的常数)哪一个适宜作为扫码支付的人次关于活动推出天数的回归方程类型?(给出判断,不必说明理由);(2)根据(1)的判断结果及表中的数据,建立关于的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表:支付方式现金乘车卡扫码比例10%60%30%车队为缓解周边居民出行压力,以80万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有的概率享受7折优惠,有的概率享受8折优惠,有的概率享受9折优惠,预计该车队每辆车每个月有1万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要年才能开始盈利,求的值.参考数据:其中,参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.661.542.71150.123.47【答案】(1);(2),347;(3)7.【解析】(1)因为散点近似在指数型函数的图象上,所以适宜作为扫码支付的人数关于活动推出天数的回归方程类型:(2)∵,两边同时取常用对数得:;设,∴,∵,,,∴,把样本中心点代入,得:,∴,∴,∴关于的回归方程式:;把代入上式:∴;活动推出第8天使用扫码支付的人次为347;(3)记一名乘客乘车支付的费用为,则的取值可能为:2,1.8,1.6,1.4;;;;所以,一名乘客一次乘车的平均费用为:(元),由题意可知:,,所以,取7;估计这批车大概需要7年才能开始盈利.3.(2024·全国高三专题练习)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论