




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题11-1直方图、回归方程(线性与非线性)目录TOC\o"1-1"\h\u【题型一】直方图 1【题型二】柱状图 3【题型三】相关系数判断 5【题型四】线性回归 6【题型五】非线性回归1:型 9【题型六】非线性回归2:型 11【题型七】非线性回归3:型 13【题型八】非线性回归4:型 15【题型九】非线性回归5:型 18【题型十】残差拟合判断 20【题型十】数据丢失或剔除型 22真题再现 25模拟检测 31【题型一】直方图【典例分析】近年来,“直播带货”受到越来越多人的喜爱,目前已经成为推动消费的一种流行的营销形式.某直播平台800个直播商家,对其进行调查统计,发现所售商品多为小吃、衣帽、生鲜、玩具、饰品类等,各类直播商家所占比例如图1所示.(1)该直播平台为了更好地服务买卖双方,打算随机抽取40个直播商家进行问询交流.如果按照分层抽样的方式抽取,则应抽取小吃类、玩具类商家各多少家?(2)在问询了解直播商家的利润状况时,工作人员对抽取的40个商家的平均日利润进行了统计(单位:元),所得频率分布直方图如图2所示.请根据频率分布直方图计算下面的问题;(ⅰ)估计该直播平台商家平均日利润的中位数与平均数(结果保留一位小数,求平均数时同一组中的数据用该组区间的中点値作代表);(ⅱ)若将平均日利润超过420元的商家成为“优秀商家”,估计该直播平台“优秀商家”的个数.【答案】(1)小吃类16家,玩具类4家;(2)(i)中位数为342.9,平均数为352.5;(2)128.【分析】(1)根据分层抽样的定义计算即可;(2)(i)根据中位数和平均数的定义计算即可;(ii)根据样本中“优秀商家”的个数来估计总体中“优秀商家”的个数即可.【详解】(1),,所以应抽取小吃类16家,玩具类4家.(2)(i)根据题意可得,解得,设中位数为,因为,,所以,解得,平均数为,所以该直播平台商家平均日利润的中位数为342.9,平均数为352.5.(ii),所以估计该直播平台“优秀商家”的个数为128.【变式演练】随着人民生活水平的不断提高,“衣食住行”愈发被人们所重视,其中对饮食的要求也愈来愈高.某地区为了解当地餐饮情况,随机抽取了100人对该地区的餐饮情况进行了问卷调查.请根据下面尚未完成并有局部污损的频率分布表和频率分布直方图(如图),解决下列问题.组别分组频数频率第1组140.14第2组m第3组360.36第4组0.16第5组4n合计(1)求m,n,x,y的值;(2)求中位数;(3)用分层抽样的方式从第四、第五组抽取5人,再从这5人中随机抽取2人参加某项美食体验活动,求抽到的2人均来自第四组的概率.贵州省2023届高三333高考备考诊断性联考(一)数学(文)试题【答案】(1)(2)(3)【分析】(1)根据频率分布表可求得,根据频率分布直方图中的含义即可求得其值;(2)根据频率分布直方图,利用中位数的估计方法,可计算得答案;(3)用分层抽样的方式从第四、第五组抽取5人,确定每组中的人数,列举从这5人中随机抽取2人参加某项美食体验活动的所有基本事件,列举出抽到的2人均来自第四组的基本事件,根据古典概型的概率公式,即可求得答案.【详解】(1)由题意可知,第四组的人数为,故,;
又内的频率为,∴;∵内的频率为,∴.(2)由频率分布直方图可知第一、二组频率之和为,前三组频率之和为,故中位数为:.(3)由题意可知,第4组共有16人,第5组共有4人,用分层抽样的方式从第四、第五组抽取5人,则第四、第五组抽取人数为4人和1人,设第4组的4人分别为,第5组的1人分别为A,则从中任取2人,所有基本事件为:共10个,又抽到的2人均来自第四组的基本事件有∶共6个,故抽到的2人均来自第四组的的概率为.【题型二】柱状图【典例分析】.2014年12月28日开始,北京市公共汽车和地铁按照里程分段计价.具体如表所示.(不考虑公交卡折扣情况).已知在北京地铁四号线上,任意一站到陶然亭站的票价不超过5元,现从那些只乘坐四号线地铁,且在陶然亭站出站的乘客中随机选出120人,他们乘坐地铁的票价统计如图所示.乘公共汽车方案10公里(含)内2元;10公里以上部分,每增加1元可乘坐5公里(含).乘坐地铁方案(不含机场线)6公里(含)内3元;6公里至12公里(含)4元;12公里至22公里(含)5元;22公里至32公里(含)6元;32公里以上部分,每增加1元可乘坐20公里(含).(1)如果从那些只乘坐四号线地铁,且在陶然亭站出站的乘客中任选1人,试估计此人乘坐地铁的票价小于5元的概率;(2)已知选出的120人中有6名学生,且这6人乘坐地铁的票价情形恰好与按票价从这120人中分层抽样所选的结果相同,现从这6人中随机选出2人,求这2人的票价和恰好为8元的概率;(3)小李乘坐地铁从A地到陶然亭的票价是5元,返程时,小李乘坐某路公共汽车所花交通费也是5元,假设小李往返过程中乘坐地铁和公共汽车的路程均为S公里,试写出S的取值范围.(只需写出结论)【答案】(1)(2)(3)【分析】(1)直接计算频率估算概率得到答案.(2)根据分层抽样的比例关系得到人数,列举出所有情况,就计算概率即可.(3)分别计算公交车和地铁的路程,综合得到答案.【详解】(1)记事件A为“此人乘坐地铁的票价小于5元”,由统计图可知,得120人中票价为3元、4元、5元的人数分别为60,40,20(人),所以票价小于5元的有(人);故120人中票价小于5元的频率是,所以估计此人乘坐地铁的票价小于5元的概率;(2)记事件B为“这2人的票价和恰好为8元”,由统计图得,120人中票价为3元、4元、5元的人数比为,则6名学生中票价为3元、4元、5元的人数分别为3,2,1;记票价为3元的同学为a,b,c,票价为4元的同学为d,e,票价为5元的同学为f,从这6人中随机选出2人,所有可能的选出结果共有15种,它们是:;其中事件B的结果有4种,它们是:;所以这2人的票价和恰好为8元的概率为(3)乘公共电汽车方案的里程:10公里(含)内2元,10公里以上部分,每增加1元可乘坐5公里(含);,即;乘坐地铁的里程:12公里至22公里(含)5元,;综上,【变式演练】某市共有所高中,各校高一学生占全市高一学生总数的比例如下面柱状图教研部门采用分层抽样的方法从一中、四中、十七中这三所学校抽取人调研,又从这人中随机抽取名同学调查选课情况,其中选择物理学科的是、,地理学科是、、,化学学科是.(1)应从三所学校分别抽取多少人?(2)从这名同学中选出人进行测试,要求所选三人不能选择同一个学科,用所给字母列出所有可能的结果;在此条件下,设为事件“选出人中没有选择化学学科的同学”,求事件发生的概率.【答案】(1)应从一中、四中、十七中三所学校学生中分别抽取人、人、人;(2)所有可能结果见解析,.【分析】(1)利用分层抽样的方法可计算得出从一中、四中、十七中三所学校所抽取的学生人数;(2)列举出所有的基本事件,并确定事件所包含的基本事件,利用古典概型的概率公式可求得所求事件的概率.【详解】(1)由已知,一中、四中、十七中三所学校学生人数之比为,由于采取分层抽样的方法从中抽取人,因此应从一中、四中、十七中三所学校学生中分别抽取人、人、人;(2)依题意,从名同学选出名的所有可能的结果为:、、、、、、、、、、、、、、、、、、,共种.选出人中没有选择化学学科的同学的所有可能结果为:、、、、、、、、,共种,所以,事件发生的概率.【题型三】相关系数判断【典例分析】某沙漠地区经过治理,生态环境得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的个地块,从这些地块中用简单随机抽样的方法抽取个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得:,,,,.(1)求该地区这种野生动物数量的估计值;(2)求样本的相关系数(精确到);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.【答案】(1)(2)(3)分层抽样,理由见解析【分析】(1)计算出样区中这种野生动物的平均数,由此可计算得到该地区的估计值;(2)结合已知数据,根据相关系数公式可直接求得结果;(3)根据分层抽样适用的条件可确定结果.【详解】(1)由已知得:样区中,这种野生动物的平均数,该地区这种野生动物数量的估计值为.(2)相关系数.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对个地块进行分层抽样.理由:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量的差异也很大,采用分层抽样的方法能较好地保持样本结构与总体结构的一致性,提高样本的代表性,从而获得对该地区这种野生动物数量更准确的估计.【变式演练】新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第天的口罩销售量(百件),得到的数据如下:,,,,.(1)若用线性回归模型拟合y与x之间的关系,求该回归直线的方程;(2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,可能不够精确,于是尝试使用非线性模型(下面简称模型2)得到与之间的关系,且模型2的决定系数,在线性回归模型中决定系数可由相关系数的平方计算,试通过计算说明模型1,2中,哪一个模型的拟合效果更好.附:参考数据:参考公式:相关系数;对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,【答案】(1)(2)模型2的拟合性更好【分析】(1)根据回归直线的斜率和截距的最小二乘法的公式求得系数,,即可求得回归直线方程;(2)根据相关系数公式求得模型1的相关系数,即得决定系数,和模型2的决定系数比较,可得答案.(1)由题意知,,,由题意得,,,故所求回归直线的方程为;(2)模型1的相关系数,故模型2的拟合性更好.【题型四】线性回归【典例分析】已知某绿豆新品种发芽的适宜温度在6℃~22℃之间,一农学实验室研究人员为研究温度(℃)与绿豆新品种发芽数(颗)之间的关系,每组选取了成熟种子50颗,分别在对应的8℃~14℃的温度环境下进行实验,得到如下散点图:(1)由折线统计图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;(2)建立关于的回归方程,并预测在19℃的温度下,种子发芽的颗数.参考数据:,,,.参考公式:相关系数,回归直线方程中斜率和截距的最小二乘估计公式分别为,.【答案】(1)答案见解析;(2)44.【分析】(1)直接套公式求出系数r,即可判断;(2)套公式求出回归方程,把代入,即可求解.【详解】(1)由题意可知:..又,所以相关系数.因为相关系数,所以与的线性相关性较高,可以利用线性回归模型拟合与的关系.(2)由(1)知,,,.所以,所以.所以与的回归直线为.当时,.即在19℃的温度下,种子发芽的颗数为44.【变式演练】为了巩固脱贫成果,某农科所实地考察,研究发现某脱贫村适合种植两种经济作物,可以通过种植这两种经济作物巩固脱贫成果.通过大量考察研究得到如下统计数据:经济作物的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如下表:年份编号12345年份20172018201920202021单价元/公斤1820232529经济作物的收购价格始终为25元/公斤,其亩产量的频率分布直方图如图所示:(1)若经济作物的单价(单位:元/公斤)与年份编号之间具有线性相关关系,请求出关于的线性回归方程;(2)根据(1)中所求的线性回归方程,估计2022年经济作物的单价;(3)用频率分布直方图估计经济作物的平均亩产量(每组数据以区间的中点值为代表),若不考虑其他因素,试判断2022年该村应种植经济作物还是经济作物?并说明理由.参考公式:.参考数据:.【答案】(1)(2)元/公斤(3)应种植经济作物,理由见解析【分析】(1)根据公式,结合已知数据计算即可;(2)根据(1)计算当时的值即可得答案;(3)由题知,进而根据频率分布直方图估计平均数得,再计算其收入.【详解】(1)解:由表中数据知,,关于的线性回归方程为.(2)解:2022年对应的年份代号为6,当时,,故估计2022年经济作物的单价为元/公斤.(3)解:利用频率和为1得,,经济作物的亩产量的平均值为:,经济作物的收入为元,经济作物的收入为元,,故2022年该村应种植经济作物.【题型五】非线性回归1:型【典例分析】某企业为改进生产,现某产品及成本相关数据进行统计.现收集了该产品的成本费y(单位:万元/吨)及同批次产品生产数量x(单位:吨)的20组数据.现分别用两种模型①,②进行拟合,据收集到的数据,计算得到如下值:14.50.086650.04-4504表中,.若用刻画回归效果,得到模型①、②的值分别为,.(1)利用和比较模型①、②的拟合效果,应选择哪个模型?并说明理由;(2)根据(1)中所选择的模型,求y关于x的回归方程;并求同批次产品生产数量为25(吨)时y的预报值.附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.【答案】(1)选择模型②,理由见解析;(2)6.【分析】(1)根据已知,根据的意义,即可得出模型②的拟合效果好,选择模型②;(2)与可用线性回归来拟合,有,求出系数,得到回归方程,即可得到成本费与同批次产品生产数量的回归方程为,代入,即可求出结果.【详解】(1)应该选择模型②.由题意可知,,则模型②中样本数据的残差平方和比模型①中样本数据的残差平方和小,即模型②拟合效果好.(2)由已知,成本费与可用线性回归来拟合,有.由已知可得,,所以,则关于的线性回归方程为.成本费与同批次产品生产数量的回归方程为,当(吨)时,(万元/吨).所以,同批次产品生产数量为25(吨)时y的预报值为6万元/吨.【提分秘籍】基本规律形如型,可以通过设t=,转化为y=kt+b线性求解【变式演练】网民的智慧与活力催生新业态,网络购物,直播带货,APP买菜等进入我们的生活,改变了我们的生活方式,随之电信网络诈骗犯罪形势也非常严峻.自“国家反诈中心APP”推出后,某地区采取多措并举的推广方式,努力为人民群众构筑一道防诈反诈的“防火墙”.经统计,该地区网络诈骗月报案数与推广时间有关,并记录了经推广x个月后月报案件数y的数据.x(个)1234567y(件)891888351220200138112(1)根据以上数据,使用作为回归方程模型,求出y关于x的回归方程;(2)分析该地区一直推广下去,两年后能否将网络诈骗月报案数降至75件以下.参考数据(其中,,,,.参考公式:对于一组数据,,,…,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.【答案】(1);(2)能,详见解析.【分析】(1)对于非线性回归方程先通过换元法将变化为线性回归方程,再利用最小二乘法即得;(2)将代入回归方程得到,进而即得.(1)由表中数据可得(891+888+351+220+200+138+112)=400,令,设y关于t的线性回归方程为,则则,故y关于x的回归方程为;(2)由回归方程可知,随x的增大,y逐渐减少,当时,,故两年后网络诈骗月报案数能降至75件以下.【题型六】非线性回归2:型【典例分析】为了研究某种细菌随天数变化的繁殖个数,收集数据如下:天数123456繁殖个数612254995190(1)在图中作出繁殖个数关于天数变化的散点图,并由散点图判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数关于天数变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.3.5062.833.5317.50596.5712.09(ⅰ)证明:“对于非线性回归方程,令,可以得到繁殖个数的对数关于天数具有线性关系(即为常数)”;(ⅱ)根据(ⅰ)的判断结果及表中数据,建立关于的回归方程(系数保留2位小数).附:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为.【答案】(1)选择为回归方程较宜。(2)(ⅰ)证明见解析;(ⅱ)【分析】(1)根据散点图趋势选择;(2)将非线性回归方程模型转化为线性回归方程模型,结合所给数据求解.【详解】(1)作出散点图如图所示.由散点图看出样本点分布在一条指数型曲线的周围,故选择为回归方程较宜.(2)(i)证明:由已知:令,则,则,,即.所以繁殖个数的对数关于天数具有线性关系.(ii)由(i)知繁殖个数的对数关于天数可以用线性回归方程来拟合.由表中数据可得,,,得到关于的线性回归方程为,又,因此细菌的繁殖个数关于天数的非线性回归方程为.【提分秘籍】基本规律形如指数型,可以通过去对数换元,构造成线性回归【变式演练】经观测,某种昆虫的产卵数y与温度x有关,现将收集到的温度和产卵数()的10组观测数据作了初步处理,得到如下图的散点图及一些统计量表.275731.121.71502368.3630表中,.(1)根据散点图判断,,与哪一个适宜作为y与x之间的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,试求y关于x的回归方程.【答案】(1)(2)【分析】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,结合给定的回归方程模型的特征即可判断;(2)对变换得:,变换后得样本点分布在一条直线附近,即可用线性回归方程来拟合,即可求出关于回归方程.【详解】(1)适宜作为y与x之间的回归方程模型;理由如下:回归方程模型适用于散点图呈直线型;回归方程模型适用于散点图上升,且上升趋势越来越慢;回归方程模型适用于散点图上升,且上升趋势越来越快,呈指数型变化;根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为y与x之间的回归方程模型.(2)令,则,由表中数据可得,;,∴;∴y关于x的回归方程为.【题型七】非线性回归3:型【典例分析】2022年6月5日是世界环境日,十三届全国人大常委会第三十二次会议表决通过的《中华人民共和国噪声污染防治法》今起施行.噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了解声音强度(单位:)与声音能量(单位:)之间的关系,将测量得到的声音强度和声音能量的数据作了初步处理,得到如图所示的散点图:(1)根据散点图判断,与哪一个适宜作为声音强度关于声音能量的回归模型?(能给出判断即可,不必说明理由)(2)求声音强度关于声音能量的非线性经验回归方程(请使用题后参考数据作答);(3)假定当声音强度大于45dB时,会产生噪声污染,城市中某点处共受到两个声源的影响,这两个声源的声音能量分别是和,且.已知点处的声音能量等于与之和,请根据(2)中的非线性经验回归方程,判断点处是否受到噪声污染,并说明理由.参考数据:,,令,有,,,,,,,,.【答案】(1)(2)(3)点处会受到噪声污染【分析】(1)根据已知条件,结合图象的增长趋势,即可求解.(2)令,,则,结合最小二乘法和线性回归方程的公式,即可求解.(3)设点处的声音能量为,则,利用基本不等式求出,再代入(2)中的非线性经验回归方程,求出,即可判断.【详解】(1)解:散点图近似在一条曲线上,故更适合.(2)解:令,,则,,,即关于的回归方程是,则关于的非线性经验回归方程是.(3)解:设点处的声音能量为,则,因为,,,所以,当且仅当,即,时等号成立,所以,所以点处会受到噪声污染.【提分秘籍】基本规律形如型,可以通过换元化归为线性回归,令转化为回归直线y=bt+a【变式演练】受北京冬奥会的影响,更多人开始关注滑雪运动,但由于室外滑雪场需要特殊的气候环境,为了满足日益增长的消费需求,国内出现了越来越多的室内滑雪场.某投资商抓住商机,在某大学城附近开了一家室内滑雪场.经过6个季度的经营,统计该室内滑雪场的季利润数据如下:第个季度123456季利润(万元)2.23.64.34.95.35.5根据上面的数据得到的一些统计量如下:4.30.5101.414.11.8表中,.(1)若用方程拟合该室内滑雪场的季利润与季度的关系,试根据所给数据求出该方程;(2)利用(1)中得到的方程预测该室内滑雪场从第几个季度开始季利润超过6.5万元;附:线性回归方程中,,.参考数据:【答案】(1);(2)第12个.【分析】(1)根据最小二乘法可得,进而即得;(2)由,解不等式进而即得.(1)由,先求y关于u的线性回归方程,由已知数据得,故,所以y关于u的回归方程为,故y关于x的回归方程为;(2)令,得,所以,故预测从第12个季度开始季利润超过6.5万元;【题型八】非线性回归4:型【典例分析】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.46.65636.8289.81.61469108.8表中,.(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立关于的回归方程;(3)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:(i)年宣传费时,年销售量及年利润的预报值是多少?(ii)年宣传费为何值时,年利率的预报值最大?附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:、【答案】(1)适合(2)(3)(i)千元;(ii)46.24千元.【分析】(1)根据散点图中点的变化趋势判断回归方程的类型;(2)利用最小二乘法求回归方程系数,即可得回归方程;(3)根据回归方程估计的销售量和利润,结合二次函数性质求年利润的预报值最大时的值.(1)解:由散点图知:各点呈非线性递增趋势,所以作为回归方程比较合适.(2)解:由,则,由,,则,所以.(3)解:①当时,;此时年利润千元.②由题意,,所以,当,即时,年利润的预报值最大.【提分秘籍】基本规律形如【变式演练】.某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为ycm,测得一些数据如下表所示:第x度y/cm0479111213作出这组数的散点图如下(1)请根据散点图判断,与中哪一个更适宜作为幼苗高度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测第196天这株幼苗的高度(结果保留整数).附:,
参考数据:1402856283【答案】(1)更适宜(2);预测第196天幼苗的高度大约为29cm【分析】(1)根据散点图,可直接判断出结果;(2)先令,根据题中数据,得到与的数据对,根据新的数据对,求出,,再由最小二乘法求出,即可得出回归方程,从而可求出预测值.(1)根据散点图,更适宜作为幼苗高度y关于时间x的回归方程类型;(2)令,则构造新的成对数据,如下表所示:x149162536491234567y0479111213容易计算,,.通过上表计算可得:因此∵回归直线过点,∴,故y关于的回归直线方程为从而可得:y关于x的回归方程为令,则,所以预测第196天幼苗的高度大约为29cm.【题型九】非线性回归5:型【典例分析】长沙某公司对其主推产品在过去5个月的月广告投入xi(百万元)和相应的销售额yi(百万元)进行了统计,其中i=1,2,3,4,5,对所得数据进行整理,绘制散点图并计算出一些统计量如下:,,,,,,,其中,i=1,2,3,4,5.(Ⅰ)根据散点图判断,与哪一个适宜作为月销售额关于月广告投入xi的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及题中所给数据,建立y关于x的回归方程,并据此估计月广告投入220万元时的月销售额.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.【答案】(Ⅰ)更适宜作为月销售额关于月广告投入的回归方程;(Ⅱ)月广告投入万元时的月销售额为万元.【解析】【分析】(1)根据散点图选择作为回归方程.(2)利用公式及所给数据计算回归方程后可估计月销售额.【详解】(1)根据散点图选择作为回归方程.(2)令,则,,故回归方程为,当月广告投入为万元时,月销售额为(万元).答:选择作为回归方程,当月广告投入为万元时,月销售额约(万元).【提分秘籍】基本规律【变式演练】某企业积极响应“碳达峰”号召,研发出一款性能优越的新能源汽车,备受消费者青睐.该企业为了研究新能源汽车在某地区每月销售量(单位:千辆)与月份的关系,统计了今年前5个月该地区的销售量,得到下面的散点图及一些统计量的值.表中.(1)根据散点图判断两变量的关系用与哪一个比较合适?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立关于的回归方程(的值精确到),并预测从今年几月份起该地区的月销售量不低于万辆?附:对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为.【答案】(1)见解析(2)见解析【分析】(1)结合散点图可知合适;(2)由题中所给的数据及公式计算回归方程,并进行估计即可.【详解】(1)比较合适(散点图中点的分布不是一条直线,相邻两点的纵坐标的差值是增大趋势,所以比较合适)(2)设,则,先建立y关于t的回归方程则所以y关于t的回归方程为,因此y关于x的回归方程为令,解得或(舍去),故估计从今年8月份起该地区的月销售量不低于万辆.【题型十】残差拟合判断【典例分析】近年来,美国方面滥用国家力量,不择手段打压中国高科技企业,随着贸易战的不断升级,中国某科技公司为了不让外国“卡脖子”,决定在企业预算中减少宣传广告预算,增加对技术研究和人才培养的投入,下表是的连续7年研发投入x和公司年利润y的观测数据,根据绘制的散点图决定用回归模型:来进行拟合.表I研发投入(亿元)20222527293135年利润(亿元)711212465114325表II(注:表中)189567162781063040(1)请借助表II中的数据,求出回归模型的方程;(精确到0.01)(2)试求研发投入为20亿元时年利润的残差.参考数据:,附:回归方程中和,残差【答案】(1)(2)【分析】(1)根据非线性回归的方法求得回归方程.(2)用观测值减去预测值求得相应的残差.【详解】(1)由得,令,得,由表II数据可得:,.所以回归方程为:.(2)在时的残差:.【提分秘籍】基本规律残差计算:【变式演练】红铃虫是棉花的主要害虫之一,也侵害木棉、锦葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温度的关系,收集到7组温度和产卵数的观测数据于表Ⅰ中.根据绘制的散点图决定从回归模型①与回归模型②中选择一个来进行拟合.表Ⅰ温度x/℃20222527293135产卵数y/个711212465114325(1)请借助表Ⅱ中的数据,求出回归模型①的方程:表Ⅱ(注:表中)18956725.271627810611.06304041.86825.09(2)类似的,可以得到回归模型②的方程为,试求两种模型下温度为时的残差;(3)若求得回归模型①的相关指数,回归模型②的相关指数,请结合(2)说明哪个模型的拟合效果更好.参考数据:.附:回归方程中,。相关指数.【答案】(1)(或)(2)模型①:1.54;模型②:65.54(3)模型①【分析】(1)利用两边取自然对数,利用表中的数据即可求解;(2)分别计算模型①、②在时残差;(3)根据相关指数的大小判断摸型①、②的残差平方和,再得出那个模型的拟合效果更好.(1)由,得,令,得,由表Ⅱ数据可得,,,所以,所以回归方程为(或).(2)由题意可知,模型①在时残差为,模型②在时残差为.(3)因为,即模型①的相关指数大于模型②的相关指数,由相关指数公式知,模型①的残差平方和小于模型②的残差平方和,因此模型①得到的数据更接近真实数据,所以模型①的拟合效果更好.【题型十】数据丢失或剔除型【典例分析】为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得,,,,其中为抽取的第个零件的尺寸,.(1)求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本的相关系数,.【答案】(1)见解析;(2)(i)见解析;(ii).【解析】试题分析:(1)依公式求;(2)(i)由,得抽取的第13个零件的尺寸在以外,因此需对当天的生产过程进行检查;(ii)剔除第13个数据,则均值的估计值为10.02,方差为0.09.试题解析:(1)由样本数据得的相关系数为.由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于,由样本数据可以看出抽取的第13个零件的尺寸在以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为,这条生产线当天生产的零件尺寸的均值的估计值为10.02.,剔除第13个数据,剩下数据的样本方差为,这条生产线当天生产的零件尺寸的标准差的估计值为.点睛:解答新颖的数学题时,一是通过转化,化“新”为“旧”;二是通过深入分析,多方联想,以“旧”攻“新”;三是创造性地运用数学思想方法,以“新”制“新”,应特别关注创新题型的切入点和生长点.【提分秘籍】基本规律剔除数据时,要注意平均值和公式数据的相关计算【变式演练】近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农户的数据,进行回归分析,得到两个回归摸型:模型①:,模型②:,对以上两个回归方程进行残差分析,得到下表:种植面积(亩)234579每亩种植管理成本(百元)252421221614模型①估计值25.2723.6221.9717.0213.72残差-0.270.38-0.97-1.020.28模型②26.8420.1718.8317.3116.46-1.840.833.17-1.31-2.46(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;(2)视残差的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求回归方程.附:,;【答案】(1)表格答案见解析,模型①拟合效果比较好.(2)【分析】(1)令时,求得,,令时,求得,,填入表格即可.根据残差平方和公式,分别求得模型①的残差平方和,模型②的残差平方和,再比较下结论.(2)根据视残差的绝对值超过1.5的数据视为异常数据,应剔除第四组数据,分别求得,,利用公式进而求得,,写出回归方程.(1)当时,,,当时,,,完成表格如下:种植面积(亩)234579每亩种植管理成本(百元)252421221614模型①估计值25.2723.6221.9720.3217.0213.72残差-0.270.38-0.971.68-1.020.28模型②26.8422.3920.1718.8317.3116.46-1.841.610.833.17-1.31-2.46模型①的残差平方和为,模型②的残差平方和为,所以模型①的残差平方和比模型②的残差平方和小,所以模型①拟合效果比较好.(2)由题意知,应剔除第四组数据,,,,,∴所求回归方程为.1.(2022·全国·统考高考真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:,0.1000.0500.0102.7063.8416.635【答案】(1)A,B两家公司长途客车准点的概率分别为,(2)有【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;(2)根据表格中数据及公式计算,再利用临界值表比较即可得结论.【详解】(1)根据表中数据,A共有班次260次,准点班次有240次,设A家公司长途客车准点事件为M,则;B共有班次240次,准点班次有210次,设B家公司长途客车准点事件为N,则.A家公司长途客车准点的概率为;B家公司长途客车准点的概率为.(2)列联表准点班次数未准点班次数合计A24020260B21030240合计45050500=,根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.2.(2022·全国·统考高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:样本号i12345678910总和根部横截面积0.040.060.040.080.080.050.050.070.070.060.6材积量0.250.400.220.540.510.340.360.460.420.403.9并计算得.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数.【答案】(1);(2)(3)【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)代入题给相关系数公式去计算即可求得样本的相关系数值;(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.【详解】(1)样本中10棵这种树木的根部横截面积的平均值样本中10棵这种树木的材积量的平均值据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为(2)则(3)设该林区这种树木的总材积量的估计值为,又已知树木的材积量与其根部横截面积近似成正比,可得,解之得.则该林区这种树木的总材积量估计为3.(2021·全国·统考高考真题)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为和.(1)求,,,;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).【答案】(1);(2)新设备生产产品的该项指标的均值较旧设备有显著提高.【分析】(1)根据平均数和方差的计算方法,计算出平均数和方差.(2)根据题目所给判断依据,结合(1)的结论进行判断.【详解】(1),,,.(2)依题意,,,,所以新设备生产产品的该项指标的均值较旧设备有显著提高.4.(2016·全国·高考真题)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),表示购机的同时购买的易损零件数.(Ⅰ)若=19,求y与x的函数解析式;(Ⅱ)若要求“需更换的易损零件数不大于”的频率不小于0.5,求的最小值;(Ⅲ)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?【答案】(1);(2)19;(3)购买1台机器的同时应购买19个易损零件.【详解】试题分析:(Ⅰ)分x19及x>19,分别求解析式;(Ⅱ)通过频率大小进行比较;(Ⅲ)分别求出n=19,n=20时所需费用的平均数来确定.试题解析:(Ⅰ)当时,;当时,,所以与的函数解析式为.(Ⅱ)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故的最小值为19.(Ⅲ)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3800,20台的费用为4300,10台的费用为4800,因此这100台机器在购买易损零件上所需费用的平均数为.若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4000,10台的费用为4500,因此这100台机器在购买易损零件上所需费用的平均数为.比较两个平均数可知,购买1台机器的同时应购买19个易损零件.【考点】函数解析式、概率与统计【名师点睛】本题把统计与函数结合在一起进行考查,有综合性但难度不大,求解的关键是读懂题意,所以提醒考生要重视数学中的阅读理解问题.5.(2017·全国·高考真题)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布.(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在之外的零件数,求及X的数学期望;(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)试说明上述监控生产过程方法的合理性;(ⅱ)下面是检验员在一天内抽取的16个零件的尺寸:9.9510.129.969.9610.019.929.9810.0410.269.9110.1310.029.2210.0410.059.95经计算得,,其中xi为抽取的第i个零件的尺寸,.用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除之外的数据,用剩下的数据估计μ和σ(精确到0.01).附:若随机变量Z服从正态分布,则,,.【答案】(1),(2)(ⅰ)见详解;(ⅱ)需要.,【分析】(1)依题知一个零件的尺寸在之内的概率,可知尺寸在之外的概率为0.0026,而,进而可以求出的数学期望.(2)(i)判断监控生产过程的方法的合理性,重点是考虑一天内抽取的16个零件中,出现尺寸在之外的零件的概率是大还是小,若小即合理;(ii)计算,剔除之外的数据,算出剩下数据的平均数,即为的估计值,剔除之外的数据,剩下数据的样本方差,即为的估计值.【详解】(1)抽取的一个零件的尺寸在之内的概率为0.9974,从而零件的尺寸在之外的概率为0.0026,故.因此.的数学期望为.(2)(i)如果生产状态正常,一个零件尺寸在之外的概率只有0.0026,一天内抽取的16个零件中,出现尺寸在之外的零件概率只有0.0408,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ii)由,得的估计值为,的估计值为,由样本数据可以看出有一个零件的尺寸在之外,因此需对当天的生产过程进行检查.剔除之外的数据,剩下数据的平均数为,因此的估计值为.,剔除之外的数据,剩下数据的样本方差为,因此的估计值为.【点睛】本题考查正态分布的实际应用以及离散型随机变量的数学期望,正态分布是一种重要的分布,尤其是正态分布的原则,审清题意,细心计算,属中档题.6.(2020·全国·统考高考真题)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=,≈1.414.【答案】(1);(2);(3)详见解析【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;(2)利用公式计算即可;(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.【详解】(1)样区野生动物平均数为,地块数为200,该地区这种野生动物的估计值为(2)样本(i=1,2,…,20)的相关系数为(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容易题.1.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取了20个镇进行分析,得到了样本数据(,2,…,20),其中和分别表示第i个镇的人口(单位:万人)和该镇年垃圾产生总量(单位:吨),并计算得,,,,.(1)请用相关系数说明该组数据中y与x之间的线性相关程度;(2)求y关于x的线性回归方程;(3)某机构有两款垃圾处理机器,其中甲款机器每台售价100万元,乙款机器每台售价80万元,下表是这两款垃圾处理机器的使用年限(整年)统计表:1年2年3年4年合计甲款(台)520151050乙款(台)152010550根据以往的经验可知,某镇每年可获得政府支持的垃圾处理费用为50万元,若仅考虑购买机器的成本和每台机器的使用年限(使用年限均为整年),以使用年限的频率估计概率,该镇选择购买哪一款垃圾处理机器更划算?【答案】(1)y与x之间具有较强的线性相关关系(2)(3)该镇选择购买一台甲款垃圾处理机器更划算【分析】(1)通过计算相关系数确定正确答案.(2)根据回归直线方程的求法求得回归直线方程.(3)计算出两款处理器节约费用的期望值,由此作出判断.【详解】(1)由题意知,相关系数.因为y与x的相关系数接近于1,所以y与x之间具有较强的线性相关关系.(2)由题意可得,,,所以.(3)以使用年限的频率估计概率,购买一台甲款垃圾处理机器节约政府支持的垃圾处理费用X(单位:万元)的分布如下:于是(万元).购买一台乙款垃圾处理机器节约政府支持的垃圾处理费用Y(单位:万元)的分布如下:于是(万元).因为,所以该镇选择购买一台甲款垃圾处理机器更划算.2.为了解哪些人更关注养生保健,某机构随机抽取了年龄在15~75岁之间的100人进行调查,并按年龄绘制了如图所示的频率分布直方图,其分组区间为:,,,,.把年龄落在区间和内的人分别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人数之比为9:11.(1)求图中a、b的值;(2)已知“青少年人”中有15人在关注养生保健,根据提供的数据完成下面的2×2列联表.据此统计结果,参照附表判断:能否有超过99%的把握认为“中老年人”比“青少年人”更加关注养生保健?关注不关注总计青少年人15中老年人总计5050100附表:0.100.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.828【答案】(1)(2)有超过99%的把握认为“中老年人”比“青少年人”更加关注养生保健.【分析】(1)由题知,解方程即可得答案;(2)根据题意,得:“青少年人”共有人,“中老年人”共有人,进而根据独立性检验求解即可.【详解】(1)解:因为“青少年人”与“中老年人”的人数之比为9:11.所以,依频率分布直方图可知,解得所以,(2)解:由题意知:“青少年人”共有(人),“中老年人”共有(人),完成的2×2列联表如下:关注不关注总计青少年人153045中老年人352055总计5050100结合列联表的数据得.因为,而,所以有超过99%的把握认为“中老年人”比“青少年人”更加关注养生保健.3.某市春节期间7家超市的广告费支出(单位:万元)和销售额(单位:万元)数据记录如下表:超市ABCDEFG广告费支出(万元)1246111319销售额(万元)19324044525354(1)若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;(2)若用二次函数回归模型拟合y与x的关系,可得回归方程为,经计算,二次函数回归模型和线性回归模型的相关指数分别约为0.93和0.75,请用说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为3万元时的销售额.参考数据及公式:,,【答案】(1);(2)二次函数回归模型更合适,33.47万元.【分析】(1)根据最小二乘法结合条件即得;(2)根据相关指数的概念及回归方程即得.【详解】(1)由题可得,,,,则,所以,所以y关于x的线性回归方程是;(2)因为,所以二次函数回归模型更合适,用此模型,当时,,由此预测A超市广告费支出为3万元时的销售额为33.47万元.4.有人收集了某10年中某城市居民年收入x(单位:亿元)(即该城市所有居民在一年内收入的总和)与某种商品的销售额y(单位:万元)的相关数据,并记录得到下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 转让合同货品协议书范本
- 矿山爆破项目合同协议书
- 军训器材转让合同协议书
- 车辆维修合同延长协议书
- 香菜合作种植合同协议书
- 2025房屋租赁合同附加协议
- 2025销售合同管理的几大方误区和解决策略
- 工程款合同协议书模板
- 2025酒吧经营管理合同书协议(模板)
- 书写合同协议书怎么写
- 安徽省天一大联考2025年高三最后一卷化学试题及答案
- 2025届上海市普通中学三校联考生物高二下期末达标测试试题含解析
- WPS考试内容全面解读试题及答案
- 鹰眼无人机商业计划书
- 尊重学术道德遵守学术规范学习通超星期末考试答案章节答案2024年
- 2024年江苏武进经济发展集团招聘笔试参考题库含答案解析
- 300t汽车吊起重性能表
- 专业方向证明
- 鄂尔多斯婚礼课程
- 国储林项目作业设计调查事项
- 变速箱前后桥PT制动
评论
0/150
提交评论