版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题19线性回归、分线性回归和相关系数一、线性回归1.2015年7月31日,在吉隆坡举行的国际奥委会第128次全会上,北京获得2022年冬奥会举办权.在申冬奥过程中,中国正式向国际社会作出“带动三亿人参与冰雪运动”的庄严承诺.这一承诺,既是我国为国际奥林匹克运动做出重大贡献的大国担当展现,也是根据我国经济水平和全民健身需求做出的群众性运动的战略部署.从北京冬奥会申办成功到2021年10月,全国参与冰雪运动人数累计达到3.46亿,实现了“带动三亿人参与冰雪运动”的目标,这是北京冬奥会给予全球冬季体育运动和奥林匹克运动的最为重要的遗产,可以说是2022年北京冬奥会的第一块金牌.“冬奥热”带动“冰雪热”,也带动了冰雪经济,以冰雪运动为主要内容的冰雪旅游近年来发展迅速,2016至2022六个冰雪季的旅游人次y(单位亿)的数据如下表:年度2016—20172017—20182018—20192019—20202020—20212021—2022年度代号t123456旅游人次y1.71.972.240.942.543.15(1)求y与t的相关系数(精确到0.01),并回答y与t的线性相关关系的强弱;(2)因受疫情影响,现将2019—2020年度的异常数据剔除,用剩下的5个年度数据(年度代号不变),求y关于t的线性回归方程(系数精确到0.01),并推测没有疫情情况下,2019—2020年度冰雪旅游人次的估计值.附注:参考数据:t=16i=16ti=3.5,y=16i=1【答案】(1)0.55,线性相关性不强(2)y=0.26t+1.43,2.47【分析】(1)由已知数据结合相关系数公式求出相关系数,再进行判断即可,(2)由已知数据结合回归方程公式计算y关于t的线性回归方程,再将t=4代入回归方程可求出2019—2020年度冰雪旅游人次的估计值【详解】(1)由参考数据计算得i=1所以r=i=1因为0<r<0.75,所以线性相关性不强.(2)五组数据的均值分别为t'=3.4i=1i=1b^ay关于t的线性回归方程为y令t=4,则y=0.26×4+1.43=2.47因此,在没有疫情情况下,2019-2020年度冰雪旅游人次的估计值为2.47亿.2.随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:年份201620172018201920202021年份代码x123456新能源乘用车年销售y(万辆)5078126121137352(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)(2)若用y=menx模型拟合y与x的关系,可得回归方程为y=37.71e0.33x(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.参考数据:设u=lny,其中yui=1i=1eee1444.788415.7037.71380528参考公式:对于一组具有线性相关关系的数据(xi,yi)(i=1,【答案】(1)y(2)当回归方程为y=48x−24时,2022年我国新能源乘用车的年销售量的预测值是312当回归方程为y=37.71e0.33x(3)由于相关指数越接近于1,两个变量之间的关系就强,相应的拟合程度也越好,所以y=37.71【分析】(1)根据表中数据和参考数据,得出x,y,i=16(x运用最小二乘法求回归直线方程即可;(2)根据回归方程,代入x的值即可求出预测值;(3)相关指数越接近1,两变量的相关性越强,预测值越可靠.【详解】(1)由表中数据得,x=1+2+3+4+5+66=3.5,i=1==17.5∴b=∴y关于x的线性回归方程为:y=48x−24(2)由(1)知,y关于x的线性回归方程为:y=48x−24当x=7时,2022年我国新能源乘用车的年销售量的预测值:y=48×7−24=312对于回归方程y=37.71当x=7时,2022年我国新能源乘用车的年销售量的预测值:y=37.71(3)依题意:y=37.71e0.33x模型和第(1)问中模型的R由于相关指数越接近于1,两个变量之间的关系就强,相应的拟合程度也越好,所以y=37.713.小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20家服装店,统计得到了它们的面积x(单位:m2)和日均客流量y(单位:百人)的数据xi,yi(i=1,2,⋅⋅⋅,20),并计算得i=120(1)求y关于x的回归直线方程;(2)已知服装店每天的经济效益W=ky+mx(k>0,m>0),该商场现有60~150m2的商铺出租,根据(1)的结果进行预测,要使附:回归直线y=bx+a的斜率和截距的最小二乘估计分别为:【答案】(1)y(2)小李应该租100m【分析】(1)由已知条件结合回归直线公式可求出回归直线方程,(2)根据题意得Z=Wx=k0.15x−7.5【详解】(1)由已知可得x=120b=a=所以回归直线方程为y=0.15x−7.5(2)根据题意得Z=Wx=设f(x)=0.15x−7.5x2=0.15则f(x)=g(t)=0.15t−7.5t当t=0.01,即x=100时,f(x)取最大值,又因为k,m>0,所以此时Z也取最大值,因此,小李应该租100m4.某医科大学实习小组为研究实习地昼夜温差与感冒人数之间的关系,分别到当地气象部门和某医院抄录了1月至3月每月5日、20日的昼夜温差情况与因感冒而就诊的人数,得到如表资料:日期1月5日1月20日2月5日2月20日3月5日3月20日昼夜温差x(℃)1011131286就诊人数y(个)222529261612该小组确定的研究方案是:先从这6组数据中随机选取4组数据求线性回归方程,再用剩余的2组数据进行检验.参考公式:b=i=1n(1)求剩余的2组数据都是20日的概率;(2)若选取的是1月20日、2月5日、2月20日、3月5日这4组数据.①请根据这4组数据,求出y关于x的线性回归方程y^②若某日的昼夜温差为7℃,请预测当日就诊人数.(结果保留整数).【答案】(1)1(2)①y=187【分析】(1)利用列举法求解,先列出从这6组中随机选取4组数据,剩余的2组数据所有等可能的情况,然后找出其中2组数据都是20日的情况,然后利用古典概型的概率公式求解,(2)①根据表中的数据和公式求出y关于x的线性回归方程,②把x=7代入回归方程求解即可(1)记6组依次为1,2,3,4,5,6,从这6组中随机选取4组数据,剩余的2组数据所有等可能的情况为1,2,1,3,1,4,1,5,1,6,2,3,2,4,2,5,2,6,3,4,3,5,3,6,4,5,4,6,5,6共15种,其中2组数据都是20日,即都取自2,4,6组的情况有3种.根据古典概型概率计算公式,剩余的2组数据都是20日的概率P=3(2)①由所选数据,得x=11+13+12+84所以b=所以a=所以y关于x的线性回归方程为y=②当x=7时,y=所以某日的昼夜温差为7℃,预测当日就诊人数约为14人.5.某科技公司研发了一项新产品A,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x(千元)和销售量y(千件)之间的一组数据如下表所示:月份i123456销售单价x99.51010.5118销售量y111086515(1)试根据1至5月份的数据,建立y关于x的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过0.65千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程y=bx+参考数据:i=15x【答案】(1)y=−3.2x+40【分析】(1)先由表中的数据求出x,y,再利用已知的数据和公式求出b,a,从而可求出(2)当x=8时,求出y的值,再与15比较即可得结论【详解】(1)因为x=15所以b=得a=8−于是y关于x的回归直线方程为y=−3.2x+40(2)当x=8时,y=−3.2×8+40=14.4则y−y故可以认为所得到的回归直线方程是理想的.6.2015年10月16日,习近平总书记在减贫与发展高层论坛上强调,中国扶贫工作要实施精准扶贫方略,坚持中国制度优势,坚持分类施策.当年11月23日,中共中央政治局召开会议,审议通过了《关于打赢脱贫攻坚战的决定》等有关文件,会议确定了通过产业扶持、转移就业、教育支持和医疗救助等措施帮助5000万左右贫困人口脱贫的目标.下表为某贫困县在实施扶贫政策过程中贫困户的统计数据:年份2015年2016年2017年2018年2019年2020年序号x第0年第1年第2年第3年第4年第5年贫困户数y(百户)5.44.63.42.51.60.5(1)从这六组数据的贫困户数中任意抽取两个值a,b(百户),设ξ为a−b四舍五入后的整数值,求随机变量ξ的分布列及期望值Eξ;(2)以2015−2019年五组数据进行相关性分析发现,贫困户数y(百户)与年份的序号x存在较强的线性相关性,试用最小二乘法求相应的回归方程,并利用2020年的数据对该回归方程进行检验.若实际数与预测值的差值的绝对值不超过10户,则认为回归方程可靠.请问该回归方程是否可靠?附:回归方程y=bx+a中斜率和截距的最小二乘法公式为:【答案】(1)分布列见解析;期望为73;(2)y【分析】(1)根据题意先求ξ的所有取值,再求概率、分布列及期望;(2)根据题中的数据利用最小二乘法公式可求回归方程,再检验即可.【详解】(1)用x,y表示取得的数据分别为x和y,则所有的基本事件有(5.4,4.6),(5.4,3.4),(5.4,2.5),(5.4,1.6),(5.4,0.5),(4.6,3.4),(4.6,2.5),(4.6,1.6),(4.6,0.5),(3.4,2.5),(3.4,1.6),(3.4,0.5),(2.5,1.6),(2.5,0.5),(1.6,0.5)共15个,对应的ξ的取值分别为1,2,3,4,5,1,2,3,4,1,2,3,1,2,1,即ξ的取值有1,2,3,4,5,且P(ξ=1)=515=13,P(ξ=2)=415故变量ξ的分布列为:ξ12345P14121期望值Eξ=1×5(2)根据题意知,x=2,y所以b则a=3.5+0.97×2=5.44所以y=−0.97x+5.44当x=5时,y=−0.97×5+5.44=0.59|0.59−0.5|=0.09(百户),即差值为9户,所以该回归方程可靠.7.2021年是“十四五”开局之年,是在全面建成小康社会,实现第一个百年奋斗目标之后,全面建设社会主义现代化国家新征程开启之年,新征程的第一阶段是2020年到2035年,基本实现社会主义现代化,其中保障农村农民的生活达到富裕是一个关键指标.某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016年—2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图(其中变量y(万元)表示该地区农村居民人均年消费支出,年份用变量t表示,其取值依次为1,2,3,……).(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的回归方程,并预测2021年该地区农村居民人均消费支出;2016-2020年该地区农村居民人均消费支出(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成参考公式:回归方程y=bx+a【答案】(1)y=0.101t+0.907【分析】(1)先由已知的数据求出t,y,i=15ti2,(2)由图2可知,2020年该地区农村居民食品类支出为4451元,则预测2021年该地区食品类支出为4451×1+3%【详解】解:(1)由已知数据可求t=y=i=15i=15∴b∴a∴所求回归方程为y=0.101t+0.907当t=6时,y=0.101×6+0.907=1.513∴2021年该地区农村居民人均消费支出约为1.513万元(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4451元,则预测2021年该地区食品类支出为4451×1+3%∴恩格尔系数=所以,2021年底该地区农村居民生活水平能达到富裕生活标准.8.根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种疫苗的情况,得如下统计表:第x天12345新接种人数y1015192328(1)建立y关于x的线性回归方程;(2)预测该村80%居民接种新冠疫苗需要几天?参考公式:回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为:【答案】(1)y=225【分析】(1)本题首先可以求出x、y,然后求出b、a,即可求出y关于x的线性回归方程;(2)本题可设an=225n+295,数列{an}的前【详解】(1)x=1+2+3+4+55则b=i=15故y关于x的线性回归方程y=(2)200×80%=160,设an=225n+295,数列{则Sn因为S6=127.2,所以预测该村80%居民接种新冠疫苗需要7天.【点睛】关键点点睛:本题考查线性回归方程的求法以及实际应用,能否根据表中数据求出b、a是解决本题的关键,考查等差数列求和公式的应用,考查计算能力,是中档题.9.某地区2021年清明节前后3天每天下雨的概率为50%,通过模拟实验的方法来计算该地区这3天中恰好有2天下雨的概率.用随机数x(x∈N,且0≤x≤9)表示是否下雨:当x∈0,mm∈Z时表示该地区下雨,当332
714
740
945
593
468
491
272
073
445992
772
951
431
169
332
435
027
898
719(1)求出m的值,并根据上述数表求出该地区清明节前后3天中恰好有2天下雨的概率;(2)从2012年到2020年该地区清明节当天降雨量(单位:mm)如表:(其中降雨量为0表示没有下雨).时间2012年2013年2014年2015年2016年2017年2018年2019年2020年年份t123456789降雨量y292826272523242221经研究表明:从2012年至2021年,该地区清明节有降雨的年份的降雨量y与年份t成线性回归,求回归直线方程y=bt+参考公式:b=i=1n参考数据:i=19ti−tyi【答案】(1)m=4,25;(2)y【分析】(1)利用概率模拟求概率;(2)套用公式求回归直线方程即可.【详解】解:(1)由题意可知,m+110=50%,解得m=4,即0~4表示下雨,所给的20组数据中714,740,491,272,073,445,435,027,共8组表示3天中恰有两天下雨,故所求的概率为820(2)由题中所给的数据可得t=5,y所以b=i=19所以回归方程为y=−当t=10时,y=−2930所以该地区2020年清明节有降雨的话,降雨量为20.2mm.【点睛】求线性回归方程的步骤:①求出x,y;②套公式求出b、a;③写出回归方程y=10.随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中x表示开设网店数量,y表示这x个分店的年销售额总和),现已知i=15(1)经判断,可利用线性回归模型拟合y与x的关系,求解y关于x的回归方程;(2)按照经验,超市每年在网上销售获得的总利润w(单位:万元)满足w=y−5x参考公式;线性回归方程y=b【答案】(1)y=85x+60【分析】(1)先求得i=15xi2=90,(2)由(1)结合w=y−5x2−140【详解】(1)由题意得i=15a所以y=85x+60(2)由(1)知,w=−5x所以当x=8或x=9时能获得总利润最大.二、非线性回归11.抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:mg),体内抗体数量为y(单位:AU/mL).i=1i=1i=1i=129.2121634.4
(1)根据经验,我们选择y=cxd作为体内抗体数量y关于抗体药物摄入量x的回归方程,将y=cxd两边取对数,得lny=lnc+dlnx,可以看出lnx与(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布N∼0.48,0.032附:①对于一组数据ui,vii=1,2,⋯,10,其回归直线v②若随机变量Z~Nμ,σ2,则有P(μ−σ<Z<μ+σ)≈0.6826,P(μ−2σ<Z<μ+2σ)≈0.9544③取e≈2.7【答案】(1)y=ex(2)0.0228【分析】(1)用最小二乘法求解回归直线方程,再求非线性回归方程即可;(2)根据正态分布的对称性求解给定区间的概率即可.【详解】(1)将y=cxd两边取对数,得设z=lny,t=lnx,则回归方程变为z=lnc+dt,由表中数据可知,z=110所以d^=i=1所以z=1+0.5t,即ln故y关于x的回归方程为y=e当x=25mg时,y^(2)因为z服从正态分布N0.48,0.032,其中μ=0.48所以Pμ−2σ<z<μ+2σ所以Pz>0.54故这种抗体药物的有效率z超过0.54的概率约为0.0228.12.经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度xi和产卵数yi=1i=1i=1i=1i=136054.5136044384i=1i=1i=1i中t
(1)根据散点图判断,y=a+bx,y=n+mx与y=c1ec2x哪一个适宜作为y(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.附:对于一组数据u1,v1,【答案】(1)y=c1(2)分布列见解析,1724【分析】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以y=c1ec2x适宜作为y与x之间的回归方程模型;令(2)由题意,ξ的取值为0,1,2,由全概率公式求得对应的概率,从而可求分布列及数学期望.【详解】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以y=c1ec2令z=lny,则z=clnc∴y关于x的回归方程为y=(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为ξ,则ξ的取值为0,1,2,设Ai=“所取两个鱼卵来自第i批”i=1,2,所以设Bi=“所取两个鱼卵有i个”“死卵”由全概率公式Pξ=0Pξ=1Pξ=2所以取出“死卵”个数的分布列为:ξ012P5344973∴Eξ所以取出“死卵”个数的数学期望172413.中医药是包括汉族和少数民族医药在内的我国各民族医药的统称,是具有悠久历史传统和独特理论技术方法的医药体系,长期呵护着我们的健康,为中华文明的延续作出了突出贡献.某科研机构研究发现,某味中药的药用量x(单位:克)与药物功效y(单位:药物功效单位)之间具有关系y=10x−(1)估计该味中药的最佳用量与功效;(2)对一批含有这昧中药的合成药物进行检测,发现这味中药的药用量平均值为6克,标准差为2,估计这批合成药的药物功效y的平均值.【答案】(1)该药物使用量为5克时可达最大功效25.(2)20【分析】(1)根据用量x与功效y之间具有关系y=10x−(2)根据题意求得1ni=1nxi【详解】(1)解:由题意,某味中药的药用量x与药物功效y之间具有关系y=10x−可得y=10x−x2=−(x−5)即该药物使用量为5克时可达最大功效25.(2)解:由题意,得x=1ni=1n则y=1ni=1n这批合成药的药物功效平均值为20.14.五一小长假期间,文旅部门在某地区推出A,B,C,D,E,F六款不同价位的旅游套票,每款套票的价格xi(单位:元;i=1,2,⋯,6)与购买该款套票的人数套票类别ABCDEF套票价格xi405060657288购买人数yi16.918.720.622.524.125.2(注:A,B,C,D,E,F对应i的值为1,2,3,4,5,6)为了分析数据,令vi=lnxi(1)根据所给数据,建立购买人数y关于套票价格x的回归方程;(2)规定:当购买某款套票的人数y与该款套票价格x的比值在区间[e9,e7附:①参考数据:i=16viωi=75.3②对于一组数据v1,ω1,v2【答案】(1)y=ex(2)分布列见解析,期望为2.【分析】(1)利用给定的数据,结合最小二乘法公式求出ω,(2)利用(1)的结论结合已知,求出“热门套票”数,再借助超几何分布求出分布列、期望作答.【详解】(1)由已知点vi,ω由v=4.1,ω=3.05,i=1得b=i=16因此变量ω关于v的回归方程为ω=令v=lnx,ω=lny,则lny=12lnx+1所以y关于x的回归方程为y=ex(2)由yx=ex1于是B,C,D,E为“热门套票”,则三人中购买“热门套票”的人数X服从超几何分布,X的可能取值为1,2,3,P(X=1)=C所以X的分布列为:X123P131期望E(X)=1×115.数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018-2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1-5.年份代码x12345车载音乐市场规模y2.83.97.312.017.0(1)由上表数据知,可用指数函数模型y=a⋅bx拟合y与x的关系,请建立y关于(2)根据上述数据求得y关于x的回归方程后,预测2024年的中国车载音乐市场规模.参考数据:vi=1ee1.61.9433.821.71.626.84其中vi=ln参考公式:对于一组数据u1,v1,u2,v2,⋯,【答案】(1)yˆ(2)45.628(十亿元).【分析】(1)对y=a⋅b(2)根据(1)中所求模型,令x=7,即可求得结果.【详解】(1)因为y=a⋅bx,所以两边同时取自然对数,得设v=lny,所以v=lna+xlnb,设α=lna,β=lnb,则v=α+βx,因为x=15所以β=i=15xαˆ=v−β所以aˆ=e0.524(2)把2024年代码x=7代入方程,得yˆ故预测2024年的中国车载音乐市场规模45.628(十亿元)16.当前移动网络已融入社会生活的方方面面,深刻改变了人们的沟通、交流乃至整个生活方式.4G网络虽然解决了人与人随时随地通信的问题,但随着移动互联网快速发展,其已难以满足未来移动数据流量暴涨的需求,而5G作为一种新型移动通信网络,不但可以解决人与人的通信问题,而且还可以为用户提供增强现实、虚拟现实、超高清(3D)视频等更加身临其境的极致业务体验,更重要的是还可以解决人与物、物与物的通信问题,从而满足移动医疗、车联网、智能家居、工业控制、环境监测等物联网应用需求,为更好的满足消费者对5G网络的需求,中国电信在某地区推出了六款不同价位的流量套餐,每款套餐的月资费x(单位:元)与购买人数y(单位:万人)的数据如下表:套餐ABCDEF月资费x(元)384858687888购买人数y(万人)16.818.820.722.424.025.5对数据作初步的处理,相关统计量的值如下表:i=1i=1i=1i=175.324.618.3101.4其中vi=ln(1)根据所给数据,求出y关于x的回归方程;(2)已知流量套餐受关注度通过指标Tx=x+36y来测定,当Tx附:对于一组数据v1,ω1,【答案】(1)y=e(2)分布列见解析,数学期望=8【分析】(1)根据数据和最小二乘法公式求出a和b即可;(2)因为是一家4口购买不同的套餐,套餐的种类只有6种,所以X的取值为2,3,4,按照超几何分布的模式写出分布列和数学期望.【详解】(1)因为散点vi,ω由v=16a=3.05−12×4.1=1,故变量ω关于v的回归方程为ω=故lny=1综上,y关于x的回归方程为y=ex(2)由Tx=x+36而857=7+367,则四人中使用“主打套餐”的人数X服从超几何分布,又:一共只有6种套餐,一家4口选择不同的套餐,所以X的取值只能是X=2,3,4,且PX=2X分布列为X234P281∴期望EX17.为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量y(单位:gm3)与样本对原点的距离x(单位:m)的数据,并作了初步处理,得到了下面的一些统计量的值.(表中xyui=1i=1i=1i=1i=1697.900.21600.1414.1226.13−1.40(1)利用样本相关系数的知识,判断y=a+bx与y=c+dx哪一个更适宜作为平均金属含量y关于样本对原点的距离(2)根据(1)的结果回答下列问题:(i)建立y关于x的回归方程;(ii)样本对原点的距离x=20时,金属含量的预报值是多少?(3)已知该金属在距离原点x米时的平均开采成本W(单位:元)与x,y关系为W=100y−lnx【答案】(1)y=c+(2)(i)y=100−10(3)10【分析】(1)根据所给数据求出相对应的相关系数,即可判断;(2)(i)由(1)及所给数据求出β、α,即可得到回归方程;(ii)将x=20代入计算即可;(3)依题意,可得W=1000100−10x【详解】(1)因为y=a+bx的线性相关系数r1y=c+dx的线性相关系数∵r∴y=c+dx更适宜作为平均金属含量y关于样本对原点的距离(2)(i)依题意,可得β=α=∴y=100−10u=100−10x,∴y关于(ii)当x=20时,金属含量的预报值为y=100−(3)因为W=1000y−lnx令fx=100−10当1≤x<10时,f'x>0,f当10<x≤100时,f'x<0,f∴fx在x=10处取得极大值,也是最大值,此时W故x为10时,开采成本最大.18.党的二十大报告提出,从现在起,中国共产党的中心任务就是团结带领全国各族人民全面建成社会主义现代化强国、实现第二个百年奋斗目标,以中国式现代化全面推进中华民族伟大复兴.高质量发展是全面建设社会主义现代化国家的首要任务.加快实现高水平科技自立自强,才能为高质量发展注入强大动能.某科技公司积极响应,加大高科技研发投入,现对近十年来高科技研发投入情况分析调研,其研发投入y(单位:亿元)的统计图如图1所示,其中年份代码x=1,2,…,10分别指2013年,2014年,…,2022年.
现用两种模型①y=bx+a,②y=c+dxyti=1i=1i=1i=1752.2582.54.512028.67表中ti(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;(2)根据(1)中所选模型,求出y关于x的回归方程;根据所选模型,求该公司2028年高科技研发投入y的预报值.(回归系数精确到0.01)附:对于一组数据x1,y1,【答案】(1)选择模型②,利用见解析(2)y=6.37x+60.67【分析】(1)根据残差点的分布可得出结论;(2)令t=x,可得出y=c+dt,利用参考数据可求出d、c的值,可得出y关于x的回归方程,然后将【详解】(1)应该选择模型②,理由如下:由于模型②残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故选模型②比较合适.(2)根据模型②,令t=x,研发投入y与t可用线性回归来拟合,有y则d=i=110则y关于t的线性回归方程为y=6.37t+60.67所以y关于x的回归方程为y=6.372028年,即x=16时,y=6.37×所以该公司2028年高科技研发投入y的预报值为86.15(亿元).19.MCN即多频道网络,是一种新的网红经济运行模式,这种模式将不同类型和内容的PGC(专业生产内容)联合起来,在资本有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现,在中国以直播电商、短视频为代表的新兴网红经济的崛起,使MCN机构的服务需求持续增长.数据显示,近年来中国MCN市场规模迅速扩大.下表为2018年—2022年中国MCN市场规模(单位:百亿元),其中2018年—2022年对应的代码依次为1-5.年份代码x12345中国MCN市场规模y1.121.682.453.354.32(1)由上表数据可知,可用指数函数模型y=a⋅bx拟合y与x的关系,请建立y关于(2)从2018年-2022年中国MCN市场规模中随机抽取3个数据,记这3个数据中与y的差的绝对值小于1的个数为X,求X的分布列与期望.参考数据:yvi=1i=12.580.8446.8315.99其中vi=lnyi参考公式:对于一组数据u1,v1,u2,v2,…,【答案】(1)y(2)分布列见解析,期望为95【分析】(1)两边取自然对数有lny=lna⋅bx=lna+xlnb,设lny=v,所以v=lna+xlnb,则将非线性方程转化为线性方程,利用公式计算出(2)X的取值依次为1,2,3,计算出每个X对应的概率值,再利用期望公式即可得到答案.【详解】(1)y=a⋅bx两边同时取自然对数得设lny=v,所以v=lna+xlnb,因为x=3,所以lnb=i=1把(3,0.84)代入v=lna+xlnb,得lna=−0.177,所以v即y关于x的回归方程为y=(2)2018年-2022年中国MCN市场规模的5个数据中,与y的差的绝对值小于1的数据有1.68,2.45,3.35,共3个,所以X的取值依次为1,2,3P(X=1)=所以X的分布列为X123P331E(X)=1×320.2023年高考进入倒计时,为了帮助学子们在紧张的备考中放松身心,某重点高中通过开展形式多样的减压游戏,确保同学们以稳定心态,良好地状态迎战高考,游戏规则如下:盒子中初始装有2个白球和1个红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是红球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个白球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.(1)如果某同学进行该抽球游戏时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量X,求X的分布列和数学期望;(2)为验证抽球试验成功的概率不超过13,假设有1000名学生独立的进行该抽球试验,记t表示成功时抽球试验的轮次数,yt12345y12062332015求y关于t的回归方程y=bt(3)证明:13附:经验回归方程系数:b=i=1n参考数据:i=15xi2=1.46,x=0.46,【答案】(1)分布列见解析,4918(2)y=(3)证明见解析.【分析】(1)求出X的所有可能值,再求出各个值对应的概率,列出分布列并求出期望作答.(2)利用给定的数据结合最小二乘法公式求出回归方程,再预测成功的总人数作答.(3)求出在前n轮就成功和不成功的概率,再利用对立事件概率公式推理作答.【详解】(1)依题意,X的取值可能为1,2,3,则PX=1P(X=2)=[1−(1C所以X的分布列为:X123P115所以数学期望为E(X)=1×1(2)令xi=1依题意,i=15于是b=则â=50−137.5×0.46=−13.25,y所以所求的回归方程为:y=估计t=6时,y≈9;估计t=7时,y≈6;估计t=8时,估计t=9时,y≈2;估计t≥10时,y≤0,从而所以预测成功的总人数为270.(3)依题意,在前n轮就成功的概率为P=1又因为在前n轮没有成功的概率为1−P=(1−=(1−=23×所以13三、相关系数21.2021年春节前,受疫情影响,各地鼓励外来务工人员选择就地过年.某市统计了该市4个地区的外来务工人数与就地过年人数(单位:万),得到如下表格:A区B区C区D区外来务工人数x/万3456就地过年人数y/万2.5344.5(1)请用相关系数说明y与x之间的关系可用线性回归模型拟合,并求y关于x的线性回归方程y^=a(2)假设该市政府对外来务工人员中选择就地过年的每人发放1000元补贴.①若该市E区有2万名外来务工人员,根据(1)的结论估计该市政府需要给E区就地过年的人员发放的补贴总金额;②若A区的外来务工人员中甲、乙选择就地过年的概率分别为p,2p−1,其中12<p<1,该市政府对甲、乙两人的补贴总金额的期望不超过1400元,求参考公式:相关系数r=i=1回归方程y=a^+【答案】(1)答案见解析,y=0.7x+0.35(2)①1750(万元);②1【分析】(1)根据表中数据和题设给出的计算公式可求相关系数,故可用线性回归模型拟合y与x之间的关系,求出回归方程后可求残差.(2)①结合(1)的回归方程可估计补贴总金额;②利用独立事件的概率公式可求补贴总金额的分布列,求出其期望后可求p的取值范围.【详解】(1)由题,x=i=14i=14xi所以相关系数r=66.5−4×4.5×3.5因为y与x之间的相关系数近似为0.99,说明y与x之间的线性相关程度非常强,所以可用线性回归模型拟合y与x之间的关系.b=故y关于x的线性回归方程为y=0.7x+0.35∵yA=2.5,y(2)(2)①将x=2代入y=0.7x+0.35,得y故估计该市政府需要给E区就地过年的人员发放的补贴总金额为1.75×1000=1750(万元).②设甲、乙两人中选择就地过年的人数为X,则X的所有可能取值为0,1,2,PX=0PX=1PX=2所以EX所以E1000X由10003p−1≤1400,得p≤45,又故p的取值范围为1222.为了解某一地区新能源电动汽车销售情况,一机构根据统计数据,用最小二乘法得到电动汽车销量y(单位:万台)关于x(年份)的线性回归方程y=4.7x−9459.2,且销量y的方差为sy2=2545(1)求y与x的相关系数r,并据此判断电动汽车销量y与年份x的线性相关性的强弱.(2)该机构还调查了该地区90位购车车主的性别与购车种类情况,得到的数据如下表:性别购买非电动汽车购买电动汽车总计男性39645女性301545总计692190依据小概率值α=0.05的独立性检验,能否认为购买电动汽车与车主性别有关?(3)在购买电动汽车的车主中按照性别进行分层抽样抽取7人,再从这7人中随机抽取3人,记这3人中男性的人数为X,求X的分布列和数学期望.①参考数据:5×127=②参考公式:线性回归方程为y=bx+a相关系数r=i=1nxi−xyK2=nP0.100.050.0100.001k2.7063.8416.63510.828【答案】(1)电动汽车销量y与年份x的线性相关性的较强;(2)依据小概率值α=0.05的独立性检验,认为购买电动汽车与车主性别有关;(3)分布列见解析,数学期望为67【分析】(1)根据给定条件,利用线性回归方程,结合相关系数公式计算作答.(2)根据给定的列联表求出K2(3)利用分层抽样求出男女性人数,再求出X的可能值及各个值对应的概率,列出分布列并求出方差作答.【详解】(1)由sx2=2,得i=1nx因为线性回归方程y=4.7x−9459.2,则b=即i=1n因此相关系数r=i=1所以电动汽车销量y与年份x的线性相关性的较强.(2)零假设H0由表中数据得:K2依据小概率值α=0.05的独立性检验,推断H0即认为购买电动汽车与车主性别有关,此推断犯错误的概率不大于0.05.(3)按购买电动汽车的车主进行分层抽样,抽取的7人中男性有7×6则X的可能值为0,1,2,P(X=0)=C所以X的分布列为:X012P241X的数学期望E(X)=0×223.某骑行爱好者近段时间在专业人士指导下对骑行情况进行了统计,各次骑行期间的身体综合指标评分x与对应用时y(单位:小时)如下表:身体综合指标评分x12345用时(y/小时)9.58.67.876.1(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(2)建立y关于x的回归方程.参考数据和参考公式:相关系数r=i=1nxi−x【答案】(1)答案见解析(2)y【分析】(1)根据表格数据可分别计算出x与y的平均值,再代入计算可得相关系数近似为−1,即可知y与x相关程度较高;(2)根据(1)中的计算结果可得b=−0.84,代入计算可得a=10.32,即可求得y关于【详解】(1)由题意得x=1+2+3+4+55i=15i=1i=15因此相关系数r=i=1即相关系数近似为−1,y与x负相关,且相关程度相当高,从而可用线性回归模型拟合y与x的关系;(2)由(1)中数据,得b=i=15所以y关于x的回归方程为y=−0.84x+10.3224.研究表明,如果温差本大,人们不注意保暖,可能会导致自身受到风寒刺激,增加感冒患病概率,特别是对于几童以及年老体弱的人群,要多加防范某中学数学建模社团成员研究了昼夜温差大小与某小学学生患感冒就诊人数多少之间的关系,他们记录了某六天的温差,并到校医室查阅了这六天中每天学生新增感冒就诊的人数,得到数据如下:日期第一天第二天第三天第四天第五天第六天昼夜温差x(°C47891412新增感就诊人数y(位)yyyyyy参考数据:i6y(1)已知第一天新增感冒就的学生中有4位男生,从第一天多增的感冒就诊的学生中随机取2位,其中男生人数记为X,若抽取的2人中至少有一位女生的概率为56,求随机变量X(2)已知两个变量x与y之间的样本相关系数r=1617,请用最小二乘法求出y关于x的经验回归方程y=bx+a【答案】(1)X的分布列见解析;E(2)15【分析】(1)首先根据抽取的2人中至少有一位女生的概率计算出y1(2)首先根据样本相关系数r和已知条件计算出x,y,进一步计算可得a,利用最小二乘法计算出y=bx+【详解】(1)因为1−C42所以y1y1−1=4×3×6=9×8,解得y1=9PX=0=C52X的分布列为X012P551X数学期望为EX(2)因为i6xi=54,所以由于r=i所以i6xi因为i6yi解得y=23,所以a=y当x=15时,y=30+5=35据此估计昼夜温差为15°C时,该校新增感冒就诊的学生人数为35.25.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若r>0.75,则线性相关程度很高,可用线性回归模型拟合);(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?附:相关系数公式r=i=2nxi−xy【答案】(1)答案见解析;(2)y=0.7x+1.5【分析】(1)利用给定的图象,求出相关系数公式中的相关量,再代入公式计算并判断作答.(2)利用(1)中信息,结合最小二乘法公式求出回归直线方程,再估计作答.【详解】(1)因为x=2+4+5+6+85i=15i=15xi因此相关系数r=i=1所以可用线性回归模型拟合y与x的关系.(2)由(1)知,b=i=15因此y=0.7x+1.5,当x=12时,y所以预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.26.我国风云系列卫星可以检测气象和国土资源情况.某地区水文研究人员为了了解汛期人工测雨量x(单位:dm)与遥测雨量y(单位:dm)的关系,统计得到该地区10组雨量数据如下:样本号i12345678910人工测雨量x5.387.996.376.717.535.534.184.046.024.235遥测雨量y5.438.076.576.147.955.564.274.156.044.49x0.050.080.20.570.420.030.090.110.020.26并计算得i=1(1)求该地区汛期遥测雨量y与人工测雨量x的样本相关系数(精确到0.01),并判断它们是否具有较强的线性相关关系(若r≥0.75(2)规定:数组(xi,yi)满足xi−y附:相关系数r=i=1【答案】(1)r≈0.98,认为具有很强的线性相关性(2)分布列见解析,E【分析】(1)根据公式求出样本相关系数,由数据判断线性相关关系的强弱;(2)由X的所有可能取值,计算相应的概率,得到分布列,再求数学期望.【详解】(1)因为r=i=1代入已知数据,得r≈357.3−10×34.02所以汛期遥测雨量y与人工测雨量x有很强的线性相关关系.(2)10组数据中,“Ⅰ类误差”有5组,“Ⅱ类误差”有3组,“Ⅲ类误差”有2组,从“Ⅰ类误差”,“Ⅱ类误差”中随机抽取3组数据,记抽到“Ⅰ类误差”的数据组数为X,由题意,X的所有可能取值为0,1 ,2 , 3.则P(X=0)=CP(X=1)=C51C3所以X的概率分布为X0123P115155所以X的数学期望E(X)=1×1527.为调查某地区植被覆盖面积x(单位:公顷)和野生动物数量y的关系,某研究小组将该地区等面积花分为400个区块,从中随机抽取40个区块,得到样本数据xi,yx…2.73.63.23.9…y…50.663.752.154.3…经计算得:i=140xi=160,i=140(1)利用最小二乘估计建立y关于x的线性回归方程;(2)该小组又利用这组数据建立了x关于y的线性回归方程,并把这两条拟合直线画在同一坐标系xOy下,横坐标x,纵坐标y的意义与植被覆盖面积x和野生动物数量y一致.设前者与后者的斜率分别为k1,k2,比较k1附:y关于x的回归方程y=a+bx中,斜率和截距的最小二乘估计公式分别为:b【答案】(1)y(2)k1【分析】(1)根据最小二乘法计算公式求解;(2)根据相关系数r≤1【详解】(1)x=16040=4,y=故回归方程为y=8x+28(2)x关于y的线性回归方程为x=ak1=b则k1又r≤1,k1,k2>0,故下证:k1若k1=k2,则代入表格
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 下半造价师工程计价知识点缺陷责任期考试试题
- 公开课英语单词快速记忆
- 高中语文第3单元古思今赏第8课寡人之于国也课件新人教版必修
- 窗帘布艺:团队卓越之旅-项目管理能力与团队合作精进之路
- 独树一帜的中国画 课件 2024-2025学年人教版初中美术九年级上册
- 高中语文10蜀道难登高课件苏教版必修
- 2024至2030年中国控天线弹簧数据监测研究报告
- 2024至2030年中国引线式石英晶体振荡器行业投资前景及策略咨询研究报告
- 2024至2030年中国差速器十字轴行业投资前景及策略咨询研究报告
- 2024至2030年中国大小鼠灌胃针行业投资前景及策略咨询研究报告
- 附件1 中国石化安全风险矩阵
- 纪检监察谈话方案范文
- 【基于杜邦分析法的企业财务报表分析文献综述2000字(论文)】
- 无铬钝化和无铬耐指纹在热镀锌基板上的应用凯密特课件
- 超长悬挑结构安全通道防护棚专项施工方案
- 苏州工业职业技术学院辅导员考试真题2022
- 小学老师小学老师说课技能 说课的基本环节
- 流感诊疗指南
- COVID-19-疫情-新冠病毒-英语作业ppt(关于抗击疫情的英雄们)
- 混凝土楼板上行走吊机时楼板承载能力计算方法
- 入监教育内容公开课
评论
0/150
提交评论