专题37成对数据的统计问题(原卷版+解析)_第1页
专题37成对数据的统计问题(原卷版+解析)_第2页
专题37成对数据的统计问题(原卷版+解析)_第3页
专题37成对数据的统计问题(原卷版+解析)_第4页
专题37成对数据的统计问题(原卷版+解析)_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题37成对数据的统计问题【高考真题】1.(2022·全国乙理)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积0.040.060.040.080.080.050.050.070.070.060.6材积量0.250.400.220.540.510.340.360.460.420.403.9并计算得.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数.1.解析(1)样本中10棵这种树木的根部横截面积的平均值样本中10棵这种树木的材积量的平均值据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为(2),则(3)设该林区这种树木的总材积量的估计值为,又已知树木的材积量与其根部横截面积近似成正比,可得,解之得.则该林区这种树木的总材积量估计为.2.(2022·新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好良好病例组4060对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(ⅰ)证明:;(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.0.0500.0100.001k3.8416.63510.828附,2.解析(1)由已知,又,,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)(i)因为,所以,所以,(ii)由已知,,又,,所以.【知识总结】1.变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2\i\su(i=1,n,)yi-\x\to(y)2))(2)相关系数r的性质①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.②样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)经验回归方程与最小二乘法我们将eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^))叫做b,a的最小二乘估计,其中eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,

)\b\lc\(\rc\)(\a\vs4\al\co1(xi-\x\to(x)))\b\lc\(\rc\)(\a\vs4\al\co1(yi-\x\to(y))),\i\su(i=1,n,

)\b\lc\(\rc\)(\a\vs4\al\co1(xi-\x\to(x)))2)=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)(2)利用决定系数R2刻画回归效果R2=1-eq\f(\i\su(i=1,n,

)\b\lc\(\rc\)(\a\vs4\al\co1(yi-\o(y,\s\up6(^))i))2,\i\su(i=1,n,

)\b\lc\(\rc\)(\a\vs4\al\co1(yi-\x\to(y)))2),R2越大,即拟合效果越好,R2越小,模型拟合效果越差.4.列联表与独立性检验(1)2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为xy合计y=y1y=y2x=x1aba+bx=x2cdc+d合计a+cb+dn=a+b+c+d(2)临界值χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828【题型突破】考向一概率与回归分析综合问题1.(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得eq\i\su(i=1,20,x)i=60,eq\i\su(i=1,20,y)i=1200,eq\i\su(i=1,20,)(xi-eq\x\to(x))2=80,eq\i\su(i=1,20,)(yi-eq\x\to(y))2=9000,eq\i\su(i=1,20,)(xi-eq\x\to(x))(yi-eq\x\to(y))=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:样本相关系数r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2\i\su(i=1,n,)yi-\x\to(y)2)),eq\r(2)≈1.414.2.如图给出了根据我国2012年~2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2012年~2018年的年份代码x为1~7).(1)根据散点图分析y与x之间的相关关系;(2)根据散点图相应数据计算得eq\i\su(i=1,7,y)i=1074,eq\i\su(i=1,7,x)iyi=4517,求y关于x的经验回归方程(精确到0.01);(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.附:经验回归直线eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).3.小区门口有一个熟食摊位,经过一段时间的统计,发现菜品种类和日销售收入之间有一定关系,具体统计数据如下表:菜品种类t45678910日销售收入y147159171184197210221(1)建立y关于t的线性回归方程;(eq\x\to(y)保留整数)(2)根据所求线性回归方程,预测如果希望日销售收入超过300元,则菜品种类至少多少种?附:线性回归直线的斜率和截距的最小二乘估计公式分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)ti-\x\to(t)yi-\x\to(y),\i\su(i=1,n,

)ti-\x\to(t)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(t),参考数据:eq\i\su(i=1,7,)(ti-eq\x\to(t))(yi-eq\x\to(y))=350,eq\i\su(i=1,7,)(ti-eq\x\to(t))2=28.4.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图①是一个马拉松跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是一次马拉松比赛(全程约42千米)前3000名跑者成绩(单位:分钟)的频率分布直方图.(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.参考公式:用最小二乘法求线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))的系数:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))·\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2)=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).参考数据:eq\x\to(y)=135.5.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.eq\x\to(x)eq\x\to(y)eq\x\to(u)eq\i\su(i=1,8,)(xi-eq\x\to(x))2eq\i\su(i=1,8,)(xi-eq\x\to(x))·(yi-eq\x\to(y))eq\i\su(i=1,8,)(ui-eq\x\to(u))2eq\i\su(i=1,8,)(ui-eq\x\to(u))·(yi-eq\x\to(y))15.253.630.2692085.5-230.30.7877.049表中ui=eq\f(1,xi),eq\x\to(u)=eq\f(1,8)eq\i\su(i=1,8,u)i.(1)根据散点图判断y=a+bx与y=c+eq\f(d,x)哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.01).(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78840元?(假设能够全部售出.结果精确到1)附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其经验回归直线eq\o(υ,\s\up6(^))=eq\o(α,\s\up6(^))+eq\o(β,\s\up6(^))ω的斜率和截距的最小二乘估计分别为eq\o(β,\s\up6(^))=eq\f(\i\su(i=1,n,)ωi-\x\to(ω)υi-\x\to(υ),\i\su(i=1,n,)ωi-\x\to(ω)2),eq\o(α,\s\up6(^))=eq\x\to(υ)-eq\o(β,\s\up6(^))eq\x\to(ω).6.艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要的CD4-T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒累计感染人数统计表:年份20142015201620172018201920202021年份代码x12345678累计感染者人数y(单位:万人)34.338.343.353.857.765.471.885(1)请根据该统计表,画出这八年我国艾滋病病毒累计感染人数的折线图;(2)请用相关系数说明:能用线性回归模型拟合y与x的关系;(3)建立y关于x的回归方程(系数精确到0.01),预测2024年我国艾滋病病毒累计感染人数.参考数据:eq\r(42)≈6.48;eq\o(∑,\s\up6(8),\s\do4(i=1))yi=449.6,eq\o(∑,\s\up6(8),\s\do4(i=1))xiyi=2319.5,eq\r(\o(∑,\s\up6(8),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2)=eq\r(42),eq\r(\o(∑,\s\up6(8),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2)=46.2,参考公式:相关系数r=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2\o(∑,\s\up6(n),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2)),回归方程:eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))中,eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).7.近年来,高铁的发展逐渐改变了人们的出行方式,我国2016~2020年高铁运营里程的数据如下表所示.年份20162017201820192020年份代码x12345高铁运营里程y(万千米)1.92.22.52.93.5(1)若x与y具有线性相关关系,求y关于x的线性回归方程;(2)每一年与前一年的高铁运营里程之差即为该年新增的里程,根据这五年的数据,若用2017~2020年每年新增里程的频率代替之后每年新增相应里程的概率,求2024年中国高铁运营里程大于或等于5万千米的概率.附:线性回归方程eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).8.每年春天,婺源的油菜花海吸引数十万游客纷至沓来,油菜花成为“中国最美乡村”的特色景观,三月,婺源篁岭油菜花海进入最佳观赏期.现统计了近七年每年(2015年用x=1表示,2016年用x=2表示)来篁岭旅游的人次y(单位:万人次)相关数据,如下表所示:x1234567y29333644485259(1)若y关于x具有较强的线性相关关系,求y关于x的线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),并预测2022年来篁岭旅游的人次;(2)为维持旅游秩序,今需A,B,C,D四位公务员去各景区值班,已知A,B,C去篁岭值班的概率均为eq\f(2,3),D去篁岭值班的概率为eq\f(1,3),且每位公务员是否去篁岭值班不受影响,用X表示此4人中去篁岭值班的人数,求X的分布列与均值.参考公式:eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,

)xi-\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).参考数据:eq\i\su(i=1,7,y)i=301,eq\i\su(i=1,7,)(xi-eq\x\to(x))(yi-eq\x\to(y))=140.9.研究机构对某校学生往返校时间的统计资料表明:该校学生居住地到学校的距离x(单位:千米)和学生花费在上学路上的时间y(单位:分钟)有如下的统计数据:到学校的距离x(千米)1.82.63.14.35.56.1花费的时间y(分钟)17.819.627.531.336.043.2由统计资料表明y与x具有线性相关关系.(1)判断y与x的相关程度;(相关系数r的绝对值大于0.75时,认为两个变量相关程度很强,精确到0.01)(2)求线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))(精确到0.01);(3)将eq\o(y,\s\up6(^))<27的时间数据eq\o(y,\s\up6(^))i称为美丽数据,现从这6个时间数据eq\o(y,\s\up6(^))i中任取2个,求抽取的2个数据全部为美丽数据的概率.参考公式:用最小二乘法求线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))的系数:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))·\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2)=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).参考数据:eq\i\su(i=1,6,y)i=175.4,eq\i\su(i=1,6,x)iyi=764.36,eq\i\su(i=1,6,)(xi-eq\x\to(x))·(yi-eq\x\to(y))=80.30,eq\i\su(i=1,6,

)(xi-eq\x\to(x))2=14.30,eq\i\su(i=1,6,

)(yi-eq\x\to(y))2=471.65,eq\r(\i\su(i=1,6,

)xi-\x\to(x)2\i\su(i=1,6,

)yi-\x\to(y)2)=82.13.10.随着中美贸易战的不断升级,越来越多的国家科技巨头加大了科技研发投入的力度.中华技术有限公司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x(亿元)与科技升级直接收益y(亿元)的数据统计如下:序号123456789101112x2346810132122232425y1322314250565868.56867.56666当0<x≤17时,建立了y与x的两个回归模型:模型①:eq\o(y,\s\up6(^))=4.1x+11.8;模型②:eq\o(y,\s\up6(^))=21.3eq\r(x)-14.4;当x>17时,确定y与x满足的线性回归方程为eq\o(y,\s\up6(^))=-0.7x+eq\o(a,\s\up6(^)).(1)根据下列表格中的数据,比较当0<x≤17时模型①、②的相关指数R2的大小,并选择拟合精度更高、更可靠的模型,预测对“麒麟”手机芯片科技升级的投入为17亿元时的直接收益回归模型模型①模型②回归方程eq\o(y,\s\up6(^))=4.1x+11.8eq\o(y,\s\up6(^))=21.3eq\r(x)-14.4eq\o(∑,\s\up6(7),\s\do4(i=1))(yi-eq\o(y,\s\up6(^))i)2182.479.2(附:刻画回归效果的相关指数R2=1-eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(yi-\o(y,\s\up6(^))i)2,\o(∑,\s\up6(n),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2),eq\r(17)≈4.1)(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿元时公司实际收益的大小;(附:用最小二乘法求线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))的系数:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))·\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2)=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)))(3)科技升级后,“麒麟”芯片的效率X大幅提高,经实际试验得X大致服从正态分布N(0.52,0.012).公司对科技升级团队的奖励方案如下:若芯片的效率不超过50%,不予奖励;若芯片的效率超过50%但不超过53%,每部芯片奖励2元;若芯片的效率超过53%,每部芯片奖励4元,记Y为每部芯片获得的奖励,求E(Y)(精确到0.01).(附:若随机变量X~N(μ,σ2)(σ>0),则P(μ-σ<X≤μ+σ)=0.6827,P(μ-2σ<X≤μ+2σ)=0.9545)考向二概率与独立性检验综合问题11.(2021·全国甲)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),P(K2≥k)0.0500.0100.001k3.8416.63510.82812.某社区管委会积极响应正在开展的“创文活动”,特制订了饲养宠物的管理规定.为了解社区住户对这个规定的态度(赞同与不赞同),工作人员随机调查了社区220户住户,将他们的态度和家里是否有宠物的情况进行了统计,得到如下2×2列联表(单位:户):赞同规定住户不赞同规定住户合计家里有宠物住户7040110家里没有宠物住户9020110合计16060220同时,工作人员还从上述调查的不赞同管理规定的住户中,用分层抽样的方法按家里有宠物、家里没有宠物抽取了18户组成样本T,进一步研究完善饲养宠物的管理规定.(1)根据上述列联表,能否在犯错误的概率不超过0.001的前提下认为“社区住户对饲养宠物的管理规定的态度与家里是否有宠物有关系”?(2)工作人员在样本T中随机抽取6户住户进行访谈,求这6户住户中,至少有1户家里没有宠物的概率P(结果用分数表示).附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.P(K2≥k0)0.100.0100.001k02.7066.63510.82813.为了了解市民对A,B运营商的5G通信服务的评价,分别从A,B运营商的用户中随机抽取100名用户对其进行测评,已知测评得分在70分以上的为优秀,测评结果如表:A运营商的100名用户的测评得分得分[40,50](50,60](60,70](70,80](80,90](90,100]频率0.180.230.30.240.030.02(1)根据频率分布直方图,求B运营商的100名用户的测评得分的平均值(同一组中的数据用该组区间的中点值为代表);(2)填写下面列联表,并根据列联表判断是否有99%的把握认为测评得分是否优秀与运营商有关?优秀非优秀总计A运营商B运营商总计附:K2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.P(K2≥k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.82814.为了响应政府“节能减排”的号召,某知名品牌汽车厂家决定生产一款纯电动汽车.生产前,厂家进行了人们对纯电动汽车接受程度的调查.在20~60岁的人群中随机抽取了100人,调查数据的频率分布直方图和接受纯电动汽车的人数与年龄的统计结果如图所示:年龄[20,28)[28,36)[36,44)[44,52)[52,60]接受的人数146152817(1)由以上统计数据填2×2列联表,并判断能否有95%的把握认为以44岁为分界点的不同年龄人群对纯电动汽车的接受程度有差异?44岁以下44岁及44岁以上总计接受不接受总计(2)若以44岁为分界点,从不接受“纯电动汽车”的人群中,按分层抽样的方法抽取8人调查不接受“纯电动汽车”的原因,现从这8人中随机抽取2人.记抽到44岁以下的人数为X,求随机变量X的分布列及数学期望.附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))P(K2≥k0)0.1000.0500.0100.001k02.7063.8416.63510.82815.推进垃圾分类处理,是落实绿色发展理念的必然选择,也是打赢污染防治攻坚战的重要环节.为了解居民对垃圾分类的了解程度,某社区居委会随机抽取1000名社区居民参与问卷测试,并将问卷得分绘制频率分布表如下:得分[30,40)[40,50)[50,60)[60,70)[70,80)[80,90)[90,100]男性人数40901201301106030女性人数2050801101004020(1)从该社区随机抽取一名居民参与问卷测试,试估计其得分不低于60分的概率;(2)将居民对垃圾分类的了解程度分为“比较了解”(得分不低于60分)和“不太了解”(得分低于60分)两类,完成2×2列联表,并判断是否有95%的把握认为“居民对垃圾分类的了解程度”与“性别”有关?单位:人性别了解程度合计不太了解比较了解男性女性合计(3)从参与问卷测试且得分不低于80分的居民中,按照性别进行分层抽样,共抽取10人,连同n(n∈N*)名男性调查员一起组成3个环保宣传队.若从这n+10中随机抽取3人作为队长,且男性队长人数占的期望不小于2.求n的最小值.附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))(n=a+b+c+d).临界值表:P(K2>k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.82816.直播带货是扶贫助农的一种新模式,这种模式是利用主流媒体的公信力,聚合销售主播的力量助力打通农产品产销链条,切实助力贫困地区农民脱贫增收.某贫困地区有统计数据显示,2020年该地利用网络直播形式销售农产品的销售主播年龄等级分布如图1所示,一周内使用直播销售的频率分布扇形图如图2所示.若将销售主播按照年龄分为“年轻人”(20岁~39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用直播销售用户”,使用次数为5次或不足5次的称为“不常使用直播销售用户”,则“经常使用直播销售用户”中有eq\f(5,6)是“年轻人”.(1)现对该地相关居民进行“经常使用网络直播销售与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,完成2×2列联表,并判断能否有85%的把握认为经常使用网络直播销售与年龄有关?使用直播销售情况与年龄列联表年轻人非年轻人总计经常使用直播销售用户不常使用直播销售用户总计(2)某投资公司在2021年年初准备将1000万元投资到“销售该地区农产品”的项目上,现有两种销售方案供选择:方案一:线下销售.根据市场调研,利用传统的线下销售,到年底可能获利30%,可能亏损15%,也可能不赔不赚,且这三种情况发生的概率分别为eq\f(7,10),eq\f(1,5),eq\f(1,10);方案二:线上直播销售.根据市场调研,利用线上直播销售,到年底可能获利50%,可能亏损30%,也可能不赔不赚,且这三种情况发生的概率分别为eq\f(3,5),eq\f(3,10),eq\f(1,10).针对以上两种销售方案,请你从均值和方差的角度为投资公司选择一个合理的方案,并说明理由.参考数据:独立性检验临界值表P(K2≥k0)0.150.100.0500.0250.010k02.0722.7063.8415.0246.635其中,K2=eq\f(nad-bc2,a+bc+da+cb+d),n=a+b+c+d.17.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷合计男女1055合计(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,均值E(X)和方差D(X).附:χ2=eq\f(nad-bc2,a+bc+da+cb+d)α0.050.01xα3.8416.63518.2018年3月份,上海出台了《关于建立完善本市生活垃圾全程分类体系的实施方案》,4月份又出台了《上海市生活垃圾全程分类体系建设行动计划(2018~2020年)》,提出到2020年底,基本实现单位生活垃圾强制分类全覆盖,居民区普遍推行生活垃圾分类制度.为加强社区居民的垃圾分类意识,推动社区垃圾分类正确投放,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.(1)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民和女性居民人数相同,男性居民中不喜欢担任垃圾分类志愿者占男性居民的eq\f(3,5),女性居民中不喜欢担任垃圾分类志愿者占女性居民的eq\f(1,5),若研究得到在犯错误概率不超过0.010的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关,则被调查的女性居民至少多少人?(2)某垃圾站的日垃圾分拣量y(千克)与垃圾分类志愿者人数x(人)满足回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),数据统计如下:志愿者人数x(人)23456日垃圾分拣量y(千克)25304045t已知eq\o(y,\s\up6(-))=eq\f(1,5)eq\i\su(i=1,5,y)i=40,eq\i\su(i=1,5,x)eq\o\al(\s\up1(2),\s\do1(i))=90,eq\i\su(i=1,5,x)iyi=885,根据所给数据求t和回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)).(3)用(2)中所求的回归方程得到与xi对应的日垃圾分拣量的估计值eq\o(y,\s\up6(^))i.当分拣数据yi与估计值eq\o(y,\s\up6(^))i满足|eq\o(y,\s\up6(^))i-yi|≤2时,则将分拣数据(xi,yi)称为一个“正常数据”.现从5个分拣数据中任取3个,记X表示取得“正常数据”的个数,求X的分布列和数学期望.附:eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\i\su(i=1,n,)(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(^))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)),K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),(n=a+b+c+d)P(K2>k0)0.1000.0500.0100.0050.001k02.7063.8416.6357.87910.82819.市教育部门为研究高中学生的身体素质与课外体育锻炼时间的关系,对该市某校200名高中学生的课外体育锻炼平均每天锻炼的时间进行了调查,数据如下表:平均每天锻炼的时间(分钟)[0,10)[10,20)[20,30)[30,40)[40,50)[50,60]总人数203644504010将学生日均课外体育锻炼时间在[40,60]内的学生评价为“课外体育达标”.(1)请根据上述表格中的统计数据填写下面2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“课外体育达标”与性别有关;性别学生评价合计课外体育不达标课外体育达标男女20110合计(2)从上述课外体育不达标的学生中,按性别用分层简单随机抽样的方法抽取10名学生,再从这10名学生中随机抽取3人了解他们锻炼时间偏少的原因,记所抽取的3人中男生的人数为随机变量X,求X的分布列和数学期望;(3)将上述调查所得到的频率视为概率来估计全市的情况,现在从该市所有高中学生中抽取4名学生,求其中恰好有2名学生课外体育达标的概率.参考公式:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.参考数据:P(K2≥k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.82820.某观影平台为了解观众对最近上映的某部影片的评价情况(评价结果仅有“好评”“差评”),从平台所有参与评价的观众中随机抽取216人进行调查,部分数据如表所示(单位:人):好评差评合计男性68108女性60合计216(1)请将2×2列联表补充完整,并判断是否有99%的把握认为“对该部影片的评价与性别有关”?(2)若将频率视为概率,从观影平台的所有给出“好评”的观众中随机抽取3人,用随机变量X表示抽到的男性观众的人数,求X的分布列;(3)在抽取的216人中,从给出“好评”的观众中利用分层抽样的方法抽取10人,从给出“差评”的观众中抽取m(m∈N*)人.现从这(10+m)人中,随机抽取2人,用随机变量Y表示抽到的给出“好评”的女性观众的人数.若随机变量Y的数学期望不小于1,求m的最大值.参考公式:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.参考数据:P(K2≥x0)0.1000.0500.0250.0100.0050.001x02.7063.8415.0246.6357.87910.828专题37成对数据的统计问题【高考真题】1.(2022·全国乙理)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积0.040.060.040.080.080.050.050.070.070.060.6材积量0.250.400.220.540.510.340.360.460.420.403.9并计算得.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数.1.解析(1)样本中10棵这种树木的根部横截面积的平均值样本中10棵这种树木的材积量的平均值据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为(2),则(3)设该林区这种树木的总材积量的估计值为,又已知树木的材积量与其根部横截面积近似成正比,可得,解之得.则该林区这种树木的总材积量估计为.2.(2022·新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好良好病例组4060对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(ⅰ)证明:;(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.0.0500.0100.001k3.8416.63510.828附,2.解析(1)由已知,又,,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)(i)因为,所以,所以,(ii)由已知,,又,,所以.【知识总结】1.变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2\i\su(i=1,n,)yi-\x\to(y)2))(2)相关系数r的性质①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.②样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)经验回归方程与最小二乘法我们将eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^))叫做b,a的最小二乘估计,其中eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,

)\b\lc\(\rc\)(\a\vs4\al\co1(xi-\x\to(x)))\b\lc\(\rc\)(\a\vs4\al\co1(yi-\x\to(y))),\i\su(i=1,n,

)\b\lc\(\rc\)(\a\vs4\al\co1(xi-\x\to(x)))2)=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)(2)利用决定系数R2刻画回归效果R2=1-eq\f(\i\su(i=1,n,

)\b\lc\(\rc\)(\a\vs4\al\co1(yi-\o(y,\s\up6(^))i))2,\i\su(i=1,n,

)\b\lc\(\rc\)(\a\vs4\al\co1(yi-\x\to(y)))2),R2越大,即拟合效果越好,R2越小,模型拟合效果越差.4.列联表与独立性检验(1)2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为xy合计y=y1y=y2x=x1aba+bx=x2cdc+d合计a+cb+dn=a+b+c+d(2)临界值χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828【题型突破】考向一概率与回归分析综合问题1.(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得eq\i\su(i=1,20,x)i=60,eq\i\su(i=1,20,y)i=1200,eq\i\su(i=1,20,)(xi-eq\x\to(x))2=80,eq\i\su(i=1,20,)(yi-eq\x\to(y))2=9000,eq\i\su(i=1,20,)(xi-eq\x\to(x))(yi-eq\x\to(y))=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:样本相关系数r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2\i\su(i=1,n,)yi-\x\to(y)2)),eq\r(2)≈1.414.1.解析(1)由已知得样本平均数为eq\x\to(y)=eq\f(1,20)eq\i\su(i=1,20,y)i=60,从而该地区这种野生动物数量的估计值为60×200=12000.(2)样本(xi,yi)(i=1,2,…,20)的相关系数为r=eq\f(\i\su(i=1,20,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,20,)xi-\x\to(x)2\i\su(i=1,20,)yi-\x\to(y)2))=eq\f(800,\r(80×9000))=eq\f(2\r(2),3)≈0.94.(3)分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.2.如图给出了根据我国2012年~2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2012年~2018年的年份代码x为1~7).(1)根据散点图分析y与x之间的相关关系;(2)根据散点图相应数据计算得eq\i\su(i=1,7,y)i=1074,eq\i\su(i=1,7,x)iyi=4517,求y关于x的经验回归方程(精确到0.01);(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.附:经验回归直线eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).2.解析(1)根据散点图可知y与x呈正线性相关.(2)由所给数据计算得eq\x\to(x)=eq\f(1,7)×(1+2+…+7)=4,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,7,)(xi-\x\to(x))(yi-\x\to(y)),\i\su(i=1,7,)(xi-\x\to(x))2)=eq\f(\i\su(i=1,7,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,7,x)\o\al(2,i)-n\x\to(x)2)=eq\f(221,28)≈7.893,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)≈eq\f(1074,7)-7.893×4≈121.86.故所求经验回归方程为eq\o(y,\s\up6(^))=7.89x+121.86.(3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明经验回归方程的拟合效果较好.3.小区门口有一个熟食摊位,经过一段时间的统计,发现菜品种类和日销售收入之间有一定关系,具体统计数据如下表:菜品种类t45678910日销售收入y147159171184197210221(1)建立y关于t的线性回归方程;(eq\x\to(y)保留整数)(2)根据所求线性回归方程,预测如果希望日销售收入超过300元,则菜品种类至少多少种?附:线性回归直线的斜率和截距的最小二乘估计公式分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)ti-\x\to(t)yi-\x\to(y),\i\su(i=1,n,

)ti-\x\to(t)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(t),参考数据:eq\i\su(i=1,7,)(ti-eq\x\to(t))(yi-eq\x\to(y))=350,eq\i\su(i=1,7,)(ti-eq\x\to(t))2=28.3.解析(1)由题意得eq\x\to(t)=eq\f(4+5+6+7+8+9+10,7)=7,eq\x\to(y)=eq\f(147+159+171+184+197+210+221,7)≈184,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,7,)(ti-\x\to(t))(yi-\x\to(y)),\i\su(i=1,7,

)(ti-\x\to(t))2)=12.5,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(t)=184-12.5×7=96.5,所以线性回归方程为eq\o(y,\s\up6(^))=12.5t+96.5.(2)由eq\o(y,\s\up6(^))=12.5t+96.5>300,解得t>16.28,所以菜品种类至少17种.4.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图①是一个马拉松跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是一次马拉松比赛(全程约42千米)前3000名跑者成绩(单位:分钟)的频率分布直方图.(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.参考公式:用最小二乘法求线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))的系数:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))·\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2)=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).参考数据:eq\x\to(y)=135.4.解析(1)由散点图中数据和参考数据得eq\x\to(x)=eq\f(4.5+5+6+7+7.5,5)=6,eq\x\to(y)=135,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,5,)(xi-\x\to(x))(yi-\x\to(y)),\i\su(i=1,5,)(xi-\x\to(x))2)=eq\f(-1.5×36+(-1)×30+0×(-5)+1×(-26)+1.5×(-35),(-1.5)2+(-1)2+02+12+1.52)=-25,eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-))=135-(-25)×6=285,所以y与x的线性回归方程为eq\o(y,\s\up6(^))=-25x+285.(2)将y=160代入回归方程得x=5,所以该跑者跑完马拉松全程所花的时间为42×5=210(分钟).从马拉松比赛前3000名跑者成绩的频率分布直方图可知成绩好于210分钟的累计频率为0.0008×50+0.0024×(210-200)=0.064,有6.4%的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是0.064×3000=192.5.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.eq\x\to(x)eq\x\to(y)eq\x\to(u)eq\i\su(i=1,8,)(xi-eq\x\to(x))2eq\i\su(i=1,8,)(xi-eq\x\to(x))·(yi-eq\x\to(y))eq\i\su(i=1,8,)(ui-eq\x\to(u))2eq\i\su(i=1,8,)(ui-eq\x\to(u))·(yi-eq\x\to(y))15.253.630.2692085.5-230.30.7877.049表中ui=eq\f(1,xi),eq\x\to(u)=eq\f(1,8)eq\i\su(i=1,8,u)i.(1)根据散点图判断y=a+bx与y=c+eq\f(d,x)哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.01).(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78840元?(假设能够全部售出.结果精确到1)附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其经验回归直线eq\o(υ,\s\up6(^))=eq\o(α,\s\up6(^))+eq\o(β,\s\up6(^))ω的斜率和截距的最小二乘估计分别为eq\o(β,\s\up6(^))=eq\f(\i\su(i=1,n,)ωi-\x\to(ω)υi-\x\to(υ),\i\su(i=1,n,)ωi-\x\to(ω)2),eq\o(α,\s\up6(^))=eq\x\to(υ)-eq\o(β,\s\up6(^))eq\x\to(ω).5.解析(1)由散点图判断,y=c+eq\f(d,x)更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程.(2)令u=eq\f(1,x),先建立y关于u的经验回归方程,由于eq\o(d,\s\up6(^))=eq\f(\i\su(i=1,8,)ui-\x\to(u)yi-\x\to(y),\i\su(i=1,8,)ui-\x\to(u)2)=eq\f(7.049,0.787)≈8.96,所以eq\o(c,\s\up6(^))=eq\x\to(y)-eq\o(d,\s\up6(^))·eq\x\to(u)=3.63-8.96×0.269≈1.22,所以y关于u的经验回归方程为eq\o(y,\s\up6(^))=1.22+8.96u,所以y关于x的非线性经验回归方程为eq\o(y,\s\up6(^))=1.22+eq\f(8.96,x).(3)假设印刷x千册,依题意得10x-eq\b\lc\(\rc\)(\a\vs4\al\co1(1.22+\f(8.96,x)))x≥78.840,所以x≥10,所以至少印刷10000册才能使销售利润不低于78840元.6.艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要的CD4-T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒累计感染人数统计表:年份20142015201620172018201920202021年份代码x12345678累计感染者人数y(单位:万人)34.338.343.353.857.765.471.885(1)请根据该统计表,画出这八年我国艾滋病病毒累计感染人数的折线图;(2)请用相关系数说明:能用线性回归模型拟合y与x的关系;(3)建立y关于x的回归方程(系数精确到0.01),预测2024年我国艾滋病病毒累计感染人数.参考数据:eq\r(42)≈6.48;eq\o(∑,\s\up6(8),\s\do4(i=1))yi=449.6,eq\o(∑,\s\up6(8),\s\do4(i=1))xiyi=2319.5,eq\r(\o(∑,\s\up6(8),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2)=eq\r(42),eq\r(\o(∑,\s\up6(8),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2)=46.2,参考公式:相关系数r=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2\o(∑,\s\up6(n),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2)),回归方程:eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))中,eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).6.解析(1)所求折线图如图所示:(2)∵eq\o(x,\s\up6(-))=eq\f(9,2),eq\o(y,\s\up6(-))=56.2,∴eq\o(∑,\s\up6(8),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))(yi-eq\o(y,\s\up6(-)))=eq\o(∑,\s\up6(8),\s\do4(i=1))xiyi-8eq\a\vs4\al(\o(x,\s\up6(-)))eq\a\vs4\al(\o(y,\s\up6(-)))=296.3,eq\r(\o(∑,\s\up6(8),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2\o(∑,\s\up6(8),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2)=eq\r(\o(∑,\s\up6(8),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2)eq\r(\o(∑,\s\up6(8),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2)=eq\r(42)×46.2≈299.376,∴r=eq\f(\o(∑,\s\up6(8),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\o(∑,\s\up6(8),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2\o(∑,\s\up6(8),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2))≈0.99.说明y与x的线性相关程度相当高,从而可用线性回归模型拟合y与x的关系.(3)∵eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(8),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(8),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2)=eq\f(296.3,42)≈7.05,eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-))=56.2-7.05×4.5≈24.48,∴eq\o(y,\s\up6(^))=7.05x+24.48.当x=11时,eq\o(y,\s\up6(^))=7.05×11+24.48=102.03.∴预测2024年我国艾滋病累计感染人数为102.03万人.7.近年来,高铁的发展逐渐改变了人们的出行方式,我国2016~2020年高铁运营里程的数据如下表所示.年份20162017201820192020年份代码x12345高铁运营里程y(万千米)1.92.22.52.93.5(1)若x与y具有线性相关关系,求y关于x的线性回归方程;(2)每一年与前一年的高铁运营里程之差即为该年新增的里程,根据这五年的数据,若用2017~2020年每年新增里程的频率代替之后每年新增相应里程的概率,求2024年中国高铁运营里程大于或等于5万千米的概率.附:线性回归方程eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论