版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题37成对数据的统计问题【高考真题】(2022•全国乙理)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m,得到如下数据:样本号i12345678910总和根部横截面积百0.040.060.040.080.080.050.050.070.070.060.6材积量升0.250.400.220.54().510.340.360.460.420.403.910 10 10并计算得=0038,22^=1.6158, =02474.i=l i=l i=l(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.工(玛-初科-莎 附:相关系数,=下产 .,x/L896»1.377.力(百-幻3(%-月2Vi=i i=i1.解析(1)样本中10棵这种树木的根部横截面积的平均值〒=辞=0.0639样本中10棵这种树木的材积量的平均值»=午=0.39据此可估计该林区这种树木平均一棵的根部横截面积为0.060?,平均一棵的材积量为O.39m310Zvi-1010Zvi-10而i=l^(百-可(Y-刃i=lPio io-i=l i=l0.2474-10x0.06x0.39 0.0134 0.0134八仙=। = = hU.97 『Ir•〜DQ77(0.038-10x0.062)(1.6158-10x0.392) V0.00018960.01377(3)设该林区这种树木的总材积量的估计值为m?,又已知树木的材积量与其根部横截面积近似成正比,可得粽=竿,解之得V=1209m3.
则该林区这种树木的总材积量估计为1209m3.(2022・新高考I)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好良好病例组4060对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,8表示事件“选到的人患有该疾病”.P(B\A)疾病”.P(B\A).P(B|A)」的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(i)证明:P(A|B)P(N|所(i)证明:(ii)利用该调查数据,给出P(AIB),尸(A|万)的估计值,并利用(i)的结果给出R的估计值.附Yn(ad-bc)20.0500.0100.001(a+b)(c4-J)(a+c)(b+d)'2.解析(1)由已知k3.8416.63510.828n(ad-be)2 _200(40x90-60x1Q)2(a+h)(c+d)(a+c)(h+d)--50x150x100x100又P(K2>6.635)=0.01,24>6.635,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)⑴因为(2)⑴因为/?=P(B|A)_P(AB)P(B\A)~P(A)P(4)P(AB)/(A)
P(AB)P(A)P(AB)4040(ii)由巳知P(A|5)=芸,1(.a)“P(AB)尸(B)P(X历P(B)(P(A|B)P(A\B)“' ~P(B)P(AB)P(B)P(AB)' -P(A\B)P(A|B)- 10 - 60 -- 90P(A\B)=—,又尸(A|B)=——,P(A|B)=—100 100 100【知识总结】.变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关..样本相关系数(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:n L(xlx)(j(—y)/=|AZx)2E(y,-y)2\//=! i=\(2)相关系数r的性质①当》0时,称成对样本数据正相关;当K0时,成对样本数据负相关:当r=0时,成对样本数据间没有线性相关关系.②样本相关系数r的取值范围为[一1,1].当团越接近1时,成对样本数据的线性相关程度越强;当|ri越接近0时,成对样本数据的线性相关程度越弱.一元线性回归模型(1)经验回归方程与最小二乘法AAA我们将y=bx+a称为卜关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的金,限叫做b,a的最小二乘估计,
E(XLxVy(—y)ijctyt-nxyAi=| i=\ AA其中b= = ,a=y-bxLxA L(X;-T)2(2)利用决定系数W刻画回归效果t(l)21=1R2=l- ,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.£(一)2厂]4.列联表与独立性检验(1)2X2列联表一般地,假设有两个分类变量X和匕它们的取值分别为{由,X2}和{yi,》},其2X2列联表为Xy合计y=vy=>2X=X\aha+bX=X2cdc+d合计a+cb+d〃=a+b+c+d(2)临界值n(ad-bc)~(a+b)(c+J)(a+c)(b+</)'忽略n(ad-bc)~(a+b)(c+J)(a+c)(b+</)'忽略Z2的实际分布与该近似分布的误差后,对于任何小概率值a,可以找到相应的正实数%,使得P(Z2^x„)=a成立.我们称x.为a的临界值,这个临界值就可作为判断力大小的标准.(3)独立性检验基于小概率值a的检验规则是:当Z22/时,我们就推断为不成立,即认为X和V不独立,该推断犯错误的概率不超过a;当/〈Xa时,我们没有充分证据推断Ho不成立,可以认为X和丫独立.这种利用/的取值推断分类变量X和y是否独立的方法称为/独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了X2独立性检验中几个常用的小概率值和相应的临界值aa0.10.050.010.0050.001Xa2.7063.8416.6357.87910.828【题型突破】考向一概率与回归分析综合问题1.(2020•全国H)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20
个作为样区,调查得到样本数据(X”y,)(i=l,2,…,20),其中为和m分别表示第i个样区的植物覆盖TOC\o"1-5"\h\z20 20 20 ―面积(单位:公顷)和这种野生动物的数量,并计算得=60,L.v,=l200,Z(即一x)2=80,20 _ 20 _ _I(y(-y)2=9000,S(Xi-x)(y,-y)=800./=1 i=l(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(X”y,)(i=1,2, 20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.X(XLX)(y,y)附:样本相关系数r= / ,啦七1.414.aL(xi-x)2L(y1-y)2\尸I i=12.如图给出了根据我国2012年〜2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2012年〜2018年的年份代码x为1〜7).8(7(6(5(4(3(2(我国2012年〜2()18年水果人均占有量散点图8(7(6(5(4(3(2( * 「-一♦…二 匈 我国2012年〜2。18年水果人均占有最残差图三三三三三三三三三三三三 11 : - : 4 ,•:L। । । । । । 1 . I 1 2 § 4 <年份1234567年份代码_坪"《 ^码乂1)根据散点图分析y与x之间的相关关系;TOC\o"1-5"\h\z7 7⑵根据散点图相应数据计算得»产1074,2>沙=4517,求y关于x的经验回归方程(精确到0.01);i=l i=l(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.n_ _z(XLx)8-y)附:经验回归直线;=;+£中斜率和截距的最小二乘估计公式分别为 ,a=~-L(XLx)2f=lAbx..小区门口有一个熟食摊位,经过一段时间的统计,发现菜品种类和日销售收入之间有一定关系,具体统计数据如下表:菜品种类r45678910日销售收入y147159171184197210221(1)建立y关于f的线性回归方程;(y保留整数)(2)根据所求线性回归方程,预测如果希望日销售收入
超过300元,则菜品种类至少多少种?£一一7)8一7)Af=l A_A_附:线性回归直线的斜率和截距的最小二乘估计公式分别为〃= ,a=y-bt,£("-7)2产17 _ _ 7 _参考数据:Z(Lt)8—y)=350,X(/,—t>=28.i=l i=\.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图①是一个马拉松跑者的心率),(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是一次马拉松比赛(全程约42千米)前3000名跑者成绩(单位:分钟)的频率分布直方图.心率〃(次/分钟) -一彳< 0.00660.0054--।।। nnni9频率-r-t-IT 0.00240.00160.0008_4 八一171165130109100“4.55677.5配速x/(分钟/千米)“够沁网0机2◎成绩/分钟图① 图② (1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.aaa -^..x/yi—nx-yE(x,-x)(y,-y)参考公式:用最小二乘法求线性回归方程丫=加+。的系数:6=号 二 £忌—〃X2 (Xj-x)2A-A一a—y-bx.参考数据:~=135.101520253()35404550.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.101520253()35404550印刷数最主/T•册
XU8 _E(Xi—X)2产18 _z(Xj-X)i=l■(yi—y)8 _Z(%—M)2Z=|8 _Z(曲一U)i=l■(yj—y)15.253.630.2692085.5-230.30.7877.049表中Ui=~,U=gEtt,.由o._.(1)根据散点图判断y=a+bx与y=c+§哪一个模型更适合作为该图书每册的成本费M单位:元)与印刷数量M单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.01).(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78840元?(假设能够全部售出.结果精确到1)AAA附:对于一组数据(®,V])9(CO2>"2),…,(g,"〃),其经验回归直线o=a+%0的斜率和截距的最小n E®L8V)Af=1 A A二乘估计分别为夕= ,a=v—pco.E(<O|-3A(-1.艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要的CD4-T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒累计(1)请根据该统计表,画出这八年我国艾滋病病毒累计感染人数的折线图;(2)请用相关系数说明:能用线性回归模型拟合y与x的关系;(3)建立y关于x的回归方程(系数精确到0.01),预测2024年我国艾滋病病毒累计感染人数.TOC\o"1-5"\h\z8 8 /8 /8参考数据:^42^6.48;^,=449.6,^,=2319.5,M(x,—7)2=^/42,yl(y,—7)2=46.2,n— —£(Xi-x)8—y)参考公式:相关系数r——〃 >7£(xT)2£8-亍)2AAAA/(为一工)8—丫)A-A-回归方程:y=kr+。中,b= ; 二 ,a—y-bx.方(为一x)2i=i.近年来,高铁的发展逐渐改变了人们的出行方式,我国2016〜2020年高铁运营里程的数据如下表所示.年份20162017201820192020年份代码X12345高铁运营里程y(万千米)1.92.22.52.93.5(1)若x与y具有线性相关关系,求y关于x的线性回归方程;(2)每一年与前一年的高铁运营里程之差即为该年新增的里程,根据这五年的数据,若用2017〜2020年每年新增里程的频率代替之后每年新增相应里程的概率,求2024年中国高铁运营里程大于或等于5万千米的概率.aaa "^Xiyt-nxy附:线性回归方程y=a+bx中斜率和截距的最小二乘估计公式分别为:b=T -x21=1A——A——a=y—bx..每年春天,婺源的油菜花海吸引数十万游客纷至沓来,油菜花成为“中国最美乡村”的特色景观,三月,婺源篁岭油菜花海进入最佳观赏期.现统计了近七年每年(2015年用x=l表示,2016年用x=2表示)来篁岭旅游的人次y(单位:万人次)相关数据,如下表所示:X1234567y29333644485259⑴若y关于x具有较强的线性相关关系,求y关于x的线性回归方程£=源+1,并预测2022年来篁岭旅游的人次;(2)为维持旅游秩序,今需A,B,C,。四位公务员去各景区值班,已知A,B,C去篁岭值班的概率均2 1为东。去篁岭值班的概率为京且每位公务员是否去篁岭值班不受影响,用X表示此4人中去篁岭值班的人数,求X的分布列与均值.L(Xi-x)8-y)ALI AA一参考公式:b— ,ci—y-bx・Z(为一X)27 7 _ _参考数据:»>=301,L(Xi-x)(y,-y)=140.r=i i=i.研究机构对某校学生往返校时间的统计资料表明:该校学生居住地到学校的距离x(单位:千米)和学生花费在上学路上的时间y(单位:分钟)有如下的统计数据:到学校的距离M千米)1.82.63.14.35.56.1花费的时间y(分钟)17.819.627.531.336.043.2由统计资料表明y与x具有线性相关关系.(1)判断y与x的相关程度;(相关系数r的绝对值大于0.75时,认为两个变量相关程度很强,精确到0.01)(2)求线性回归方程£=源+1(精确到0.01);(3)将£<27的时间数据标称为美丽数据,现从这6个时间数据;,中任取2个,求抽取的2个数据全部为美丽数据的概率.AAA aEx/y,—nx-yI(x,-x)(y,-y)参考公式:用最小二乘法求线性回归方程y=%x+a的系数:b=- 二 苫君一"X2 £(x,--X)2TOC\o"1-5"\h\z八 八a-y-bx.6 6 6 _ _ 6 _ 6一参考数据:»,,=175.4, 764.36,£(x,—x).(y,-y)=8O.3O,£(x,-x)2=14.30,Y(y,—y)2i=\ i=l 尸1 i=l .=1=471.65,=82.13.=471.65,=82.13..随着中美贸易战的不断升级,越来越多的国家科技巨头加大了科技研发投入的力度.中华技术有限公司拟对“朗麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x(亿元)与科技升级直接收益y(亿元)的数据统计如下:序号123456789101112X2346810132122232425y1322314250565868.56867.56666当0<x<17时,建立了y与x的两个回归模型:模型①:y=4.1x+11.8;模型②:y=21.3-\/x—14.4;A A当x>17时,确定y与x满足的线性回归方程为y=-0.7x+a.(1)根据下列表格中的数据,比较当0<x〈17时模型①、②的相关指数R2的大小,并选择拟合精度更高、更可靠的模型,预测对“麒麟”手机芯片科技升级的投入为17亿元时的直接收益回归模型模型①模型②回归方程y=4.1x+11.8y=21.3^/x-14.47 A石8一4182.479.2n八J.一(附:刻画回归效果的相关指数 —,717^4.1),?!(yt-y尸(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿元时公司实际收益的大小;TOC\o"1-5"\h\zn __n_ _aaa " xyE(x,—x)(y,—y)(附:用最小二乘法求线性回归方程y=Z?x+a的系数: 二 ,£《一〃x2 £(为一x)21=1 1=1A—A一a=y—hx)(3)科技升级后,“麒麟”芯片的效率X大幅提高,经实际试验得X大致服从正态分布M0.52,OOI)公司对科技升级团队的奖励方案如下:若芯片的效率不超过50%,不予奖励;若芯片的效率超过50%但不超过53%,每部芯片奖励2元;若芯片的效率超过53%,每部芯片奖励4元,记丫为每部芯片获得的奖励,求E(K)(精确到0.01).(附:若随机变量X〜M/z,/)。>0),则Pa—o<XW〃+<7)=0.6827,P(/<-2o<X^/z+2ct)=0.9545)考向二概率与独立性检验综合问题11.(2021・全国甲)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?, 〃(ad-be)2 附:*=(a+b)(c+4)(a+c)P+")'尸(联。灯0.0500.0100.001k3.8416.63510.828.某社区管委会积极响应正在开展的“创文活动”,特制订了饲养宠物的管理规定.为了解社区住户对这个规定的态度(赞同与不赞同),工作人员随机调查了社区220户住户,将他们的态度和家里是否有宠物的情况进行了统计,得到如下2x2列联表(单位:户):赞同规定住户不赞同规定住户合计家里有宠物住户7040110家里没有宠物住户9020110合计16060220同时,工作人员还从上述调查的不赞同管理规定的住户中,用分层抽样的方法按家里有宠物、家里没有宠物抽取了18户组成样本7,进一步研究完善饲养宠物的管理规定.(1)根据上述列联表,能否在犯错误的概率不超过0.001的前提下认为“社区住户对饲养宠物的管理规定的态度与家里是否有宠物有关系”?(2)工作人员在样本7中随机抽取6户住户进行访谈,求这6户住户中,至少有1户家里没有宠物的概率P(结果用分数表示).〃(.ad—be)2 .附:*=(a+b)(c+d)(a+c)(b+d),其中“=a+6+c+dP(K2>ko)0.100.0100.001ko2.7066.63510.828.为了了解市民对A,8运营商的5G通信服务的评价,分别从A,8运营商的用户中随机抽取100名用户对其进行测评,已知测评得分在70分以上的为优秀,测评结果如表:A运营商的100名用户的测评得分得分[40,50](50,60](60,70](70,80](80,90](90,100]频率0.180.230.30.240.030.02
平均值(同一组中的数据用该组区间的中点值为代表);(2)填写下面列联表,并根据列联表判断是否有99%的把握认为测评得分是否优秀与运营商有关?优秀非优秀总计A运营商8运营商总计附:“2=(°+妨其中〃="+'+c+”P(K22心)0.1000.0500.0250.0100.001ko2.7063.8415.0246.63510.828.为了响应政府“节能减排”的号召,某知名品牌汽车厂家决定生产一款纯电动汽车.生产前,厂家进行了人们对纯电动汽车接受程度的调查.在20〜60岁的人群中随机抽取了100人,调查数据的频率分布直方图和接受纯电动汽车的人数与年龄的统计结果如图所示:年龄[20,28)[28,36)[36,44)[44,52)[52,60]接受的人数146152817(1)由以上统计数据填2X2列联表,并判断能否有95%的把握认为以44岁为分界点的不同年龄人群对纯电动汽车的接受程度有差异?44岁以下44岁及44岁以上总计接受不接受总计(2)若以44岁为分界点,从不接受“纯电动汽车”的人群中,按分层抽样的方法抽取8人调查不接受“纯电动汽车”的原因,现从这8人中随机抽取2人.记抽到44岁以下的人数为X,求随机变量X的分布列及数学期望.附:心=…(:鬻%…P(K2/)0.1000.0500.0100.001ko2.7063.8416.63510.828.推进垃圾分类处理,是落实绿色发展理念的必然选择,也是打赢污染防治攻坚战的重要环节.为了解居民对垃圾分类的了解程度,某社区居委会随机抽取1000名社区居民参与问卷测试,并将问卷得分绘制频率分布表如下:得分[30,40)[40,50)[50,60)[60,70)[70,80)[80,90)[90,100]男性人数40901201301106030女性人数2050801101004020(1)从该社区随机抽取一名居民参与问卷测试,试估计其得分不低于60分的概率;(2)将居民对垃圾分类的了解程度分为“比较了解”(得分不低于60分)和“不太了解”(得分低于60分)两类,完成2X2列联表,并判断是否有95%的把握认为“居民对垃圾分类的了解程度”与“性别”有关?单位:人性别了解程度合计不太了解 比较了解男性女性合计(3)从参与问卷测试且得分不低于80分的居民中,按照性别进行分层抽样,共抽取10人,连同〃(〃GN*)名男性调查员一起组成3个环保宣传队.若从这〃+10中随机抽取3人作为队长,且男性队长人数占的期望不小于2.求〃的最小值., "(ad-be)2 附:长=(a+b)(c+d)(a+cXb+d)('n=a+b+c+d^-临界值表:P(K2>ko)0.150.100.050.0250.0100.0050.001ko2.0722.7063.8415.0246.6357.87910.82816.直播带货是扶贫助农的一种新模式,这种模式是利用主流媒体的公信力,聚合销售主播的力量助力打通农产品产销链条,切实助力贫困地区农民脱贫增收.某贫困地区有统计数据显示,2020年该地利用
网络直播形式销售农产品的销售主播年龄等级分布如图1所示,一周内使用直播销售的频率分布扇形图如图2所示.若将销售主播按照年龄分为"年轻人"(20岁〜39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用直播销售用户”,使用次数为5次或不足5次的称为“不常使用直播销售用户”,则“经常使用直播销售用户”中有看是“年轻人”.(1)(1)现对该地相关居民进行“经常使用网络直播销售与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,完成2X2列联表,并判断能否有85%的把握认为经常使用网络直播销售与年龄有关?使用直播销售情况与年龄列联表年轻人非年轻人总计经常使用直播销售用户不常使用直播销售用户总计(2)某投资公司在2021年年初准备将1000万元投资到“销售该地区农产品”的项目上,现有两种销售方案供选择:方案一:线下销售.根据市场调研,利用传统的线下销售,到年底可能获利30%,可能亏损15%,也可能不赔不赚,且这三种情况发生的概率分别为瑞,吉;方案二:线上直播销售.根据市场调研,利用线上直播销售,到年底可能获利50%,可能亏损30%,也可能不赔不赚,且这三种情况发生的概率分别为,,焉存针对以上两种销售方案,请你从均值和方差的角度为投资公司选择一个合理的方案,并说明理由.其中,群=其中,群=P(K2》依)0.150.100.0500.0250.010ko2.0722.7063.8415.0246.635n=a+h+c+d.(a+〃)(c+d)(a+c)(b+d)9be)?17.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.f频率|翻0.010-0.005 1-卜 10102。3。4050 时间/分钟(1)根据已知条件完成下面的2X2列联表,据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷合计男女1055合计(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,均值E(X)和方差C(X). n(ad-bcY '(a+h)(c+(Z)(a+c)(b+ma0.050.01Xa3.8416.63518.2018年3月份,上海出台了《关于建立完善本市生活垃圾全程分类体系的实施方案》,4月份又出台了《上海市生活垃圾全程分类体系建设行动计划(2018〜2020年)》,提出到2020年底,基本实现单位生活垃圾强制分类全覆盖,居民区普遍推行生活垃圾分类制度.为加强社区居民的垃圾分类意识,推动社区垃圾分类正确投放,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.(1)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民和女性居民人数相同,男性居民中不喜欢担任垃圾分类志愿者占男性居民的本女性居民中不喜欢担任垃圾分类志愿者占女性居民的/若研究得到在犯错误概率不超过0.010的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关,则被调查的女性居民至少多少人?(2)某垃圾站AAA的日垃圾分拣量y(千克)与垃圾分类志愿者人数x(人)满足回归方程y=bx+a,数据统计如下:志愿者人数M人)23456日垃圾分拣量y(千克)25304045t__15 5 5 AAA已知y=5£j»=40, ;=90,弘通=885,根据所给数据求/和回归方程y=bx+a.J1=1 /=l i=\(3)用(2)中所求的回归方程得到与x,•对应的日垃圾分拣量的估计值当分拣数据9与估计值£满足6一训《2时,则将分拣数据8,»)称为一个“正常数据”.现从5个分拣数据中任取3个,记X表示取得“正常数据”的个数,求X的分布列和数学期望.L(为一x)(y,—y);=1A AAA 附:b= ,a=y—bx,E(Xi-X)2, “(od-6c)2 K=(a+b)(c+d)(a+c)(b+d),(n=a+b+c+d)PtK^ko)0.1000.0500.0100.0050.001ko2.7063.8416.6357.87910.82819.市教育部门为研究高中学生的身体素质与课外体育锻炼时间的关系,对该市某校200名高中学生的课外体育锻炼平均每天锻炼的时间进行了调查,数据如下表:平均每天锻炼的时间(分钟)[0,10)[10,20)[20,30)[30,40)[40,50)[50,60]总人数203644504010将学生日均课外体育锻炼时间在[40,60]内的学生评价为“课外体育达标”.(1)请根据上述表格中的统计数据填写下面2X2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“课外体育达标”与性别有关;性别学生评价合计课外体育不达标课外体育达标男女20110合计(2)从上述课外体育不达标的学生中,按性别用分层简单随机抽样的方法抽取10名学生,再从这10名学生中随机抽取3人了解他们锻炼时间偏少的原因,记所抽取的3人中男生的人数为随机变量X,求X的分布列和数学期望;(3)将上述调查所得到的频率视为概率来估计全市的情况,现在从该市所有高中学生中抽取4名学生,求其中恰好有2名学生课外体育达标的概率.参考公式:K2=( ? ,其中〃=a+6+c+d.(a十b)(c+a)(a十c)(b十a)参考数据:
尸(心心)0.100.050.0250.0100.0050.001ko2.7063.8415.0246.6357.87910.82820.某观影平台为了解观众对最近上映的某部影片的评价情况(评价结果仅有“好评”“差评”),从平台所有参与评价的观众中随机抽取216人进行调查,部分数据如表所示(单位:人):好评差评合计男性68108女性60合计216(1)请将2X2列联表补充完整,并判断是否有99%的把握认为“对该部影片的评价与性别有关”?(2)若将频率视为概率,从观影平台的所有给出“好评”的观众中随机抽取3人,用随机变量X表示抽到的男性观众的人数,求X的分布列;参考数据:(3)在抽取的216人中,从给出“好评”的观众中利用分层抽样的方法抽取10人,从给出“差评”的观众中抽取皿/nCN*)人.现从这(10+m)人中,随机抽取2人,用随机变量V表示抽到的给出“好评”的女性观众的人数.若随机变量丫的数学期望不小于1,求机的最大值.参考数据:P(K2,o)0.1000.0500.0250.0100.0050.001Xo2.7063.8415.0246.6357.87910.828参考公式:'(黑C)3+0,其中〃=a+b+c+d.专题37成对数据的统计问题【高考真题】(2022•全国乙理)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m,得到如下数据:样本号i12345678910总和根部横截面积百0.040.060.040.080.080.050.050.070.070.060.6材积量升0.250.400.220.54().510.340.360.460.420.403.910 10 10并计算得=0038,22^=1.6158, =02474.i=l i=l i=l(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.工(玛-初科-莎 附:相关系数,=下产 .,x/L896»1.377.力(百-幻3(%-月2Vi=i i=i1.解析(1)样本中10棵这种树木的根部横截面积的平均值〒=辞=0.0639样本中10棵这种树木的材积量的平均值»=午=0.39据此可估计该林区这种树木平均一棵的根部横截面积为0.060?,平均一棵的材积量为O.39m310Zvi-1010Zvi-10而i=l^(百-可(Y-刃i=lPio io-i=l i=l0.2474-10x0.06x0.39 0.0134 0.0134八仙=। = = hU.97 『Ir•〜DQ77(0.038-10x0.062)(1.6158-10x0.392) V0.00018960.01377(3)设该林区这种树木的总材积量的估计值为m?,又已知树木的材积量与其根部横截面积近似成正比,可得粽=竿,解之得V=1209m3.
则该林区这种树木的总材积量估计为1209m3.(2022・新高考I)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好良好病例组4060对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,8表示事件“选到的人患有该疾病”.P(B\A)疾病”.P(B\A).P(B|A)」的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(i)证明:P(A|B)P(N|所(i)证明:(ii)利用该调查数据,给出P(AIB),尸(A|万)的估计值,并利用(i)的结果给出R的估计值.附Yn(ad-bc)20.0500.0100.001(a+b)(c4-J)(a+c)(b+d)'2.解析(1)由已知k3.8416.63510.828n(ad-be)2 _200(40x90-60x1Q)2(a+h)(c+d)(a+c)(h+d)--50x150x100x100又P(K2>6.635)=0.01,24>6.635,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)⑴因为(2)⑴因为/?=P(B|A)_P(AB)P(B\A)~P(A)P(4)P(AB)/(A)
P(AB)P(A)P(AB)4040(ii)由巳知P(A|5)=芸,1(.a)“P(AB)尸(B)P(X历P(B)(P(A|B)P(A\B)“' ~P(B)P(AB)P(B)P(AB)' -P(A\B)P(A|B)- 10 - 60 -- 90P(A\B)=—,又尸(A|B)=——,P(A|B)=—100 100 100【知识总结】.变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关..样本相关系数(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:n L(xlx)(j(—y)/=|AZx)2E(y,-y)2\//=! i=\(2)相关系数r的性质①当》0时,称成对样本数据正相关;当K0时,成对样本数据负相关:当r=0时,成对样本数据间没有线性相关关系.②样本相关系数r的取值范围为[一1,1].当团越接近1时,成对样本数据的线性相关程度越强;当|ri越接近0时,成对样本数据的线性相关程度越弱.一元线性回归模型(1)经验回归方程与最小二乘法AAA我们将y=bx+a称为卜关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的金,限叫做b,a的最小二乘估计,
E(XLxVy(—y)ijctyt-nxyAi=| i=\ AA其中b= = ,a=y-bxLxA L(X;-T)2(2)利用决定系数W刻画回归效果t(l)21=1R2=l- ,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.£(一)2厂]4.列联表与独立性检验(1)2X2列联表一般地,假设有两个分类变量X和匕它们的取值分别为{由,X2}和{yi,》},其2X2列联表为Xy合计y=vy=>2X=X\aha+bX=X2cdc+d合计a+cb+d〃=a+b+c+d(2)临界值n(ad-bc)~(a+b)(c+J)(a+c)(b+</)'忽略n(ad-bc)~(a+b)(c+J)(a+c)(b+</)'忽略Z2的实际分布与该近似分布的误差后,对于任何小概率值a,可以找到相应的正实数%,使得P(Z2^x„)=a成立.我们称x.为a的临界值,这个临界值就可作为判断力大小的标准.(3)独立性检验基于小概率值a的检验规则是:当Z22/时,我们就推断为不成立,即认为X和V不独立,该推断犯错误的概率不超过a;当/〈Xa时,我们没有充分证据推断Ho不成立,可以认为X和丫独立.这种利用/的取值推断分类变量X和y是否独立的方法称为/独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了X2独立性检验中几个常用的小概率值和相应的临界值aa0.10.050.010.0050.001Xa2.7063.8416.6357.87910.828【题型突破】考向一概率与回归分析综合问题1.(2020•全国H)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20
个作为样区,调查得到样本数据(即,W(i=l,2,…,20),其中即和y-分别表示第i个样区的植物覆盖TOC\o"1-5"\h\z20 20 20 _面积(单位:公顷)和这种野生动物的数量,并计算得刀产60,Zm=1200,Z(为一无)2=80,20 _ 20 _ _Z(yi-y)2=9000,Z(Xi-x)8—y)=800./=1 i=\(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(X”yi)(i=l,2, 20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.I(XLX)8-y)i=l附:样本相关系数,=,^2^1.414.附:样本相关系数,=f(x,—T)2f(y,—~)21=1 j=1— 120.解析(1)由已知得样本平均数为y=而»>=60,从而该地区这种野生动物数量的估计值为60x200=12000.Exlxy,—y产1 unno-x/?(2)样本8,y.)(i=1,2,…,20)的相关系数为r=—^=—====^8Ox9Oo6=3"0-94-agw-x2Xy<-y2\li=i 尸।(3)分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计..如图给出了根据我国2012年〜2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2012年〜2018年的年份代码x为1〜7).我国2012年~我国2012年~2018年水果人均占有量散点图7年份代码x7 7点图分析y与x之间的相关关系;(2)根据散点图相应数据计算得»,产1074,8以=4517,求y关于f=l /=!x的经验回归方程(精确到0.01);(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.M E(XLX)8-y)附:经验回归直线;=;+£中斜率和截距的最小二乘估计公式分别为 ,a=7-L(XLX)2/=1Abx.2.解析(1)根据散点图可知y与x呈正线性相关.(2)由所给数据计算得x=;x(l+2+…+7)=4,7 _ _ 7 E(XLX)(y,—y)»iy「nxy",=l 1=1 221A—A—1074b= = =石=7.893,a=y~bx=^—7.893x4=121.86.7 _ 7 _K /E(Xj—X)2 方孑一〃X2i=\ i=\A故所求经验回归方程为y=7.89x+121.86.(3)由题中给出的残差图知历年数据的残差均在一2到2之间,说明经验回归方程的拟合效果较好.3.小区门口有一个熟食摊位,经过一段时间的统计,发现菜品种类和日销售收入之间有一定关系,具体统计数据如下表:菜品种类r45678910日销售收入y147159171184197210221(1)建立y关于r的线性回归方程;(y保留整数)(2)根据所求线性回归方程,预测如果希望日销售收入超过300元,则菜品种类至少多少种?Z(力-f)8-y)附:线性回归直线的斜率和截距的最小二乘估计公式分别为方= ,a=~y~h~,Z(6-7)2i=]7 _ _ 7 _参考数据:L(ti-t)(y>~y)=350,Xa,—t)2=28.产1 i=l3.解析(13.解析(1)由题意得7=4+5+6+7+8+9+10
7—147+159+171+184+197+210+221y= w -184,7 _ _E(lt)8-y)h= =12.5,a=~一度=184-12.5x7=96.5,Z(r-7)2
A A所以线性回归方程为y=12.5r+96.5.⑵由y=12.5r+96.5>300,解得36.28,所以菜品种类至少17种..配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图①是一个马拉松跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是一次马拉松比赛(全程约42千米)前3000名跑者成绩(单位:分钟)的频率分布直方图.171165心率〃(次/171165心率〃(次/分钟) rf0.0066■10.00541301091001 11「一•0.0032-・—T一1I111「一•♦-'।।।।•।।।।•।।0.00240.00160.0008O1 ।14.55677.5配速x/(分钟/千米)图①图② (1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.AAA " nx-yI:(X,-x)(y,-y)参考公式:用最小二乘法求线性回归方程y=bx+a的系数: 二 ■"X2 ,£(X/-X)2A-A一a=y-bx,参考数据:y=135.y=135,.解析(1)由散点图中数据和参考数据得+5+y=135,L(即一x)(y<—y)a T.5x36+(—l)x30+0x(-5)+lx(-26)+1.5x(-35)b=jZ= (-1.5)2+(-l)2+02+l2+1.52£(X,—X)2a=7-bl=135-(-25)x6=285,所以y与x的线性回归方程为Q=-25x+285.(2)将y=160代入回归方程得x=5,所以该跑者跑完马拉松全程所花的时间为42x5=210(分钟).从马拉松比赛前3000名跑者成绩的频率分布直方图可知成绩好于210分钟的累计频率为0.0008x50+0.0024x(210-200)=0.064,有6.4%的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是0.064x3000=192.
.某机构为研究某种图书每册的成本费W单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.21),151()521),151()57VUZ(X,—X)2f=lZ(为一x)尸1,(y-y)8 -Z(«/—u)2i=l8 _Z(〃LU)i=l•8—y)15.253.630.2692085.5-230.30.7877.049o101520253035404550印刷数量x/千册1 — ]8表中出=不,u(1)根据散点图判断y=a+bx与y=c+(哪一个模型更适合作为该图书每册的成本费•单位:元)与印刷数量M单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.01).(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78840元?(假设能够全部售出.结果精确到1)AAA附:对于一组数据(①1,D1),(①2,&2),…,(叫,丹),其经验回归直线D=q+4①的斜率和截距的最小Z3-co)(Vi-V)A|=I A A二乘估计分另“为少= ,a=v-Pco.n Z(@—CD)25.解析(1)由散点图判断,y=c+§更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程.(2)令“=:,先建立y关于“的经验回归方程,8 _ _Z(«<-«)8-y)A/=, 7049 人一八一由于d= =六西七8.96,所以c=y-du=3.63-8.96X0.269^1.22,所以y关于〃8 U./o/£(m,—W)2的经验回归方程为、=1.22+8.96“,所以),关于x的非线性经验回归方程为;=1.22+些詈.
(3)假设印刷x千册,依题意得10x—(1.22+一}》78.840,所以应10,所以至少印刷1OOOO册才能使销售利润不低于78840元.6.艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要的CD4-T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒累计(1)请根据该统计表,画出这八年我国艾滋病病毒累计感染人数的折线图;(2)请用相关系数说明:能用线性回归模型拟合y与x的关系;TOC\o"1-5"\h\z(3)建立y关于x的回归方程(系数精确到0.01),预测2024年我国艾滋病病毒累计感染人数.g 8 I8 /8参考数据:版Q6.48;,?y=449.6,4孙=2319.5,\l(x,—7)2=a/42>叁7y=46.2,n_ _ n_ _El(XLX)8—y) AAAA,5.(Xi-x)(y,-y)A参考公式:相关系数r=]“ _,回归方程:y=bx+a中,h=Lj~^ 二 ,a(为一1)2,?i⑴-7> 昌xA—A——=y-hx.6.解析(1)所求折线图如图所示:
》(万人)°12345678910«(2)v7=^,7=56.2, (XL()出一])=£划一81歹=296.3,》(万人)X(xlxN£(yi-7)X(xlx8一一N(X,—X)(y,—y)‘8 _8 _@99.三8一1茂说明y与x的线性相关程度相当高,从而可用线性回归模型拟合y与x的关系.8 _ _"Xx)(y-y)2963a__a-(3)Vfe=——s z =-77-^7.05,a=y~bx=56.2—7.05x4.5=2448,£(XLX产A A.\y=7.05x+24.48.当x=U时,y=7.05x11+24.48=102.03.,预测2024年我国艾滋病累计感染人数为102.03万人.7.近年来,高铁的发展逐渐改变了人们的出行方式,我国2016〜2020年高铁运营里程的数据如下表所示.年份20162017201820192020年份代码X12345高铁运营里程y(万千米)1.92.22.52.93.5(1)若X与y具有线性相关关系,求y关于X的线性回归方程;(2)每一年与前一年的高铁运营里程之差即为该年新增的里程,根据这五年的数据,若用2017〜2020年每年新增里程的频率代替之后每年新增相应里程的概率,求2024年中国高铁运营里程大于或等于5万千米的概率.” ——.aaa “Lxiyi-nxy附:线性回归方程中斜率和截距的最小二乘估计公式分别为:b=L-\ 二~Exf-〃x21=1A-A一a—y-bx.
7.解析(l)x=3(l+2+3+4+5)=3,y=*(l.9+2.2+2.5+2.9+3.5)=2.6.5 5^^=1x1.9+2x2.2+3x2.5+4x2.9+5x3.5=42.9,工x?=1+4+9+16+25=55,a二为加-5a二为加-5xy所以6="~5 ~~^x1-5x242.9-5x3x2.655—5x3?-=。39,4=2.6—0.39x3=1.43,所以y关于x的线性回归方程为y=0.39x+1.43.相应概率为e)4+cG)R+c&rq)匕*a23所以2024年中国高铁运营里程大于或等于5万千米的概率为1一费8.每年春天,婺源的油菜花海吸引数十万游客纷至沓来,油菜花成为“中国最美乡村”的特色景观,三月,婺源篁岭油菜花海进入最佳观赏期.现统计了近七年每年(2015年用x=l表示,2016年用x=2表示)来篁岭旅游的人次义单位:万人次)相关数据,如下表所示:X1234567y29333644485259(1)若y关于x具有较强的线性相关关系,求y关于x的线性回归方程£=源+1,并预测2022年来篁岭旅游的人次;(2)为维持旅游秩序,今需A,B,C,。四位公务员去各景区值班,已知A,B,C去篁岭值班的概率均2 1为东。去篁岭值班的概率为点且每位公务员是否去篁岭值班不受影响,用X表示此4人中去篁岭值班的人数,求X的分布列与均值.■L(XLX)8-y),八I A-A一参考公式:b= ,a=y-bx.t(XLX)21=17 7 _ _参考数据:£>7=301,Z(xlx)(y—y)=140.f=l i=l—1—18.解析(1)由表知x=^x(l+2+3+4+5+6+7)=4,y=yx(29+33+36+44+48+52+59)=43»E(XLX)(y(-y)A尸[ 140 A—A—则b= =9+4+i+o+i+4+9=5,a=y-bx=43-5x4=23,L(x,-T)21=1所以£=5x+23,A因为2015年用x=1表示,所以2022年时x=8,得y=5x8+23=63(万人次).(2)X的可能取值是0,1,2,3,4,则P(*=0)=毋(1_电3号=看P(X=l)=Cjx(l一|)人我+C?x(l-|}x;=||,尸(X=2)=®(1—全缺号+小(1_|〉x|x|=^=3既X=3)=承电看+奴1-务窗4塔,/(X=4)=cM;>x1=鲁.则X的分布列为X01234p2s88?.研究机构对某校学生往返校时间的统计资料表明:该校学生居住地到学校的距离x(单位:千米)和学生花费在上学路上的时间y(单位:分钟)有如下的统计数据:到学校的距离x(千米)1.82.63.14.35.56.1花费的时间y(分钟)17.819.627.531.336.043.2由统计资料表明y与x具有线性相关关系.(1)判断y与x的相关程度;(相关系数r的绝对值大于0.75时,认为两个变量相关程度很强,精确到0.01)AAA(2)求线性回归方程),=6x+a(精确到0.01);(3)将£<27的时间数据称为美丽数据,现从这6个时间数据£中任取2个,求抽取的2个数据全部为美丽数据的概率.aaa “Kx,y(-nx-yI(x,—x)(y,y)参考公式:用最小二乘法求线性回归方程》=法+。的系数: - 二——txf—nx2 f(X,—x)21=I i=Ia=y-bx.参考数据:”,=175.4,pr;y,=764.36,£(x,-x)(y,-y)=80.30,£(x,-x)2=14.30,^(y,-y)2=471.65,2(x,-x>2(y,—y)2=82.13.L(xlx)(j,y)9.解析(l)由题意得r=~0.98>0.75,所以y与x相关程度很强.⑵由题意得7=3.9,~=jXyi~29.23,£(Xi-~)(y,——)=8030,t(Xi~~)2=14.30,E(xlx)(y-y)―14.30'a=y-hx=29.23-5.62x3.9=7.31,£(xlx)2i=\所以线性回归方程为f=5.62x+7.31.(3)由(2)可知,当x=3.1时,%=24.732<27,当x=4.3时,[=31.476>27,所以满足£<27的美丽数据共有3个.从这6个数据中任取2个共有以=15(种)情况,其中,抽取的2个数据全部为美丽数据的有C*=3(种)情况,A 1所以从这6个数据y中任取2个,抽取的2个数据全部为美丽数据的概率为今10.随着中美贸易战的不断升级,越来越多的国家科技巨头加大了科技研发投入的力度.中华技术有限公司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x(亿元)与科技升级直接收益y(亿元)的数据统计如下:序号i23456789101112X2346810132122232425y132231425()565868.56867.56666当0<rW17时,建立了y与x的两个回归模型:模型①:f=4.1x+11.8;模型②:£=21.35一14.4;A A当x>17时,确定y与x满足的线性回归方程为y=-0.7x+a.(1)根据下列表格中的数据,比较当0〃《17时模型①、②的相关指数R2的大小,并选择拟合精度更高、更可靠的模型,预测对“麒麟”手机芯片科技升级的投入为17亿元时的直接收益回归模型模型①模型②回归方程Ay=4.1x+11.8y=21.3也一14.47 A8一姆182.479.2TOC\o"1-5"\h\z〃 八C(附:刻画回归效果的相关指数片=1一于! -,师-4.1)石 y)2(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿元时公司实际收益的大小;AAA " xyE(x,—x)(y,—y)(附:用最小二乘法求线性回归方程y=5x+a的系数: ^=口~~^ 二 ,〃X2 £(XLX)2A-A一a—y—bx)(3)科技升级后,“麒麟”芯片的效率X大幅提高,经实际试验得X大致服从正态分布M0.52,0.0F).公司对科技升级团队的奖励方案如下:若芯片的效率不超过50%,不予奖励;若芯片的效率超过50%但不超过53%,每部芯片奖励2元;若芯片的效率超过53%,每部芯片奖励4元,记丫为每部芯片获得的奖励,求E(Y)(精确到0.01).(附:若随机变量 <r)(<7>0),则P",一o<XW〃+<7)=0.6827,P(//-2o<X^/z+2ct)=0.9545).解析(1)由表格中的数据,182.4>79.2,182.4 79.2 . 182.4 . 79.2 I -<1 -•N(y>-y产"(y.-y)2 "(j1-y)2 18-y)2模型①的相关指数收小于模型②的相关指数内,回归模型②的拟合效果更好,.•.当x=17亿时,科技升级直接收益的预测值为£=21.3加一14.4=72.93(亿元).(2)当x>U(2)当x>U时,由已知可得三=21+22+23+24+25 c =23-68.5+68+67.5+66+66y= < =672,/.a=7+0.77=67.2+0.7x23=83.3,.•.当x>17时,y与x满足的线性回归方程为y=-0.7x+83.3,
当x=20亿元,科技升级直接收益的预测值为£=-0.7x20+83.3=69.3(亿元),当x=20亿元时,实际收益的预测值为69.3+5=74.3亿元>72.93亿元.・•・技术升级投入20亿元时,公司的实际收益更大.⑶-2。=0.50,"+。=0.53,P(0.50<X<0.53)=P(/i—2a<X<^i+。)=P(/i—2a<X</i—。)+P(j,i—o<X</,i+a)0.9545—0.68270.6827=0.8186.P(XX).53)=P(X>r+a)=11-0.6827
2AE(Y)=0xP(X</u-2a)+2x0.8186+4x1-0.6827
2=2.2718=2.27(76).考向二概率与独立性检验综合问题11.(2021•全国甲)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一■级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?. 2 几(ad-be)2 ,K(a+力)(c+d)(a+c)(b+d)'P(K2》后)0.0500.0100.001k3.8416.63510.82811.解析⑴根据2x2列联表知:甲机床生产的产品中一级品的频率为黑=75%,乙机床生产的产品中一级品的频率为需=60%.n(ad-be)"⑵由2x2列联表,得心的观测值仁400X(150X80-120X50)400= = =If)256>6270X130X200X200 39iu.qorsj.又P(J<2>6.635)=0.010,故有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.12.某社区管委会积极响应正在开展的“创文活动”,特制订了饲养宠物的管理规定.为了解社区住户对这个规定的态度(赞同与不赞同),工作人员随机调查了社区220户住户,将他们的态度和家里是否有宠物的情况进行了统计,得到如下2x2列联表(单位:户):赞同规定住户不赞同规定住户合计家里有宠物住户7040110家里没有宠物住户9020110合计16060220同时,工作人员还从上述调查的不赞同管理规定的住户中,用分层抽样的方法按家里有宠物、家里没有宠物抽取了18户组成样本7,进一步研究完善饲养宠物的管理规定.(1)根据上述列联表,能否在犯错误的概率不超过0.001的前提下认为“社区住户对饲养宠物的管理规定的态度与家里是否有宠物有关系”?(2)工作人员在样本7中随机抽取6户住户进行访谈,求这6户住户中,至少有1户家里没有宠物的概率P(结果用分数表示)., n(ad-be)2 .附:*=(a+b)(c+d)(a+c)(b+d),其中“=a+6+c+d.P(K2>ko)0.100.0100.001ko2.7066.63510.828220x(70x20-40x90)2 5512.解析(1);K-的观测值"=110x110x160x60=不<10.828,...在犯错误的概率不超过0.001的前提下,不能认为“社区住户对饲养宠物的管理规定的态度与家里是否有宠物有关系(2)在由18户住户组成的样本7中,设家里没有宠物的住户有x户,家里有宠物的住户有y户,根据fi=2018-60' \x=f>,分层抽样的概念得〈 ,八解方程组得、X=10 (y=\2.U8-60'样本7中的住户,家里没有宠物的有6户,家里有宠物的有12户.二从样本T中随机抽取6户的事件数为C,,这6户都是家里有宠物的事件数为C1,这6户中至少有1户家里没有宠物的事件数为C;8—C;2...Ct8-Ct2=210 . 210•Ct8-221,,,r-221,13.为了了解市民对A,8运营商的5G通信服务的评价,分别从A,B运营商的用户中随机抽取100名用户对其进行测评,已知测评得分在70分以上的为优秀,测评结果如表:A运营商的100名用户的测评得分得分[40,50](50,60](60,70](70,80](80,90](90,100]频率0.180.230.30.240.030.02
B运营商•B运营商•的1。0名用户的测评得分,求8运营商的100名用户的测评得分的平均值(同一组中的数据用该组区间的中点值为代表);(2)填写下面列联表,并根据列联表判断是否有99%的把握认为测评得分是否优秀与运营商有关?优秀非优秀总计4运营商B运营商总计附:K2=(a+b)(J+d)(a+c)(b+d)'其中〃="+'+°+”0.1000.0500.0250.0100.0012.7063.8415.0246.63510.828.解析(1)由频率分布直方图可知8运营商测评得分的平均值为45x0.08+55x0.16+65x0.26+75x0.3+85x0.16+95x0.04=69.2.(2)由频率分布表可知A运营商测评得分优秀的有100x(0.24+0.03+0.02)=29(个),非优秀的有100x(0.18+0.23+0.3)=71(个),由频率分布直方图可知B运营商测评得分优秀的有(0.03+0.016+0.004)x10x100=50(个),非优秀的有(0.008+0.016+0.026)x1Ox100=50(个),则可得列联表如下:优秀A优秀A运营商29B运营商50总计79非优秀总计7110050100121200,200x(29x50-7lx5O)2则100x100x79^21-^,227>6,635,所以有99%的把握认为测评得分是否优秀与运营商有关..为了响应政府“节能减排”的号召,某知名品牌汽车厂家决定生产一款纯电动汽车.生产前,厂家进行了人们对纯电动汽车接受程度的调查.在20〜60岁的人群中随机抽取了100人,调查数据的频率
分布直方图和接受纯电动汽车的人数与年龄的统计结果如图所示:年龄[20,28)[28,36)[36,44)[44,52)[52,60]接受的人数146152817(1)由以上统计数据填2X2列联表,并判断能否有95%的把握认为以44岁为分界点的不同年龄人群对纯电动汽车的接受程度有差异?44岁以下44岁及44岁以上总计接受不接受总计(2)若以44岁为分界点,从不接受“纯电动汽车”的人群中,按分层抽样的方法抽取8人调查不接受“纯电动汽车”的原因,现从这8人中随机抽取2人.记抽到44岁以下的人数为X,求随机变量X的分布列及数学期望.”(ad—be)?(a-\-b)(c+d)(a+c)(b+d)P(心》⑹0.1000.0500.0100.001ko2.7063.8416.63510.82814.解析(1)由题设及统计表格得2x2列联表如下:44岁以下44岁及44岁以上总计接受354580不接受15520总计5050100根据2x2列联表得,-n向2,100x(35x5—45x15)225K-的观测值k= 50x50x80x20 =彳=6.25>3.841....有95%的把握认为以44岁为分界点的不同人群对“纯电动汽车”的接受程度有差异.(2)由题意可知,抽取的8人中44岁以下的有6人,44岁及44岁以上的有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年大数据中心基础设施建设承包合同
- 2024年度物联网技术研发与行业应用合同2篇
- 2024年度农产品采购合同标的详细说明3篇
- 2024年度石料供应链管理合同6篇
- 2024年度智能制造车间改造合同3篇
- 2024年度商业广告喷绘定制及悬挂服务协议一
- 新能源汽车的技术创新与产品迭代速度
- 二零二四版设备维修与保养服务合同3篇
- 2024年其他计算机信息服务项目发展计划
- 2024年度工地瓷砖供货合同的货款支付与结算3篇
- 2024年度V智能物流仓储系统开发合同
- 市场部经理年终总结
- 2024年贵州公务员考试申论试题(B卷)
- 潮汕音乐课件教学课件
- 第六章 一次函数(单元重点综合测试)
- 小学生人际交往篇-做一个受欢迎的人
- 幼儿园小班健康《我会正确洗手》课件
- 贵州省黔南州2024年中考历史真题试卷(含答案)
- 《凝铸时光》课件 2024-2025学年湘美版(2024)初中美术七年级上册
- 【课件】 2024消防月主题培训:全民消防 生命至上
- 《篮球双手胸前传接球》教案(三篇)
评论
0/150
提交评论