新北师大版10.3统计案例学案_第1页
新北师大版10.3统计案例学案_第2页
新北师大版10.3统计案例学案_第3页
新北师大版10.3统计案例学案_第4页
新北师大版10.3统计案例学案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节统计案例【考试要求】,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘法原理,,,理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.1.直线拟合(1)散点图将成对样本数据用直角坐标系中的点表示出来,每个点对应的一对数据(xi,yi),称为成对数据.这些点构成的图称为散点图.(2)直线拟合从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个大致趋势,这种趋势通常可以用一条光滑的曲线来近似地描述.这样近似描述的过程称为曲线拟合.若在两个变量X和Y的散点图中,所有点看上去都在一条直线附近波动,此时就可以用一条直线来近似地描述这两个量之间的关系,称之为直线拟合.2.一元线性回归方程(1)最小二乘法对于给定的两个变量X和Y(如身高和体重),可以把其成对的观测值(x1,y1),(x2,y2),…,(xn,yn)表示为平面直角坐标系中的n个点.现在希望找到一条直线Y=a+bX,使得对每一个xi(i=1,2,…,n),由这个直线方程计算出来的值a+bxi与实际观测值yi的差异尽可能小.为此,希望[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2达到最小.换句话说,我们希望a,b的取值能使上式达到最小.这个方法称为最小二乘法.(2)用向量的方法可得使[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2达到最小的a,b取值为eq\b\lc\{(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\i\su(i=1,n,)(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\i\su(i=1,n,)(xi-\o(x,\s\up6(-)))2),\o(a,\s\up6(^))=\o(y,\s\up6(-))-b\o(x,\s\up6(-))))其中,eq\x\to(x)=eq\f(1,n)(x1+x2+…+xn),eq\x\to(y)=eq\f(1,n)(y1+y2+…+yn).这时直线方程Y=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))X称作Y关于X的线性回归方程,相应的直线称作Y关于X的回归直线(如图),eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^))是这个线性回归方程的系数.3.相关系数及其范围(1)相关系数一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r=eq\f((x1-\x\to(x))(y1-\x\to(y))+(x2-\x\to(x))(y2-\x\to(y))+…+(xn-\x\to(x))(yn-\x\to(y)),\r((x1-\x\to(x))2+(x2-\x\to(x))2+…+(xn-\x\to(x))2)\r((y1-\x\to(y))2+(y2-\x\to(y))2+…+(yn-\x\to(y))2))=eq\f(\i\su(i=1,n,)(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\i\su(i=1,n,)(xi-\o(x,\s\up6(-)))2\i\su(i=1,n,)(yi-\o(y,\s\up6(-)))2)),称r为随机变量X和Y的样本(线性)相关系数.为了计算的方便,我们再给出如下式子:r=eq\f((x1y1+x2y2+…+xnyn)-n\x\to(x)\x\to(y),\r((xeq\o\al(\s\up1(2),\s\do1(1))+xeq\o\al(\s\up1(2),\s\do1(2))+…+xeq\o\al(\s\up1(2),\s\do1(n)))-n\x\to(x)2)\r((yeq\o\al(\s\up1(2),\s\do1(1))+yeq\o\al(\s\up1(2),\s\do1(2))+…+yeq\o\al(\s\up1(2),\s\do1(n)))-n\x\to(y)2))样本(线性)相关系数r的取值范围为[-1,1].(2)相关系数的应用|r|值越接近1,随机变量之间的线性相关程度越强;|r|值越接近0,随机变量之间的线性相关程度越弱.当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量正相关;当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量负相关;当r=0时,此时称两个随机变量线性不相关.4.独立性检验(1)分类变量①分类变量:用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.②取值:分类变量的取值可以用实数表示.(2)2×2列联表设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=eq\o(A,\s\up6(-))1;变量B:B1,B2=eq\o(B,\s\up6(-))1.通过观察得到如下表所示的数据:ABB1B2总计A1aba+bA2cdc+d总计a+cb+dn=a+b+c+d其中,a表示变量A取A1,且变量B取B1时的数据;b表示变量A取A1,且变量B取B2时的数据;c表示变量A取A2,且变量B取B1时的数据;d表示变量A取A2,且变量B取B2时的数据.设n=a+b+c+d,用eq\f(a,n)估计P(A1B1),eq\f(a+b,n)估计P(A1),eq\f(a+c,n)估计P(B1).若有式子eq\f(a,n)=eq\f(a+b,n)·eq\f(a+c,n),则可以认为A1与B1独立.根据2×2列联表中的数据来判断两个分类变量是否有关系,即它们是否独立,这一问题称为2×2列联表的独立性检验.(3)独立性检验的基本思想计算随机变量χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).统计上已经证明:在变量A,B独立的前提下,当样本量很大时,χ2近似服从一个已知的分布.当χ2较大时,说明变量之间不独立.在统计中,用以下结果对变量的独立性进行判断.①当χ2≤时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;②当χ2,有90%的把握判断变量A,B有关联;③当χ2,有95%的把握判断变量A,B有关联;④当χ2,有99%的把握判断变量A,B有关联.[常用结论]1.求解回归方程的关键是确定回归系数eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^)),应充分利用回归直线过样本中心点(eq\x\to(x),eq\x\to(y)).2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.3.根据回归方程计算的Y值,仅是一个预报值,不是真实发生的值.[思考辨析]判断下列结论是否正确(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.()(2)线性回归方程Y=b^X+a^至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.()(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.()(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.()答案:(1)√(2)×(3)√(4)×[对点查验]1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.①②③B.②③①C.②①③D.①③②D第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.2.(多选题)在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的线性回归方程为Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^)),那么下列说法正确的是()A.相关系数r不可能等于1B.直线Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^))必经过点(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-)))C.直线Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^))表示最接近y与x之间真实关系的一条直线D.相关系数为r,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小BCD相关系数的取值范围是|r|≤1,故A错;直线Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^))必过样本点中心即点(eq\x\to(x),eq\x\to(y)),故B正确;直线Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^))是采用最小二乘法求解出的直线方程,接近真实关系,故C正确;相关系数r的绝对值越接近于1,表示相关程度越大,越接近于0,相关程度越小,故D正确.故选BCD.3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程YX+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为.答案68解析由eq\x\to(x)=30,得eq\x\to(y)×30+=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.4.某单位为了了解用电量(度)与当天平均气温(℃)之间的关系,随机统计了某4天的当天平均气温与用电量(如下表).由数据运用最小二乘法得线性回归方程Y=-2X+a,则a=.平均气温X(℃)181310-1用电量Y(度)25353763答案60解析eq\x\to(x)=eq\f(18+13+10-1,4)=10,eq\x\to(y)=eq\f(25+35+37+63,4)=40,样本中心为(10,40),回归直线经过样本中心,所以40=-2×10+a⇒a=60.5.利用独立性检验来考虑两个分类变量X与Y是否有关系时,通过查阅下表来确定“X和Y有关系”的可信度.如果χ2>5.024,那么在犯错误的概率不超过的前提下认为“X和Y有关系”.P(χ2≥k)k2.706答案解析因为χ2,,“X和Y有关系”.考点一成对数据的相关性1.(2022·陕西宝鸡市陈仓高级中学模拟)对两个变量X,Y进行线性相关检验,得线性相关系数r1=0.8995,对两个变量U,V进行线性相关检验,得线性相关系数r2=-0.9568,则下列判断正确的是()A.变量X与Y正相关,变量U与V负相关,变量X与Y的线性相关性较强B.变量X与Y负相关,变量U与V正相关,变量X与Y的线性相关性较强C.变量X与Y正相关,变量U与V负相关,变量U与V的线性相关性较强D.变量X与Y负相关,变量U与V正相关,变量U与V的线性相关性较强C依题意:r1=0.8995,r2=-0.9568,所以X,Y正相关,U,V负相关,|r1|<|r2|<1,所以U,V的线性相关性较强.2.(2022·广东潮州模拟)(多选题)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的关系,正确的有()A.r1<r4B.r2<r3C.r3>0D.AC由图形特征可知r1,r4都是负相关,都是负数,r1比r4的相关系数更强,所以r1<r4<0,r2,r3都是正相关,r2比r3的相关系数更强,所以0<r3<r2,所以AC正确.3.(多选题)对相关系数r来说,下列说法错误的有()A.|r|≤1,|r|越接近0,相关程度越大;|r|越接近1,相关程度越小B.|r|≥1,|r|越接近1,相关程度越大;|r|越大,相关程度越小C.|r|≤1,|r|越接近1,相关程度越大;|r|越接近0,相关程度越小D.|r|≥1,|r|越接近1,相关程度越小;|r|越大,相关程度越大ABD用相关系数r可以衡量两个变量之间的相关关系的强弱,r的绝对值越接近于1,表示两个变量的线性相关性越强,r的绝对值接近于0时,表示两个变量之间几乎不存在相关关系,故“对于相关系数r来说,|r|≤1,|r|越接近1,相关程度越大;|r|越接近0,相关程度越小”,C正确,故选ABD.思维升华判断相关关系的两种方法(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数:r>0时,正相关;r<0时,负相关.|r|越趋向于1,相关性越强.考点二一元线性回归模型命题点1线性回归方程及应用(2022·全国模拟)小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20家服装店,统计得到了它们的面积X(单位:m2)和日均客流量Y(单位:百人)的数据(xi,yi)(i=1,2,…,20),并计算得eq\i\su(i=1,20,x)i=2400,eq\i\su(i=1,20,y)i=210,eq\i\su(i=1,20,)(xi-eq\x\to(x))2=42000,eq\i\su(i=1,20,)(xi-eq\x\to(x))(yi-eq\x\to(y))=6300.(1)求Y关于X的线性回归方程;(2)已知服装店每天的经济效益W=keq\r(y)+mx(k>0,m>0),该商场现有60~150m2的商铺出租,根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?附:线性回归方程Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^))的斜率和截距的最小二乘估计分别为:eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)(xi-\x\to(x))(yi-\x\to(y)),\i\su(i=1,n,)(xi-\x\to(x))2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).解(1)由已知可得eq\x\to(x)=eq\f(1,20)eq\i\su(i=1,20,x)i=120,eq\x\to(y)=eq\f(1,20)eq\i\su(i=1,20,y)i,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,20,)(xi-\x\to(x))(yi-\x\to(y)),\i\su(i=1,20,)(xi-\x\to(x))2)=eq\f(6300,42000),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)×,所以线性回归方程为YX-7.5.(2)根据题意得Z=eq\f(W,x)=eq\f(k\rx-7.5),x)+m,60≤x≤150.设f(x)=eq\fx,x2)=eq\f,x)-eq\f,x2),令t=eq\f(1,x),eq\f(1,150)≤t≤eq\f(1,60),则f(x)=g(ttt2×(t-)2+0.00075,当t,即x=100时,f(x)取最大值,又因为k,m>0,所以此时Z也取最大值,因此,小李应该租100m2的商铺.命题点2相关系数r(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积xi材积量yi并计算得eq\i\su(i=1,10,x)eq\o\al(\s\up1(2),\s\do1(i)),eq\i\su(i=1,10,y)eq\o\al(\s\up1(2),\s\do1(i)),eq\i\su(i=1,10,x)iyi=0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2附:相关系数r=eq\f(\i\su(i=1,n,)(xi-\x\to(x))(yi-\x\to(y)),\r(\i\su(i=1,n,)(xi-\x\to(x))2\i\su(i=1,n,)(yi-\x\to(y))2)),eq\r(1.896)≈1.377.解(1)样本中10棵这种树木的根部横截面积的平均值eq\x\to(x)=eq\f,10),样本中10棵这种树木的材积量的平均值eq\x\to(y)=eq\f,10)=0.39.据此可估计该林区这种树木平均一棵的根部横截面积为m2,平均一棵的材积量为0.39m3.(2)r=eq\f(\i\su(i=1,10,)(xi-\x\to(x))(yi-\x\to(y)),\r(\i\su(i=1,10,)(xi-\x\to(x))2\i\su(i=1,10,)(yi-\x\to(y))2))=eq\f(\i\su(i=1,10,x)iyi-10\x\to(x)\x\to(y),\r(\b\lc\(\rc\)(\a\vs4\al\co1(\i\su(i=1,10,x)eq\o\al(\s\up1(2),\s\do1(i))-10\x\to(x)2))\b\lc\(\rc\)(\a\vs4\al\co1(\i\su(i=1,10,y)eq\o\al(\s\up1(2),\s\do1(i))-10\x\to(y)2))))=eq\f-10××,\r((0.038-10×2)(1.6158-10×0.39)2))=eq\f(0.0134,\r(0.0001896))≈eq\f(0.0134,0.01377)≈,则r≈0.97.(3)设该林区这种树木的总材积量的估计值为Ym3,又已知树木的材积量与其根部横截面积近似成正比,可得eq\f,0.39)=eq\f(186,Y),解之得Y=1209m3.则该林区这种树木的总材积量估计为1209m3.命题点3非线性回归方程及应用(2022·四川成都七中模拟)新冠肺炎疫情发生以来,我国某科研机构开展应急科研攻关,研制了一种新型冠状病毒疫苗,并已进入二期临床试验.根据普遍规律,志愿者接种疫苗后体内会产生抗体,人体中检测到抗体,说明有抵御病毒的能力.通过检测,用X表示注射疫苗后的天数.Y表示人体中抗体含量水平(单位:miu/mL,即:百万国际单位毫升),现测得某志愿者的相关数据如下表所示:天数X123456抗体含量水平Y510265096195根据以上数据,绘制了散点图.(1)根据散点图判断,y=c·edx与y=a+bx(a,b,c,d均为大于零的常数)哪一个更适宜作为描述Y与X关系的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果求出Y关于X的回归方程,并预测该志愿者在注射疫苗后的第10天的抗体含量水平值;(3)从这位志愿者的前6天的检测数据中随机抽取4天的数据作进一步的分析,记其中的Y值大于50的天数为X,求X的分布列与数学期望.参考数据:其中W=lnY.参考公式:用最小二乘法求经过点(u1,v1),(u2,v2),(u3,v3),…,(ui,vi)的线性回归方程V=eq\o(b,\s\up6(^))U+eq\o(a,\s\up6(^))的系数公式,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)(ui-\x\to(u))(vi-\x\to(v)),\i\su(i=1,n,)(ui-\x\to(u))2)=eq\f(\i\su(i=1,n,u)ivi-n\x\to(u)\x\to(v),\i\su(i=1,n,u)eq\o\al(\s\up1(2),\s\do1(i))-n\x\to(u)2),eq\o(a,\s\up6(^))=eq\x\to(v)-eq\o(b,\s\up6(^))eq\x\to(u).解(1)根据散点图,点的分布呈现曲线状,所以Y=cedX更适合作为描述Y与X关系的回归方程类型.(2)设W=lnY,变换后可得W=lnc+dX,设p=lnc,建立W关于X的线性回归方程W=eq\o(p,\s\up6(^))+eq\o(d,\s\up6(^))X,eq\o(d,\s\up6(^))=eq\f(\i\su(i=1,6,)\b\lc\(\rc\)(\a\vs4\al\co1(ωi-\x\to(ω)))\b\lc\(\rc\)(\a\vs4\al\co1(xi-\x\to(x))),\i\su(i=1,6,)(xi-\x\to(x))2)=eq\f,17.50),eq\o(p,\s\up6(^))=eq\x\to(ω)-eq\o(d,\s\up6(^))eq\x\to(x)×,所以W关于X的线性回归方程为WX,所以Y=eX,当x=10时,Y=e×10=e≈,即该志愿者在注射疫苗后的第10天的抗体含量水平值约为4023.87miu/mL.(3)由表格数据可知,第5,6天的Y值大于50,故X的可能取值为0,1,2,P(X=0)=eq\f(Ceq\o\al(\s\up1(4),\s\do1(4)),Ceq\o\al(\s\up1(4),\s\do1(6)))=eq\f(1,15),P(X=1)=eq\f(Ceq\o\al(\s\up1(3),\s\do1(4))Ceq\o\al(\s\up1(1),\s\do1(2)),Ceq\o\al(\s\up1(4),\s\do1(6)))=eq\f(8,15),P(X=2)=eq\f(Ceq\o\al(\s\up1(2),\s\do1(4))Ceq\o\al(\s\up1(2),\s\do1(2)),Ceq\o\al(\s\up1(4),\s\do1(6)))=eq\f(2,5),X的分布列为X012Peq\f(1,15)eq\f(8,15)eq\f(2,5)EX=0×eq\f(1,15)+1×eq\f(8,15)+2×eq\f(2,5)=eq\f(4,3).思维升华(1)①计算平均数eq\x\to(x),eq\x\to(y).②计算eq\i\su(i=1,n,x)iyi.③计算eq\i\su(i=1,n,x)eq\o\al(\s\up1(2),\s\do1(i)).(2)将结果代入公式eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,x)iyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\i\su(i=1,n,x)eq\o\al(\s\up1(2),\s\do1(i))-n\o(x,\s\up6(-))2),求eq\o(b,\s\up6(^)).(3)利用eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)),求eq\o(a,\s\up6(^)).(4)写出线性回归方程.2.利用相关系数公式r=eq\f(\i\su(i=1,n,)(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\i\su(i=1,n,)(xi-\o(x,\s\up6(-)))2)\r(\i\su(i=1,n,)(yi-\o(y,\s\up6(-)))2))),可计算两个变量的相关系数,并利用其大小判断两个变量的相关性,进行回归分析.3.非线性回归分析问题的处理方法(1)描点,选模.画出已知数据的散点图,把它与已经学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合最好的函数.(2)解模.先对变量进行适当地变换,再利用线性回归模型来解模.(3)比较检验.通过回归分析比较所建模型的优劣.对点强化1(1)(2022·陕西西安模拟)打好脱贫攻坚战,稳步实施乡村振兴,离不开农村基层党组织的坚强战斗堡垒作用的发挥.某村村党支部书记为改良盐碱地土壤,从省城请来专家进行技术指导,并从某农业大学引进富硒草莓.功夫不负有心人,富硒草莓种植成功,村里建起了草苺采摘园,到了年底,种植草莓的收入连同合作社的其他经营项目一起,成了贫困户的主要经济来源.该村对近几年草莓的采摘价格和采摘人数情况进行了统计,发现草莓的采摘价格X(元/斤)和采摘人数Y(千人)的关系如下表:草莓采摘价格X(元/斤)2025303540采摘人数Y(千人)5852453228①已知X与Y之间有较强的线性相关性,试用最小二乘法求出Y关于X的线性回归方程Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^));②该村根据2022年草莓的产量,估计约34千人采摘,那么2022年草莓的采摘价格应定为多少元/斤?(结果保留整数)参考公式:线性回归方程Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^))的斜率和截距的最小二乘估计分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)(xi-\x\to(x))(yi-\x\to(y)),\i\su(i=1,n,)(xi-\x\to(x))2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).参考数据:eq\i\su(i=1,5,)(xi-eq\x\to(x))(yi-eq\x\to(y))=-400,eq\i\su(i=1,5,)(xi-eq\x\to(x))2=250.解①由表中数据得:eq\x\to(x)=eq\f(20+25+30+35+40,5)=30,eq\x\to(y)=eq\f(58+52+45+32+28,5)=43,∴eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,5,)(xi-\x\to(x))(yi-\x\to(y)),\i\su(i=1,5,)(xi-\x\to(x))2)=eq\f(-400,250)=,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=43-(-1.6)×30=91,∴Y关于X的线性回归方程为YX+91.②令y=34,x+91=34,解得x≈36(元/斤),∴2022年草莓的价格应定为36元/斤.(2)(2022·陕西渭南模拟)近年来,随着互联网的发展,网约车服务在我国各城市迅猛发展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为了解网约车在某省的发展情况,调查机构从该省抽取了5个城市,分别收集和分析了网约车的A,B两项指标数xi,yi(i=1,2,3,4,5),数据如下表所示:城市1城市2城市3城市4城市5A指标数X35679B指标数Y56789①由表中数据可知,Y与X具有较强的线性相关关系,请利用相关系数r加以说明;(精确到0.01)②建立Y关于X的线性回归方程,并预测当A指标数为8时,B指标数的估计值.相关系数r参考值:当0.3<|r,线性相关程度一般;当|r,线性相关程度较高.参考公式:r=eq\f(\i\su(i=1,n,)(xi-\x\to(x))(yi-\x\to(y)),\r(\i\su(i=1,n,)(xi-\x\to(x))2\i\su(i=1,n,)(yi-\x\to(y))2)),线性回归方程Y=eq\o(b,\s\up6(^))X+eq\o(a,\s\up6(^))的斜率和截距的最小二乘法估计分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)(xi-\x\to(x))(yi-\x\to(y)),\i\su(i=1,n,)(xi-\x\to(x))2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).参考数据:eq\i\su(i=1,5,)(xi-eq\x\to(x))(yi-eq\x\to(y))=14,eq\r(2)≈1.414.解①由表得eq\x\to(x)=eq\f(3+5+6+7+9,5)=6,eq\x\to(y)=eq\f(5+6+7+8+9,5)=7,∴eq\i\su(i=1,5,)(xi-eq\x\to(x))2=20,eq\i\su(i=1,5,)(yi-eq\x\to(y))2=10,r=eq\f(\i\su(i=1,5,)(xi-\x\to(x))(yi-\x\to(y)),\r(\i\su(i=1,5,)(xi-\x\to(x))2\i\su(i=1,5,)(yi-\x\to(y))2))=eq\f(14,\r(10×20))≈,∴该A指标X与B指标Y具有较高的线性相关程度.②eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,5,)(xi-\x\to(x))(yi-\x\to(y)),\i\su(i=1,5,)(xi-\x\to(x))2)=eq\f(14,20),则eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=7-6×,∴Y关于X的线性回归方程为YX,将x=8代入,得y×,故预测当A指标数为8时,B指标数的估计值为8.4.(3)(2022·河北承德模拟)某制造企业从生产的产品中随机抽查了1000件,经检验,其中一等品有800件,二等品有150件,次品有50件.若销售1件该产品,可获得利润165元.根据统计,该制造企业在2021年12月至2022年5月的产量Y(万件)与月份编号X(记2021年12月,2022年1月,…编号分别为1,2,…)近似满足关系式y=b·xa(a>0,b>0),相关统计量的值如下:eq\i\su(i=1,6,)lnxi,eq\i\su(i=1,6,)lnyi,eq\i\su(i=1,6,)(lnxi)2,eq\i\su(i=1,6,)(lnxi·lnyi,e≈2.7.根据所给的统计量,求Y关于X的回归方程,并估计该制造企业2022年8月份的利润为多少万元.(结果精确到0.01)附:对于一组数据(ui,vi)(i=1,2,3,…,n),其回归直线V=eq\o(β,\s\up6(^))U+eq\o(α,\s\up6(^))的斜率和截距的最小二乘估计分别为eq\o(β,\s\up6(^))=eq\f(\i\su(i=1,n,u)ivi-n\o(u,\s\up6(-))\o(v,\s\up6(-)),\i\su(i=1,n,u)eq\o\al(\s\up1(2),\s\do1(i))-n\o(u,\s\up6(-))2),eq\o(α,\s\up6(^))=eq\o(v,\s\up6(-))-eq\o(β,\s\up6(^))eq\o(u,\s\up6(-)).解因为y=b·xa(a>0,b>0),所以lny=ln(b·xa)=lnb+alnx.令v=lny,u=lnx,则v=lnb+au.因为eq\i\su(i=1,6,)lnxi=eq\i\su(i=1,6,u)i,eq\i\su(i=1,6,)lnyi=eq\i\su(i=1,6,v)i,eq\i\su(i=1,6,)(lnxi)2=eq\i\su(i=1,6,u)eq\o\al(\s\up1(2),\s\do1(i)),eq\i\su(i=1,6,)(lnxi·lnyi)=eq\i\su(i=1,6,)eq\b\lc\(\rc\)(\a\vs4\al\co1(ui·vi)),所以eq\o(u,\s\up6(-)),eq\o(v,\s\up6(-)),eq\o(a,\s\up6(^))=eq\f(\i\su(i=1,6,)(uivi)-6\o(u,\s\up6(-))\o(v,\s\up6(-)),\i\su(i=1,6,u)eq\o\al(\s\up1(2),\s\do1(i))-6\o(u,\s\up6(-))2)=eq\f(-1.87-6××(-0.45),9.46-6×2)=eq\f(1,2)因为lnb=eq\o(v,\s\up6(-))-eq\o(a,\s\up6(^))eq\o(u,\s\up6(-))=-0.45-eq\f(1,2)×=-1,所以b=eq\f(1,e),所以回归方程为Y=eq\f(\r(X),e).当x=9时,y=eq\f(3,e)≈,×165=183.15万元.考点三独立性检验(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论