《专题复习10统计案例》重难点突破及同步训练_第1页
《专题复习10统计案例》重难点突破及同步训练_第2页
《专题复习10统计案例》重难点突破及同步训练_第3页
《专题复习10统计案例》重难点突破及同步训练_第4页
《专题复习10统计案例》重难点突破及同步训练_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《专题10统计案例》重难点突破【重难点知识点网络】:一、相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.二、线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))__,则eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do6(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do6(i=1))(xi-\o(x,\s\up6(-)))2)=eq\f(\o(∑,\s\up6(n),\s\do6(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).其中,eq\o(b,\s\up6(^))是回归方程的斜率,eq\o(a,\s\up6(^))是在y轴上的截距,回归直线一定过样本点的中心(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-))).三、回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-)))称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R2=1-eq\f(\o(∑,\s\up6(n),\s\do6(i=1))(yi-\o(y,\s\up6(^))i)2,\o(∑,\s\up6(n),\s\do6(i=1))(yi-\o(y,\s\up6(-)))2).其中eq\o(∑,\s\up6(n),\s\do6(i=1))(yi-eq\o(y,\s\up6(^))i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.四、独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d则随机变量K2=eq\f(n(ad-bc)2,(a+b)(a+c)(b+d)(+d)),其中n=a+b+c+d为样本容量.【知识必备】1.求解回归方程的关键是确定回归系数eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^)),应充分利用回归直线过样本中心点(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-))).2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.3.根据回归方程计算的eq\o(y,\s\up6(^))值,仅是一个预报值,不是真实发生的值.【重难点题型突破】:一、相关关系判断例1、对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是()A. B.C. D.【变式训练1-1】、2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:注:是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是()A.当月在售二手房均价与月份代码呈正相关关系B.根据可以预测年月在售二手房均价约为万元/平方米C.曲线与的图形经过点D.回归曲线的拟合效果好于的拟合效果【变式训练1-2】、(多选题)对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中正确的是()A.由样本数据得到的回归方程必过样本中心B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r=﹣0.9362,则变量y和x之间具有线性相关关系二、线性回归方程分析例2、为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数(天)3456繁殖个数(千个)2.534.5由最小二乘法得与的线性回归方程为,则当时,繁殖个数的预测值为A.4.9 B.5.25C.5.95 D.6.15【变式训练2-1】、为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为()A.eq\o(y,\s\up6(^))=x-1 B.eq\o(y,\s\up6(^))=x+1C.eq\o(y,\s\up6(^))=88+eq\f(1,2)x D.eq\o(y,\s\up6(^))=176

【变式训练2-2】、某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y关于t的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:,【变式训练2-3】、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:t)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.46.65636.8289.81.61469108.8表中,=.(Ⅰ)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立关于的回归方程;(Ⅲ)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费为何值时,年利率的预报值最大?附:对于一组数据,,,,其回归线的斜率和截距的最小二乘估计分别为,.三、独立性检测例3、某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,0.0500.0100.001k3.8416.63510.828【变式训练3-1】、环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气污染指数(0,50](50,100](100,150](150,200](200,300](300,+∞)空气质量等级优良轻度污染中度污染重度污染严重污染某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数112711731根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计参考数据:P(K2≥k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.0246.6357.879参考公式:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.【变式训练3-2】、为推行“新课堂”教学法,某老师分别用传统教学和“新课堂”两种不同的教学方式在甲、乙两个平行班进行教学实验,为了解教学效果,期中考试后,分别从两个班级中各随机抽取20名学生的成绩进行统计,作出如图所示的茎叶图,若成绩大于70分为“成绩优良”.(1)分别计算甲、乙两班的样本中,前10名成绩的平均分,并据此判断哪种教学方式的教学效果更佳;(2)由以上统计数据填写下面2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”?甲班乙班总计成绩优良成绩不优良总计(3)从甲、乙两班40个样本中,成绩在60分以下(不含60分)的学生中任意选取2人,记ξ为所抽取的2人中来自乙班的人数,求ξ的分布列及数学期望.附:K2=(n=a+b+c+d),P(K2≥k0)0.100.050.0250.010k02.7063.8415.0246.635《专题10统计案例》重难点突破答案解析【重难点题型突破】:一、相关关系判断例1、对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是()A. B.C. D.【答案】A【分析】由给出的四组数据的散点图,结合相关系数的概念,逐图判定,即可求解.【详解】由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0,题图2和题图4是负相关,相关系数小于0,题图1和题图2的点相对更加集中,所以相关性更强,所以接近于1,接近于,由此可得.故选:A.【变式训练1-1】、2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:注:是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是()A.当月在售二手房均价与月份代码呈正相关关系B.根据可以预测年月在售二手房均价约为万元/平方米C.曲线与的图形经过点D.回归曲线的拟合效果好于的拟合效果【答案】C【分析】根据散点图的分布可判断A选项的正误;将代入回归方程可判断B选项的正误;根据非线性回归曲线不一定经过可判断C选项的正误;根据回归模型的拟合效果与的大小关系可判断D选项的正误.【详解】对于A,散点从左下到右上分布,所以当月在售二手房均价与月份代码呈正相关关系,故A正确;对于B,令,由,所以可以预测年月在售二手房均价约为万元/平方米,故B正确;对于C,非线性回归曲线不一定经过,故C错误;对于D,越大,拟合效果越好,故D正确.故选:C.【变式训练1-2】、(多选题)对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中正确的是()A.由样本数据得到的回归方程必过样本中心B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r=﹣0.9362,则变量y和x之间具有线性相关关系【答案】ABD【分析】A.根据回归分析判断;B.根据残差的意义判断;C.根据相关指数R2的意义判断;D.根据相关系数的意义判断.【详解】A.由样本数据得到的回归方程必过样本中心,故正确;B.残差平方和越小的模型,拟合的效果越好,故正确;C.用相关指数R2来刻画回归效果,R2越大,说明模型的拟合效果越好,故错误;D.若变量y和x之间的相关系数为r=﹣0.9362,r的绝对值接近于1,则变量y和x之间具有线性相关关系,故正确;故选:ABD二、线性回归方程分析例2、为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数(天)3456繁殖个数(千个)2.534.5由最小二乘法得与的线性回归方程为,则当时,繁殖个数的预测值为A.4.9 B.5.25C.5.95 D.6.15【答案】B【分析】根据表格中的数据,求得样本中心为,代入回归直线方程,求得,得到回归直线的方程为,即可作出预测,得到答案.【详解】由题意,根据表格中的数据,可得,即样本中心为,代入回归直线方程,即,解得,即回归直线的方程为,当时,,故选B.【点睛】本题主要考查了回归直线方程的应用,其中解答中熟记回归直线方程的特征,求得回归直线的方程是解答的关键,着重考查了运算与求解能力,属于基础题.【变式训练2-1】、为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为()A.eq\o(y,\s\up6(^))=x-1 B.eq\o(y,\s\up6(^))=x+1C.eq\o(y,\s\up6(^))=88+eq\f(1,2)x D.eq\o(y,\s\up6(^))=176【答案】C[设y对x的线性回归方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),eq\x\to(x)=176,eq\x\to(y)=176,检验得y=88+eq\f(x,2)过点(eq\x\to(x),eq\x\to(y)).]【变式训练2-2】、某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y关于t的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:,【解析】(I)由所给数据计算得(1+2+3+4+5+6+7)=4,(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3=9+4+1+0+1+4+9=28=,.所求回归方程为.【变式训练2-3】、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:t)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.46.65636.8289.81.61469108.8表中,=.(Ⅰ)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立关于的回归方程;(Ⅲ)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费为何值时,年利率的预报值最大?附:对于一组数据,,,,其回归线的斜率和截距的最小二乘估计分别为,.【解析】(Ⅰ)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型.(Ⅱ)令,先建立关于的线性回归方程,由于.,所以关于的线性回归方程为,因此关于的回归方程为.(Ⅲ)(ⅰ)由(Ⅱ)知,当时,年销售量的预报值年利润的预报值.(ⅱ)根据(Ⅱ)得结果知,年利润的预报值.所以当,即时,取得最大值.故年宣传费为千元时,年利润的预报值最大.三、独立性检测例3、某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,0.0500.0100.001k3.8416.63510.828【答案】(1)第二种生产方式的效率更高.理由见解析(2)80(3)能【解析】(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于,所以有99%的把握认为两种生产方式的效率有差异.【变式训练3-1】、环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气污染指数(0,50](50,100](100,150](150,200](200,300](300,+∞)空气质量等级优良轻度污染中度污染重度污染严重污染某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数112711731根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计参考数据:P(K2≥k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.0246.6357.879参考公式:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.【解析】(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,空气中度污染的天气被抽取的有2天,记作B1,B2,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,故P(A)=eq\f(9,15)=eq\f(3,5),即至少有一天空气质量是中度污染的概率为eq\f(3,5).(3)2×2列联表如下:空气质量优、良空气质量污染总计限行前9090180限行后382260总计128112240由表中数据可得,K2=eq\f(240×(90×22-90×38)2,180×60×128×112)≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.【变式训练3-2】、为推行“新课堂”教学法,某老师分别用传统教学和“新课堂”两种不同的教学方式在甲、乙两个平行班进行教学实验,为了解教学效果,期中考试后,分别从两个班级中各随机抽取20名学生的成绩进行统计,作出如图所示的茎叶图,若成绩大于70分为“成绩优良”.(1)分别计算甲、乙两班的样本中,前10名成绩的平均分,并据此判断哪种教学方式的教学效果更佳;(2)由以上统计数据填写下面2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”?甲班乙班总计成绩优良成绩不优良总计(3)从甲、乙两班40个样本中,成绩在60分以下(不含60分)的学生中任意选取2人,记ξ为所抽取的2人中来自乙班的人数,求ξ的分布列及数学期望.附:K2=(n=a+b+c+d),P(K2≥k0)0.100.050.0250.010k02.7063.8415.0246.635【答案】(1)见解析;(2)见解析;(3)见解析【分析】(1)由平均数是的计算公式,分布求得甲班样本前10名成绩和乙班样本前10名成绩的平均分,比较即可得到结论.(2)根据茎叶图中的数据作出列联表,利用公式计算的值,即可得到结论.(3)求得随机变量的所有可能取值为,求出随机变量取值的概率,列出随机变量的分布列,利用公式,即可求解数学期望.【详解】(1)由数据的平均数是的计算公式,可得甲班样本前10名成绩的平均分为=;乙班样本前10名成绩的平均分为=;因为甲班样本前10名成绩的平均分低于乙班样本前10名成绩的平均分,所以据此判断“新课堂”教学方式的教学效果更佳.(2)根据茎叶图中的数据作出列联表如表所示:甲班乙班总计成绩优良101626成绩不优良10414总计202040根据列联表中的数据,得的观测值为,所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.(3)样本中成绩在60分以下的学生中甲班有4人,乙班有2人,所以的所有可能取值为,则=,,=,则随机变量的分布列为:012P则数学期望.【点睛】本题主要考查了数据的平均数和独立性检验的应用,以及随机变量的分布列与数学期望的计算,其中解答中认真审题,合理利用平均数、独立性检验的公式准确计算,以及正确得出随机变量的取值及概率,列出相应的分布列是解答的关键,着重考查了分析问题和解答问题的能力,属于中档试题.《专题10统计案例》同步训练A组基础巩固1.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程,计算得,则当投入10万元广告费时,销售额的预报值为A.75万元 B.85万元C.99万元 D.105万元通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由附表:0.0500.0100.0013.8416.63510.828参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”3.如图是调查某学校高三年级男女学生是否喜欢数学的等高条形图,阴影部分的高表示喜欢数学的频率.已知该年级男生女生各500名(所有学生都参加了调查),现从所有喜欢数学的同学中按分层抽样的方式抽取32人,则抽取的男生人数为A.16 B.32 C.24 D.84.在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是A. B.C. D.()5.年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:注:是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是()A.当月在售二手房均价与月份代码呈正相关关系B.根据可以预测年月在售二手房均价约为万元/平方米C.曲线与的图形经过点D.回归曲线的拟合效果好于的拟合效果6.某校团委对“学生性别与中学生追星是否有关”作了一次调查,利用列联表,由计算得,参照下表:0.010.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.828得到正确结论是A.有99%以上的把握认为“学生性别与中学生追星无关”B.有99%以上的把握认为“学生性别与中学生追星有关”C.在犯错误的概率不超过0.5%的前提下,认为“学生性别与中学生追星无关”D.在犯错误的概率不超过0.5%的前提下,认为“学生性别与中学生追星有关”7.对两个变量、进行线性相关检验,得线性相关系数,对两个变量、进行线性相关检验,得线性相关系数,则下列判断正确的是()A.变量与正相关,变量与负相关,变量与的线性相关性较强B.变量与负相关,变量与正相关,变量与的线性相关性较强C.变量与正相关,变量与负相关,变量与的线性相关性较强D.变量与负相关,变量与正相关,变量与的线性相关性较强8.(多选题)针对当下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有()附表:0.0500.0103.8416.635附:A. B. C. D.9.下列说法:①线性回归方程必过;②命题“”的否定是“”③相关系数越小,表明两个变量相关性越弱;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是__________.(把你认为正确的结论都写在横线上)本题可参考独立性检验临界值表:10.已知,取值如表:画散点图分析可知:与线性相关,且求得回归方程为,则__________.11.某设备的使用年限与所支出的维修费用的统计数据如下表:使用年限(单位:年)维修费用(单位:万元)根据上表可得回归直线方程为,据此模型预测,若使用年限为年,估计维修费约为__________万元.12.某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过______.附:0.050.0250.0100.0013.8415.0246.63510.828B组能力提升13.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:超过不超过第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,14.已知某种细菌的适宜生长温度为10℃~25℃,为了研究该种细菌的繁殖数量(单位:个)随温度(单位:℃)变化的规律,收集数据如下:温度/℃12141618202224繁殖数量/个2025332751112194对数据进行初步处理后,得到了一些统计量的值,如下表所示:18663.81124.3142820.5其中,.(1)请绘出关于的散点图,并根据散点图判断与哪一个更适合作为该种细菌的繁殖数量关于温度的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表格数据,建立关于的回归方程(结果精确到0.1);(3)当温度为25℃时,该种细菌的繁殖数量的预报值为多少?参考公式:对于一组数据,其回归直线的斜率和截距的最小二成估计分别为,.参考数据:.15.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:,,,≈2.646.参考公式:相关系数回归方程中斜率和截距的最小二乘估计公式分别为:16.《中华人民共和国道路交通安全法》第条的相关规定:机动车行经人行道时,应当减速慢行;遇行人正在通过人行道,应当停车让行,俗称“礼让斑马线”,《中华人民共和国道路交通安全法》第条规定:对不礼让行人的驾驶员处以扣分,罚款元的处罚.下表是某市一主干路口监控设备所抓拍的5个月内驾驶员“礼让斑马线”行为统计数据:月份违章驾驶员人数(1)请利用所给数据求违章人数与月份之间的回归直线方程;(2)预测该路口月份的不“礼让斑马线”违章驾驶员人数.参考公式:,参考数据:.【答案】(1);(2)49.【分析】(1)由表中的数据,根据最小二乘法和公式,求得的值,得到回归直线方程;(2)令,代入回归直线的方程,即可得到该路口9月份的不“礼让斑马线”违章驾驶员人数.17.足球是世界普及率最高的运动,我国大力发展校园足球.为了解本地区足球特色学校的发展状况,社会调查小组得到如下统计数据:年份x20142015201620172018足球特色学校y(百个)0.300.601.001.401.70(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱.(已知:,则认为y与x线性相关性很强;,则认为y与x线性相关性一般;,则认为y与x线性相关性较):(2)求y关于x的线性回归方程,并预测A地区2020年足球特色学校的个数(精确到个).参考公式和数据:,,.18.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量(单位:万件)的统计表:月份代码1234567销售量(万件)但其中数据污损不清,经查证,,.(1)请用相关系数说明销售量与月份代码有很强的线性相关关系;(2)求关于的回归方程(系数精确到0.01);(3)公司经营期间的广告宣传费(单位:万元)(),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由.(毛利润等于销售金额减去广告宣传费)参考公式及数据:,相关系数,当时认为两个变量有很强的线性相关关系,回归方程中斜率和截距的最小二乘估计公式分别为,.《专题10统计案例》同步训练答案解析A组基础巩固1.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程,计算得,则当投入10万元广告费时,销售额的预报值为A.75万元 B.85万元C.99万元 D.105万元【答案】B【解析】分析:根据表中数据求得样本中心,代入回归方程后求得,然后再求当的函数值即可.详解:由题意得,∴样本中心为.∵回归直线过样本中心,∴,解得,∴回归直线方程为.当时,,故当投入10万元广告费时,销售额的预报值为85万元.故选B.点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由附表:0.0500.0100.0013.8416.63510.828参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”【答案】A【详解】由,而,故由独立性检验的意义可知选A3.如图是调查某学校高三年级男女学生是否喜欢数学的等高条形图,阴影部分的高表示喜欢数学的频率.已知该年级男生女生各500名(所有学生都参加了调查),现从所有喜欢数学的同学中按分层抽样的方式抽取32人,则抽取的男生人数为A.16 B.32 C.24 D.8【答案】C【分析】根据等高条形图可得到喜欢数学的女生和男生的比为1:3,再由分层抽样计算出抽取的男生人数.【详解】由等高条形图可知:喜欢数学的女生和男生的比为1:3,所以抽取的男生数为24人.故选C.【点睛】本题考查高条形图与分层抽样,需掌握等高条形图的性质与分层抽样方法,属于基础题.4.在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是A. B.C. D.()【答案】B【分析】根据散点图的趋势,选定正确的选项.【详解】散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.【点睛】本小题主要考查散点图,考查回归直线方程等知识,属于基础题.5.年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:注:是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是()A.当月在售二手房均价与月份代码呈正相关关系B.根据可以预测年月在售二手房均价约为万元/平方米C.曲线与的图形经过点D.回归曲线的拟合效果好于的拟合效果【答案】C【分析】根据散点图的分布可判断A选项的正误;将代入回归方程可判断B选项的正误;根据非线性回归曲线不一定经过可判断C选项的正误;根据回归模型的拟合效果与的大小关系可判断D选项的正误.【详解】对于A,散点从左下到右上分布,所以当月在售二手房均价与月份代码呈正相关关系,故A正确;对于B,令,由,所以可以预测年月在售二手房均价约为万元/平方米,故B正确;对于C,非线性回归曲线不一定经过,故C错误;对于D,越大,拟合效果越好,故D正确.故选:C.6.(某校团委对“学生性别与中学生追星是否有关”作了一次调查,利用列联表,由计算得,参照下表:0.010.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.828得到正确结论是A.有99%以上的把握认为“学生性别与中学生追星无关”B.有99%以上的把握认为“学生性别与中学生追星有关”C.在犯错误的概率不超过0.5%的前提下,认为“学生性别与中学生追星无关”D.在犯错误的概率不超过0.5%的前提下,认为“学生性别与中学生追星有关”【答案】B【分析】通过与表中的数据6.635的比较,可以得出正确的选项.【详解】解:,可得有99%以上的把握认为“学生性别与中学生追星有关”,故选B.【点睛】本题考查了独立性检验的应用问题,属于基础题.7.对两个变量、进行线性相关检验,得线性相关系数,对两个变量、进行线性相关检验,得线性相关系数,则下列判断正确的是()A.变量与正相关,变量与负相关,变量与的线性相关性较强B.变量与负相关,变量与正相关,变量与的线性相关性较强C.变量与正相关,变量与负相关,变量与的线性相关性较强D.变量与负相关,变量与正相关,变量与的线性相关性较强【答案】C【分析】根据相关系数的符号决定两个变量的正相关、负相关,以及相关系数绝对值越大,两个变量的线性相关性越强,进而可得出结论.【详解】由线性相关系数知与正相关,由线性相关系数知与负相关,又,所以,变量与的线性相关性比与的线性相关性强,故选:C.8.(多选题)针对当下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有()附表:0.0500.0103.8416.635附:A. B. C. D.【答案】BC【分析】设男生的人数为,列出列联表,计算出的观测值,结合题中条件可得出关于的不等式,解出的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为,根据题意列出列联表如下表所示:男生女生合计喜欢抖音不喜欢抖音合计则,由于有的把握认为是否喜欢抖音和性别有关,则,即,得,,则的可能取值有、、、,因此,调查人数中男生人数的可能值为或.故选:BC.【点睛】关键点睛:解题关键在于,利用独立性检验求出人数的可能取值,在解题时,关键是要列举出列联表,并结合临界值表列不等式求解,主要考查学生的计算能力,属于中等题.9.下列说法:①线性回归方程必过;②命题“”的否定是“”③相关系数越小,表明两个变量相关性越弱;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是__________.(把你认为正确的结论都写在横线上)本题可参考独立性检验临界值表:【答案】①④【详解】分析:根据性回归方程,独立性检验,相关关系,以及命题的否定等知识,选出正确的,得到结果.详解:线性回归方程必过样本中心点,故①正确.命题“”的否定是“”故②错误③相关系数r绝对值越小,表明两个变量相关性越弱,故不正确;④在一个列联表中,由计算得,则有的把握认为这两个变量间有关系,正确.故答案为①④.点睛:本题以命题真假的判断为载体,着重考查了相关系数、命题的否定、独立性检验、回归直线方程等知识点,属于中档题.10.已知,取值如表:画散点图分析可知:与线性相关,且求得回归方程为,则__________.【答案】【详解】分析:计算,根据线性回归方程过样本中心点,代入方程求出m的值.详解:计算=×(0+1+3+5+6)=3,=×(1+m+3m+5.6+7.4)=,∴这组数据的样本中心点是(3,),又y与x的线性回归方程=x+1过样本中心点,∴=1×3+1,解得m=.故填.点睛:本题考查了回归直线方程过样本中心点的应用问题,属于基础题.11.某设备的使用年限与所支出的维修费用的统计数据如下表:使用年限(单位:年)维修费用(单位:万元)根据上表可得回归直线方程为,据此模型预测,若使用年限为年,估计维修费约为__________万元.【答案】【详解】,则中心点为,代入回归直线方程可得,.当时,(万元),即估计使用14年时,维修费用是18万元.故答案为:18.12.某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过______.附:0.050.0250.0100.0013.8415.0246.63510.828【答案】0.025【分析】根据列联表计算,再根据临界值参考数据比较大小即可得出结论.【详解】集中培训分散培训合计一次考过453075一次未考过102030合计5550105,故答案为:0.025.B组能力提升13.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:超过不超过第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,【答案】(1)第二种生产方式的效率更高.理由见解析(2)80(3)能【详解】分析:(1)计算两种生产方式的平均时间即可.(2)计算出中位数,再由茎叶图数据完成列联表.(3)由公式计算出,再与6.635比较可得结果.详解:(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知.列联表如下:超过不超过第一种生产方式155第二种生产方式515(3)由于,所以有99%的把握认为两种生产方式的效率有差异.点睛:本题主要考查了茎叶图和独立性检验,考察学生的计算能力和分析问题的能力,贴近生活.14.已知某种细菌的适宜生长温度为10℃~25℃,为了研究该种细菌的繁殖数量(单位:个)随温度(单位:℃)变化的规律,收集数据如下:温度/℃12141618202224繁殖数量/个2025332751112194对数据进行初步处理后,得到了一些统计量的值,如下表所示:18663.81124.3142820.5其中,.(1)请绘出关于的散点图,并根据散点图判断与哪一个更适合作为该种细菌的繁殖数量关于温度的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表格数据,建立关于的回归方程(结果精确到0.1);(3)当温度为25℃时,该种细菌的繁殖数量的预报值为多少?参考公式:对于一组数据,其回归直线的斜率和截距的最小二成估计分别为,.参考数据:.【答案】(1)更适合作为关于的回归方程.(2).(3)245.【分析】(1)画出关于的散点图,即可作出判定,得到结论.(2)由(1)因为,得,利用公式求得和的值,即可求得回归方程;(3)令,求得,即可得到结论.【详解】(1)由题意,关于的散点图如下图所示.更适合作为关于的回归方程.(2)由(1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论