版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题10统计案例【重难点知识点网络】:一、相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.二、线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))__,则eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do6(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do6(i=1))(xi-\o(x,\s\up6(-)))2)=eq\f(\o(∑,\s\up6(n),\s\do6(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).其中,eq\o(b,\s\up6(^))是回归方程的斜率,eq\o(a,\s\up6(^))是在y轴上的截距,回归直线一定过样本点的中心(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-))).三、回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-)))称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R2=1-eq\f(\o(∑,\s\up6(n),\s\do6(i=1))(yi-\o(y,\s\up6(^))i)2,\o(∑,\s\up6(n),\s\do6(i=1))(yi-\o(y,\s\up6(-)))2).其中eq\o(∑,\s\up6(n),\s\do6(i=1))(yi-eq\o(y,\s\up6(^))i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.四、独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d则随机变量K2=eq\f(n(ad-bc)2,(a+b)(a+c)(b+d)(+d)),其中n=a+b+c+d为样本容量.【知识必备】1.求解回归方程的关键是确定回归系数eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^)),应充分利用回归直线过样本中心点(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-))).2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.3.根据回归方程计算的eq\o(y,\s\up6(^))值,仅是一个预报值,不是真实发生的值.【重难点题型突破】:一、相关关系判断例1、(2021·浙江杭州市·高二课时练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是()A. B.C. D.【答案】A【分析】由给出的四组数据的散点图,结合相关系数的概念,逐图判定,即可求解.【详解】由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0,题图2和题图4是负相关,相关系数小于0,题图1和题图2的点相对更加集中,所以相关性更强,所以接近于1,接近于,由此可得.故选:A.【变式训练1-1】、(2021·合肥市第六中学高三其他模拟(文))年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:注:是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是()A.当月在售二手房均价与月份代码呈正相关关系B.根据可以预测年月在售二手房均价约为万元/平方米C.曲线与的图形经过点D.回归曲线的拟合效果好于的拟合效果【答案】C【分析】根据散点图的分布可判断A选项的正误;将代入回归方程可判断B选项的正误;根据非线性回归曲线不一定经过可判断C选项的正误;根据回归模型的拟合效果与的大小关系可判断D选项的正误.【详解】对于A,散点从左下到右上分布,所以当月在售二手房均价与月份代码呈正相关关系,故A正确;对于B,令,由,所以可以预测年月在售二手房均价约为万元/平方米,故B正确;对于C,非线性回归曲线不一定经过,故C错误;对于D,越大,拟合效果越好,故D正确.故选:C.【变式训练1-2】、(多选题)(2021·重庆西南大学附中高二期末)对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中正确的是()A.由样本数据得到的回归方程必过样本中心B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r=﹣0.9362,则变量y和x之间具有线性相关关系【答案】ABD【分析】A.根据回归分析判断;B.根据残差的意义判断;C.根据相关指数R2的意义判断;D.根据相关系数的意义判断.【详解】A.由样本数据得到的回归方程必过样本中心,故正确;B.残差平方和越小的模型,拟合的效果越好,故正确;C.用相关指数R2来刻画回归效果,R2越大,说明模型的拟合效果越好,故错误;D.若变量y和x之间的相关系数为r=﹣0.9362,r的绝对值接近于1,则变量y和x之间具有线性相关关系,故正确;故选:ABD二、线性回归方程分析例2、(2020·全国高三专题练习)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数(天)3456繁殖个数(千个)2.534.5由最小二乘法得与的线性回归方程为,则当时,繁殖个数的预测值为A.4.9 B.5.25C.5.95 D.6.15【答案】B【分析】根据表格中的数据,求得样本中心为,代入回归直线方程,求得,得到回归直线的方程为,即可作出预测,得到答案.【详解】由题意,根据表格中的数据,可得,即样本中心为,代入回归直线方程,即,解得,即回归直线的方程为,当时,,故选B.【点睛】本题主要考查了回归直线方程的应用,其中解答中熟记回归直线方程的特征,求得回归直线的方程是解答的关键,着重考查了运算与求解能力,属于基础题.【变式训练2-1】、为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为()A.eq\o(y,\s\up6(^))=x-1 B.eq\o(y,\s\up6(^))=x+1C.eq\o(y,\s\up6(^))=88+eq\f(1,2)x D.eq\o(y,\s\up6(^))=176【答案】C[设y对x的线性回归方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),eq\x\to(x)=176,eq\x\to(y)=176,检验得y=88+eq\f(x,2)过点(eq\x\to(x),eq\x\to(y)).]【变式训练2-2】、(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y关于t的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:,【解析】(I)由所给数据计算得(1+2+3+4+5+6+7)=4,(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3=9+4+1+0+1+4+9=28=,.所求回归方程为.【变式训练2-3】、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:t)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.46.65636.8289.81.61469108.8表中,=.(Ⅰ)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立关于的回归方程;(Ⅲ)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费为何值时,年利率的预报值最大?附:对于一组数据,,,,其回归线的斜率和截距的最小二乘估计分别为,.【解析】(Ⅰ)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型.(Ⅱ)令,先建立关于的线性回归方程,由于.,所以关于的线性回归方程为,因此关于的回归方程为.(Ⅲ)(ⅰ)由(Ⅱ)知,当时,年销售量的预报值年利润的预报值.(ⅱ)根据(Ⅱ)得结果知,年利润的预报值.所以当,即时,取得最大值.故年宣传费为千元时,年利润的预报值最大.三、独立性检测例3、(2018年全国Ⅲ卷理数)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,0.0500.0100.001k3.8416.63510.828【答案】(1)第二种生产方式的效率更高.理由见解析(2)80(3)能【解析】(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于,所以有99%的把握认为两种生产方式的效率有差异.【变式训练3-1】、(湖南长沙雅礼中学、河南省实验中学2019届联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气污染指数(0,50](50,100](100,150](150,200](200,300](300,+∞)空气质量等级优良轻度污染中度污染重度污染严重污染某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数112711731根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计参考数据:P(K2≥k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.0246.6357.879参考公式:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.【解析】(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,空气中度污染的天气被抽取的有2天,记作B1,B2,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,故P(A)=eq\f(9,15)=eq\f(3,5),即至少有一天空气质量是中度污染的概率为eq\f(3,5).(3)2×2列联表如下:空气质量优、良空气质量污染总计限行前9090180限行后382260总计128112240由表中数据可得,K2=eq\f(240×(90×22-90×38)2,180×60×128×112)≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.【变式训练3-2】、(2019·全国高二专题练习(理))为推行“新课堂”教学法,某老师分别用传统教学和“新课堂”两种不同的教学方式在甲、乙两个平行班进行教学实验,为了解教学效果,期中考试后,分别从两个班级中各随机抽取20名学生的成绩进行统计,作出如图所示的茎叶图,若成绩大于70分为“成绩优良”.(1)分别计算甲、乙两班的样本中,前10名成绩的平均分,并据此判断哪种教学方式的教学效果更佳;(2)由以上统计数据填写下面2×
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 24秋吉林开放大学《科学发展简史》形成性考核1-3答案
- 12 富起来到强起来 第一课时(教学设计)-部编版道德与法治五年级下册
- 2024届上海市长宁嘉定金山5月高考模拟考试数学试题试卷
- 2024年西藏道路运输客运从业资格证考试题库及答案
- 2024年河南客运资格证考试题目
- 2024年福建道路客运驾驶员从业资格模拟考试题
- 2024年内蒙古2024年道路旅客运输从业资格证模拟试题
- 2024年忻州道路客运输从业资格证理论考试题
- 2024年那曲客运上岗证模拟考试题
- 2025届河南省遂平中学生物高三第一学期期末检测模拟试题含解析
- 高一抽象函数专题
- 职业学院教师教学创新团队建设管理办法
- 内部审计统计调查制度
- 初中音乐《流浪者之歌》课件
- 2022年国家开放大学《连锁企业配送技术》形考1-4、终考任务答案
- 河北省唐山市药品零售药店企业药房名单目录
- 辽宁省阜新市药品零售药店企业药房名单目录
- 最新二年级上册英语(牛津上海版深圳)Unit 7《In the playground》公开课课件
- 湖南省邵阳市各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
- 送达地址确认书(样本)
- OA系统技术要求
评论
0/150
提交评论