新高考一轮复习人教A版 第八章 第三讲 成对数据的统计分析 课件(74张)_第1页
新高考一轮复习人教A版 第八章 第三讲 成对数据的统计分析 课件(74张)_第2页
新高考一轮复习人教A版 第八章 第三讲 成对数据的统计分析 课件(74张)_第3页
新高考一轮复习人教A版 第八章 第三讲 成对数据的统计分析 课件(74张)_第4页
新高考一轮复习人教A版 第八章 第三讲 成对数据的统计分析 课件(74张)_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三讲成对数据的统计分析课标要求考情分析1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.会通过相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.理解 22 列联表的统计意义,了解 22 列联表独立性检验及其应用回归分析,独立性检验是高考考查的重点,以解答题为主,常与概率结合考查.难度中高档1.回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种非确定性关系.(2)散点图:表示具有相

2、关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有 y 随 x 增大而增大的趋势,则称两个变量正相关;若这些散点有 y 随 x 增大而减小的趋势,则称两个变量负相关.它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当 r0 时表示两个变量正相关,当 r0 时表示两个变量负相关.|r|越接近 1,表明两个变量的线性相关性越强;当|r|接近 0 时,表明两个变量间几乎不存在相关关系,相关性越弱.变量y1y2总计x1ababx2cdcd总计acbdabcd2.独立性检验(1)22 列联表设 X,Y 为两个分类变量,它们的取值分别为x

3、1,x2和y1,y2,其样本频数列联表(22 列联表)如下:(2)独立性检验abcd 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.(3)独立性检验的一般步骤根据样本数据列出22列联表;计算随机变量2的值,查表确定临界值x;如果2x,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(2x);否则,就认为在犯错误的概率不超过P(2x)的前提下不能推断“X与Y有关系”.【名师点睛】(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实

4、发生的值.(2)独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据2 的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.题组一走出误区1.判断下列结论正误(在括号内打“”或“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件 X,Y 关系越密切,则由观测数据计算得到的2 的观测值越大.()答案:(1)(2)(3)(4)题组二走进教材2.(教材改编题)为调查中学生近视情况,测得某校 150名男生中有 80 名近视,140 名女生中

5、有 70 名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()B.均值与方差D.概率A.回归分析C.独立性检验答案:C3.(教材改编题)两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R2 如下,其中拟合效果最好的模型是()A.模型 1 的相关指数 R2 为 0.98B.模型 2 的相关指数 R2 为 0.80C.模型 3 的相关指数 R2 为 0.50D.模型 4 的相关指数 R2 为 0.25答案:A题组三真题展现4.(2020 年全国)某校一个课外学习小组为研究某作物种子的发芽率 y 和温度 x(单位:)的关系,在 20 个不同的温

6、度条件下进行种子发芽实验,由实验数据(xi,yi)(i1,2,20)得到散点图(如图 8-3-1):图 8-3-1由此散点图,在 10 至 40 之间,下面四个回归方程类型中最适宜作为发芽率 y 和温度 x 的回归方程类型的是()B.yabx2D.yabln xA.yabxC.yabex答案:D相关关系的判断考点一1.观察下列各图形,其中两个变量 x,y 具有相关关系的图是()A.B.C.D.解析:由散点图知中的点都分布在一条直线附近.中的点都分布在一条曲线附近,所以中的两个变量具有相关关系.故选 C.答案:C2.(多选题)关于回归分析,下列说法正确的是()A.在回归分析中,变量间的关系若是非

7、确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果 r21 或 r1,说明 x 与 y 之间完全线性相关D.样本相关系数 r(1,1)解析:选项 D 中,样本相关系数应满足1r1,故 D 错误,ABC 都正确.故选 ABC.答案:ABC3.x 和 y 的散点图如图 8-3-2 所示,则下列说法中正确命题的序号有_.图 8-3-2解析:在散点图中,点散布在从左上角到右下角的区域,因此 x,y 是负相关关系,故正确;由散点图知用 y正确;x,y 之间可以建立线性回归方程,但拟合效果不好,故错误.答案:售价 x99.51010.511销售量 y11

8、10865考点二线性回归分析例 1(1)(多选题)某市物价部门对 5 家商场的某商品一天的销售量及其价格进行调查,5 家商场的售价 x(元)和销售量 y(件)之间的一组数据如表所示:答案:ABC编号x12345年份20152016201720182019单价y/(元kg1)1820232529(2)某农科所实地考察,研究发现某贫困村适合种植两种药材,可以通过种植这两种药材脱贫,通过大量考察研究得知药材 A 的亩产量约为 300 kg,其收购价格处于上涨趋势,最近五年的价格如下表:药材 B 的收购价格始终为 20 元/kg,其亩产量的频率分布直方图如图 8-3-3,图 8-3-3(1)若药材 A

9、 的单价 y(单位:元/kg)与年份编号 x 具有线性相关关系,请求出 y 关于 x 的回归直线方程,并估计2023 年药材 A 的单价;(2)用上述频率分布直方图估计药材 B 的平均亩产量,若不考虑其他因素,试判断 2023 年该村应种植药材 A 还是药材 B?并说明理由.(2)由(1)知,2023 年种植药材 A 的收入为 39.230011 760(元),由频率分布直方图可知,(3600.0053800.014000.017 54200.012 54400.005)20401,药材 B 的平均亩产量为 401 kg,药材 B 的收购价格始终为 20 元/kg,2023 年种植药材 B 的

10、收入为 204018 02011 760,故 2023 年该村应种植药材 A.【题后反思】回归分析问题的类型及解题方法(1)求经验回归方程根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.利用公式,求出回归系数 .利用经验回归直线过样本点的中心求系数a.(2)利用经验回归方程进行预测时,可把经验回归方程看作一次函数求函数值.(3)利用经验回归方程判断正、负相关时,决定是正相关还是负相关的是系数 .(4)判断经验回归方程的拟合效果,可以利用样本相关系数判断,|r|越趋近于 1,两变量的线性相关性越强.广告支出 x24568销售额 y3040605070【变式训练】某公司为确定下一

11、年度投入某种产品的宣传费,需了解这种产品的年广告费支出 x(单位:万元)对年销售额 y(单位:万元)的影响,对近 5 年的年广告费支出 x 和年销售额y 进行统计,得到如下数据:(1)请根据表中数据,建立 y 与 x 的经验回归方程;(2)当年广告费支出为 10 万元时,估计年销售额 y 的预报值是多少万元?附:回归方程中斜率和截距的最小乘估计公式分别(2)当 x10 时, 6.51017.582.5(万元),所以当年广告费支出为 10 万元时,估计年销售额 y的预报值是 82.5 万元.考点三独立性检验例 2电视传媒公司为了解某地区观众对“中国诗词大会”的收视情况,随机抽取了 100 名观众

12、进行调查,其中女性有 55 名.将日均收看该节目时间不低于 40 分钟的观众称为“诗词迷”,已知“诗词迷”中有 15 名男性,“非诗词迷”共有 75 名.性别非诗词迷诗词迷合计男女合计(1)根据已知条件完成下面的 22 列联表,并据此资料判断是否有 95%的把握认为是否为“诗词迷”与性别有关?P(2x)0.150.100.050.0250.0100.0050.001x2.0722.7063.8415.0246.6357.87910.828(2)采用分层随机抽样的方式从“诗词迷”中任意选取 5 人进行问卷调查,若再从这 5 人中任意选取 2 人奖励诗词大礼包,求选取的 2 人为一位男性一位女性的

13、概率.性别非诗词迷诗词迷合计男301545女451055合计7525100解:(1)在抽取的 100 个人中,“非诗词迷”共有 75名,则“诗词迷”有 25 人,女性有 55 名,所以 22 列联表如下:所以没有 95%的把握认为是否为“诗词迷”与性别有关.【变式训练】新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是 50 岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间,潜伏期越长,感染到他人的可能性越高,现对 400 个病例的潜伏期(单位:天)进行调查,如果认为超过 8 天的潜伏期属于“长潜伏期”,按照年龄统计样本,50 岁以上人数

14、占 70%,长期潜伏人数占 25%,其中 50 岁以上长期潜伏者有 60 人.潜伏者类型50 岁以下(含 50 岁)50 岁以上总计长期潜伏者非长期潜伏者总计(1)请根据以上数据完成 22 列联表;单位:人P(2x)0.10.050.010 x2.7063.8416.635(2)判断是否有 95% 的把握认为是否是“长期潜伏”者与年龄有关.潜伏者类型50 岁以下(含 50 岁)50 岁以上总计长期潜伏者4060100非长期潜伏者80220300总计120280400解:(1)根据题目所给数据得到如下 22 列联表,单位:人3.841,所以有 95%以上的把握认为是否是“长期潜伏者”与年龄有关.

15、非线性回归的应用问题例 3为了研究一种昆虫的产卵数 y(单位:个)和温度x(单位:)是否有关,现收集了 7 组观测数据列于下表中,并作出了如图 8-3-4 所示的散点图,发现样本点没有分布在某个带状区域内,两个变量不呈线性相关关系,现分别和温度 x 的回归方程来建立两个变量之间的关系.温度 x/20222426283032产卵数 y/个610212464113322tx24004845766767849001 024zln y1.792.303.043.184.164.735.77图 8-3-4(1) 分别在图 8-3-5(1)(2)中画出 y 关于 t 的散点图和 z关于 x 的散点图,根据

16、散点图判断哪一个模型更适合作为昆虫的产卵数 y 关于温度 x 的回归方程.(给出判断即可,不必说明理由)(1)(2)图 8-3-5解:(1)画出 y 关于 t 的散点图,如图 8-3-6 所示.图 8-3-6画出 z 关于 x 的散点图,如图 8-3-7 所示.图 8-3-7根据散点图可以判断模型更适合作为昆虫的产卵数y 关于温度 x 的回归方程类型.【反思感悟】非线性回归方程的求法(1)根据原始数据作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)作恰当变换,将其转化成线性函数,求线性回归方程;(4)在(3)的基础上通过相应变换,即可得非线性回归方程.【高分训练】1.(2021 年昌江

17、期中)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量y(单位:t)和年利润 z(单位:千元)的影响,对近 8 年的宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到散点图(如图 8-3-8)及一些统计量的值.图 8-3-8(1)根据散点图判断 yabx 与 ycd ,哪一个适合作为年销售量 y 关于年宣传费 x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程;(3)已知这种产品的年利润 z 与 x,y 的关系为 z0.2yx,根据(2)的结果回答下列问题:当年宣传费 x49 时,年销售量及年利润的预报值是多少?当年宣传费 x 为何值时,年利润的预报值最大?使用年数 x234567售价 y201286.44.43zln y3.002.482.081.861.481.102.(20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论