2020版高考数学大一轮复习 第十章 算法、统计与统计案例 10.4 变量的相关性课件 文 新人教A版_第1页
2020版高考数学大一轮复习 第十章 算法、统计与统计案例 10.4 变量的相关性课件 文 新人教A版_第2页
2020版高考数学大一轮复习 第十章 算法、统计与统计案例 10.4 变量的相关性课件 文 新人教A版_第3页
2020版高考数学大一轮复习 第十章 算法、统计与统计案例 10.4 变量的相关性课件 文 新人教A版_第4页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章算法、统计与统计案例 10.4变量的相关性 NEIRONGSUOYIN 内容索引 基础知识 自主学习 题型分类 深度剖析 课时作业 1基础知识 自主学习 PART ONE 1.变量间的相关关系变量间的相关关系 知识梳理 ZHISHISHULIZHISHISHULI 两个变量 间的关系 函数关系 相关关系 单调递增 单调递减 正相关 负相关 确定性 随机性 2.散点图 以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系 中描点,这样的图形叫做散点图. 3.回归直线方程与回归分析 (1)直线方程 ,叫做Y对x的 ,b叫做 .要确定回 归直线方程,只要确定a与回归系数b. (

2、2)用最小二乘法求回归直线方程中的a,b有下列公式 _,其 中的 _, 表示是由观察值按最小二乘法求得的a,b的估 计值. 回归直线方程回归系数 (3)相关性检验 计算相关系数r,r具有以下性质:|r| 1,并且|r|越接近1,线性相关程度 _;|r|越接近0,线性相关程度 ; ,表明有95%的把握认为x与Y之间具有线性相关关系,回归直线方 程有意义;否则寻找回归直线方程毫无意义. 越强越弱 |r|r0.05 4.独立性检验 (1)22列联表: B合计 An11n12n1 n21n22n2 合计n1n2n 其中n1n11n12,n2n21n22,n1,n2,n_ _. n11n21n12n22

3、 n11 n12n21n22 (2)2统计量: 2_. (3)两个临界值:3.841与6.635 当时,有95%的把握说事件A与B有关; 当时,有99%的把握说事件A与B有关; 当时,认为事件A与B是无关的. 23.841 26.635 23.841 1.变量的相关关系与变量的函数关系有什么区别? 提示相同点:两者均是指两个变量的关系. 不同点:函数关系是一种确定的关系,相关关系是一种非确定的关系. 函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随 关系. 2.如何判断两个变量间的线性相关关系? 提示散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相 关系数作出判断.

4、 【概念方法微思考】 3.独立性检验的基本步骤是什么? 提示列出22列联表,计算2值,根据临界值表得出结论. 4.回归直线方程是否都有实际意义?根据回归直线方程进行预报是否一定准确? 提示(1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行 统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实 际意义,否则,求出的回归直线方程毫无意义. (2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值. 题组一思考辨析 1.判断下列结论是否正确(请在括号中打“”或“”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.() (2)“名师出高徒”可以解释为

5、教师的教学水平与学生的水平成正相关 关系.() (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.() (4)某同学研究卖出的热饮杯数y与气温x()之间的关系,得回归直线方程 2.352x147.767,则气温为2时,一定可卖出143杯热饮.() (5)事件X,Y关系越密切,则由观测数据计算得到的2的值越大. () 基础自测 JICHUZICEJICHUZICE 123456 题组二教材改编 123456 2.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生 中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方 法最有说服力 A.回归分析 B.

6、期望与方差 C.独立性检验 D.概率 解析“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 则表中a,b的值分别为 A.94,72 B.52,50 C.52,74 D.74,52 123456 3.下面是22列联表: y1y2合计 x1a2173 x2222547 合计b46120 解析a2173,a52. 又a22b,b74. 4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次 试验.根据收集到的数据(如下表),由最小二乘法求得回归方程 0.67x54.9. 现发现表中有一个数据看不清,请你推断出该数据的值为_. 设表中的“模糊数字”为a, 则62a758

7、189755,a68. 123456 零件数x (个)1020304050 加工时间y (min)62758189 68 题组三易错自纠 5.某医疗机构通过抽样调查(样本容量n1 000),利用22列联表和2统计量 研究患肺病是否与吸烟有关.计算得 2 4.453,经查阅临界值表知 P(23.841)0.05,现给出四个结论,其中正确的是 A.在100个吸烟的人中约有95个人患肺病 B.若某人吸烟,那么他有95%的可能性患肺病 C.有95%的把握认为“患肺病与吸烟有关” D.只有5%的把握认为“患肺病与吸烟有关” 123456 解析由已知数据可得,有10.0595%的把握认为“患肺病与吸烟有关

8、”. 123456 6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物 理成绩具有线性相关关系) 现已知其回归直线方程为 ,则根据此线性回归方程估计数学得90 分的同学的物理成绩为_.(四舍五入到整数) 学生的编号i12345 数学成绩x8075706560 物理成绩y7066686462 73 123456 2题型分类深度剖析 PART TWO 题型一相关关系的判断 例1(1)观察下列各图形, 其中两个变量x,y具有相关关系的图是 A. B. C. D. 师生共研师生共研 解析由散点图知中的点都分布在一条直线附近. 中的点都分布在一条曲线附近, 所以中的两个变量具有相关关

9、系. (2)(2018沈阳质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位: 万吨)的柱形图.以下结论不正确的是 A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二 氧化硫排放量与2007年排放量的差最大,A选项正确; 2007年二氧化硫排放量较2006年降低了很多,B选项正确; 虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈

10、递减趋 势,C选项正确; 自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D. 判定两个变量正,负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左 上角到右下角,两个变量负相关. (2)相关系数:当r0时,正相关;当r0时,正相关;当 0时,负相关. 思维升华 跟踪训练1在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1, x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直 线y x1上,则这组样本数据的样本相关系数为 A.1 B.0 C. D.1 解析完全的线性关系,且为负相关,故其相关

11、系数为1,故选A. 题型二回归分析 命题点1线性回归分析 多维探究多维探究 例2下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图. 注:年份代码17分别对应年份20112017. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; 因为y与t的相关系数近似为0.99, 说明y与t的线性相关程度相当高, 从而可以用线性回归模型拟合y与t的关系. 解由折线图中数据和附注中参考数据得 (2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害 化处理量. 附注: 所以预测2019年我国生活垃圾无害化处理量约为1.83亿吨.

12、命题点2非线性回归 例3某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位: 千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi 和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计 量的值. 46.65636.8289.81.61 469108.8 (1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣 传费x的回归方程类型?(给出判断即可,不必说明理由) 解由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归 方程类型. (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知

13、这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列 问题: 年宣传费x49时,年销售量及年利润的预报值是多少? 年宣传费x为何值时,年利润的预报值最大? 解由(2)知,当x49时, 根据(2)的结果知,年利润z的预报值 故年宣传费为46.24千元时,年利润的预报值最大. 回归分析问题的类型及解题方法 (1)求回归方程 根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. 利用公式,求出回归系数 . 待定系数法:利用回归直线过样本点的中心求系数 . (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关

14、还是负相关的是系数 . (4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变 量的线性相关性越强. 思维升华 跟踪训练2(2018全国)下图是某地区2000年至2016年环境基础设施投资 额y(单位:亿元)的折线图. 为了预测该地区2018年的环境基础设 施投资额,建立了y与时间变量t的两个 线性回归模型.根据2000年至2016年的 数据(时间变量t的值依次为1,2, 17)建立模型: 30.413.5t;根 据2010年至2016年的数据(时间变量t的 值依次为1,2,7)建立模型: 9917.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的

15、预报值; 解利用模型,可得该地区2018年的环境基础设施投资额的预报值为 30.413.519226.1(亿元). 利用模型,可得该地区2018年的环境基础设施投资额的预报值为 99 17.59256.5(亿元). (2)你认为用哪个模型得到的预报值更可靠?并说明理由. 解利用模型得到的预测值更可靠. 理由如下: ()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直 线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模 型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的 环境基础设施投资额有明显增加,2010年至2016年的

16、数据对应的点位于一 条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线 性增长趋势,利用2010年至2016年的数据建立的线性模型 9917.5t可以 较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型 得到的预报值更可靠. ()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型 得到的预报值226.1亿元的增幅明显偏低,而利用模型得到的预报值的 增幅比较合理,说明利用模型得到的预报值更可靠. 题型三独立性检验 师生共研师生共研 例4(2017全国)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对 比,收获时各随机抽取了100个网箱,测量

17、各箱水产品的产量(单位:kg),其频 率分布直方图如下: (1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率; 解旧养殖法的箱产量低于50 kg的频率为 (0.0120.0140.0240.0340.040)50.62. 因此,事件A的概率估计值为0.62. (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方 法有关: 箱产量50 kg箱产量50 kg 旧养殖法 新养殖法 解根据箱产量的频率分布直方图得列联表如下: 箱产量6.635,故有99%的把握认为箱产量与养殖方法有关. 解箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到

18、55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且 新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此, 可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法. (3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较. 附: P(K2k0)0.0500.010 k03.8416.635 (1)比较几个分类变量有关联的可能性大小的方法 通过计算2的大小判断:2越大,两变量有关联的可能性越大 通过计算|n11n22n12n21|的大小判断:|n11n22n12n21|越大,两变量有关联 的可能性越大 (2)独立性检验的一般步骤 根据样

19、本数据制成22列联表 根据公式 计算2. 比较2与临界值的大小关系,作统计推断. 思维升华 跟踪训练3微信是现代生活进行信息交流的重要工具,某公司200名员工 中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其 余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于 40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年 人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使 用微信的员工中有 是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出22列联表: 青年人中年人合计 经常使用微信 不经常使用微信 合

20、计 解由已知可得,该公司员工中使用微信的有20090%180(人). 经常使用微信的有18060120(人), 使用微信的人中青年人有18075%135(人), 故22列联表如下: 青年人 中年人 合计 经常使用微信8040120 不经常使用微信55560 合计13545180 (2)根据22列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为 “经常使用微信与年龄有关”? P(2k0)0.0100.001 k06.63510.828 解将列联表中数据代入公式可得, 由于13.33310.828,所以有99.9%的把握认为“经常使用微信与年龄有关”. 数据分析是指针对研究对象获得相关

21、数据,运用统计方法对数据中的有 用信息进行分析和推断,形成知识的过程.主要包括:收集数据、整理数据、 提取信息、构建模型对信息进行分析、推断、获得结论. 核心素养之数据分析 HEXINSUYANGZHISHUJUFENXIHEXINSUYANGZHISHUJUFENXI 回归直线方程及其应用 例某地最近十年粮食需求量逐年上升,下表是部分统计数据: 年份20062008201020122014 需求量/万吨236246257276286 解由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回 归方程,先将数据处理如下表. 年份201042024 需求257211101929 (2)利用

22、(1)中所求出的回归直线方程预测该地2019年的粮食需求量. 解利用所求得的回归直线方程,可预测2019年的粮食需求量大约为 6.5(20192010)260.26.59260.2318.7(万吨). 素养提升例题中利用所给数据求回归方程的过程体现的就是数据分析素养. 3课时作业 PART THREE 基础保分练 12345678910111213141516 x345678 y4.02.50.50.50.40.1 1.根据如下样本数据: 12345678910111213141516 2.下表提供了某工厂节能降耗技术改造后,一种产品的产量x(单位:吨)与相 应的生产能耗y(单位:吨)的几组对

23、应数据: 根据上表提供的数据,求得y关于x的回归直线方程为 0.7x0.35,那么表 格中t的值为 A.3 B.3.15 C.3.25 D.3.5 x/吨3456 y/吨2.5t44.5 12345678910111213141516 解得t3. 12345678910111213141516 3.下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单 位:)的数据一览表. 已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错 误的是 A.最低温度与最高温度为正相关 B.每月最高温度与最低温度的平均值在前8个月逐月增加 C.月温差(最高温度减最低温度)的最

24、大值出现在1月 D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大 月份12345678910 最高温度/59911172427303121 最低温度/1231271719232510 12345678910111213141516 解析将最高温度、最低温度、温差列表如下: 由表格可知,最低温度大致随最高温度的升高而升高,A正确; 每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错误; 月温差的最大值出现在1月,C正确; 1月至4月的月温差相对于7月至10月,波动性更大,D正确. 月份12345678910 最高温度/59911172427303121 最低温度

25、/1231271719232510 温差度/171281310787611 4.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i1,2,8),其 回归直线方程是 ,且x1x2x3x82(y1y2y3y8)6, 则实数 的值是 12345678910111213141516 5.(2018大连调研)某商场为了了解毛衣的月销售量y(单位:件)与月平均气温 x(单位:)之间的关系,随机统计了某4个月的销售量与当月平均气温,其数 据如下表: 12345678910111213141516 月平均气温x/171382 月销售量y/件24334055 由表中数据算出回归直线方程 ,气象部门预

26、测下个月的 平均气温为6 ,据此估计该商场下个月毛衣销售量为 A.46 件 B.40 件C.38 件 D.58 件 12345678910111213141516 6.(2018江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开, 为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法 从不同地区调查了100位育龄妇女,结果如下表. 12345678910111213141516 非一线一线合计 愿生452065 不愿生132235 合计5842100 正确的结论是 A.有95%以上的把握认为“生育意愿与城市级别有关” B.有95%以上的把握认为“生育意愿与城市级别无关

27、” C.有99%以上的把握认为“生育意愿与城市级别有关” D.有99%以上的把握认为“生育意愿与城市级别无关” 参照下表, 12345678910111213141516 P(2k0)0.0500.010 k03.8416.635 解析29.6166.635, 有99%以上的把握认为“生育意愿与城市级别有关”,故选C. 7.某市居民20102014年家庭年平均收入x(单位:万元)与年平均支出y(单位: 万元)的统计资料如下表所示: 根据统计资料,居民家庭年平均收入的中位数是_,家庭年平均收入与年平 均支出有_相关关系.(填“正”或“负”) 12345678910111213141516 年份2

28、0102011201220132014 收入x11.512.11313.315 支出y6.88.89.81012 13 正 解析中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增 多时,年平均支出也增多,因此两者之间具有正相关关系. 12345678910111213141516 8.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m与年销售 额t(单位:百万元)进行了初步统计,得到下列表格中的数据: 经测算,年广告支出m与年销售额t满足回归直线方程 6.5m17.5,则p_. 年广告支出m24568 年销售额t3040p5070 60 1234567891011121

29、3141516 9.以下四个命题,其中正确的序号是_. 从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某 项指标检测,这样的抽样是分层抽样; 两个随机变量相关性越强,则相关系数的绝对值越接近于1; 在回归直线方程 0.2x12中,当解释变量x每增加一个单位时,预报变量 平均增加0.2个单位; 对分类变量X与Y的统计量2来说,2越小,“X与Y有关系”的把握程度越大. 解析是系统抽样; 对于,统计量2越小,说明两个相关变量有关系的把握程度越小. 12345678910111213141516 10.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生, 得到如图所

30、示22列联表: 理科文科合计 男131023 女72027 合计203050 95% 因为4.8443.841,所以有95%的把握认为选修文科与性别有关. 12345678910111213141516 12345678910111213141516 11.某地区2009年至2015年农村居民家庭人均纯收入y(单位:千元)的数据如下表: 年份2009201020112012201320142015 年份代号t1234567 人均纯收入y2.93.33.64.44.85.25.9 (1)求y关于t的回归直线方程; 12345678910111213141516 解由所给数据计算得 1234567

31、8910111213141516 12345678910111213141516 (2)利用(1)中的回归直线方程,分析2009年至2015年该地区农村居民家庭人均 纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: 12345678910111213141516 解由(1)知, 0.50,故2009年至2015年该地区农村居民家庭人均纯收入 逐年增加,平均每年增加0.5千元. 将2019年的年份代号t11代入(1)中的回归直线方程,得 0.5112.37.8, 故预测该地区2019年农村居民家庭人均纯收入为7.8千元. 12.

32、某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟 定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下: 12345678910111213141516 月收入(单 位:百元) 15,25)25,35)35,45)45,55)55,65)65,75 赞成定价者 人数 123534 认为价格偏 高者人数 4812521 (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定 价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数); 12345678910111213141516 解“赞成定价者”的月平均收入为 “认为价格偏高者”

33、的月平均收入为 “赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x1x250.5638.7511.81(百元). (2)由以上统计数据填下面22列联表,分析是否有99%的把握认为“月收入以 55百元为分界点对地铁定价的态度有差异”. 12345678910111213141516 月收入不低于55百元的人数月收入低于55百元的人数合计 认为价格偏高者 赞成定价者 合计 P(2k0)0.050.01 k03.8416.635 12345678910111213141516 解根据条件可得22列联表如下: 没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”. 月收入不低于 55百元的人数 月收入低于55 百元的人数 合计 认为价格偏高者32932 赞成定价者71118 合计104050 技能提升练 12345678910111213141516 13.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地 区调查了500位老年人,结果如下: 性别 是否需要志愿者 男女 需要4030 不需要160270 (1)估计该地区老年人中,需要志 愿者提供帮助的老年人的比例; 解调查的500位老年人中有70位需要志愿者提供帮助,所以该地区老年人中, 需要志愿者提供帮助的老年人的比例的估计值为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论