2022版高考数学一轮总复习第9章统计与统计案例第3节变量间的相关关系统计案例学案含解析_第1页
2022版高考数学一轮总复习第9章统计与统计案例第3节变量间的相关关系统计案例学案含解析_第2页
2022版高考数学一轮总复习第9章统计与统计案例第3节变量间的相关关系统计案例学案含解析_第3页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、变量间的相关关系、统计案例考试要求 1. 会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2. 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程( 线性回归系数公式不要求记忆).3. 了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求 2× 2 列联表 )的思想、方法及其初步应用1. 两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关(2) 负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关(3) 线性相关关系、回归直线如果

2、散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2. 回归方程yx a1, y1), (x2,(1) 最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法9(2) 回归方程:方程 b 是两个具有线性相关关系的变量的一组数据(xy2), (xn, yn)的回归方程,其中nn, b是待定参数a xi xyi y xi yi n x yi 1bnii 1n,2 22i 1x x y bi 1xi n xax .3. 回归分析(1) 定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2) 样本点的中心对于一组具有线性

3、相关关系的数据(x1, y1) ,(x2,y 2), (xn, yn) ,其中, y( x)称为样本点的中心,即回归直线经过点( x , y )(3) 相关系数当 r 0 时,表明两个变量正相关; 当 r 0 时,表明两个变量负相关r 的绝对值越接近于1,表明两个变量的线性相关性越强r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常 |r |大于 0.75 时,认为两个变量有很强的线性相关性4. 独立性检验(1) 分类变量: 变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2) 列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量x 和 y, 它们的可

4、能取值分别为 x1, x2 和 y1, y2 ,其样本频数列联表(称为 2× 2 列联表 )为变量y1y2总计x1ababx2cdc d总计a cb da b c d构造一个随机变量k2常用结论 n ad bc 2a ba cb dc d,其中 n a bc d 为样本容量1. 回归直线必过样本点的中心( x , y )2. 当两个变量的相关系数|r | 1 时,两个变量呈函数关系ya一、易错易误辨析(正确的打“”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系()(2) 通过回归直线方程 bx 可以估计预报变量的取值和变化趋势()(

5、3) 因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验 ()(4) 事件 x, y 关系越密切,则由观测数据计算得到的k 2 的观测值越大() 答案 (1)(2) (3) ×(4) 二、教材习题衍生1在两个变量y 与 x 的回归模型中,分别选择了4 个不同模型,它们的相关指数r2如下,其中拟合效果最好的是()a 模型1 的相关指数r2 为 0.98b模型2 的相关指数r2 为 0.80c模型3 的相关指数r2 为 0.50d模型4 的相关指数r2 为 0.25变量y1y2总计x1a2173x2222547总计b46120则表中 a,b 的值分别为 ()a 9

6、4,72b 52,50c 52,74d 74,52ca 2173,a52.又 a22 b,b 74.ar2 越接近于 1,其拟合效果越好 2下面是2× 2 列联表:3. 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50 名学生,得到如下 2×2 列联表:性别理科文科男1310女720已知 p(k23.841) 0.05,p(k 2 5.024) 0.025.50× 13× 20 10× 7 2根据表中数据,得到k2 的观测值k性别有关系出错的可能性约为 23× 27× 20× 30 4.844.则认为

7、选修文科与5% k2 的观测值k 4.844,这表明小概率事件发生根据独立性检验,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.4. 某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y(杯)与当天最高气温x( )的有关数据,通过描绘散点图,发现 y 和 x 呈线性相关关系,并求得其回归方程y 2x60.如果气象预报某天的最高气温为34 ,则可以预测该天这种饮料的销售量为 杯y128由题意 x 34 时,该小卖部大约能卖出冷饮的杯数 2×34 60 128 杯 考点一相关关系的判断判定两个变量正、负相

8、关的方法(1) 画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2) 相关系数: r 0 时,正相关;r 0 时,负相关(3) 线性回归直线方程中: b>0时,正相关; b<0时,负相关1. 观察下列各图形,其中两个变量x,y 具有相关关系的图是()a b cd c由散点图知中的点都分布在一条直线附近中的点都分布在一条曲线附近, 所以中的两个变量具有相关关系2. 已知变量x 和 y 近似满足关系式y 0.1x 1,变量 y 与 z 正相关下列结论中正确的是 ()a x 与 y 正相关, x 与 z 负相关b x 与 y 正相关, x 与

9、 z 正相关c. x 与 y 负相关, x 与 z 负相关d. x 与 y 负相关, x 与 z 正相关c由 y 0.1x 1,知 x 与 y 负相关,即y 随 x 的增大而减小,又y 与 z 正相关,所以 z 随 y 的增大而增大,减小而减小,所以z 随 x 的增大而减小,x 与 z 负相关 3. 对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()相关系数为r 1相关系数为r 2相关系数为r 3相关系数为r 4a r2 r4 0 r3 r1c r4 r2 0 r3 r 1b r4 r2 0 r1 r3d r 2r 4 0 r1 r 3a由相关系数的定义以及散点图可知

10、r 2 r4 0r 3r 1.4. x 和 y 的散点图如图所示,则下列说法中所有正确命题的序号为 x, y 是负相关关系;在该相关关系中,若用y c1ec2x 拟合时的相关系数为r 1,用 bx 拟合时的相关ya系数为 r2,则 |r 1| |r2 |;x, y 之间不能建立线性回归方程 在散点图中, 点散布在从左上角到右下角的区域,因此 x,y 是负相关关系, 故y正确; 由散点图知用y c1ec2 x 拟合比用 x 拟合效果要好, 则|r1| |r 2|,故正确; x,bay 之间可以建立线性回归方程,但拟合效果不好,故错误考点二回归分析用最小二乘法求线性回归方程的步骤线性回归分析典例

11、1 1(2020 ·贵阳模拟 )某地随着经济的发展,居民收入逐年增长,下表1 是该地一建设银行连续五年的储蓄存款(年底余额 ) ,年份 x20132014201520162017储蓄存款y/千亿元567810表 1为了研究计算的方便,工作人员将上表的数据进行了处理,tx 2 012,z y5 得到下表 2:时间代号t12345z01表 2235(1) 求 z 关于 t 的线性回归方程;(2) 通过 (1)中的方程,求出y 关于 x 的回归方程;(3) 用所求回归方程预测到2022 年年底,该地储蓄存款额可达多少?n xiyi n x ·y(附:对于线性回归方程 b,其中 b

12、 i 1, a y byx anx ) 22i 1xi n x55解(1) t 3, z 2.2, tizi 45, t2 55,i 1i 1 i45 5× 3× 2.2b55 5× 9 1.2,a z b t 2.2 3×1.2 1.4,所以 z 1.2t 1.4.z(2)将 t x 2 012, z y5,代入 1.2t 1.4,y得 y 5 1.2(x 2 012) 1.4,即 1.2x 2 410.8.y(3)因为 1.2× 2 022 2 410.815.6,所以预测到2022 年年底,该地储蓄存款额可达15.6 千亿元点评: 在线性

13、回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心( x , y ),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值利用回归直线方程求出的是估算值,非准确值 非线性回归方程典例 1 2某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x( 单位: 千元 )对年销售量y(单位: t)和年利润z( 单位:千元 )的影响对近8 年的年宣传费xi 和年销售量 yi (i1,2, 8)数据作了初步处理,得到下面的散点图及一些统计量的值88(w i8(xi 8i 1(wixywi 1i1i 1(xi x )2w ) ·w )2x )(yi

14、 y )(yi y )46.65636.8289.81.61 469108.8表中 w1 8wiixi, w . 8i 1(1) 根据散点图判断,y abx 与 y cdx哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2) 根据 (1)的判断结果及表中数据,建立y 关于 x 的回归方程;(3) 已知这种产品的年利润z 与 x, y 的关系为z 0.2y x.根据 (2) 的结果回答下列问题:年宣传费x 49 时,年销售量及年利润的预报值是多少?年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u1, v1), (u2, v2) , (un,

15、 vn),其回归直线的斜率和截nui uvi vvui 1距的最小二乘估计分别为ni1ui u2, v u .解(1)由散点图可以判断,y cdx适宜作为年销售量y 关于年宣传费x 的回归方程类型(2)令 wx,先建立y 关于 w 的线性回归方程由于 d8i 1wi wyi y8wi w2108.8 68, 1.6i 1c y dw 563 68× 6.8 100.6,所以 y 关于 w 的线性回归方程为y 100.6 68w,y因此 y 关于 x 的回归方程为100.6 68x.(3)由 (2)知,当 x 49 时,年销售量y 的预报值y 100.6 6849 576.6,年利润

16、z 的预报值z576.6× 0.2 49 66.32.根据 (2) 的结果知,年利润z 的预报值z 0.2(100.6 68x) x x 13.6x 20.12.13.6所以当x2 6.8,即 x 46.24 时, z取得最大值故年宣传费为46.24 千元时,年利润的预报值最大点评: 对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程, 再求非线性回归方程跟进训练 1. (2020 ·全国卷 )某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加, 为调查该地区某种野生动物的数量,将其分成面积相近的200 个地块, 从这些地块中用简单随机抽样的方法

17、抽取20 个作为样区,调查得到样本数据(xi,yi)( i 1,2, 20),其中 xi 和 yi 分别表示第i 个样区的植物覆盖面积(单位:公顷 )和这种野生动物的数量,并计算202020 220 220得 xi60, yi 1 200,(xi x ) 80,(yi y) 9 000,(xi x )( yi y ) 800.i 1i1i 1i 1i 1(1) 求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本 (xi, yi )(i 1,2, 20)的相关系数 (精确到 0.01) ;(3)根据现有统计资料,各地块间植物覆盖面

18、积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由附:相关系数r ni 1nxixyi yn,2 1.414.i 1xi x2 i 1yi y21解(1)由已知得样本平均数y 2020yi 60,从而该地区这种野生动物数量的估计值i 1为 60× 200 12 000.(2)样本 (xi , yi)(i 1,2, 20)的相关系数20i 1r20xi xyi y2080080× 9 00022 0.94.3i 1xi x2i 1yi y2(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对 200 个地块进

19、行分层抽样 理由如下:由 (2) 知各样区的这种野生动物数量与植物覆盖面积有很强的正相关由于各地块间植物覆盖面积差异很大, 从而各地块间这种野生动物数量差异也很大, 采用分层抽样的方法较好地保持了样本结构与总体结构的一致性, 提高了样本的代表性, 从而可以获得该地区这种野生动物数量更准确的估计2. 十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展以下是近几年我国新能源汽车的年销量数据及其散点图 (如图所示 ):年份20132014201520162017年份代码x12345新能源汽车的年销量 y/万辆1.55.917.732.95

20、5.6(1) 请根据散点图判断 b 与y c2 d中哪个更适宜作为新能源汽车年销量y 关于yx ax年份代码x 的回归方程模型;(给出判断即可,不必说明理由)(2) 根据 (1) 的判断结果及表中数据,建立y 关于 x 的回归方程,并预测2022 年我国新能源汽车的年销量(精确到 0.1)ni1 cwi wyi yn, d y c w .i 1w i w2附:令 wi xi .255(w i5(xi x ) ·5(w i w ) ·13yi 1i 1i 1i 1( xi x )2 w )2(yi y )(yi y )22.7210374135.2851.2 2解(1)根据散

21、点图得,ycx d更适宜作为年销量y 关于年份代码x 的回归方程y1 4 916 255i 1w i wyi w851.2(2)依题意得,w 5 11, c5i 1wi 2 374 2.28,则d y c w 22.72 2.28× 11 2.36,y 2.28x2 2.36.y令 x 10,则 2.28× 100 2.36 225.64 225.6,故预测 2022 年我国新能源汽车的年销量为225.6 万辆 考点三独立性检验1. 比较几个分类变量有关联的可能性大小的方法(1) 通过计算k2 的大小判断:k 2 越大,两变量有关联的可能性越大(2) 通过计算 |ad bc

22、|的大小判断:|ad bc|越大,两变量有关联的可能性越大2. 独立性检验的一般步骤(1) 根据样本数据制成2× 2 列联表(2) 根据公式k2n ad bc 2a ba cb dc d计算 k 2 的观测值k.(3) 比较观测值k 与临界值的大小关系,作统计推断典例 2(2020 ·全国卷 )某学生兴趣小组随机调查了某市100 天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天 ):空气质量等级锻炼人次0,200(200,400(400,6001(优)216252(良)510123(轻度污染)6784(中度污染)720(1) 分别估计该市一天的空气

23、质量等级为1,2,3,4 的概率;(2) 求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表 );(3) 若某天的空气质量等级为1 或 2,则称这天“空气质量好”;若某天的空气质量等级为 3 或 4,则称这天“空气质量不好”根据所给数据,完成下面的2× 2 列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?项目人次 400人次 >400附: k 2空气质量好空气质量不好n adbc 2,a bc da cb dp(k2 k)0.0500.0100.001k3.8416.63510.828.解(1)由所给

24、数据,该市一天的空气质量等级为1,2,3,4 的概率的估计值如表:空气质量等级1234概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为1 × (100× 20 300× 35 500×45) 350.100(3)根据所给数据,可得2× 2 列联表:项目人次 400人次 400空气质量好3337空气质量不好228根据列联表得k2100× 33×8 22×37 255× 45× 70× 305.820.由于 5.820 3.841 ,故有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关点评: 独立性检验是判断两个分类变量之间是否有关系的一种方法在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论跟进训练 1. 党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论