第十章第三节变量的相关性与一元线性回归模型_第1页
第十章第三节变量的相关性与一元线性回归模型_第2页
第十章第三节变量的相关性与一元线性回归模型_第3页
第十章第三节变量的相关性与一元线性回归模型_第4页
第十章第三节变量的相关性与一元线性回归模型_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节变量的相关性与一元线性回归模型【课程标准】1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.2.结合实例,会通过相关系数比较多组成对数据的相关性.3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.4.针对实际问题,会用一元线性回归模型进行预测.【考情分析】考点考法:高考命题常以现实生活为载体,考查样本相关系数、一元线性回归方程、非线性回归方程;一元线性回归方程是高考热点,三种题型都会出现.核心素养:数学抽象、数据分析、数学运算【必备知识·逐点夯实】【知识梳理·归纳】1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.【微点拨】散点图是描述成对数据之间关系的一种直观方法,观察散点图可以大致看出两个变量的相关关系.2.样本相关系数(1)样本相关系数(2)样本相关系数r的取值范围为[1,1],是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征,它的绝对值大小可以反映成对样本数据之间线性相关的程度:①当r>0时,成对样本数据正相关;②当r<0时,成对样本数据负相关.③当|r|越接近1时,成对样本数据的线性相关程度越强;④当|r|越接近0时,成对样本数据的线性相关程度越弱.3.经验回归模型我们将=x+称为Y关于x的经验回归方程,其中=yx.4.对模型刻画数据效果的分析(1)残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.(2)残差平方和法残差平方和越小,模型的拟合效果越好.(3)决定系数R2法可以用决定系数来比较两个模型的拟合效果,R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.【基础小题·自测】类型辨析改编易错题号12,341.(多维辨析)(多选题)下列结论正确的有 ()A.相关关系是一种非确定性关系B.散点图是判断两个变量相关关系的一种重要方法和手段C.经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点D.样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强【解析】选ABD.由相关关系的定义可知:相关关系是一种非确定性关系,所以选项A正确;因为散点图是描述成对数据之间关系的一种直观方法,观察散点图可以大致看出两个变量的相关关系,所以选项B正确;由经验回归方程=x+过点(x,y)知,不一定过样本数据,所以选项C错误;由相关系数的大小与样本相关关系可知,选项D正确.2.(选修第三册P101例1改编)对于x,y两个变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是 ()A.0.82 B.0.78 C.0.69 D.0.87【解析】选D.由样本相关系数的绝对值|r|越接近1,变量间的线性相关性越强知,各选项中r=0.87的绝对值最接近1.3.(选修第三册P103习题1改编)根据所示的散点图,下列说法正确的是 ()A.身高越高,体重越大B.身高越高,体重越小C.身高和体重呈正相关D.身高和体重呈负相关【解析】选C.根据散点图的分布可得:身高和体重呈正相关.4.(误认为经验回归直线过样本点)某互联网公司借助某平台推广自己的产品,对今年前5个月的月平台推广费用x(单位:百万元)与月利润额y(单位:百万元)进行了初步统计,得到下列表格中的数据:x24568y304060p70经计算,月平台推广费用x与月利润额y满足经验回归方程=6.5x+17.5,则p的值为 ()A.50 B.56.5 C.60 D.70【解析】选A.由于经验回归直线过样本点的中心,x=5,y=200+p5,代入经验回归方程得200+p5=6.5×5+17.5,【核心考点·分类突破】考点一成对数据的相关性[例1](1)(2023·天津高考)调查某种花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.8245,下列说法正确的是 ()A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈现负相关C.花瓣长度和花萼长度呈现正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245【解析】选C.因为相关系数r=0.8245>0.75,且题中散点图呈左下角到右上角的带状分布,所以花瓣长度和花萼长度呈现正相关.若从样本中抽取一部分,则这部分的相关系数不一定是0.8245.(2)(多选题)对于样本相关系数,下列说法正确的有 ()A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数r∈[1,1]D.样本相关系数越大,成对样本数据的线性相关程度也越强【解析】选ABC.因为样本相关系数大于0,说明成对样本数据正相关,样本相关系数小于0,说明成对样本数据负相关,所以选项A正确;由样本相关系数公式可知:样本相关系数r∈[1,1],所以选项B,C正确;样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强,故D错误.【解题技法】判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某条曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r|越趋近于1,相关性越强.【对点训练】1.对四组不同的数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,下列正确的是 ()A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3【解析】选A.由题中散点图可知图①与图③中的两个变量是正相关,故r1>0,r3>0,图②与图④中的两个变量是负相关,故r2<0,r4<0,又图①与图②中的样本点集中在一条直线附近,所以r2<r4<0<r3<r1.2.若已知是的4倍,是的1.5倍,则相关系数r的值为________.

【解析】由,得r=34.答案:3【加练备选】1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是 ()A.利润率与人均销售额呈现正相关关系B.利润率与人均销售额呈现负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系【解析】选A.由题中统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C,D;其属于正相关关系,A正确,B错误.2.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用经验回归方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是 ()A.线性相关关系较强,的值为1.25B.线性相关关系较强,的值为0.83C.线性相关关系较强,的值为0.87D.线性相关关系较弱,无研究价值【解析】选B.由题中散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以经验回归方程的斜率应为正数,且从散点图观察,经验回归方程的斜率应该比直线y=x的斜率要小一些,综上可知应选B.考点二回归模型及其应用角度1一元线性回归模型及其应用[例2]为保证新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下数据:年份编号x12345年份20182019202020212022数量y/个37104147196226(1)已知可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(2)求y关于x的经验回归方程,并预测2026年该市新能源汽车充电站的数量.参考数据:参考公式:相关系数经验回归直线=x+中斜率和截距的最小二乘估计公式分别为=yx.【解析】(1)由已知数据得x=15×(1+2+3+4+5)=3,y=1所以r≈4703.16×149.因为y与x的相关系数近似为0.99,接近1,说明y与x的线性相关程度相当高,从而可以用线性回归模型拟合y与x的关系.(2)由(1)得=yx=14247×3=1,故所求经验回归方程为=47x+1,将2026年对应的年份编号x=9代入经验回归方程得=47×9+1=424,故预测2026年该市新能源汽车充电站的数量为424个.【解题技法】求经验回归方程的步骤【对点训练】1.(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到如下样本数据:x34567y3.52.41.10.21.3根据表格中的数据求得经验回归方程为=x+,则下列说法中正确的是 ()A.>0,>0 B.>0,<0C.<0,>0 D.<0,<0【解析】选B.由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,所以<0.又x=15×(3+4+5+6+7)=5,y=15×(3.5+2.4+1.10.21.3)=1.1,即1.1=5+,所以=1.15>0.2.某智能机器人的广告费用x(万元)与销售额y(万元)的统计数据如表所示:广告费用x(万元)2356销售额y(万元)28314148根据此表可得经验回归方程为=5x+,据此模型预测广告费用为8万元时,销售额为________万元.

【解析】由题中表格,得x=2+3+5+64y=28+31+41+484所以37=5×4+,即=17,所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).答案:57角度2非线性回归模型及其应用[例3]某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成,每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:x12345678y1126144.53530.5282524根据以上数据,绘制了散点图.参考数据:(其中ui=1x参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程=+u的斜率和截距的最小二乘估计分别为(1)观察散点图判断,y=a+bx与y=c+dx哪一个适宜作为非原料成本y与生产该产品的数量x的回归方程类型?(给出判断即可,不必说明理由(2)根据(1)的判断结果及表中数据,建立y与x的回归方程.(3)试预测生产该产品10000件时每件产品的非原料成本.【解析】(1)由散点图可知,y=a+bx适宜作为非原料成本y与生产该产品的数量x的回归方程类型(2)令u=1x,则y=a+bu=yu=3608100×0.34=11,所以=11+100u=11+100x;(3)当x=10(千件)时,=11+10010=21(元).故预测生产该产品10000件时每件产品的非原料成本为21元.【解题技法】非线性回归分析的步骤【对点训练】1.(2023·郑州模拟)用模型y=aebx+1(a>0)拟合一组数据时,令z=lny,将其变换后得到经验回归方程=2x+,则ba= (A.e B.1e C.12 D【解析】选D.对y=aebx+1(a>0)两边同时取对数,则lny=ln(aebx+1)=lna+bx+1,令z=lny,则z=bx+lna+1,所以b=2,2.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2e2x+1的图象附近,设z=lny,将其变换后得到经验回归方程为=x+,则mn=________.

【解析】由z=lny,则lny=ln2e2x+1,即z=ln2+lne2x+1=ln2+2x+1,则z=2x+ln2+1,故答案:2ln2+2考点三残差分析[例4](1)(多选题)下列说法正确的是 ()A.在经验回归方程=0.85x+2.3中,当解释变量x每增加1个单位时,响应变量平均减少2.3个单位B.在经验回归方程=0.85x+2.3中,相对于样本点(1,1.2)的残差为0.25C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好D.若两个变量的决定系数R2越大,表示残差平方和越小,即模型的拟合效果越好【解析】选BCD.对于A,根据经验回归方程,当解释变量x每增加1个单位时,响应变量平均减少0.85个单位,故A错误;对于B,当解释变量x=1时,响应变量=1.45,则样本点(1,1.2)的残差为0.25,故B正确;对于C,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C正确;对于D,由决定系数R2的意义可知,R2越大,表示残差平方和越小,即模型的拟合效果越好,故D正确.(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,下表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:月份代码x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论