备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析_第1页
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析_第2页
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析_第3页
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析_第4页
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3讲成对数据的统计分析课标要求命题点五年考情命题分析预测1.了解样本相关系数的统计含义,了解样本相关关系与标准化数据向量夹角的关系;会通过相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法;针对实际问题,会用一元线性回归模型进行预测.3.理解2×2列联表的统计意义;了解2×2列联表独立性检验及其应用.成对数据的相关性2023天津T7,2022全国卷乙T19;2020全国卷ⅡT18本讲是高考命题热点.对于回归分析,主要考查散点图,回归方程类型的识别,求相关系数和回归方程,利用回归方程进行预测等;对于独立性检验,主要考查列联表和依据小概率值的独立性检验,常与概率综合命题.题型以解答题为主,难度中等.预计2025年高考会以创新生产生活实践情境为载体考查回归分析和独立性检验.回归模型及其应用2020全国卷ⅠT5列联表与独立性检验2023全国卷甲T19;2022新高考卷ⅠT20;2022全国卷甲T17;2021全国卷甲T17;2020新高考卷ⅠT19;2020全国卷ⅢT181.变量的相关关系(1)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现①增加的趋势,我们就称这两个变量②正相关;当一个变量的值增加时,另一个变量的相应值呈现③减小的趋势,则称这两个变量④负相关.(2)线性相关:一般地,如果两个变量的取值呈现⑤正相关或⑥负相关,而且散点落在⑦一条直线附近,我们就称这两个变量线性相关.(3)非线性相关或曲线相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)样本相关系数r=∑i(2)样本相关系数r的性质①当r>0时,称成对样本数据⑧正相关;当r<0时,称成对样本数据⑨负相关;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.②|r|≤1.当|r|越接近于1,成对样本数据的线性相关性越⑩强;|r|越接近于0,成对样本数据线性相关性越⑪弱.3.一元线性回归模型(1)一元线性回归模型我们称Y=bx+a+e,E(e)=0,D(e)=σ2为Y关于x的一元线性回归模型.其中,Y称为因变量或(2)经验回归方程与最小二乘估计经验回归方程:y=b^x+a最小二乘估计:b^=∑ni=1(xi-x)(yi说明经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.经验回归直线过点(x,y).(3)残差对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去⑬预测值称为残差.(4)决定系数决定系数R2用来比较两个模型的拟合效果,R2=1-∑i=1n(yi-yi)2∑i=1n(yi-y4.列联表与独立性检验(1)2×2列联表一般地,假设有两个分类变量X和Y,它们的取值为{0,1},其样本频数列联表(称为2×2列联表)为:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d(2)独立性检验χ2=n(ad-bc)2(a+b)(c+(3)临界值对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα⑭下表给出了2独立性检验中5个常用的小概率值和相应的临界值.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828(4)基于小概率值α的检验规则当χ2≥xα时,我们就推断H0⑮不成立,即认为X和Y⑯不独立,该推断犯错误的概率不超过α当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y⑰独立说明若2越大,则两个分类变量有关的把握越大.1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是(D)2.下列说法正确的是(D)A.在经验回归方程y=-0.85x+2.3中,当解释变量x每增加1个单位时,响应变量平均减少2.3个单位B.若两个变量的相关性越强,则r越接近于1C.在回归分析中,决定系数R2=0.80的模型比决定系数R2=0.98的模型拟合的效果要好D.残差平方和越小的模型,拟合的效果越好解析对于A,根据经验回归方程,当解释变量x每增加1个单位时,响应变量y平均减少0.85个单位,故A错误;对于B,若两个变量的相关性越强,则|r|越接近于1,故B错误;对于C,用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,所以C错误;对于D,由残差的统计学意义知,D正确.3.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据100个有放回简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是(D)营养品身高合计有明显增长无明显增长食用a1050未食用b3050合计6040100A.a=b=30B.χ2≈C.从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是3D.根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响解析由题可知a=50-10=40,b=50-30=20,所以A错误;χ2=100×(40×30-10×20)250×50×60×40≈16.667>10.828=x4.[2023福州5月质检]已知变量x和y的统计数据如下表:x678910y3.54566.5若由表中数据得到经验回归方程为y=0.8x+a,则x=10时的残差为-0.1.(注:观测值减去预测值称为残差)解析易知x=8,y=5,∴a=5-0.8×8=-1.4,∴x=10时,y=8-1.4=6.6,∴x=10时的残差为6.5-6.6=-0.1.研透高考明确方向命题点1成对数据的相关性角度1判断两个变量的相关性例1(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是(C)A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,随y的减小而减小,所以z随x的增大而减小,x与z负相关.(2)[2023湖北仙桃中学模拟]对四组数据进行统计后,获得了如图所示的散点图,四组数据的相关系数分别为r1,r2,r3,r4,对各组的相关系数进行比较,正确的是(C) 第一组 第二组 第三组 第四组A.r3<r2<0<r1<r4 B.r4<r1<0<r2<r3C.r2<r3<0<r4<r1 D.r1<r4<0<r3<r2解析由题图可知,第一、四组数据均正相关,第二、三组数据均负相关,当相关系数的绝对值越大时,数据的线性相关性越强.第一组数据的线性相关性较第四组强,则r1>r4>0,第二组数据的线性相关性较第三组强,则|r2|>|r3|,且r2<0,r3<0,则r2<r3<0.因此,r2<r3<0<r4<r1.故选C.方法技巧判断两个变量相关性的3种方法画散点图若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.利用样本相关系数r>0时,正相关;r<0时,负相关;|r|越接近于1,线性相关性越强.利用经验回归方程b^>0时,正相关;b^<0角度2相关系数的计算例2[2022全国卷乙]某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积xi0.040.060.040.080.080.050.050.070.070.060.6材积量yi0.250.400.220.540.510.340.360.460.420.403.9并计算得∑10i=1xi2=0.038,∑10i=1y(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=∑ni=1(解析(1)估计该林区这种树木平均一棵的根部横截面积x=∑i=110xi10=0.610=(2)∑i=110(xi-x)(yi-y)=∑i=110xiyi∑i=110(xi-x∑i=110(yi-y所以∑i=110(xi-x)2∑i=110(yi-(3)设该林区这种树木的总材积量的估计值为Ym3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以0.390.06=Y186,所以即该林区这种树木的总材积量的估计值为1209m3.训练1变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则(C)A.r2<r1<0 B.0<r2<r1C.r2<0<r1 D.r2=r1解析由题中的数据可知,变量Y与X正相关,相关系数r1>0,变量V与U负相关,相关系数r2<0,即r2<0<r1.故选C.命题点2回归模型及其应用角度1一元线性回归模型例3[2023广西联考]某省为调查北部城镇2022年GDP,抽取了20个城镇进行分析,得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个城镇的人口(单位:万人)和该城镇2022年GDP(单位:亿元),计算得∑i=120xi=100,∑i=120yi=800,∑i=120(xi-x)2=70,∑i=120(yi-y)2=280,∑(1)请用相关系数r判断该组数据中y与x之间线性相关关系的强弱(若|r|∈[0.75,1],相关性较强;若|r|∈[0.30,0.75),相关性一般;若r∈[-0.25,0.25],相关性较弱).(2)求y关于x的线性回归方程.(3)若该省北部某城镇2024年的人口约为5万人,根据(2)中的线性回归方程估计该城镇2024年的GDP.参考公式:相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)解析(1)由题意知,相关系数r=∑i=120(xi-因为y与x的相关系数r满足|r|∈[0.75,1],所以y与x之间具有较强的线性相关关系.(2)b^=∑i=120(a=y-b^x=80020-127×10020=2207,所以y(3)由(2)可估计该城镇2024年的GDPy=127×5+2207=40方法技巧回归模型问题的类型及解题方法(1)求经验回归方程:①利用数据,求出x,y;②利用公式,求出回归系数b^③利用经验回归直线过样本点的中心(x,y),求a.(2)利用经验回归方程进行预测:直接将已知的自变量的某个数值代入经验回归方程求得特定要求下的预测值.(3)判断回归模型的拟合效果:利用残差平方和或决定系数R2判断,R2越大,表示残差平方和越小,即模型的拟合效果越好.角度2非线性回归模型例4[2023重庆市三检]已知变量y关于x的经验回归方程为y=ebx-0.6,若对y=x12345yee3e4e6e7则当x=6时,预测y的值为(C)A.9 B.8 C.e9 D.e8解析对y=ebx-0.6两边取自然对数,得lny=bx-0.6,令z=lny,则z=bx-0.6,数据为x12345yee3e4e6e7z13467由表格数据,得x=1+2+3+4+55=3,z=1+3+4+6+75=4.2.将(3,4.2)代入z=bx-0.6,得4.2=3b-0.6,(方法技巧:经验回归方程只含一个未知数问题主要是依据经验回归直线y解得b=1.6,所以z=1.6x-0.6,即y=e1.6x-0.6.方法技巧1.解决非线性回归模型问题的思路:根据数据的散点图,选择恰当的拟合函数,用适当的变量进行转换,如通过换元或取对数等方法,把问题化为线性回归模型问题,使之得到解决.2.常见的非线性回归模型及转换技巧(1)y=a+bx,令v=1x(2)y=a+blnxb≠0,令v=ln(3)y=axb(a>0,b≠0),令c=lna,v=lnx,u=lny,则u=c+bv;(4)y=aebx(a>0,b≠0),令c=lna,u=lny,则u=c+bx.训练2[2023合肥市质检]研究表明,温度的突然变化会引起机体产生呼吸道上皮组织的生理不良反应,从而导致呼吸系统疾病的发生或恶化.某中学数学建模社团成员欲研究昼夜温差大小与该校高三学生患感冒人数多少之间的关系,他们记录了某周连续六天的昼夜温差,并到校医务室查阅了这六天中每天高三学生新增患感冒而就诊的人数(假设患感冒必到校医务室就诊),得到资料如下:日期第一天第二天第三天第四天第五天第六天昼夜温差x/℃47891412新增就诊人数y/位y1y2y3y4y5y6参考数据:∑i=16yi2=3160,∑i=16(1)已知第一天新增患感冒而就诊的学生中有7位女生,从第一天新增患感冒而就诊的学生中随机抽取3位,若抽取的3人中至少有一位男生的概率为1724,求y1(2)已知两个变量x与y之间的样本相关系数r=1516,试用最小二乘法求出y关于x的经验回归方程y=b^x+a,据此估计昼夜温差为15℃参考公式:b^=∑r=∑i解析(1)∵1-C73C∴7×6×∴y1(y1-1)(y1-2)=720=10×9×8,∴y1=10.(2)∵∑i=16xi=54,∴x=9,∴∑i=16(xi∵r=∑i=16(xi-x)(yi-y)∑i=16(xi-∴b^=∑i=16(又∑i=16(yi-y)2=∑i=16yi2-2y·∑i=16yi+6y2=∑i=16yi2-6y2=256∴y^=418+158x,当x=15时,y^=418+15故可以估计昼夜温差为15℃时,该校高三新增患感冒而就诊的学生数为33.命题点3列联表与独立性检验例5[2022全国卷甲改编]甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)依据小概率值α=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与客车所属公司有关.附:χ2=n(ad-bc)2(a+bα0.10.0500.0100.001xα2.7063.8416.63510.828解析(1)由题表可得A公司甲、乙两城之间的长途客车准点的概率为240240+20=12B公司甲、乙两城之间的长途客车准点的概率为210210+30=7(2)零假设为H0:甲、乙两城之间的长途

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论