人教A版(新教材)高中数学选择性必修第三册第八章成对数据的统计分析章末复习课_第1页
人教A版(新教材)高中数学选择性必修第三册第八章成对数据的统计分析章末复习课_第2页
人教A版(新教材)高中数学选择性必修第三册第八章成对数据的统计分析章末复习课_第3页
人教A版(新教材)高中数学选择性必修第三册第八章成对数据的统计分析章末复习课_第4页
人教A版(新教材)高中数学选择性必修第三册第八章成对数据的统计分析章末复习课_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人教A版(新教材)高中数学选择性必修第三册PAGEPAGE1章末复习课一、线性回归分析1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为通过散点图和经验选择经验回归方程的类型,然后通过一定的规则确定出相应的经验回归方程,通过一定的方法进行检验,最后应用于实际或对预报变量进行预测.2.主要培养数学建模和数据分析的素养.例1某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得eq\i\su(i=1,20,x)i=60,eq\i\su(i=1,20,y)i=1200,eq\i\su(i=1,20,)(xi-eq\x\to(x))2=80,eq\i\su(i=1,20,)(yi-eq\x\to(y))2=9000,eq\i\su(i=1,20,)(xi-eq\x\to(x))(yi-eq\x\to(y))=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:样本相关系数r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2\i\su(i=1,n,)yi-\x\to(y)2)),eq\r(2)≈1.414.解(1)由已知得样本平均数为eq\x\to(y)=eq\f(1,20)eq\i\su(i=1,20,y)i=60,从而该地区这种野生动物数量的估计值为60×200=12000.(2)样本(xi,yi)(i=1,2,…,20)的相关系数为r=eq\f(\i\su(i=1,20,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,20,)xi-\x\to(x)2\i\su(i=1,20,)yi-\x\to(y)2))=eq\f(800,\r(80×9000))=eq\f(2\r(2),3)≈0.94.(3)分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.反思感悟解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求经验回归方程.通过观察散点图,直观感知两个变量是否具有相关关系.在此基础上,利用最小二乘法求eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^)),然后写出经验回归方程.(3)回归分析.画残差图或计算R2,进行残差分析.(4)实际应用.依据求得的经验回归方程解决实际问题.跟踪训练1如图给出了根据我国2012年~2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2012年~2018年的年份代码x为1~7).(1)根据散点图分析y与x之间的相关关系;(2)根据散点图相应数据计算得eq\i\su(i=1,7,y)i=1074,eq\i\su(i=1,7,x)iyi=4517,求y关于x的经验回归方程(精确到0.01);(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.附:经验回归直线eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).解(1)根据散点图可知y与x呈正线性相关.(2)由所给数据计算得eq\x\to(x)=eq\f(1,7)×(1+2+…+7)=4,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,7,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,7,)xi-\x\to(x)2)=eq\f(\i\su(i=1,7,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,7,x)\o\al(2,i)-n\x\to(x)2)=eq\f(221,28)≈7.893,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)≈eq\f(1074,7)-7.893×4≈121.86.故所求经验回归方程为eq\o(y,\s\up6(^))=7.89x+121.86.(3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明经验回归方程的拟合效果较好.二、独立性检验1.独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高堆积条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.2.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析的素养.例2为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2PM2.5〖0,50〗(50,150〗(150,475〗〖0,35〗32184(35,75〗6812(75,115〗3710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:SO2PM2.5〖0,150〗(150,475〗〖0,75〗(75,115〗(3)根据(2)中的列联表,依据小概率值α=0.010的独立性检验,分析该市一天空气中PM2.5浓度与SO2浓度是否有关.附:χ2=eq\f(nad-bc2,a+bc+da+cb+d).解(1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为eq\f(64,100)=0.64.(2)由所给数据,可得2×2列联表:SO2PM2.5〖0,150〗(150,475〗〖0,75〗6416(75,115〗1010(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关.根据列联表中数据,经计算得到χ2=eq\f(nad-bc2,a+bc+da+cb+d)=eq\f(100×64×10-16×102,80×20×74×26)≈7.484>6.635≈x0.010,根据小概率值α=0.010的独立性检验,我们推断H0不成立,即认为该市一天空气中PM2.5浓度与SO2浓度有关.反思感悟独立性检验的一般步骤①根据样本数据制成2×2列联表;②根据公式χ2=eq\f(nad-bc2,a+bc+da+cb+d)计算χ2的值;③查表比较χ2与临界值的大小关系,作出统计判断.跟踪训练2考察小麦种子灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表:种子灭菌种子未灭菌合计黑穗病26184210无黑穗病50200250合计76384460试分析依据小概率值α=0.05的独立性检验,能否据此推断种子灭菌与小麦发生黑穗病有关?解零假设H0:种子灭菌与小麦发生黑穗病无关.由列联表的数据可得χ2=eq\f(460×26×200-184×502,76×384×210×250)≈4.804>3.841=x0.05,根据小概率值α=0.05的独立性检验,我们推断H0不成立,可以认为种子灭菌与小麦发生黑穗病有关系.三、数形结合思想在独立性检验中的应用1.数形结合思想就是在解决与几何图形有关的问题时,将图形信息转换成代数信息,利用数量特征,将其转化为代数问题;在进行回归分析时,常利用散点图、残差图等说明线性相关情况或模型的拟合效果.在独立性检验中,我们常用等高堆积条形图直观地反映数据的情况,从而可以粗略地判断两个分类变量是否有关系.2.主要培养数学抽象和数学运算的素养.例3某机构为了了解患色盲是否与性别有关,随机抽取了1000名成年人进行调查,在调查的480名男性中有38名患色盲,520名女性中有6名患色盲,分别利用图形和独立性检验(α=0.001)的方法来判断患色盲与性别是否有关.解根据题目所给的数据作出如下的列联表:性别色盲合计患色盲未患色盲男38442480女6514520合计449561000根据列联表作出相应的等高堆积条形图,如图所示.图中两个深色条的高分别表示男性和女性中患色盲的频率,从图中可以看出,男性中患色盲的频率明显高于女性中患色盲的频率,因此我们可认为患色盲与性别有关.零假设为H0:患色盲与性别无关.根据列联表中所给的数据,得χ2=eq\f(1000×38×514-442×62,480×520×44×956)≈27.139>10.828=x0.001,根据小概率值α=0.001的独立性检验,推断H0不成立,即认为患色盲与性别有关,此推断犯错误的概率不超过0.001.反思感悟解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体;②明确研究的两个问题;(2)两个准确:①准确画出2×2列联表;②准确理解χ2.跟踪训练3电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷合计男女1055合计(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,均值E(X)和方差D(X).附:χ2=eq\f(nad-bc2,a+bc+da+cb+d)α0.050.01xα3.8416.635解(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:非体育迷体育迷合计男301545女451055合计7525100零假设为H0:“体育迷”与性别无关.将2×2列联表中的数据代入公式计算,得χ2=eq\f(nad-bc2,a+bc+da+cb+d)=eq\f(100×30×10-45×152,75×25×45×55)=eq\f(100,33)≈3.030<3.841=x0.05,根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,即认为“体育迷”与性别无关.(2)由频率分布直方图,知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为eq\f(1,4).由题意知X~Beq\b\lc\(\rc\)(\a\vs4\al\co1(3,\f(1,4))),从而X的分布列为X0123Peq\f(27,64)eq\f(27,64)eq\f(9,64)eq\f(1,64)E(X)=3×eq\f(1,4)=eq\f(3,4),D(X)=3×eq\f(1,4)×eq\f(3,4)=eq\f(9,16).四、化归与转化思想在非线性回归分析中的应用1.转化与化归思想主要体现在非线性回归分析中.在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.2.主要培养数学建模和数学运算的素养.例4某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.eq\x\to(x)eq\x\to(y)eq\x\to(u)eq\i\su(i=1,8,)(xi-eq\x\to(x))2eq\i\su(i=1,8,)(xi-eq\x\to(x))·(yi-eq\x\to(y))eq\i\su(i=1,8,)(ui-eq\x\to(u))2eq\i\su(i=1,8,)(ui-eq\x\to(u))·(yi-eq\x\to(y))15.253.630.2692085.5-230.30.7877.049表中ui=eq\f(1,xi),eq\x\to(u)=eq\f(1,8)eq\i\su(i=1,8,u)i.(1)根据散点图判断y=a+bx与y=c+eq\f(d,x)哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.01).(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78840元?(假设能够全部售出.结果精确到1)附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其经验回归直线eq\o(υ,\s\up6(^))=eq\o(α,\s\up6(^))+eq\o(β,\s\up6(^))ω的斜率和截距的最小二乘估计分别为eq\o(β,\s\up6(^))=eq\f(\i\su(i=1,n,)ωi-\x\to(ω)υi-\x\to(υ),\i\su(i=1,n,)ωi-\x\to(ω)2),eq\o(α,\s\up6(^))=eq\x\to(υ)-eq\o(β,\s\up6(^))eq\x\to(ω).解(1)由散点图判断,y=c+eq\f(d,x)更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程.(2)令u=eq\f(1,x),先建立y关于u的经验回归方程,由于eq\o(d,\s\up6(^))=eq\f(\i\su(i=1,8,)ui-\x\to(u)yi-\x\to(y),\i\su(i=1,8,)ui-\x\to(u)2)=eq\f(7.049,0.787)≈8.96,所以eq\o(c,\s\up6(^))=eq\x\to(y)-eq\o(d,\s\up6(^))·eq\x\to(u)=3.63-8.96×0.269≈1.22,所以y关于u的经验回归方程为eq\o(y,\s\up6(^))=1.22+8.96u,所以y关于x的非线性经验回归方程为eq\o(y,\s\up6(^))=1.22+eq\f(8.96,x).(3)假设印刷x千册,依题意得10x-eq\b\lc\(\rc\)(\a\vs4\al\co1(1.22+\f(8.96,x)))x≥78.840,所以x≥10,所以至少印刷10000册才能使销售利润不低于78840元.反思感悟可线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.跟踪训练4光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能.近几年在国内出台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如表:年份20112012201320142015201620172018年份代码x12345678新增光伏装机量y兆瓦0.40.81.63.15.17.19.712.2某位同学分别用两种模型:①eq\o(y,\s\up6(^))=bx2+a;②eq\o(y,\s\up6(^))=dx+c进行拟合,得到相应的经验回归方程并进行残差分析,残差图如下(注:残差等于yi-eq\o(y,\s\up6(^))i):经过计算得eq\i\su(i=1,8,)(xi-eq\x\to(x))(yi-eq\x\to(y))=72.8,eq\i\su(i=1,8,)(xi-eq\x\to(x))2=42,eq\i\su(i=1,8,)(ti-eq\x\to(t))(yi-eq\x\to(y))=686.8,eq\i\su(i=1,8,)(ti-eq\x\to(t))2=3570,其中ti=xeq\o\al(2,i),eq\x\to(t)=eq\f(1,8)eq\i\su(i=1,8,t)i.(1)根据残差图,比较模型①、模型②的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)的判断结果及表中数据建立y关于x的经验回归方程,并预测该地区2021年新增光伏装机量是多少?(在计算回归系数时精确到0.01)参考公式:eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).解(1)选择模型①.理由如下:根据残差图可以看出,模型①的估计值和真实值比较相近,模型②的残差值相对较大一些,所以模型①的拟合效果相对较好.(2)由(1)可知,y关于x的非线性经验回归方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x2+eq\o(a,\s\up6(^)),令t=x2,则eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))t+eq\o(a,\s\up6(^)).由所给数据可得eq\x\to(t)=eq\f(1,8)eq\i\su(i=1,8,t)i=eq\f(1,8)×(1+4+9+16+25+36+49+64)=25.5,eq\x\to(y)=eq\f(1,8)eq\i\su(i=1,8,y)i=eq\f(1,8)×(0.4+0.8+1.6+3.1+5.1+7.1+9.7+12.2)=5,所以eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,8,)ti-\x\to(t)yi-\x\to(y),\i\su(i=1,8,)ti-\x\to(t)2)=eq\f(686.8,3570)≈0.19,所以eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(t)≈5-0.19×25.5≈0.16,所以y关于x的非线性经验回归方程为eq\o(y,\s\up6(^))=0.19x2+0.16,预测该地区2021年新增光伏装机量为eq\o(y,\s\up6(^))=0.19×112+0.16=23.15(兆瓦).1.如图所示的是一组观测值的四个线性回归模型对应的残差图,则对应的线性回归模型的拟合效果最好的残差图是()〖答案〗A〖解析〗因为残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,故选A.2.两个分类变量X和Y,值域都为{0,1},其样本频数分别是a=10,b=21,c+d=35.依据小概率值α=0.025的独立性检验,认为X与Y有关系,则c等于()A.3B.4C.5D.6附:α0.050.025xα3.8415.024〖答案〗A〖解析〗2×2列联表为Y=0Y=1合计X=0102131X=1cd35合计10+c21+d66故χ2=eq\f(66×[1035-c-21c]2,31×35×10+c56-c)≥5.024.把选项A,B,C,D代入验证可知选A.3.有下列说法:①若某商品的销售量y(件)关于销售价格x(元/件)的经验回归方程为eq\o(y,\s\up6(^))=-5x+350,当销售价格为10元时,销售量一定为300件;②经验回归直线eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论