高二数学考点讲解练(人教A版2019选择性必修第一册)8.1.2样本相关系数-2022-2023学年高二数学考点讲解练(人教A版2019选择性必修第三册)(原卷版+解析)_第1页
高二数学考点讲解练(人教A版2019选择性必修第一册)8.1.2样本相关系数-2022-2023学年高二数学考点讲解练(人教A版2019选择性必修第三册)(原卷版+解析)_第2页
高二数学考点讲解练(人教A版2019选择性必修第一册)8.1.2样本相关系数-2022-2023学年高二数学考点讲解练(人教A版2019选择性必修第三册)(原卷版+解析)_第3页
高二数学考点讲解练(人教A版2019选择性必修第一册)8.1.2样本相关系数-2022-2023学年高二数学考点讲解练(人教A版2019选择性必修第三册)(原卷版+解析)_第4页
高二数学考点讲解练(人教A版2019选择性必修第一册)8.1.2样本相关系数-2022-2023学年高二数学考点讲解练(人教A版2019选择性必修第三册)(原卷版+解析)_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

8.1.2样本相关系数备注:资料包含:1.基础知识归纳;考点分析及解题方法归纳:考点包含:相关系数的意义及辨析;相关关系的计算;残差的计算;相关指数计算及分析;非线性回归课堂知识小结考点巩固提升知识归纳1样本的相关系数r=,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;2、相关关系的强弱样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.注意点:当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系.当r=0时,表明成对数据间没有线性相关关系,但不排除它们之间有其他相关关系.3、样本相关系数的实际应用当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.残4.差及残差分析1.残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.2.残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.5、拓展延伸:非线性的规划问题1、对数函数模型y=c1+c2lnx对数函数模型y=c1+c2lnx的求法(1)确定变量,作出散点图.(2)根据散点图,做出y=c1+c2lnx的函数选择.(3)变量置换,令z=lnx,通过变量置换把问题转化为=1+2z的经验回归问题,并求出经验回归方程=1+2z.(4)根据相应的变换,写出=1+2lnx的经验回归方程.2、残差平方和与决定系数R21.残差平方和法残差平方和yi-i)2越小,模型的拟合效果越好.2.决定系数R2可以用R2=1-来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.3、指数函数模型y=αeβx(α>0)指数函数型y=ebx+a回归问题的处理方法(1)函数y=ebx+a的图象,如图所示.(2)处理方法:两边取对数得lny=lnebx+a,即lny=bx+a.令z=lny,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.4、幂函数模型y=αxβ(α>0)考点讲解考点讲解考点1:相关系数的意义及辨析例1.如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).根据该折线图,下列说法错误的是(

)A.城镇人口与年份呈现正相关 B.乡村人口与年份的相关系数接近C.城镇人口逐年增长率大致相同 D.可预测乡村人口仍呈现下降趋势【方法技巧】根据折线图判断乡村人口与年份、城镇人口与年份的相关关系以及线性相关关系的强弱,逐项判断可得出合适的选项.【变式训练】1.在建立两个变量y与x的回归模型时,分别选取了4个不同的模型,模型1的相关系数为0.88,模型2的相关系数为0.66,模型3的相关系数为0.945,模型4的相关系数为0.01,其中拟合效果最好的模型是(

)A.模型1 B.模型2 C.模型3 D.模型42.下列命题中正确的为()A.相关系数r越大,两个变量的线性相关性越强 B.相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,拟合的效果越好 D.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好3.x和y的散点图如图所示,在相关关系中,若用拟合时的决定系数为,用拟合时的决定系数为,则,中较大的是________.考点2:相关关系的计算例2.根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克)之间的对应数据的散点图,如图所示.依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数并加以说明(若,则线性相关程度很高,可用线性回归模型拟合).附:相关系数公式.【方法技巧】相关系数公式.【变式训练】1.在一组样本数据、、、(,、、、不相等)的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为__________.2.某省为了坚决打赢脱贫攻坚战,在100个贫困村中,用简单随机抽样的方法抽取15个进行脱贫验收调查,调查得到的样本数据,其中和分别表示第i个贫困村中贫困户的年平均收入(单位:万元)和产业扶贫资金投入数量(单位:万元),并计算得到,,,,.(1)试估计该省贫困村的贫困户年平均收入;(2)根据样本数据,求该省贫困村中贫困户年平均收入与产业扶贫资金投入的相关系数(精确到0.01);(3)根据现有统计资料,各贫困村产业扶贫资金投入差异很大.为了确保完成脱贫攻坚任务,准确地进行脱贫验收,请给出一种你认为更合理的抽样方法,并说明理由.参考公式:考点3:残差的计算例3.某种产品的广告支出费用(单位:万元)与销售额(单位:万元)之间有如下关系:已知与的线性回归方程为,则当广告支出费用为万元时,残差为(

)A. B. C. D.【方法技巧】对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.【变式训练】1.下列四个命题:①由样本数据得到的回归直线方程至少经过样本点中的一个;②在回归分析中,若模型一的相关指数,模型二的相关指数,则模型一的拟合效果比模型二的好;③回归直线一定经过样本点的中心;④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.正确命题的个数为(

)A.1 B.2 C.3 D.42.以下哪个名词不属于统计学板块(

)A.残差 B.公差 C.方差 D.极差3.已知变量x和变量y的一组随机观测数据.如果关于的经验回归方程是,那么当时,残差等于(

)A. B.0 C.10 D.110考点4:相关指数计算及分析例4.(多选)厦门中学生助手的甲、乙研究某人1-18周岁的身高y(单位:厘米)与年龄x(单位:周岁)的关系.甲用拟合得图1,记x与y的样本相关系数为,决定系数为;乙用拟合得图2,记x与y的样本相关系数为,得y与x的关系,决定系数为,则(

)A. B. C. D.【方法技巧】样本的相关系数r=,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;【变式训练】1.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于预报变量变化的贡献率,则(

)A. B. C.1 D.22.通过对两个具有线性相关关系的变量x和y,利用两组不同的统计数据建立了模型:①;②.对这两个模型进行了残差分析发现:第①个线性模型比第②个线性模型拟合效果好.若用、,、分别表示模型①与模型②的相关指数与残差平方和,则结论正确的是(

)A., B.,C., D.,3.甲、乙、丙、丁四名同学在建立关于变量、的回归模型时,分别选择了种不同的模型,并计算出了相应的相关系数,如下表,则模型拟合程度最好的是(

)甲乙丙丁A.甲 B.乙 C.丙 D.丁考点5:非线性回归例5.为迎接年北京冬奥会,践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.(1)为了解活动效果,该年级对开展活动以来近个月体重超重的人数进行了调查,调查结果统计如上图,根据上面的散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出该年级体重超重人数与月份之间的经验回归方程(系数和的最终结果精确到),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至人以下?月份体重超标人数(2)在某次足球训练课上,球首先由队员控制,此后足球仅在、、三名队员之间传递,假设每名队员控球时传给其他队员的概率如下表所示:控球队员接球队员概率若传球次,记队员控球次数为,求的分布列及均值.附:经验回归方程:中,,;参考数据:,,,.【方法技巧】1、对数函数模型y=c1+c2lnx2、残差平方和与决定系数R23、指数函数模型y=αeβx(α>0)4、幂函数模型y=αxβ(α>0)【变式训练】1.如图是一组实验数据构成的散点图,以下函数中适合作为与的回归方程的类型是(

)A. B. C. D.2.用模型拟合一组数据时,设,将其变换后得到回归方程为,则(

)A. B.1 C. D.23.以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程,则______.4.在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长.已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:年份(年)20142015201620172018201920202021年份代码x12345678保有量y/千辆1.952.924.386.589.8715.0022.5033.70参考数据:,,其中(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;知识小结知识小结1样本的相关系数r=,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;2、相关关系的强弱样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.注意点:当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系.当r=0时,表明成对数据间没有线性相关关系,但不排除它们之间有其他相关关系.3、样本相关系数的实际应用当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.残4.差及残差分析1.残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.2.残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.巩固提升巩固提升一、单选题1.下列有关样本线性相关系数r的说法,错误的是()A.相关系数r可用来衡量x与y之间的线性相关程度B.,且越接近0,相关程度越小C.,且越接近1,相关程度越大D.,且越接近1,相关程度越小2.对两个变量x,y进行线性相关检验,得线性相关系数r1=0.8995,对两个变量u,v进行线性相关检验,得线性相关系数r2=﹣0.9568,则下列判断正确的是()A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强

B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强

C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强

D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强3.甲、乙、丙、丁四位同学各自对两变量的线性相关性做试验,分别求得样本相关系数,如下表:甲乙丙丁则试验结果中两变量有更强线性相关性的是(

)A.甲 B.乙 C.丙 D.丁4.如图所示的散点图与相关系数一定不符合的是(

)A. B.C. D.5.用模型拟合一组数据时,为了求出回归方程,设,其变换后得到的线性回归方程为,则c=(

)A.0.5 B. C. D.6.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)之间有如下关系:x24568y3040705060已知y与x的线性回归方程为,则当广告支出费用为5万元时,残差为(

)A.40 B.30 C.20 D.107.对于样本相关系数,下列说法错误的是(

)A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数D.样本相关系数越大,成对样本数据的线性相关程度也越强8.下列说法正确的是(

)A.线性回归模型是一次函数B.在线性回归模型中,因变量是由自变量唯一确定的C.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适D.用来刻画回归方程,越小,拟合的效果越好二、多选题9.下列说法正确的是(

)A.系统抽样在起始部分抽样时不能采用简单随机抽样;B.标准差描述了一组数据围绕平均数波动的大小,标准差越大,数据的离散程度就越大;C.用相关系数判断线性相关强度,当越接近于1,变量的线性相关程度越强;D.相对样本点的随机误差是.10.(多选)为了检验变量与的线性相关程度,由样本点、、、,求得两个变量的样本相关系数为,则下列说法正确的是(

)A.若所有样本点都在直线上,则B.若所有样本点都在直线上,则C.若越大,则变量与的线性相关程度越强D.若越小,则变量与的线性相关程度越强三、填空题11.对四对变量与进行线性相关检验,已知是观测值组数,是相关系数,若已知①,;②,;③,;④,;则变量和具有线性相关关系的是________.12.为了对,两个变量进行统计分析,现根据两种线性模型分别计算出甲模型的相关指数为,乙模型的相关指数为,则___________(填“甲”或“乙”)模型拟合的效果更好.13.若线性回归方程中的回归系数,则相关系数______.14.以模型去拟合一组数据时,已知如下数据:,则实数k的值为_______.四、解答题15.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的样本数据,如下表:(年龄/岁)26273941495356586061(脂肪含量/%)14.517.821.225.926.329.631.433.535.234.6根据上表的数据得到下图的散点图.根据上表中的样本数据及其散点图,计算样本相关系数(精确到0.01),并描述它们的相关程度.附:参考数据:,,,,.参考公式:相关系数.16.2020年是我国全面建成小康社会和打赢脱贫攻坚战的收官之年,某省为了坚决打赢脱贫攻坚战,在100个贫闲村中,用简单随机抽样的方法抽取15个进行脱贫验收调查,调查得到的样本数据,其中和分别表示第i个贫困村中贫闲户的年平均收入(单位:万元)和产业扶贫资金投入数量(单位:万元),并计算得到,,,,.(1)试估计该省贫困村的贫困户年平均收入.(2)根据样本数据,求该省贫困村中贫困户年平均收入与产业扶贫资金投入的相关系数.(精确到0.01)(3)根据现有统计资料,各贫困村产业扶贫资金投入差异很大.为了确保完成脱贫攻坚战任务,准确地进行脱贫验收,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数,.8.1.2样本相关系数备注:资料包含:1.基础知识归纳;考点分析及解题方法归纳:考点包含:相关系数的意义及辨析;相关关系的计算;残差的计算;相关指数计算及分析;非线性回归课堂知识小结考点巩固提升知识归纳1样本的相关系数r=,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;2、相关关系的强弱样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.注意点:当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系.当r=0时,表明成对数据间没有线性相关关系,但不排除它们之间有其他相关关系.3、样本相关系数的实际应用当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.残4.差及残差分析1.残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.2.残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.5、拓展延伸:非线性的规划问题1、对数函数模型y=c1+c2lnx对数函数模型y=c1+c2lnx的求法(1)确定变量,作出散点图.(2)根据散点图,做出y=c1+c2lnx的函数选择.(3)变量置换,令z=lnx,通过变量置换把问题转化为=1+2z的经验回归问题,并求出经验回归方程=1+2z.(4)根据相应的变换,写出=1+2lnx的经验回归方程.2、残差平方和与决定系数R21.残差平方和法残差平方和yi-i)2越小,模型的拟合效果越好.2.决定系数R2可以用R2=1-来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.3、指数函数模型y=αeβx(α>0)指数函数型y=ebx+a回归问题的处理方法(1)函数y=ebx+a的图象,如图所示.(2)处理方法:两边取对数得lny=lnebx+a,即lny=bx+a.令z=lny,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.4、幂函数模型y=αxβ(α>0)考点讲解考点讲解考点1:相关系数的意义及辨析例1.如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).根据该折线图,下列说法错误的是(

)A.城镇人口与年份呈现正相关 B.乡村人口与年份的相关系数接近C.城镇人口逐年增长率大致相同 D.可预测乡村人口仍呈现下降趋势【答案】B【详解】对于A选项,由折线图可知,城镇人口与年份呈现正相关,A对;对于B选项,因为乡村人口与年份呈负线性相关关系,且线性相关性很强,所以接近,B错;对于C选项,城镇人口与年份呈现正相关,且线性相关性很强,相关系数接近,故城镇人口逐年增长率大致相同,C对;对于D选项,由折线图可知,乡村人口与年份呈负线性相关关系,可预测乡村人口仍呈现下降趋势,D对.故选:B.【方法技巧】根据折线图判断乡村人口与年份、城镇人口与年份的相关关系以及线性相关关系的强弱,逐项判断可得出合适的选项.【变式训练】1.在建立两个变量y与x的回归模型时,分别选取了4个不同的模型,模型1的相关系数为0.88,模型2的相关系数为0.66,模型3的相关系数为0.945,模型4的相关系数为0.01,其中拟合效果最好的模型是(

)A.模型1 B.模型2 C.模型3 D.模型4【答案】C【分析】相关系数的绝对值越接近于1,拟合效果越好,比较即可得.【详解】由已知模型3的相关系数为0.945,最接近于1,因此拟合效果最好.故选:C.2.下列命题中正确的为()A.相关系数r越大,两个变量的线性相关性越强 B.相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,拟合的效果越好 D.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好【答案】C【分析】根据“残差”的意义、线性相关系数和相关指数的意义,即可作出正确的判断.【详解】相关系数的绝对值越接近于1,两个变量的线性相关性越强,所以A,B错误;残差平方和越小的模型,拟合的效果就越好,所以C正确;用相关指数来刻画回归效果,越大(接近1),说明模型的拟合效果就越好,所以D错误,故选:C.3.x和y的散点图如图所示,在相关关系中,若用拟合时的决定系数为,用拟合时的决定系数为,则,中较大的是________.【答案】【分析】根据相关系数的大小与拟合效果的关系判断即可.【详解】由题图知,用拟合的效果比拟合的效果要好,所以,故较大者为.故答案为:.考点2:相关关系的计算例2.根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克)之间的对应数据的散点图,如图所示.依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数并加以说明(若,则线性相关程度很高,可用线性回归模型拟合).附:相关系数公式.【答案】,说明见解析【分析】根据题意可求得、,,,,代入公式求相关系数即可.【详解】由所给数据可得:、,,,,∵.

∴可用线性回归模型拟合与的关系.【方法技巧】相关系数公式.【变式训练】1.在一组样本数据、、、(,、、、不相等)的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为__________.【答案】【分析】根据相关系数的定义可求得结果.【详解】因为在直线方程中,斜率,因为所有样本点都在直线上,所以,这组样本数据的样本相关系数为.故答案为:.2.某省为了坚决打赢脱贫攻坚战,在100个贫困村中,用简单随机抽样的方法抽取15个进行脱贫验收调查,调查得到的样本数据,其中和分别表示第i个贫困村中贫困户的年平均收入(单位:万元)和产业扶贫资金投入数量(单位:万元),并计算得到,,,,.(1)试估计该省贫困村的贫困户年平均收入;(2)根据样本数据,求该省贫困村中贫困户年平均收入与产业扶贫资金投入的相关系数(精确到0.01);(3)根据现有统计资料,各贫困村产业扶贫资金投入差异很大.为了确保完成脱贫攻坚任务,准确地进行脱贫验收,请给出一种你认为更合理的抽样方法,并说明理由.参考公式:【答案】(1)1万元;(2);(3)采用分层抽样,理由见解析.【分析】(1)根据平均数公式即得;(2)根据相关系数公式即得;(3)根据分层抽样的概念即得.(1)该省贫困村的贫困户年平均收入的估计值为:(万元);(2)样本的相关系数:;(3)采用分层抽样,理由如下:由(2)知,各地区贫困村的贫困户年平均收入与该村的产业投入资金有很强的正相关性,由于各贫困村产业扶贫资金投入差异很大,因此贫困村的贫困户年平均收入差异也很大,所以采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该省更准确的脱贫验收估计.考点3:残差的计算例3.某种产品的广告支出费用(单位:万元)与销售额(单位:万元)之间有如下关系:已知与的线性回归方程为,则当广告支出费用为万元时,残差为(

)A. B. C. D.【答案】C【分析】将代入回归直线方程,利用残差的定义可得结果.【详解】当时,,此时,残差为.故选:C.【方法技巧】对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.【变式训练】1.下列四个命题:①由样本数据得到的回归直线方程至少经过样本点中的一个;②在回归分析中,若模型一的相关指数,模型二的相关指数,则模型一的拟合效果比模型二的好;③回归直线一定经过样本点的中心;④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.正确命题的个数为(

)A.1 B.2 C.3 D.4【答案】C【分析】根据回归直线方程的特点依次判断即可.【详解】回归直线方程经过样本中心点,不一定过样本点,所以①错误,③正确;在回归分析中,模型的相关指数越大拟合效果越好,所以②正确.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,所以④正确.故选:C.2.以下哪个名词不属于统计学板块(

)A.残差 B.公差 C.方差 D.极差【答案】B【分析】由公差属于数列板块可判断.【详解】残差、方差、极差都属于属于统计学板块,公差属于数列板块.故选:B.3.已知变量x和变量y的一组随机观测数据.如果关于的经验回归方程是,那么当时,残差等于(

)A. B.0 C.10 D.110【答案】C【分析】将代入回归方程得到预测值,再根据残差公式计算可得;【详解】解:因为关于的经验回归方程是,所以时,此时残差为;故选:C考点4:相关指数计算及分析例4.(多选)厦门中学生助手的甲、乙研究某人1-18周岁的身高y(单位:厘米)与年龄x(单位:周岁)的关系.甲用拟合得图1,记x与y的样本相关系数为,决定系数为;乙用拟合得图2,记x与y的样本相关系数为,得y与x的关系,决定系数为,则(

)A. B. C. D.【答案】BD【分析】根据拟合图可得答案.【详解】根据拟合图可知,图1直线斜率比图2的小,且为正相关,所以,又决定系数是相关系数的二次幂,所以,(或者从图中可以看出图2的观察点在回归直线附近比图1更密集).故选:BD.【方法技巧】样本的相关系数r=,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;【变式训练】1.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于预报变量变化的贡献率,则(

)A. B. C.1 D.2【答案】C【分析】结合决定系数的知识确定正确答案.【详解】因为样本数据所对应的点都在直线上,所以.故选:C2.通过对两个具有线性相关关系的变量x和y,利用两组不同的统计数据建立了模型:①;②.对这两个模型进行了残差分析发现:第①个线性模型比第②个线性模型拟合效果好.若用、,、分别表示模型①与模型②的相关指数与残差平方和,则结论正确的是(

)A., B.,C., D.,【答案】A【分析】相关指数越大,残差平方和越小,拟合效果越好,据此即可判断.【详解】用相关指数的值判断模型的拟合效果,越大,说明残差平方和越小,模型的拟合效果越好,∵第①个线性模型比第②个线性模型拟合效果好,∴,.故选:A.3.甲、乙、丙、丁四名同学在建立关于变量、的回归模型时,分别选择了种不同的模型,并计算出了相应的相关系数,如下表,则模型拟合程度最好的是(

)甲乙丙丁A.甲 B.乙 C.丙 D.丁【答案】C【分析】根据相关指数的大小与模型拟合程度之间的关系可得出结论.【详解】由表格中的数据可知,丙模型的相关指数绝对值最大,因此,丙模型的拟合效果最好.故选:C.考点5:非线性回归例5.为迎接年北京冬奥会,践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.(1)为了解活动效果,该年级对开展活动以来近个月体重超重的人数进行了调查,调查结果统计如上图,根据上面的散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出该年级体重超重人数与月份之间的经验回归方程(系数和的最终结果精确到),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至人以下?月份体重超标人数(2)在某次足球训练课上,球首先由队员控制,此后足球仅在、、三名队员之间传递,假设每名队员控球时传给其他队员的概率如下表所示:控球队员接球队员概率若传球次,记队员控球次数为,求的分布列及均值.附:经验回归方程:中,,;参考数据:,,,.【答案】(1),第十个月(2)分布列见解析,【分析】(1)令,求出、的值,将参考数据代入最小二乘法公式,求出、的值,即可得出关于的经验回归方程,然后解不等式,即可得解;(2)分析可知随机变量的可能取值有、、,可得出随机变量的分布列,进而可求得.解:由得.由题意得,,所以,.所以,即关于的经验回归方程为.令,所以,解得.由于,所以,所以从第十个月开始,该年级体重超标的人数降至人以下.(2)解:由题意得的可能取值为、、,,,,所以的分布列为所以,.【方法技巧】1、对数函数模型y=c1+c2lnx2、残差平方和与决定系数R23、指数函数模型y=αeβx(α>0)4、幂函数模型y=αxβ(α>0)【变式训练】1.如图是一组实验数据构成的散点图,以下函数中适合作为与的回归方程的类型是(

)A. B. C. D.【答案】D【分析】由散点图中各点的变化趋势,结合题中选项给出的函数的性质,用排除法一一排除得出答案.【详解】由散点图中各点的变化趋势知,各点不在一条直线上,排除A.由散点图中各点呈单调递减趋势,排除B.又图中点的横坐标有正有负,故排除C.故选:D.2.用模型拟合一组数据时,设,将其变换后得到回归方程为,则(

)A. B.1 C. D.2【答案】D【分析】由两边取对数,与,利用待定系数法求解.【详解】解:因为,,所以,又,所以,解得,所以,故选:D3.以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程,则______.【答案】【分析】两边取对数,对照系数,求出【详解】,即,∴,.故答案为:4.在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长.已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:年份(年)20142015201620172018201920202021年份代码x12345678保有量y/千辆1.952.924.386.589.8715.0022.5033.70参考数据:,,其中(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;【答案】(1)作图见解析,选择的函数模型是,;(2)2028年.【分析】(1)根据题中所给公式,结合对数函数的性质进行求解即可;(2)根据指数函数的性质,结合对数运算性质进行求解即可.(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是,令,则因为,所以,,,所以;(2)设传统能源汽车保有量每年下降的百分比为r,依题意得,),解得,设从2021年底起经过x年后的传统能源汽车保有量为y千辆,则有x,设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有,所以,解得,故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过传统能源汽车.知识小结知识小结1样本的相关系数r=,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;2、相关关系的强弱样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.注意点:当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系.当r=0时,表明成对数据间没有线性相关关系,但不排除它们之间有其他相关关系.3、样本相关系数的实际应用当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.残4.差及残差分析1.残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.2.残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.巩固提升巩固提升一、单选题1.下列有关样本线性相关系数r的说法,错误的是()A.相关系数r可用来衡量x与y之间的线性相关程度B.,且越接近0,相关程度越小C.,且越接近1,相关程度越大D.,且越接近1,相关程度越小【答案】D【分析】根据相关系数的定义,即可判断选项.【详解】相关系数是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大,所以不正确的只有D.故选:D.2.对两个变量x,y进行线性相关检验,得线性相关系数r1=0.8995,对两个变量u,v进行线性相关检验,得线性相关系数r2=﹣0.9568,则下列判断正确的是()A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强

B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强

C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强

D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强【答案】C【分析】根据相关系数的知识确定正确选项.【详解】依题意:,所以正相关,负相关,,所以的线性相关性较强.故选:C3.甲、乙、丙、丁四位同学各自对两变量的线性相关性做试验,分别求得样本相关系数,如下表:甲乙丙丁则试验结果中两变量有更强线性相关性的是(

)A.甲 B.乙 C.丙 D.丁【答案】B【分析】由相关系数的绝对值的大小判断.【详解】由已知,乙的相关系数的绝对值为,是四人中最大的,因此乙同学有更强的相关性.故选:B.4.如图所示的散点图与相关系数一定不符合的是(

)A. B.C. D.【答案】A【分析】根据相关性和相关系数的关系可得.【详解】根据相关性和相关系数的关系可得,若两个变量正相关,则相关系数,若两个变量负相关,则相关系数,A选项的两个变量负相关,但,所以不符合.故选:A.5.用模型拟合一组数据时,为了求出回归方程,设,其变换后得到的线性回归方程为,则c=(

)A.0.5 B. C. D.【答案】B【分析】利用对数性质进行转化,结合相等条件求解结果.【详解】因,两边取对数得:,令,则,而,于是得,即,所以.故选:B.6.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)之间有如下关系:x24568y3040705060已知y与x的线性回归方程为,则当广告支出费用为5万元时,残差为(

)A.40 B.30 C.20 D.10【答案】C【分析】根据回归方程求出时的值,即可求出残差.【详解】当时,,所以残差为.故选:C.7.对于样本相关系数,下列说法错误的是(

)A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数D.样本相关系数越大,成对样本数据的线性相关程度也越强【答案】D【分析】利用相关系数与成对样本数据间的相关关系逐项判断,可得出合适的选项.【详解】对于A选项,样本相关系数可以用来判断成对样本数据相关的正负性,A对;对于B选项,样本相关系数可以是正的,也可以是负的,B对;对于C选项,样本相关系数,C对;对于D选项,样本相关系数的绝对值越大,成对样本数据的线性相关程度也越强,D错.故选:D.8.下列说法正确的是(

)A.线性回归模型是一次函数B.在线性回归模型中,因变量是由自变量唯一确定的C.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适D.用来刻画回归方程,越小,拟合的效果越好【答案】C【分析】利用线性回归模型的特点可判断AB选项;利用残差图的特点可判断C选项;利用决定系数与模型拟合效果的关系可判断D选项.【详解】对于A选项,线性回归模型中,方程表示的是不确定关系,所以,线性回归模型不是一次函数,A错;对于B选项,在线性回归模型中,因变量由自变量和随机误差共同决定,B错;对于C选项,在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适,C对;对于D选项,用来刻画回归方程,越大,拟合的效果越好,D错.故选:C二、多选题9.下列说法正确的是(

)A.系统抽样在起始部分抽样时不能采用简单随机抽样;B.标准差描述了一组数据围绕平均数波动的大小,标准差越大,数据的离散程度就越大;C.用相关系数判断线性相关强度,当越接近于1,变量的线性相关程度越强;D.相对样本点的随机误差是.【答案】BC【分析】根据系统抽样的概念、标准差与离散程度的关系、变量间的线性关系和随机误差的定义即可判断.【详解】系统抽样在起始部分抽样时就是采用简单随机抽样,故A错误;标准差越大,数据的离散程度就越大,标准差越小,数据的离散程度就越小,故B正确;当越接近于1,变量的线性相关程度越强,当越接近于0,变量的线性相关程度越弱,故C正确;相对样本点的随机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论