版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三节成对数据的统计分析第1课时变量间的相关关系及回归模型1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.2.结合实例,会通过相关系数比较多组成对数据的相关性.3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.4.针对实际问题,会用一元线性回归模型进行预测.1.变量的相关关系(1)相关关系:若两个变量之间有关系,但又不是函数关系,这种关系称为相关关系;(2)相关关系的分类:①从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量;②当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量;提醒注意相关关系与函数关系的区别:函数关系是一种确定的关系,而相关关系是一种非确定的关系.(3)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在附近,就称这两个变量线性相关.2.样本相关系数对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),若x与y存在线性相关关系,可用样本相关系数r定量分析它们的相关程度的强弱.(1)样本相关系数r=∑i(2)样本相关系数r的性质①当r>0时,称成对样本数据相关;当r<0时,称成对样本数据相关;当r=0时,称成对样本数据间没有线性相关关系;②样本相关系数r的取值范围为.当|r|越接近1时,成对样本数据的线性相关程度越;当|r|越接近0时,成对样本数据的线性相关程度越.3.一元线性回归模型(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线;(2)经验回归方程为y=bx+a,其中b=∑i=1n(xi-x)((3)通过求Q=∑i=1n(yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小4.判断回归模型的拟合效果由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验回归方程y=bx+a,其中y叫做观测值,y叫做预测值,残差e=y-y.相对于样本点(xi,yi)的随机误差ei=yi-yi=yi-(bxi+a(1)残差分析法①作残差图:作图时纵坐标为,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图;②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.(2)决定系数(R2)法:R2=1-∑i=1n(yi-y1.判断正误.(正确的画“√”,错误的画“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)散点图是判断两个变量相关关系的一种重要方法和手段.()(3)经验回归直线y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.()(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.()2.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.①②③ B.②③①C.②①③ D.①③②3.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是()A.-0.82 B.0.78C.-0.69 D.-0.874.在对两个变量x,y进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.则下列操作顺序正确的是()A.①②④③ B.③②④①C.②③①④ D.②④③①5.已知x,y的取值如下表,已知y与x具有线性相关关系,且经验回归方程为y=0.95x+a,则a=.x0134y2.24.34.86.7变量间相关关系的判断【例1】(1)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正比例函数关系 B.利润率与人均销售额成反比例函数关系C.利润率与人均销售额成正相关关系 D.利润率与人均销售额成负相关关系(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关听课记录解题技法判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关;(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强;(3)经验回归方程:当b>0时,正相关;当b<0时,负相关.1.下列关系不属于相关关系的是()A.森林中的同一类树木,其横截面直径与高度之间的关系B.球的体积与表面积的关系C.父母的身高与子女身高的关系D.人的身高与体重的关系2.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是()A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3样本相关系数【例2】(2022·全国乙卷19题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积xi0.040.060.040.080.080.050.050.070.070.060.6材积量yi0.250.400.220.540.510.340.360.460.420.403.9并计算得∑i=110xi2=0.038,∑i=1(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=∑i=1n解题技法样本相关系数r的统计含义及应用(1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关;(2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测;(3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120xi=60,∑i=120yi=1200,∑i=120(xi-x)2=80,∑i=120(yi-y)2=9000,∑(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:r=∑i=1n经验回归模型考向1线性经验回归问题【例3】某研究机构为调查人的最大可视距离y(单位:米)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:x2025303540y167160150143130(1)根据上表提供的数据,求出y关于x的经验回归方程;(2)根据(1)中求出的经验回归方程,估计年龄为50岁的人的最大可视距离.参考公式:经验回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为b=∑i=1n(xi-x)(解题技法线性回归分析问题的解题策略(1)利用公式,求出回归系数b;(2)利用经验回归直线过样本点的中心求系数a;(3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量y的值.考向2非线性经验回归问题【例4】“绿水青山就是金山银山”的理念推动了新能源汽车产业的迅速发展.以下表格和散点图反映了近几年某新能源汽车的年销售量情况.年份20192020202120222023年份代码x12345某新能源汽车年销售量y/万辆1.55.917.732.955.6(1)请根据散点图判断,y=bx+a与y=cx2+d中哪一个更适宜作为年销售量y关于年份代码x的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程,并预测2024年该新能源汽车的年销售量.(精确到0.1)参考数据:y=22.72,∑i=15(wi-w)2=374,∑i=15(wi-w)(yi-y)=851.2(其中解题技法有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.1.已知变量x与y,且观测数据如下表(其中6.5>a>4>b>1,a+b=6),则由该观测数据算得的经验回归方程可能是()x12345y6.5a4b1A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+0.442.数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:x(天)1234567y(秒)990990450320300240210(1)现用y=a+bx作为经验回归模型,请利用表中数据,求出该经验回归方程(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度约为多少秒?参考数据其中ti=1xi:∑i=17tiyi参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线v=α+βu的斜率和截距的最小二乘估计公式分别为β=∑i=1nuivi-n刻画拟合效果【例5】假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2若由最小二乘法计算得经验回归方程为y=0.29x+34.7.(1)计算各组残差,并计算残差平方和;(2)求R2,并说明回归模型拟合效果的好坏.参考数据:∑i=15(yi-y解题技法刻画拟合效果的三种方法(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适;(2)残差平方和法:残差平方和∑i=1n(yi-yi)2(3)决定系数法:R2=1-∑i=1n(y1.在一元线性回归模型Y=bx+a+e中,下列说法正确的是()A.Y=bx+a+e是一次函数B.响应变量Y是由解释变量x唯一确定的C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生2.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如下表所示:月份1234物流成本x8383.58086.5利润y114116106122残差ei=yi-0.20.61.8-3月份5678物流成本x8984.57986.5利润y132114m132残差ei=yi--1-4.6-1根据最小二乘法求得经验回归方程为y=3.2x-151.8.(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值e8(2)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论