版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三节成对数据的统计分析
第1课时变量间的相关关系及回归模型
■课程标准
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.
2.结合实例,会通过相关系数比较多组成对数据的相关性.
3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线
性回归模型参数的最小二乘估计方法.
4.针对实际问题,会用一元线性回归模型进行预测.
口----------必备知识系统梳理基础重落实---------课前自修
I_____知___识___•__逐____点___夯____实_______________________________________________________________J__________
知识梳理
1.变量的相关关系
(1)相关关系:若两个变量之间有关系,但又不是函数关系,这种关系称为相关关系;
(2)相关关系的分类:①从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就
称这两个变量________;
②当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量_______;
提醒注意相关关系与函数关系的区别:函数关系是一■种确定的关系,而相关关系是一■种非确定的关系.(3)
线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在附近,就称这两个变量线性
相关.
2.样本相关系数
对于变量X和变量》设经过随机抽样获得的成对样本数据为(X1,%),(X2,>2),…,Cxn,yn)>若无
与y存在线性相关关系,可用样本相关系数r定量分析它们的相关程度的强弱.
(1)样本相关系数
n__
2(Xi-x)(yi-y)
r=,i=i,:
fn2fn2,
(2)样本相关系数厂的性质
①当厂>0时,称成对样本数据相关;当r<0时,称成对样本数据相关;当厂=0时,称成对样本
数据间没有线性相关关系;
②样本相关系数r的取值范围为.当IrI越接近1时,成对样本数据的线性相关程度越;
当I川越接近0时,成对样本数据的线性相关程度越.
3.一元线性回归模型
(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称
两个变量之间具有线性相关关系,这条直线叫做经验回归直线;
n_n_
八-z(%i-x)(yi-y)Yxiyi-nxy4
(2)经验回归方程为夕=bx+6,其中------——=吗----—JS=y—hx;
X(%i-x)Xxf—rix
i=li=l
n
(3)通过求。=E(V—2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的
i=l
距离的平方和最小,这一方法叫做最小二乘法.
4.判断回归模型的拟合效果
由成对样本数据(尤"?)(i=l,2,…,w)按照最小二乘法得到经验回归方程夕=6尤+4,其中y叫做观测
值,夕叫做预测值,残差2=y一夕.相对于样本点(孙弘)的随机误差瓦=%—%=%—Cbxi+a).
(1)残差分析法
①作残差图:作图时纵坐标为,横坐标可以选为样本编号,或国数据,或%数据,这样作出的图形称
为残差图;
②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越
窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
n2
ccZ(力一%)/n\
(2)决定系数(炉)法:R2=IT-----J其中夕=工£%).炉的值越趋近于I,模型的拟合效果越好.
z(.yi-y)\ni=i'
i=l
对点自测
1.判断正误.(正确的画r”,错误的画“x”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()
(2)散点图是判断两个变量相关关系的一种重要方法和手段.()
(3)经验回归直线夕=5尤+a至少经过点(X1,力),(X2,>2),…,Cxn,yn)中的一个点.()
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.()
2.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关
系是()
A.①②③B.②③①
C.②①③D.①③②
3.对于尤,y两变量,有四组成对样本数据,分别算出它们的样本相关系数厂如下,则线性相关性最强的是
()
A.-0.82B.0.78
C.-0.69D.-0.87
4.在对两个变量x,y进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(沏,
9),i=l,2,n;③求经验回归方程;④根据所收集的数据绘制散点图.则下列操作顺序正确的是
()
A.①②④③B.③②④①
C.②③①④D.②④③①
5.已知尤,y的取值如下表,已知y与x具有线性相关关系,且经验回归方程为9=0.95戈+4,贝值=.
X0134
y2.24.34.86.7
尸考点•分类突破口----------精选考点典例研析技法重悟通---------T课堂演练
1—________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
变量间相关关系的判断
(师生共研过关
【例1】(1)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份123456
人均销售额658347
利润率(%)12.610.418.53.08.116.3
根据表中数据,下列说法正确的是()
A.利润率与人均销售额成正比例函数关系B.利润率与人均销售额成反比例函数关系
C.利润率与人均销售额成正相关关系D.利润率与人均销售额成负相关关系
(2)已知变量x和y满足关系y=-0.卜+1,变量y与z正相关.下列结论中正确的是()
A.x与y正相关,%与z负相关B.尤与y正相关,尤与z正相关
C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关
听课记录_______________________________
解题技法
判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相
关;
(2)样本相关系数:当厂>0时,正相关;当r<0时,负相关;|川越接近于1,相关性越强;
(3)经验回归方程:当时,正相关;当B<0时,负相关.
E训练
1.下列关系不属于相关关系的是()
A.森林中的同一类树木,其横截面直径与高度之间的关系
B.球的体积与表面积的关系
C.父母的身高与子女身高的关系
D.人的身高与体重的关系
2.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是()
3535
303()
2525
2020
1515
1()1()
5.3
00
51()1520253()355101520253035
样本相关系数为。样本相关系数为二
(1)(2)
3533
3()30
2525
2020
1515
1()1()
55
00
51()152025303551()1520253035
样本相关系数为7样本相关系数为。
(3)(4)
A.r2<^4<0<f3<riB.r4<^r2<0<ri<F3
C.r4<r2<0<r3<nD.r2<r4<0<ri<r3
1考点二
【例2】(2022•全国乙卷19题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种
树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:
m3),得到如下数据:
样本号,12345678910总和
根部横截
0.040.060.040.080.080.050.050.070.070.060.6
面积尤
材积量》0.250.400.220.540.510.340.360.460.420.403.9
101010
并计算得£婷=0.038,23^=1.6158,2%M=0.2474.
i=li=li=l
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知
树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
Z(xi-x)(yi-y)
附:相关系数i=l=,VL896=1.377.
r=In2n
2
z(咫一元)x(刃一歹)
i=li=i
解题技法
样本相关系数厂的统计含义及应用
(1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关;
(2)可根据IrI的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进
行分析和预测;
(3)当I*W0.25时,即便求得了经验回归方程也没有任何统计意义.
Q训练
某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,
将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数
据(尤,•,9)(/=1,2,…,20),其中即和9分别表示第,个样区的植物覆盖面积(单位:公顷)和这种野
2020202020
生动物的数量,并计算得Z苍=60,29=1200,Z(汨一元产=80,2(M—歹)2=9000,£(%,—%)(%
i=li=li=li=li=l
-y)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数
乘以地块数);
(2)求样本(xi,yi)(z=l,2,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数
量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
n__
Z(%i-x)(yi-y)
附:r=I匚1,V2-1.414.
n2n、2
Z(Xi-x)Z(”一歹)
Ji=ii=i
经验回归模型
(定向精析突破
考向7线性经验回归问题
【例3】某研究机构为调查人的最大可视距离y(单位:米)和年龄无(单位:岁)之间的关系,对不同年
龄的志愿者进行了研究,收集数据得到下表:
X2025303540
y167160150143130
(1)根据上表提供的数据,求出y关于x的经验回归方程;
(2)根据(1)中求出的经验回归方程,估计年龄为50岁的人的最大可视距离.
nn__
八I(芍一元)(“一?)Ixiyi-nxy
参考公式:经验回归方程夕=以+6中斜率和截距的最小二乘估计公式分别为b=j----------------------
X(%i—x)Xxf—nx2
i=li=l
a=y-bx.
解题技法
线性回归分析问题的解题策略
(1)利用公式,求出回归系数有;
(2)利用经验回归直线过样本点的中心求系数式;
(3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量夕的值.
考向2非线性经验回归问题
【例4】“绿水青山就是金山银山”的理念推动了新能源汽车产业的迅速发展.以下表格和散点图反映了近几
年某新能源汽车的年销售量情况.
年份20192020202120222023
年份代码X12345
某新能源汽车年销售量y/万辆1.55.917.732.955.6
60:年销售量y/万辆
*
40■
*
20•
*
02345屋份代码工
(1)请根据散点图判断,y^bx+a与中哪一个更适宜作为年销售量y关于年份代码x的回归方程类
型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于尤的经验回归方程,并预测2024年该新能源汽车的年销
售量精确到0.1)
55
参考数据:9=22.72,2(W,—iv)2=374,工(w,—w)(j,—y)=851.2(其中阴=婢).
i=li=l
解题技法
有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函
数(赛函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变
量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.
q训练
1.已知变量X与》且观测数据如下表(其中6.5>44>6>1,a+b=6),则由该观测数据算得的经验回归
方程可能是()
X12345
y6.5a4b1
A.y=0.4A-+2.3B.y=2x~2.4
C.y=-2x+9.5D.夕=-0.3尤+0.44
2.数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9义9盘面上的已知数字,推理出所有剩余空格的数
字,并满足每一行、每一列、每一个粗线宫(3X3)内的数字均含1〜9,且不重复.数独爱好者小明打算报名
参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平
均速度y(秒)与训练天数无(天)有关,经统计得到如表的数据:
X(天)1234567
y(秒)990990450320300240210
(1)现用y=a+2作为经验回归模型,请利用表中数据,求出该经验回归方程;
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度约为多少秒?
77
笏考数据(其中ti=E):Z砂尸1845,£=0.37,2珞―7冒=0.55.
参考公式:对于一组数据(两,VI),("2,V2),…,(说,%),其经验回归直线。=2+6"的斜率和截距
n
XuiV[—nuv
的最小二乘估计公式分别为6=弓----一,a=v-pu.
Xuf—nu2
i=l
刻画拟合效果
(师生共研过关
【例5】假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
X15.025.830.036.644.4
y39.442.942.943.149.2
若由最小二乘法计算得经验回归方程为y=0.29x+347
(1)计算各组残差,并计算残差平方和;
(2)求出,并说明回归模型拟合效果的好坏.
5
参考数据:20一歹)2=50.18.
i=l
解题技法
刻画拟合效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适;
(2)残差平方和法:残差平方和£(%—%)之越小,模型的拟合效果越好;
i=l
n2
CI(月一9i)
(3)决定系数法:K=1一早-------越接近1,表明模型的拟合效果越好.
I(力一步)
i=l
E训练
1.在一元线性回归模型¥=法+。+«中,下列说法正确的是()
A.Y=bx+a+e是一次函数
B.响应变量y是由解释变量尤唯一确定的
C.响应变量y除了受解释变量X的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生
2.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和
企业利润的数据(单位:万元)如下表所示:
月份1234
物流成本尤83
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿安全自卫知识
- 金融科技岗位竞聘
- 鸽巢问题课件
- 金融风险分析案例
- 员工个人年终述职报告合集14篇
- 学校办公室主任个人述职报告-7篇
- 茶企品牌规划方案
- 2023年初中教务处工作总结
- 《爱的教育》读后感六年级500字
- 共青团建团百年心得启示6篇
- O型密封圈压缩量计算
- 公交公司点钞管理制度
- 呆滞料与超期物料处理流程
- 2019年4月自考00015英语二真题及答案含解析
- 重症患者中心静脉导管管理专家共识解读
- 长输管道牺牲阳极法阴极保护施工方案
- 保函(履约、投标、付款、质量等保函参考格式)
- 北京东城区北京汇文中学2023-2024学年高二物理第一学期期末复习检测模拟试题含解析
- 《流程分析与改善》课件
- 花道-插花技艺养成智慧树知到课后章节答案2023年下云南林业职业技术学院
- 高中生学籍卡
评论
0/150
提交评论