第7章-相关与回归分析课件_第1页
第7章-相关与回归分析课件_第2页
第7章-相关与回归分析课件_第3页
第7章-相关与回归分析课件_第4页
第7章-相关与回归分析课件_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章相关与回归分析1第7章相关与回归分析12第一节

数据的相关分析2第一节数据的相关分析(一)双变量相关关系的含义3一、双变量相关关系的含义和种类函数关系相关关系现象之间确定性的数量依存关系现象之间非确定性的数量依存关系(一)双变量相关关系的含义3一、双变量相关关系的含义和种类函(二)双变量相关关系的种类4一、双变量相关关系的含义和种类相关关系的种类相关方向正相关和负相关相关形式线性相关和非线性相关相关程度完全相关、不完全相关和不相关(二)双变量相关关系的种类4一、双变量相关关系的含义和种类相【例7-1】歌乐音响设备商店于2014年7~9三个月份中,连续10周使用了周末电视广告来提高商店的销售额。商店经理想调查这段时间内播出的广告次数和店内销售额之间是否存在某种关系。

问题:如果该经理将这项工作交给你,你该怎样做呢?5二、双变量相关关系的测度方法【例7-1】歌乐音响设备商店于2014年7~9三(一)相关表法1.编制原始数据表如下表

7-1立体声音响设备商店的原始数据

6二、双变量相关关系的测度方法周次广告次数下一周销售额(百元)1234567891011251341534250574154543863485946(一)相关表法6二、双变量相关关系的测度方法周次广告次数下一2.将原始数据表编制成相关表

表7-2立体声音响设备商店的广告次数与销售额相关表7二、双变量相关关系的测度方法广告次数销售额(百元)11223344553841465048545459632.将原始数据表编制成相关表7二、双变量相关关(二)相关图法8二、双变量相关关系的测度方法图7-1立体声音响设备商店数据散点图(二)相关图法8二、双变量相关关系的测度方法图7-1(三)相关系数法相关系数是用以衡量两变量间线性相关关系情况下,相关方向和密切程度的相对数。9二、双变量相关关系的测度方法(三)相关系数法9二、双变量相关关系的测度方法1.相关系数的计算

样本相关系数的定义公式10二、双变量相关关系的测度方法(7.1)1.相关系数的计算10二、双变量相关关系的测度方法(7.1)1111样本数据的简捷公式12总体数据的相关系数样本数据的简捷公式12总体数据的相关系数[7-2]

根据表7-2相关数据,利用样本数据计算相关系数。13[7-2]根据表7-2相关数据,利用样本数据计算相关系数。2.相关系数的应用a.相关系数的取值范围的取值在-1和1之间,即b.正负相关的判断

当>0时为正相关;当<0时为负相关。142.相关系数的应用14c.相关密切程度的判断

当时,相关关系越密切,当

说明X与Y之间完全相关,即函数关系;当时,相关关系越不密切,当=0,说明X与Y之间不存在直线相关关系,但也许存在非线性相关关系。

15c.相关密切程度的判断15在做具体判断时,有几个数量标准:

,称为微弱相关。一般情况下,将其视为没有线性相关关系;

0.3≤

,称为低度相关;0.5≤

,称为显著相关;

0.8≤

,称为高度相关。

16在做具体判断时,有几个数量标准:16

计算结果表明,歌乐立体音响设备商店在过去10周内,周末所做的广告次数与下一周的销售额之间存在着高度线性正相关关系。17对上面计算结果的统计分析计算结果表明,歌乐立体音响设备商店在过去10周内18第二节简单线性回归模型

18第二节简单线性回归模型

只涉及两个变量(一个自变量和一个因变量)之间关系的回归分析称为简单回归分析。两个变量之间的关系大约呈一条直线的简单回归分析称为简单线性回归分析。19只涉及两个变量(一个自变量和一个因变量)之间用回归分析可以预测运行一条商业航空线的成本吗?如果可以,那么哪些变量与这一成本有关呢?20一、从一个实际问题入手用回归分析可以预测运行一条商业航空线的成本吗21飞机运行成本飞机型号飞行距离乘客数量行李或货物重量天气状况……21飞机运行成本飞机型号飞行距离乘客数量行李或货物重量天气状为了减少自变量个数,我们做如下假定:飞机类别——波音737飞机飞行距离——500公里航线——可比,而且在每年的相同季节在这种条件下,可以用乘客数来预测飞行的成本吗?22为了减少自变量个数,我们做如下假定:22

表7-3是每年相同季节波音737飞机在12条500公里的不同航线不同乘客数时的飞行成本。我们用这些数据以乘客数作为自变量构造模型来预测成本。

23表7-3是每年相同季节波音737飞机在12条2424(7.4)

25二、回归模型和回归方程:因变量(随机变量)

:自变量(给定变量)

:参数

:误差项(随机变量),含义为说明在中不能被和之间线性关系解释的变异性。

(7.4)25二、回归模型和回归方程:因变量(随机变量)

在有关假设中,有一个假设就是的期望值或均值等于0,即

26(7.5)

如果简单线性回归模型满足了这个条件,那么就意味着的均值或期望值就是一个线性函数。

描述的均值与的关系如何的方程称为回归方程。

在有关假设中,有一个假设就是的期望值或均值等于0在简单线性回归中

1.回归方程的图形是一条直线(如图7.3所示);

27(7.6)

在简单线性回归中27(7.6)28283.:斜率(回归系数);

292.:的截距;

的含义:当自变量给定一个具体变动值时,因变量平均变化的量。3.:斜率(回归系数);292.:30303131

估计回归方程

就是用样本统计量作为参数的估计值所建立的回归方程。

32三、估计回归方程

(7.7)

:的估计值:的估计值

:的估计值

估计回归方程就是用样本统计量作为参数的估计值所3333

最小平方法,也称最小二乘法,是将回归模型的方差之和最小化,以得到一系列方程,从这些方程中解出模型中需要的参数的一种方法。

34四、最小平方法

最小平方法,也称最小二乘法,是将回归模型的方差之和最(一)画散点图,以初步观察成本与乘客数量之间是否呈回归直线。

35(一)画散点图,以初步观察成本与乘客数量之间是否呈回归直线。(二)建立估计回归方程36(7.8)

最小平方法运用样本数据求出和的值,使得因变量的实际观察值与其估计值之差的平方和最小,即(7.9)

(二)建立估计回归方程36(7.8)最小(三)估计回归方程斜率和截距的计算公式37(7.11)(三)估计回归方程斜率和截距的计算公式37(7.11)38383939404041

(四)将和的计算结果代入式(7.8)有:

计算结果表明,在其他条件相同情况下,12条航线上波音737飞机各条航线每次飞行时每增加1名乘客,将会使飞行成本平均增加40.70元。

结论:41(四)将和的计算结果代入式(7.8)有:42**Y=4.48千元二者差0.061千元或61元。42**Y=4.48千元二者差0.061千元或61元。测定系数估计标准误差43五、一元线性回归方程的评价测定系数43五、一元线性回归方程的评价(一)测定系数

回归直线与各观测数据的接近程度称为回归直线的拟合优度。

度量回归直线的拟合优度最常用的指标是测定系数,(又称可决系数、判定系数)。该指标是建立在对总离差平方和进行分解的基础之上的。

44(一)测定系数4445离差分解图xyy{}}

离差分解图45离差分解图xyy{}}离差分解图两端平方后求和有46离差平方和的分解总离差平方和(SST){回归平方和(SSR){残差平方和(SSE){(7.12)(7.13)(7.14)两端平方后求和有46离差平方和的分解总离差平方和{回归平方和R2的取值范围是[0,1]。R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。

47决定系数的取值R2的取值范围是[0,1]。47决定系数的1.残差

残差是因变量的观察值y和因变量的估计值之间的偏差。48

例如,上面的例子,

(7.15)1.残差48例如,上面的例子,(7.15)49表7-5残差计算表

49表7-5残差计算表

残差平方的总和称为误差平方和(SSE)。

502.误差平方和

(7.16)

SSE的值是用估计回归方程估计样本中因变量的值时所产生误差的一种测度。

残差平方的总和称为误差平方和(SSE)。502.误差

因变量的值与其均值之间离差的平方和称为总离差平方和(SST)。513.总离差平方和

(7.17)

因变量的值与其均值之间离差的平方和称为总离差平方

因变量的值与其估计值之间离差的平方和称为回归平方和(SSR)。

524.回归平方和

(7.18)

因变量的值与其估计值之间离差的平方和称为回归平方和表7-6

计算表

53例如;飞行成本案例中各种有关数据计算如下表7-6计算表53由表7-6计算结果可知,SSE=0.31434,SSR=2.79775,SST=3.11209,则

54由表7-6计算结果可知,54

这就是说,在一条商业航线上一架波音737飞机飞行成本的方差中有89.9%可以被乘客数目说明或预测,换句话说,飞行成本Y的方差中不能由X或回归方程解释的有10.1%。

55这就是说,在一条商业航线上一架波音737飞机飞行成

估计标准误:是对各观测数据在回归直线周围分散程度的一个度量值,它是对误差项ε的标准差σ的估计。估计标准误反映了用估计的回归方程拟合因变量Y时平均误差的大小。各观测数据越靠近回归直线,sy就越小,回归直线对各观测数据的代表性就越好。与R2不同的是,估计标准误是一个有单位的平均数。56(二)估计标准误(7.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论