第八章 相关与回归分析_第1页
第八章 相关与回归分析_第2页
第八章 相关与回归分析_第3页
第八章 相关与回归分析_第4页
第八章 相关与回归分析_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第8 8章章 相关与回归分析相关与回归分析8.1 相关与回归的基本概念相关与回归的基本概念8.2 简单线性相关与回归分析简单线性相关与回归分析8.3 多元线性相关与回归分析多元线性相关与回归分析8.4 非线性相关与回归分析非线性相关与回归分析学习目标1. 1. 变量间的相关关系与相关系数的计算变量间的相关关系与相关系数的计算2. 2. 总体回归函数与样本回归函数总体回归函数与样本回归函数3. 3. 线性回归的基本假定线性回归的基本假定4. 4. 简单线性回归参数的估计与检验简单线性回归参数的估计与检验8.1 8.1 相关与回归的基本概念相关与回归的基本概念一、变量间的相互关系变量间的相互关系

2、二、相关关系的类型二、相关关系的类型三、相关分析与回归分析三、相关分析与回归分析 一、变量间的相互关系一、变量间的相互关系 确定性的函数关系确定性的函数关系 Y=f (X) 不确定性的统计关系不确定性的统计关系相关关系相关关系 Y= f(X)+u (u为随机变量) 两变量关系的图形描述: 坐标图(散点图) 二、相关关系的类型二、相关关系的类型 从涉及的变量数量变量数量看 简单相关 多重相关(复相关) 从变量相关关系的表现形式表现形式看 线性线性相关散点图接近一条直线(左图) 非线性非线性相关散点图接近一条曲线(右图) 从变量相关关系变化的方向方向看正相关正相关变量同方向变化 负相关负相关变量反

3、方向变化 从变量相关的程度看 完全相关 不完全相关 不相关 相关关系的类型相关关系的类型三、相关分析和回归分析1、相关分析相关分析 分析变量之间是否存在相关关系分析变量之间是否存在相关关系 分析相关关系的类型分析相关关系的类型 计量相关关系的密切程度计量相关关系的密切程度相关分析:相关分析: 不能说明变量间的相关关系的具体形式不能说明变量间的相关关系的具体形式 不能从一个变量去推测另一个变量的具体变化不能从一个变量去推测另一个变量的具体变化 2、回归分析:回归分析: 回归是关于一个变量对另一个或多个回归是关于一个变量对另一个或多个变量依存关系的研究,是用适当的数学模型变量依存关系的研究,是用适

4、当的数学模型去近似地表达或估计变量之间地平均变化关去近似地表达或估计变量之间地平均变化关系,系, 回归分析目的:根据已知的自变量的回归分析目的:根据已知的自变量的数值,去估计因变量的总体平均值。数值,去估计因变量的总体平均值。3、相关分析和回归分析的区别与联系相关分析和回归分析的区别与联系 区别:区别: 从研究目的上看:从研究目的上看:相关分析是研究变量间相关分析是研究变量间相互联系的方向和程度;回归分析是寻求变量间相互联系的方向和程度;回归分析是寻求变量间联系的具体数学形式,是要根据自变量的固定值联系的具体数学形式,是要根据自变量的固定值去估计和预测因变量的值。去估计和预测因变量的值。 从对

5、变量的处理来看:从对变量的处理来看:相关分析中的变量均相关分析中的变量均为随机变量,不考虑两者的因果关系;回归分析为随机变量,不考虑两者的因果关系;回归分析是在变量因果关系的基础上研究自变量对因变量是在变量因果关系的基础上研究自变量对因变量的具体影响,必须明确划分自变量和因变量,回的具体影响,必须明确划分自变量和因变量,回归分析中通常假定自变量为非随机变量,因变量归分析中通常假定自变量为非随机变量,因变量为随机变量。为随机变量。联系:联系:共同的研究对象:都是对变量间相关关系的共同的研究对象:都是对变量间相关关系的分析分析只有当变量间存在相关关系时,用回归分析只有当变量间存在相关关系时,用回归

6、分析去寻求相关的具体数学形式才有实际意义去寻求相关的具体数学形式才有实际意义相关分析只表明变量间相关关系的性质和程相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖度,要确定变量间相关的具体数学形式依赖于回归分析于回归分析82 简单线性相关与回归分析简单线性相关与回归分析一、简单线性相关系数及检验一、简单线性相关系数及检验二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数三、回归系数的估计三、回归系数的估计四、简单线性回归模型的检验四、简单线性回归模型的检验 五、简单线性回归模型预测五、简单线性回归模型预测 一、简单线性相关系数及检验一、简单线性相关系数及检

7、验 总体相关系数总体相关系数 对于所研究的总体,表示两个相互联系变量相关程度对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:的总体相关系数为: 总体相关系数反映总体两个变量总体相关系数反映总体两个变量X X和和Y Y的线性相关程度。的线性相关程度。 特点:特点:对于特定的总体来说,对于特定的总体来说,X X和和Y Y的数值是既定的的数值是既定的 总体相关系数是客观存在的特定数值总体相关系数是客观存在的特定数值。 )()(),(YVarXVarYXCov 样本相关系数 通过通过X X和和Y Y 的样本观测值去计算样本相关系数,变量的样本观测值去计算样本相关系数,变量X X和和Y

8、 Y的样本相关系数通常用的样本相关系数通常用 表示表示 特点:特点:样本相关系数是根据从总体中抽取的随机样样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。是个随机变量。 XYr_22()()()()iiXYiiXX YYrXXYY 相关系数的特点: o 相关系数的取值在相关系数的取值在-1 -1与与1 1之间。之间。o 当当r r=0=0时,表明时,表明X X与与Y Y没有线性相关关系。没有线性相关关系。o 当当 时,表明时,表明X X与与Y Y存在一定的线性相关关存在一定的线性相关关系;系;

9、若若 表明表明X X与与Y Y 为正相关为正相关; ; 若若 表明表明X X与与Y Y 为负相关。为负相关。o 当当 时,表明时,表明X X与与Y Y完全线性相关;完全线性相关; 若若r=1r=1,称,称X X与与Y Y完全正相关;完全正相关; 若若r=-1r=-1,称,称X X与与Y Y完全负相关完全负相关。01r0r 0r 1r 相关系数的经验解释1. |r| 0.8时,可视为两个变量之间高度相时,可视为两个变量之间高度相关关2. 0.5 |r|0.8时,可视为中度相关时,可视为中度相关3. 0.3 |r|0.5时,视为低度相关时,视为低度相关4. |r|0.3时,说明两个变量之间的相关程

10、时,说明两个变量之间的相关程度极弱,可视为不相关度极弱,可视为不相关5. 上述解释必须建立在对相关系数的显著上述解释必须建立在对相关系数的显著性进行检验的基础之上性进行检验的基础之上 使用相关系数的注意事项:X X和和Y Y 都是相互对称的随机变量,所以都是相互对称的随机变量,所以相关系数只反映变量间的线性相关程度,不相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。说明相关关系具体接近于哪条直线。XYYX 相关系数的检验 为什么要检验?为什么要检验?

11、 样本相关系数是随抽样而变动的随机变量样本相关系数是随抽样而变动的随机变量, ,相相关系数的统计显著性还有待检验。关系数的统计显著性还有待检验。检验的依据:检验的依据: 如果如果X X和和Y Y都服从正态分布,在总体相关系都服从正态分布,在总体相关系数数 的假设下,与样本相关系数的假设下,与样本相关系数 r r 有关的有关的 t t 统计量服从自由度为统计量服从自由度为n-2n-2的的 t t 分布:分布: 0221 (2)tr nrt n 相关系数的检验方法给定显著性水平给定显著性水平 ,查自由度为查自由度为 n-2 n-2 的临界值的临界值 若若 ,表明相关系数,表明相关系数 r r 在统

12、计上是显著在统计上是显著的,应拒绝的,应拒绝 而接受而接受 的假设;的假设;反之,若反之,若 ,不拒绝,不拒绝 的假设的假设。 2t2tt0002tt 二、总体回归函数与样本回归函数 1、若干基本概念 Y Y的条件分布的条件分布: Y: Y在在X X取某固定值条件下的分布。取某固定值条件下的分布。 对于对于X X的每一个取值,都有的每一个取值,都有Y Y的条件期望与之对应,在的条件期望与之对应,在坐标图上坐标图上 Y Y的条件期望的点随的条件期望的点随X X的变化而变化的轨迹所的变化而变化的轨迹所形成的直线或曲线,称为回归线。形成的直线或曲线,称为回归线。 如果把如果把Y Y的条件期望的条件期

13、望 表示为表示为X X的某种函的某种函数:数: , , 这个函数称为回归函数。这个函数称为回归函数。 如果其函数形式是只有一个自变量的线性函数如果其函数形式是只有一个自变量的线性函数, , 如如 , , 称为简单线性回归函数。称为简单线性回归函数。 ()iE Y X()()iiE Y Xf X()iiE Y XX2、总体回归函数概念:概念:将总体因变量将总体因变量Y Y的条件期望表现为自变量的条件期望表现为自变量X X的某种函数,这个函数称为总体回归函数。的某种函数,这个函数称为总体回归函数。表现形式:表现形式:(1 1)条件均值表现形式)条件均值表现形式(2 2)个别值表现形式(随机设定形式

14、)个别值表现形式(随机设定形式)()iiE Y XXiiiYXu3、样本回归函数概念:概念: Y Y的样本观测值的条件均值随自变量的样本观测值的条件均值随自变量X X而变动而变动的轨迹,称为样本回归线。的轨迹,称为样本回归线。 如果把因变量如果把因变量Y Y的样本条件均值表示为自变量的样本条件均值表示为自变量X X的某种函数,这个函数称为样本回归数。的某种函数,这个函数称为样本回归数。表现形式:表现形式:线性样本回归函数可表示为线性样本回归函数可表示为 或或 iiiYXe iiYX 4、样本回归函数与总体回归函数的关系 相互联系 样本回归函数的函数形式应与设定的总体回样本回归函数的函数形式应与

15、设定的总体回归函数的函数形式一致归函数的函数形式一致 。 和和 是对总体回归函数参数的估计是对总体回归函数参数的估计。 是对总体条件期望是对总体条件期望 的估计的估计 残差残差 e e 在概念上类似总体回归函数中的随机在概念上类似总体回归函数中的随机误差误差u u。回归分析的目的:回归分析的目的: 用样本回归函数去估计总体回归函数。用样本回归函数去估计总体回归函数。 iY()iE Y X样本回归函数与总体回归函数的关系 相互区别 总体回归函数虽然未知,但它是确定的;总体回归函数虽然未知,但它是确定的; 样本回归线随抽样波动而变化,可以有许多条。样本回归线随抽样波动而变化,可以有许多条。 样本回

16、归线还不是总体回归线,至多只是未知总体样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。回归线的近似表现。 总体回归函数的参数虽未知,但是确定的常数;总体回归函数的参数虽未知,但是确定的常数; 样本回归函数的参数可估计,但是随抽样而变化的随样本回归函数的参数可估计,但是随抽样而变化的随机变量。机变量。 总体回归函数中的总体回归函数中的 是不可直接观测的;是不可直接观测的; 而样本回归函数中的而样本回归函数中的 是只要估计出样本回归的参数就是只要估计出样本回归的参数就可以计算的数值。可以计算的数值。 iuie 三、回归系数的估计三、回归系数的估计 随机误差项随机误差项u u无法直接

17、观测,为了进无法直接观测,为了进行回归分析,必须对其性质作某些假行回归分析,必须对其性质作某些假定,估计才有良好性质,其检验才可定,估计才有良好性质,其检验才可进行。进行。 估计的原则是使参数估计值估计的原则是使参数估计值“尽可尽可能地接近能地接近”总体参数真实值。总体参数真实值。 简单线性回归的基本假定o 假定假定1 1:零均值假定。零均值假定。o 假定假定2:同方差假定。:同方差假定。o 假定假定3:无自相关假定。:无自相关假定。 o 假定假定4:随机扰动:随机扰动 与自变量与自变量 不相关。不相关。o 假定假定5:正态性假定:正态性假定()0iiE u Xiu222()()()iiiii

18、iVar u XE uE u XE u ( ,)()()()0ijiijjijCov u uE uE uuE uE u uiX2(0,)iuN( ,)( )()0iiiiiiCov u XE uE uXE X回归系数的最小二乘估计(method of least squares ) Karl Gauss的最小化图的最小化图(xi , yi)最小二乘法 ( 和 的计算公式) 最小二乘估计的性质 高斯高斯马尔可夫定理马尔可夫定理 前提: 在基本假定满足时o 最小二乘估计是因变量的线性函数线性函数 o 最小二乘估计是无偏估计无偏估计,即 o 在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小方

19、差最小。 结论:回归系数的最小二乘估计是最佳线性无偏估计最佳线性无偏估计四、简单线性回归模型的检验四、简单线性回归模型的检验o 回归模型的检验包括:回归模型的检验包括:o 理论意义检验:理论意义检验:主要涉及参数估计值的符号和取值区间,检验它们与实质性科学的理论以及人们的实践经验是否相符。o 一级检验:一级检验:又称统计学检验,利用统计学的抽样理论来检验样本回归方程的可靠性,具体分为拟合优度检验和显著性检验。o 二级检验:二级检验:又称计量经济学检验,它是对标准线性回归模型的假设条件是否满足进行检验,包括自相关检验、异方差检验、多重共线性检验等。(一一) 拟合优度的度量拟合优度的度量基本思想:基本思想:样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上 总离差平方和总离差平方和 回归平方和回归平方和 残差平方和残差平方和 可决系数(判定系数)定义:可决系数(判定系数)定义:_222()()()iiiiYYYYYY222()()iiYYrYY222()1()iiiYYrYY 变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面:n 由于自变量 x 的取值不同造成的n 除 x 以外的其他因素(模型设定误差、随机误差、测量误差等)的影响

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论