统计学原理_第七章_相关与回归分析_第1页
统计学原理_第七章_相关与回归分析_第2页
统计学原理_第七章_相关与回归分析_第3页
统计学原理_第七章_相关与回归分析_第4页
统计学原理_第七章_相关与回归分析_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章第七章 相关与回归分析相关与回归分析 刘荣坤刘荣坤 山东师范大学商学院山东师范大学商学院 E-mail:E-mail: Telel问题:问题: 1、某研究人员调查了济南在校大学生的每周平均自习时、某研究人员调查了济南在校大学生的每周平均自习时 间,并收集了相应的期末考试成绩,他想知道研究自习时间,并收集了相应的期末考试成绩,他想知道研究自习时 间与学习成绩是否有关系,如何判断这种关系的表现形式,间与学习成绩是否有关系,如何判断这种关系的表现形式, 关系的密切程度以及它们之间如何作用?关系的密切程度以及它们之间如何作用? 2、某企业想做广

2、告来宣传某产品,如何了解和判断广告、某企业想做广告来宣传某产品,如何了解和判断广告 费用与销售之间的关系,以选择一个适当的广告投入?费用与销售之间的关系,以选择一个适当的广告投入? 相关与回归分析概述相关与回归分析概述 简单线性相关分析简单线性相关分析 线性回归分析线性回归分析 非线性回归分析非线性回归分析 第一节第一节 概概 述述 概念 现象之间的关系表现为:现象之间的关系表现为: u函数关系:一种确定性、严格的依存关系,可以函数关系:一种确定性、严格的依存关系,可以 用数学表达式准确表示出来。用数学表达式准确表示出来。 u相关关系:现象之间存在一定的数量依存关系,相关关系:现象之间存在一定

3、的数量依存关系, 但不是固定的。但不是固定的。 n现象之间客观存在数量上的依存关系。现象之间客观存在数量上的依存关系。 n这种依存关系不是确定的这种依存关系不是确定的 从某种角度说,函数关系是相关关系的特例。从某种角度说,函数关系是相关关系的特例。 在在具有相互依存关系的两个变量中,具有相互依存关系的两个变量中, 作为根据的变量称自变量,一般用作为根据的变量称自变量,一般用X X表示;表示; 发生对应变化的变量称因变量,一般用发生对应变化的变量称因变量,一般用y y表示。表示。 例例 相关关系种类相关关系种类 因素多少因素多少 单相关:两个因素单相关:两个因素 复相关:三个以上因素复相关:三个

4、以上因素 相关形态相关形态 直线相关(线性相关):直线相关(线性相关): 表现近似直线表现近似直线 曲线相关:表现近似曲线。曲线相关:表现近似曲线。 正相关:同向变化正相关:同向变化 负相关:反向变化负相关:反向变化 相关程度相关程度 完全相关:实质就是确定性的函数关系完全相关:实质就是确定性的函数关系 不完全相关:这个是要研究的相关分析。不完全相关:这个是要研究的相关分析。 无相关:因素之间完全没有关系。无相关:因素之间完全没有关系。 平均意义上的平均意义上的 相关分析的主要内容相关分析的主要内容 1 1、确定现象之间的相关性以及其相关关系的表现形式;、确定现象之间的相关性以及其相关关系的表

5、现形式; 2 2、确定相关关系的密切程度;、确定相关关系的密切程度; 3 3、选择适当的数学模型;、选择适当的数学模型; 4 4、测定估计值的可靠程度。、测定估计值的可靠程度。 5 5、检验相关关系的显著性。、检验相关关系的显著性。 相关分析是为了消除偶然因素影响,以找出现象之间的依相关分析是为了消除偶然因素影响,以找出现象之间的依 存关系和程度以及变动规律。主要内容如下:存关系和程度以及变动规律。主要内容如下: 相关分析:研究变量之间关系的密切程度相关分析:研究变量之间关系的密切程度 回归分析:研究变量变动之间的因果关系回归分析:研究变量变动之间的因果关系 第二节第二节 简单线性相关分析简单

6、线性相关分析 散点图(散点图(scatter plot) 两种相关分析方法:定性分析(图表法)和定量分析两种相关分析方法:定性分析(图表法)和定量分析 (相关系数)。定性分析一般只适用于两个变量。(相关系数)。定性分析一般只适用于两个变量。 支出支出 收入收入 散散 点点 图图 相关系数的计算和应用相关系数的计算和应用 相关系数定量说明现象之间的密切程度。相关系数定量说明现象之间的密切程度。 u积差法积差法 相关系数:用无量纲的系数形式表示变量之间的相关程度。相关系数:用无量纲的系数形式表示变量之间的相关程度。 n yyxx xy )( 2 协方差:用来表示变量关联程度的绝对指标。显然受协方差

7、:用来表示变量关联程度的绝对指标。显然受 标志大小的影响。标志大小的影响。 22 2 )()( )( yyxx yyxx r yx xy u简捷计算方法(三个简捷公式)简捷计算方法(三个简捷公式) 2222 )()( yynxxn yxxyn r n已知平均值时,可采用:已知平均值时,可采用: 2222 ynyxnx yxnxy r n已知平均值和标准差时,可采用:已知平均值和标准差时,可采用: , xy xy xyxy rxy n 其中 u相关系数的特点和相关程度的判断标准相关系数的特点和相关程度的判断标准 n特点特点111 rr,即即 表表示示负负相相关关;表表示示正正相相关关,00 rr

8、 相相关关程程度度越越低低;越越接接近近 ,则则相相关关程程度度越越高高,越越接接近近 0 1r n判断标准:一般地判断标准:一般地 ,高高度度相相关关 显显著著相相关关 低低度度相相关关 无无相相关关 80 8050 5030 30 . ,. ,. ,. r r r r 产量产量 (公斤)(公斤) 生产费用生产费用 (万元)(万元) 2002004 4 2202204.54.5 2502504.74.7 2702704.84.8 2802805.25.2 合合 计计1220122023.223.2 例例 某企业生产调查某企业生产调查, ,资料如下:资料如下: 计算产量和生产费用的相关系数。计

9、算产量和生产费用的相关系数。 x y 2 )(yy 2 )(xx )(yyxx 19361936 576576 3636 676676 12961296 0.40960.4096 0.01960.0196 0.00360.0036 0.02560.0256 0.31360.3136 0.7720.77245204520 28.1628.16 3.363.36 0.360.36 4.164.16 20.1620.16 56.256.2 万万元元) 公公斤斤) (. . ( 644 5 223 244 5 1220 x y 950 77204520 256 22 . . . )()( )( yyx

10、x yyxx r 积差法:积差法: 简捷法:简捷法: 产量产量 (公斤)(公斤) 生产费用生产费用 (万元)(万元) 2002004 4 2202204.54.5 2502504.74.7 2702704.84.8 2802805.25.2 合合 计计1220122023.223.2 x y 2 x 2 yxy 1616 20.2520.25 22.0922.09 23.0423.04 27.0427.04 4000040000 4840048400 6250062500 7290072900 7840078400 302200302200108.42108.42 800800 990990

11、11751175 12961296 14561456 57175717 950 77204520 256 22342108512203022005 223122057175 22 2222 . . . . . )()( yynxxn yxxyn r 第三节第三节 线性回归分析线性回归分析 概述概述 u概念概念 对具有相关关系的变量之间的数量变化的对具有相关关系的变量之间的数量变化的一般关系一般关系进进 行测定,确定一个相关的行测定,确定一个相关的数学表达式数学表达式,以进行,以进行估计或估计或 预测预测的统计方法。的统计方法。 u分类分类 直线回归(线性回归)直线回归(线性回归) 曲线回归(非

12、线性回归)曲线回归(非线性回归) 简单直线回归(一元线性回归)简单直线回归(一元线性回归) 多元线性回归多元线性回归 回归分析要先确定因变量(结果),自变量(原因)。回归分析要先确定因变量(结果),自变量(原因)。 相关系数则不需要确定因果变量。相关系数则不需要确定因果变量。 简单直线回归(一元线性回归)简单直线回归(一元线性回归) u确定自变量确定自变量x x和因变量和因变量y y。 一般根据问题的性质、相关理论和常识确定。如果不一般根据问题的性质、相关理论和常识确定。如果不 能确定,或者两个变量互为根据,则存在能确定,或者两个变量互为根据,则存在x x为自变量,为自变量,y y为为 因变量

13、(因变量(y y倚倚x x)的回归方程和)的回归方程和y y为自变量,为自变量,x x为因变量(为因变量(x x倚倚 y y)的回归方程。)的回归方程。 u建立一元一次数学模型建立一元一次数学模型 )( ( yxdycx xybxay c c 倚 )倚 这里采用第一个模型。这里采用第一个模型。a a称为截距,称为截距,b b称为斜率或回归系称为斜率或回归系 数。数。 a a的经济含义一般不作解释,的经济含义一般不作解释,b b的经济含义是自变量变动的经济含义是自变量变动 一个单位,因变量平均变动一个单位,因变量平均变动b b个单位。个单位。 u计算计算a a和和b b 参数参数a a和和b b

14、,是根据实际的观测值(已知)计算出,是根据实际的观测值(已知)计算出 的。就是在模型中,的。就是在模型中,x x和和y y是已知的,是已知的,a a和和b b是未知的。是未知的。 一般采用一般采用最小平方法(最小二乘法)最小平方法(最小二乘法)计算。计算。 推导如下:推导如下: 根据最小平方法原理,参数要使得理论值与实际值根据最小平方法原理,参数要使得理论值与实际值 的离差平方和最小。的离差平方和最小。 min)( 2 c yyQ 假设假设Q Q是连续可微,最小值的必要条件是一阶偏导数等是连续可微,最小值的必要条件是一阶偏导数等 于于0 0,即:,即: 0 a Q 0 b Q 将将bxayc带

15、入带入Q Q,分别求一阶偏导得:,分别求一阶偏导得: 0)1)(2 bxay a Q 0 )(2 xbxay b Q 移项等到二元一次方程:移项等到二元一次方程: xbnay 2 xbxaxy 从中可以解出:从中可以解出: xbya xxn yxxyn b 22 )( 这样就得到了直线回归方程。这样就得到了直线回归方程。 1c y 1 y 2c y 2 y y y x 回归系数回归系数b b还可以写成:还可以写成: 22 x 2 xy xx yyxx b )( )( 判定系数判定系数R R2 2 用来测度回归直线对实际值的拟合程度用来测度回归直线对实际值的拟合程度,或者说,或者说 是回归直线对

16、实际值变动的解释程度。是回归直线对实际值变动的解释程度。 2 c 2 c 2 2 ii )y(y)y(yyy yyyy 这这部部分分偏偏差差可可以以分分解解 反反映映了了总总的的偏偏差差。,那那么么的的代代表表值值是是实实际际值值 总偏差总偏差 剩余偏差剩余偏差 (未被解释)(未被解释) 回归偏差回归偏差 (被解释)(被解释) 2 2 2 )( )( yy yy R c 总总偏偏差差 回回归归偏偏差差 即判断系数反映了因变量变动中由自变量所解释的程即判断系数反映了因变量变动中由自变量所解释的程 度。度。 例例 根据上例中的资料,配合生产费用倚产量的直线回归方根据上例中的资料,配合生产费用倚产量

17、的直线回归方 程,说明斜率的经济含义,并预测当产量为程,说明斜率的经济含义,并预测当产量为300300公斤时的生公斤时的生 产费用。产费用。 产量产量 (公斤)(公斤) 生产费用生产费用 (万元)(万元) 2004 2204.5 2504.7 2704.8 2805.2 合合 计计122023.2 x y 2 x 2 yxy 16 20.25 22.09 23.04 27.04 40000 48400 62500 72900 78400 302200108.425717 800 990 1175 1296 1456 0124.0 22600 281 12203022005 2.23122057

18、175 )( 2 22 xxn yxxyn b 6144.1 5 1220 0124.0 5 2 .23 xbya xyc0124. 06144. 1 这样得出生产费用倚产量的直线回归方程:这样得出生产费用倚产量的直线回归方程: b b(斜率)的经济含义表示产量增加一公斤,生产费(斜率)的经济含义表示产量增加一公斤,生产费 用平均增加用平均增加0.01240.0124万元。万元。 当产量增加到当产量增加到300300公斤时,则可以预测生产费用为:公斤时,则可以预测生产费用为: 万元)(3344. 5 3000124. 06144. 1 c y 估计标准误差估计标准误差 回归直线或曲线是一种平均

19、线。用来代表变量之回归直线或曲线是一种平均线。用来代表变量之 间关系的一般水平。根据回归线推测的因变量显然与间关系的一般水平。根据回归线推测的因变量显然与 实际值有差异。这种差异大小说明推算的准确性以及实际值有差异。这种差异大小说明推算的准确性以及 回归线代表性的大小。回归线代表性的大小。 估计标准误差就是用来说明回归方程推算结果的估计标准误差就是用来说明回归方程推算结果的 准确性或代表性高低的统计分析指标。准确性或代表性高低的统计分析指标。 y x 回归平均回归平均 线线 u简单直线回归估计标准误差计算 ) 1 )( ( 2 )( 22 n xx S n yy S x c yx 对比 估估计

20、计值值(理理论论值值) 实实际际值值 估估计计标标准准误误差差 c yx y y S 简捷公式:简捷公式: 2 2 n xybyay S yx u相关系数和估计标准误差的关系相关系数和估计标准误差的关系 22 1rS yyx 2 22 y yxy S r 或或 相关系数与估计标准误差表现为相反的关系。相关系数与估计标准误差表现为相反的关系。 1、 越大,越大, 越小。极端时,越小。极端时, , 此时,实际值与理论值完全相等,完全相关。此时,实际值与理论值完全相等,完全相关。 r yx S1r0 yx S 2、 越小,越小, 越大。极端时,越大。极端时, , 图上表现为回归线与图上表现为回归线与 数列的平均线重合,不相关。数列的平均线重合,不相关。 r yx S 0r yyx S y 例例 计算上例回归直线的估计标准误差计算上例回归直线的估计标准误差 产量产量 (公斤)(公斤) 生产费用生产费用 (万元)(万元) 2002004 4 2202204.54.5 2502504.74.7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论