第九章相关和回归分析_第1页
第九章相关和回归分析_第2页
第九章相关和回归分析_第3页
第九章相关和回归分析_第4页
第九章相关和回归分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 相关和回归分析教学内容和要求: 了解相关和回归分析的意义,掌握相关系数的计算,掌握简单直线回归方程的计算,了解估计标准误。一、相关分析的意义和种类 1相关分析的概念和作用 (1)相关关系的概念 客观现象之间的数量依存关系,可分为两种不同的类型,即函数关系(确定性关系)和相关关系(非确定性关系)。 函数关系是指现象之间客观存在的一种十分严格的确定性的数量关系,即在两个变量x与y之间,当x取定一个值时,就有一个完全确定的y值与之相对应。 相关关系是指存在于现象之间的一种非确定性的数量关系。当给定一个x值时,y的值不是被唯一地确定,而可能同时出现几个不同的数值,并在一定范围围绕其平均数上下变

2、动。例:一些现象(用统计指标来反映)之间存在相关关系 X (自变量) Y(因变量) 身高 体重 劳动人数 产值 广告费 销售额 销售额 利润率 产量(产值) 总成本 产量(产值) 单位成本 收入 消费支出相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 相关关系具有以下要点: 1)变量之间确实存在着数量上的依存关系,而且表现为完全对等关系; 2)依存关系的具体关系值是难以固定,它不能数学公式准确表示。 相关关系与函数关系虽然彼此有所不同,但它们之间是有

3、联系的。函数关系在统计上是完全的相关关系。在统计研究中,为了找到相关关系的一般数量表现形式,又常用函数关系的形式来表现。 (2)相关分析的概念 相关分析(狭义)是指测定变量之间相关关系的密切程度的统计方法。 相关分析(广义)是研究两个和两个以上变量之间相关程度的大小以及用怎样的函数关系来表示的一种统计方法。 对相关关系的分析,要利用相应的函数关系数学表达式。相关关系是相关分析的对象,函数关系是相关分析的工具。(3)相关分析的作用(任务、内容或步骤) 1)确定现象之间是否确有依存关系,这是相关分析的前提。用经验或图表 2)确定相关关系的表现形式。用相关图表 3)测定相关关系的密切程度和方向,并检

4、验其有效性。用相关系数 4)确定相关关系的数学表达式。用回归方程 5)确定因变量估计值误差的程度。用估计标准误2相关分析的种类 按变量之间相关关系中的自变量的多少,相关分析可以分为单相关和复相关。也称为一元相关和多元相关。 按变量之间相关关系的表现形式的不同,相关分析可以分为直线相关和曲线相关。又称线性相关和非线性相关。 按变量之间相互关系的方向不同,相关分析可以分为正相关和负相关。 按变量之间的相关程度不同,相关分析可以分为完全相关、不完全相关与不相关。多数的相关现象都是指这种不完全相关。二、相关分析的方法(以简单直线为主) (一)相关图表法 相关分析应该在定性分析的基础上进行,相关分析的基

5、础性工作是判定现象间是否相关和相关的性质。其主要方法是编制相关表和绘制相关图。 1相关表 相关表的编制是在研究两个变量x与y之间相关的情况时,通过实际观察取得一系列原始对应数据。将这些对应的原始数据按照自变量大小的顺序进行排列所编制的表,叫相关表。 按照资料是否分组,相关表有简单相关表和分组相关表之分。 (l)简单相关表 它将原始资料自变量的变量值按从小到大顺序配合因变量的值一一对应平行排列编制的统计表。(2)分组相关表 如果原始资料很多,就要将原始资料进行分组,然后编制相关表,这种相关表称为分组相关表。 分组相关表包括单变量分组表和双变量分组表两种。1)单变量分组表。它是将自变量数值进行分组

6、,计算出各组次数和因变量组平均值的统计表。 2)双变量分组表。对两种有关变量都进行分组,交叉排列,并列出两种变量各组间的共同次数,这种统计表称为双变量分组表。 2相关图 相关图又称散点图,它是利用直角坐标的第一象限,把自变量x定在横轴上,因变量y定在纵轴上,将相关表中的原始对应数值在平面直角坐标中用坐标点描绘出来,每个坐标点称为相关点,所有相关点组成的图形就叫相关图或散点图。 编制相关图能直观地大致看出两个现象之间有无相关及相关的方向和表现形式。散点图(scatter diagram)(二)相关系数 英国统计学家(Karl Pearson)提出的一个测定两变量线性相关的计算公式,通常称为皮尔生

7、积差相关系数。计算公式为:222111yynxxnyyxxnryxxy1未分组资料相关系数的计算(1)积差法22yyxxyyxxr(2)简捷法1)2)3) 2222.ynyxnxyxnxyryxyxxyr.2222yynxxnyxxynr2分组资料相关系数的计算 在样本单位数较多,成对变量(x,y)还存在次数不同时,应计算加权相关系数。 (2)简捷法( 1) 积 差 法 fyyfxxfyyxxr22 2222yffyfxffxfyfxfxyffr3相关系数的判断 相关系数的取值范围在-l和+1之间,即: -lr+1。 当r=0时,说明x与y之间没有线性相关。 当r=1时,说明x与y之间完全正相

8、关。 当0r1时,说明x与y之间不完全正相关。 当r=-1时,说明x与y之间完全负相关。 当-1r0时,说明x与y之间不完全负相关。 r值的趋势规律表明,|r|值越接近于1,则相关程度越高;|r|值越趋近于0,则相关程度越低。 在样本总体足够大时,评价不完全相关的程度常用下列标准予以判断: 0|r|0.3,表示相关关系很弱,基本上将其看作没有线性相关关系; 0.3|r|0.5,说明变量x与y之间低度相关; 0.5|r|0.8,说明变量x与y之间中度相关; 0.8|r|1,说明变量x与y之间高度相关。三、 回归分析 (一)回归分析的概念和种类 1回归分析的概念 “回归”(Regression)一

9、词原来是生物学的词汇,是由英国科学家葛尔顿提出的,用来描述父母的体高或体矮在遗传学上有趋于一般的现象,这种现象便叫做回归,后来这个名词被广泛用来表示变量间的数量关系。 回归分析是一种建立在数学模型基础上的,对两个或两个以上具有相关关系的变量,将一个或一个以上自变量作为依据,来计算和预测因变量发展水平和发展趋势的统计分析方法。也称回归预测法。 由于相关系数,只能说明因变量和自变量相关关系的密切程度和方向,而为了能根据某一已知因素的数值推算,另一未知因素的数值,就需要进行回归分析。2回归分析的种类(1)按自变量个数的多少分类,可以分为简单回归和复回归。简单回归是研究一个自变量的回归分析,或称作一元

10、回归预测。复回归是研究多个自变量的回归分析,或称作多元回归预测。 (2)按回归的表现形式分类,可以分为线性回归和非线性回归。如果回归模型的因变量是自变量的一次函数形式,回归规律在图形上表现为一条直线,称为线性回归。如果回归模型的因变量在自变量一次以上的函数形式,回归规律在图形上表现为形态各异的各种曲线,称为非线性回归。3回归分析与相关分析的区别与联系(1)回归分析与相关分析的区别相关分析所研究变量之间的共变对等关系。回归分析却是在控制或给定一个或几个变量条件下来观察对应的某一变量的变化,给定的变量称为自变量,被观察对应的某一变量,称为因变量,它是随机变量。相关分析只是计算测定变量之间关系的密切

11、程度和变量变化的方向。但回归分析可以对具有相关关系的变量建立一个数学表达式称为回归方程,来描述变量之间具体的变动关系,通过控制或给定自变量的数值来估计或预测因变量可能的数值。(2)回归分析与相关分析的联系相关分析是回归分析的基础和前提。没有对相关关系的密切程度作出判断,就不能进行回归预测,相关程度愈高,回归测定的结果愈可靠。 回归分析是相关分析的深入和继续。仅仅说明变量之间具有密切的相关关系是不够的,只有利用回归模型,才能对变量的发展趋势作出估计及预测,相关分析才有实际意义。(二)一元线性回归模型 1一元线性回归模型的概念 一元线性回归模型又称简单直线回归模型,是回归分析中最为简单的一种分析方

12、法。 它根据两个有相关关系的变量,配合适当的直线回归方程式,反映一个自变量与一个因变量之间的统计规律,并通过自变量的变动,预测因变量的发展趋势及水平,并对这种估计的可靠性作出判断的方法。 当两个变量互为因果关系时,如某企业某种产品的生产量与销售量,可以用两个直线回归方程式表示。 一一为y对x的直线回归方程式:yca+bx,我们可设生产量为自变量x,销售量为因变量y,yc为y的估计值,用x推算y; 另一另一为x对y的直线回归方程式:xcc+dy,我们可设销售量为自变量y,生产量为因变量x,xc为x的估计值,用y推算x。 所以在研究问题时,必须先确定自变量与因变量的关系,如两个变量是单方面的因果关

13、系,可以用一个回归方程来表示,一般选用y对x的回归直线方程式:ycabx 式中:yc 因变量y的估计值,也可称为理论值; x给定的自变量数值; a回归直线在y轴上的截距,回归直线的起点值; b的斜率,称回归系数,它表示自变量x变动一个单位时,因变量y的平均增减数值。2最佳一元线性回归模型必须具备的条件(1)两个变量之间确实具有显著的相关关系。(2)两个变量的对应数值描述呈近似直线。(3)各个因变量的实际值与估计值的离差平方之和为最小值,即(y - yc)2=最小。为了满足这一条件,分别对a和b求偏导数,并令其为零,求得标准方程式:y= na+bx xy= a x+bx2 解标准方程,便可求得a

14、,b两个参数:思考:1. 相关系数r与回归系数b的关系 2. 回归系数b的经济含义 3. 如何预测因变量xbynxbnyaxxnyxxynb22 (三)回归模型线性拟合程度分析1方差分析 最小平方法求得的回归模型yc=a+bx确定了x与y的具体变动关系。是否能够比较地拟合实际情况,必须通过统计上拟合程度的检验加以判断,方差分析是其常用的方法之一。 总离差=剩余离差+回归离差变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面(1)由于自变量 x 的取值不同造成的(2)除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的

15、大小可以通过该实际观测值与其均值之差 来表示误差的分解(图示) y误差平方和的分解 (三个平方和的关系) 误差平方和的分解 (三个平方和的意义)1.总平方和总平方和(SSTtotal sum of squares)反映因变量的 n 个观察值与其均值的总误差2.回归平方和回归平方和(SSRsum of squares of regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和残差平方和(SSEsum of squares of error)反映除 x 以外的其他因素对 y 取

16、值的影响,也称为不可解释的平方和或剩余平方和2. 判定系数(可决系数)R2 是测定回归直线对实际数据的拟合优度以一个重要评价指标。1. 回归平方和占总误差平方和的比例3估计标准误 剩余偏差(y - yc) 2除以自由度n2所得商的平方根称为估计标准误。估计标准误是说明回归方程代表性大小的统计指标。其公式为:式中:Sy估计标准误 n 2自由度。在一元线性回归模型中,参数a、b是由实际资料计算的,因而失去了两个自由度。22nyyScy估计标准误差的自由度1.估计标准误差是残差平方和SSE除以它的自由度后的平方根2.残差平方和SSE的自由度之所以是n-2,原因是在计算SSE时,必须先求出a和b,这两

17、个估计值就是附加给SSE的两个约束条件,因此在计算SSE时,只有n-2个独立的观测值,而不是n个3.一般而言,在有k个自变量的多元回归中,自由度则为n-k4.一般的规律是:自由度自由度=n-待估参数的个数待估参数的个数 估计标准误Sy说明在正态分布中因变量实际值对估计值的离散程度。 在回归分析中,估计标准误愈小,表明实际值愈紧靠估计值,回归模型拟合得愈合适,反之,估计标推误愈大,则说明实际值对估计值愈分散,回归模型拟合得愈差。 实际工作中,估计标准误通常采用下列简易公式求得:思考:Sy与b的关系22nxybyaySy 从两个回归模型拟合优度的判断和评价指标来看,估计标准误显然不如判定系数r2。 r2是无量纲的系数,有确定的取值范围(即0l),便于对不同资料回归模型拟合优度进行比较。 而估计标准误则是有计量单位的,却没

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论