第十章 相关与回归分析_第1页
第十章 相关与回归分析_第2页
第十章 相关与回归分析_第3页
第十章 相关与回归分析_第4页
第十章 相关与回归分析_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章相关与回归分析一、基本内容第一节相关与回归分析的基本问题

相关的概念与种类、回归的概念与种类、相关分析与回归分析的区别和联系、相关分析与回归分析的作用、相关分析与回归分析的步骤第二节相关关系与一元线性回归分析

相关系数测定,建立一元线性回归方程,回归估计标准差二、学习目的与要求通过对本章的学习,使同学们明确相关与回归的概念、种类,相关与回归分析的作用,掌握直线相关与简单直线回归分析的原理和计算方法。三、学习重点与难点本章学习的重点是直线相关与简单直线回归分析的计算,难点是相关与回归在计算上的联系。四、授课学时:4-6个学时

客观现象总是普遍联系和相互依存的。客观现象之间的数量联系存在着两种不同的类型:函数关系;相关关系。现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系需用统计学中的相关与回归分析方法。第一节相关与回归分析

的基本问题一、相关的概念与种类二、回归的概念与种类三、相关分析与回归分析的区别与联系四、相关分析与回归分析的作用五、相关分析与回归分析的步骤一、相关的概念与种类(一)函数关系函数关系是指现象之间存在严格的依存关系。(二)相关关系相关关系是指现象之间存在这非严格、不确定的依存关系。现象间关系相关关系函数关系两现象间的数量按照一定规律一一对应。例如:两现象间的数量存在协变关系,但却不是一一对应的。例如:考虑施肥量与产量之间的关系。相关分析回归分析变量间的关系

(函数关系)是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上xy变量间的关系

(函数关系)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=p

x(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2

企业的原材料消耗额(y)与产量(x1)

、单位产量消耗(x2)

、原材料价格(x3)之间的关系可表示为y=x1x2x3

变量间的关系

(相关关系)变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围

xy变量间的关系

(相关关系)相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系(三)相关关系种类1按变量的多少,分单相关和复相关2按相关形式不同,分线性相关和非线性相关(曲线相关)3按相关方向不同,分正相关和负相关4按相关程度的高低,分完全相关、不完全相关和不相关相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关在途人数航程产量零件报废率资金占用量施肥量运转时间商品周转速度正直线相关负直线相关指数曲线相关抛物线相关几种不同的相关关系类型二、回归的概念与种类(一)回归英国生物学家兼统计学家高尔顿提出统计学上的回归分析是指根据大量统计数据,找出变量之间在数量变化方面的规律。(二)回归分析的种类一元回归(简单回归)多元回归(复回归)线性回归非线性回归一元线性回归按自变量的个数分⒈按回归曲线的形态分⒉三、相关分析与回归分析的区别与联系1联系:均为研究两个或两个以上变量之间关系的方法。相关分析是回归分析的前提,回归分析是相关分析的继续。无相关就无回归,相关程度越高,回归越好;相关系数和回归系数方向一致。2区别:相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量,x为一般变量;相关分析用于测定现象相关程度和方向,回归分析用回归模型进行预测和控制。四、相关分析与回归分析的作用

1研究经济现象之间的相关形式、相关方向和密切程度,认识其数量变化的规律性。2对经济现象进行推算和预测,为科学地制定经济政策和管理决策提供科学依据。五、相关分析与回归分析的步骤1相关关系的定性分析2确定回归方程3计算相关系数,对回归方程变量之间的相关性进行显著性检验;4利用回归方程进行推算和预测;5对推算和预测作出置信区间估计第二节相关关系与一元线性回归分析

判断现象之间有无相关关系时,先据实际情况看是否有相关关系,若有,在定性分析的基础上编制相关表,绘制相关图,最后计算相关系数。一、相关表和相关图

相关表是一种统计表,它是直接根据现象之间的原始资料,将一变量的变量值按从小到大(或从大到小)的顺序进行排列,并将另一变量的值与之对应排列形成的表格。相关图又称散点图,它是用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。10个大型工业企业销售额(单位:亿元)序号企业销售额X利润额Y12345678910华东电力大庆石油华北电力华中电力武钢上海石化北京燕化齐鲁石化宝钢广东电力11110290856662585148432522242125131812109合计716179408090100110506070201510525YX销售额利润额10个大型工业企业销售额与利润额散点图(亿元)二、回归分析概述

指在相关分析的基础上,根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化,并求得因变量的预测值的统计分析方法二、一元线性回归方程的确定对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:E()=0,总体一元线性回归方程:一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态为正为负为0

我们用样本观察值计算a、b,并用其对总体线性回归方程中的参数α、β做出估计,即求样本回归方程,用其对总体线性回归方程进行估计。样本回归直线方程又称一元线性回归方程,其表达式为:ŷ=a+bx总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距(回归系数)截距a表示在没有自变量x的影响时,其它各种因素对因变量y的影响;回归系数b表明自变量x每变动一个单位,因变量y变动b个单位。(估计的回归方程)(一元线性回归方程)随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。一元线性回归方程中参数a、b的确定:最小平方法基本数学要求:整理得到由两个关于a、b的二元一次方程组成的方程组:进一步整理,有:︽408090100110506070201510525YX销售额利润额回归直线10个大型工业企业销售额与利润额散点图(亿元)10个大型工业企业销售额回归分析计算表(单位:亿元)序号企业销售额X利润额YX2XYY212345678910华东电力大庆石油华北电力华中电力武钢上海石化北京燕化齐鲁石化宝钢广东电力1111029085666258514843252224212513181210912321104048100722543563844336426012304184927752244216017851650806104461248038762548457644162516932414410081合计71617956368139433569例题见课本P194-195回归系数b与相关系数r的关系:r>0r<0r=0b>0b<0 b=0三、相关系数

相关系数是用以反映变量之间相关关系密切程度的统计指标。将反映两变量间线性相关关系的统计指标称为线性相关系数(简称相关系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数;将反映多元线性相关关系的统计指标称为复相关系数。我们只介绍线性相关系数。简化公式XY协方差X均方差Y均方差相关系数的计算

相关系数取值及其意义

r

的取值范围是[-1,1]|r|=1为完全相关r=1,为完全正相关r=-1为完全负正相关

r=0不存在线性相关关系-1r<0为负相关0<r1为正相关|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切相关关系的测度

(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加低度线性相关

中度线性相关高度线性相关10个大型工业企业销售额相关系数计算表(单位:亿元)序号企业销售额X利润额YX2XYY212345678910华东电力大庆石油华北电力华中电力武钢上海石化北京燕化齐鲁石化宝钢广东电力1111029085666258514843252224212513181210912321104048100722543563844336426012304184927752244216017851650806104461248038762548457644162516932414410081合计71617956368139433569

表8-1我国人均国民收入与人均消费金额数据

单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关关系的测度

(相关系数计算例)【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi

,yi),i=1,2,…,13,数据见表8-1,计算相关系数。相关关系的测度

(计算结果)解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.9987相关系数的显著性检验(P196)

检验的步骤第一步,计算相关系数第二步,根据回归方程的自由度(n-2)和给定的显著性水平值,从相关系数临界值查出临界值tα/2(n-2)

第三步,判别。如果|t|≥

tα/2(n-2),表明两变量之间线性相关关系显著,检验通过;如果|t|<

tα/2(n-2),表明两变量之间线性相关关系不显著,检验不通过。

四、估计标准误差

估计标准误差是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。可从一方面反映回归模型拟合的优劣状况。在大样本条件下,可用公式计算:五、拟合程度的评价总离差平方和的分解 对任一实际观测值Yt总有:

对上式两边取平方并求和,得到:

可以证明:

从而有:

即SST=SSR+SSE

上式中,SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是用回归直线无法解释的离差平方和,称为残差平方和。式子两边同除以SST,得:显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占的比例就越大。因此,可定义这一比例为决定系数,即有:决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。决定系数r2具有如下特性:1.决定系数r2具有非负性。 由决定系数的定义式可知,r2的分子分母均是不可能为负值的平方和,因此其比值必大于零。(但是在回归模型中不包括截距项的场合,由于总离差平方和的分解公式不成立,按该式计算的r2有可能小于0。)2.决定系数的取值范围为0≤r2≤1。3.决定系数是样本观测值的函数,它也是一个统计量。4.在一元线性回归模型中,决定系数是单相关系数的平方。离差平方和的分解每个因变量y的实际值与其平均数之间存在的离差(y-)的平方和称为总离差平方和,简称总变差。总变差回归变差估计值与平均数离差的平方和,称为回归变差(可解释变差)。剩余变差每个观察值y与估计值的离差平方和,称为剩余变差(未解释变差。剩余平方和回归平方和总离差平方和SST=SSR+SSE总离差平方和回归平方和剩余(误差)平方和判定系数是指因变量的总变差中可以被自变量解释部分的比例,即可解释因素的影响程度。用来说明因变量的变化有多少可通过自变量得到解释。是衡量拟合模型优劣的重要分析指标。r2值越大,说明回归模型拟合得愈优。判定系数与相关系数的关系二者均可测定两变量的线性相关密切程度判定系数与相关系数的区别:判定系数无方向性(不能反映负相关),相关系数则有方向,其方向与样本回归系数b相同(可反映正相关,也可反映负相关);判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向。估计标准差越小,则变量间相关程度越高,回归线对Y的解释程度越高。判定系数与估计标准误差的关系:五、线性回归的显著性检验及回归预测

在回归分析中,要检验因变量Y与自变量X间到底有无真正的线性关系,可以通过回归系数的显著性检验(t检验)或回归方程的显著性检验(F检验)来判

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论