统计学基础相关与回归分析_第1页
统计学基础相关与回归分析_第2页
统计学基础相关与回归分析_第3页
统计学基础相关与回归分析_第4页
统计学基础相关与回归分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学基础 第八章 相关与回归分析【教学目的】1.掌握相关系数的测定和性质2.明确相关分析与回归分析的特点3.建立回归直线方程,掌握估计标准误差的计算【教学重点】1.相关关系、相关分析和回归分析的概念2.相关系数计算3.回归方程的建立和依此进行估计和预测【教学难点】1.相关分析和回归分析的区别2.相关系数的计算3.回归系数的计算4.估计标准误的计算【教学时数】教学学时为8课时【教学内容参考】第一节 相关关系一、相关关系的含义宇宙中任何现象都不是孤立地存在的,而是普遍联系和相互制约的。这种现象间的相互联系、相互制约的关系即为相关关系。相关关系因其依存程度的不同而表现出相关程度的差别。有些现象间存

2、在着严格的数据依存关系,比如,在价格不变的条件下销售额量之间的关系,圆的面积与半径之间的关系等等,均具有显著的一一对应关系。这些关系可由数学中的函数关系来确切的描述,因而也可以认为是一种完全相关关系。有些现象间的依存关系则没有那么严格。当一种现象的数量发生变化时,另一种现象的数量却在一定的范围内发生变化,比如身高与体重的关系就是如此。一般来说,身高越高,体重越重,但二者之间的关系并非严格意义上的对应关系,身高1.75米的人,对应的体重会有多个数值,因为影响体重的因素不只身高而已,它还会受遗传、饮食习惯等因素的制约和影响。社会经济现象中大多存在这种非确定的相关关系。在统计学中,这些在社会经济现象

3、之间普遍存在的数量依存关系,都成为相关关系。在本章,我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系。二、相关关系的特点1.现象之间确实存在数量上的依存关系 如果一个现象发生数量上的变化,则另一个现象也会发生数量上的变化。在相互依存的两个变量中,可以根据研究目的,把其中的一个变量确定为自变量,把另一个对应变量确定为因变量。例如,把身高作为自变量,则体重就是因变量。2.现象之间数量上的关系是不确定的相关关系的全称是统计相关关系,它属于变量之间的一种不完全确定的关系。这意味着一个变量虽然受另一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。例如,前面提到的身高和体重之间

4、的关系就是这样一种关系。三、相关关系的种类 现象之间的相互关系很复杂,它们涉及的变动因素多少不同,作用方向不同,表现出来的形态也不同。相关关系大体有以下几种分类: (一)正相关与负相关按相关关系的方向分,可分为正相关和负相关。当两个因素(或变量)的变动方向相同时,即自变量值增加(或减少),因变量值也相应地增加(或减少),这样的关系就是正相关。如家庭消费支出随收入增加而增加就属于正相关。如果两个因素(或变量)变动的方向相反,即自变量值增大(或减小),因变量值随之减小(或增大),则称为负相关。如商品流通费用率随商品经营的规模增大而逐渐降低就属于负相关。 (二)单相关与复相关 按自变量的多少分,可分

5、为单相关和复相关。单相关是指两个变量之间的相关关系,即所研究的问题只涉及到一个自变量和一个因变量,如职工的生活水平与工资之间的关系就是单相关。复相关是指三个或三个以上变量之间的相关关系,即所研究的问题涉及到若干个自变量与一个因变量,如同时研究成本、市场供求状况、消费倾向对利润的影响时,这几个因素之间的关系是复相关。 (三)线性相关与非线性相关按相关关系的表现形态分,可分为线性相关与非线性相关。线性相关是指在两个变量之间,当自变量值发生变动时,因变量值发生大致均等的变动,在相关图的分布上,近似地表现为直线形式。比如,商品销售额与销售量即为线性相关。非线性相关是指在两个变量之间,当自变量值发生变动

6、时,因变量值发生不均等的变动,在相关图的分布上,表现为抛物线、双曲线、指数曲线等非直线形式。比如,从人的生命全过程来看,年龄与医疗费支出呈非线性相关。 (四)完全相关、不完全相关与不相关按相关程度分,可分为完全相关、不完全相关和不相关。完全相关是指两个变量之间具有完全确定的关系,即因变量值完全随自变量值的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这时,相关关系就转化为函数关系。不相关是指两个变量之间不存在相关关系,即两个变量变动彼此互不影响。自变量值变动时,因变量值不随之作相应变动。比如,家庭收入多少与孩子多少之间不存在相关关系。不完全相关是指介于完全相关和不相关之间的一种

7、相关关系。比如,农作物产量与播种面积之间的关系。不完全相关关系是统计研究的主要对象。 第二节 相关分析一、相关分析的主要内容相关分析是指对客观现象的相互依存关系进行分析、研究,这种分析方法叫相关分析法。相关分析的目的在于研究相互关系的密切程度及其变化规律,以便作出判断,进行必要的预测和控制。相关分析的主要内容包括:(一)确定现象之间有无相关关系这是相关与回归分析的起点,只有存在相互依存关系,才有必要进行进一步的分析。(二)确定相关关系的密切程度和方向确定相关关系密切程度主要是通过绘制相关图表和计算相关系数。只有对达到一定密切程度的相关关系,才可配合具有一定意义的回归方程。(三)确定相关关系的数

8、学表达式为确定现象之间变化上的一般关系,我们必须使用函数关系的数学公式作为相关关系的数学表达式。如果现象之间表现为直线相关,我们可采用配合直线方程的方法;如果现象之间表现为曲线相关,我们可采用配合曲线方程的方法。(四)确定因变量估计值误差程度使用配合直线或曲线的方法可以找到现象之间一般的变化关系,也就是自变量变化时,因变量将会发生多大的变化。根据得出的直线方程或曲线方程我们可以给出自变量的若干数值,球的因变量的若干个估计值。估计值与实际值是有出入的,确定因变量估计值误差大小的指标是估计标准误差。估计标准误差大,表明估计不太精确;估计标准误差小,表明估计较精确。二、相关关系的测定 相关分析的主要

9、方法有相关表、相关图和相关系数三种。现将这三种方法分述如下:(一)相关表在统计中,制作相关表或相关图,可以直观地判断现象之间大致存在的相关关系的方向、形式和密切程度。在对现象总体中两种相关变量作相关分析,以研究其相互依存关系时,如果将实际调查取得的一系列成对变量值的资料顺序地排列在一张表格上,这张表格就是相关表。相关表仍然是统计表的一种。根据资料是否分组,相关表可以分为简单相关表和分组相关表。1.简单相关表简单相关表是资料未经分组的相关表,它是把自变量按从小到大的顺序并配合因变量一一对应平行排列起来的统计表。【案例】为研究分析产量()与单位产品成本()之间的关系,从30个同类型企业调查得到的原

10、始资料并将产量按从小到大的顺序排列,可编制简单相关表,结果见表8-2所示。表8-2 产量和单位产品成本原始资料产量(件)202020202020202020303030303040单位产品成本(元)151616161618181818151516161614产量(件)404040405050505050506060606060单位产品成本(元)151515161414151515161414141415从表8-2中可以看出,随着产量的提高,单位产品成本却有相应降低的趋势,尽管在同样产量的情况下,单位产品成本存在差异,但是两者之间仍然存在一定的依存关系。2.分组相关表在大量观察的情况下,原始资料

11、很多,运用简单相关表表示就很难使用。这时就要将原始资料进行分组,然后编制相关表,这种相关表称为分组相关表。分组相关表包括单变量分组相关表和双变量分组相关表两种。(1)单变量分组表。在原始资料很多时,对自变量数值进行分组,而对应的因变量不分组,只计算其平均值,根据资料具体情况,自变量可以是单项式,也可以是组距式。【案例】以上例原始资料为例,将同类型30个企业的产量()与单位产品成本()原始资料,按产量分组编制单变量分组表,结果见表8-3。表8-3 产量和单位产品成本简单相关表产量 (件)企业数 (个)单位产品成本 (元)20916.830515.640515.050614.860514.2从表8

12、-3中可以较明显地看出二者之间存在正相关关系。(2)双变量分组表。对两种有关变量都进行分组,交叉排列,并列出两种变量各组间的共同次数,这种统计表称为双变量分组相关表。这种表格形似棋盘,故又称棋盘式相关表。 【案例】 仍以原始资料为例,将同类型30个企业的产量()与单位产品成本()原始资料,编制双变量分组相关表,结果见表8-4。表8-4 产量和单位产品成本双变量分组相关表单位产品成本 (元)产量 (件)合计2030405060184-4164311-915123311014-1247合计9556530从表8-4看出,产量集中在左上角到右下角的对角斜线上,表明产量与单位产品成本是负相关关系。制作双

13、变量分组相关表,须注意自变量为纵栏标题,按变量值从小到大自左向右排列,因变量为横行标题,按变量值从大到小自上而下排列。这样做的目的是将相关表与相关图结合起来,便于一致性判断相关关系的性质。(二)相关图相关图又称散点图。它是以直角坐标系的横轴代表自变量,纵轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。相关图可以按未经分组的原始资料来编制,也可以按分组的资料,包括按单变量分组相关表和双变量分组相关表来编制。通过相关图将会发现,当对是函数关系时,所有的相关点都会分布在某一条线上;在相关关系的情况下,由于其他因素的影响,这些点并非处在一条线上,但所有

14、相关点的分布也会显示出某种趋势。所以相关图会很直观地显示现象之间相关的方向和密切程度。【案例】 以上例原始资料中编制的产量与单位产品成本单变量分组相关表为例,绘制相关图,结果见图8-1。从图8-1中可以看出,单位产品成本随着产量增加而降低,并且散布点的分布近似地表现为一条直线。由此可以判断产量与单位产品成本两个变量之间存在着直线负相关关系。(三)相关系数 相关表和相关图大体说明变量之间有无关系,但它们的相关关系的紧密程度却无法表达,因此,需运用数学解析方法,构建一个恰当的数学模型来显示相关关系及其密切程度。对现象之间的相关关系的紧密程度做出确切的数量说明,就需要计算相关系数。 1.相关系数的计

15、算 相关系数是在直线相关条件下,说明两个现象之间关系密切程度的统计分析指标,记为。相关系数的计算公式为式中 资料项数; 变量的算术平均数;变量的算术平均数变量的标准差;变量的标准差; 变量的协方差。在实际问题中,如果根据原始资料计算相关系数,可运用相关系数的简捷法计算,其计算公式为 【案例】根据教材中表8-5中的资料,已知居民家庭月收入与消费支出之间为直线相关,计算居民家庭月收入与消费支出的相关系数(见表8-6)。 表8-3编 号月收入x(百元)消费支出y(百元)x2y2xy115122251441802181532422527032018400324360425206254005005302

16、890078484064036160012961440762423844176426048755356252809397598860774436005280109265846442255980合计465349297511557121429 2.相关系数的分析 明晰相关系数的性质是进行相关系数分析的前提。现将相关系数的性质总结如下: (1)相关系数的数值范围,是在-1和+1之间,即:-11。 (2)计算结果,当>0时,表示与为正相关;当<0时,与为负相关。 (3)相关系数的绝对值越接近于1,表示相关关系越强;越接近于0,表示相关关系越弱。如果|=1,则表示两个现象完全直线相关。如果|

17、=0,则表示两个现象完全不相关(不是直线相关)。(4)相关系数的绝对值在0.3以下是无直线相关,0.3以上是有直线相关,0.30.5是低度直线相关,0.50.8是显著相关,0.8以上是高度相关。【案例】上例中计算的相关系数为0.99,说明消费支出与居民家庭月收入呈高度正相关,也就是家庭收入越高,消费支出也越高。 第三节 回归分析一、回归分析的含义就一般意义而言,相关分析包括回归和相关两方面内容,因为回归与相关都是研究两变量相互关系的分析方法。但就具体方法而言,回归分析和相关分析是有明显差别的。相关图表、相关系数能判定两变量之间相关的方向和密切程度,但不能指出两变量相互关系的具体表现形式,也无法

18、从一个变量的变化来推测另一个变量的变化情况。回归分析就是对具有相关关系的两个或两个以上变量的数量变化规律进行测定,确立一个相应的数学表达式,并进行估算和预测的一种统计方法。回归分析和相关分析是互相补充、密切联系的。相关分析需要回归分析来表明数量关系的具体表现形式,而回归分析则应该建立在相关分析的基础上。只有依靠相关分析,对现象的数量变化规律判明具有密切相关关系后,再进行回归分析,求其相关的具体表现形式,这样才具有实际意义。 回归分析建立的数学表达式称为回归方程(或回归模型)。回归方程为线性方程的,称为线性回归;回归方程为非线性方程的称为非线性回归。两个变量之间的回归称为一元回归(简单回归);三

19、个或三个以上变量之间的回归称为多元回归。本章只介绍一元线性回归,即简单线性回归分析方法。二、回归分析的主要内容(一)建立相关关系的回归方程利用回归分析方法,配合一个表明变量之间数量上相关的方程式,而且根据自变量的变动,来预测因变量的变动。(二)测定因变量的估计值与实际值的误差程度通过计算估计标准误差指标,可以反映因变量估计值的准确程度,从而将误差控制在一定范围内。三、回归分析的特点 回归分析与相关分析比较具有以下特点: 1.在相关分析中,各变量都是随机变量;而回归分析中,因变量是随机变量,自变量不是随机的,而是给定的数值。 2.在相关分析中,各变量之间是对等关系,调换变量的位置,不影响计算的结

20、果;而在回归分析中,自变量与因变量之间不是对等的关系,调换其位置,将得到不同的回归方程。因此,在进行回归分析时,必须根据研究目的,先确定哪一个是自变量,哪一个是因变量。3.相关分析计算的相关系数是一个绝对值在0与1之间的抽象系数,其数值的大小反映变量之间相关关系的程度;而回归分析建立的回归方程反映的是变量之间的具体变动关系,不是抽象的系数。根据回归方程,利用自变量的给定值可以估计或推算出因变量的数值。四、一元线性回归方程的拟合回归分析中,最简单、最基本的形式就是一元线性回归,也就是通常所说的配合直线方程式的问题。若通过观察或实验,得到对数据的相关图上的散布点接近分布在一条直线上,就可以认为变量

21、与之间存在着线性关系,可设经验公式为式中,与为待定参数,也就是需要根据实际资料求解的数值,为直线的截距,为直线的斜率,也称回归系数,表示自变量每变动一个单位时,因变量的平均变动量。值确定了直线的位置,一旦确定,这条直线就被惟一确定了。但用于描述这组数据的直线有许多条,究竟用哪条直线来代表两个变量之间的关系,需要一个明确的原则。我们希望选择距离各散布点最近的一条直线来代表与之间的关系,以便更好地反映变量之间的关系。根据这一思想确定未知参数的方法,称为最小二乘法,也就是通过使得为最小值来确定的方法。可见,用最小二乘法得到的直线与所有数据的离差平方和为最小。要使为最小值,就要用数学中对二元函数求极值

22、的原理,求关于和的偏导数,并令其等于0,整理得出直线回归方程中求解参数的标准方程组为解方程组得【案例】根据表8-2中的数据,拟合某社区居民家庭月收入水平(x)与消费支出(y)的回归直线方程。 根据表8-3中的计算结果,得 将a和b代入回归方程式得 式中代表消费支出,x代表家庭月收入。回归系数b=0.6398,表示家庭月收入每提高1个单位(百元),消费支出平均增加0.6398个单位(百元)。a=5.1493代表即使月收入为0的情况下,消费支出也需要5.1493(百元)。利用直线方程可以进行预测。如某家庭月收入为150(百元),在其他条件相对稳定时,可以预测其消费支出为五、估计标准误差(一)估计标

23、准误差的意义回归方程的一个重要作用在于根据自变量的已知值推算因变量的可能值,这个可能值或称估计值、理论值、平均值,它和真正的实际值可能一致,也可能不一致,因而就产生了估计值的代表性问题。当值与值一致时,表明推断准确;当值与值不一致时,表明推断不够准确。显而易见,将一系列值与值加以比较,可以发现其中存在着一系列离差,有的是正差,有的是负差,还有的为零。而回归方程的代表性如何,一般是通过计算估计标准误差指标来加以检验的。估计标准误差指标是用来说明回归方程代表性大小的统计分析指标,也简称为估计标准差或估计标准误差,其计算原理与标准差基本相同。估计标准误差说明理论值(回归直线)的代表性。若估计标准误差

24、小,说明回归方程准确性高,代表性大;反之,估计不够准确,代表性小。 (二)估计标准误差的计算 估计标准误差,是指因变量实际值与理论值离差的平均数。其计算公式为式中 估计标准差,其下标代表依而回归的方程; 根据回归方程推算出来的因变量的估计值; 因变量的实际值; 数据的项数。 估计标准误差的简化计算公式为 【案例】依据表8-6的资料,计算估计标准误差。(三)估计标准误差与相关系数的关系二者在数量上具有如下的关系:式中 相关系数; 因变量数列的标准差; 估计标准误差。从上面的计算公式中可以看出和的变化方向是相反的。当越大时,越小,这时相关密切程度较高,回归直线的代表性较大;当越小时,越大,这时相关密切程度较低,回归直线的代表性较小。附录 应用Excel进行相关与回归分析单元实训 相关与回归分析在经济中的运用 【实训目的】 相关和回归分析是研究现象之间相关关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论