第四讲统计学中的相关分析_第1页
第四讲统计学中的相关分析_第2页
第四讲统计学中的相关分析_第3页
第四讲统计学中的相关分析_第4页
第四讲统计学中的相关分析_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲统计学中的相关分析*2第一节相关分析的意义和种类

一、相关分析的意义现象总体各单位可以有若干个数量标志,这些数量标志之间都有一定的关系,有的关系密切一些,有的关系松散一些。一般地说,如果总体中某个变量x的每一个数值,与总体中另一个变量y的数值有对应关系,我们则将其称为二元总体。如果总体中某个变量x的每一个数值,与总体中另外若干个变量值有对应关系,则可将其称为多元总体。我们仅讨论二元总体的情形。*3对于二元总体,我们将关注以下几个问题:两个变量是不是存在关系,关系的密切程度如何,如商品销售额是否与它的价格有关系,关系密切到什么程度等。

如果存在关系,那么这种关系的表现形式是什么。两个变量是同方向变动,还是反方向变动;是线性变动,还是非线性变动。

怎样根据一个变量的变动来估计另一个变量的变动。例如,从全社会固定资产投资额的变动来估计国内生产总值的变动,从居民收入的变动来估计零售商品销售额的变动等。

相关分析就是研究两个或两个以上变量之间相互关系的统计分析方法。本章将通过分析二元总体的相关关系,来提供相关分析的一般模式。社会经济现象总体中的两个变量往往表现为因素标志和结果标志的的相互关系,即自变量和因变量之间的因果关系。自变量和因变量之间的关系可以概括为两种类型,即函数关系和相关关系。函数关系是指客观现象存在的一种完全确定的相互依存关系,即自变量的每一个取值,因变量会有唯一确定的数值与之对应。函数分析中的自变量和因变量有严格的区别,不能互换。相关关系是客观现象存在的一种非确定的相互依存关系,即自变量的每一个取值,因变量由于受随机因素影响,与其所对应的数值是非确定性的。相关分析中的自变量和因变量没有严格的区别,可以互换。社会经济的很多原发现象都是以相关关系表现出来的。相关关系不能用数学方程式表示,只能用相关表、相关图及相关系数来分析。*4二、相关关系的概念

*5三、相关关系的种类

(一)单相关和复相关相关关系按影响因素的多少可分为单相关和复相关单相关就是结果标志只受一个因素标志影响的相关关系。即所谓二元总体的情形,有一个自变量和一个因变量。复相关就是结果标志受两个或两个以上因素标志影响的相关关系。即所谓多元总体的情形,一个因变量受多个自变量的影响。社会经济现象大多是复相关关系。

相关关系按表现形态可分为线性相关和非线性相关,相关关系本身是一种在数量上不严格的依存关系。如果两个变量所对应的取值在直角坐标系中近似于一条直线,则可将这两个变量的关系称为线性相关。如果两个变量所对应的取值在直角坐标系中近似于一条曲线,则可将这两个变量的关系称为非线性相关。现实生活中大多数现象都表现为非线性相关。有时非线性相关现象可以转化为线性相关现象来分析。例如,股票的长期K线图呈现为曲线,但几天或几周的K线图可视为直线。*6(二)线性相关和非线性相关*7(三)正相关和负相关相关关系按变动方向可分为正相关和负相关如果相关关系表现为因素标志和结果标志的数值在变动方向上保持一致,则称为正相关。例如家庭收入增加,银行储蓄也会增加。如果相关关系表现为因素标志和结果标志的数值在变动方向上相反,则称为负相关。例如企业的生产规模越大,产品的单位成本就越低。现象总体表现出来的正相关或负相关是有一定条件和范围的。某种现象不会永远以正相关表现,也不会永远以负相关表现。例如,在一定的范围内,增加施肥量能提高农作物的产量,但如果施肥过多,反而使庄稼只长叶子,不长果实,最后可能收获量很少。*第八章相关分析8四、相关分析的主要内容

第一,判定相关关系呈现的形态、方向、以及相关关系的密切程度。判定的方法主要有绘制相关图表和计算相关系数。第二,将相关关系转化为函数关系来分析,即将变量的相关关系拟合成一个数学表达式。如果现象呈现线性相关,我们就采用配合直线方程式的方法;如果现象呈现非线性相关,我们就采用配合曲线方程式的方法。第三,确定因变量估计值误差的程度。用数学表达式来代表变量之间的相关关系,必然会产生误差,我们可计算这种估计标准误差。估计标准误差大,说明数学表达式的代表性差。反之,估计标准误差小,说明数学表达式的代表性好,预测较为精确。相关分析的主要内容有:*9第二节相关图表和相关系数一、相关表的编制相关表可分为简单相关表和分组相关表。相关表属于统计表的一种。(一)简单相关表简单相关表是资料未经分组的相关表,它是直接将原始数据中的自变量与因变量一一对应排列,并将变量值按从小到大排序形成的统计表。从表中可以直观地看出:随着产量的增加,单位成本有逐渐降低的趋势,但不是与产量成等比例地降低,即产量与单位成本呈现负相关关系。产量与单位成本这种变动关系体现了产品生产的规模经济效果。*10例8‐1某企业最近不断扩大产品生产规模,每次扩大规模后产品产量与单位成本的相关资料如下表所示:某企业产品产量与单位成本资料

产量(万件)x

单位成本(元)y

101632405060767267656359*11分组相关表是将原始数据进行分组而编制的统计表,它适用于资料数量很大的情况。下表为某地132户居民人均收入与人均支出的分组相关表:(二)分组相关表分组相关表的自变量分组可以是单项式的,也可以是组距式的。本例为组距式,人均年收入以组中值表示。某地人均收入与人均支出的样本资料

人均年收入(千元)组中值x(千元)户数(户)人均年支出y(千元)1.0以下1.0~2.02.0~3.03.0~4.04.0~5.05.0以上915233736120.51.52.53.54.55.50.51.21.82.23.64.0从表中可以看出:人均收入与人均支出的关系是正相关关系。即人均收入越高,相应的人均支出也越多。*12二、相关图的绘制相关图又称散点图,它是将相关表中的观察值在平面直角坐标系中用坐标点描绘出来的图形。相关图可以用来直观地分析两个变量相关的分布状况。本例人均收入x与人均支出y呈现正相关关系,且相关程度较为密切。

下图根据以上分组相关表资料绘制的:4321

••

••

01234560123456*13三、相关系数的计算和分析相关系数是测定变量之间相关密切程度的比较完善的指标。单相关是最基本的相关关系,而测定单相关的相关系数是最基本的相关分析方法。

0123456(一)相关系数计算公式剖析

计算公式为:*第八章相关分析14

0123456式中:是x和y的协方差;是x的标准差;是y的标准差。

1.协方差的意义

协方差是一个积差平均数,可用来度量x和y的相关关系。协方差有两个作用:一是它的数值有正有负,可表明两个变量是正相关还是负相关。二是协方差数值的大小可表明两个变量相关程度的大小。*15

0123456协方差的正负号与相关方向的关系图示:Ⅰ

ⅡⅢⅣ

当相关点分布在Ⅰ和Ⅲ两部分时,协方差表现为正数,说明是正相关;当相关点分布在Ⅱ和Ⅳ两部分时,协方差表现为负数,说明是负相关。从图中可看出:*16

0123456协方差数值的大小与与变量相关程度大小的关系

如果相关点呈散乱分布状态,表明两个变量的相关程度较低,这时因正负项相互抵消,所以绝对值很小,即协方差的绝对值很小,从而相关系数的绝对值也很小,表示x和y的相关程度较低。反之,若相关点的分布十分靠近某一直线,这时少有正负项抵消或没有正负项抵消,则协方差的绝对值较大,表示x和y的相关程度密切。协方差是个随机变量,可大可小,不能直接作为相关系数。*17

01234562.标准差的作用

标准差和的作用在于对协方差进行标准化处理:

由于

≥0所以

2r+2

≥0,r≥-1;-2r+2≥0,r≤1;-1≤r≤1或∣

r∣≤1当x和y完全相关时,且*18

0123456和

所以有:

即∣r∣=1,*19

0123456(二)相关系数的性质

相关系数只适用于线性相关的现象,其性质有如下几点:1.当=1时,x和y为完全线性相关,即存在线性函数关系。

2.当r>0时,表示x和y为正相关;当r<

0时,为负相关。3.当=1时,即零相关,表示x和y没有线性相关关系。零相关表示x和y不相关或存在非线性关系。4.当0<<1时,表示x和y存在着一定的线性相关关系。<0.3称为微弱相关;<0.5称为低度相关;0.3≤<0.8称为显著相关;0.5≤<1称为高度相关;0.8≤相关系数的的基本公式比较烦琐,其简式计算方法有:

*20

0123456(三)相关系数的简化计算公式

*21

0123456例8‐2试根据下表资料,计算产品产量与单位成本的相关系数。产品产量与单位成本相关系数计算表

产量(万件)序号123456合计10163240506208单位成本(元)

76726765635940210025610241600250036009080577651844489422539693481271247601152214426003150354013346即产品产量与单位成本呈现高度负相关。*22

0123456例8‐3试根据下表分组资料计算某地人均收入与人均支出的相关系数。

某地人均收入与人均支出的样本资料

人均年收入(千元)组中值x(千元)户数(户)人均年支出y(千元)1.0以下1.0~2.02.0~3.03.0~4.04.0~5.05.0以上915233736120.51.52.53.54.55.50.51.21.82.23.64.0将上表资料计算如下(先利用表格计算):合计

人均收入与人均支出相关系数计算表

0.51.52.53.54.55.50.51.21.82.23.64.013.3915233736121324.522.557.5129.5162.066.0442.04.518.041.481.4129.648.0322.92.327.0103.5284.9583.2264.01264.92.2533.75143.75453.25729.00363.001725.002.2521.6074.52179.08466.56192.00936.01*23

0123456然后可用简化公式计算如下:式中:计算结果表明该地居民人均收入与人均支出呈高度正相关关系。回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估算预测提供基础的一种重要方法。*24第三节回归分析一、回归分析的意义相关分析是回归分析的基础,回归分析是相关分析的深入。只有当两个变量具有显著相关的情况下,进行线性回归分析才有意义。按自变量的个数分,有一元回归分析和多元回归分析。一元回归方程中只有一个自变量,多元回归方程中,有两个或两个以上自变量。按回归线的形状分,有线性回归分析和非线性回归分析。其中,线性回归分析是最基本的。本章只介绍一元线性回归分析,即直线回归分析。*25回归分析的种类:*26二、直线回归方程(一)直线回归方程的建立当x和y呈现完全线性相关时,设,则可用一元线性方程式表示:若两个变量之间存在着显著的相关关系,可在其相关图的散点中引出一条模拟的直线,我们称这条直线为估计回归线,配合回归线的方程式称回归方程。即:式中:yc表示y的估计值;a表示直线的起始值,在数学上称为直线在纵轴上的截距;b表示自变量增加一个单位时因变量平均增加的值,数学上称为斜率,这里被称为回归系数。a、b是两个待定的参数。

最小二乘法的思路是:原始数据y与它的估计值yc之间存在离差,如果在求解出a、b的同时,能使这些离差的平方之和为最小,那么得到的回归方程将是一条最能反映原始数据变化规律的理想直线。

*27用最小二乘法来求解直线方程式参数a、b

设以Q表示y对于yc的离差平方和,则有分别对a、b求一阶偏导,并令一阶偏导等于0,有*28整理后得解之可得最小二乘法的数学基础是为最小和*29例8‐4根据下表资料拟合一直线方程,并估算产量为70万件时的单位成本。产品产量与单位成本资料及计算表

产量(万件)序号123456合计10163240506208单位成本(元)

767267656359402100256102416002500360090807601152214426003150354013346可计算如下:*30得直线趋势方程:当产量为70万件时,可估算产品的单位成本为:回归系数b的经济意义为:产品产量每增加1万件,单位成本平均来说降低0.32元。注意:回归系数b的正负号与同例的相关系数是相同的。

(元)注意:预测时只能给定自变量估算或预测因变量,不能给定因变量来估算或预测自变量。*31例8‐5根据下表资料试拟合一直线方程,并估算人均收入为6000元时,人均支出为多少?可计算如下:合计

某地人均收入与人均支出资料及计算表

0.51.52.53.54.55.50.51.21.82.23.64.013.3915233736121324.522.557.5129.5162.066.0442.04.518.041.481.4129.648.0322.92.327.0103.5284.9583.2264.01264.92.2533.75143.75453.25729.00363.001725.00人均收入人均支出户数*32得直线趋势方程:本例人均收入和人均支出的单位为千元,a为y轴上的截距;

b的经济意义是人均收入每增加1000元,则当年的人均支出将增加750元。弹性系数是因变量增长率与自变量增长率的比率,它表明自变量增长1%时,因变量增长百分之多少。*33(二)弹性系数、相关系数和回归系数的关系

1.弹性系数与回归系数的关系式中,为弹性系数;就是直线回归方程中的斜率,即回归系数b。因此有*第八章相关分析342.相关系数与回归系数的关系因此有相关系数的基本公式为而回归系数可表达为:注意:r和b在不等于0的情况下正负方向相同。*35第一,回归分析是研究两个变量之间的必须有因果关系,相关分析两个变量之间不一定有因果关系。第二,回归分析中因变量是随机的,自变量不是随机变量,可以给定。相关分析中两个变量都可以是随机变量。第三,回归分析对于因果关系不甚明确或互为因果关系的两个变量,可以求出y倚x的回归方程,也可以求出x倚y的回归方程:(三)回归分析与相关分析特点比较

其中:*36而相关分析时两个变量是对等的。若将两个变量互换位置,则计算的相关系数与原来是相同的。

第四,回归方程在进行预测时,只能给出自变量的数值来估计因变量的可能值,而不能给出因变量的数值来估计自变量的可能值。回归方程的逆向运算没有现实意义。例如,可以根据降雨量来估计农作物的收获量,但不能根据农作物的收获量来估计降雨量。

值得注意的是:无论是相关分析还是回归分析,在时间、空间上都是有限度的,超过了一定的范围,所作的估算和预测就会失去实际意义。*37三、估计标准误差(一)估计标准误差的概念和计算利用回归方程根据自变量来推算因变量的可能值是存在一定误差的,这种误差可以用估计标准误差来表示。其计算公式为:

式中:Syx表示估计标准误差,其下标yx表示y倚x的回归;y表示因变量实际值;yc表示因变量估计值;分母n‐2称为回归估计自由度。因为回归方程式中a、b两个参数已知,所以失去了两个自由度。*38计算估计标准误差时,a、b两个参数应多保留几位小数点。特别是b这个参数,它与一个较大的数x相乘,在公式中将起到杠杆作用,其微小的变化会引起估计标准误差计算结果的很大波动。注意点某企业产品产量与单位成本资料

产量(万件)x

单位成本(元)y

101632405060767267656359例8‐6已知根据下表资料拟合的直线方程为:试计算估计标准误差。*39合计序号单位成本倚产量回归方程及估计标准误差计算表12345610163240506020876726765635940274.784872.891267.841665.316862.160859.0048—1.47670.79420.70830.10040.70430.00023.7841先利用表格计算:公式计算如下:*40估计标准误差的简式计算公式:现证明如下:由于:,和所以有:*第八章相关分析41

0123456例8‐7已知下表资料的直线方程为:试用简式计算公式计算估计标准误差。产品产量与单位成本资料及计算表

产量(万件)序号123456合计10163240506208单位成本(元)

767267656359402577651844489422539693481271247601152214426003150354013346计算如下:*42(二)估计标准误差和相关系数的关系总误差、估计误差、回归误差图示:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论