第五讲相关分析与回归分析_第1页
第五讲相关分析与回归分析_第2页
第五讲相关分析与回归分析_第3页
第五讲相关分析与回归分析_第4页
第五讲相关分析与回归分析_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关分析与回归分析

-相关与回归分析是研究具有非确定性依存关系的现象之间相互关系的统计方法

相关分析一、相关关系概念客观现象之间是普遍联系相互依存的。客观现象之间的数量联系可分为两类:(一)确定性的函数关系(二)不确定性的统计关系—相关关系(三)变量间关系的图形描述:坐标图(散点图)(一)确定性的函数关系1.函数关系当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。2.函数关系特点(1)是一一对应的确定关系;(2)设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量(3)各观测点(x,y)落在一条线上xy3.函数关系举例某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积与半径之间的关系可表示为S=r2

企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3

定义:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种关系称为具有不确定性的相关关系。现象之间客观存在的不严格、不确定的数量依存关系。

(二)相关关系2.相关关系特点(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;当变量x取某个值的时候,变量y的取值可能有几个;(3)各观测点(x,y)分布在某条线的周围。xy商品的消费量(y)与居民收入(x)之间的关系商品的消费量(y)与物价(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系青少年犯罪率(y)与冰淇淋消费量(x)之间的关系公务员考试成绩(y)与受教育程度(x)之间的关系3.相关关系举例思考题(判断自变量与因变量)警局负责人认为增加警务支出将降低犯罪率。图书管理员认为图书的流通速度与广告有关。志愿者人数受天气条件影响。?二、相关关系的种类相关关系按相关程度分类按相关方向分类按相关形式分类按所研究变量多少分类(1)完全相关:当一种现象的数量变化完全由另一种现象的数量变化所确定时,称这两种现象间的关系为完全相关。(2)不相关:当两种现象互不影响,其数量变化各自独立时,称为不相关现象。(3)两种现象之间的关系介于完全相关和不相关之间,称为不完全相关。1.按相关的程度可划分为:完全相关,不完全相关和不相关(1)当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关。(2)当两种相关现象之间的关系不表现为直线关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。2.按相关的形式可划分为:

线性相关,非线性相关(1)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。收入与消费的关系。(2)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。物价与消费的关系。3.按相关的方向可划分为:

正相关,负相关(1)当只研究两个变量时,它们之间的相关,称为单相关。(2)当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。4.按相关关系涉及的变量多少可划分为:

单相关,复相关和偏相关(3)在某一现象与多种现象相关的场合,假定其他变量不变,只考察其中两个变量的相关关系称为偏相关。在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。4.按相关关系涉及的变量多少可划分为:

单相关,复相关和偏相关相关关系的种类小结从变量相关关系变化的方向看正相关——变量同方向变化A同增同减(A)负相关——变量反方向变化一增一减(B)

B从变量相关的程度看完全相关(B)不完全相关(A)不相关(C)C

从涉及的变量数量看简单相关多重相关(复相关)从变量相关关系的表现形式看线性相关——散布图接近一条直线(左图)非线性相关——散布图接近一条曲线(右图)相关关系的图示:不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关三、相关分析相关分析是描述和测度变量间相关关系类型和相关程度的分析方法。在相关分析中,所有变量都假定是随机变量,它们之间不存在解释变量和被解释变量的关系,即不考虑因果关系。就是用一个指标来表明现象间相互依存关系的密切程度。(一)相关关系的判断(二)相关系数的测定及其应用定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。(一)相关关系的判断1.相关表相关表是一种反映变量之间相关关系的统计表。

将自变量x的数值按照从小到大的顺序排列,然后再将与其相关的因变量y的对应数值平行排列,便可形成简单的相关表。简单相关表例:居民消费支出和收入的相关表(单位:百元)

根据以上资料绘制坐标图便得到相关图家庭编号

12345678910消费支出y可支配收入x1520304042536065707818254560627588929998单变量分组表产量(千件)x企业数平均单位成本(元/件)y20304050809556516.815.615.014.814.2合计30例:30家企业按产品产量分组的平均单位产品成本双变量分组表

例:30家企业按产品产量和单位产品成本分组

单位成本(元/件)y产量(千件)x合计203040508018161514441--32--131-132--1449107合计9556530

2.相关图相关图也称散点图,是在平面直角坐标系中,以横轴表示变量x,纵轴表示变量y,将两者对应的数值形成的坐标点(x,y)在图中标出,即可看出变量之间关系密切程度。如下图(销售收入与广告费相关图)销售收入与广告费相关图相关关系的图示(散点图scatterdiagram)不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关散点图(例题分析)例:一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年该银行贷款额平稳增长,但不良贷款额也有较大提高,给银行业务发展带来较大压力。为弄清不良贷款形成的原因,以便找出控制不良贷款的办法,现利用银行有关业务数据进行相关分析。下面是该银行所属25家分行2002年的有关业务数据。散点图的重要性下图是新英格兰地区六个州的谋杀率和自杀率(每10万人口)的数据:州谋杀率自杀率缅因3.214.3新罕布什尔2.911.3佛蒙特4.317.8马萨诸塞3.68.9罗德岛4.212.3康涅狄格5.48.6散点图的重要性(续)相关系数为-0.17,代表弱相关关系,似乎支持一些社会学家的观点:这两种形式的暴力是彼此消减的,当一个升高时,另一个就降低。从散点图中看出康涅狄格州在新英格兰诸州中有最高的谋杀率和最低的自杀率,导致实际的相关关系降低,只考虑其他5个州的数据,相关系数为0.44.(二)相关系数的测定及其应用1.相关系数是对变量之间关系密切程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数(简称相关系数)3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为4.若相关系数是根据样本数据计算的,则称为样本相关系数,记为r在此仅讨论两变量间相关关系问题。对于随机变量x和y,总体相关系数一般是未知的,只能根据样本观测值给出一个估计量即样本相关系数r。样本相关系数r的计算公式:

或化简为

表1我国人均国民收入与人均消费金额数据

单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148例:在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。收集到1981~1993年的样本数据(xi

,yi),i=1,2,…,13,计算相关系数。年份序号人均国民收入x人均消费金额yx2y2xy123∶∶∶∶13393.8419.14460.86∶∶∶∶2099.5249267289∶∶∶∶1148155078.44175678.34212391.94∶∶∶∶4407900.25620017128983521∶∶∶∶131790498056.20111910.38133188.54∶∶∶∶2410226合计12827.5745716073323.7752263399156173.99解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.9987,显示人均国民收入与人均消费金额之间高度正相关。2.相关系数取值及其意义r

的取值范围是[-1,1]|r|=1,表明x与y完全线性相关r=1,为完全正线性相关r=-1,为完全负线性相关

r=0,表明x与y不存在线性相关关系-1r<0,为负线性相关0<r1,为正线性相关|r|越趋于1表示x与y线性关系越密切|r|越趋于0表示x与y线性关系越不密切相关系数(取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加3.相关程度评价标准

样本容量适中时相关关系程度一般判断标准:无相关或微弱相关低度相关中度相关(显著相关)高度相关这种判断必须建立在对相关系数进行显著性检验的基础上。习题:某企业10名工人的工龄和年工资资料如下:职工编号12345678910工龄X(年)44567889910工资Y(百元)42465060646874728084要求:计算相关系数,已知条件如下:4.相关系数的显著性检验根据样本计算的相关系数r能否代表总体相关系数,只有对其检验以后才能下结论。因其具有一定的随机性,样本容量越小其可信程度越差。相关系数的显著性检验问题可分为两类:一是对总体相关系数是否等于0进行检验;二是对总体相关系数是否等于某一给定的不为0的数值进行检验。这里只介绍第一类检验。相关系数的显著性检验(方法与步骤)数学上可以证明,在X与Y都服从正态分布且的条件下,可以采用t检验来确定r

的显著性。检验统计量t服从自由度为n-2的t分布,即:检验的步骤为:提出假设:假设样本是从一个不相关的总体中抽出的,即H0:;H1:0计算检验统计量:根据给定的显著性水平和自由度df=n-2查t分布表得t(n-2)的临界值,并作出决策:若t>t(n-2),拒绝H0,表明r在统计上是显著的,两变量之间存在显著线性关系;若t<t(n-2),接受H0,表明r在统计上是不显著的。

我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关系数的显著性检验【例】在我国居民消费水平研究中,将人均消费额记为y,人均国民收入记为x。收集到1981~1993年的样本数据(xi

,yi,i=1,2,…,13)见下表,计算相关系数。并对人均消费额与人均国民收入相关系数进行显著性检(0.05)解:根据样本相关系数的计算公式有:人均国民收入与人均消费金额之间的相关系数为0.9987。显示人均国民收入与人均消费金额之间高度正相关。相关系数的显著性检验提出假设:H0:;H1:0计算检验统计量根据显著性水平=0.05,查t分布表得临界值

t(n-2)=t0.025(13-2)=2.201

由于t=64.9809>t0.025(13-2)=2.201,所以拒绝H0,接受H1,即说明人均消费金额与人均国民收入之间的相关关系显著。相关分析小结相关分析就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。在一段时期内出生率随经济水平上升而上升,这说明两指标间是正相关关系;而在另一时期,随着经济水平进一步发展,出现出生率下降的现象,两指标间就是负相关关系。为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为“散点图”。

相关分析小结(续)根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。

回归分析

一、回归分析的概念1.什么是回归回归是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及其父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们父母那样高。比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量之间数量关系的方法称为回归分析。2.什么是回归分析回归分析是对具有相关关系的变量拟合数学方程,通过一个或一些变量的变化解释另一变量变化的方法。二、回归分析的内容和步骤根据理论和对问题的分析判断,区分自变量(即解释变量)和因变量(即被解释变量);从一组样本数据出发,设法确定合适的数学方程式(即回归模型regressionmodel)描述变量间的关系;对数学方程式(回归模型)的可信程度进行统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用数学方程式(回归模型),根据一个或几个自变量的取值来估计或预测因变量的取值,并给出这种估计或预测的精确程度。三、回归模型的类型按涉及变量多少分为:一元回归和多元回归按变量相关的形式分:线性回归和非线性回归(仅讨论一元回归分析问题)一个自变量两个及以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归四、一元线性回归方程

1.一元线性回归方程的设定对于只涉及一个自变量的回归分析,若因变量y与自变量x之间为线性关系,可以用一个线性方程来表示二者之间的关系,此方程为一元线性回归模型。通常先要收集若干(n)组样本数据(xi,yi,i=1,2,…,n),然后将数据绘制散点图,若图中显示x和y之间大致呈线性关系,就可以用一元线性回归方程来描述这种关系。2.简单线性回归分析:因为具有显著相关关系y不仅受x影响,还受其它因素影响,因此,x、y形成的点不在一直线上,而是分在直线上下变动,呈现线性相关的趋势,简单线性回归方程分析任务就是设法在这些分散的具有线性关系的相关点之间配合一条最优的直线,以表明两面变量之间具体的变动关系

3.一元线性回归分析的特点必须确定自变量(x)和因变量(y)。

y依x和x依y的两个回归方程相互独立的,不能互换。给出自变量的数值来估计因变量的数值。计算相关系数时,要求相关的两个变量都是随机的变量;但是,确定回归方程时,尽管两个变量也都是随机变量,但要求自变量是给定的,因变量是随机的。

4.回归方程一元线性回归方程是用于分析两个变量(一个自变量与一个因变量)线性关系的数学表达式,一元线性回归方程的一般形式为:

式中,x是自变量的实际观测值。是因变量的估计值(又称理论值),是当自变量给定一个值时,对应的因变量的许多可能值的平均值。a和b为回归方程参数,其中b也叫回归系数。其几何意义是:a是直线方程的截距,b是斜率。其经济意义是:a是当x为零时y的起点值,b是当x每增加一个单位时,y平均增加(或减少)的数量,它的符号同相关系数r的符号是一致的。返回

4.回归方程一元线性回归方程式的确定,实际上是根据抽样取得的若干对x和y的观测值,对方程中两个未知参数a和b的确定。根据最小平方法可的求解a、b两个参数的标准方程式为:正规方程解正规方程得:

例:某地区历年人均收入与商品销售额资料如下要求建立人均收入与商品销售额的直线回归方程.年份人均收入(百元)x商品销售额(百万元)y

xy

x2

y219981999200020012002

2430323438

1115141620

264450448544760

576900102411561444121225196256400合计158

76246651001198解:将前面计算表中的有关数据代入求参数a、b的标准方程,得:人均收入与商品销售额的直线回归方程为:五、回归分析与相关分析的区别相关分析中,变量x

与y处于平等地位;回归分析中具有相关关系的变量之间地位是非对等的,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x

可以是随机变量,也可以是非随机的确定变量相关分析主要描述变量之间相关关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行估计和预测六、回归估计标准误差建立了回归方程以后,通常要用方程估计值Yc来推断或预测实际值Y。为了分析用Yc去估计Y是否准确可靠,常采用反映回归直线代表性好坏的统计分析指标,检验方程回归系数的拟合优劣程度。为此需要进行变差分析。六、回归估计标准误差六、回归估计标准误差1.直线回归的变差因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面:由于自变量x的取值不同造成的;除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差(离差)来表示。n个观察值的总变差()的计算公式为:(总离差平方和)回归平方和(回归变差)残差平方和(剩余变差或随机变差)

检验统计量三个平方和的意义1.总平方和反映因变量的n个观察值与其均值的总离差2.回归平方和反映自变量x的变化对因变量y取值变化的影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论