第3章 相关与回归分析000_第1页
第3章 相关与回归分析000_第2页
第3章 相关与回归分析000_第3页
第3章 相关与回归分析000_第4页
第3章 相关与回归分析000_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章相关与回归分析养猴人心中暗笑:“朝四暮三和朝三暮四,不是都等于七吗?这畜牲就是不如人聪明。”猴子们窃窃私语:“朝四暮三和朝三暮四,虽然吃到肚子里都等于七,但朝四暮三更符合早吃饱,晚吃少的科学道理,不信去问问费雪。人虽然比我们聪明,但没学过统计的人,智商还真不如我们高。”

——新《齐物论》学习目的及重难点提示本章学习目的掌握相关关系的测定方法特别是相关系数的计算方法。领会相关关系的含义、分类及与函数关系的区别,相关分析和回归分析之间的关系。掌握一元线性回归分析方法。本章重难点提示重点:相关关系的含义,相关系数及测定,一元线性回归分析。难点:相关系数的计算、回归参数的计算。学习内容3.1相关关系与相关分析3.2简单线性回归分析3.3多元线性回归分析(略)3.4非线性回归分析(略)3.1相关关系与相关分析3.1.1变量间的相互关系3.1.2

相关关系的类型3.1.3相关分析与回归分析概述3.1.4相关分析的方法3.1.1变量间的相互关系1变量间的函数关系定义:客观现象之间相互依存的确定性的数量关系。函数关系是变量之间客观存在的一种对应关系。在这个关系中,当中一个或多个表述现象的数量(自变量)发生变化时,另一个表述现象的数量(因变量)按照一定的规律有确定的值与之对应,可以用数学表达式描述这种关系。

函数关系的说明1.是一一对应的确定关系。2.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。3.如:各观测点落在一条线上。

xy函数关系的例子1.某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px

(p为单价);2.圆的面积(S)与半径之间的关系可表示为S=R2

;3.企业的原材料消耗额(y)与产量(x1)

、单位产量消耗(x2)

、原材料价格(x3)之间的关系可表示为y=x1x2x3

2变量间的相关关系定义:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。==即:现象之间客观存在的不严格、不确定的数量依存关系。变量间的相关关系的说明(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量x取某个值时,变量y的取值可能有几个;(4)如:各观测点分布在直线周围。

xy相关关系的图示

不相关

负线性相关

正线性相关

非线性相关

完全负线性相关完全正线性相关

变量间的相关关系的例子1.商品的消费量(y)与居民收入(x)之间的关系;2.商品销售额(y)与广告费支出(x)之间的关系;3.粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系;4.收入水平(y)与受教育程度(x)之间的关系;5.父亲身高(y)与子女身高(x)之间的关系。变量间的相关关系的例子6.中国水价低推高美国油价???====2011.7.6彭博社;作者:彼得·欧尔萨格(美国前白宫行政管理与预算局局长)中国主要靠燃煤发电,其次靠水力发电。很明显,水是水力发电的根本,但很多煤电厂也离不开水,比如开矿、加工煤和给发电机降温。这无疑使中国已然严峻的水短缺雪上加霜。据世界银行介绍,中国人均水占有量仅为全球平均水平的1/4,水分布极不均衡。在干旱等情况下,意味着中国水坝发电量将会减少,没有足够的水用于燃煤发电。因此,中国人不得不更加依靠柴油发电。这也就导致官方禁止柴油出口。一名美国司机一边在高速公路上飞奔着,一边抱怨油价过高。他或许永远想不到,中国水价的不合理也是推高账单的原因之一。世行报告透露,只要服务质量好、价格公道,中国人愿意为水多付钱。目前中国水价过低,难以达到高效用水维持供给的标准。提高水价不仅能让民众减少浪费,还能实现合理用水。3.1.2相关关系的种类1.按相关关系的程度划分:

完全相关:当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。例如在价格不变的条件下,商品销售额与销售量之间成正比例关系。

完全不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。不完全相关:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。如人的身高和体重之间的关系。2.按现象之间相关的形式分

线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关,即直线相关。如产品总成本和单位成本之间的关系、职工工资总额和职工平均工资之间的关系等。

非线性相关:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关,即曲线相关。如产品单位成本和产量之间的关系。

相关关系的种类3.按相关的方向划分(1)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。例如收入与消费的关系。(2)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。例如物价与消费的关系。相关关系的种类4.按相关关系涉及的变量多少划分:两个变量之间的相关,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。5.按相关关系的真实与否:真实相关、虚假相关。

3.1.3相关分析与回归分析概述1相关分析广义:研究现象之间相关关系的理论方法统称,包括回归分析。狭义:研究呈平行关系的相关变量之间的关系,即不区分自变量和因变量,不能指出变量间相互关系的具体形式。相关分析内容

(1)确定现象之间是否存在相关关系;(2)确定相关关系的表现形式;(3)判定相关关系的方向和密切程度;(4)检验。2回归分析(内容)

1.判断变量间具有真实的相关关系;2.从一组样本数据出发,确定变量之间的数学关系式;3.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;4.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。3相关分析与回归分析的区别1)相关分析中,变量x

变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化;2)相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。3)相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。4相关分析与回归分析的联系(1)相关分析是回归分析的基础和前提。如果缺少相关分析,没有从定性上说明现象间是否存在相关关系及相关关系的密切程度,就无法进行回归分析。(2)回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行回归分析,拟合回归方程,才可能进行深入分析和回归预测,相关分析才有实际应用价值。5相关关系的测度定性分析:是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析:在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。(1)

相关表

1)简单相关表:直接根据原始资料,将某一变量按大小排列,再将另一变量的对应值平行排列得到的相关表。

表3-1某市居民月消费支出和可支配收入相关表单位:百元

2)分组相关表:是将原始资料进行分组而编制的相关表。可分为单变量分组相关表和双变量分组相关表。

○单变量分组相关表在具有相关关系的两个变量中,把其中一个变量进行分组,列出各组次数,另一个变量不分组,这种相关表称为单变量分组相关表。

○双变量分组相关表双变量分组相关表是对具有相关关系的两个变量都进行分组而编制的相关表。

(2)相关图

相关图是以直角坐标系的横轴代表自变量,纵轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形,又称散点图或散布图或相关点图。

(3)相关系数3.1.4简单相关分析的方法---相关系数

相关系数的概念和意义

(1)概念:相关系数是指在直线相关条件下,说明两个现象之间相关关系密切程度的统计分析指标。

(2)意义:比相关表和相关图更能概括表现相关的形式和程度。根据相关系数的大小,或把若干相关系数加以对比,可以发现现象发展中决定性的影响因素,因而相关系数对于判断变量之间相关关系的密切程度有着重要的作用。对两个变量之间线性相关程度的度量:1)若相关系数是根据总体全部数据计算的,称为总体相关系数,记为;2)若是根据样本数据计算的,则称为样本相关系数,记为r;总体相关关系的定义公式样本相关关系的测度公式

(Pearson相关系数)或化简为:样本定义式:相关系数取值及其意义r

的取值范围是[-1,1]1.|r|=1,为完全相关:r=1,为完全正相关;r=-1,为完全负相关;2.r=0,不存在线性相关关系;3.-1

r<0

为负相关;4.0<r

1

为正相关。r经验判断|r|<0.3称为微弱相关;0.3≤|r|<0.5称为低度相关;0.5≤|r|<0.8称为显著相关;0.8≤|r|<1称为高度相关或强相关。★上述解释必须建立在对相关系数的显著性进行检验的基础之上。表3-1某地人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1991199219931994199519961997393.8419.14460.86544.11668.29737.73859.972492672893294064515131998199920002001200220031068.81169.21250.71429.51725.92099.56436907138039471148相关关系的测度计算例【例3.1】在研究某地人均消费水平的问题中,把人均消费额记为y,把人均国民收入记为x。收集到1991~2003年的样本数据(xi

,yi),i=1,2,…,13,数据见表3-1,计算相关系数。相关关系的测度计算结果解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.9987(小样本)相关系数的显著性检验要点

1.检验两个变量之间是否存在线性相关关系。2.检验的步骤为:1)提出假设:H0:

;H1:

02)计算检验的统计量:3)确定显著性水平,查表t

,n-2);4)并作出决策:若t>t

,拒绝H0

若t<t

,接受H0相关系数的显著性检验实例

对前例计算的相关系数进行显著性检(0.05)1.提出假设:H0:

;H1:

02.计算检验的统计量:2.根据显著性水平=0.05,查t分布表得t

(n-2)=2.2013.由于t=64.9809>t

(13-2)=2.201,拒绝H0,接受H1,表明人均消费金额与人均国民收入之间的相关关系显著。(大样本)相关系数的显著性检验要点

1.检验两个变量之间是否存在线性相关关系。2.检验的步骤为:1)提出假设:H0:

;H1:

02)计算统计量:U=r(n-1)1/23)确定显著性水平,查表U

1-

;4)并作出决策:若U>U1-

,接受

H1

若U<U1-

,接受H0相关系数检验表的使用若IrI小于表上

=5%相应的值,称变量x与y之间没有明显的线性关系;若IrI大于表上的

=5%相应的值,小于表上

=1%相应的值,称变量x与y之间有显著的线性关系;若IrI大于表上

=1%相应的值,称变量x与y之间有十分显著的线性关系;====根据前例的r=0.9987>=5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系。3.1.5相关分析的方法--等级相关系数略讲3.1.6相关分析的方法--自相关系数3.1.7相关分析的方法--复相关系数3.2简单线性回归分析3.2.1一元线性回归模型3.2.2参数的最小二乘估计3.2.3回归方程的显著性检验3.2.4应用认识“回归”回归的古典意义:高尔顿遗传学的回归概念

“回归”一词最早由FrancisGalton引入。Galton发现,虽然父母的身高对子女的身高起到决定性作用,但给定父母的身高后,他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。Galton的普遍回归定律(lawofuniversalregression)。Galton的朋友KarlPearson通过收集一些家庭的1000多名成员的父子身高数据,证明儿子确实“回归到中等(regressiontomediocrity)”

回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的(实质):

由固定的自变量去估计因变量的平均值样本总体自变量固定值估计因变量平均值3.2.1回归模型与回归方程回归模型1.描述因变量y如何依赖于自变量x和误差项u

的方程称为回归模型(回归函数)。它回答“变量之间是什么样的关系?”2.方程中运用1个数字的因变量(响应变量)被预测的变量1个或多个数字的或分类的自变量(解释变量)用于预测的变量3.主要用于预测和估计回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归一元线性回归模型

(概念要点)1.当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。2.对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。一元线性回归模型

(概念要点)====对于只涉及一个自变量的简单线性回归模型可表示为:

y=b0+b1x+u模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项u是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性

0和

1称为模型的参数回归系数估计的思想为什么只能对未知参数作估计?

参数是未知的、不可直接观测的、不能精确计算的

能够得到的只是变量的样本观测值结论:只能通过变量样本观测值选择适当方法去近似地估计回归系数。前提:

u是随机变量其分布性质不确定,必须作某些假定,其估计才有良好性质,其检验才可进行。原则:

使参数估计值“尽可能地接近”总体参数真实值。一元线性回归模型

(基本假定)假定1:零均值假定。假定2:同方差假定。

假定3:无自相关假定。

假定4:随机扰动与自变量不相关。假定5:正态性假定回归方程

(概念要点)1.描述y的平均值或期望值如何依赖于x的方程称为回归方程。2.简单线性回归方程的形式如下:

E(y)=

0+

1x方程的图示是一条直线,因此也称为直线回归方程;

0

是回归直线在y轴上的截距,是当x=0时y的期望值;

1

是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值。估计(经验)的回归方程简单线性回归中估计的回归方程为其中:是估计的回归直线在y

轴上的截距;是直线的斜率,它表示对于一个给定的x

的值,是y

的估计值,也表示x

每变动一个单位时,y的平均变动值。2.用样本统计量和代替回归方程中的未参数和,就得到了估计的回归方程。总体回归参数

是未知的,必需利用样本数据去估计。3.2.2

参数

0和

1的最小二乘估计

(OLS:OrdinaryLeastSquare)最小二乘法

(概念要点)使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。最小二乘法图示xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法

和的计算公式)

根据最小二乘法的要求,可得求解和的标准方程如下:估计方程的求法实例【例】根据例3.1中的数据,配合人均消费金额对人均国民收入的回归方程。根据和的求解公式得:估计(经验)方程人均消费金额对人均国民收入的回归方程为:y=54.22286+0.52638x^估计方程的求法

(Excel的输出结果)

最小二乘估计的性质

——高斯—马尔可夫定理

前提:

在基本假定满足时最小二乘估计是因变量的线性函数

最小二乘估计是无偏估计。在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。结论:回归系数的最小二乘估计是最佳线性无偏估计

的无偏估计

为什么要估计?

确定所估计参数的方差需要由于不能直接观测,也是未知的对的数值只能通过样本信息去估计。怎样估计?可以证明的无偏估计为:3.2.3

回归方程的显著性检验1判定系数r2:离差平方和的分解1.因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面:由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。离差平方和的分解图示xyy{}}

离差分解图离差平方和的分解

(三个平方和的关系)2.两端平方后求和有1.从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){离差平方和的分解

(三个平方和的意义)1.总平方和(SST)反映因变量的n个观察值与其均值的总离差。2.回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和。3.残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。样本决定系数(判定系数r2)1.回归平方和占总离差平方和的比例反映回归直线的拟合程度;取值范围在[0,1]之间;

r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差;判定系数等于相关系数的平方,即r2=(r)2

。估计标准误差Sy1.实际观察值与回归估计值离差平方和的均方根;2.反映实际观察值在回归直线周围的分散状况;3.从另一个角度说明了回归直线的拟合程度;4.计算公式为:2回归方程的显著性检验

(线性关系的检验

)1.检验自变量和因变量之间的线性关系是否显著;2.具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著:如果是显著的,两个变量之间存在线性关系;如果不显著,两个变量之间不存在线性关系。回归方程的显著性检验

(检验的步骤)1.提出假设H0:线性关系不显著H1:线性关系显著2.计算检验统计量F确定显著性水平,查出临界值F

(,1,n-2)作出决策:若F>F

,接受H1;若F<F

,接受H0回归方程的显著性检验

(方差分析表)平方和均方3回归系数的显著性检验在一元线性回归中,等价于回归方程的显著性检验。检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著;理论基础是回归系数

的抽样分布;回归系数的显著性检验

(样本统计量的分布)

是根据最小二乘法求出的样本统计量,它有自己的分布的分布具有如下性质:分布形式:正态分布数学期望:标准差:由于无未知,需用其估计量Sy来代替得到的估计的标准差回归系数的显著性检验

(样本统计量的分布)的抽样分布回归系数的显著性检验(步骤)

1.提出假设H0:b1=0(没有线性关系)H1:b1

0(有线性关系)2.计算检验的统计量确定显著性水平,查t分布表。并进行决策:

t>t

,接受H1;t<t

,接受H0回归系数的显著性检验

(实例)1.提出假设H0:b1=0人均收入与人均消费之间无线性关系H1:b1

0人均收入与人均消费之间有线性关系2.计算检验的统计量

t=65.0758>t

=2.201,拒绝H0,接受H1,表明人均收入与人均消费之间有线性关系。对前例的回归系数进行显著性检验(

=0.05)回归系数的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论