第8相关与回归分析_第1页
第8相关与回归分析_第2页
第8相关与回归分析_第3页
第8相关与回归分析_第4页
第8相关与回归分析_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

例1:中国妇女生育水平的决定因素是什么?妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。1.影响中国妇女生育率变动的因素有哪些?2.各种因素对生育率的作用方向和作用程度如何?3.哪些因素是影响妇女生育率的主要决定性因素?4.如何评价计划生育政策在生育水平变动中的作用?5.计划生育政策与经济因素比较,什么是影响生育率的决定因素?6.如果某些地区的计划生育政策及社会、经济、文化等因素发生重大变化,预期对这些地区的妇女生育水平会产生怎样的影响?本文档共69页;当前第1页;编辑于星期三\8点46分

据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的专利,已遍及五大洲。目前全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数

(引自《光明日报》刘军/文)问题:

肥胖症和体重超常与死亡人数真有显著的数量关系吗?

这些类型的问题可以运用相关分析与回归分析的方法去解决。实例2:全球吃死的人比饿死的人多?本文档共69页;当前第2页;编辑于星期三\8点46分8.1相关与回归的基本概念一、变量间的相互关系二、相关关系的类型三、相关分析与回归分析本文档共69页;当前第3页;编辑于星期三\8点46分

一、变量间的相互关系确定性的函数关系Y=f(X)不确定性的统计关系—相关关系

Y=f(X)+ε=f(X,ε

)(ε为随机变量)

可支配收入与消费 支出没有关系变量间的关系可用坐标图(散点图)描述本文档共69页;当前第4页;编辑于星期三\8点46分相关关系的类型

从涉及的变量数量看

简单相关、多重相关(复相关)

从变量相关关系的表现形式看

线性相关(左图)、非线性相关(右图)本文档共69页;当前第5页;编辑于星期三\8点46分从变量相关关系变化的方向看正相关——变量同方向变化A

同增同减(A)

负相关——变量反方向变化一增一减(B)B从变量相关的程度看

完全相关(B)

不完全相关(A)C

不相关(C)相关关系的类型本文档共69页;当前第6页;编辑于星期三\8点46分相关分析与回归分析回归的古典意义:

高尔顿遗传学的回归概念

父母身高与子女身高的关系:

无论高个子或低个子的子女都有向人的平均身高回归的趋势本文档共69页;当前第7页;编辑于星期三\8点46分

回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的(实质):

由固定的自变量去估计因变量的平均值自变量取固定值样本总体估计因变量的平均值本文档共69页;当前第8页;编辑于星期三\8点46分

相关分析与回归分析的联系共同的研究对象:都是从数据出发定量地研究变量间的相互联系,不能揭示本质联系相关分析用一个指标----相关系数表明现象间相互依存关系的性质和密切程度相关分析只表明变量间相关关系的性质和程度;要确定变量间相关的具体数学形式依赖于回归分析,即相关分析中相关系数的确定建立在回归分析的基础上回归分析研究一个变量对另一个或多个变量依存关系,寻求变量间联系的具体数学形式,并依此和自变量的固定值去估计和预测因变量的值本文档共69页;当前第9页;编辑于星期三\8点46分

相关分析与回归分析的联系只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义。相关分析中变量是对称的随机变量,不存在因果关系;回归分析中区分因变量和自变量,变量间具有因果关系。通常假定自变量是在重复抽样中取固定值的非随机变量,因变量是具有一定概率分布的随机变量。进行相关(回归)分析时,要定性、定量相结合。因为仅凭数据,可能会是一种伪相关(伪回归)。本文档共69页;当前第10页;编辑于星期三\8点46分8.2简单线性相关与回归分析一、简单线性相关系数及检验二、总体回归函数与样本回归函数三、回归系数的估计四、简单线性回归模型的检验五、简单线性回归模型预测本文档共69页;当前第11页;编辑于星期三\8点46分一、简单线性相关系数及检验总体相关系数

对于所研究的总体,表示两个相互联系的变量相关程度的总体相关系数为:

总体相关系数反映两个变量X和Y的线性相关程度。特点:对于特定的总体来说,X和Y的数值是既定的,

总体相关系数是客观存在的特定数值。本文档共69页;当前第12页;编辑于星期三\8点46分样本相关系数通过X和Y

的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用表示简单线性相关系数及检验(续)本文档共69页;当前第13页;编辑于星期三\8点46分特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的一致估计,它是个随机变量。

相关系数的Excel计算:工具--数据分析--相关系数

--输入区域:数据范围

--分组方式:逐列(逐行)

--输出区域:相关系数的输出位置简单线性相关系数及检验(续)本文档共69页;当前第14页;编辑于星期三\8点46分

相关系数的特点:

相关系数的取值在-1与1之间。当r=0时,表明X与Y没有线性相关关系。当时,表明X与Y存在一定的线性相关关系:

若表明X与Y为正相关;

若表明X与Y为负相关。当时,表明X与Y完全线性相关:

若r=1,称X与Y完全正相关;若r=-1,称X与Y完全负相关。本文档共69页;当前第15页;编辑于星期三\8点46分使用相关系数的注意事项:X和Y

都是相互对称的随机变量,所以相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。本文档共69页;当前第16页;编辑于星期三\8点46分

相关系数的检验

为什么要检验?

样本相关系数是随抽样而变动的随机变量,只是对总体相关系数的估计,其统计显著性还有待检验。检验的依据(最常用的检验):

若X和Y都服从正态分布,在总体相关系数的假设下,与样本相关系数r

有关的t统计量服从自由度为n–2的t分布:本文档共69页;当前第17页;编辑于星期三\8点46分

相关系数的检验方法给定显著性水平,查自由度为n-2的临界值若,表明相关系数r

在统计上是显著的,应否定而接受的假设;反之,若,不能拒绝的假设。另一类种检验:总体相关系数是否等于某一不等于0的特定常数值。本文档共69页;当前第18页;编辑于星期三\8点46分

二、总体回归函数与样本回归函数

若干基本概念Y的条件分布:Y在X取某固定值条件下的分布。对于X的每一个取值,都有Y的条件期望与之对应,在坐标图上Y的条件期望的点随X而变化的轨迹所形成的直线或曲线,称为回归线。如果把Y的条件期望表示为X的某种函数:,这个函数称为回归函数。如果其函数形式是只有一个自变量的线性函数,如,称为简单线性回归函数。本文档共69页;当前第19页;编辑于星期三\8点46分

总体回归函数(PRF)

概念:将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数.表现形式:(1)条件均值表现形式(2)个别值表现形式(随机设定形式)本文档共69页;当前第20页;编辑于星期三\8点46分

样本回归函数(SRF)概念:

Y的样本观测值的条件均值随自变量X而变动的轨迹,称为样本回归线。若把因变量Y的样本条件均值表示为自变量X的某种函数,这个函数称为样本回归函数.表现形式:线性样本回归函数可表示为本文档共69页;当前第21页;编辑于星期三\8点46分样本回归函数与总体回归函数的关系

——相互联系

样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。和是对总体回归函数参数的估计。是对总体条件期望的估计残差e

在概念上类似总体回归函数中的随机误差u

。回归分析的目的:用样本回归函数去估计总体回归函数。本文档共69页;当前第22页;编辑于星期三\8点46分样本回归函数与总体回归函数的关系

——相互区别

总体回归函数虽然未知,但它是确定的;样本回归线随抽样波动而变化,可以有许多条。样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。总体回归函数中的是不可直接观测的;而样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。本文档共69页;当前第23页;编辑于星期三\8点46分

三、回归系数的估计回归系数估计的思想:为什么只能对未知参数作估计?

参数是未知的、不可直接观测的、不能精确计算,能够得到的只是变量的样本观测值。结论:只能通过变量样本观测值选择适当方法去近似地估计回归系数。前提:u是随机变量,其分布性质不确定,必须作某些假定,其估计才有良好性质,其检验才可进行。原则:使参数估计值“尽可能地接近”总体参数真实值本文档共69页;当前第24页;编辑于星期三\8点46分

简单线性回归的基本假定假定1:零均值假定假定2:同方差假定

假定3:无自相关假定

假定4:随机扰动与自变量不相关假定5:正态性假定本文档共69页;当前第25页;编辑于星期三\8点46分

回归系数的最小二乘估计基本思想:

估计值偏离实际观测值的残差平方和作为衡量与偏离程度的标准—最小二乘准则。本文档共69页;当前第26页;编辑于星期三\8点46分

最小二乘估计的性质

——高斯—马尔可夫定理

前提:在基本假定满足时最小二乘估计是因变量的线性函数最小二乘估计是无偏估计,即

在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。结论:回归系数的最小二乘估计是最佳线性无偏估计(BLUE)—高斯-马尔可夫定理本文档共69页;当前第27页;编辑于星期三\8点46分

最小二乘估计的概率分布性质

和都是服从正态分布的随机变量,其期望为方差和标准差为结论:本文档共69页;当前第28页;编辑于星期三\8点46分

的无偏估计

为什么要估计?

确定所估计参数的方差需要由于不能直接观测,也是未知的。对的数值只能通过样本信息去估计。怎样估计?可以证明的无偏估计为:本文档共69页;当前第29页;编辑于星期三\8点46分

拟合优度的度量

基本思想:样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上

总离差平方和TSS

回归平方和ESS残差平方和RSS

可决系数:本文档共69页;当前第30页;编辑于星期三\8点46分

对可决系数的理解本文档共69页;当前第31页;编辑于星期三\8点46分

可决系数的特点

可决系数是非负的统计量;可决系数取值范围:;可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量;在一元线性回归中,可决系数在数值上是简单线性相关系数的平方:本文档共69页;当前第32页;编辑于星期三\8点46分

回归系数显著性的t检验目的:根据样本回归估计的结果对总体回归函数的有关假设进行检验,以检验总体回归系数是否等于某个特定的数值。思想:

是未知的,而且不一定能获得大样本,这时可用的无偏估计代替去估计参数的标准误差:本文档共69页;当前第33页;编辑于星期三\8点46分回归系数显著性的t

检验(续)用估计的参数标准误差对估计的参数作标准化变换,所得的t统计量将不再服从正态分布,而是服从t分布,可利用t分布作有关的假设检验。本文档共69页;当前第34页;编辑于星期三\8点46分

回归系数显著性t

检验的方法(1)提出假设

一般假设:

常用假设:(2)计算统计量(3)给定显著性水平α,确定临界值

(4)检验结果判断

若,则拒绝原假设,接受备择假设若,则接受原假设,拒绝备择假设本文档共69页;当前第35页;编辑于星期三\8点46分回归系数显著性的P值检验

——P值的意义P值的意义:

在既定原假设下计算回归系数的t统计量,可求得统计量大于的概率:这里的是

t统计量大于值的概率,是尚不能拒绝原假设的最大显著水平,称为所估计的回归系数的P

值。本文档共69页;当前第36页;编辑于星期三\8点46分回归系数显著性的P值检验

——检验方法回归系数显著性的P

值检验方法:

将所取显著性水平与P值对比所取的显著性水平(例如取0.05)若比P值更大,就可在显著性水平下拒绝原假设。

所取的若小于P值,就应在显著性水平下接受原假设。

一元线性回归模型的Excel估计:本文档共69页;当前第37页;编辑于星期三\8点46分五、简单线性回归模型预测对平均值的点预测值:

Y的个别值置信度为1-α的预测区间:

本文档共69页;当前第38页;编辑于星期三\8点46分

Y的总体条件均值的置信度为1-α的预测区间:

本文档共69页;当前第39页;编辑于星期三\8点46分因变量的区间预测的特点

(1)个别值的预测区间大于平均值的预测区间:

Y平均值的预测值与真实平均值有误差,主要是受抽样波动的影响;Y个别值的预测值与真实个别值的差异不仅受抽样波动影响,而且还受随机扰动项的影响.(2)对预测区间随变化而变化:

时,,此时预测区间最窄;越是远离,越大,预测区间越宽。本文档共69页;当前第40页;编辑于星期三\8点46分

因变量的区间预测的特点(续)(3)预测区间与样本容量有关:样本容量n越大,越大,预测误差的方差越小,预测区间也越窄。(4)当样本容量趋于无穷大(即n→∞)时,不存在抽样误差,平均值预测误差趋于0,此时个别值的预测误差只决定于随机扰动的方差。本文档共69页;当前第41页;编辑于星期三\8点46分8.3多元线性相关与回归分析一、多元线性回归模型及假定二、多元线性回归模型的估计三、多元线性回归模型的检验四、多元线性回归模型的预测五、复相关系数和偏相关系数本文档共69页;当前第42页;编辑于星期三\8点46分一、多元线性回归模型及假定多元总体线性回归函数一般形式条件均值形式多元线性样本回归函数:一般形式因为预测值和真实值之间有偏差,也可表示成本文档共69页;当前第43页;编辑于星期三\8点46分多元线性回归模型的矩阵表示多元总体线性回归模型的矩阵表示:Y=Xβ+U

多元线性样本回归函数的矩阵表示:偏回归系数:多元线性回归模型中,回归系数表示当控制其它自变量不变的条件下,第j个自变量的单位变动对因变量均值的影响,这样的回归系数称为偏回归系数.本文档共69页;当前第44页;编辑于星期三\8点46分

二、多元线性回归模型的估计多元回归模型的假定相同的假定:

零均值、同方差、无自相关、随机扰动项与自变量不相关、U正态性增加的假定:各自变量之间不存在线性关系(多重共线)

在此条件下,自变量观测值矩阵X列满秩

r(X)=k;方阵满秩r()=k。意义:可逆,存在。本文档共69页;当前第45页;编辑于星期三\8点46分多元回归参数的最小二乘估计使残差平方和达到最小,其充分必要条件整理成正规方程组

本文档共69页;当前第46页;编辑于星期三\8点46分多元线性回归的最小二乘估计式正规方程组可简记为矩阵形式存在,则参数向量β的最小二乘估计为参数最小二乘估计量的性质:

可以证明:多元线性回归的最小二乘估计也是最佳线性无偏估计。本文档共69页;当前第47页;编辑于星期三\8点46分随机误差项方差的估计方差未知,需要利用样本回归的残差平方和去估计。可以证明是随机扰动项方差的无偏估计。多元线性回归模型的Excel估计本文档共69页;当前第48页;编辑于星期三\8点46分三、多元线性回归模型的检验拟合优度检验多元线性回归离差平方和的分解式变差

TSS=RSS+ESS(总离差平方和)(残差平方和)(回归平方和)

自由度n-1=n-k+k-1

多重可决系数本文档共69页;当前第49页;编辑于星期三\8点46分修正的可决系数为什么要修正可决系数?可决系数是自变量个数的不减函数,比较因变量相同而自变量个数不同的两个模型的拟合程度时,不能简单地对比多重可决系数,需要用自由度去修正多重可决系数中的残差平方和与回归平方和。

相互关系:本文档共69页;当前第50页;编辑于星期三\8点46分修正的可决系数(续)在样本容量一定的条件下,虽然可决系数是关于自变量个数的不减函数,但并不是变量个数越多越好(增加调查取样的样本,损失自由度)。人们希望(修正)可决系数越大越好,但它们只是对模型拟合优度的度量,只能说明解释变量对因变量的联合影响程度越大,并不能说明单个变量的影响程度大。因此在选择模型时,不能单纯地凭多重(修正)可决系数的大小来断定模型的优劣(如经济学意义)。本文档共69页;当前第51页;编辑于星期三\8点46分回归参数的显著性检验----t检验

在多元回归中可以证明其中是矩阵第

j行第j列的元素。因为未知,故也未知。用代替构造统计量对原假设分别作t检验.:本文档共69页;当前第52页;编辑于星期三\8点46分

回归方程的显著性检验

——F

检验目的:检验多个变量联合对因变量是否有显著影响方法:在方差分析的基础上利用F检验进行假定:

方差分析表离差来源平方和自由度方差源于回归源于残差k-1n–kESS/(k-1)RSS/(n-k)总离差n-1本文档共69页;当前第53页;编辑于星期三\8点46分

F检验的方法F检验:在成立的条件下,统计量给定显著性水平,在分布表中查出对应自由度的临界值若,则拒绝,说明回归方程中所有自变量联合起来对因变量有显著影响。若,则不能拒绝,说明回归方程中所有自变量联合起来对因变量影响不显。本文档共69页;当前第54页;编辑于星期三\8点46分F

检验与t检验、拟合优度检验的关系在一元线性回归中,由于解释变量只有一个,不用做F

检验,且可以证明,即二者是等价的。F

检验与拟合优度检验都是在将总离差平方和TSS分解为回归平方和ESS与残差平方和RSS的基础上构造统计量进行的检验,但前者考虑了自由度,后者没有考虑;一般情况下,模型对观测值的拟合程度越高,模型总体线性关系的显著性越强。F

检验可以在给定的显著性水平下,给出F数值达到多少后可以通过检验,但(修正)可决系数没有给出。本文档共69页;当前第55页;编辑于星期三\8点46分四、多元线性回归模型的预测点预测值预测的残差可证明用代替,则构造t

统计量给定显著性水平,可得临界值,则置信为的预测区间为

-

本文档共69页;当前第56页;编辑于星期三\8点46分

五、复相关系数和偏相关系数复相关系数:

度量一个变量与其他若干个变量联合线性相关程度在数值上:多重可决系数的平方根等于复相关系数偏相关系数:

对于相互联系的多个变量,当控制其他变量保持不变的条件下,度量因变量和某一个自变量之间线性相关程度的指标称为偏相关系数。本文档共69页;当前第57页;编辑于星期三\8点46分偏相关系数与简单相关系数的内在联系

以三个变量为例,可以证明:本文档共69页;当前第58页;编辑于星期三\8点46分8.4非线性相关与

非线性回归分析一、非线性回归的函数形式与估计方法二、非线性相关指数本文档共69页;当前第59页;编辑于星期三\8点46分一、非线性回归的函数形式与估计方法

常用的可以转换为线性的非线性函数形式幂函数其中的参数度量了变量Y对变量X的弹性,即X的单位百分比变动引起Y变动的百分比(半)对数函数其中的参数b说明当变量X每变动一个百分点,引起因变量Y绝对量的变动量(半)对数函数变量X

每变动一个单位,引起因变量Y

百分比的变动量本文档共69

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论