




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Ch7 相关与回归分析统计学原理统计学原理 7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new)第1页/共85页主要介绍: 相关分析,回归技术,回归诊断方法。Ch7 主要内容Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)第2页/共85页Ch7 学习目的1,掌握相关与回归的基本概念2,掌握相关分析技术
2、3,掌握一元线性回归方法4,掌握多元线性回归方法5,掌握回归诊断方法Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)第3页/共85页Ch7 相关与回归分析统计学原理统计学原理 7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new)第4页/共85页 7.1 相关与回归的基本概念 7.1.1 确定性关系与相
3、关关系 7.1.2 回归函数与经验方程 7.1.3 相关与回归分析 7.1.4 相关表与相关图 7.1.5 相关关系的种类Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回第5页/共85页 关系给定一个X,就可以确定一个Y,Y值随X的值变化。Y (X=X t)是这两个变量之间的函数表达式。这个函数表达式,对应着一个具体的因果数学定理。特征是,“2个以上变量的变化方向大致是规则的”,变量Y ,
4、 X之间的近似规则关系,只是一个经验关系是Y与 (X=X t) 的偏差,且总假定E ()= 0关系确定性关系相关关系经验关系Y (X=X t) +函数关系统计关系Y (X=X t)7.1.1 确定性关系与相关关系Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念第6页/共85页 7.1.1 确定性关系与相关关系 确定性关系也叫函数关系。 Y (X=X t), (7.1.1) 即只要给定一个X,就可以确定一个Y,Y值随X的值变化,则变量Y, X之间,就是一种确定性的函数关系。Y (X=X t)是这两个变量之间的函数表达式。这个函数表达式,对应着一个具体的因果数学
5、定理。 相关关系也叫统计关系或者经验关系。 相关关系的特征是,“2个以上变量的变化方向大致是规则的”, 变量Y , X之间的某种近似规则关系,不是一种精确的确定性关系,只是一个经验关系 Y (X=X t) +; (7.1.2) 是Y与 (X=X t) 的偏差,且总假定E ()= 0。 这种经验关系就是统计相关关系。 统计相关关系,常常表现为一种统计定律。统计定律和相关关系,是相关回归分析的主要研究对象。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回第7页/共85页 7.1.2 回归函数与经验方程 存在统计相关关系的变量Y , X之间,有 Y (X=X
6、t) +; (7.1.2) 因为, E ()= 0 ,所以, E (Y |X= X t ) (X t) 是给定X=X t条件下Y的期望值, (X t) 就是Y关于X的期望函数。它实际反映的是Y,X之间存在的统计规律。 因为统计规律,总是可以在日常的实践过程中,不断回归重现。于是,期望函数,也称为Y关于X的回归方程或回归函数,记为 (X=X t) E (Y |X= X t ) (7.1.3) 回归函数的具体表达式,通常也叫经验函数或者经验公式。 Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回第8页/共85页 7.1.3 相关与回归分析 相关与回归分析:
7、是研究相关关系的一种有力数学工具。它是建立在对客观事物进行大量试验和观察的基础上,在不确定的现象中,寻找隐藏的统计规律性的数理统计方法。具体步骤是: 第一步,根据研究的目的,通过观察和实验取得资料。 第二步,整理资料。分组编制相关表,以便进行分析。 第三步,绘制相关图。把成对的相关资料,绘成散布图或曲线图,从图形中,初步判断变量之间是否存在相关关系,以及相关的基本形式。 第四步,相关关系的解析。建立回归方程,计算估计标准误差、相关系数等,以反映变量之间的关系、误差大小及密切程度,并运用数理统计方法,进行检验和评价。 Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基
8、本概念返回第9页/共85页 7.1.4 相关表与相关图 相关表与相关图,是研究相关关系的直观工具。一般在进行详细的定量分析之前,可以先利用它们,对现象之间存在的相关方向、形式和密切程度,作大致的判断。 相关表,是一种反映变量之间相关关系的统计表。将某一变量,按其取值的大小顺序排列,然后再将与其相关的另一变量的值,对应排列,便可得到简单的相关表。 利用相关表,便可得到相关图。相关图又称散布图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y ,将两个变量的值,用坐标点 (Xt, Y t) 的形式描绘出来,用来反映两变量之间相关关系的图形。 Ch7 相关与回归分析相关与回归分析7.1 相关与回归的
9、基本概念相关与回归的基本概念第10页/共85页 7.1.4 相关表与相关图 【例7-1】利用某国1951-1970年的消费Y 和可支配收入X数据,可整理得相关表与相关图。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念年份 序号t 可支配收入Xt 消费Yt 19511226.6206.319522238.3216.719533252.623019544257.4236.519555275.3254.419566293.2266.719577308.5281.419588318.8290.119599337.3311.2196010350325.2196111
10、364.4335.2196212385.3355.1196313404.6375196414438.1401.2196515473.2432.8196616511.9466.3196717546.3492.1196818591.2535.8196919631.6577.5197020684.7616.8图图71 消费消费Y 和可支配收入和可支配收入X相关图相关图YX0200200600400400600返回第11页/共85页 7.1.5 相关关系的种类 按相关的程度可分为完全相关、不完全相关、不相关 按相关的方向可分为正相关、负相关 按相关的形式可分为线性相关和非线性相关 按所研究的变量的多少
11、可分为单相关、复相关和偏相关 Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念正线性相关正线性相关负线性相关负线性相关YX0YX=1+ 2X.0非线性相关非线性相关非线性相关非线性相关YX0YX图图72 线性相关与非线性相关线性相关与非线性相关0返回第12页/共85页 7.2 相关分析 7.2.1 相关系数 7.2.2 相关系数与相关程度 7.2.3 相关系数的检验 7.2.4 等级相关系数及其检验Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线
12、性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回第13页/共85页 7.2.1 相关系数 相关系数也叫单相关系数。 它是在线性相关的条件下,用来测定变量Y , X之间相关程度的一个重要指标。通常以表示总体的相关系数,以表示样本的相关系数。 存在线性相关的变量总体(Y , X), 定义为 (7.2.1) 式中:Cov(X,Y)是变量X和Y的协方差,Var(X)和Var(Y)分别是X和Y的方差。 对来自总体(Y , X)的n组样本观察值(Y t, X t),t=1,2,3,n-1,n,记为 (7.2.2) 其中SX,Y=Cov(Xt,Yt)是样本(Y
13、t, Xt)的协方差,SX和SY分别是X和Y 的样本标准差。样本相关系数,是根据样本观察值计算的。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析YXYXYXYXYYXXYXYVarXVarYXCov,22,)()(),(.)()()(12121,nttnttntttYXYXYYXXYYXXSSS第14页/共85页 7.2.1 相关系数 总体值为常数,在很多情况下,是无法直接按定义计算的,只能通过样本相关系数,去估计值。 容易证明,样本相关系数,是总体相关系数的一致估计量。 可以证明,存在线性相关的变量之间,不论是总体相关系数,还是样本相关系数,均有0|1,0|1。 为便于计算,引
14、进如下符号: (7.2.3) Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析)(1)()()(1)()(1)(1111211212211212nttnttntttntttXYnttnttnttYYnttnttnttXXYXnYXYYXXLYnYYYLXnXXXL第15页/共85页 7.2.1 相关系数 【例7-2】利用某国1951-1970年的消费Y和可支配收入X数据,计算它们之间的相关系数。 解:根据相关系数的公式,有 于是 Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析2 .32367220/3 .72063 .78893166305)(1)(1 .291591
15、20/3 .72063 .72062888129)(14 .35950620/3 .78893 .78893471559)(1)(11121122112nttnttntttXYnttnttYYnttnttXXYXnYXLYnYLXnXL999689. 01 .2915914 .3595062 .323672YYXXXYLLL年份 序号t 可支配收入Xt 消费Yt 19511226.6206.319522238.3216.719533252.623019544257.4236.519555275.3254.419566293.2266.719577308.5281.419588318.8290.
16、119599337.3311.2196010350325.2196111364.4335.2196212385.3355.1196313404.6375196414438.1401.2196515473.2432.8196616511.9466.3196717546.3492.1196818591.2535.8196919631.6577.5197020684.7616.8第16页/共85页年份 序号t 可支配收入Xt 消费Yt XtXt YtYt XtYt 19511226.6206.351347.5642559.6946747.5819522238.3216.756786.8946958.
17、8951639.6119533252.623063806.76529005809819544257.4236.566254.7655932.2560875.119555275.3254.475790.0964719.3670036.3219566293.2266.785966.2471128.8978196.4419577308.5281.495172.2579185.9686811.919588318.8290.1101633.484158.0192483.8819599337.3311.2113771.396845.44104967.8196010350325.21225001057551
18、13820196111364.4335.2132787.4112359122146.9196212385.3355.1148456.1126096136820196313404.6375163701.2140625151725196414438.1401.2191931.6160961.4175765.7196515473.2432.8223918.2187315.8204801196616511.9466.3262041.6217435.7238699196717546.3492.1298443.7242162.4268834.2196818591.2535.8349517.4287081.
19、6316765196919631.6577.5398918.6333506.3364749197020684.7616.8468814.1380442.2422323合计-7889.37206.3347155928881293166305平均-394.465360.315173578144406.5158315.3返回第17页/共85页 7.2.2 相关系数与相关程度 如果|=1,表明(Y , X )之间是完全线性相关,完全线性相关,是一种精确的线性函数关系; 如果|=0,表明(Y , X )之间没有关系或者线性无关; 如果0|1,(Y , X )是一种线性统计关系,线性统计关系,是最常见的相
20、关关系;01是正的线性相关;-10是负的线性相关。 |值越大,则线性关比较系密切,反之,则线性关系不密切。 同理,|=1,表示样本(Y t ,X t)为完全线性相关;=1,表示(Y t, X t)为完全正线性相关,样本的所有点(Y t, X t)都在一条直线上;=-1,表示(Y t, X t)为完全负线性相关,样本的所有点(Y t ,X t)也都在一条直线上; =0,表示样本点(Y t ,X t)在散点图上的分布是杂乱无章的,(Y t,X t)之间无相关关系; 0|t/2,拒绝H0,表示Y, X之间相关显著。 Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析212rnrt第20页/
21、共85页 7.2.3 相关系数的检验 F统计量检验 作统计假设 零假设H0:=0,备择假设H1:0。 计算样本相关系数的F值 , 选择显著性水平,取=1%或者=5%。根据和自由度1,n-2,求F分布的两个临界值F1-/2(1,n-2),F/2(1,n-2),且F1-/2(1,n-2) F/2(1,n-2)或F F1- /2(1,n-2),拒绝H0,表示Y, X之间相关显著。 说明: F检验是双侧检验,有两个临界值F1-/2(1,n-2),F/2(1,n-2),且F1- / 2(1,n-2)/2,拒绝H0,表示Y, X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析第2
22、2页/共85页 7.2.3 相关系数的检验 【例7-3】利用某国1951-1970年的消费Y和可支配收入X的相关系数,在=5%时,是否可以认为Y和X之间存在显著性的线性相关关系。 解:作统计假设 H0:=0,H1:0。 计算样本相关系数的t值。已知,求得t。 选择显著性水平,取=5%。根据和自由度n-2,求得t分布的临界值t/2(n-2)= t2.5%。因为|t|=170.071t/2,所以拒绝H0,表示Y, X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析返回第23页/共85页 7.2.4 等级相关系数及其检验 等级相关系数(又称为顺序相关系数)。 设 有 Xt和
23、 Yt两 个 数 列 , 依 数 量 的 大 小 或 者 品 质 的 优 劣 , 分 为1,2,3,n-1,n个等级,以VX,t表示各个Xt的等级数,以VY,t表示各个Yt的等级数,则等级相关系数 s为 (7.2.6) 式中,n是样本容量。 该公式可由两个等级变量的相关系数,推导而来。 与相关系数类似, s的取值范围为0| s|1。 s为正值,存在正的等级相关关系, s取负值,存在负的等级相关。 s=1,表明两种现象的等级完全相同,存在完全正相关; s=-1,表明两种现象的等级完全相反,存在完全负相关。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析) 1(61) 1()(6121
24、2212,nnDnnVVnttnttYtXs非参数相关分析。多做定性研究。第24页/共85页 7.2.4 等级相关系数及其检验 等级相关系数检验。 当样本容量n20时,可利用以下的t统计量,进行 s的检验 (7.2.7) 当总体等级相关系数 s =0时,可以证明:t统计量服从自由度为n-2的t分布。在给定显著性水平下,如果|t|t/2(n-2),接受H0,表示Y, X之间相关不显著;若|t|t/2(n-2),拒绝H0,表示Y, X之间相关显著。 同样也可以参照样本相关系数的检验方法,构造新的统计量t2去进行F检验,或者直接查相关系数表检验。 Ch7 相关与回归分析相关与回归分析7.2 相关分析
25、相关分析212ssnt第25页/共85页 7.2.4 等级相关系数及其检验 【例7-4】某校对学生某专业课程的复习时间和考试成绩进行调查。抽查10同学的有关数据如下表。计算复习时间与考试成绩的相关系数和等级相关系数。根据以上结果,能否得出复习时间越长考试成绩越高的结论。 解:Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析序号t 复习时间 考试成绩 Dt2=(VX,t-VX,t)2 时间Xt 排队等级VX,t 成绩Yt 排队等级VX,t 133863024487403114104228520555936168691517108958.5 0.25 89794709119958.5
26、0.25 10131096100合计-55-552.5 第26页/共85页 7.2.4 等级相关系数及其检验 解:首先对复习时间X与考试成绩Y按从小到大的顺序确定等级。对于Xt或者Yt相同的,取其应得等级的平均数。 其次,计算相关系数。根据公式,得,t。在=5%、自由度=n-2=8条件下,得t/2(n。因为|tt/2(n,表示Y, X之间相关不显著,难以判断复习时间X与考试成绩Y之间存在显著的线性关系。 最后,计算等级相关系数 s。根据公式,得 s,t s。在=5%、自由度=n-2=8条件下,得t/2(n。因为|t st/2(n,表示Y, X之间相关显著,存在复习时间越长考试成绩越高的现象。
27、Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析返回第27页/共85页 7.3 一元线性回归分析 7.3.1 标准的一元线性回归模型 7.3.2 一元线性回归模型的估计 7.3.3 一元线性回归模型的检验 7.3.4 误差项t的自相关检验 7.3.5 一元线性回归模型的预测Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回第28页/共85页 7.3.1 标准的一元线性回归模型 总
28、体回归函数 设因变量为Y,自变量为X;若Y的数学期望存在,且服从如下的分布 YN (1+ 2X , 2) (7.3.1) 式中1, 2和2是不依赖于X的未知参数。则方程 Y= 1+ 2X+ u ;u N (0, 2) (7.3.2) 就称为一元线性回归模型(或称为相关方程)。其中,是随机误差项, E () = 0。 又由于Y的数学期望是X的函数, E ( YX ) = 1+ 2X (7.3.3) Y的取值主要由X的取值决定, 因此,E (YX )是一个关于X的回归期望,它从平均意义上表达了Y与X的统计规律性,于是,E (YX )也可以作为Y的估计,故 X = 1+ 2X (7.3.4) 称为总
29、体一元回归估计方程或者回归估计函数, 1, 2是这个回归方程中的回归系数,其图形表现为一条直线。 Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析第29页/共85页 7.3.1 标准的一元线性回归模型 误差项的标准假定 误差项的期望值恒为零,即 E (tXt)=0 (7.3.5) 误差项的方差是同观察时点t无关的常数,即 Var(tXt)=E (t2Xt)= 2 (7.3.6) 时点不同的误差项之间不相关,即 Cov(t,s)=E (ts )=0;ts (7.3.7) t的概率分布与1, 2和X无关。 X是给定的变量(确定变量),即X,不是有统计从属关系的随机变量。
30、 Cov(Xt,t)=E (Xtt )=0 (7.3.8) t服从正态分布,即 t N (0, 2) (7.3.9) 以上假定最早是由德国数学家高斯提出来的,也称为高斯假定或者标准假定。 Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析图图73 总体回归与随机误差总体回归与随机误差YX= 1+ 2X.0Y= 1+ 2X+u u t第30页/共85页 7.3.1 标准的一元线性回归模型 满足以上假定的一元线性回归模型,称为标准的一元线性回归模型。满足假定的一元线性回归模型,称为标准线性正态回归模型。 应当指出的是,在现实的情况是由于种种原因,以上假定常常不能得到满足。
31、其最一般的模型及回归函数为 Y= 1 + 2X +u , X = E ( YX ) = 1+2X (7.3.10) u为随机误差项,E (u)=0, E(2)= 2,Y与u同分布,且均为非正态分布,我们以下的讨论均以(7.3.10)式为基础,其余变量的解释如前。 Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析图图73 总体回归与随机误差总体回归与随机误差YX= 1+ 2X.0Y= 1+ 2X+u u t第31页/共85页 7.3.1 标准的一元线性回归模型 样本回归函数,就是根据样本资料(Yt, X t),对总体回归函数进行拟合的估计函数。由于样本(Yt, X t
32、)来源于总体(Y, X ),因此,样本回归线与总体回归线,有相同的函数形式。由样本关系方程 (7.3.11) 有样本回归函数 (7.3.12) 式中,Yt和X t分别是Y和X的第t次观察值;t为样本回归线上与X t相对应的值,它是对E(YtX t)的估计; 为样本回归系数,是对总体回归系数的1, 2的估计;t=Ytt是实际观察值与样本估计值之差,亦称残差,是一个可计算的量;n为样本容量; 是对2的估计。 样本回归函数是总体回归函数的近似反映。 回归分析的主要任务,就是充分利用样本的信息,采用适当的方法,使得样本回归函数,尽可能接近真实的总体回归函数。 Ch7 相关与回归分析相关与回归分析7.3
33、 一元线性回归分析一元线性回归分析nteEeEeXYttttt,.,3 , 2 , 1;)(, 0)(;2221221,.,3 , 2 , 1;21ntXYtt返回第32页/共85页 7.3.2 一元线性回归模型的估计 回归系数的估计 最小二乘法,简记为OLS法。它的准则是使t的平方和最小,即 (7.3.15) 由极值条件,有联立方程 (7.3.16) 整理得正规方程组 (7.3.17) Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ntttntttntttnttXYXYYYeQ1221,1221121221)(min)()(),(21ntttttntttXXXY
34、QXYQ1221212110)(20)(2nttnttntttnttnttXXXYXnY1221111211)(第33页/共85页 7.3.2 一元线性回归模型的估计 回归系数的估计 (续) 求解正规方程组,得 (7.3.18) 利用(7.2.3)式,则最小二乘估计量,又可简写为 (7.3.19) Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析nttntttntnttnttnttntttnttnttXXYYXXXXnYXXYnXYXnYn1212112111221211)()()()()(122221)()()()(XXYXXYLLXYXXXY第34页/共85页
35、7.3.2 一元线性回归模型的估计 【例7-5】利用某国1951-1970年的消费Y和可支配收入X数据,建立消费对可支配收入的回归估计方程。 解:因为消费Y和可支配收入X之间是显著线性相关,所以,可以建立Y,X之间的一元回归估计模型 Y= 1+ 2X +u , X = E ( YX ) = 1+ 2X 根据最小二乘估计方法,得回归估计方程 X+X,S =3.174108481, 2 (2.205544043) (0.005293811) d Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析第35页/共85页年份 序号t 可支配收入Xt 消费Yt XtXt YtYt
36、XtYt X,t t=Ytt 19511226.6206.351347.5642559.6946747.58209.1821-2.88214653819522238.3216.756786.8946958.8951639.61219.7159-3.01593491319533252.623063806.765290058098232.5906-2.59056514819544257.4236.566254.7655932.2560875.1236.9121-0.41211935319555275.3254.475790.0964719.3670036.32253.02791.372084757
37、19566293.2266.785966.2471128.8978196.44269.1437-2.44371113219577308.5281.495172.2579185.9686811.9282.9187-1.5186651619588318.8290.1101633.484158.0192483.88292.192-2.09200022519599337.3311.2113771.396845.44104967.8308.8482.35200961196010350325.2122500105755113820320.28214.917897442196111364.4335.2132
38、787.4112359122146.9333.24681.953234828196212385.3355.1148456.1126096136820352.06353.03646756196313404.6375163701.2140625151725369.43985.560218361196414438.1401.2191931.6160961.4175765.7399.60061.599371305196515473.2432.8223918.2187315.8204801431.2021.598006182196616511.9466.3262041.6217435.723869946
39、6.04450.255475404196717546.3492.1298443.7242162.4268834.2497.0157-4.915663065196818591.2535.8349517.4287081.6316765537.4402-1.640201357196919631.6577.5398918.6333506.3364749573.81333.686717418197020684.7616.8468814.1380442.2422323621.6205-4.820475975合计2107889.37206.33471559288812931663057206.38.5265
40、1E-13平均10.5394.465360.315173578144406.5158315.3360.3154.26326E-14第36页/共85页 7.3.2 一元线性回归模型的估计 最小二乘估计量的性质 可以证明,在高斯假定能够得到满足的条件下, (7.3.20) 其方差 (7.3.21) 回归系数的最小二乘估计量,是最优的线性无偏估计量和一致估计量。 以上性质,在文献中被称为高斯马尔可夫定理。该定理表明,在高斯假定条件下,最小二乘估计量,是一种最佳的估计方式。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析.)(.)(2211EEXXnttXXntLXXVar
41、LXnXXXnVar2122222122221)()()1()(1()(第37页/共85页 7.3.2 一元线性回归模型的估计 随机误差项的方差估计 数学上可以证明, 2的无偏估计S2可由下式给出: (7.3.23) 在一元线性回归模型中,残差t必须满足1, 2最小二乘估计要求所导出的两个约束条件: (7.3.24) 因而失去了2个自由度,所以,残差t的自由度为n -2。 S越小,表明实际观测点与所拟的样本回归线的离差程度越小,即回归线具有较强的代表性;反之,S越大,表明实际观测点与所拟合的样本回归的离差程度越大,即回归线的代表性较差。因此,S又叫做回归估计的标准误差。 Ch7 相关与回归分析
42、相关与回归分析7.3 一元线性回归分析一元线性回归分析2)(22)(1221121222nXYneneesntttnttntt0)(; 0)(20; 0)(211221211211ntttntttttnttntttXeXXXYQeXYQ第38页/共85页 7.3.2 一元线性回归模型的估计 【例7-6】利用例7-2、例7-5的有关数据,计算其消费对可支配收入回归估计方程的回归估计标准误差。 解 : 已 知 n = 2 0 , ( Y ) = 7 2 0 6 . 3 , ( Y2) = 2 8 8 8 1 2 9 , (XY)=3166305, (2)= (Y2)-5.168775 (Y)- 0
43、.900324 (XY) =2888129-5.168775 7206.3-0.9003243166305 S2= (2)/(n S LXX=359506.4, (X)=7889.3, (X)/n 另 外 可 计 算 回 归 系 数1,2估 计 值 的 标 准 差 分 别 为(2.205544043)和(0.005293811)。 上述结果如果用Excel软件计算将更为简单。 Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析XYYYntttnttnttnttLLYXYYe212111212)(返回第39页/共85页 7.3.3 一元线性回归模型的检验 回归模型检验的
44、种类 包括理论意义检验、一级检验和二级检验。 理论意义检验,主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论及其人们的经验不相符,就说明模型不能很好地解释现实的现象。 一级检验,又称为统计学检验,它是利用统计学的抽样理论,来检验回归方程的可靠性,具体可分为拟合程度评价和显著性检验。一级检验,是所有回归分析必须通过的检验。 二级检验,又称为经济计量学检验,它是对标准线性回归模型中的高斯假定条件能否满足,进行检验,具体包括序列相关、异方差性检验等。 Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析第40页/共85页 7.3.3 一元线性回归模型的检验 由于
45、 (7.3.30) LYY是实际观察值与其样本均值的总的离差平方和,SSR是由回归直线解释的那部分离差平方和,称为回归平方和,SSE是残差平方和,是用回归直线无法解释的部分离差平方和。 公式两端同除以LYY,则 (7.3.31) 显然,各个样本观察值与样本回归线靠得愈近,SSR在LYY中的比例就越大。因此,可定义这一比例为可决系数 (7.3.32) Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析SSRSSELYYeYYLYYnttnttnttYY121212)()(YYYYLSSRLSSE 1YYnttYYYYLeLSSELSSR12211第41页/共85页 7.
46、3.3 一元线性回归模型的检验 可决系数2,是对回归模型拟合程度的综合度量指标,2越大,模型拟合程度越高;2越小,模型拟合程度越差。可决系数2具有如下性质: 021;当样本观察值(Yt, X t)都处于回归直线上时,SSE=0,2=1;当观察值(Yt, X t)并不全部处于回归直线上时,SSE0,02t /2,拒绝零假设H0,表示Y, X之间相关显著。 对一元线性回归模型,利用(7.3.18),有 (7.3.36) 可以证明:检验H0: 2=0等价于检验H0:=0,如果检验认为20,就意味着0,即认为X对Y的解释作用是真实的。由于t t(n-2),可以证明,t2= F F(1,n-2),于是在
47、一元线性回归模型中,对2的t检验和对LYY的解释平方和做F检验也是完全等效的。 Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析22222220SSSt22222120222nSSSt返回第45页/共85页 7.3.4 误差项t的自相关检验 自相关或称序列相关: 如果误差项之间存在相关关系, Cov(t,s)=E (ts ) 0; ts; ts (7.3.37) 则称这种现象为误差项t的自相关或称序列相关。 如果进一步有 t=et-1 +t; t N(0, 2); 且E (t s )=0;ts; ts。 (7.3.38) 其中-1e0;ts ;如果散布图有一种异号残
48、差相随的倾向,就表明存在负相关E(ts )0;t0,则记为“+”,若残差t |t|。 Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析nttnttteeeee1221)1 (2)1 (2eed第51页/共85页 7.3.4 误差项t的自相关检验 为了进一步判定在各种情况下,是否存在正的或负的自相关的问题,Durbin-Waston对任意的样本容量n和多达5个解释变量的情形,给出了d的分布及d的两个值dL(下界)和dU(上界)。如果d值落在0, dL范围内,则认为存在正自相关;如果d值落入dU, 4-dU范围内,则认为存在负自相关;而当d落入dU , 4-dU范围内时
49、,则认定不存在自相关;但当d落入dL, dU或者4-dL, 4-dU范围内时,则不能认定是否存在自相关。 Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析不确定区域不确定区域图图75 Durbin-Waston 统计统计f(d)d拒 绝 H0,存在正自相关0H0: e=0,H1: e0。拒 绝 H0,存在负自相关24不拒绝H0dL dU4-dL 4-dU第52页/共85页 7.3.4 误差项t的自相关检验 D-W双侧检验的具体步骤: 作统计假设 H0: e=0,H1: e0。 计 算 样 本 残 差t, 计 算(7.3.41) 式d统计量。 选择显著性水平,取=1%
50、或者=5%。根据,查d统计量表求临界值dL/2,dU/2,若d4-dU/2,拒绝H0选 择 H1存 在 自 相 关 ; 若dU/2d4-dU/2,则接受H0,表 示 不 存 在 自 相 关 ; 如 果dL/ 2 d dU/ 2, 或 者 4 -dL/2dF/2,拒绝零假设H0,表示自变量与因变量的线性关系显著。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)方差来源 自由度 平方和 均方差 F统计量 回归 p-1 SSR= XY SSR/(p-1) (SSR/(p-1)/(SSE/(n-p) 残差 n-p SSE=ee S2=SSE/(n-p) 总和 n-
51、1 LYY= SSR+ SSE,Y Y= XY+ ee YYt 返回第68页/共85页 7.4.4 多元线性回归模型的预测 回归预测的基本公式 0 = X0 (7.4.25) 其 中 , 0 = ( 0)1 1, X0= ( 1 , X 2 0, X 3 0, X 4 0, . . . , X p 0)1 p, =( )1 p 。 设X 0给定时Y的真值为Y0, 且Y0=(Y0)11, u0=(u0)11,e0=(e0)11, =(1, 2, 3, 4,. , p) 1 p,有 Y0= X0 + u0 , u0 N (0, 2 ) (7.4.26) 于是预测的残差e0 (7.4.27) 利用期
52、望值与方差的运算规则,以及估计量的期望值与方差,可以证明 (7.4.28) 在此基础上,亦可以证明,0是Y0的最优线性无偏估计预测,即在高斯假定得到满足的条件下,(7.4.25) 式就是Y0的最佳预测方式。 Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)00000000)(uXXuXYYe) )(1 ()(0)(010200XXXXeVareEp,.,4321第69页/共85页 7.4.4 多元线性回归模型的预测 Y0的区间估计: 由(7.4.27)、(7.4.28)式可知,在高斯假定条件下,e0服从于标准正态分布,即 e0 N (0,Var(e0) (
53、7.4.29) 由于Var(e0)中的2是未知的,通常用其无偏估计量S2来代替。用Se0来表示预测的标准误差的估计值, (7.4.30) 数学上可以证明 (Y0- 0)/Se0 t(n-p) (7.4.31) 对于给定的置信度为1- ,有 Pro0- t/2 (n-p)Se0 Y0 0 + t /2 (n-p) Se0=1-, (7.4.32) 于是可以得出Y0的1- 的置信区间为 0- t/2 (n-p)Se0 Y0 0 + t /2 (n-p)Se0, (7.4.33) 式中,t /2 (n-p)是置信度为1- 、自由度为n-p的t分布的临界值。该区间以0为中点,长度为2 t /2 (n-
54、2)Se0。中点0随X0线性地变化。因此,置信区间的上、下限曲线对称地落在回归向量平面两侧,而呈喇叭型。 Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)(10100XXXXSSe返回第70页/共85页 7.5 回归诊断与残差分析 7.5.1 残差分析 7.5.2 异方差性的补救措施 7.5.3 序列相关的补救措施Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(n
55、ew)返回第71页/共85页 7.5.1 残差分析 即使方程通过了相关系数或F检验,也不能排除数据的异常值和周期性因素干扰问题。这些问题的严重后果是,所有建立在高斯假定基础上的OLSE,可能是一个毫无意义的估计。因为它不仅没有反映现象的现实,相反还夸大了方程估计的可靠性。 如何判断数据中有异常值和周期性因素干扰呢? 残差分析是一个有力的工具。它的具体做法是,编制残差序列图,进行符号检验及序列相关检验,分析和猜测误差的来源,设法改进及剔除之,缩小误差,建立新的稳妥模型。残差分析也叫回归诊断。它是经济计量学检验的一部分。 检查是否有异常数据。 检查数据是否有周期性变化和倾向性变化。 检查回归模型是
56、否合适。 异方差性的检验。 误差项t的序列相关检验 。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)第72页/共85页 7.5.1 残差分析 检查是否有异常数据 所谓异常数据,就是与其它数据产生的条件,有明显的不同的数据。异常数据的存在,使估计结果出现很大的偏差。异常数据产生的原因:第一,未被作为解释变量的因素,比如是质的、制度的因素,在特定的观测期内突然发生了作用,使因变量产生一定的突变;第二,在编制统计资料的阶段,发生了非概率性的观测误差和汇总误差;第三,由非正态分布所产生的概率误差,在高斯假设条件下,变成了异常数据。 在高斯假定条件下,由(7.
57、4.33)式可知,在1- 水平下有残差置信带 - t/2 (n-p) Se0 Y0 - 0+ t /2 (n-p)Se0, (7.5.1) 即 -t /2 (n-p)Se0 0+ t /2 (n-p)Se0, (7.5.2) 所以,检查所有残差t,看是否都在残差置信带内;如果有数据在残差置信带外,就要辩明是否是异常数据。对异常数据要予以剔除。然后重新估计方程。 Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)第73页/共85页 7.5.1 残差分析 残差分析Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)图图7
58、8 残差分析残差分析异方差存在的证异方差存在的证据据0Y0t2t模 型 选 择 不模 型 选 择 不当当Xt残差的非随机变残差的非随机变动动00ttt置信带内的残差分置信带内的残差分布布+ t/2 (n-p) S- t/2 (n-p)S第74页/共85页 7.5.1 残差分析 检查数据是否有周期性变化和倾向性变化。 周期性变化和倾向性变化,可以通过观察残差分布图来得到初步答案。通常的做法是,以t= Yt t作为纵坐标,以序号t为横坐标,编制残差序列分布图。观察残差点(t, t )的分布。一般而言,在ut N (0, 2 )条件下,残差点的分布应该是完全随机的,应该在残差置信带内上下随机波动;并
59、且不能有任何的趋势。同样,残差点的分布也不能有任何周期性的变化。其周期性的存在性可以用符号游程检验的方法判定。若t 0,记符号为“+”,若t 0,记符号为“”,则一个残差序列t, t=1,2,3,n可获得一个符号序列,连续同号的点称为一个游程或者一个连窜,一个游程中符号的个数叫做游程的长度。利用游程的个数及游程的长度,可以检查数据是否有周期性变化或者明显的倾向。如果游程的随机检验不能通过,则有理由怀疑数据和模型有问题。有关符号检验的方法参见第六章。 Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)第75页/共85页 7.5.1 残差分析 检查回归模型是
60、否合适。 记e=Y,由(7.4.3)式,如果X和Y之间有线性关系,则 Y= X + u ;u N (0, 2 I) (7.5.3) = X = X (XX)-1XY=HY (7.5.4) 其中H=X (XX)-1X,于是有 e=Y=(IH)Y=(IH)u, (7.5.5) 此处应用了(IH) X =0,则有 E(e )=0,Cov(e, e )= 2(IH),Cov(, e )=0, (7.5.6) 如果X和Y之间有非线性关系,则有 Cov(, e ) 0, (7.5.7) e与相关。编制以t= Yt t作为纵坐标、以t为横坐标的残差图并观察之。如果残差图出现一段全为负(或正),紧接着一段全为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国即时配送行业市场深度调研分析及投资前景研究预测报告
- 公路环境保护培训课件
- 医保科培训课件
- 可行性研究报告范文案例
- 道桥专用防水卷材项目投资可行性研究分析报告(2024-2030版)
- 税务师网课价格
- 供应商考察报告范文怎么写
- 中国自行车头盔行业市场调查研究及投资前景预测报告
- 2025年 杭州市建德市资产经营投资有限公司招聘考试笔试试题附答案
- 拍卖会策划方案范文
- 2024年-2025年农作物植保员职业技能考试题及答案
- (小升初分班考)2023年小升初英语专题训练:阅读理解(人与自然)(含答案解析)人教PEP版
- 拍卖合同模板三篇
- 2023北京西城区初二期末(下)物理试卷及答案
- 2023-2024学年山东省烟台市高一下学期期中生物试题(解析版)
- 浅谈机械设计制造及其自动化在飞机发动机中的应用
- 2024年西北工业大学附中丘成桐少年班初试数学试题真题(含答案详解)
- 北京东城五中2025届高三(最后冲刺)历史试卷含解析
- 2023-2024学年浙江省衢州市开化县七年级(下)期中数学试卷(含答案)
- 房产自愿转让协议书
- 人教版必修二研究与实践了解车用能源化学
评论
0/150
提交评论