气象统计方法第五章多元线性回归分析_第1页
气象统计方法第五章多元线性回归分析_第2页
气象统计方法第五章多元线性回归分析_第3页
气象统计方法第五章多元线性回归分析_第4页
气象统计方法第五章多元线性回归分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主讲:温 娜南京信息工程大学大气科学学院2014年9月本课件主要参考南信大李丽平老师的课件l概述概述l回归模型回归模型l回归系数的最小二乘估计回归系数的最小二乘估计l方差分析方差分析l回归方程显著性检验回归方程显著性检验l预报因子显著性检验预报因子显著性检验l复相关系数复相关系数l预报步骤预报步骤1. 1. 意义意义 在气象统计预报中,寻找与预报量线性在气象统计预报中,寻找与预报量线性关系很好的单个因子是不够的,实际上某个关系很好的单个因子是不够的,实际上某个气象要素的变化可能和气象要素的变化可能和前期多个因子有关,前期多个因子有关,因此大部分气象统计预报中的回归分析都是因此大部分气象统计预报

2、中的回归分析都是用多元回归技术进行。用多元回归技术进行。2.2.基本概念基本概念 多元回归就是研究一个预报量和多个多元回归就是研究一个预报量和多个预报因子之间的关系。主要讨论较为简预报因子之间的关系。主要讨论较为简单的单的多元线性回归多元线性回归。其分析原理与一元。其分析原理与一元线性回归分析完全相同。线性回归分析完全相同。二、回归模型二、回归模型 假定预报量假定预报量y y与与p p个预报因子关系是线个预报因子关系是线性,为研究它们之间的联系作性,为研究它们之间的联系作n n次抽样,则次抽样,则可得到如下结构表达式:可得到如下结构表达式: (1)(1) nnppnnnppppexxxyexx

3、xyexxxy2211022222211021112211101 其中,其中, 为为p+1p+1个待估计参数,个待估计参数, 是是p p个个一般变量,一般变量, 是随机误差(相互独立变是随机误差(相互独立变量),服从量),服从 正态分布。上述模型正态分布。上述模型还可以写为:还可以写为: (2)(2) ixiie), 0(2NeXy其中,其中,都是向量。都是向量。X X是因子矩阵,即是因子矩阵,即 nyyy21yp102neee1enpnppxxxxxx1221111111X 我们得到的是我们得到的是一组实测一组实测p p个变量的样本个变量的样本,利,利用这组样本(用这组样本(n n 次抽样次

4、抽样)对上述回归模型进行)对上述回归模型进行估计,得到的估计方程为多元线性回归估计方估计,得到的估计方程为多元线性回归估计方程,记为:程,记为: (3)(3)其中,其中, 是是 的估计值,下面讨论如何确定的估计值,下面讨论如何确定它们。它们。ppbbbbxxxy22110ibi 和一元线性回归类似,在样本容量为和一元线性回归类似,在样本容量为n n的的y y预报量和因子变量预报量和因子变量x x的实测值中,满足线性回的实测值中,满足线性回归方程归方程的要求的回归系数,应是使全部的的要求的回归系数,应是使全部的预报量观测值预报量观测值与与回回归估计值的差值平方和达到最小归估计值的差值平方和达到最

5、小。即满足。即满足最小。最小。ippiiixbxbxbby22110ni1niiiyyQ12)( 对一组样本资料,预报值的估计可以看成对一组样本资料,预报值的估计可以看成为一个向量,记为为一个向量,记为满足(满足(3 3)的回归方程,也可以写为矩阵形式,)的回归方程,也可以写为矩阵形式,即即 ,其中,其中,X X就是因子矩阵就是因子矩阵,b b为回为回归系数归系数,即,即nyyy21ypbbb10bXby 预报量的观测值与回归值之差的内积就预报量的观测值与回归值之差的内积就是它们的分量的差值平方和,即是它们的分量的差值平方和,即根据微分学原理,有根据微分学原理,有00010pbQbQbQ()(

6、) ()()Q y y y yy-Xb y Xbyy-bXy-yXb bXXb可以写成向量的形式可以写成向量的形式0 0bXbXbbXbybyXbbyyb)()()()(Q=0y XbXbybyXb)()(XbXbXbXb2)(补充用矢量和补充用矢量和矩阵形式表示的函数的微分矩阵形式表示的函数的微分设设x 为为 列向量,列向量,a为为 列向列向量,量, 为为 的函数,则的函数,则f 对对x的偏微分记为的偏微分记为1n1nxaaxfix)(21nxfxfxffx1 1)如果如果x、a及及f如上面定义,则有如上面定义,则有2 2)如果)如果x x如上面定义,令如上面定义,令 ,则则ax fxxfx

7、x2f3 3)如果)如果A A为为 对称阵,则对称阵,则对对x x的偏微分为的偏微分为nn AxxfAxxAxx2)( 当矩阵和向量的运算结果是一行一列的矩当矩阵和向量的运算结果是一行一列的矩阵时,可以表示一个多元函数;阵时,可以表示一个多元函数; 多元函数的值域是一个数量,当它表达(多元函数的值域是一个数量,当它表达(x1, x2 ,xm) 有规则运算时,用向量和矩阵运算比有规则运算时,用向量和矩阵运算比较方便。较方便。 当多元函数当多元函数f(x1, x2 ,xm)表示(表示(x1, x2 ,xm)有规则运算时,它对(有规则运算时,它对( x1, x2 ,xm )的偏导也)的偏导也是有规则

8、的,可用多元函数是有规则的,可用多元函数f(X)对向量对向量X的导数的导数一并表示。一并表示。 前面的式子是采用向量和矩阵的运前面的式子是采用向量和矩阵的运算表示多元函数及多元函数对自变量的算表示多元函数及多元函数对自变量的导数,导数,不能说成不能说成“矩阵和向量的求导矩阵和向量的求导”,因为只有函数才能对它的自变量求导数。因为只有函数才能对它的自变量求导数。 通过分析其向量形式可得到通过分析其向量形式可得到求回归系数求回归系数的标准方程组矩阵形式,的标准方程组矩阵形式,即即 (4)(4)展开为展开为yXXbXniiipniippniiipniipniiiniipipniiiniiniiini

9、ipipniiniiniiniippniiyxxbxxbxbyxxxbxxbxbyxxxbxbxbyxbxbnb112111101212112112011111211110111110求解上述方程组的方法:求解上述方程组的方法:1)1)用高斯或亚当用高斯或亚当高斯消去法,解此高斯消去法,解此正规方程组得回归系数估计值正规方程组得回归系数估计值b b0 0和和b bk k(k=1-p) (k=1-p) 2)2)用矩阵运算求解用矩阵运算求解( (逆矩阵法逆矩阵法) )l Ab=B A-1Ab=A-1B b=A-1Bl b=A-1B=(XX)-1XY四、线性回归模型的其他两种形式四、线性回归模型的其

10、他两种形式1 1、距平形式:、距平形式: 从(从(4 4)式可以导出)式可以导出代入(代入(3 3)式,得到)式,得到 ppxbxbxbyb22110)()()(222111pppxxbxxbxxbyy令令上式变为上式变为 (5) yyyd 111xxxdppdpxxx.dppdddxbxbxby2211 对一组样本容量为对一组样本容量为n n的多个距平变量数据,的多个距平变量数据,可类似写成可类似写成回归方程的矩阵形式回归方程的矩阵形式其中,其中,bXydd dnddyy1ypbb1bdnpdndnpdddpdddxxxxxxxxx212222111211dX 气象上,气象上,为消除季节变化

11、的差别或者为消除季节变化的差别或者地点的差别地点的差别,经常使用距平变量研究问题。经常使用距平变量研究问题。所以形如(所以形如(5 5)式的回归方程更为常用。)式的回归方程更为常用。 1 1)从距平变量的观测值求回归系数,)从距平变量的观测值求回归系数,同样用最小二乘法导出求回归系数的标准同样用最小二乘法导出求回归系数的标准方程组,其矩阵形式为方程组,其矩阵形式为 (6)ddddbyXXX展开得到求系数标准方程组形式为展开得到求系数标准方程组形式为nididipnidippnididipnididipnididinidipdipnidinididinididinidipdipdinidinid

12、iyxxbxxbxxbyxxxbxbxxbyxxxbxxbxb112112111121212221121111111221211 2 2)有时,为书写方便,()有时,为书写方便,(6 6)式两边乘上)式两边乘上1/n1/n,变成各变量的协方差形式,相应的方,变成各变量的协方差形式,相应的方程组写为程组写为其中,其中,pypppppyppyppssbsbsbssbsbsbssbsbsb22112222221111122111nidildikklxxns11nididikkyyxns11plk, 2 , 1, 通常称通常称 为为因子协方差矩阵因子协方差矩阵。于是(于是(6 6)式可以写为)式可以写

13、为 。 其中其中上面的方程组和(上面的方程组和(6 6)式没有本质区别,有时)式没有本质区别,有时直接从(直接从(6 6)式求解,但写成上面的形式。)式求解,但写成上面的形式。ddX XX Xn1SxysSb pyyxyss1s2 2、如果把变量变成、如果把变量变成标准化变量标准化变量,即对(,即对(5 5)式的距平变量多元线性回归方程两边除以式的距平变量多元线性回归方程两边除以预报量预报量y y的标准差,得到的标准差,得到其中,其中, 为为p p个变量的标准差。个变量的标准差。ypppyyysxxbsxxbsxxbsyy222111pppyppyysxxssbsxxssbsxxssb2222

14、211111is若令若令则可以化为则可以化为标准化回归方程标准化回归方程 ykkzkkkkzkyzssbbsxxxsyyyplk, 2 , 1,zpzpzzzzzxbxbxby2211 对一组样本容量为对一组样本容量为n n的多变量数据,可的多变量数据,可类似写成类似写成标准化变量回归方程矩阵形式标准化变量回归方程矩阵形式 (7)(7) 其中,其中, 为标准化因子矩阵,为标准化因子矩阵, 为标为标准化回归系数向量,其中第准化回归系数向量,其中第k k个分量为个分量为 。zzzbXyzXzbzkb 可用最小二乘法求出标准化回归系数向可用最小二乘法求出标准化回归系数向量,量,标准化方程组的矩阵形式

15、为标准化方程组的矩阵形式为或者或者 (8)(8)其中,其中,zzzzyXbXXzxyzrRbzznXXR1zzpyyynrrryXrxy121R R为为p p个因子的相关矩阵。(个因子的相关矩阵。(8 8)式展开为)式展开为pyzpppzpzpyzppzzyzppzzrbrbrbrrbrbrbrrbrbrbr22112222212111212111l原始变量回归方程:原始变量回归方程:l距平变量回归方程:距平变量回归方程:l标准化变量回归方程:标准化变量回归方程:01 122kkybb xb xb x1122dddkdkyb xb xb x1122zzzzzzzkyb xb xb x四、回归问

16、题的方差分析四、回归问题的方差分析 和一元回归问题方差分析类似,预报量和一元回归问题方差分析类似,预报量的方差可以表示成回归估计值的方差(回的方差可以表示成回归估计值的方差(回 归方差)和误差方差(残差方差)之和。归方差)和误差方差(残差方差)之和。222eyySSS 有时候,两边同时乘以有时候,两边同时乘以n n变成各变量离差变成各变量离差平方和的关系。平方和的关系。QUSyyddniiyyUyy )(12)( )() ()()(1122ddddniniiiiiyyyyyyQyyyyddniiyyyySyy12)( 上式最后一项为上式最后一项为0 0。U U和和Q Q分别称为回归平分别称为回

17、归平方和及残差平方和,方和及残差平方和, 称为总离差平方和。称为总离差平方和。U U反映了反映了p p个因子与预报量线性关系部分。个因子与预报量线性关系部分。Q Q反反映了观测值偏离回归直线的程度。映了观测值偏离回归直线的程度。yyS)( 2)( )(dddddddddyyyyyyyyy)()(ddddddyySyyyyyy向量形式:向量形式:niiniiniiiyyyyyyyyR12121)()()(yyddddddddddddSUR)()(yyyyyyyyyyyy 意义:意义: 上式反映了上式反映了回归平方和回归平方和、总离差总离差平方和平方和与与复相关系数复相关系数的关系。可见,的关系。

18、可见,复相关系数实际是衡量复相关系数实际是衡量p p个因子对预个因子对预报量的线性解释方差的百分率,其报量的线性解释方差的百分率,其变化在变化在0 01 1之间。之间。yySQR 12 1 1)衡量)衡量一个一个预报量和预报量和多个预报多个预报因子因子之间的线性关系程度的量;之间的线性关系程度的量; 2 2)衡量了预报因子对预报量的线性解衡量了预报因子对预报量的线性解释方差的百分率;释方差的百分率; 3 3)R R的绝对值越大,表明回归效果越好。的绝对值越大,表明回归效果越好。201R 调整复相关系数调整复相关系数残差方差的无偏估计量残差方差的无偏估计量: :预报量预报量y y的方差的无偏估计

19、量:的方差的无偏估计量:12pnQe12nSyyy 调整复相关系数调整复相关系数是对总体复相关系数的估计,是对总体复相关系数的估计,也是对总体回归关系的解释方差的一种估计。也是对总体回归关系的解释方差的一种估计。1111222nSpnQRyyye)1)(11(12Rpnn 假设预报因子与预报量之间无线性关系,假设预报因子与预报量之间无线性关系,则回归系数应该为则回归系数应该为0 0。 检验假设:检验假设: 计算统计量计算统计量0:210pH1pnQpUF遵从分子自由度为遵从分子自由度为p,p,分母自由度为分母自由度为n-p-1n-p-1的的F F分布,在显著性水平分布,在显著性水平 下,若下,

20、若 ,认为回归方程是显著的。认为回归方程是显著的。11122pnRpRpnSQpSUFyyyyFF 七、预报值的七、预报值的95%置信区间置信区间ey96.1 1pnQe1.1.确定预报量并选择恰当的因子。确定预报量并选择恰当的因子。2.2.根据数据计算回归系数标准方程组所包含根据数据计算回归系数标准方程组所包含的有关统计量(因子的交叉积、矩阵协方的有关统计量(因子的交叉积、矩阵协方差阵或相关矩阵,以及因子与预报量交叉差阵或相关矩阵,以及因子与预报量交叉积向量等);积向量等);3.3.求解线性方程组,定出回归系数;求解线性方程组,定出回归系数;4.4.建立回归方程并进行统计显著性检验;建立回归

21、方程并进行统计显著性检验;5.5.利用已经给出的因子带入回归方程做出预利用已经给出的因子带入回归方程做出预报量的估计,求出预报值的置信区间。报量的估计,求出预报值的置信区间。例例1,为预报长江中下游,为预报长江中下游7月降水,选取月降水,选取x1为当年长江为当年长江中下游五站平均的中下游五站平均的1月份降水量;月份降水量;x2是当年是当年2月份平均月份平均气温,气温,n=29,由资料计算得离差阵由资料计算得离差阵 :及及74468413715193814755055446921.).( xxyG试建立二元回归方程试建立二元回归方程解:增广系数矩阵解:增广系数矩阵 )(0A1)、k=110123908175635055446903240908175634456911011013113011012112011011111.,)()()()()()

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论