气象统计方法课件-3回归分析_第1页
气象统计方法课件-3回归分析_第2页
气象统计方法课件-3回归分析_第3页
气象统计方法课件-3回归分析_第4页
气象统计方法课件-3回归分析_第5页
已阅读5页,还剩209页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章回归分析1.一元线性回归分析2.多元线性回归分析3.逐步回归方法第三章回归分析1.一元线性回归分析1回归分析是用来寻找若干变量之间统计联系(关系)的一种方法。它是一种统计模型,分为线性回归和非线性回归。线性回归在气象中最为常用。利用回归分析得到的统计关系对某一变量作出未来时刻的估计,称为预报值(量)。前期已发生的多个与之有关的气象要素称为预报因子。回归分析是用来寻找若干变量之间统计联系(关系)的一种方法。利2气象统计方法课件-3回归分析3第一节一元线性回归一元回归分析处理的是两个变量之间的关系,即一个预报量和一个预报因子之间的关系。第一节一元线性回归一元回归分析处理的是两个变量之4基本原理:对抽取容量为n的预报量y与预报因子x的一组样本,如认为y与x是一元线性统计关系,则线性回归方程为:那么预报量的估计量与x有如下关系:或写为一般的回归方程:

b0为截距,b为斜率一、回归模型基本原理:对抽取容量为n的预报量y与预报因子x的一组样本,如5年份冬季环流指标(x)5月平均气温T(y)1951320.91952251.21953202.21954262.4195527-0.51956242.5195728-1.119582401959156.21960162.71961243.2196230-1.11963222.51964301.21965241.81966330.61967262.41968202.51969321.2197035-0.8年份冬季环流指标(x)5月平均气温T(y)1951320.96xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^最小二乘法求回归系数xy(xn,yn)(x1,y1)(7对所有的xi,若与yi的偏差最小,就认为(1)式所确定的直线能最好地代表所有实测点的散布规律。为了消除偏差符号的影响,可以用偏差的平方来反映偏差的绝对值偏离情况。对所有的xi,若与yi的偏差最小,就认为(1)式8显然,Q值越小越好,Q是待定系数a和b的函数。根据极值原理,要求:全部观测值与回归直线的离差平方和记为:(2)式刻画了全部观测值与回归直线偏离程度。显然,Q值越小越好,Q是待定系数a和b的函数。根据极值原理9整理得到求回归系数b0、b的方程组:

(3)式称为求回归系数的标准方程组。整理得到求回归系数b0、b的方程组:10回归系数也可直接表示为:回归系数也可直接表示为:11----距平形式回归方程将

代入回归方程,得到:或----标准化形式回归方程----距平形式回归方程将12回归系数b与相关系数之间的关系:相关系数r与回归系数b同号。当b<0,回归直线斜率为负,预报量y随预报因子x增加而减少,反映预报量与因子是负相关;当b>0,回归直线斜率为正,预报量y随预报因子x增加而增加,反映预报量与因子是正相关。回归系数b与相关系数之间的关系:相关系数r与回归系数b同号131、意义

评价回归方程的优劣。2、预报量的方差可以表示成回归估计值的方差(回归方差)和误差(残差)方差之和。二、回归问题的方差分析即:1、意义二、回归问题的方差分析即:14方差分析表明,预报量y的变化可以看成由前期因子x的变化所引起的,同时加上随机因素e变化的影响,这种前期因子x的变化影响可以用回归方差的大小来衡量。如果回归方差大,表明用线性关系解释y与x的关系比较符合实际情况,回归模型比较好。方差分析表明,预报量y的变化可以看成由前期因子x的变化所引起15(4)式两边同时乘以n变成各变量离差平方和的关系。总离差平方和:回归平方和:残差平方和:反映因变量y的n个观测值与其均值的总离差.反映回归值的分散程度.反映观测值偏离回归直线的程度.(4)式两边同时乘以n变成各变量离差平方和的关系。总离差平方16三、相关系数与线性回归因为回归方差不可能大于预报量的方差,可以用它们的比值来衡量方程的拟合效果。即:回归方程判决系数上式表明预报因子x对预报量y的方差的线性关系程度,这一比值又称为解释方差。判决系数是衡量两个变量线性关系密切程度的量,也等于两变量相关系数的平方。三、相关系数与线性回归回归方程判决系数上式表明预报因子x对预17判决系数的物理含义:1.回归平方和占总离差平方和的比例;2.反映回归直线的拟合程度;3.取值范围在[0,1]4.r2→1,说明回归方程拟合的越好;

r2→0,说明回归方程拟合的越差;5.判决系数等于相关系数的平方.判决系数的物理含义:1.回归平方和占总离差平方和的比例;18回归分析与相关分析的区别:相关分析中,变量x、y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化。相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。回归分析与相关分析的区别:相关分析中,变量x、y处于平等的地19四、回归方程的显著性检验显著性检验的主要思想是检验预报因子与预报量是否有线性关系。可以证明在原假设总体回归系数为0的条件下,统计量

遵从分子自由度为1,分母自由度为(n-2)的F分布。查F的分布表,在a=0.05下,若则认为回归方程是显著的。反之,则不显著。四、回归方程的显著性检验20F分布表F分布表21统计量F也可以写为:注意:对于一元线性回归来说,因为F的相关系数表达式开方就是相关系数t检验的表达式,故回归方程的检验与相关系数的检验一致。统计量F也可以写为:注意:22五、回归系数的显著性检验气象中使用最多的是回归方程的距平形式,所以对回归方程的显著性检验可以只对因子的回归系数进行检验。在原假设H0:β=0的条件下,统计量遵从自由度为n-2的t分布.五、回归系数的显著性检验气象中使用最多的是回归方程的距平形式23或者根据F分布与t分布的关系,统计量遵从分子自由度为1,分母自由度为n-2的F分布.对回归方程的检验与对回归系数的检验一致.或者根据F分布与t分布的关系,统计量遵从分子自由度为1,分母24因为yi可以看成遵从的正态分布,所以其95%的置信区间为六、预报值的置信区间因为yi可以看成遵从25一元线性回归分析预测步骤

一元线性回归分析预测步骤26年份气温T环流指标19510.93219521.22519532.22019542.4261955-0.52719562.5241957-1.128195802419596.21519602.71619613.2241962-1.13019632.52219641.23019651.82419660.63319672.42619682.52019691.2321970-0.835年份气温T环流指标19510.93219521.22519527气象统计方法课件-3回归分析2851351329气象统计方法课件-3回归分析30第二节多元线性回归

对某一个预报量y,研究多个因子与它的定量统计关系----多元回归多元线性回归的原理与一元线性回归完全相同第二节多元线性回归对某一个预报量y,研究多个因子与它的31一、多元回归模型描述因变量y如何依赖于自变量x1,x2,…,xp和误差项

的方程,称为多元回归模型.涉及p个自变量的多元线性回归模型可表示为

b0

,b1,b2

,,bp是参数.y是x1,,x2

,,xp

的线性函数加上误差项.是被称为误差项的随机变量,包含在y里面但不能被p个自变量的线性关系所解释的变异性.一、多元回归模型描述因变量y如何依赖于自变量x1,x2,32假定预报量y与p个预报因子关系是线性,为研究它们之间的联系作n次抽样,则可得到如下结构表达式:展开假定预报量y与p个预报因子关系是线性,为研究它们之间的联系作33(1)式也可以写成矩阵形式:其中:(1)式也可以写成矩阵形式:其中:34我们得到的是一组实测p个变量的样本,利用这组样本(n次抽样)对上述回归模型进行估计,得到的估计方程为多元线性回归方程,记为:其中,bi是的βi估计值,下面讨论如何确定它们。我们得到的是一组实测p个变量的样本,利用这组样本(n次抽样)35二、回归系数最小二乘估计

和一元线性回归类似,在样本容量为n的y预报量和因子变量x的实测值中,满足线性回归方程:要求回归系数,应使全部的预报量观测值与回归估计值的差值平方和Q达到最小。二、回归系数最小二乘估计和一元线性回归类似,在样本容量为n36由极值定理:由极值定理:37气象统计方法课件-3回归分析38三、线性回归模型的其他形式——距平形式的回归方程三、线性回归模型的其他形式——距平形式的回归方程39从距平变量的观测值求回归系数,同样用最小二乘法导出求回归系数的标准方程组:从距平变量的观测值求回归系数,同样用最小二乘法导出求回归系数40为书写方便,上式两边乘上1/n,变成各变量的协方差形式,相应的方程组写为:为书写方便,上式两边乘上1/n,变成各变量的协方差形式,相应41对距平变量多元线性回归方程两边除以预报量y的标准差,得到:令:——标准化形式的回归方程对距平变量多元线性回归方程两边除以预报量y的标准差,得到:令42从标准化变量的观测值求回归系数,同样用最小二乘法导出求回归系数的标准方程组:从标准化变量的观测值求回归系数,同样用最小二乘法导出求回归系43四、回归问题的方差分析回归方差可表示为:对于标准化变量而言,回归方差为:=0四、回归问题的方差分析回归方差可表示为:对于标准化变量而言,44五、复相关系数复相关系数R:衡量一个预报量与多个变量之间线性关系程度的量,即衡量预报量y与估计量之间线性相关程度的量。五、复相关系数45六、回归方程的显著性检验

回归方程的显著性检验和一元回归类似:假设总体回归系数为0时,利用

遵从分子自由度为p,分母自由度为n-p-1的F分布,在显著性水平下α=0.05,若,认为回归方程是显著的。六、回归方程的显著性检验遵从分子自由度为p,分母自由度为n46因为的正态分布,,所以其95%的置信区间为:七、预报值的置信区间因为47若在p个预报因子中去掉一个因子,再建立它们对y的预报方程,则此时回归平方和、残差平方和记分别为,定义单个预报因子的方差贡献:八、预报因子(回归系数)的显著性检验是因子离差矩阵的对角线上的元素。若在p个预报因子中去掉一个因子,再建立它们对y的预报方程,则48计算统计量

符合自由度为(1,n-p-1)的F分布。给定信度以后,当,说明第k个因子的方差贡献是显著的。计算统计量49九、在气象中利用回归方程进行预报的步骤

1)确定预报量并选择恰当的因子2)根据数据计算回归系数标准方程组所包含的有关统计量(因子的交叉积、协方差阵或相关阵,以及因子与预报量交叉积、协方差或相关系数)3)解线性方程组定出回归系数4)建立回归方程并进行统计显著性检验5)利用已出现的因子值代入回归方程作出预报量的估计,求出预报值的置信区间九、在气象中利用回归方程进行预报的步骤50十、实例分析例:设对某一预报量y,选择4个因子作预报,样本容量n=13,它们的资料见表1i12345678910111213x17111117113122111110x226295631525571315447406668x3615886917221842398x46052204733226442226341212y78.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4十、实例分析i1234567891051为了说明问题,我们选取,,作为因子使用标准化变量的回归方程,求标准回归系数的方程组为:(略去下标z)

得出回归方程为:

为了说明问题,我们选取,,作52计算回归方差和残差方差:

对回归方程进行统计检验,计算

在显著水平a=0.05下,说明该方程是显著的。以上用的是多元线性回归方法。但是这是否说明三个因子对预报量都有显著影响呢?计算回归方差和残差方差:53对回归系数检验,利用发现是显著的,而和是不显著的。

通过例子说明,尽管回归方程是显著的,并不能说明方程中所有因子都对预报量有显著影响。对回归系数检验,利用通过例子说明,尽管回归方程是显著的,并54回归分析中回归系数的计算回归分析中回归系数的计算55(1)交换矩阵的两行(2)以非零常数k乘矩阵的某一行(3)将矩阵的某一行乘非零常数k加至矩阵的另一行初等行变换1、线性方程组求解—高斯-亚当消去法(1)交换矩阵的两行初等行变换1、线性方程组求解—高斯-亚当562、求解求逆并行方案2、求解求逆并行方案572、求解求逆紧凑方案2、求解求逆紧凑方案58r21×/r11r31×r21×/r11r31×59气象统计方法课件-3回归分析60列列61气象统计方法课件-3回归分析62气象统计方法课件-3回归分析63气象统计方法课件-3回归分析64第三节逐步回归分析

在气象预报中,对预报量的预报常常需要从可能影响预报y的诸多因素中挑选一批关系较好的作为预报因子,应用多元线性回归的方法建立回归方程来做预报,但如何才能保证在已选定的一批因子中得到最优的回归方程呢?逐步回归分析方法就是针对这一问题提出的一种常用方法。第三节逐步回归分析在气象预报中,对预报量的预报65若在p个预报因子中去掉一个因子,再建立它们对y的预报方程,则此时回归平方和、残差平方和记分别为,定义单个预报因子的方差贡献:一、预报因子(回归系数)的显著性检验是因子离差矩阵的对角线上的元素。若在p个预报因子中去掉一个因子,再建立它们对y的预报方程,则66在多元线性回归方程的建立中,尽管最后都作了方程的统计检验,但并不意味着在p个因子中,每个因子对预报量y的影响都是重要的。需要对每个因子进行考察,若某个因子对预报量y的作用不显著,那么在多元线性回归方程中它前面的系数就可能近似为0,因此,检验某一因子是否显著等价于检验假设:在多元线性回归方程的建立中,尽管最后都作了方程的统计检验,但67要对作假设检验,自然就要寻找它的样本统计量和与它有关的统计量的分布。因为最小二乘估计的是随机变量的线性函数,由于这些随机变量是遵从正态分布,则也遵从正态分布。要对作假设检验,自然就要寻找它的样本统计量和与它有关68计算统计量

符合自由度为(1,n-p-1)的F分布。给定信度以后,查表求出标准值,若,说明该因子方差贡献显著,保留该因子,否则可以考虑从回归方程中剔除出去。计算统计量69二、预报因子数目对回归方程的影响一般而言,回归方程中包含的因子个数越多,回归平方和就越大,残差平方和越小。但是当因子增加到一定数目,残差平方和下降的幅度就很小了。一般回归方程的因子数目在5-6个左右为宜。如果因子过多,则一方面对方程所起的贡献已不很大,另一方面会带来因子本身的各种随机因素,影响回归方程的稳定性,反而使预报效果下降。

选择因子时要使因子之间的相关系数

,而因子各自与预报量之间的相关系数

。越小越好越大越好二、预报因子数目对回归方程的影响一般而言,回归方程中包含的因70关键问题:既要选择对预报量影响显著的因子,又要使回归方程的残差方差估计很小,这样才有利于气象预报。如何选择这种最优的回归方程呢?————逐步回归方法关键问题:71三、逐步回归的三种方案1、逐步剔除方案2、逐步引进方案3、双重检验的逐步回归方案三、逐步回归的三种方案1、逐步剔除方案72逐步剔除方案

1、基本思想:从包含全部变量的回归方程中逐步剔除不显著的因子。2、方案:

假定有p个预报因子,首先用这p个因子建立回归方程,然后检查每个因子的方差贡献大小。逐步剔除方案1、基本思想:从包含全部变量的回归方程中逐步剔73从Vk中选出方差贡献最小者记为Vmin,检验时使用统计量表示回归方程含l个因子时的残差平方和。若显著,则其余因子也是显著的。若不显著,则剔除这一因子,对该因子对应的列进行消去后重复上面的步骤。从Vk中选出方差贡献最小者记为Vmin,检验时表示回归方程743、思考(1)因子的方差贡献代表什麽意义?(2)为何不同时把几个不显著的因子从方程中剔除出去,而是要每次剔除一个?3、思考(1)因子的方差贡献代表什麽意义?75(1)回归平方和是所有因子对预报量的总贡献。所考虑的因子越多,回归平方和越大,若去掉一个因子,回归平方和只会减小,不会增加。减少的数值越大,说明该因子在回归中所起的作用越大,表明该因子越重要,所以,可用此衡量该因子的方差贡献大小。Vk就是去掉第k个因子后,回归平方和的减少量。这部分也叫做偏回归平方和。衡量每个因子对回归方程所起作用的大小。(1)回归平方和是所有因子对预报量的总贡献。所考虑的因子越多76(2)在剔除因子过程中,假如x1、x2方差贡献都比较小,我们只能剔除其中的最小者,而不应该全部去掉。因为这两个因子之间可能存在密切相关关系,剔除x1后,其对y的影响很大部分可以转加到x2对y的影响上。所以回归平方和不会因此减小很多。但如果同时去掉两个因子,就会比较多的减少回归平方和,从而影响回归的精度。(2)在剔除因子过程中,假如x1、x2方差贡献都比较小,我们77逐步引进方案

1、基本思想:在一批待选的因子中,考查他们对预报量y的方差贡献,挑选所有因子中方差贡献最大者,经统计检验是显著后,进入回归方程。2、方案:

如从x1,x2,…,xp

等因子中考察哪个因子方差在一元回归方程中贡献最大,故首先计算:

U(0)为回归方程中无任何因子时的回归平方和,此时为0。逐步引进方案1、基本思想:在一批待选的因子中,考查他们对预78假如在p个因子中,xk的方差贡献最大,记为Vmax,则据回归系数的检验公式遵从F分布的统计量进行检验:

若显著,则该因子引进。假如在p个因子中,xk的方差贡献最大,记为Vmax,79设到l步,方程已有l个因子。若考虑从p-l个因子中引进哪个变量时,还是要考察他们各个因子引进后的方差贡献,仍选取最大者,记为Vmax,使用统计量:作检验,其中Q(l+1)表示在将要引入回归方程的l+1个因子时,回归方程的残差平方和。如此在方程中逐个地引入因子。设到l步,方程已有l个因子。若考虑从p-l个因子中引进哪个变80注意:这样得到的方程并不能保证其中所有因子都是显著的。因为各因子之间可能存在相关关系,引入新变量后,原有的变量就不一定仍然显著。所以,逐步引入方案不一定保证最后的回归方程是“最优”的。注意:这样得到的方程并不能保证其中所有因子都是显著的。因为各811、基本思想:

将因子一个个引入,引入因子的条件是该因子的方差贡献显著;同时,每引入一个新因子,要对已引入的老因子逐个检验,将方差贡献变为不显著的因子剔除。因此双重检验的逐步回归能使最后组成的方程只含有重要的变量,所建立的回归方程也称为最优回归方程。这一方法在目前气象统计预报中所常用。双重检验的逐步回归方案1、基本思想:双重检验的逐步回归方案822、方法:利用求解线性方程组求解求逆并行(紧凑)方案,使得计算因子方差贡献和求解回归系数同时进行。3、优点:计算简便,由于每步都作检验,保证了最后所得方程中所有因子都是显著的。2、方法:834、逐步回归方法的一般步骤:第一步准备工作:首先从标准化变量出发,利用标准回归方程组,建立相关系数增广矩阵,如下:4、逐步回归方法的一般步骤:84第二步引进因子:

从p个待选的因子中,考虑引进第一个因子时,建立引进因子的回归方程:引进方差贡献最大的那个因子。对标准化变量,为计算方便式中回归平方和符号均用回归方差代替。第二步引进因子:引进方差贡献最大的那个因子。对标准化变85假如在p个因子中,xzk的方差贡献最大,记为Vmax,则据回归系数的检验公式遵从F分布的统计量进行检验:若显著,则将第k个因子引进方程。这相当于对R(0)阵中第k列进行消去,变成R(1).假如在p个因子中,xzk的方差贡献最大,记为Vmax86假定在前l步中已引入l个因子,考虑p-l个未引入的因子中的方差贡献时,计算第k个因子方差贡献的公式:计算中可利用前l步消去求逆的结果,即用在作l次消去求逆变成矩阵后阵中的元素。这样可以简化过程的计算量。假定在前l步中已引入l个因子,考虑p-l个未引入的因子中的方87其中,如果发现第k个因子方差贡献最大,则用它进一步作下面的显著性检验,这时利用下面统计量作检验。在信度下,若,则认为该因子方差贡献显著,引入该因子。其中,如果发现第k88第三步剔除因子:当因子引入后,原来已引入的因子方差贡献会发生变化,可能变为不显著,因此要进行剔除,剔除的标准是进行统计检验。可以证明,在逐步回归中,仅在第三个因子引入后才考虑剔除。设已引进了l个因子,考虑其中第k个因子的方差贡献,使用如下公式:第三步剔除因子:当因子引入后,原来已引入的因子方差贡献会发89

找出其中最小者,进行统计检验:若该因子不显著,则剔除。再对该因子所对应的列进行消去,就当该因子从未进入过方程一样。自此,每一步首先考虑有无因子需要剔除,若有就进行剔除,直到没有可剔除的因子时再考虑引入新因子,如此进行下去,直到既无因子剔除又无因子可引入为止。找出其中最小者,进行统计检验:90第四步计算结果:

设最后引入了l个因子进入回归方程,变到,则回归方程为:

其中,标准化数据回归系数为:

回归方程的残差平方和为:回归平方和为:原始数据回归系数为:第四步计算结果:设最后引入了l个因子进入回归方程,91回归方程的剩余标准差无偏估计量为:可进行预报值的置信区间估计。

复相关系数:

回归方程的剩余标准差无偏估计量为:可进行预报值的置信区间估计92引入剔除引入剔除93注意:上一步刚引入的变量下一步不可能剔除;上一步刚剔除的变量下一步不可能引入,连续引入三个变量后考虑剔除。注意:上一步刚引入的变量下一步不可能剔除;上一步刚剔除的变量945、逐步回归的一些注意点(1)用逐步回归方法选出的p个重要因子,在理论上和实践上都不能证明它们都是最优的。(2)用逐步回归方法选取重要因子时,被选中的因子数目p的多少是值得注意的。通常为方便起见,Fα一般选取4,作为否定域的临界值。(3)逐步回归模型是正态线性回归模型。(4)回归方程的稳定性:是否残差方差小,而且还要注意所得到的规律性在未来时间的样本内是否还存在。(5)逐步回归可以与一般回归混合使用。5、逐步回归的一些注意点956、实例分析例:设对某一预报量y,选择4个因子作预报,样本容量n=13,它们的资料见表1i12345678910111213x17111117113122111110x226295631525571315447406668x3615886917221842398x46052204733226442226341212y78.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.46、实例分析i1234567891096对上面的资料作逐步回归,具体步骤如下:准备阶段:构造增广矩阵对上面的资料作逐步回归,具体步骤如下:97逐步回归计算:第一步:计算各因子的方差贡献:消去第四列,得:逐步回归计算:消去第四列,得:98第二步:计算余下各因子的方差贡献:进行检验:消去第一列得:

第二步:计算余下各因子的方差贡献:99第三步:计算余下各因子的方差贡献:

消去第二列得:

第三步:计算余下各因子的方差贡献:100第四步:计算已引入方程中的因子的方差贡献:

作剔除的检验:故剔除。消去第四列,得到的矩阵相当于仅消去过第1,2列的矩阵:

第四步:计算已引入方程中的因子的方差贡献:101计算引入方程的因子的方差贡献:进行F检验,计算得:认为不能引进,又无剔除,逐步回归到此结束。计算引入方程的因子的方差贡献:102复相关系数:

利用资料计算得到原始数据的回归方程为:第五步:计算最后结果:得到标准化变量的回归方程,如下:剩余标准差:复相关系数:利用资料计算得到原始数据的回归方程为:第五步:1037、逐步回归方法的优缺点:优点:(1)和逐步剔除法相比,计算量较小。(2)逐步引入法虽然计算量小些,但是不一定保证最后的方程是最优的。(3)逐步回归方法最后能得到一个较合理的“最优”回归方程。缺点:(1)该方法最终只提供一个“最优”回归方程,而无其它选择的余地。(2)其次,需要解决较大阶数的矩阵,对于手算有较大的工作量。7、逐步回归方法的优缺点:104应用:应用广泛,工农业生产和科学研究工作中的许多问题都可以用这种方法得到解决。如今,在实验数据的一般处理,经验公式的求得,因素分析,产品质量的控制,某些新标准的制定,气象及地震预报以及许多场合中,都会用到这种分析方法。现况:目前,由于计算机的普及,逐步回归分析方法已经十分普遍。许多现成的计算软件可供使用。应用:应用广泛,工农业生产和科学研究工作中的许多问题都可以用105一元(多元)线性回归方程的三种回归模型?应用最小二乘法求回归系数的基本原理?一元线性回归方程中回归系数的计算公式、回归系数与相关系数的关系?总离差平方和、回归平方和与残差平方和的定义、计算公式及它们之间的关系?回归方程判决系数的物理含义?气象中利用回归分析进行预报的步骤?逐步回归三种方案的基本思想及分析步骤(特别是双重检验逐步回归方案)?预报因子方差贡献的定义、表达式及意义?回归系数求解求逆紧凑方案的变换公式及重要性质?双重检验逐步回归分析中引入和剔除因子的方差贡献的计算公式和F检验统计量计算公式以及剩余标准差的计算公式?复习思考题

一元(多元)线性回归方程的三种回归模型?复习思考题106根据给出的数据,编写一元线性回归程序,并计算当x=14.5时,y的预报值等于多少?要求:实习报告中附出一元线性回归程序,并给出相应原数据及回归数据变化图形(一张图)附加:尝试编写多元回归和逐步回归程序(数据参考课件或课本逐步回归例题)。实习三根据给出的数据,编写一元线性回归程序,并计算当x=14.5时107第三章回归分析1.一元线性回归分析2.多元线性回归分析3.逐步回归方法第三章回归分析1.一元线性回归分析108回归分析是用来寻找若干变量之间统计联系(关系)的一种方法。它是一种统计模型,分为线性回归和非线性回归。线性回归在气象中最为常用。利用回归分析得到的统计关系对某一变量作出未来时刻的估计,称为预报值(量)。前期已发生的多个与之有关的气象要素称为预报因子。回归分析是用来寻找若干变量之间统计联系(关系)的一种方法。利109气象统计方法课件-3回归分析110第一节一元线性回归一元回归分析处理的是两个变量之间的关系,即一个预报量和一个预报因子之间的关系。第一节一元线性回归一元回归分析处理的是两个变量之111基本原理:对抽取容量为n的预报量y与预报因子x的一组样本,如认为y与x是一元线性统计关系,则线性回归方程为:那么预报量的估计量与x有如下关系:或写为一般的回归方程:

b0为截距,b为斜率一、回归模型基本原理:对抽取容量为n的预报量y与预报因子x的一组样本,如112年份冬季环流指标(x)5月平均气温T(y)1951320.91952251.21953202.21954262.4195527-0.51956242.5195728-1.119582401959156.21960162.71961243.2196230-1.11963222.51964301.21965241.81966330.61967262.41968202.51969321.2197035-0.8年份冬季环流指标(x)5月平均气温T(y)1951320.9113xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^最小二乘法求回归系数xy(xn,yn)(x1,y1)(114对所有的xi,若与yi的偏差最小,就认为(1)式所确定的直线能最好地代表所有实测点的散布规律。为了消除偏差符号的影响,可以用偏差的平方来反映偏差的绝对值偏离情况。对所有的xi,若与yi的偏差最小,就认为(1)式115显然,Q值越小越好,Q是待定系数a和b的函数。根据极值原理,要求:全部观测值与回归直线的离差平方和记为:(2)式刻画了全部观测值与回归直线偏离程度。显然,Q值越小越好,Q是待定系数a和b的函数。根据极值原理116整理得到求回归系数b0、b的方程组:

(3)式称为求回归系数的标准方程组。整理得到求回归系数b0、b的方程组:117回归系数也可直接表示为:回归系数也可直接表示为:118----距平形式回归方程将

代入回归方程,得到:或----标准化形式回归方程----距平形式回归方程将119回归系数b与相关系数之间的关系:相关系数r与回归系数b同号。当b<0,回归直线斜率为负,预报量y随预报因子x增加而减少,反映预报量与因子是负相关;当b>0,回归直线斜率为正,预报量y随预报因子x增加而增加,反映预报量与因子是正相关。回归系数b与相关系数之间的关系:相关系数r与回归系数b同号1201、意义

评价回归方程的优劣。2、预报量的方差可以表示成回归估计值的方差(回归方差)和误差(残差)方差之和。二、回归问题的方差分析即:1、意义二、回归问题的方差分析即:121方差分析表明,预报量y的变化可以看成由前期因子x的变化所引起的,同时加上随机因素e变化的影响,这种前期因子x的变化影响可以用回归方差的大小来衡量。如果回归方差大,表明用线性关系解释y与x的关系比较符合实际情况,回归模型比较好。方差分析表明,预报量y的变化可以看成由前期因子x的变化所引起122(4)式两边同时乘以n变成各变量离差平方和的关系。总离差平方和:回归平方和:残差平方和:反映因变量y的n个观测值与其均值的总离差.反映回归值的分散程度.反映观测值偏离回归直线的程度.(4)式两边同时乘以n变成各变量离差平方和的关系。总离差平方123三、相关系数与线性回归因为回归方差不可能大于预报量的方差,可以用它们的比值来衡量方程的拟合效果。即:回归方程判决系数上式表明预报因子x对预报量y的方差的线性关系程度,这一比值又称为解释方差。判决系数是衡量两个变量线性关系密切程度的量,也等于两变量相关系数的平方。三、相关系数与线性回归回归方程判决系数上式表明预报因子x对预124判决系数的物理含义:1.回归平方和占总离差平方和的比例;2.反映回归直线的拟合程度;3.取值范围在[0,1]4.r2→1,说明回归方程拟合的越好;

r2→0,说明回归方程拟合的越差;5.判决系数等于相关系数的平方.判决系数的物理含义:1.回归平方和占总离差平方和的比例;125回归分析与相关分析的区别:相关分析中,变量x、y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化。相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。回归分析与相关分析的区别:相关分析中,变量x、y处于平等的地126四、回归方程的显著性检验显著性检验的主要思想是检验预报因子与预报量是否有线性关系。可以证明在原假设总体回归系数为0的条件下,统计量

遵从分子自由度为1,分母自由度为(n-2)的F分布。查F的分布表,在a=0.05下,若则认为回归方程是显著的。反之,则不显著。四、回归方程的显著性检验127F分布表F分布表128统计量F也可以写为:注意:对于一元线性回归来说,因为F的相关系数表达式开方就是相关系数t检验的表达式,故回归方程的检验与相关系数的检验一致。统计量F也可以写为:注意:129五、回归系数的显著性检验气象中使用最多的是回归方程的距平形式,所以对回归方程的显著性检验可以只对因子的回归系数进行检验。在原假设H0:β=0的条件下,统计量遵从自由度为n-2的t分布.五、回归系数的显著性检验气象中使用最多的是回归方程的距平形式130或者根据F分布与t分布的关系,统计量遵从分子自由度为1,分母自由度为n-2的F分布.对回归方程的检验与对回归系数的检验一致.或者根据F分布与t分布的关系,统计量遵从分子自由度为1,分母131因为yi可以看成遵从的正态分布,所以其95%的置信区间为六、预报值的置信区间因为yi可以看成遵从132一元线性回归分析预测步骤

一元线性回归分析预测步骤133年份气温T环流指标19510.93219521.22519532.22019542.4261955-0.52719562.5241957-1.128195802419596.21519602.71619613.2241962-1.13019632.52219641.23019651.82419660.63319672.42619682.52019691.2321970-0.835年份气温T环流指标19510.93219521.225195134气象统计方法课件-3回归分析135513513136气象统计方法课件-3回归分析137第二节多元线性回归

对某一个预报量y,研究多个因子与它的定量统计关系----多元回归多元线性回归的原理与一元线性回归完全相同第二节多元线性回归对某一个预报量y,研究多个因子与它的138一、多元回归模型描述因变量y如何依赖于自变量x1,x2,…,xp和误差项

的方程,称为多元回归模型.涉及p个自变量的多元线性回归模型可表示为

b0

,b1,b2

,,bp是参数.y是x1,,x2

,,xp

的线性函数加上误差项.是被称为误差项的随机变量,包含在y里面但不能被p个自变量的线性关系所解释的变异性.一、多元回归模型描述因变量y如何依赖于自变量x1,x2,139假定预报量y与p个预报因子关系是线性,为研究它们之间的联系作n次抽样,则可得到如下结构表达式:展开假定预报量y与p个预报因子关系是线性,为研究它们之间的联系作140(1)式也可以写成矩阵形式:其中:(1)式也可以写成矩阵形式:其中:141我们得到的是一组实测p个变量的样本,利用这组样本(n次抽样)对上述回归模型进行估计,得到的估计方程为多元线性回归方程,记为:其中,bi是的βi估计值,下面讨论如何确定它们。我们得到的是一组实测p个变量的样本,利用这组样本(n次抽样)142二、回归系数最小二乘估计

和一元线性回归类似,在样本容量为n的y预报量和因子变量x的实测值中,满足线性回归方程:要求回归系数,应使全部的预报量观测值与回归估计值的差值平方和Q达到最小。二、回归系数最小二乘估计和一元线性回归类似,在样本容量为n143由极值定理:由极值定理:144气象统计方法课件-3回归分析145三、线性回归模型的其他形式——距平形式的回归方程三、线性回归模型的其他形式——距平形式的回归方程146从距平变量的观测值求回归系数,同样用最小二乘法导出求回归系数的标准方程组:从距平变量的观测值求回归系数,同样用最小二乘法导出求回归系数147为书写方便,上式两边乘上1/n,变成各变量的协方差形式,相应的方程组写为:为书写方便,上式两边乘上1/n,变成各变量的协方差形式,相应148对距平变量多元线性回归方程两边除以预报量y的标准差,得到:令:——标准化形式的回归方程对距平变量多元线性回归方程两边除以预报量y的标准差,得到:令149从标准化变量的观测值求回归系数,同样用最小二乘法导出求回归系数的标准方程组:从标准化变量的观测值求回归系数,同样用最小二乘法导出求回归系150四、回归问题的方差分析回归方差可表示为:对于标准化变量而言,回归方差为:=0四、回归问题的方差分析回归方差可表示为:对于标准化变量而言,151五、复相关系数复相关系数R:衡量一个预报量与多个变量之间线性关系程度的量,即衡量预报量y与估计量之间线性相关程度的量。五、复相关系数152六、回归方程的显著性检验

回归方程的显著性检验和一元回归类似:假设总体回归系数为0时,利用

遵从分子自由度为p,分母自由度为n-p-1的F分布,在显著性水平下α=0.05,若,认为回归方程是显著的。六、回归方程的显著性检验遵从分子自由度为p,分母自由度为n153因为的正态分布,,所以其95%的置信区间为:七、预报值的置信区间因为154若在p个预报因子中去掉一个因子,再建立它们对y的预报方程,则此时回归平方和、残差平方和记分别为,定义单个预报因子的方差贡献:八、预报因子(回归系数)的显著性检验是因子离差矩阵的对角线上的元素。若在p个预报因子中去掉一个因子,再建立它们对y的预报方程,则155计算统计量

符合自由度为(1,n-p-1)的F分布。给定信度以后,当,说明第k个因子的方差贡献是显著的。计算统计量156九、在气象中利用回归方程进行预报的步骤

1)确定预报量并选择恰当的因子2)根据数据计算回归系数标准方程组所包含的有关统计量(因子的交叉积、协方差阵或相关阵,以及因子与预报量交叉积、协方差或相关系数)3)解线性方程组定出回归系数4)建立回归方程并进行统计显著性检验5)利用已出现的因子值代入回归方程作出预报量的估计,求出预报值的置信区间九、在气象中利用回归方程进行预报的步骤157十、实例分析例:设对某一预报量y,选择4个因子作预报,样本容量n=13,它们的资料见表1i12345678910111213x17111117113122111110x226295631525571315447406668x3615886917221842398x46052204733226442226341212y78.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4十、实例分析i12345678910158为了说明问题,我们选取,,作为因子使用标准化变量的回归方程,求标准回归系数的方程组为:(略去下标z)

得出回归方程为:

为了说明问题,我们选取,,作159计算回归方差和残差方差:

对回归方程进行统计检验,计算

在显著水平a=0.05下,说明该方程是显著的。以上用的是多元线性回归方法。但是这是否说明三个因子对预报量都有显著影响呢?计算回归方差和残差方差:160对回归系数检验,利用发现是显著的,而和是不显著的。

通过例子说明,尽管回归方程是显著的,并不能说明方程中所有因子都对预报量有显著影响。对回归系数检验,利用通过例子说明,尽管回归方程是显著的,并161回归分析中回归系数的计算回归分析中回归系数的计算162(1)交换矩阵的两行(2)以非零常数k乘矩阵的某一行(3)将矩阵的某一行乘非零常数k加至矩阵的另一行初等行变换1、线性方程组求解—高斯-亚当消去法(1)交换矩阵的两行初等行变换1、线性方程组求解—高斯-亚当1632、求解求逆并行方案2、求解求逆并行方案1642、求解求逆紧凑方案2、求解求逆紧凑方案165r21×/r11r31×r21×/r11r31×166气象统计方法课件-3回归分析167列列168气象统计方法课件-3回归分析169气象统计方法课件-3回归分析170气象统计方法课件-3回归分析171第三节逐步回归分析

在气象预报中,对预报量的预报常常需要从可能影响预报y的诸多因素中挑选一批关系较好的作为预报因子,应用多元线性回归的方法建立回归方程来做预报,但如何才能保证在已选定的一批因子中得到最优的回归方程呢?逐步回归分析方法就是针对这一问题提出的一种常用方法。第三节逐步回归分析在气象预报中,对预报量的预报172若在p个预报因子中去掉一个因子,再建立它们对y的预报方程,则此时回归平方和、残差平方和记分别为,定义单个预报因子的方差贡献:一、预报因子(回归系数)的显著性检验是因子离差矩阵的对角线上的元素。若在p个预报因子中去掉一个因子,再建立它们对y的预报方程,则173在多元线性回归方程的建立中,尽管最后都作了方程的统计检验,但并不意味着在p个因子中,每个因子对预报量y的影响都是重要的。需要对每个因子进行考察,若某个因子对预报量y的作用不显著,那么在多元线性回归方程中它前面的系数就可能近似为0,因此,检验某一因子是否显著等价于检验假设:在多元线性回归方程的建立中,尽管最后都作了方程的统计检验,但174要对作假设检验,自然就要寻找它的样本统计量和与它有关的统计量的分布。因为最小二乘估计的是随机变量的线性函数,由于这些随机变量是遵从正态分布,则也遵从正态分布。要对作假设检验,自然就要寻找它的样本统计量和与它有关175计算统计量

符合自由度为(1,n-p-1)的F分布。给定信度以后,查表求出标准值,若,说明该因子方差贡献显著,保留该因子,否则可以考虑从回归方程中剔除出去。计算统计量176二、预报因子数目对回归方程的影响一般而言,回归方程中包含的因子个数越多,回归平方和就越大,残差平方和越小。但是当因子增加到一定数目,残差平方和下降的幅度就很小了。一般回归方程的因子数目在5-6个左右为宜。如果因子过多,则一方面对方程所起的贡献已不很大,另一方面会带来因子本身的各种随机因素,影响回归方程的稳定性,反而使预报效果下降。

选择因子时要使因子之间的相关系数

,而因子各自与预报量之间的相关系数

。越小越好越大越好二、预报因子数目对回归方程的影响一般而言,回归方程中包含的因177关键问题:既要选择对预报量影响显著的因子,又要使回归方程的残差方差估计很小,这样才有利于气象预报。如何选择这种最优的回归方程呢?————逐步回归方法关键问题:178三、逐步回归的三种方案1、逐步剔除方案2、逐步引进方案3、双重检验的逐步回归方案三、逐步回归的三种方案1、逐步剔除方案179逐步剔除方案

1、基本思想:从包含全部变量的回归方程中逐步剔除不显著的因子。2、方案:

假定有p个预报因子,首先用这p个因子建立回归方程,然后检查每个因子的方差贡献大小。逐步剔除方案1、基本思想:从包含全部变量的回归方程中逐步剔180从Vk中选出方差贡献最小者记为Vmin,检验时使用统计量表示回归方程含l个因子时的残差平方和。若显著,则其余因子也是显著的。若不显著,则剔除这一因子,对该因子对应的列进行消去后重复上面的步骤。从Vk中选出方差贡献最小者记为Vmin,检验时表示回归方程1813、思考(1)因子的方差贡献代表什麽意义?(2)为何不同时把几个不显著的因子从方程中剔除出去,而是要每次剔除一个?3、思考(1)因子的方差贡献代表什麽意义?182(1)回归平方和是所有因子对预报量的总贡献。所考虑的因子越多,回归平方和越大,若去掉一个因子,回归平方和只会减小,不会增加。减少的数值越大,说明该因子在回归中所起的作用越大,表明该因子越重要,所以,可用此衡量该因子的方差贡献大小。Vk就是去掉第k个因子后,回归平方和的减少量。这部分也叫做偏回归平方和。衡量每个因子对回归方程所起作用的大小。(1)回归平方和是所有因子对预报量的总贡献。所考虑的因子越多183(2)在剔除因子过程中,假如x1、x2方差贡献都比较小,我们只能剔除其中的最小者,而不应该全部去掉。因为这两个因子之间可能存在密切相关关系,剔除x1后,其对y的影响很大部分可以转加到x2对y的影响上。所以回归平方和不会因此减小很多。但如果同时去掉两个因子,就会比较多的减少回归平方和,从而影响回归的精度。(2)在剔除因子过程中,假如x1、x2方差贡献都比较小,我们184逐步引进方案

1、基本思想:在一批待选的因子中,考查他们对预报量y的方差贡献,挑选所有因子中方差贡献最大者,经统计检验是显著后,进入回归方程。2、方案:

如从x1,x2,…,xp

等因子中考察哪个因子方差在一元回归方程中贡献最大,故首先计算:

U(0)为回归方程中无任何因子时的回归平方和,此时为0。逐步引进方案1、基本思想:在一批待选的因子中,考查他们对预185假如在p个因子中,xk的方差贡献最大,记为Vmax,则据回归系数的检验公式遵从F分布的统计量进行检验:

若显著,则该因子引进。假如在p个因子中,xk的方差贡献最大,记为Vmax,186设到l步,方程已有l个因子。若考虑从p-l个因子中引进哪个变量时,还是要考察他们各个因子引进后的方差贡献,仍选取最大者,记为Vmax,使用统计量:作检验,其中Q(l+1)表示在将要引入回归方程的l+1个因子时,回归方程的残差平方和。如此在方程中逐个地引入因子。设到l步,方程已有l个因子。若考虑从p-l个因子中引进哪个变187注意:这样得到的方程并不能保证其中所有因子都是显著的。因为各因子之间可能存在相关关系,引入新变量后,原有的变量就不一定仍然显著。所以,逐步引入方案不一定保证最后的回归方程是“最优”的。注意:这样得到的方程并不能保证其中所有因子都是显著的。因为各1881、基本思想:

将因子一个个引入,引入因子的条件是该因子的方差贡献显著;同时,每引入一个新因子,要对已引入的老因子逐个检验,将方差贡献变为不显著的因子剔除。因此双重检验的逐步回归能使最后组成的方程只含有重要的变量,所建立的回归方程也称为最优回归方程。这一方法在目前气象统计预报中所常用。双重检验的逐步回归方案1、基本思想:双重检验的逐步回归方案1892、方法:利用求解线性方程组求解求逆并行(紧凑)方案,使得计算因子方差贡献和求解回归系数同时进行。3、优点:计算简便,由于每步都作检验,保证了最后所得方程中所有因子都是显著的。2、方法:1904、逐步回归方法的一般步骤:第一步准备工作:首先从标准化变量出发,利用标准回归方程组,建立相关系数增广矩阵,如下:4、逐步回归方法的一般步骤:191第二步引进因子:

从p个待选的因子中,考虑引进第一个因子时,建立引进因子的回归方程:引进方差贡献最大的那个因子。对标准化变量,为计算方便式中回归平方和符号均用回归方差代替。第二步引进因子:引进方差贡献最大的那个因子。对标准化变192假如在p个因子中,xzk的方差贡献最大,记为Vmax,则据回归系数的检验公式遵从F分布的统计量进行检验:若显著,则将第k个因子引进方程。这相当于对R(0)阵中第k列进行消去,变成R(1).假如在p个因子中,xzk的方差贡献最大,记为Vmax193假定在前l步中已引入l个因子,考虑p-l个未引入的因子中的方差贡献时,计算第k个因子方差贡献的公式:计算中可利用前l步消去求逆的结果,即用在作l次消去求逆变成矩阵后阵中的元素。这样可以简化过程的计算量。假定在前l步中已引入l个因子,考虑p-l个未引入的因子中的方194其中,如果发现第k个因子方差贡献最大,则用它进一步作下面的显著性检验,这时利用下面统计量作检验。在信度下,若,则认为该因子方差贡献显著,引入该因子。其中,如果发现第k195第三步剔除因子:当因子引入后,原来已引入的因子方差贡献会发生变化,可能变为不显著,因此要进行剔除,剔除的标准是进行统计检验。可以证明,在逐步回归中,仅在第三个因子引入后才考虑剔除。设已引进了l个因子,考虑其中第k个因子的方差贡献,使用如下公式:第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论