回归与拟合分析课件_第1页
回归与拟合分析课件_第2页
回归与拟合分析课件_第3页
回归与拟合分析课件_第4页
回归与拟合分析课件_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章回归与拟合分析第二章回归与拟合分析1提纲

1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析提纲1.线性回归分析21.1线性回归概念经典的线性回归分析法仍广泛应用于变形测量数据处理中。它是研究一个变量(因变量)与多个因子(自变量)之间非确定关系(相关关系)的最基本方法。该方法通过分析所观测的效应量(如变形)和原因(如荷载)之间的相关性,来建立数学模型。如:因变量:水库大坝的变形;自变量:水库水位、气温、降雨量等1.1线性回归概念经典的线性回归分析法仍广泛应用于变形测量31.2线性回归模型线性回归模型

式中为因变量,是为可观测的随机变量;是自变量,为可观测的已知变量;为不可观测的随机误差项,为未知参数如果进行了n期观测,可写为1.2线性回归模型线性回归模型41.2线性回归模型矩阵表达

式中

1.2线性回归模型矩阵表达51.3线性回归模型建立过程回归分析模型建立的过程根据实际研究问题设置目标变量收集整理统计数据构造回归模型对模型参数进行估计对回归方程和回归系数进行假设检验回归模型的应用

1.3线性回归模型建立过程回归分析模型建立的过程61.4线性回归模型参数估计模型参数估计回归参数可通过样本数据(观测数据)来估计,误差方程可以写成:按最小二乘准则参数估值1.4线性回归模型参数估计模型参数估计71.4线性回归模型参数估计的最小二乘估值多元回归模型的标准差(中误差)1.4线性回归模型参数估计的最小二乘估值81.5线性回归模型的拟合优度拟合优度:样本观测值聚集在样本回归线周围的紧密程度。常用指标是复相关系数定义:总离差平方和回归平方和残差平方和三者关系1.5线性回归模型的拟合优度拟合优度:样本观测值聚集在样本91.5线性回归模型的拟合优度复相关系数(可决系数)在总离差平方和中回归平方和所占的比重越大,则回归效果越好,说明回归模型与样本观测值拟合得好;如果残差平方和所占比重大,则回归模型与样本观测值拟合得不理想。把回归平方和与总离差平方和之比定义为可决系数,或复相关系数1.5线性回归模型的拟合优度复相关系数(可决系数)101.6总体回归模型的显著性检验实际问题中,事先并不能断定因变量与自变量之间是否确有线性关系。在求线性回归方程之前,线性回归模型只是一种假设。在求得线性回归方程后,还需要对回归方程进行统计检验,以给出肯定或者否定的结论。统计检验原假设:因变量与自变量之间不存在线性关系,则模型中的为零向量,即备选假设:不全为零1.6总体回归模型的显著性检验实际问题中,事先并不能断定因111.6总体回归模型的显著性检验检验统计量检验:选择显著性水平后,可以用下式检验原假设:若上式成立,即可认为在显著性水平下,回归系数不全为0,即回归方程是显著的。1.6总体回归模型的显著性检验检验统计量121.7回归系数显著性检验—t检验回归方程显著,并不意味着每个自变量对因变量的影响都显著,总想从回归方程中剔除那些可有可无的变量,重新建立更为简单的线性回归方程。这时可以采用回归系数显著性检验。统计检验原假设:如果某个变量对的作用不显著,则该变量的系数就应该为零,即检验统计量:1.7回归系数显著性检验—t检验回归方程显著,并不意味着每131.7回归系数显著性检验—t检验检验:选择显著性水平后,可以用下式检验原假设:若上式成立,即可认为回归系数在置信水平下是显著的。1.7回归系数显著性检验—t检验检验:选择显著性水平141.7回归系数显著性检验—F检验偏回归平方和:在回归分析中,去掉一个自变量使回归平方和减少的部分,也可理解为添入一个自变量使回归平方和增加的部分。可以证明,其为:统计检验原假设:如果某个变量对的作用不显著,则该变量的系数就应该为零,即检验统计量:1.7回归系数显著性检验—F检验偏回归平方和:在回归分析中151.7回归系数显著性检验—F检验检验:选择显著性水平后,可以用下式检验原假设:若上式成立,即可认为回归系数在置信水平下是显著的。1.7回归系数显著性检验—F检验检验:选择显著性水平16某大坝的垂直位移与水位观测值如下表,试用回归分析求回归方程水位/m186.93190.8187.5191195.36197.53190.43193.48188.65192.98位移/mm1.772.021.71.892.512.782.072.231.832.17某大坝的垂直位移与水位观测值如下表,试用回归分析求回归方程水17某大坝的水平位移与两个主要坝段的温度观测值如下表,试用回归分析求回归方程序号坝段1温度/(℃)坝段2温度/(℃)水平位移/mm16.816.5715.4029.889.5313.2039.527.7915.2649.7012.3211.3356.529.8813.3265.348.2614.2679.507.5514.16某大坝的水平位移与两个主要坝段的温度观测值如下表,试用回归分181.8线性回归模型的预报线性回归模型的预报方程预报就是给自变量一组特定的值(),对因变量的值进行估计自变量(如气温、水库水位、降雨量、大坝滑坡体的岩土力学参数)的值可以通过实测得到,如滑坡体的岩土力学参数等也可以用前几十年的资料进行预测得到,如气温、水库水位、降雨量等1.8线性回归模型的预报线性回归模型的预报方程191.8线性回归模型的预报预报误差的估计值的期望和方差:构造统计量:1.8线性回归模型的预报预报误差的估计值201.8线性回归模型的预报预报的置信区间控制:即要求因变量在之间,自变量因素应该怎么控制1.8线性回归模型的预报预报的置信区间21提纲

1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析提纲1.线性回归分析222.1最优回归方程的选择对于一个因变量可能存在多个影响因素,如何从诸多的影响因素中选择一些有效的变量作为自变量,建立“最优”回归方程十分重要如果遗漏了重要的变量,回归分析的效果一定不会好;如果变量过多,将会把对y影响不显著的变量也选入回归方程,这样就影响了回归方程的稳定性,效果也好不了。在实际问题中,影响y的因素很多,而且这些因素之间有可能存在多重共线性,即个自变量之间也有一定的依赖性,这样会出现选择不同的自变量,得到不同的回归结果,对结果的解释也不一样。2.1最优回归方程的选择对于一个因变量可能存在多个影响因素232.1最优回归方程的选择建立最优回归方程的方法:逐步剔除、逐步引入、逐步回归法“逐步剔除”回归分析步骤:首先采用全部自变量与因变量建立回归方程,对每一个因子作显著性检验,剔除不显著的变量中偏回归平方和最小的变量;然后用剩余的自变量和因变量重建回归方程,再逐个检验回归系数,剔除不显著的变量中偏回归平方和最小的变量;重复上述步骤,直到回归方程中所有的因子都显著。缺点:一开始就要计算所有自变量的回归方程,如果原始自变量中有较多个不显著因素,计算量大;2.1最优回归方程的选择建立最优回归方程的方法:逐步剔除、242.1最优回归方程的选择“逐步引入”回归分析:从一个自变量开始,逐个地选入回归方程步骤第一步是在所有的自变量中选出一个,使它和y组成的一元回归方程,回归平方和达到最大,做显著性检验,确认显著时进入下一步;第二步,在未入选的变量中选择一个自变量,使它与已入选的变量组成二元方程,回归平方和达到最大,做显著性检验,确认显著时进入下一步;上述过程不断重复下去,直到选入的变量不显著缺点:未考虑新变量的逐步引入,使得原有引入的变量有可能失去重要性;2.1最优回归方程的选择“逐步引入”回归分析:从一个自变量252.1最优回归方程的选择“逐步回归”分析方法:为了克服上述两种方法的缺点,发展出“有进有出”的回归分析方法,即逐步回归分析方法。类似“逐步引入”方法,根据自变量对y作用的显著程度,逐个引入回归方程。不同之处在于,当原引入变量由于后面的变量引入不再显著时,将其剔除。2.1最优回归方程的选择“逐步回归”分析方法:为了克服上述262.2逐步回归分析—步骤一、确定F检验值引入或剔除变量的标准。一般地,为使最终回归方程中包含较多的变量,F检验水平不宜过高,即显著水平α不宜太小二、逐步计算如果已计算t步,且回归方程中已引入t个变量,则第t+1步为(1)计算所有自变量的偏回归平方和;(2)剔除自变量:在已引入的t个自变量中,检查是否有需要剔除的不显著变量。方法:在已引入的变量中选取具有最小偏回归平方和的一个并计算F值。如果F<Fα,表示该变量不显著,应将其剔除,计算转至步骤(4)。如果F>Fα,不需要剔除变量。计算转至步骤(3)。2.2逐步回归分析—步骤一、确定F检验值272.2逐步回归分析—步骤(3)引入自变量:从未引入的变量中选出具有最大偏回归平方和的自变量,并计算F值,如果F>Fα,则表示该变量显著,应引入回归方程,计算转至步骤(4)。如果F<Fα,则表示已无变量可以选入,逐步回归计算结束。(4)剔除或引入一个变量后,应该重新进行回归,第t+1步结束。重复(1)~(4)进行计算。三、其他计算计算回归方程入选变量的系数、复相关系数和残差统计量等。2.2逐步回归分析—步骤(3)引入自变量:从未引入的变量中28提纲

1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析提纲1.线性回归分析293.1非线性回归模型概念自然界大量存在的相互作用是非线性的。例如,边坡变形是一个复杂的非线性过程,它主要受到边坡地区地质构造、滑坡体及滑动面的力学性质、滑坡体及滑坡地区的水文气象条件(如气温、雨水等)的影响。过程本质的非线性就决定了预报模型的非线性。所以,边坡预报从线性统计分析转向非线性分析,从而建立非线性统计预报方法,已逐渐得到较多关注。3.1非线性回归模型概念自然界大量存在的相互作用是非线性的303.1非线性回归模型概念应用非线性回归模型作边坡变形分析和变形预报首先必须依据一定的样本数据所描述的散点图,结合对特定的边坡运动规律的定性分析,选择适当的回归模型。模型确定以后就可以计算模型参数和进行模型评估和检验。模型通过检验后,就可以对边坡的变形进行分析和预报。3.1非线性回归模型概念应用非线性回归模型作边坡变形分析和312.2非线性回归模型的类型根据非线性回归模型线性化的不同性质,上述模型一般可以分成三种类型:直接换元型、间接代换型、非线性型直接换元型这类非线性回归模型通过简单的变量换元可直接化为线性回归模型

(1)双曲线模型(2)多项式模型(3)对数模型(4)三角函数模型2.2非线性回归模型的类型根据非线性回归模型线性化的不同性322.2非线性回归模型的类型直接换元型虽然包含有非线性变量,但因变量与待估计参数之间的关系却是线性的。由于这类模型的因变量没有变形,所以可以直接采用最小二乘法估计回归系数并进行检验和预测

2.2非线性回归模型的类型直接换元型332.2非线性回归模型的类型间接代换型这类非线性回归模型经常通过对数变形代换间接地化为线性回归模型

(1)指数模型(2)幂函数模型2.2非线性回归模型的类型间接代换型(1)指数模型342.2非线性回归模型的类型间接代换型因变量与待估计参数之间的关系也是非线性的,因此不能通过直接换元化为线性模型。通常可通过对回归方程两边取对数将其化为可以直接换元的形式。这种先取对数再进行变量代换的方法称为间接换元法。为使取对数后回归方程的形式更为简捷,不妨适当变换随机扰动项的形式,(1)指数模型(2)幂函数模型2.2非线性回归模型的类型间接代换型(1)指数模型352.2非线性回归模型的类型间接代换型由于这类模型在对数变形代换过程中改变了因变量的形态,使得变形后模型的最小二乘估计失去了原模型的残差平方和为最小的意义,从而估计不到原模型的最佳回归系数,可能造成回归模型与原数列之间的较大偏差。2.2非线性回归模型的类型间接代换型362.2非线性回归模型的类型非线性型不能通过变量变换的方法化为线性模型。可借助于泰勒级数展开式进行逐次线性逼近的估计方法Logistic模型Richards模型Weibull模型修正指数增长曲线2.2非线性回归模型的类型非线性型Logistic模型37某大型高边坡,边坡高差达300米,为了监测边坡的变形,在边坡上布设了一系列监测点:一部分布设在坡顶地面,另一部分布设在滑体上专门开凿的平硐内。变形工作是从1988年开始的,由于缺少有关降雨量等相关资料,对边坡的性状分析主要集中在对边坡监测点的实测变形曲线的规律的分析上。右图为其中几个点的变形-时间实测曲线某大型高边坡,边坡高差达300米,为了监测边坡的变形,在边坡382.3非线性回归模型的线性逼近解法如果不考虑水的因素,则边坡滑动是一个单纯的力学蠕变过程,可用文字描述为:边坡受到一定的外力干扰后开始蠕变,在蠕变初期变形速度较慢;蠕变到一定时期后,速度逐渐加快;蠕变速度增加到一定程度后,如果边坡的约束强,则边坡的蠕变会逐渐变缓,最后趋于稳定,达到新的平衡;如果边坡的约束不强,则蠕变达到一定程度后会产生突变,导致滑坡。根据对边坡滑移规律的分析,可以选择非线性回归模型中的生物增长曲线来描述边坡的变形Logistic模型Richards模型

Weibull模型2.3非线性回归模型的线性逼近解法如果不考虑水的因素,则边39数学模型

式中为时间变量,为观测的变形量,为未知参数如果进行了n期观测,观测量和观测时间可写为2.3非线性回归模型的线性逼近解法数学模型2.3非线性回归模型的线性逼近解法40观测模型线性化2.3非线性回归模型的线性逼近解法观测模型2.3非线性回归模型的线性逼近解法41线性化2.3非线性回归模型的线性逼近解法线性化2.3非线性回归模型的线性逼近解法42矩阵表达式中

2.3非线性回归模型的线性逼近解法矩阵表达2.3非线性回归模型的线性逼近解法43由最小二乘原理,可以求得的估值由于参数无任何先验信息,必须迭代求解。设第K步求得的参数解为k,则第k+1步计算步骤为: (1)对模型函数在k处按台劳级数展开,重新线性化,组成矩阵形式的观测方程式 (2)按最小二乘法解得第k+1步的参数解(k+1),(k+1)=k+

(3)若,迭代结束,否则重复(1)(2)2.3非线性回归模型的线性逼近解法由最小二乘原理,可以求得的估值2.3非线性442.3非线性模型的检验非线性模型的检验一般是对残差进行分析,根据残差来推断模型和参数的统计性质。对非线性模型,记,表示模型拟合残差。在非线性模型的情况下,要检验残差是否满足如下假设:(i)为独立、同分布的随机变量,且有:记为iid. (ii)除满足(1)外,还服从正态分布,记为iidN.检验分两步进行,首先检验残差是否服从正态分布,在接受正态分布的检验后再进一步检验残差均值是否为零。具体方法如下:2.3非线性模型的检验非线性模型的检验一般是对残差进行分析452.3非线性模型的检验残差是否服从正态分布的检验若把残差的取值范围划分为L个子区间(一般划分为7-14个子区间,区间的划分以使每个子区间内所含的样本个数不少于5个为宜)。统计出每个子区间所含的样本数即组频数,i=1,2,…,L。计算出残差平均值和残差方差作为正态分布的参数,查正态分布表得出每一子区间的理论频数,,其中为在第i个区间取值的概率,它可由正态分布表查得。检验的统计量为:

由此可以检验残差是否服从正态分布。2.3非线性模型的检验残差是否服从正态分布的检验462.3非线性模型的检验统计检验检验统计量:2.3非线性模型的检验统计检验472.3非线性模型的检验残差均值是否为零的检验

在通过残差服从正态分布的前提下,我们再来讨论残差均值是否为零的检验。在大样本时不管总体遵循什么分布,根据中心定理,可以认为样本均值渐近遵从正态分布。因此可以利用u检验:2.3非线性模型的检验残差均值是否为零的检验482.3非线性模型的检验统计检验检验统计量:2.3非线性模型的检验统计检验492.3非线性模型的检验若两个检验都成立,则认为模型的统计性质优良;若检验(1)通过但检验(2)不成立,则需对模型进一步改进或是调整模型参数形式等;若两个检验都不成立,则需调整模型或是考虑用别的模型。

2.3非线性模型的检验若两个检验都成立,则认为模型的统计性502.4非线性回归模型的预报变形预报:2.4非线性回归模型的预报变形预报:51提纲

1.多元线性回归模型2.非线性回归模型3.SCGM模型提纲1.多元线性回归模型523.1SCGM模型概念在实际系统中,往往总有多个因子或状态变量在系统的演变中发生联系或相互影响,因而建立模型时,应考虑这种影响。1990年问世的针对关联多因子对象的系统云灰色预测模型(SystemCloudandItsGreyModel,陈绵云等,1990),即SCGM(1,m)预测模型就适合于这种情形的描述。边坡系统实际上是一个复杂的隐含了动态系统运行特征的关联多因子灰色系统,因此,边坡的变形发展可以用SCGM(1,m)模型描述。3.1SCGM模型概念在实际系统中,往往总有多个因子或状态533.2SCGM模型建立设有含m个监测点、共进行了n期观测的边坡系统,其观测序列记为均值序列记为:均值一阶累加生成序列为:设有含m个监测点、共进行了n期观测的边坡系统,其观测序列记为均值序列记为:均值一阶累加生成序列为:3.2SCGM模型建立设有含m个监测点、共进行了n期观测的543.2SCGM模型建立考虑m个点互相关联和互相影响,建立SCGM(1,m)模型3.2SCGM模型建立考虑m个点互相关联和互相影响,建立S553.2SCGM模型建立写成矩阵形式:

3.2SCGM模型建立写成矩阵形式: 563.2SCGM模型建立由积分生成变换(IGT)原理,在矩阵形式两边左乘

3.2SCGM模型建立由积分生成变换(IGT)原理,在矩阵573.3SCGM模型解算根据定义和上述递推模型:

3.3SCGM模型解算根据定义和上述递推模型:583.3SCGM模型解算把k=2,3,…,n代入,得

3.3SCGM模型解算把k=2,3,…,n代入,得593.3SCGM模型解算若令

则递推公式可写为:设,上式可以写成

3.3SCGM模型解算若令603.3SCGM模型解算把k=2,3,…,n代入,得

3.3SCGM模型解算把k=2,3,…,n代入,得613.4SCGM模型还原预测由可得:又由可得 所以还原预测模型:3.4SCGM模型还原预测由623.5SCGM模型精度模型的模拟精度模型预测相对误差:向前步预测结果其中3.5SCGM模型精度模型的模拟精度633.6SCGM模型程序设计模型

3.6SCGM模型程序设计模型643.6SCGM模型程序设计数据程序:用前24期数据建模,对第25~36期观测进行预报主程序:loaddeform_data.dat;

model_data=deform_data(1:24,:);……函数:function[EA,B,C]=SCGM(model_data)1.012.03…5.082.553.04…5.09……观测数据文件:deform_data.dat行代表观测期数列代表监测点个数3.6SCGM模型程序设计数据1.012.03…565函数:function[EA,B,C]=SCGM(model_data)%数据预处理,均值序列model_ave,均值一阶累加序列model_ave_AGO……%计算EA……%计算B和C……函数:function[EA,B,C]=SCGM(mo663.6SCGM模型程序设计主程序:loaddeform_data.dat;model_data=deform_data(1:24,:);[EA,B,C]=SCGM(model_data)变形预报:3.6SCGM模型程序设计主程序:loaddeform_673.5SCGM模型程序设计计算模型的模拟精度计算模型预测相对误差:向前步预测结果其中3.5SCGM模型程序设计计算模型的模拟精度68第二章回归与拟合分析第二章回归与拟合分析69提纲

1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析提纲1.线性回归分析701.1线性回归概念经典的线性回归分析法仍广泛应用于变形测量数据处理中。它是研究一个变量(因变量)与多个因子(自变量)之间非确定关系(相关关系)的最基本方法。该方法通过分析所观测的效应量(如变形)和原因(如荷载)之间的相关性,来建立数学模型。如:因变量:水库大坝的变形;自变量:水库水位、气温、降雨量等1.1线性回归概念经典的线性回归分析法仍广泛应用于变形测量711.2线性回归模型线性回归模型

式中为因变量,是为可观测的随机变量;是自变量,为可观测的已知变量;为不可观测的随机误差项,为未知参数如果进行了n期观测,可写为1.2线性回归模型线性回归模型721.2线性回归模型矩阵表达

式中

1.2线性回归模型矩阵表达731.3线性回归模型建立过程回归分析模型建立的过程根据实际研究问题设置目标变量收集整理统计数据构造回归模型对模型参数进行估计对回归方程和回归系数进行假设检验回归模型的应用

1.3线性回归模型建立过程回归分析模型建立的过程741.4线性回归模型参数估计模型参数估计回归参数可通过样本数据(观测数据)来估计,误差方程可以写成:按最小二乘准则参数估值1.4线性回归模型参数估计模型参数估计751.4线性回归模型参数估计的最小二乘估值多元回归模型的标准差(中误差)1.4线性回归模型参数估计的最小二乘估值761.5线性回归模型的拟合优度拟合优度:样本观测值聚集在样本回归线周围的紧密程度。常用指标是复相关系数定义:总离差平方和回归平方和残差平方和三者关系1.5线性回归模型的拟合优度拟合优度:样本观测值聚集在样本771.5线性回归模型的拟合优度复相关系数(可决系数)在总离差平方和中回归平方和所占的比重越大,则回归效果越好,说明回归模型与样本观测值拟合得好;如果残差平方和所占比重大,则回归模型与样本观测值拟合得不理想。把回归平方和与总离差平方和之比定义为可决系数,或复相关系数1.5线性回归模型的拟合优度复相关系数(可决系数)781.6总体回归模型的显著性检验实际问题中,事先并不能断定因变量与自变量之间是否确有线性关系。在求线性回归方程之前,线性回归模型只是一种假设。在求得线性回归方程后,还需要对回归方程进行统计检验,以给出肯定或者否定的结论。统计检验原假设:因变量与自变量之间不存在线性关系,则模型中的为零向量,即备选假设:不全为零1.6总体回归模型的显著性检验实际问题中,事先并不能断定因791.6总体回归模型的显著性检验检验统计量检验:选择显著性水平后,可以用下式检验原假设:若上式成立,即可认为在显著性水平下,回归系数不全为0,即回归方程是显著的。1.6总体回归模型的显著性检验检验统计量801.7回归系数显著性检验—t检验回归方程显著,并不意味着每个自变量对因变量的影响都显著,总想从回归方程中剔除那些可有可无的变量,重新建立更为简单的线性回归方程。这时可以采用回归系数显著性检验。统计检验原假设:如果某个变量对的作用不显著,则该变量的系数就应该为零,即检验统计量:1.7回归系数显著性检验—t检验回归方程显著,并不意味着每811.7回归系数显著性检验—t检验检验:选择显著性水平后,可以用下式检验原假设:若上式成立,即可认为回归系数在置信水平下是显著的。1.7回归系数显著性检验—t检验检验:选择显著性水平821.7回归系数显著性检验—F检验偏回归平方和:在回归分析中,去掉一个自变量使回归平方和减少的部分,也可理解为添入一个自变量使回归平方和增加的部分。可以证明,其为:统计检验原假设:如果某个变量对的作用不显著,则该变量的系数就应该为零,即检验统计量:1.7回归系数显著性检验—F检验偏回归平方和:在回归分析中831.7回归系数显著性检验—F检验检验:选择显著性水平后,可以用下式检验原假设:若上式成立,即可认为回归系数在置信水平下是显著的。1.7回归系数显著性检验—F检验检验:选择显著性水平84某大坝的垂直位移与水位观测值如下表,试用回归分析求回归方程水位/m186.93190.8187.5191195.36197.53190.43193.48188.65192.98位移/mm1.772.021.71.892.512.782.072.231.832.17某大坝的垂直位移与水位观测值如下表,试用回归分析求回归方程水85某大坝的水平位移与两个主要坝段的温度观测值如下表,试用回归分析求回归方程序号坝段1温度/(℃)坝段2温度/(℃)水平位移/mm16.816.5715.4029.889.5313.2039.527.7915.2649.7012.3211.3356.529.8813.3265.348.2614.2679.507.5514.16某大坝的水平位移与两个主要坝段的温度观测值如下表,试用回归分861.8线性回归模型的预报线性回归模型的预报方程预报就是给自变量一组特定的值(),对因变量的值进行估计自变量(如气温、水库水位、降雨量、大坝滑坡体的岩土力学参数)的值可以通过实测得到,如滑坡体的岩土力学参数等也可以用前几十年的资料进行预测得到,如气温、水库水位、降雨量等1.8线性回归模型的预报线性回归模型的预报方程871.8线性回归模型的预报预报误差的估计值的期望和方差:构造统计量:1.8线性回归模型的预报预报误差的估计值881.8线性回归模型的预报预报的置信区间控制:即要求因变量在之间,自变量因素应该怎么控制1.8线性回归模型的预报预报的置信区间89提纲

1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析提纲1.线性回归分析902.1最优回归方程的选择对于一个因变量可能存在多个影响因素,如何从诸多的影响因素中选择一些有效的变量作为自变量,建立“最优”回归方程十分重要如果遗漏了重要的变量,回归分析的效果一定不会好;如果变量过多,将会把对y影响不显著的变量也选入回归方程,这样就影响了回归方程的稳定性,效果也好不了。在实际问题中,影响y的因素很多,而且这些因素之间有可能存在多重共线性,即个自变量之间也有一定的依赖性,这样会出现选择不同的自变量,得到不同的回归结果,对结果的解释也不一样。2.1最优回归方程的选择对于一个因变量可能存在多个影响因素912.1最优回归方程的选择建立最优回归方程的方法:逐步剔除、逐步引入、逐步回归法“逐步剔除”回归分析步骤:首先采用全部自变量与因变量建立回归方程,对每一个因子作显著性检验,剔除不显著的变量中偏回归平方和最小的变量;然后用剩余的自变量和因变量重建回归方程,再逐个检验回归系数,剔除不显著的变量中偏回归平方和最小的变量;重复上述步骤,直到回归方程中所有的因子都显著。缺点:一开始就要计算所有自变量的回归方程,如果原始自变量中有较多个不显著因素,计算量大;2.1最优回归方程的选择建立最优回归方程的方法:逐步剔除、922.1最优回归方程的选择“逐步引入”回归分析:从一个自变量开始,逐个地选入回归方程步骤第一步是在所有的自变量中选出一个,使它和y组成的一元回归方程,回归平方和达到最大,做显著性检验,确认显著时进入下一步;第二步,在未入选的变量中选择一个自变量,使它与已入选的变量组成二元方程,回归平方和达到最大,做显著性检验,确认显著时进入下一步;上述过程不断重复下去,直到选入的变量不显著缺点:未考虑新变量的逐步引入,使得原有引入的变量有可能失去重要性;2.1最优回归方程的选择“逐步引入”回归分析:从一个自变量932.1最优回归方程的选择“逐步回归”分析方法:为了克服上述两种方法的缺点,发展出“有进有出”的回归分析方法,即逐步回归分析方法。类似“逐步引入”方法,根据自变量对y作用的显著程度,逐个引入回归方程。不同之处在于,当原引入变量由于后面的变量引入不再显著时,将其剔除。2.1最优回归方程的选择“逐步回归”分析方法:为了克服上述942.2逐步回归分析—步骤一、确定F检验值引入或剔除变量的标准。一般地,为使最终回归方程中包含较多的变量,F检验水平不宜过高,即显著水平α不宜太小二、逐步计算如果已计算t步,且回归方程中已引入t个变量,则第t+1步为(1)计算所有自变量的偏回归平方和;(2)剔除自变量:在已引入的t个自变量中,检查是否有需要剔除的不显著变量。方法:在已引入的变量中选取具有最小偏回归平方和的一个并计算F值。如果F<Fα,表示该变量不显著,应将其剔除,计算转至步骤(4)。如果F>Fα,不需要剔除变量。计算转至步骤(3)。2.2逐步回归分析—步骤一、确定F检验值952.2逐步回归分析—步骤(3)引入自变量:从未引入的变量中选出具有最大偏回归平方和的自变量,并计算F值,如果F>Fα,则表示该变量显著,应引入回归方程,计算转至步骤(4)。如果F<Fα,则表示已无变量可以选入,逐步回归计算结束。(4)剔除或引入一个变量后,应该重新进行回归,第t+1步结束。重复(1)~(4)进行计算。三、其他计算计算回归方程入选变量的系数、复相关系数和残差统计量等。2.2逐步回归分析—步骤(3)引入自变量:从未引入的变量中96提纲

1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析提纲1.线性回归分析973.1非线性回归模型概念自然界大量存在的相互作用是非线性的。例如,边坡变形是一个复杂的非线性过程,它主要受到边坡地区地质构造、滑坡体及滑动面的力学性质、滑坡体及滑坡地区的水文气象条件(如气温、雨水等)的影响。过程本质的非线性就决定了预报模型的非线性。所以,边坡预报从线性统计分析转向非线性分析,从而建立非线性统计预报方法,已逐渐得到较多关注。3.1非线性回归模型概念自然界大量存在的相互作用是非线性的983.1非线性回归模型概念应用非线性回归模型作边坡变形分析和变形预报首先必须依据一定的样本数据所描述的散点图,结合对特定的边坡运动规律的定性分析,选择适当的回归模型。模型确定以后就可以计算模型参数和进行模型评估和检验。模型通过检验后,就可以对边坡的变形进行分析和预报。3.1非线性回归模型概念应用非线性回归模型作边坡变形分析和992.2非线性回归模型的类型根据非线性回归模型线性化的不同性质,上述模型一般可以分成三种类型:直接换元型、间接代换型、非线性型直接换元型这类非线性回归模型通过简单的变量换元可直接化为线性回归模型

(1)双曲线模型(2)多项式模型(3)对数模型(4)三角函数模型2.2非线性回归模型的类型根据非线性回归模型线性化的不同性1002.2非线性回归模型的类型直接换元型虽然包含有非线性变量,但因变量与待估计参数之间的关系却是线性的。由于这类模型的因变量没有变形,所以可以直接采用最小二乘法估计回归系数并进行检验和预测

2.2非线性回归模型的类型直接换元型1012.2非线性回归模型的类型间接代换型这类非线性回归模型经常通过对数变形代换间接地化为线性回归模型

(1)指数模型(2)幂函数模型2.2非线性回归模型的类型间接代换型(1)指数模型1022.2非线性回归模型的类型间接代换型因变量与待估计参数之间的关系也是非线性的,因此不能通过直接换元化为线性模型。通常可通过对回归方程两边取对数将其化为可以直接换元的形式。这种先取对数再进行变量代换的方法称为间接换元法。为使取对数后回归方程的形式更为简捷,不妨适当变换随机扰动项的形式,(1)指数模型(2)幂函数模型2.2非线性回归模型的类型间接代换型(1)指数模型1032.2非线性回归模型的类型间接代换型由于这类模型在对数变形代换过程中改变了因变量的形态,使得变形后模型的最小二乘估计失去了原模型的残差平方和为最小的意义,从而估计不到原模型的最佳回归系数,可能造成回归模型与原数列之间的较大偏差。2.2非线性回归模型的类型间接代换型1042.2非线性回归模型的类型非线性型不能通过变量变换的方法化为线性模型。可借助于泰勒级数展开式进行逐次线性逼近的估计方法Logistic模型Richards模型Weibull模型修正指数增长曲线2.2非线性回归模型的类型非线性型Logistic模型105某大型高边坡,边坡高差达300米,为了监测边坡的变形,在边坡上布设了一系列监测点:一部分布设在坡顶地面,另一部分布设在滑体上专门开凿的平硐内。变形工作是从1988年开始的,由于缺少有关降雨量等相关资料,对边坡的性状分析主要集中在对边坡监测点的实测变形曲线的规律的分析上。右图为其中几个点的变形-时间实测曲线某大型高边坡,边坡高差达300米,为了监测边坡的变形,在边坡1062.3非线性回归模型的线性逼近解法如果不考虑水的因素,则边坡滑动是一个单纯的力学蠕变过程,可用文字描述为:边坡受到一定的外力干扰后开始蠕变,在蠕变初期变形速度较慢;蠕变到一定时期后,速度逐渐加快;蠕变速度增加到一定程度后,如果边坡的约束强,则边坡的蠕变会逐渐变缓,最后趋于稳定,达到新的平衡;如果边坡的约束不强,则蠕变达到一定程度后会产生突变,导致滑坡。根据对边坡滑移规律的分析,可以选择非线性回归模型中的生物增长曲线来描述边坡的变形Logistic模型Richards模型

Weibull模型2.3非线性回归模型的线性逼近解法如果不考虑水的因素,则边107数学模型

式中为时间变量,为观测的变形量,为未知参数如果进行了n期观测,观测量和观测时间可写为2.3非线性回归模型的线性逼近解法数学模型2.3非线性回归模型的线性逼近解法108观测模型线性化2.3非线性回归模型的线性逼近解法观测模型2.3非线性回归模型的线性逼近解法109线性化2.3非线性回归模型的线性逼近解法线性化2.3非线性回归模型的线性逼近解法110矩阵表达式中

2.3非线性回归模型的线性逼近解法矩阵表达2.3非线性回归模型的线性逼近解法111由最小二乘原理,可以求得的估值由于参数无任何先验信息,必须迭代求解。设第K步求得的参数解为k,则第k+1步计算步骤为: (1)对模型函数在k处按台劳级数展开,重新线性化,组成矩阵形式的观测方程式 (2)按最小二乘法解得第k+1步的参数解(k+1),(k+1)=k+

(3)若,迭代结束,否则重复(1)(2)2.3非线性回归模型的线性逼近解法由最小二乘原理,可以求得的估值2.3非线性1122.3非线性模型的检验非线性模型的检验一般是对残差进行分析,根据残差来推断模型和参数的统计性质。对非线性模型,记,表示模型拟合残差。在非线性模型的情况下,要检验残差是否满足如下假设:(i)为独立、同分布的随机变量,且有:记为iid. (ii)除满足(1)外,还服从正态分布,记为iidN.检验分两步进行,首先检验残差是否服从正态分布,在接受正态分布的检验后再进一步检验残差均值是否为零。具体方法如下:2.3非线性模型的检验非线性模型的检验一般是对残差进行分析1132.3非线性模型的检验残差是否服从正态分布的检验若把残差的取值范围划分为L个子区间(一般划分为7-14个子区间,区间的划分以使每个子区间内所含的样本个数不少于5个为宜)。统计出每个子区间所含的样本数即组频数,i=1,2,…,L。计算出残差平均值和残差方差作为正态分布的参数,查正态分布表得出每一子区间的理论频数,,其中为在第i个区间取值的概率,它可由正态分布表查得。检验的统计量为:

由此可以检验残差是否服从正态分布。2.3非线性模型的检验残差是否服从正态分布的检验1142.3非线性模型的检验统计检验检验统计量:2.3非线性模型的检验统计检验1152.3非线性模型的检验残差均值是否为零的检验

在通过残差服从正态分布的前提下,我们再来讨论残差均值是否为零的检验。在大样本时不管总体遵循什么分布,根据中心定理,可以认为样本均值渐近遵从正态分布。因此可以利用u检验:2.3非线性模型的检验残差均值是否为零的检验1162.3非线性模型的检验统计检验检验统计量:2.3非线性模型的检验统计检验1172.3非线性模型的检验若两个检验都成立,则认为模型的统计性质优良;若检验(1)通过但检验(2)不成立,则需对模型进一步改进或是调整模型参数形式等;若两个检验都不成立,则需调整模型或是考虑用别的模型。

2.3非线性模型的检验若两个检验都成立,则认为模型的统计性1182.4非线性回归模型的预报变形预报:2.4非线性回归模型的预报变形预报:119提纲

1.多元线性回归模型2.非线性回归模型3.SCGM模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论