版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章回归分析一元线性回归多元线性回归逐步回归非线性回归第二章回归分析一元线性回归1第二章1一元线性回归回归分析是研究变量之间关系的一种数学工具它帮助我们根据一个变量的取值去估计另一变量的值。在气象上,可以利用回归分析建立被预报的变量(称为“预报量”)与预报因子之间的关系式。变量之间的关系可以分为确定性的和非确定性的有两种:确定性关系:两变量之间的函数关系如:圆的周长与半径,Y与x的一次函数关系非确定性关系:两变量在宏观上存在关系,但却无法用确定的函数来表达。如:体重与身高,血压与年龄,温度与湿度回归分析研究的是变量之间的非确定性关系。第二章1一元线性回归回归分析是研究变量之间关系的一种数学2一元线性回归模型设随机变量y(预报量)的取值与一个预报因子x之间存在某种线性关系:
y=β0+βx+e,y的取值包含以下两部分:第一部分:关于x的线性函数β0+βx,β0和β都是不依赖于x的常数,未知;第二部分:随机误差e,服从期望为0的正态分布N(0,σ2),
是x以外的其他各种因素导致的y的随机误差,属于y中“不可控的部分”;该模型称为一元线性回归模型(称其为“一元”是因为:预报因子只有一个x),β0和β被称为“回归系数”。一元线性回归模型3对回归模型y=β0+βx+e的理解:x不是随机变量,是可以精确控制或观察的变量(如时间、年龄等)。对于一个确定的x,y的取值具有随机性,将围绕β0+βx上下波动,但y的数学期望是固定的,对回归模型y=β0+βx+e两边取数学期望,则有:E(y)=β0+βx这反映出y的“总体”与x之间确定的线性关系,称为“总体”的一元线性回归模型。对回归模型y=β0+βx+e的理解:对回归4实际应用中,对于一组确定的x数据,可以观测到相应的y数据,如右侧散点图中的蓝色圆圈,利用x和y数据通过回归分析把β0和β估记出来,分别记为b0和b,这就经验性地得到x和y的之间的近似线性关系(右图红色直线),该过程又称为“线性拟合”。于是,对于任意一个x,可以根据回归方程做出对y的估计,记作
ŷ(右图中红线上的红色圆点),ŷ=b0+
bx
被称作“经验线性回归模型”,b0与b分别是回归系数β0和β的估计值。ŷ=b0+
b
x
ŷ与y
什么关系?实际应用中,对于一组确定的x数据,可以观测到相应的y数据,如5如何确定出参数b0和b?最小二乘法确定b0和b我们最终所确定出的b0和b应该使得全部观测值y与估计值ŷ的离差平方和达到最小,即:根据极值原理:分别取Q关于b0和b的偏导数,并令它们等于零:如何确定出参数b0和b?最小二乘法确定b0和b根据极值原理6上式可进一步整理得:以上得到了关于求解b0和b的方程组,称为“正规方程组”,解此二元一次方程组可得:注意,b0,b与β0,β的关系:b0与b是根据y的样本数据所作出的对β0和β的估计值,而β0和
β永远是未知的参数。上式可进一步整理得:以上得到了关于求解b0和b的方程组,称为7特别地,当y和x都采用距平资料时,
b0=______这时,回归方程可以不用求b0,只需求b,回归方程为:
ŷ=bx这时,b数值的含义为:当x的变化为1时,y所产生的变化为b。实际气象应用中,经常使用距平值进行分析预报。0特别地,当y和x都采用距平资料时,08b0=3.25
b=2.29一元线性回归模型中x,y,和ŷ的时间序列举例b0=3.25一元线性回归模型中x,y,和ŷ9在分析y
和ŷ的方差之前,先考察他们的均值有何联系?回归问题的方差分析
——为了衡量回归方程的优劣回归方程建立后,y的取值在多大程度上是由x决定?即:y的变化在多大程度上是由x的变化所决定?x的变化全部直接体现在ŷ上,而ŷ的方差与y的方差有何关系?考虑到ŷ与y具有相同的平均值,同时再结合y-ŷ=e,通过分析y的方差构成,寻找ŷ与y两者方差的关系。y=b0+bx+e=ŷ+e在分析y和ŷ的方差之前,先考察他们的均值有何联系?回归问题10b0=3.25
b=2.29可以证明:上式最后一项交叉积的值为0,于是有:b0=3.25可以证明:上式最后一项交叉积的值为011y,ŷ,和
y示例
y-ŷŷ-yy-yyyŷ
xy,ŷ,和y示例
y-ŷŷ-12对上式两边分别乘以n,研究各变量的离差平方和的关系。为避免过多数学符号,等号左边仍采用方差的记号syy。“回归平方和”与“剩余平方和”由上式可知,y的离差平方和可分为以下两部分:
第一项:U,被称为“回归平方和”,反映因子x的变化对y的贡献。
第二项:Q,被称为“残差平方和”(或“剩余平方和”),反映除x以外的随机因素e(e=y-ŷ)的影响。
U和Q的相对大小反映了因子x对y的影响程度,在n固定的情况下,如果回归方差所占y方差的比重越大,剩余方差所占的比重越小,就表明回归的效果越好,
即:x的变化对y的变化起主要作用,利用回归方程所估计出的ŷ也会越接近观测值y。对上式两边分别乘以n,研究各变量的离差平方和的关系。为避免过13ŷ的方差占y的方差的比重(U/(U+Q))可作为衡量回归模型效果的标准:把ŷt=b0+
b
xt
带入上式,得:可见,回归方差占总方差的百分比=相关系数的平方。想象|r|=1或r=0时的回归模型应该是怎样的?因此,可以通过syy与相关系数r来计算U与QU/(U+Q)=r2;Q/(U+Q)=1-r2ŷ的方差占y的方差的比重(U/(U+Q))可作为衡量回归模型14回归系数与相关系数的关系结合相关系数的表达式:可得回归系数b与相关系数r之间的关系:由上式可见:
b与r的符号的关系是?_________如果x是标准化的数据,那么b与r的关系是?_________如果x和y都是标准化数据,那么b与r的关系是?________不要忘记本课程对标记符号的约定:———
x的方差sx
——x的标准差sxx
——x与x的协方差,即x的方差,等价于所以,原始数据算得的回归系数b与标准化数据算得的回归系数b*的关系是:b=_____?回归系数与相关系数的关系结合相关系数的表达式:可得回归系数b15一元回归方程(回归效果)的显著性检验与相关系数的检验类似,回归方程的检验就是利用样本检验两个总体之间是否存在回归关系。通过方差分析可知,可用“回归平方和”U与“剩余平方和”Q的比值来衡量回归效果的好坏。可以证明,假设总体的回归系数为0的条件下,统计量:上式可以用相关系数的平方来表示:所以,一元回归方程的F检验等价于相关系数的检验。因为当分子自由度为1时,F(1,n)等价于t2(n)注意Q的自由度为n-2,即:残差e的方差的无偏估计为:Q/(n-2)一元回归方程(回归效果)的显著性检验与相关系数的检验类似,回16预报值的置信区间根据回归方程可作出y的预报值ŷ,但真正的y应当是以一定概率出现在ŷ的左右,给一个置信概率(0.95),如何估计出y的区间?回忆前文所讲,y的第i个观测值yi服从怎样的分布?
yi
~N(β0+βxi,σ2)e=yi-
(β0+βxi)服从N(0,σ2)于是,因为定理:标准正态分布“上а分位点”在95%的置信概率下:预报值的置信区间根据回归方程可作出y的预报值ŷ,但真正的y应17第二章2多元线性回归气象统计预报中,预报量往往与前期多个因子有关,因而大多数统计预报中的回归分析都是采用多元回归技术。一元回归的预报因子只有一个x,而多元回归预报因子有多个,设随机变量y与m个变量x1,x2,…,xm之间存在如下线性关系:
y=β0+β1x1+
β2x2
+
…+βmxm
+e,
其中,e~N(0,σ2)该模型称为:多元线性回归模型,回归系数βi也称为“偏回归系数”。根据此回归模型,如果做n次抽样,获得了y的n次观测记为一列向量:[y1,y2,…,yn]T;xi的第j次观测记为xij那么,列向量y可以写为:第二章2多元线性回归气象统计预报中,预报量往往与前期多个18利用这组样本对回归模型进行估计,估算出向量β,得到经验回归模型为:其中,b0,b1,b2,…,bm
分别是β0,β1,β2…,βm的估计,上式的矩阵形式为:ŷ=Xbŷ=b0+
b1x1
+b2x2
+…+bmxm
如何估算出向量回归系数向量b
(b0,b1,b2,…,bm)?注意:此处的X第一列是常数向量1,对应于β0。另外:每行表示一个时间,每列表示一个变量。利用这组样本对回归模型进行估计,估算出向量β,得到经验回归19多元回归系数的估算最小二乘法:类似求解一元回归系数的方法,最终确定的各回归系数应使得ŷ与y的离差平方和达到最小。根据极值原理,Q对各回归系数的偏导数应该为0,即:对第一式整理后得:该方程组称为:求解bi(i=1,2,…,m)的正规方程组,可进一步写成矩阵的形式:多元回归系数的估算最小二乘法:根据极值原理,Q对各回归系数的20把正规方程组写成矩阵形式:其中,S为正规方程组的系数矩阵,一般情况下S是非奇异矩阵,必然存在其唯一逆矩阵S-1使我们能够解出回归系数向量b:b=S-1SY想想什么情况下S会变成奇异矩阵?把正规方程组写成矩阵形式:其中,S为正规方程组的系数矩阵,一21原始变量回归方程:回归模型的不同形式距平变量回归方程:标准化变量的回归方程:?因为标准化数据的协方差就是相关系数,因此,为了考察标准化数据算得的回归系数与原始数据的回归系数有何关系,需要把正规方程组中的系数阵S从协方差阵变成相关系数阵。(根据距平变量算得b0=0)正规方程组的第i个方程为:把等号两边同除以,然后等号右边的第j项乘以以上把等号左边的协方差都变成了相关系数,为了让等号右侧也变为相关系数,把等号同两侧除以得:(其中,b*=?)原始变量回归方程:回归模型的不同形式距平变量回归方程:标准化22所以,这时正规方程组的解为:请与一元回归的回归系数与相关系数的关系进行对照所以标准化变量的回归方程:(其中,)所以,这时正规方程组的解为:请与一元回归的回归系数与相关系数23回归问题的方差分析可以证明,与一元回归的方差分析类似,多元回归预报量的离差平方和也可分解为回归平方和与剩余平方和之和:类似一元回归,可证明:U可用“各回归系数”与“各因子与y的离差平方和”的乘积之和来表示,衡量回归效果的数量指标(1):剩余方差剩余平方和除以它的自由度,定义为剩余方差,记为:越少的因子数(m)在越大的样本(n)情形下获得越小的剩余平方和(Q),回归效果就越好!剩余方差越小,回归效果越好。是否记得一元回归时的对应情景?回归问题的方差分析类似一元回归,可证明:U可用“各回归系数”24衡量回归效果的数量指标(2):复相关系数回归平方和U是表示m个因子对预报量y的离差平方和的贡献,表征m个因子对y的影响程度。引入U的相对量数,即回归平方和占y的总离差平方和的比例,再开根号,定义为复相关系数R:因此:复相关系数没有正负号之分,永远是正值。当n和m固定时,复相关系数越大,表明回归效果越好。y与m个因子之间的复相关系数也就是ŷ与y之间的简单相关系数。复相关系数反映预报量y与m个因子之间的综合相关关系,不仅涉及到y与m个变量之间的单相关关系,而且也涉及到x1,x2,…xm之间的单相关关系。相对于复相关系数,前面所学的两个变量之间的线性相关系数可称为“简单相关系数”或“单相关系数”注意是当样本容量(n)和因子数(m)都固定时。衡量回归效果的数量指标(2):复相关系数因此:复相关系数没25复相关系数可以用各变量(y,x1,x2,…,xm)之间的简单相关系数来表示设x1,x2,…,xm,y之间的相关矩阵为:R是(m+1)行(m+1)列,那么,y与x1,x2,…,xm的复相关系数可写为其中,|R|为R的行列式,Ryy为R中除去第m+1行和第m+1列之后的代数余子式。特别地,当只有两个(m=2)预报因子时,y与x1和x2的复相关系数计算公式为:可见,在r1y和r2y一定的情况下,r12越小,y与两因子的复相关系数越高。复相关系数可以用各变量(y,x1,x2,…,xm)之间的简单26回归效果的显著性检验如果y与各个预报因子之间没有关系,检验回归方程的效果,就是检验y与x1,x2,…,xm之间是否存在线性关系。于是可归结为检验以下原假设是否成立:H0:β1=β2=
……=βm=0
在该假设成立的情况下,有:根据统计检验方法,在给定显著性水平а下,比较F与F
а的大小,若F>F
а,拒绝原假设,认为回归效果显著,即认为y与各预报因子之间存在线性关系(回归系数不全为零)。图:F分布举例(n1≠1)回归效果的显著性检验如果y与各个预报因子之间没有关系,检验回27回归方程也可用“临界复相关系数”来检验根据复相关系数的定义,统计量F可用复相关系数来表达:反推出临界复相关系数的值:当算得的复相关系数大于临界复相关系数Rc时,回归方程效果显著。注意这里的临界复相关系数与一元回归(或简单相关)时的“临界单相关系数”不同:样本容量(n)越小,因子个数(m)越多,临界复相关系数就越大(门槛越高)图.а=0.05时的临界复相关系数临界单相关系数rc只与样本容量n有关;临界复相关系数Rc与样本容量n和因子个数m都有关。回归方程也可用“临界复相关系数”来检验根据复相关系数的定义,28单个因子重要性的衡量以及显著性检验前面介绍的回归方程的假设检验是检验原假设H0:β1=β2=
……=βm=0因此,如果回归方程通过了检验,我们只能相信β1,β2,…,βm不全为0,然而对于某一个βi,我们如何检验它是否为0?即检验该因子对预报量是否是重要的。单个因子的方差贡献从残差平方和的计算公式可知,每加入一个因子,残差平方和就会减小一部分,回归平方和会增加一部分。设m个因子组成的回归方程的残差平方和为Q,回归系数为b
,当从这m个因子中去掉第i个因子后重新组成的回归方程的残差平方和为Q’,回归系数记为b’,于是,第i个因子的方差贡献为:上式较为复杂不易计算,但可证明(P47),Vi可用下式方便地计算:其中,cii是正规方程组系数阵S的逆矩阵的第i行第i列元素。单个因子重要性的衡量以及显著性检验前面介绍的回归方程的假设检29单个因子的显著性检验假设H0:βi=0则有统计量:
给定显著性水平а后,查表得到统计量的临界值Fа,当Fi>Fа时,拒绝原假设,认为xi的方差贡献是显著的;当Fi<Fа时,接收原假设,认为xi对预报量y不重要,可以将其剔除,重新建立线性回归方程。单个因子的显著性检验假设H0:βi=0则有统计量:给定显30预报量的区间估计与一元回归的预报量估计类似,y的第j个观测值yj服从正态分布:
yj
~N(β0+βx1j
+βx2j
+
…+βxmj,σ2)标准正态分布“上а分位点”在95%的置信概率下:z0.025=1.96预报量的区间估计与一元回归的预报量估计类似,y的第j个观测值31偏相关系数请看以下例子:有y,x1,x2三个变量,假设他们存在以下关系:设β=-1,则x1与x2之间的相关系数为负:r12<0设β1=0.5,β2=1,即x1和x2对y都是正的影响。在以上β、β1、和β2的控制下,观测到了y,x1,x2的样本数据,如下图:r12=-0.83由y=0.5*x1+x2+e可知,y与x1本应是正相关关系,但由于受到了x2的影响,根据样本计算出的y与x1之间的简单相关系数被歪曲为负值(-0.58)。r2y=0.90r1y=-0.58偏相关系数请看以下例子:有y,x1,x2三个变量,假设他32如何才能正确得到y与x1之间的关系?把x2带来的影响分别从x1和y中扣除,然后再计算x1与y的相关,应该可以得到两者之间“真正”的关系。如何分别从x1和y中扣除x2的影响?方法:以x2为自变量,分别以x1和y为因变量建立两个一元回归模型。如此计算的相关系数就叫做x1和y在消除x2影响之后的偏相关系数。其他方案:建立y和x1、x2的多元回归模型y=b0+b1x1+b2x2也可得到正确的y与x1的关系,对于该例,计算出的回归系数b1=0.55,b2=1.09(对应于β1=0.5;
β1=1.0)。如何才能正确得到y与x1之间的关系?如何分别从x1和y中扣除33如果预报量y与多个预报因子都存在关系、并且各预报因子内部也存在相互关系,这时预报量y与某一个因子的单相关系数可能不会正确反映二者之间真正的关系,需要计算偏相关系数。偏相关系数还可以利用相关系数阵来计算:如果m+1个变量(包括y)的相关矩阵R如右所示,则xi与y在去除其他变量影响后的偏相关系数为:Ryi是相关矩阵R中删去第m+1行和第i列后的代数余子式,Rii是R中除去第i行和第i列后的代数余子式。Ryy是除去第m+1行和m+1列之后的代数余子式。当m=2时:可见,有时候虽然因子与预报量之间的偏相关很好,但由于因子之间存在相关性(例如负相关),会使得某个因子与预报量之间的单相关系数变得不明显甚至符号颠倒。这启示我们:在选择预报因子时不能片面追求单相关系数高,而要充分考虑因子的物理意义以及因子之间的相互关系。如果预报量y与多个预报因子都存在关系、并且各预报因子内部也存34因子数目对多元回归方程的影响在样本容量n固定的情况下,预报量y的总离差平方和(U+Q)是固定的,回归平方和U越大/越小,剩余平方和Q就越小/越大。当多元回归方程每增加一个因子时,剩余平方和Q就会减小,回归平方和U增大,即复相关系数(ŷ与y的简单相关系数)将增大。Q自由度的极端情况:当因子个数m增加至n-1时(即Q的自由度n-m-1=0):回归方程变为恰定方程组能够求解,存在一组b的解使得向量e直接等于0,即ŷ与y将完全重合。这时的剩余平方和Q只能等于0,没有任何“自由”。但:因子并不一定越多越好!在样本容量一定的情况下,多引入一个因子会降低剩余方差的自由度(n-m-1)虽然多引入一个因子能使剩余平方和减小,但由于自由度减小了,所以剩余方差不一定减小。当无任何因子时(m=0)时,剩余平方和的自由度为:n-1每引入一个因子,相当于Q又多了一个限制条件,因此自由度减1。Q/(n-m-1)是残差e的方差的无偏估计!因子数目对多元回归方程的影响在样本容量n固定的情况下,预报量35m=n-1时,即便m个因子全是随机数(如右图),也能够解出恰定方程组使得Q=0(ŷ与y完全重合,相关系数为1),但这时的回归模型已毫无意义,如果用此模型来对未来作预报将无任何预报效果。总之,如果样本数n太少或因子数m太多,回归方程要想通过显著性检验的门槛就越高。
如果引入的是和y不相关的因子,就预报量带来了更多的随机因素,影响了回归方程的稳定性(或显著性),使得预报效果降低。因此,既要选择对预报量影响显著的因子,同时又要使回归方程的剩余方差(Q/(n-m-1))尽可能小,才有利于预报。如何挑选一批优秀的因子加入回归方程?逐步回归!m=n-1时,即便m个因子全是随机数(如右图),也能够解出恰36第二章3逐步回归问题:如何从可能影响预报量y的大量因子中,挑选一批较好的因子,组建多元回归方程?
方案一:把所有可能的因子组合逐个全部计算出来,计算剩余方差,判断每种组合的回归方程的优劣。当因子太多时,工作量巨大,不可取。
方案二:逐步回归(1)每一步从众多待选因子中选择一个对预报量贡献大的因子,通过显著性检验(称为“引入检验”),引入回归方程。(2)当引入一个因子之后,新引入的因子可能会使已进入回归方程的因子变得不显著,于是再对方程中已引入的因子逐个进行“剔除检验”,直至不显著的因子都剔除为止。然后再重复第(1)步,引入一个因子。(3)引入一个因子后再重复地2步剔除因子,直到没有因子可以剔除也没有因子可以引入为止。第二章3逐步回归问题:如何从可能影响预报量y的大量因子中,37逐步回归需要使用矩阵的“紧凑型求解与求逆变换法”。它是由“求解变换”、“求解求逆变换”逐步发展而来。求解变换求解与求逆变换紧凑型求解与求逆变换求解变换例如:为了求解多元回归的正规方程组:将增广矩阵中的系数阵通过初等变换变成单位阵,最后一列就是回归系数的解。从第l-1步到第l步处理第k列时所需要做的动作:初等变换可按任意次序进行!逐步回归需要使用矩阵的“紧凑型求解与求逆变换法”。求解变换38求解与求逆变换因为求解与求系数阵S的逆矩阵方法相同,因此可用把求解与求逆放在一起计算。在原增广矩阵的右边放入单位阵,作为初始阵A(0)
:0.1=1/10-0.7=0-1*7/10-0.4=0-1*4/10注意:最终所求出的解向量和逆矩阵,与初等变换的顺序无关!求解与求逆变换因为求解与求系数阵S的逆矩阵方法相同,因此可用39求解求逆与多元回归方程因子筛选的关系注意求解求逆变换的一个重要性质:最终求出的解向量和逆矩阵,与变换顺序无关。求解求逆变换可按任意次序进行。当对系数阵的第k列(a(k,k))做初等变换使其变为单位阵元素后,解向量的第k行就是第k个因子所对应的回归系数bk,,因此这相当于把第k个因子引入了回归方程。每当对k1,k2,…,km列做完初等变换后,相当于把这m个因子引入了回归方程。解向量中的第k1,k2,…,km行就是这m个因子所对应的回归系数
;逆矩阵中的第k1,k2,…,km行就是这m个因子的协方差阵S的逆矩阵。为什么我们希望得到协方差阵S的逆矩阵S-1
?因为计算单个因子的方差贡献需要用到逆矩阵中的元素Cii:求解求逆与多元回归方程因子筛选的关系注意求解求逆变换的一个重40紧凑型求解与求逆变换求解求逆的计算过程中,可以发现:每做一次变换,原系数阵的就有一列变为单位阵元素并保持不变,而逆矩阵中则减少一列单位元素,即:总矩阵中总有三列保持单位阵元素。为了节省空间,在做变换时,可将系数阵中的单位阵元素用逆矩阵中对应列来代替,这就是紧凑型求解与求逆变换。先后引入第1、2、3个因子的紧凑型求解求逆变换为:A
(0)
A
(1)
A
(2)
A
(3)
紧凑型求解与求逆变换求解求逆的计算过程中,可以发现:每做一次41结合求解变换的公式,以及求解求逆的变换公式,容易得到“紧凑型求解求逆”的变换公式为:A
(0)
A
(1)
A
(2)
A
(3)
(1):处理元素:a(k,k)变为原a(k,k)的倒数。
以A(1)A(2)为例(k=2),对四条变换法则逐条解释:结合求解变换的公式,以及求解求逆的变换公式,容易得到“紧凑型42(2):对于第k行的其他元素:a(k,j)(j≠k)
把原元素除以a(k,k)(4):对于第k列和第k行以外的其他元素:a(i,k)(i≠k,j≠k)
每次计算,涉及四个元素,以a(3,4)为例(从1.4到1.29)如右图圆圈所示:1.4-1.2*0.2/2.1=1.29(3):对于第k列的其他元素:a(i,k)(i≠k)
把原元素除以-a(k,k)(2):对于第k行的其他元素:a(k,j)(j≠k)(43解和逆的最终结果与变换顺序无关随时得到解和逆的中间结果:因为每作一次变换,就得到一个方程组的解以及方程组系数矩阵的逆,所以利用该变换,可以得到逐步引进因子的过程中所建立的那些过渡回归方程的正规方程组的解,以及对应系数矩阵的逆。求解求逆紧凑变换具有恢复能力对A矩阵的第k个因子实施变换可记为:LkA容易证明,Lk[LkA(l-1)]=LkA(l)=A(l+1)=A(l-1)对已经变换的因子再进行一次变换,则该列将恢复到变换之前的状态。例如依次对a(1,1)、a(2,2)实施变换,然后再对a(1,1)再次实施变换,这时所得到结果与只对a(2,2)实施变换所得的结果是完全一致的。这就相当于把第一个因子引入之后又剔除出去,与只引进第二个因子的结果完全相同。该功能的好处是:在引进因子的同时,可以随时将那些原先显著却后来由于新因子的引入变得不显著的因子剔除出回归方程。对称和反对称性设K={k1,k2,…,km},表示已引入的各因子的集合,A中元素具有以下对称和反对称性:解和逆的最终结果与变换顺序无关44逐步回归计算步骤准备工作:(1)计算m个备选因子与y(共m+1个变量)的相关系数阵。即:把原增广矩阵的最后一列放到第m+1行,扩为对称矩阵。因此在排列资料阵X时,需要把y的n次观测放到最后一行:(2)设置一个变量:l,
记录当前已经引入回归方程的因子个数,初始状态l=0。建立一个集合K,记录已引入的因子,初始状态K为空集。采用相关系数阵是为了计算方便。先得到标准化变量回归方程的回归系数,最后再转成原始变量回归方程的回归系数。逐步回归计算步骤准备工作:(2)设置一个变量:l,记45第(1)步:计算各“待选因子”的方差贡献并检验,然后引入一个因子根据相关矩阵R(0),计算各待选因子的方差贡献,决定要引入哪个因子。加入一个因子后将变成一元回归方程:ΔU=bsxy-0=(sxy)2/sxx,所以回归平方和增加量(剩余平方和减少量)为:注意此时的方差贡献是指:该因子被引入之后,相比起引入之前,能让回归平方和增加多少,或剩余平方和减少多少。不同于前面所学的单个回归系数的检验时的方差贡献表示当把该因子从回归方程中剔除后,能让回归平方和减少多少。根据上式,对所有待选因子计算方差贡献,找出最大的一个(如:第k个因子),进行显著性检验,统计量为:Q表示将该因子引入回归方程之后的剩余平方和。在无任何因子引入之前,剩余平方和就是y的全部离差平方和
,当引入一个因子之后,剩余平方和应为原剩余平方和减去该因子的方差贡献。即:,因此统计量F可用下式计算:如果F>Fа,则表示该因子的贡献是显著的,可以引入该因子。否则,不引入该因子。对于相关矩阵R(0)(即标准化数据的协方差阵)来说,r(0)iy相当于sxy,r(0)ii相当于sxx第(1)步:计算各“待选因子”的方差贡献并检验,然后引入一个46方差贡献最大的因子是xk,如果显著性检验的结果为可以引入,则对rkk作一次求解求逆紧凑变换,这表示已把第k个因子引入。变换后的矩阵记为R(1)。引入后,把回归方程中的因子个数l加1,把k加入回归方程的因子集合K。第(2-3)步:继续引入因子,直到引够3个为止。在回归方程的起步阶段,如果已引入的因子个数l<3,则一直引入因子。逐个计算余下的待选因子的方差贡献,选择方差贡献最大的进行显著性检验并引入。如果目前为止,已历经了l次变换,已引入的因子数为l,当前的矩阵为R(l),要引入第l+1个因子,那么可以证明(略):余下的各待选因子的方差贡献,仍然可以表示为:检验统计量:在引够3个因子之前,如果某个因子的显著性检验的结果为不宜引入,则逐步回归停止。连续引入3个因子之后,需要对已选因子进行剔除检验,以剔除不显著因子。可以结合紧凑求解求逆变换法则用数学归纳法证明(略):矩阵的右下角元素ryy始终代表着当前回归方程的剩余平方和,即:。因此引入新因子后的剩余平方和
引入新因子后的因子个数为:l+1,所以剩余平方和的自由度为:n-(l+1)-1方差贡献最大的因子是xk,如果显著性检验的结果为可以引入,则47第(4)步:计算各“已选因子”的方差贡献并检验,然后剔除一个因子对已入选回归方程的各个因子考察其方差贡献,在介绍“单个因子的重要性的衡量及检验”时已经提到Vi,该式可用R矩阵中的元素来计算(
bi和cii分别对应矩阵中的哪个元素?)。设:目前为止,已引入的因子数为l,当前的矩阵为R(l),那么已引入的各因子的方差贡献可用矩阵R(l)中的元素计算,如下:由求解求逆紧凑变换法则可知:回归系数bi就相当于“引入变换”后的riy,逆矩阵中的cii就相当于“引入变换”后的rii选择一个方差贡献最小的(Vk),进行检验,统计量为:矩阵的右下角元素ryy始终代表着当前回归方程的剩余平方和,即:。这一剩余平方和是在l个因子下获得的,所以自由度为:n-l-1如果F<Fа,则表示该因子的贡献是不显著的,剔除该因子。否则,不剔除该因子。第(4)步:计算各“已选因子”的方差贡献并检验,然后剔除一个48当确定要剔除该因子(如第k个因子)后,进行一次求解求逆紧凑变换,把已引入回归方程的因子个数l减1,并把k从已选因子的集合K中删除。当剔除完一个因子之后,继续检验并剔除其他因子,直至剩下的因子都不宜剔除为止。进行引入检验,引入一个因子连续地剔除检验、剔除因子,直至剩下的因子都不宜剔除为止。进行引入检验,引入一个因子,如果没有显著的因子可供引入,逐步回归结束。逐步回归结束时的情形是:既没有因子可以被剔除也没有因子可以被引入。第(5、6、7……)步:可见,逐步回归中,因子的剔除需要连续剔除,把所有不显著的因子都剔除掉,但因子的引入却不能连续引入(起步阶段除外)。每次只引入一个因子,然后进行剔除检验。当确定要剔除该因子(如第k个因子)后,进行一次求解求逆紧凑变49引入检验与剔除检验时的显著性水平的设置(а引入与а剔除)为了避免使逐步回归进入无穷无尽的死循环,需要将“引入检验”和“剔除检验”的显著性水平设成:
а引入≤а剔除,例如а引入=0.05,а剔除=0.1思考:一个刚被引入的因子是否会在接下来的剔除检验中被剔除?设某个因子xi是第l+1个被引入的因子,那么它当初在引入检验时,方差贡献和统计量为:所以,以上两个统计量是完全相同的,当“引入检验”与“剔除检验”取相同的显著性水平时,刚引入的因子不可能在下一步被剔除。同理,刚被剔除的因子也不会在下一步被引入。否则,逐步回归将陷入死循环无法结束。当第l+1个因子xi被引入后,要检验其是否可以在下一步被立刻剔除,方差贡献和统计量为:分子自由度为1的F分布接受域(剔除)拒绝域(引入)引入检验与剔除检验时的显著性水平的设置(а引入与а剔除)50总结、逐步回归流程图是否是否是否是引入检验可否引入?退出引入因子数l=3?剔除检验可否剔除?剔除引入检验可否引入?引入退出否起步,先引入3个因子关于引入检验:(目前已选l个因子,要引入第l+1个):F统计量:方差贡献:关于剔除检验:(设目前已选l个因子):方差贡献:F统计量:每引入一个因子就把l加1,并把因子的代号加入已选因子集合。每剔除一个因子就把l减1,并把因子的代号从已选因子集合中删去。总结、逐步回归流程图是否是否是否是引入检验可否引入?退出引入51逐步回归结束,最优回归方程确定后,
回归系数、剩余方差、复相关系数的计算注意这些回归系数都是利用相关系数阵计算的,即标准化变量的回归系数,需要把它们还原到原始变量的回归系数:逐步回归过程结束后,如果已引入了l个因子(k1,k2,…,kl),当前矩阵为R(l),那么回归系数的解就是解向量中的对应元素:可以证明,原始变量回归方程的剩余平方和Q等于标准化变量回归方程的剩余平方和r(l)yy乘以y的离差平方和syy:所以剩余方差为:逐步回归结束,最优回归方程确定后,
回归系数、剩余方差、复相52演示:教材P60例6,逐步回归方法建立预报当年1月平均温度(y)的回归方程
总共四个备选因子:x1,x2,x3,x4数据准备:计算相关系数矩阵R(0)回归方程中的因子数l=0;已选因子集合K={}(空集)。
1.当前因子数l=0,进行引入检验。逐个计算方差贡献,发现方差贡献最大的是:x3=0.2809,所以,可以引入x3为了应对该例子,我们在此选取一个较低的检验门槛,设а引入=а剔除=
0.2否则,在该例子的起步阶段无法引够3个因子。演示:教材P60例6,逐步回归方法建立预报当年1月平均温度532.对R(0)33进行求解求逆紧凑变换,引入x3,得到R(1)变换完毕之后,因子数l加1,并把k1=3加入已选因子集合K。现在,l=1,K={3}
3.判断当前的因子数l是否小于3:当前l=1<3,所以应继续引入检验。当前因子数l=1,在余下的待选因子{x1,x2,x4}中,寻找方差贡献最大者:方差贡献最大的是x2,检验是否可以引入x2.所以,可以引入x22.对R(0)33进行求解求逆紧凑变换,引入x3,得到R544.对R(1)22进行求解求逆紧凑变换,引入x2,得到R(2)变换完毕之后,因子数l加1,并把k2=2加入已选因子集合K。现在,l=2,K={3,2}
5.判断当前的因子数l是否小于3:当前l=2<3,所以应继续进行引入检验。当前因子数l=2,在余下的待选因子{x1,x4}中,寻找方差贡献最大者:贡献最大的是x4,检验是否可以引入x4。所以,可以引入x44.对R(1)22进行求解求逆紧凑变换,引入x2,得到R556.对R(2)44进行求解求逆紧凑变换,引入x4,得到R(3)。变换完毕之后,因子数l加1,并把k2=4加入已选因子集合K。现在,l=3,K={3,2,4}
注意:到目前为止,已经引入了3个因子,所以,起步阶段结束。从下一步开始,检验并剔除因子。6.对R(2)44进行求解求逆紧凑变换,引入x4,得到56当前因子数l=3,在已选因子{x3,x2,x4}中,寻找方差贡献最小者:方差贡献最小的是x4,检验是否可以剔除x4。所以,不应剔除x4其实,检验是否剔除x4时的统计量与上一步引入x4时的统计量相同,所以x4肯定不会被剔除。刚引入的因子不会在下一步被剔除,所以,此处的x4的剔除检验可以省略。7.判断当前的因子数l=3,起步结束,不再继续引入,应进行剔除检验。当前因子数l=3,在已选因子{x3,x2,x4}中,方57当前因子数l=3,在余下的待选因子{x1}中,寻找方差贡献最大者。只剩一个待选因子x1,检验它是否可以被引入。所以,可以引入x18.上一步的结果是已经没有可以剔除的因子,因此本步应进行引入检验当前因子数l=3,在余下的待选因子{x1}中,寻找方差贡献589.对R(3)11进行求解求逆紧凑变换,引入x1,得到R(4)。变换完毕之后:因子数l加1,并把k2=1加入已选因子集合K。现在:l=4,K={3,2,4,1}
9.对R(3)11进行求解求逆紧凑变换,引入x1,得到59当前因子数l=4,在已选因子{x3,x2,x4,x1}中,寻找方差贡献最小者:方差贡献最小的是x3,检验是否可以剔除x3。F<Fа,所以,应将x3剔除。10.上一步刚引入了一个因子,所以本步应进行剔除检验。当前因子数l=4,在已选因子{x3,x2,x4,x16011.上一步剔除检验的结论是“剔除”,所以,对R(4)33进行求解求逆紧凑变换,剔除x3,注意:得到新矩阵记为:R(3)变换完毕之后,因子数l减1,并把k2=3从已选因子集合K中删去。现在,l=3,K={2,4,1}
注意:剔除x3之前的矩阵记为:R(4);剔除x3之后的矩阵记为:R(3);不建议如教材那样把剔除x3之后的矩阵记为R(5)两个R(3):引入x1之前的矩阵也叫R(3),但它与现在剔除x3后的R(4)矩阵并不相同,因为虽然回归方程的因子数都是3个,但包含的因子不同:引入x1之前的R(3),回归方程包含因子K={3,2,4}剔除x3以后的R(3),回归方程包含因子K={2,4,1}11.上一步剔除检验的结论是“剔除”,所以,对R(46112.上一步刚剔除了一个因子,所以本步应继续进行剔除检验。当前因子数l=3,在已选因子{x2,x4,x1}中,寻找方差贡献最小者进行检验:方差贡献最小的是x1,检验是否可以剔除x1。所以,不应剔除x1。12.上一步刚剔除了一个因子,所以本步应继续进行剔除检6213.上一步已剔除完毕,所以本步应进行引入检验。当前因子数l=3,目前只剩一个待选因子x3,检验它是否可以被引入。因此,x3不应被引入。事实上,x3是在上一步刚被剔除的,所以不可能在这一步被引入。至此,在无因子可以剔除的情况下,也没有因子可以被引入,所以整个逐步回归过程终于可以:退出13.上一步已剔除完毕,所以本步应进行引入检验。当前因6314.逐步回归因子筛选工作结束,计算与回归方程有关的各统计量。
逐步回归的最终结果:选择了x1,x2,x4三个因子(l=3),把标准化回归方程的偏回归系数转化成原始数据回归方程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《“诺曼底”号遇难记》教案
- 2024年税务师《涉税服务实务》核心备考题库(含典型题、重点题)
- 重庆市黔江实验中学校2024-2025学年九年级上学期11月期中数学试题(无答案)
- 江苏省扬州市宝应县多校2024-2025学年九年级上学期11月月考数学试题(无答案)
- 河南省驻马店市确山县部分中学2024-2025学年九年级上学期12月月考英语试题(含答案含听力原文无音频)
- 材料力学(陕西理工大学)知到智慧树章节测试课后答案2024年秋陕西理工大学
- 大学物理(2)(山东联盟)知到智慧树章节测试课后答案2024年秋山东科技大学
- 山东省英语高三上学期期中试题与参考答案(2024-2025学年)
- 计算机应用基础试题及答案
- 《幼儿园手指操》课件
- 议论文阅读训练 (针对初一学生)附答案
- 深信服超融合平台-测试方案
- 银行关于年度银行业保险业防范和打击非法集资、非法放贷、金融诈骗自查报告
- 26第三编-经编基本组织
- 细菌细胞壁结构和肽聚糖合成
- 物品接收单模板(接受联、存根联)
- 抗滑桩施工危险源辨识与评价及应对措施
- DB33_T 2407-2021三叶青栽培技术规范(高清-可复制)
- 风险评估结果与应急资源调查清单
- 马兴元--水性聚氨酯微发泡涂层技术及应用
- HDPE双壁波纹管施工技术交底大全
评论
0/150
提交评论