版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章测量平差总论1-1测量平差的基本概念测量平差问题测量误差,也称观测误差,是待观测量的真值与其观测值之差。观测只是指用一定的仪器、工具、传感器或其他手段获取反映地球及其他实体与空间分布有关信息的过程和数据。不论观测条件如何,测量误差总是不可避免的。多余观测,为了确定一定的几何模型,并不需要知道该模型中所有元素大小,而只需要知道其中必要的部分元素的大小就行了。例如确定一个平面三角形的形状,只需要知道其中任意二个内角的大小。这二个内角观测值就称为必要观测。在几何模型中多于必要观测数的观测数称为多余观测数,如三角形中共观测了三个内角,则多余观测数为1。为了检查观测值中是否存在错误,并提高观测成果
2、的精度,一定要进行多余观测。不可避免的测量误差和一定要进行的多余观测这两个原因导致了观测值之间,或观测值与已知值之间出现矛盾(不符值)。比如,对同一量的多次观测,其观测结果不相等;观测值或观测值的函数与其理论值不相等(最典型的是三角形的三内角观测值之和不等于理论值1800)。观测值之间的这种矛盾(不符值)使得测量问题的解不惟一。为了消除这种矛盾(不符值),得到测量问题的惟一解,就要对引起这种矛盾(不符值)的主要原因测量误差进行研究和处理。处理带有误差的观测值,按最小二乘原理消除观测值之间的矛盾,求出测量问题的惟一解并评定精度的理论和方法被称为“测量平差”。“测量平差”一词在我国最早出现在夏坚白
3、、王之卓和陈永龄三位教授合著的我国第一本测量方面的教材。“二十八年秋,著者三人同在昆明,分别任教于同济大学、西南联大及中山大学。教学之际,深感国内关于测量课本及参考书之缺乏,学者苦之,乃有编辑测量学丛书之决心,而以测量平差法1一书为始。(引自学部委员夏坚白)。“测量平差”主要研究测量误差的理论、测量平差的方法和测量成果的精度评定。误差理论研究内容包括:误差分布、精度指标、误差估计、误差检验、误差分析以及误差预测和控制。在误差理论与测量平差基础2一书中,假定系统误差已经通过某种手段得以消除,而且不存在粗差。在这一前提下,测量误差服从正态分布,其数学期望(真值)为零。方差为衡量观测值或观测误差的精
4、度指标。随机向量X的方差的定义为:当X为一个随机变量时,其方差可以记为:22D(X)xE(XE(X)(1-1-2)方差D(X)定义式(1-1-1)的显式为:2LX1X1X2X1XnX1X22X2LX2XnoX就是X的中误差(即标准差,下同)x1xnx2xnM2xn式中主对角元素为Xi的方差,非主对角元素的定义式为:XXj为Xi与Xj的协方差,协方差xxE(XiE(XJ)(XjE(Xj)方差还可表达为相应的协因数与单位权方差的乘积,即:2D(X)oQxx(1-1-3)(1-1-4)式中Qxx称为协因数矩阵。当Qxx非奇异时,Qxx1P,P为X的权阵。当X为一个随机变量时,贝U权的定义为:2巳4x
5、(1-1-5)上式表明,权与方差成反比。比例常数o称为单位权方差。权是一个相对精度指标。误差估计总是与平差参数估计同时进行,而且依附于平差参数估计之中,因为误差也是平差系统中所要估计的参数。误差检验的目的是要在平差问题中排除系统误差和粗差的影响,以保证测量成果的精度。三、平差方法在误差理论与测量平差基础中,介绍了条件平差、间接平差、附有参数的条件平差、附有限制条件的间接平差和附有限制条件的条件平差等五种平差方法。这五种平差方法并无本质的差别,只是所选参数的个数不同,以及参数之间是否相关所至。因此,我们通常称这五种平差方法为经典平差,它们是测量平差的基础方法。在经典平差中,如果不选参数,即当所选
6、参数的个数u=0时,平差的函数模型为:AVW0(1-1-6)rnn1r1r1式中n为观测值的个数,r为多余观测的个数。以(1-1-6)式为函数模型的平差问题,称为条件平差。当所选参数的个数为u(0<u<t,t为必要观测数,且参数之间相互独立时,平差的函数模型为:(1-1-7)AVBX?W0cnn1cuu1c1c1式中c=r+u为条件方程的个数,X为所选取的u个参数向量。以(1-1-7)式为函数模型的平差问题,称为附有参数的条件平差。当所选参数的个数为u=t,且参数之间相互独立时,平差的函数模型为:VBL(1-1-8)n1ntt1n1以(1-1-8)式为函数模型的平差问题,称为间接平
7、差。当所选参数的个数为u>t,且包含t个独立的参数时,其余u-t个参数都可以表示成t个独立参数的函数,于是平差的函数模型为:VBX?Ln1nuu1n1CX?Wx0suu1s1s(1-1-9)式中s=u-t为限制条件的个数。以(1-1-9)式为函数模型的平差问题,称为附有限制条件的间接平差。当所选参数的个数为0<u<t,且参数之间不独立时,平差的函数模型为:AVcnn1CX?suu1BX?Wcuu1c1Wxs1(1-1-10)以(1-1-10)式为函数模型的平差问题,称为附有限制条件的条件平差。通常将间接平差和限制条件的间接平差称为参数平差,其应用最为广泛。其它三种总称为条件平
8、差。各种平差方法可以互相转换。以上经典平差法的最优估计准则为最小二乘原理。四、平差结果的精度评定精度评定包括两个内容,第一内容是根据平差后求得的改正数来估计单位权中误差,即(1-1-11)式中V为观测值的改正数(残差)向量,P为观测值的权矩阵,r为平差问题的自由度,即多余观测数。第二内容是应用协因数传播律,计算观测值函数fLf0的协因数Q,其公式为:QfQfT(1-1-12)最后的方差估值为:?202Q(1-1-13)§1-2参数平差原理总述一、附有限制条件的间接平差原理【2】1、平差模型附有限制条件的间接平差的函数模型和随机模型分别为:LBXn1nuu1n1CXWx0(1-2-1)
9、suu1s1D02Q02P1(1-2-2)相应的误差方程和条件方程为:VBX?lCX?Wx0(1-2-3)式中lLBX0(1-2-4)按最小二乘原理,在VTPV2KST(CX?Wx)min下得法方程及其解为NBBX?CTKSBTPlr0(1-2-5)CX?Wx011TKSN1(CN1BTPlCCBBWx)(1-2-6)X?(N1N1CTN1CN1)BTPlN1CTN1WxBBBBCCBBBBCC式中(1-2-7)NbbBTPB,NccCNb:CT2、精度评定(1)、单位权方差单位权方差估值为:?vtpv0rVTPVn(us)(1-2-8)LVL?LQBQx!?QvvQQvv乂Qxx?BTn1n
10、1ctn1cn1BBBBCCBB0Qxx>BVQvv0QBQx?B0L?QQvvBQxx»0QQvv(2)、协因数阵协因数阵的计算公式列于表1-1表1-1附有限制条件的间接平差的协因数阵间接平差原理在附有限制条件的间接平差中,当参数的个数正好等于必要观测数,即t,且参数之间彼此独立时,有s=u-t=0,即此时不存在条件。于是函数模型(1-2-1)式就变为:LBXn1nuu1n1相应的误差方程、法方程及其解为:Vb£I(1-2-9)(1-2-10)NbbX"BtPI0(1-2-11)Xn1btpiBB间接平差中单位权方差的估值为:(1-2-12)>20V
11、TPVrVTPVnt(1-2-13)间接平差中的协因数阵见表1-2表1-2间接平差中的协因数阵LXVL?LQbn1bbbn1btqbbbn1btbbXN1BtBBN1bb0N1BtbbV1TBN1BtQBB0QBN1Btbb0L?BN1BtBBbn1bb0bn1btbb§1-3测量平差的若干进展仅考虑偶然误差的经典平差在整个测量史上发挥了巨大的作用,至今仍广泛应用。但随着科学技术的不断扩展,测量数据采集的现代化、自动化和高精度化,使得有时经典平差模型不能适应实际问题的需要,因此,测量平差的研究内容也不断扩展。这些扩展主要体现在:1、从法方程系数矩阵满秩扩展到法方程系数矩阵亏秩在经典平
12、差中,任何一个平差问题总是具有足够的起算数据,或称为具有足够的基准条件。在这个前提下,我们得到的法方程的系数矩阵总是满秩的。由于法方程的系数矩阵满秩,法方程具有唯一解。但在实际工作中,有时存在没有足够的起算数据的情况。例如,在水准测量中没有已知水准点但却以高程位参数就是这种情况。当一个平差问题没有足够的起算数据时,法方程的系数矩阵就会秩亏,致使法方程没有唯一解。为了解决这个问题,1962年迈塞尔(P.MeissD提出了秩亏自由网平差的思想,将经典平差扩展到秩亏自由网平差。2、从仅处理静态数据扩展到处理动态数据在经典平差中,观测值和待估参数都是不随时间变化的静态数据。但在现代测量中,很多情况下观
13、测值和待估参数都是随时间变化的动态数据。例如,GPS导航中的观测值和待估参数就是随时间变化的动态数据。为了处理观测值和待估参数都是随时间变化的动态数据,1960年卡尔曼(R.E.Kalman)提出了著名的卡尔曼滤波。应用卡尔曼滤波和其他动态平差方法,使仅能处理观测值和待估参数都是不随时间变化的静态数据的经典测量平差,扩展到能处理观测值和待估参数都是随时间变化的动态数据。3、从无偏估计扩展到有偏估计经典平差的优良统计性质是估计结果的无偏性和方差最小性,即经典平差中估计出来的参数是最优无偏估计。但当法方程病态时,由于观测值的很小的误差,就会使待估参数产生很大的变化,不仅解极不稳定,而且方差的数值还
14、会很大。1955年,Stein证明了若法方程病态,则当参数的个数t大于2时,基于正态随机变量(观测值)的最小二乘估计(经典平差)为不可容许估计,即总能找到另一个估计,在均方误差意义下一致优于最小二乘估计。统计学家们将这种现象称为Stein现象。根据Stein现象,Stein于1955年提出了通过压缩改进最小二乘估计的方法。通过对最小二乘估计结果进行压缩改进后,其估计结果就不再具有无偏性。因此,就称对最小二乘估计结果进行压缩改进后的结果为有偏估计。有偏估计被提出以后,至今以扩展了很多有偏估计方法。在大量的有偏估计方法中,研究得最多的是岭估计。4、从线性模型的参数估计扩展到非线性模型的参数估计经典
15、平差方法实际上是线性模型的参数估计。但测量实践中却存在大量的非线性模型。在经典平差中总是对非线性模型进行线性近似,即将其展开为台劳级数,取至一次项,而略去二次以上各项。如此线性近似,必然会引起模型误差。如果线性近似所引起的模型误差小于观测误差,则线性近似所引起的模型误差可忽略不计。随着科学技术的不断扩展,现在的测量精度已大大提高,致使线性近似所引起的模型误差与观测误差相当。甚至还会大于观测误差。因此,用近似的理论、模型、方法去处理具有很高精度的观测结果,从而导致精度损失,显然是不合理的。现代科学技术要求估计结果的精度尽可能提高。这样,传统的线性近似的方法就不能满足当今科学技术的要求。更重要的是
16、,有些非线性模型对参数的近似值十分敏感,若近似值的精度较差,线性近似时就会产生较大的模型误差。此时用线性模型的精度评定理论去评定估计结果的精度,会得到一些虚假的优良统计性质,人为地拔高了估计结果的精度。为此,人们提出直接处理非线性模型,这样就使线性模型的参数估计扩展到非线性模型的参数估计。5、从待估参数为非随机量扩展到待估参数为随机量在经典平差中,待估参数为非随机量。但在有些实际问题中,某些待估参数的先验统计性质(如期望和方差)是已知的,这就导致带有随机参数的平差问题的出现。女口1969年,克拉鲁普(T.Krarup)提出的最小二乘配置,就将待估参数仅为非随机量推广到待估参数为随机量。此外,待
17、估参数为随机量的估计还有贝叶斯(Bayes)估计。6、从观测值仅含偶然误差扩展到有含有系统误差和粗差经典平差的最大特点就是假定观测值为仅含偶然误差、服从正态分布的随机量。但实际观测值中往往既含有偶然误差,又含有系统误差和(或)粗差。当观测值中含有粗差时,由于最小二乘估计不具备抵抗粗差的能力,估计结果将严重地受到粗差的污染。为此,统计学家自然地希望寻求一种能抵抗粗差的估计方法。于是1953年薄克斯(GE.P.Box)提出了稳健估计(RobustEstimation)概念。但只到二十世纪六十年代,才出现研究稳健估计的热烈局面。因此,人们公认稳健估计始于1964年,即认为1964年胡倍尔(P.J.H
18、uber)发表的“位置参数的稳健估计”一文为稳健估计方面的开创性论文。稳健估计的出现,就使测量平差扩展到可以处理除含偶然误差外还含有粗差的观测值。同样,系统误差在测量过程中也是存在的,为了处理系统误差,往往在经典平差的基础上附加系统参数。因此,有了附加参数的平差方法。近年来,又开展了对应用半参数估计理论来处理系统误差的平差问题的研究。7、从主要研究函数模型扩展到深入研究随机模型在经典平差中,主要研究函数模型。例如,五种经典平差的函数模型及其内在联系。1923年,赫尔墨特(F.R.Helmert)提出了方差分量估计理论,使两类以上观测值同时平差时正确确定各类观测值之间的权比成为可能。随着方差分量
19、估计理论的提出,开辟了深入研究随机模型的途径。8、从最小二乘估计准则扩展到其它多种估计准则在经典平差中,实际上只是应用了最小二乘估计准则。随着科学技术的扩展,参数估计理论得到了巨大的发展。出现了极大似然估计、最小二乘估计、极大验后估计、最优无偏估计,贝叶斯估计、稳健估计、P-范估计、信息扩散估计、极大可能性估计、半参数估计等等多种估计方法。应用上述各种估计的测量平差问题已取得了许多成果,并在进一步深入研究之中。1-4本课程的任务和内容高等测量平差是在经典测量平差及其相应的误差理论的基础上进行扩展,着重介绍在测量数据处理实践中一些常用的近代平差方法及其相应的误差理论知识。本课程是误差理论与测量平
20、差基础的后续课程,故本课程取名为高等测量平差。本课程内容的选取,主要考虑培养测绘工程专业本科生这一层次所必须掌握的平差理论知识的要求,同时也兼顾后续专业课教学的需求。为此,本课程主要内容为:1、平差模型的统计假设检验。介绍测量平差中常用的假设检验统计量及其各种假设检验方法。2、回归分析理论和方法。介绍回归分析在测量数据处理中的应用以及各种常用模型的回归分析方法。3、秩亏自由网平差理论与方法。介绍广义逆矩阵以及测量中常用的秩亏自由网平差的各种方法。4、稳健估计理论和方法。介绍稳健估计原理、选全迭代揭发、以及针对处理粗差的几种常用抗查最小二乘法。5、非线性模型的平差理论和方法。介绍非线性最小二乘估
21、计原理、算法和估计量的统计性质。第二章统计假设检验测量数据处理的主要内容之一是根据观测数据做出统计推断。统计推断分为参数估计和假设检验,我们所熟悉的测量平差就属于参数平差的范畴。假设检验则是根据样本来查明总体是否服从某个特定的概率分布。因为假设检验与概率分布有关,故先介绍几种常用的抽样分布。一、几种常用的抽样分布T2Ln,其中LiN(Li),真误差iLiLi1、正态分布设平差系统观测向量为LL,n1l1的期望E(i)0,参数向量为tXiXiXnT,,通过平差计算,可获得其中参数X的(;。)1,0,估值?,并可表示为观测值的线性函数Ti1ii1£i1L1i2L2inLniTLin,按误
22、差传播定律得2X?iiTQi由于X是正态变量Li的线性函数,N(Xi,对正态变量X标准化因为E(u)E(兄)Xi所以uN(0,1)为标准正态变量。Puju12X,2有标准正态分布表终可查得0.3173U1.020.100.051.6451.960.04552.00.012.5760.00273.00.0013.29有止态分布引出卜列二种分布2、分布统计量在平差系统中,残差平方和VTPV是-个重要的统计量,在平差参数估计和假设检验中往往要用到,为此,要了解其概率分布。已知统计数学中的二次型分布定理为:设XN(u,),M为对称阵,且有M为幕等阵,则二次型XTMX服从非中心化的2分布:XTMX2(R
23、(M),uTMu)lN(BX,;Q),PQVVP200QPQvv,PQVVPQVVPQVV为幂等阵,2(R(M),(BX)tMBX)R(M)nt(BX)tMBXvtpv202(f),vtPV202123、t分布统计量定义:随机变量X、Y相互独立,XN(0,1),Y2(f),Xt乔t(f),前面标准正态统计量0为母体单位权标准差,在实际问题中经常是未知的,证明:t*Xit(n?o,q*xt)设某厂生产一种灯管,其寿命服从N(u,4OOOO),从过去情况看,灯管平均寿命为15OO小时,vtpvnt因为兄Xin(0,1),0Qi兄vtpv2o(nt),t(nt)?0Q)?i)?iXx概率表达式为Pt
24、iit12?O寸24、F分布统计量定义:随机变量X、Y相互独立,X2(nJ,Y2(门2),FX/n1Y/n2,?2PF211一?22O11F12二、统计检验常用方法统计检验是根据样本来查明总体是否服从某个特定的概率分布(1) 首先对母体概率分布作出陈述(即假设);(即检验)(2) 根据从该母体中抽出的样本来判断是否与前陈述一致(3) 通过检验来决定是接受还是拒绝假设某基线场设置的基线,经精密测定,其长度为Lo=12OO.252m,为了检验两台测距仪的精度,分别用两台仪器对该基线各复测25测回,得平均长度Li=12OO.264m,L2=12OO.249m。已知两台仪器的观测精度相同,每测回的标准
25、差均为O.O15m,试用显著水平O.O5检验则两个平均长度和基线长度的差别是否完全有观测的随机性而引起的。现采用新工艺后,从新产品中抽出16个,测得平均寿命为1675小时,问新产品的寿命是否有显著提高?(显著水平为0.05)设有2人观测某地纬度,已知此二人观测纬度一次的中误差为0.63秒,现在甲观测该地纬度12次,得平均值秒数为1.20秒,乙观测该地纬度8次,得平均值秒数为1.15秒,问他们所得结果的差异是否显著?(显著水平为0.05)二、统计假设检验的概念1.接受域与拒绝域统计假设检验所解决的问题,就是根据观测样本,通过检验来判断母体分布是否具有指定的特征。在这里,我们通过对改正数的检验,构
26、造统计量,在所作的假设下,判断是否有模型误差。例如,统计量(4-3-6)式是在平差模型不存在粗差即E(v)0的假设下得出的,此时的统计检验在于将标准化残差Wi与所选定的临界值w进行比较,Wi的置信区间为PWww1(4-3-9)72或Pwiw1(4-3-10)2上式中,-W_,w是区间的上下限,其数值可根据给定的从正态分布表中查得。22这就是说,当我们作了假设E(Vi)0。为了检验这一假设是否成立,计算统计量,使(4-3-10)式成立,那么,就表示Wi是落在(-w,w)区间内,在22这种情况下,没有理由否定原先所作的E(vi)0假设,即接受原假设,通常将区间(-w,2W)称之为接受域。反之,如果
27、计算结果WiW或W,就表示概率很小的事件居然2"22发生了。根据小概率事件在一次实验中不可能出现的原理,就有足够的理由否定原来所做的E(Vi)0假设,即应拒绝原假设E(Vi)0,而认为E(Vi)0。通常将(-w_,w)22区间以外的范围称之为拒绝域(图4-4)。值大小有关的,值愈大,则拒绝域的大小通常应根据问题的性质来选定,当不应轻易拒绝原假设Ho时,应选择较小的般使用的值可以是0.04、0.01等。对于上述统计量而言,当wiViw时,则称Vi与0的差异是显著的,反之,则Vi2称Vi与0之间的差异不显著。因此,数称之为检验的显著(性)水平,上述的假设检验问题通常叙述成:在显著水平下,
28、检验假设H0:E(vi);H1:E(v)0。4、单、双尾检验法上述假设检验的例子,是将拒绝域布置在统计量分布密度曲线两端的尾巴上,这种检验称为双尾检验法;有时根据实际情况,需要判断母体均值是否增大了,即检验假设Ho:E(x);Hi:E(x)为了进行这样的假设检验,只要将布置在右尾上。如需检验假设Ho:E(x);Hi:E(x)2、原假设与备选假设由以上所述可见,当需要根据子样信息来判断母体分布是否具有指定的特征时,总是先作一个假设,称为原假设(或零假设),记为H。然后,找一个适当的且其分布为已知的统计量,确定该统计量经常出现的区间,使统计量落入此区间的概率接近于1,如果由抽样的结果计算出的统计量
29、的数值不落在这一经常出现的区间内,那就表示小概率事件发生了,则应拒绝原假设H。,当H。遭到拒绝,相当于接受了另一个假设,称为备选假设,记为Hi。因此,假设检验实际上就是要在原假设H°与备选假设Hi之间做出选择。3、显著(性)水平接受域和拒绝域的范围大小是与我们所给定的愈大,被拒绝的机会就愈大,则将布置在左尾上,这样的检验方法称为单尾检验法。5、弃真与纳伪的概率假设检验是以小概率事件在一次实验中实际上是不可能发生的这一前提为依据的。必须指出,小概率事件虽然其出现的概率很小,但并不是说这种事件就完全不可能发生。事实上,如果我们重复抽取许多组子样,由于抽样的随机性,由此算得的统计量数值也具
30、有随机性。若检验的显著水平定为0.05,那么,即使原假设H0是真的,其中仍约有5%的计算数值将会落入拒绝域中。由此可见,进行任何假设检验总是有做出不正确判断的可能性,不可能绝对不犯错误,当H。为真而遭到拒绝的错误称为犯第一类错误,也称为弃真错误,犯弃真错误的概率是。同样地,当H。为不真时,我们也有可能接受H。,这种错误称为犯第二类错误,也称为纳伪错误。犯纳伪错误的概率为(见图4-6)。例4-3子样均值x的抽样分布是正态的,均值为,中误差原假设H。:0,备选假设Hi:0原假设为真时,确定检验统计量wx22x02根据(4-3-10)式,有接受域P:<w23.921和拒绝域(见图4-5)。此时
31、,当H。为真时而遭到拒绝,称为犯第-类错误,也称选定显著水平0.05,查正态分布表4-3得w1.96弃真错误,其概率为4%;w0.051.960.012.570.0013.29表4-3置信度与临界值w的关系2图4-5接受域与拒绝域图4-6犯纳伪错误的概率若备选假设为真时,如2,亦即H。为伪,则x的分布实为N(2,2),见图4-6。如x的观测值落在拒绝域中,我们拒绝H0,这是正确的,如x的观测值落在接受域中,使我们作出错误的判断,认为H。为真,这就犯了第二类错误(纳伪H。),其概率是图6-6中当H1为真时接受域范围内密度曲线下的面积。值的计算:将3.92标准化得1wi(3.922)2.96,21
32、w2(3.922)0.962查正态分布表得(wj0.0015,(w2)0.8314则(W2)(wi)0.8306、检验功效在上例中,作出错误的判断(纳伪)的概率为0.83,作出正确判断(弃伪)的概率为10.170。如果重复抽取许多组子样,其中将有83%使我们犯第二类错误,有17%使我们作出正确的判断,这种作出正确判断的概率称为检验功效,其概率为1。根据以上所述,将假设检验的四种可能性列于表4-4中。表4-4假设检验的四种可能性现象判断结果概率H0为真接受正确1拒绝第一类错误(弃真)H0为不真接受第二类错误(纳伪)(H1为真)拒绝正确1(检验功效)对于一个检验问题,总希望弃真概率和纳伪概率均尽可
33、能的小,但这是做不到的,从图4-6和表4-3可以看出,减小,就跟着增大。通常认为弃真的错误较之纳伪的错误更为严重,因此,总是先控制,例如,根据问题的性质,选用为0.05、0.01或0.001等,然后,在不改变的前提下,尽可能使减小,即使检验功效1增大。检验功效代表为某一数值的粗差被正确发现的概率。第三章回归模型的参数估计与假设检验§3-1概述在测量数据处理中,经常遇到要研究变量与变量之间的关系。变量之间的关系一般可分为两类。一类是变量之间具有确定性关系,称为函数相关。例如矩形面积S与其两边a、b之间存在确定性关系为s=ab;个平面三角形的一个内角与其它两个内角、之间关系为1800;两
34、点间的纵坐标增量x等于边长S乘以方位角的余弦,即xscos等,这些变量之间可用一个确定的函数模型表达。在我们学过的误差理论与测量平差基础课程中,所讨论的大多是这种确定性的函数模型。另一类是变量之间并不存在确定的函数关系,而是存在所谓相关关系,或者说是统计上的相关关系,称为统计相关。例如,每年春季气温与降雨量,人的高度与体重之间就存在着统计相关。这种现象在测绘学中也大量存在。例如测距结果与仪器中电子线路受固定的干扰信号引起误差之间;重力测量结果与气压、温度、地下水等因素之间;海平面变化与气象、海洋天文因素之间;断层位移与断层活动趋势、气温、地温、蒸发、降雨量之间等等都是这种现象。这种统计相关的特
35、点是,它们之间既存在着一定的制约关系,又不能由一个(或几个)变量数值精确地求出另一个变量的值来,由变量之间统计相关所建立的函数模型称为回归模型。回归分析方法是研究相关关系的一种有力的数学工具。它是建立在对客观事物进行大量实验和观测的基础上,寻找隐藏在不确定性关系后面的统计性规律的数理统计方法。在进行回归分析时,将研究相关关系的各变量分为自变量和因变量,例如因变量y随着m个自变量xXqL,Xm而变化,y是正态分布的随机量,观测数据(yi,Xii,x2,LXmi)(i1,2Ln),称为样本,如果因变量与自变量之间的关系为线性的,称为线性回归模型,否则,就称为非线性回归模型。在线性回归模型中,若自变
36、量X的个数只有一个称为一元线性回归模型,自变量x的个数大于一个,称为多元线性回归模型。回归分析主要研究的问题是:(1)如何根据样本(y,x1i,x2i丄xmi),(i1,2Ln)建立回归模型;(2)如何估计回归模型参数;(3)如何检验模型参数的显著性;(4)如何利用回归方程进行预报和控制。§3-2线性回归模型设一个随机变量y与m个自变量x1,x2,.,xm之间存在线性形式的统计相关关系,因为它们并不是确定的函数关系,即使给定了x1,x2,.,xm之值也不唯一决定y值,因此它们之间的表达式应写成y01x12x2式中是随机误差,它是N0mxm(3-2-1)变量,即的期望E()0,方差D(
37、)。参数jj1,2Lm,称为回归方程的系数。取(3-2-1)式的期望和方差E(y)01X12X2mxm(3-2-2)3-2-3)3-2-2)式说明01x12x2LmXm是Xi,X2L,Xm对y的平均影响,随机变量yN(E(y)2)。3-2-1)式是线性回归模型,(3-2-2)式是线性回归理论模型。为了估计模型参数,需要对变量进行n次观测,得n组观测数据(yi,x1i,x2i,Lxmi)(i1,2,n),代入方程(3-2-1)有n个方程。其矩阵形式为yi0X1i1X2i2LXmimi(i1,2,.,n)3-2-4)YXn1nm1m13-2-5)这是回归参数估计的函数模型,其随机模型为2Inn3-
38、2-6)式中I为单位阵。Y为观测值向量,为待求的参数向量。,设其估值为y,代入(3-2-2)当观测数nm1时,可用最小二乘原则估计参数式可得E(y)的估值?,即yyy0y1X1y2X2ymxmmm3-2-7)称为线性回归方程,给定一组数x1,x2Lxm由上式求出y称为预报值。如果将回归参数估计的函数模型(3-2-5)和随机模型(3-2-6)与测量中间接平差函数模型和随机模型相比较,可以看出,在不考虑模型物理性质前提下,两者的参数最小二乘估计模型形式完全一致,从这个意义上来说,线性回归模型的参数估计也可看成是一种等权观测的间接平差问题。因此,我们学过的间接平差理论和方法完全可以用于回归模型的参数
39、估计。§3-3回归参数的最小二乘估计一元线性回归参数估计先以一个例子说明一元线性回归问题。例3-1,某水电站为了监测和预报库水位和大坝坝基沉陷量之间的关系,统计了某年12个月的月平均库水位和沉陷量的数据如表3-1所示,试分析库水位与坝基沉陷量之间的关系。表3-1观测数据编号库水位(m)沉陷量(mm)编号库水位(m)沉陷量(mm)1102.714-1.967135.046-5.46295.154-1.888140.373-5.693114.364-3.969144.958-3.944120.170-3.3110141.011-5.825126.630-4.9411130.308-4.1
40、86129.393-5.6912121.234-2.90现以X轴表示库水位,以Y轴表示大坝坝基沉陷量,作散点图(图3-1)由图认为,这些散点的分布可用一条直线方程表示,即y01x,这是一元回归分析问题。3-1F面阐述参数估计原理。为了估计参数0、i,设对y进行n次独立观测(,Xi),有(3-3-1)yi0iXiii1,2Ln(3-3-2)这是一元回归参数估计的函数模型,相应的理论模型为在回归分析中,假定自变量Eyi0iXXi是非随机变量,且没有测量误差,这就使我们研究的问题大大简化,令丫yiy2Tyn,1X11x21Xn则(3-3-1)式可写成矩阵形式:(3-3-3)设V为误差的负估值,称为Y
41、的改正数或残差,为回归参数的估值,则有误差方程(3-3-4)根据最小二乘原理VTVmin,对VTV求自由极值,VTV2Vt亠2VtXXTV将误差方程(3-3-4)代入上式,即得法方程为(3-3-5)XTX?xty式中nnxtxSxxSxyXi,n(Xii1n(Xi1XTXXixtyXi2X)X)(yinx2XiyiSxx由此可得参数的最小二乘估值为(XTX)2Xi1y)nx2nx1XtY1(Sxxn2nx最后,一元线性回归方程为相应的残差Vy?观测值yi的方差估值为SxyxSxx?x2nx,Xi%xtySxyX?1,Yii1nXiyii1nxy,Sxynynxy(3-3-6)(3-3-7)(3
42、-3-8)nynxySxxS?xy1Sxx,ySxxXSxySxy(3-3-10)(3-3-11)(3-3-9)2VTVn2,参数估值的精度评定。按间接平差理论由表1-2知,?的协因数阵为Q?(XTX)1_Sxx1_2(Sxxnx)n(3-3-13)Q?0-0,Q?1?11SxxQ?0?1xSxx(3-3-14)m?的方差估值为?2(1n2Sb2Sxx(3-3-15)例3-2,用例3-1观测的数据,求出表示大坝库水位和坝基沉陷量之间的一元线性回归方程。解:(1)按(3-3-9)式计算1212Xii1125.1129,y11212i1yi41442,Sxx(Xii12x)2579.9880Sxy
43、n(Xii1x)(yiy)194.9442,?'0SxySxx194.94422579.9880x?5.30940.0756,故回归方程为5.30940.0756x(2)按(3-3-12)、(3-3-15)式评定参数估值的精度2四啤0.7440(mm2),n21222?'22?0Sxx0.74406.15054.5760,0.74400.00040.0003、多元线性回归的最小二乘估计。一元线性回归模型中只有一个自变量,但在实际问题中,影响变量Y的因素往往不只一个,而包含多种影响的多个自变量,例如在大坝变形监测中,影响大坝的位移Y的因素有温度、水位压力等多个自变量,这就是多元回
44、归问题,多元回归中最简单的是多元线性回归,其研究方法和思想与一元线性回归相同。多元线性回归模型为y01X12X2LmXm(3-3-16)是随机误差,和一元线性回归分析一样,假定E0,D其中°丄m是未知参数,X1X2LXm是m个可测量并可控制的非随机变量,为了估计回归参数01Lm及2,我们进行了n次观测,得n组观测数据(yi,Xi1,Xi2Xim),I1,n,它们应有的回归关系可写成如下如下形式。y101X112X12.mX1m1y201X212X22mX2m2yn01Xn12Xn2mXnmn(3-3-17)2此即为多元线性回归的函数模型。若记y101X11X12.X1m1Yy211X
45、21X22.X2m22,Xn1.m11nm1.n1.yn1Xn1Xn2.Xnmn则有(3-3-18)由yi,Xi!,Xi2LXm,求m1个未知的回归参数o,1丄m的最小二乘估值?丄?。可组成如下误差方程:VX?Y在最小二乘估计VTVmin的准则下,得法方程为:XTX?xty可解得?XTX1aty求得回归参数后,可得到多元线性回归方程为Y?x?x?xx?01入122mm以及残差VY?Y参数估值的精度评定,'的协因数及方差为Q?(XTX)1,D(?)2Q?,观测值y的方差估值为?2VTVn(m1)(3-3-19)(3-3-20)(3-3-21)(3-3-22)(3-3-23)(3-3-24
46、)(3-3-25)(3-3-26)参数估值?的函数Y?及V的精度估计由(3-3-22)式知Y?的方差为D(Y?)2XQ?Xt2X(XtX)1Xt(3-3-26)因为V与Y?不相关,即VY?0或QvY?0(见表1-2)故由(3-3-23)式YY?V,可得D(Y)D(Y?)D(V)D(V)D(Y)D(Y?)2IX(XTX)1XT(3-3-28)以上结果也可直接由表1-2查得。§3-4线性回归模型的统计分布和统计性质一、Y、?、Y?、V均为正态变量在线性回归模型中,假定Y为具有期望E(Y),方差D(Y)的正态变量,即YN(E(Y),D(Y)。根据正态变量的线性函数仍为正态变量的统计理论,由
47、(3-3-21)、(3-3-22)及(3-3-23)知?、Y和V都是丫的线性函数,故?、Y?、V都是正态变量,即有?N(,D(?)Y?N(E(Y),D(Y?)(3-4-1)VN(E(V)D(V)式中EVEX?EYXX0二、?是的无偏估计将(3-3-18)式两边取期望,得E(Y)E(X)E()X(3-4-2)故有E(?)E(XTX)1XTY(XTX)1XTE(Y)(3-4-3)三、?是的最优线性无偏估计如果估计量无偏,而且具有方差最小性,则称估计量为最优线性无偏估计。设线性回归模型(3-2-5)、(3-2-6)的最优线性无偏估计?的任一线性函数为GT?FTY(3-4-4)如果?为的无偏估计必有E
48、(GT?)FtE(Y)ftxgt即下列等式必须成立FTXGT(3-4-5)这是无偏性条件方程。线性函数gt?的方差为D(GT?)FTD(Y)F2FTF(3-4-6)如果?是无偏的而是具有方差最小性,就必须在满足无偏条件(3-4-5)前题下,&?的方差为最小,即应满足如下条件极值式:FtF2Kt(FtXGt)min式中变量为F,故有2Ft2KtXt0FFTKTXT(3-4-7)代入条件式(3-4-5),得ktxtxgtK(XtX)1G代入(3-4-7)式得FTGT(XTX)1XT(3-4-8)代入(3-4-4)即得GT?GT(XTX)1XTY(3-4-9)或?(XTX)1XTY(3-4-
49、10)所以?为的最优线性无偏估计。四、?2是2的无偏估计按(2-2-21)式知,回归分析中残差平方和除以观测值母体方差2为具有自由度2f=n-(m+1)的分布变量,即VTV2(f)(3-4-11)xy按2变量性质,2变量的期望等于该变量的自由度,故有E(今)fn(m1)(3-4-12)VTVn(m1)?为2的无偏估计。§3-5回归模型和回归系数的显著性检验在实际问题中,我们事先并不能断定y与x1,x2,Lxm之间有线性关系,如在一元回归分析中,试验点不那么接近一条直线,这时也可用最小二乘法得到一条回归直线,但这条直线并没有很好地反映变量x和y的实际关系,没有应用价值,因此,必须有一个
50、数量性指标来描述两个变量间线性相关的程度,这一指标通常采用相关系数。对于一元线性回归方程,检验y与x是否相关即为检验回归方程是否显著,除了相关系数检验,还可用方差分析法。对于多元线性回归模型,回归方程显著并不意味着每个自变量x1,x2,Lxm对y的影响都是一样重要的,可能有的变量有重要作用,而有的则可有可无,也就是说自变量中有主要因素和次要因素之分,因此,除了要进行回归方程显著性检验,还需要对回归系数进行显著性检验。一、相关系数及其检验一元线性回归方程的前提是变量y与x应存在线性的统计相关,因此,必须有一个数量性指标来描述两个变量间线性相关的程度,这一指标通常采用相关系数。1、相关系数设有两个变量X与Y,其方差分别为:,2,协方差为xy,则其相关系数定义为(3-5-1)xy相关系数的值域为现证明如下。(3-5-2)设a和b为任何实常数,则2c(xE(x)a(yE(y)b是二维随机变量的函数,c0,其期望Ec0即有,E(c)Ex22ax22E(x)a2Ex2abxyb2yE(x)y0E(y)ab22EyE(y)b(3-5-3)因为对于任一分布而言,xy是常数。故可设xy,则上式为故有(3-5-2)式得证。2xy2xy
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 理疗室通风整改方案
- 2023-2024学年湖南省郴州市汝城县八年级上学期期中语文试题含答案
- 敬老助老活动方案
- 湖北公务员面试模拟6
- 黑龙江行政职业能力模拟84
- 北京市申论真题2023年
- 地方公务员江苏申论86
- 二年级下册品德教案
- 湖北公务员面试模拟73
- 江西申论模拟4
- 泥炭基本知识
- 图灵机与现代计算机PPT教案
- 26个英文字母幼儿学习卡片可打印
- 北京语言大学外语专业综合水平测试英语历年真题版
- 物业工程部危险源辨识、评价与控制措施表
- 高中人音版必修 音乐鉴赏18西出阳关无故人课件
- 丝网除沫器的设计计算
- 光伏系统的安装工程监理实施细则
- 标准作业组合票--自动生成
- 王洼二矿原煤仓机电设备安装工程资料文稿
- 数学人教版七年级下册你有多少种画平行线的方法
评论
0/150
提交评论