最小二乘法小结_第1页
最小二乘法小结_第2页
最小二乘法小结_第3页
最小二乘法小结_第4页
最小二乘法小结_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、最小二乘法原理1. 介绍部分最小二乘法是获得物理参数唯一值的标准方法,具体是通过这些参数或者在已知数学模型中与这些参数相关的参数的多余观测值来求得。最小二乘法最早是由高斯提出,用来估计行星运行轨道的。1.1 数理统计和最小二乘法物理量总是不能被精确测定。总是存在一个限定的测量精度,超过这个精度,相关的数学模型和测量仪器的分辨率这两者之一或者全部将会无能为力。超出这个精度,多余观测值之间会产生差异。我们常常希望获得超过该限定精度的测量值,在不知道真值的情况下我们只能估计真值。一方面我们想要估计出唯一的值,另一方面,我们想要知道这个估计有多好。最小二乘法就是这样一个估计,它基于最小化差值的平方和。

2、最小二乘法相比其他传统的方法有三个优点。其一,它既可以应用在线性数学模型上也可以应用在非线性数学模型上;其二,它和统计量算术平均值有关;其三,最小二乘法在很多领域是通用的。物理量的值的唯一统计估计称为点估计。无论频率函数是否知道,我们都可以作物理量的点估计并且可以衡量它与真值趋近程度。另外两种估计,区间估计以及假设检验,它们只能在相应的频率函数已经确定的情况下进行。1.2 线性代数和最小二乘法(nontrivial=nonzero,非平凡解就是指非零解)现有线性方程组A X= L (1-1)X是未知数向量,L是常数向量,A是系数矩阵,A:L是增广矩阵。该方程组有唯一非零解仅当L 0 (非齐次方

3、程组), (1-2a)r (A) = X的维数, (1-2b)r (A:L) = r (A)。 (1-2c)当没有多余等式时,准则(1-2b)意味着A是方阵且非奇异,它的逆矩阵是存在的,这样方程组的解就表达成 X = A L (1-3)当存在多余等式时,A将不是方阵,但是AA是方阵且非奇异,这样方程组的解就表达成X = (AA) A L 。 (1-4)L的元素对应于物理量观测值,基于上述数学讨论,如果没有多余观测量(即没有多余的等式),则未知量将只有唯一的非零解。如果存在多余观测量,它们之间将互相不一致,因为观测存在误差。这样(1-2c)准则就无法满足,也就不存在唯一解。我们只能对结果做一个唯

4、一的估计。从而引入了最小二乘准则。因为观测误差的存在,使得方程组(1-1)左右矛盾,为此引入一个向量来抵消这个矛盾,从而使方程组成立。于是有A X - L = V (1-5) V称为残差向量。引入作为X的最优估值,这样最小二乘准则表达为min (1-6)估值称为最小二乘估值。由式(1-4)可得, (1-7)观测误差或残差的最优估值由下式得出 。 (1-8)这些估值称为简单最小二乘估值,或者称为等权最小二乘估值。组成的物理量观测值不总是等精度的(比如采用了不同的观测仪器或者不同的观测条件),因此我们给每个观测量分配一个已知的权重,由这些元素构成的矩阵称为权阵。这样,先前的最小二乘准则调整为min

5、 。 (1-9)未知量估值调整为 (1-10)如果作为观测值的估量协方差阵的逆阵,那么最小二乘估计就是最小方差估计;如果观测误差是正态分布,那么最小二乘方差估计就是最大似然估计。考虑更一般的情形,此时观测量未知参数的非线性方程相关 (1-11)或者,观测量与未知参数的方程非线性相关 (1-12)1.3 数字计算机和最小二乘法从实际出发,矩阵求逆以及矩阵乘法都要求海量的计算步骤。在大型快速计算机发明以前,除非绝对必要,一般是不会去做这样的尝试。然而测量网坐标的最小二乘估计就是这样的必要情况。以前的大地测量学家在简化步骤创新方法上做出很多努力,计算机发明之后这项工作显得没原来那么重要了。然而计算机

6、也不能同时计算多达数千个方程,因此,如今大地测量学家把精力放在改进算法上,以便将一个大问题拆分成许多小问题,再逐一解决。1.4 高斯和最小二乘法以下是对高斯一段引文的翻译“如果用于轨道计算的天文观测值和其他量是完全正确的,则轨道要素也是严格准确的,而无论是从三个或者四个观测值上推导出来(到目前为止轨道运动确实按照开普勒定律在进行),因此,如果使用其他观测值,则轨道要素可能被确定但不准确。但是,因为我们的所有测量值和观测值都只是真值的近似,那么依赖于它们的所有计算也一定是正确的,关于具体现象的所有计算的最高目标一定是近似与真值的,只要接近到可实用的程度。但这只能通过将多于确定未知量所必要的观测量

7、进行适当组合来完成。这个问题只有当轨道的大概知识已经获得的情况下才能处理,这个大概的知识之后将得到改正以便以尽可能最精确的方式满足所有的观测值。”从这段写于150年前的话可以总结出以下观点a、 数学模型可能不完整,b、 物理测量值存在矛盾,c、 从矛盾的物理测量值出发进行计算就是为了估计出真值,d、 多余测量值将会减小测量值矛盾的影响,e、 在最终估值前需要使用大概的初值,f、 通过一种方法最小化测量值之间的矛盾值,从而改正初值(高斯所指的最小二乘法)。2. 统计学定义和概念2.1 统计学术语统计学,统计量,变量,连续变量,离散变量,常量。一般的测量结果都是连续变量,计算结果是离散变量。随机变

8、量,包含一个值域(跟普通变量相同)和一个概率函数。总体(population),个体(individual),样本,随机样本(通常样本指的都是随机样本)。样本空间,样本点和事件在使用中分别代替总体,个体和随机样本。分组(class),分组界限,组距,组频率,相对频率。*没有哪一个关于概率的定义是被所有统计学家所接受的。经典的定义是,等可能取自总体的一个个体落入组的概率等于所有落入的个体占总体的分数。这是一个间接定义,因为等可能实际上就是等概率,因此是用概率自己定义了自己。有两种办法来解决这个问题,但都不是完全令人满意的。第一种,定义概率为从总体中选择一个个体,在次(当趋于无穷)选择中,个体落入

9、组的相对频率。第二种,接受“概率”是一个不可定义的概念,仍然称适用于概率的规定为公理。2.2 频率函数(概率密度函数)累积频率函数(分布函数,累积分布函数,累积概率函数),频率分布(p26)。频率分布的两个重要特点:集中趋向,离中趋势(离散度)。频率分布两个次重要特点:偏斜度,峰度。集中趋向的度量方法包括:算术平均值,中位数,众数(mode),几何平均数以及调和平均数。离散度的度量方法包括:标准差,平均偏差以及极差(range)。期望值及其相关性质。n阶原点矩,以及n阶平均值矩(我们习惯称为n阶中心矩)的期望,其中二阶中心矩称为方差。随机变量矩量母函数(moment generating fu

10、nction)定义 , (2-10a)一个分布的任何矩都可以直接从矩量母函数中推导出来,例如,一阶原点矩 , (2-10b)又如,方差(二阶中心矩) , (2-10c)2.3 多元随机变量频率函数(联合密度函数)引入随机变量向量多元随机变量频率函数定义 , (2-11)其中 , 各个不等式同时成立。多元变量累积频率函数(联合累积分布函数)定义 。 (2-12) 引入随机变量的统计独立。多元随机变量函数的期望,以及多元随机变量分布的均值都与一元情况类似。引入协方差阵(也称方差-协方差阵),包括方差及协方差的定义和计算方法。引入相关系数 ,若与统计独立,则它们的相关系数为0,因此协方差和相关系数是

11、用来衡量两个随机变量是统计独立还是相关的。2.4 协方差律假定随机变量与随机变量线性相关,即 则有 , 。上式即称为协方差律,或者协方差传播律。如果与非线性相关,即将其运用泰勒级数展开,使原函数线性化,依然可以得到上述结论,只是此时的系数应该变成 。2.5 点估计引入统计量(期望,方差)。引入总体统计量(用希腊字母表示),样本统计量(用拉丁字母表示)。统计估计是统计学方法的一个分支,通过从总体中所取样本的认识来推及总体的性质。引入估计量(即点估计量),用样本统计量(即估计量)的值去推导总体统计量的值。最常用的估计量是样本均值 和样本方差。样本统计量本身也是随机变量,存在一个对应的分布(称样本分

12、布),因此从同一个总体中取出的不同样本的统计量的值通常是不等的。样本均值的期望等于总体均值,样本均值的方差等于。样本方差的期望等于,即等于总体的方差。引入无偏估计量,表示该估计量的样本分布的均值等于它所估计的总体统计量,因此样本均值和样本方差都是无偏估计量。引入最小方差估计量和最大似然估计量。2.6 区间估计和假设检验区间估计,若称区间为的置信区间,表示有的时候可以认为落在内是正确的。假设检验,即先对总体做出某种假设,然后通过样本值来检验,以决定接受或者拒绝该假设。引入显著性水平,即犯第一类错误(假设正确但是被拒绝)的概率。引入检验功效,其中是指犯第二类错误(假设错误但是被接受)的概率。/小结

13、三种统计估计,点估计不需要假定总体分布,区间估计和假设检验则需要假定或者确定总体分布。3. 统计分布函数引入一元随机变量,多元随机变量。特殊的分布:正态分布(normal),卡方分布(chi-square),t分布,F分布。3.1 正态分布3.1.1 正态分布函数累积分布函数,概率分布函数(略)。3.1.2 矩量母函数 (推导过程关键令)由前章知(文章缺失了P30-31)分布的图像的一些特征:1) 关于纵轴对称,2) 在处取得最大值,3) 轴是水平渐近线,4) 拐点在处。3.1.5 关于正态分布的计算引入正态分布计算表使用分布的表解来查找结果的基本公式3.1.6 多元随机变量正态分布维多元随机

14、变量正态概率密度函数其中是随机变量向量,是相应的均值向量,是协方差阵。常数3.2 卡方分布3.2.1 分布函数引入伽马函数其中。当时,当时,。上式令,且,则有从而上式满足累积分布函数的要求,对应的概率密度函数(p.d.f)为 其它上式即为关于参数和的伽马分布的概率密度函数。当,且,其中是正整数,此时该伽马分布就称为卡方分布,它的概率密度函数为 其它其中的称为自由度。上述的服从卡方分布的连续随机变量缩写为。3.2.2 矩量母函数公式(推导过程略)则有3.2.3 卡方分布的图像性质:a) 时,值为0,b) 最大值在区间内,c) 轴正方向是一条渐近线,d) 在最大值每边各有有一个拐点。3.2.4 关

15、于卡方分布的计算引入卡方分布计算表。基本公式3.3 分布(学生氏分布)3.3.1 分布函数令随机变量服从标准正态分布,以及随机变量服从卡方分布,规定它们是相互独立的,则它们的联合概率密度函数为 其它令引入变形等式引入雅各比式则新的概率密度函数为 其它将上式中的积分掉,可得前提是令可知分布是由自由度唯一确定的。3.3.2 分布的图像性质:1) 在区间上有值,2) 在处取得最大值,3) 轴是它的水平渐近线,4) 在最大值两侧分别有一个拐点。3.3.3 关于分布的计算引入分布计算表基本公式3.4 分布3.4.1 分布函数设有两个随机变量和均服从卡方分布,自由度分别是和。则它们的联合概率分布函数为 其

16、它令引入变形等式引入雅各比式则新的概率密度函数为将积分掉就能得到的边缘概率密度函数 其它随机变量服从分布,简写为。值得注意的是3.4.2 分布的图像性质类似于卡方分布。3.4.3 关于分布的计算引入分布计算表基本公式4. 随机变量函数的分布统计量是含有一个或多个随机变量的函数,这些随机变量的参数都是已知的,前文提到的样本均值和样本方差都是统计量。4.1 标准化的正态随机变量分布给定随机样本,这里的相互独立,且,则有4.2 样本均值的分布给定随机样本,这里的相互独立,且,则有用矩量母函数证明。4.3 标准正态化样本均值的分布给定样本均值,则有4.4 标准正态化随机变量平方的分布给定,则有用累积密

17、度函数证明,附带证明出。4.5 若干卡方随机变量和的分布给定随机样本,相互独立,且服从,则有用矩量母函数进行证明。4.6 若干标准正态化随机变量和的分布(p71)给定随机样本,相互独立,且服从,则有4.7 样本方差函数的分布给定样本方差,其中,则有证明的关键然后运用矩量母函数。4.8 正态化样本均值比值的分布已知a) ,b) ,c) .则有4.9 来自同一总体的两个样本方差比值的分布已知a) b) 则有4.10 多元随机变量标准二次型的分布已知二次型,其中是一个由个零均值正态分布的随机变量组成的向量,是方差协方差阵。则有(该证明过程有待琢磨)4.11 随机变量函数分布总结见表中(略)5 单变量

18、区间估计和假设检验5.1 介绍(前章回顾)关于区间估计,通常需要做估计的统计量是包含在关于它的(有时还包括其它一些)统计量的函数中,不过其它的统计量的值都是可以计算出来的,因此可以通过对不等式的运算得到关于要求统计量的估计区间。关于假设检验,引入“零假设”和“备择假设”的概念,置信区间用以确定零假设是否应该被拒绝,如果假设被拒绝,那么就称为该检验的显著性水平;如果假设未被拒绝,那么就不能对该假设,假设检验以及显著性水平做出申明。5.2 单一测量值的检验(关于均值和方差)已知单一测量值,且,当时,则的置信区间为这个置信区间用来检验假设5.3 均值的检验(关于一个观测值和方差)考虑一个观测值,且,

19、当时,则的置信区间为这个置信区间用来检验假设5.4 均值的检验(关于一个样本均值和方差)当则的置信区间为这个置信区间用来检验假设5.5 样本均值的检验(关于均值和方差)当则的置信区间为这个置信区间用来检验假设5.6 均值的检验(关于一个样本均值和方差)当则的置信区间为这个置信区间用来检验假设5.7 样本均值的检验(关于均值和样本方差)当则的置信区间为这个置信区间用来检验假设5.8 方差的检验(关于均值和若干测量值,)当则的置信区间为这个置信区间用来检验假设5.9 方差的检验(关于样本方差)当则的置信区间为这个置信区间用来检验假设5.10 样本方差的检验(关于方差)当则的置信区间为这个置信区间用

20、来检验假设5.11 两个方差比值的检验(关于样本方差和)当则的置信区间为这个置信区间用来检验假设5.12 两个样本方差比值的检验(关于方差和)当则的置信区间为这个置信区间用来检验假设5.13 两个方差比值的检验(关于若干来自两个样本的测量值)当则的置信区间为这个置信区间用来检验假设5.14 单一变量置信区间的总结见表中(略)6 最小二乘点估计:线性数学模型线性数学模型其中,称为观测向量,它是一个列向量,元素是观测值;称为残差向量,它是一个列向量,元素未知的测量误差;称为解向量,是我们想要作点估计的对象,它的元素是未知参数;是已知的,称为设计矩阵。注意这里有个观测值和个未知量。只有当存在多余观测

21、,即时,才能进行最小二乘估计。称为多余观测数,或者称为自由度。此外,每一个观测值都有对应的权,这些权构成了权阵。6.1 的最小二乘无偏估计最小二乘准则将带入,得到求极值通过移项和分离得到该式称为法方程。如果,称为法方程矩阵,是非奇异的,那么将会有一个唯一最小二乘估计值,即如果那么称是的无偏估计量。在这里,是的无偏估计量的条件是(由可证得,继而证得)6.2 权阵的选择易证得观测值和观测误差真值具有相同的协方差阵,但并不意味着。(表示的协方差阵,表示的协方差阵)因为方差越大表示对应的观测精度越低,而我们希望这样的观测值权重越小,所以,权阵可以定义为在进行最小二乘估计之前,必须先定权,由上式可知需要

22、知道协方差阵中的各个对应的方差和协方差,这些值我们可以从采用的测量仪器和测量方法获知。但是我们常常只能得到一个相对值,所以协方差阵要带上一个比例因子,可令相对协方差阵势我们知道的,但是方差因子不知道。因此,我们令将上式带入中,可得由此未知量全部被消去。6.3 的最小化方差点估计若存在则称为的一个线性估计。是的最小化方差估计,它是一个线性无偏估计,其协方差阵为。比的任何其他线性无偏估计都要“小”。衡量矩阵的大小我们需要某种准则,为此引入矩阵“迹”的概念,它适用于方阵,是一个标量,是该方阵对角元素的和。这样,我们定义的最小化方差条件可以表示为接下来我们将寻找满足该条件的方阵。由前文知,当时,是无偏

23、的,即有由方程线性条件可得因此则所以问题变成在约束条件下,采用拉格朗日极值法,令其中为待定系数,然后有由矩阵迹的性质,我们可以得到因此有或者可以写成进一步有最后得到上式就是求解的最小方差估计。对比前述,可知当时,最小二乘估计就是最小方差估计。6.4 最大似然点估计当服从正态分布时,的最大似然估计等价于最小二乘估计。6.5 的方差和协方差的无偏点估计我们有方差无偏估计 协方差无偏估计 的协方差阵为 当时,是一个无偏估计量,亦即。由前述知由协方差传播律可得 因此,当且仅当是的无偏估计,则是的无偏估计。从前述可知,只需证明已知法方程为变形可得由法方程,又可得根据以上关系,可得其中(注:证明因为是标量

24、,所以,所以,所以 )所以,所以, 因此,如果有个观测值和个未知量,则有 得证。因此,本节我们分别定义了的无偏估计,以及的无偏估计。7 最小二乘点估计:非线性数学模型三个环节:线性化、法方程、最小二乘点估计。7.1 非线性数学模型的线性化数学模型的分类:参数法、条件法、组合法。泰勒级数展开。7.2 线性化举例两个例子:直线拟合(组合法)、测角三角形(参数加条件)。7.3 导出法方程组合法模型运用拉格朗日乘数法导出法方程。7.4 导出法方程解的显式过程类似带参数的条件平差,不详述。7.5 导出协方差阵过程类似带参数的条件平差,不详述。8 多变量区间估计和假设检验8.1 介绍多变量的区间估计是对单

25、变量区间估计的一个推广,令常见的分布函数带有多个随机变量。多变量的假设检验将给出一些量的置信区间(假设观测量都服从正态分布)。8.2 方差因子检验在组合法模型中,自由度为;在参数法模型中,。则有上述卡方随机变量的概率为则,关于的置信区间为以上置信区间用于检验零假设需要注意的是,拒绝零假设除了因为的假设值不正确,还可能是由于:1) 数学模型缺陷;2) 残差向量中的随机变量不服从正态分布。上述两条也可以作为零假设来进行检验,但要记住一次只能对一个量进行检验。8.3 两个方差因子比值的检验统计量为其中或者,或者。则随机变量的概率关于的置信区间为被检验的零假设为8.4 当方差因子已知时检验参数与其估值

26、的偏差统计量为其中则随机变量的概率为被检验的零假设为也就是当计算值时,零假设被拒绝。8.5 当方差因子未知时检验参数与其估值的偏差统计量为整理可得其中则随机变量的概率为相关的置信区间为这个置信区间的范围由超椭球面方程给出其中,为长椭球面方程常数。将坐标系原点平移到向量描述的位置,则上述方程变为考虑二维情形,即,则有或者这是一个椭圆方程。类似的,在三维情形下或者这是一个椭球方程。注意在上述两个例子中,方程中含有交叉乘积项,这是因为主对角元以外的元素并不为零。可以通过将坐标系旋转角使得较差乘积项为零,这个角由的一个特征向量的元素计算得到。这个特征向量给出了最大和最小方差的方向,后者就是特征值。例如

27、,在二维情形下,经过上述旋转变换,可以得到椭圆方程被检验的零假设为也就是当计算值时,零假设被拒绝。9 分割数学模型并非所有的最小二乘估计问题都能方便地用组合法模型来表达,需要对该模型做一些补充。这里仅介绍四种分割模型的策略。本章在阐述四种补充的使用时考虑它们在卫星定位中的应用。我们假设观测值已经通过某些手段从一个或者多个地面站获得。这些观测值跟地面站坐标以及卫星坐标都是相关的,它们共同构成了未知参数。9.1 剔除“麻烦”的参数卫星的坐标某种程度上来说是一个“麻烦”的参数,我们希望将它们从解中分离出来,因此我们将分割为地面站坐标,记为,以及卫星坐标,记为。则组合法模型变为其中观测值的权阵为运用泰

28、勒级数展开将其线性化,得到或者其中,。在最小二乘原则下,导出法方程则法方程为用第七章的方法消去上述方程中的,得进一步消去方程中的,得上式可以简化写作消去,可得将回代,可得进一步,可得最终9.2 附加观测值假设有两组观测值,来自相同的地面站其中且,观测值的权阵为,观测值的权阵为。将两个非线性函数线性化,效仿上一节,可得合并其中同上一节,法方程为消去,可得消去,可得消去,可得最后消去,可得进一步,可解出最后9.3 未知参数间附加约束条件数学模型 (附加约束条件)将上述模型线性化,可得合并其中求解法方程,令分别对和求导,并令其为零,可分别得到则法方程为同前面的处理手法,依次消去、,可得9.4 未知参数定权数学模型线性化可得这里与前文发生变化的是,残差向量变成,权阵变成了。其中是未知参数的先验协方差阵。上述数学模型可以合并为其中在准则下,令分别对和求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论