统计假设检验_第1页
统计假设检验_第2页
统计假设检验_第3页
统计假设检验_第4页
统计假设检验_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章测量平差总论

§1-1测量平差的基本概念

一、测量平差问题

测量误差,也称观测误差,是待观测量的真值与其观测值之差。观测只是指

用一定的仪器、工具、传感器或其他手段获取反映地球及其他实体与空间分布有

关信息的过程和数据。不论观测条件如何,测量误差总是不可避免的。

多余观测,为了确定一定的几何模型,并不需要知道该模型中所有元素大小,

而只需要知道其中必要的部分元素的大小就行了。例如确定一个平面三角形的形

状,只需要知道其中任意二个内角的大小。这二个内角观测值就称为必要观测。

在几何模型中多于必要观测数的观测数称为多余观测数,如三角形中共观测了三

个内角,则多余观测数为1。为了检查观测值中是否存在错误,并提高观测成果

的精度,一定要进行多余观测。

不可避免的测量误差和一定要进行的多余观测这两个原因导致了观测值之

间,或观测值与已知值之间出现矛盾(不符值)。比如,对同一量的多次观测,

其观测结果不相等;观测值或观测值的函数与其理论值不相等(最典型的是三角

形的三内角观测值之和不等于理论值180°)。观测值之间的这种矛盾(不符值),

使得测量问题的解不惟一。为了消除这种矛盾(不符值),得到测量问题的惟一

解,就要对引起这种矛盾(不符值)的主要原因一一测量误差进行研究和处理。

处理带有误差的观测值,按最小二乘原理消除观测值之间的矛盾,求出测量问题

的惟一解并评定精度的理论和方法被称为“测量平差”。

“测量平差”一词在我国最早出现在夏坚白、王之卓和陈永龄三位教授合著

的我国第一本测量方面的教材。“二十八年秋,著者三人同在昆明,分别任教于

同济大学、西南联大及中山大学。教学之际,深感国内关于测量课本及参考书之

缺乏,学者苦之,乃有编辑测量学丛书之决心,而以《测量平差法》川一书为始。”

(引自《学部委员夏坚白》)。“测量平差”主要研究测量误差的理论、测量平差

的方法和测量成果的精度评定。

二、误差理论

研究内容包括:误差分布、精度指标、误差估计、误差检验、误差分析以及

误差预测和控制。

在《误差理论与测量平差基础》⑵一书中,假定系统误差已经通过某种手段

得以消除,而且不存在粗差。在这一前提下,测量误差服从正态分布,其数学期

望(真值)为零。方差为衡量观测值或观测误差的精度指标。随机向量X的方

差的定义为:

O(X)=E[(X-E(X))(X—E(X))T](1-1-1)

当x为一个随机变量时,其方差可以记为:

O(X)=b;=E(X-E(X))2(1-1-2)

q就是X的中误差(即标准差,下同)。

方差D(X)定义式(1-1-1)的显式为:

・(T

。x;\%卢2,x\xn

2

(y(J.••a

D(X)=xY\Yx2xY2xrn

*•••

•,•

(T.•・・CT;

LXiXnr

式中主对角元素为X,的方差,非主对角元素°;内为X,与Xj的协方差,协方差

的定义式为:

?「仇(X「E(X,))(XJ-E(XJ))](1-1-3)

方差还可表达为相应的协因数与单位权方差的乘积,即:

O(X)=a•念(M-4)

式中2”称为协因数矩阵。当2a非奇异时,。工「=P,P为x的权阵。当x为--

个随机变量时,则权的定义为:

P、再(1-1-5)

上式表明,权与方差成反比。比例常数加称为单位权方差。权是一个相对精度

指标。

误差估计总是与平差参数估计同时进行,而且依附于平差参数估计之中,因

为误差也是平差系统中所要估计的参数。

误差检验的目的是要在平差问题中排除系统误差和粗差的影响,以保证测量

成果的精度。

三、平差方法

在《误差理论与测量平差基础》中,介绍了条件平差、间接平差、附有参数

的条件平差、附有限制条件的间接平差和附有限制条件的条件平差等五种平差方

法。这五种平差方法并无本质的差别,只是所选参数的个数不同,以及参数之间

是否相关所至。因此,我们通常称这五种平差方法为经典平差,它们是测量平差

的基础方法。

在经典平差中,如果不选参数,即当所选参数的个数"=0时,平差的函数模

型为:

AU+W=O(1-1-6)

rx.n,?xlrxlrxl

式中〃为观测值的个数,r为多余观测的个数。以(1-1-6)式为函数模型的平差

问题,称为条件平差。

当所选参数的个数为〃,为必要观测数),且参数之间相互独立时,

平差的函数模型为:

AV+BX+W=0(1-1-7)

cxnwxlcxu“xlcxlcxl

式中c=r+u为条件方程的个数,X为所选取的M个参数向量。以(1-1-7)式

为函数模型的平差问题,称为附有参数的条件平差。

当所选参数的个数为〃=3且参数之间相互独立时,平差的函数模型为:

V=BX-L(1-1-8)

nxt/xl〃xl

以(1-1-8)式为函数模型的平差问题,称为间接平差。

当所选参数的个数为〃>3且包含f个独立的参数时,其余“7个参数都可

以表示成/个独立参数的函数,于是平差的函数模型为:

V=B灾一乙

7?xlnxuwxlMX1

(1-1-9)

C玄+W\—o

sxuMxlsx]sxl

式中s=为限制条件的个数。以(1-1-9)式为函数模型的平差问题,称为附

有限制条件的间接平差。

当所选参数的个数为0<,,<3且参数之间不独立时,平差的函数模型为:

AV+BX+W=O

cxnMXIcx.u〃xlcxlcxl

(1-1-10)

CX+WX=Q

MXl$x]$xl

以(1-1-10)式为函数模型的平差问题,称为附有限制条件的条件平差。

通常将间接平差和限制条件的间接平差称为参数平差,其应用最为广泛。其

它三种总称为条件平差。各种平差方法可以互相转换。以上经典平差法的最优估

计准则为最小二乘原理。

四、平差结果的精度评定

精度评定包括两个内容,第一内容是根据平差后求得的改正数来估计单位权

中误差,即

lvTPV

a°=^r("

式中V为观测值的改正数(残差)向量,P为观测值的权矩阵,「为平差问

题的自由度,即多余观测数。

第二内容是应用协因数传播律,计算观测值函数。=4的协因数。加,

其公式为:

Q^=fQfT(1-M2)

最后e的方差估值为:

/=苏。加(1-1-13)

§1-2参数平差原理总述

一、附有限制条件的间接平差原理⑵

1、平差模型

附有限制条件的间接平差的函数模型和随机模型分别为:

乙=3X+△

nxAnxuuxlz?xl

(1-2-1)

C7X+Wx.—Oa

sxuux\$x]

D=^Q=^P-1(1-2-2)

相应的误差方程和条件方程为:

V=BX-1

>(1-2-3)

CX+=O

式中

l=L-BX°(1-2-4)

按最小二乘原理,在

T

0=VPV+2K;(C戈+WX)=min

下得法方程及其解为

Tr

NBBX+CKs-BPI=0

>d-2-5)

C戈+%=0

T(1-2-6)

K°,=N-CC\CNBB-'BPI+WXV)'

X=(A^-1-N-'CTN-'CN-')B'Pl-N-'CrN-'W.

BBBBCCBBBBCCx

式中

NBB=B「PB,N,『=CN:CT(1-2-7)

2、精度评定

(1)、单位权方差

单位权方差估值为:

-2VTPVVTPV

b=-------=------------(1-2-8)

rn-(u-s)

(2)、协因数阵

协因数阵的计算公式列于表1-1

表1-1附有限制条件的间接平差的协因数阵

LXVL

LQBQ效-QvvQ-Qvv

1T

XQWN-BB-NB-B'CNCC-'CNBB-'00H

V~Qvr0Q-BQH0

0

LQ~QvvBQ效Q~QyV

二、间接平差原理

在附有限制条件的间接平差中,当参数的个数正好等于必要观测数,即u=t,

且参数之间彼此独立时,有$=上1=0,即此时不存在条件。于是函数模型(1-2-1)

式就变为:

L=BX+A(1_2.9)

/1X1MX1〃X1一

相应的误差方程、法方程及其解为:

V=BX-I(1-2-10)

T(1-2-11)

NBBX-BPI=O

T(1-2-12)

X-NBB'BPI

间接平差中单位权方差的估值为:

QVrPVVTPV

(1-2-13)

间接平差中的协因数阵见表1-2。

表1-2间接斗F差中的协因数阵

LXVL

BN-1BN-'BT-QBN-'B'

LQBBBBQBB

N-'BTN-l0N-'Br

XBBBBBB

VBN-'BB'-QQ0Q-BN-BB'B'0

BN-'BTBN」'BN-'B1

LBBBB0BB

§1-3测量平差的若干进展

仅考虑偶然误差的经典平差在整个测量史上发挥了巨大的作用,至今仍广泛

应用。但随着科学技术的不断扩展,测量数据采集的现代化、自动化和高精度化,

使得有时经典平差模型不能适应实际问题的需要,因此,测量平差的研究内容也

不断扩展。这些扩展主要体现在:

1、从法方程系数矩阵满秩扩展到法方程系数矩阵亏秩

在经典平差中,任何一个平差问题总是具有足够的起算数据,或称为具有足

够的基准条件。在这个前提下,我们得到的法方程的系数矩阵总是满秩的。由于

法方程的系数矩阵满秩,法方程具有唯一解。但在实际工作中,有时存在没有足

够的起算数据的情况。例如,在水准测量中没有已知水准点但却以高程位参数就

是这种情况。当一个平差问题没有足够的起算数据时,法方程的系数矩阵就会秩

亏,致使法方程没有唯一解。为了解决这个问题,1962年迈塞尔(P.Meissl)提

出了秩亏自由网平差的思想,将经典平差扩展到秩亏自由网平差。

2、从仅处理静态数据扩展到处理动态数据

在经典平差中,观测值和待估参数都是不随时间变化的静态数据。但在现

代测量中,很多情况下观测值和待估参数都是随时间变化的动态数据。例如,

GPS导航中的观测值和待估参数就是随时间变化的动态数据。为了处理观测值和

待估参数都是随时间变化的动态数据,1960年卡尔曼(R.E.Kalman)提出了著

名的卡尔曼滤波。应用卡尔曼滤波和其他动态平差方法,使仅能处理观测值和待

估参数都是不随时间变化的静态数据的经典测量平差,扩展到能处理观测值和待

估参数都是随时间变化的动态数据。

3、从无偏估计扩展到有偏估计

经典平差的优良统计性质是估计结果的无偏性和方差最小性,即经典平差中

估计出来的参数是最优无偏估计。但当法方程病态时,由于观测值的很小的误差,

就会使待估参数产生很大的变化,不仅解极不稳定,而且方差的数值还会很大。

1955年,Stein证明了若法方程病态,则当参数的个数f大于2时,基于正态随

机变量(观测值)的最小二乘估计(经典平差)为不可容许估计,即总能找到另

一个估计,在均方误差意义下一致优于最小二乘估计。统计学家们将这种现象称

为Stein现象。根据Stein现象,Stein于1955年提出了通过压缩改进最小二乘估

计的方法。通过对最小二乘估计结果进行压缩改进后,其估计结果就不再具有无

偏性。因此,就称对最小二乘估计结果进行压缩改进后的结果为有偏估计。有偏

估计被提出以后,至今以扩展了很多有偏估计方法。在大量的有偏估计方法中,

研究得最多的是岭估计。

4、从线性模型的参数估计扩展到非线性模型的参数估计

经典平差方法实际上是线性模型的参数估计。但测量实践中却存在大量的非

线性模型。在经典平差中总是对非线性模型进行线性近似,即将其展开为台劳级

数,取至一次项,而略去二次以上各项。如此线性近似,必然会引起模型误差。

如果线性近似所引起的模型误差小于观测误差,则线性近似所引起的模型误差可

忽略不计。随着科学技术的不断扩展,现在的测量精度已大大提高,致使线性近

似所引起的模型误差与观测误差相当。甚至还会大于观测误差。因此,用近似的

理论、模型、方法去处理具有很高精度的观测结果,从而导致精度损失,显然是

不合理的。现代科学技术要求估计结果的精度尽可能提高。这样,传统的线性近

似的方法就不能满足当今科学技术的要求。更重要的是,有些非线性模型对参数

的近似值十分敏感,若近似值的精度较差,线性近似时就会产生较大的模型误差。

此时用线性模型的精度评定理论去评定估计结果的精度,会得到一些虚假的优良

统计性质,人为地拔高了估计结果的精度。为此,人们提出直接处理非线性模型,

这样就使线性模型的参数估计扩展到非线性模型的参数估计。

5、从待估参数为非随机量扩展到待估参数为随机量

在经典平差中,待估参数为非随机量。但在有些实际问题中,某些待估参数

的先验统计性质(如期望和方差)是已知的,这就导致带有随机参数的平差问题

的出现。如1969年,克拉鲁普(T.Krarup)提出的最小二乘配置,就将待估参

数仅为非随机量推广到待估参数为随机量。此外,待估参数为随机量的估计还有

贝叶斯(Bayes)估计。

6、从观测值仅含偶然误差扩展到有含有系统误差和粗差

经典平差的最大特点就是假定观测值为仅含偶然误差、服从正态分布的随机

量。但实际观测值中往往既含有偶然误差,又含有系统误差和(或)粗差。当观

测值中含有粗差时,由于最小二乘估计不具备抵抗粗差的能力,估计结果将严重

地受到粗差的污染。为此,统计学家自然地希望寻求一种能抵抗粗差的估计方法。

于是1953年薄克斯(G.E.P.Box)提出了稳健估计(RobustEstimation)概念。

但只到二十世纪六十年代,才出现研究稳健估计的热烈局面。因此,人们公认稳

健估计始于1964年,即认为1964年胡倍尔(P.J.Huber)发表的“位置参数的

稳健估计”一文为稳健估计方面的开创性论文。稳健估计的出现,就使测量平差

扩展到可以处理除含偶然误差外还含有粗差的观测值。

同样,系统误差在测量过程中也是存在的,为了处理系统误差,往往在经典

平差的基础上附加系统参数。因此,有了附加参数的平差方法。近年来,又开展

了对应用半参数估计理论来处理系统误差的平差问题的研究。

7、从主要研究函数模型扩展到深入研究随机模型

在经典平差中,主要研究函数模型。例如,五种经典平差的函数模型及其内

在联系。1923年,赫尔墨特(F.R.Helmert)提出了方差分量估计理论,使两类

以上观测值同时平差时正确确定各类观测值之间的权比成为可能。随着方差分量

估计理论的提出,开辟了深入研究随机模型的途径。

8、从最小二乘估计准则扩展到其它多种估计准则

在经典平差中,实际上只是应用了最小二乘估计准则。随着科学技术的扩展,

参数估计理论得到了巨大的发展。出现了极大似然估计、最小二乘估计、极大验

后估计、最优无偏估计,贝叶斯估计、稳健估计、a范估计、信息扩散估计、极

大可能性估计、半参数估计等等多种估计方法。应用上述各种估计的测量平差问

题已取得了许多成果,并在进一步深入研究之中。

§1-4本课程的任务和内容

高等测量平差是在经典测量平差及其相应的误差理论的基础上进行扩展,着

重介绍在测量数据处理实践中一些常用的近代平差方法及其相应的误差理论知

识。本课程是《误差理论与测量平差基础》的后续课程,故本课程取名为高等测

量平差。

本课程内容的选取,主要考虑培养测绘工程专业本科生这一层次所必须掌握

的平差理论知识的要求,同时也兼顾后续专业课教学的需求。为此,本课程主要

内容为:

1、平差模型的统计假设检验。介绍测量平差中常用的假设检验统计量及

其各种假设检验方法。

2、回归分析理论和方法。介绍回归分析在测量数据处理中的应用以及各

种常用模型的回归分析方法。

3、秩亏自由网平差理论与方法。介绍广义逆矩阵以及测量中常用的秩亏

自由网平差的各种方法。

4、稳健估计理论和方法。介绍稳健估计原理、选全迭代揭发、以及针对

处理粗差的几种常用抗查最小二乘法。

5、非线性模型的平差理论和方法。介绍非线性最小二乘估计原理、算法

和估计量的统计性质。

第二章统计假设检验

测量数据处理的主要内容之一是根据观测数据做出统计推断。统计推断分为参数估计和假设

检验,我们所熟悉的测量平差就属于参数平差的范畴。假设检验则是根据样本来查明总体是

否服从某个特定的概率分布。因为假设检验与概率分布有关,故先介绍几种常用的抽样分布。

一、儿种常用的抽样分布

1、正态分布

设平差系统观测向量为L=[乙•••LJ,其中b;),真误差△,=2一4

n1

的期望E(AJ=O,参数向量为N=K…通过平差计算,可获得其中参数占的

估值£,并可表示为观测值的线性函数

X=a,1L,+<z,2L,+•••+ainLn=L

a'=<••即],按误差传播定律得crj.=Q%

由于戈,.是正态变量4的线性函数,戈,~N(X,,W)。

对正态变量戈,.标准化

文「X,

u=--------L

外,

因为

E(u)—后(文).~-o,er:=(o■:+0)=1>

所以

M~N(0,1)为标准正态变量。

L

P<-ua<---------<ua>=\-a

I0■兄.5,

有标准正态分布表终可查得

a0.31730.100.050.04550.010.00270.001

ua1.01.6451.962.02.5763.03.29

2

有正态分布引出下列三种分布

2,%2分布统计量

在平差系统中,残差平方和V’PV是个重要的统计量,在平差参数估计和假设检验

中往往要用到,为此,要了解其概率分布。

已知统计数学中的二次型分布定理为:

设X~N(u,E),例为对称阵,且有为基等阵,则二次型X,MX服从非中心化

的%2分布:XTMX-x\R^M),uTMu)

I~N(6X,b;0),MZ==PQVV,PQVVPQVV=PQw为幕等阵,

b()

V1py

所以——~/2(/?(M),(5X)rMBX)

R(M)=nT

九=(BX)TMBX=0

VTPV

-z2(/)-f=n-t

T

,2VPV

P\X<——<z|»=1-a

2%3,

3、t分布统计量

定义:随机变量x、Y相互独立,X~N(O,I),y~z2(/),

X

t-i--------~,(/),

y/yTf

前面标准正态统计量

O■。为母体单位权标准差,在实际问题中经常是未知的,

X1-X

概率表达式为P\-ta<―----<fa5=1-a

II6。匹IJ

4、F分布统计量

2

定义:随机变量X、Y相互独立,X~%2(〃j,Y~X(n2),

F=3

Y/n2

p["5bo”5J=1-a

二、统计检验常用方法

统计检验是根据样本来查明总体是否服从某个特定的概率分布

(1)首先对母体概率分布作出陈述(即假设);

(2)根据从该母体中抽出的样本来判断是否与前陈述一致(即检验)

(3)通过检验来决定是接受还是拒绝假设.

某基线场设置的基线,经精密测定,其长度为Lo=12OO.252m,为了检验两台测距仪的精度,

分别用两台仪器对该基线各复测25测回,得平均长度L=12()0.264m,L2=1200.249m。

已知两台仪器的观测精度相同,每测回的标准差均为0.015m,试用显著水平0.05检验则两

个平均长度和基线长度的差别是否完全有观测的随机性而引起的。

设某厂生产,种灯管,其寿命服从N(u,40000),从过去情况看,灯管平均寿命为1500小时,

现采用新工艺后,从新产品中抽出16个,测得平均寿命为1675小时,问新产品的寿命是否

有显著提高?(显著水平为0.05)

设有2人观测某地纬度,已知此二人观测纬度一次的中误差为0.63秒,现在甲观测该地纬

度12次,得平均值秒数为1.20秒,乙观测该地纬度8次,得平均值秒数为1.15秒,问他们

所得结果的差异是否显著?(显著水平为0.05)

二、统计假设检验的概念

1.接受域与拒绝域

统计假设检验所解决的问题,就是根据观测样本,通过检验来判断母体分布是否具有指定的

特征。在这里,我们通过对改正数的检验,构造统计量,在所作的假设下,判断是否有模型

误差。例如,统计量(4-3-6)式是在平差模型不存在粗差即E(匕)=0的假设下得出的,此

时的统计检验在于将标准化残差W,与所选定的临界值卬区进行比较,叱的置信区间为

2

-'

P<-wa<<wa>=l-a(4-3-9)

.22.

P<|w-|<wa>=\-a(4-3-10)

、五

上式中,-Wq,卬q是区间的上下限,其数值可根据给定的。从正态分布表中查得。

2~2

这就是说,当我们作了假设E(匕)=0。为了检验这一假设是否成立,计算统计量

IvJ、一、一,

vv.=—J——,使(4-3-10)式成立,那么,就表不明是落在(-w,w)区间内,在

叵22

这种情况下,没有理由否定原先所作的石(匕)=0假设,即接受原假设,通常将区间(・2,

2

卬里)称之为接受域。反之,如果计算结果明>叩名或VWg,就表示概率很小的事件居然

发生了。根据小概率事件在一次实验中不可能出现的原理,就有足够的理由否定原来所做的

E(匕)=0假设,即应拒绝原假设E(匕)=0,而认为石(匕)W0。。通常将(-卬。,w0)

2~2

区间以外的范围称之为拒绝域(图4-4)。

2、原假设与备选假设

由以上所述可见,当需要根据子样信息来判断母体分布是否具有指定的特征时,总是

先作一.个假设,称为原假设(或零假设),记为4.。然后,找一个适当的且其分布为已知

的统计量,确定该统计量经常出现的区间,使统计量落入此区间的概率接近于1,如果由抽

样的结果计算出的统计量的数值不落在这一经常出现的区间内,那就表示小概率事件发生

了,则应拒绝原假设"°,当"°遭到拒绝,相当于接受了另一个假设,称为备选假设,记

为小。因此,假设检验实际上就是要在原假设与备选假设之间做出选择。

3、显著(性)水平

接受域和拒绝域的范围大小是与我们所给定的a值大小有关的,a值愈大,则拒绝域

愈大,被拒绝的机会就愈大,a的大小通常应根据问题的性质来选定,当不应轻易拒绝原

假设”o时,应选择较小的a,一-般使用的a值可以是0.04、0.01等。

对于上述统计量而言,当帆卜」工>卬〃时,则称匕与0的差异是显著的,反之,则

九2

称匕与0之间的差异不显著。因此,数a称之为检验的显著(性)水平,上述的假设检验问

题通常叙述成:在显著水平a下,检验假设“o:E(匕);/:E(匕)=0。

4、单、双尾检验法

上述假设检验的例子,是将拒绝域布置在统计量分布密度曲线两端的尾巴上,这

种检验称为双尾检验法;有时根据实际情况,需要判断母体均值是否增大了,即检验假设

HQ:〃=E(x);乩:fj>E(x)

为了进行这样的假设检验,只要将a布置在右尾上。如需检验假设

Ho:〃=E(x);H]:/J<£(x)

则将a布置在左尾上,这样的检验方法称为单尾检验法。

5、弃真与纳伪的概率

假设检验是以小概率事件在一次实验中实际上是不可能发生的这一前提为依据的。必

须指出,小概率事件虽然其出现的概率很小,但并不是说这种事件就完全不可能发生。事实

上,如果我们重复抽取许多组子样,由于抽样的随机性,由此算得的统计量数值也具有随机

性。若检验的显著水平a定为0.05,那么,即使原假设“°是真的,其中仍约有5%的计算

数值将会落入拒绝域中。由此可见,进行任何假设检验总是有做出不正确判断的可能性,不

可能绝对不犯错误,当"o为真而遭到拒绝的错误称为犯第一类错误,也称为弃真错误,犯

弃真错误的概率是a。同样地,当〃。为不真时,我们也有可能接受"o,这种错误称为犯

第二类错误,也称为纳伪错误。犯纳伪错误的概率为夕(见图4-6)。

例4-3子样均值x的抽样分布是正态的,均值为片,中误差a*=2。

原假设"°:4=0,备选假设^0表4-3置信度a与临界值VV&的关系

2

选定显著水平a=0.05,查正态分布表4-3得卬〃=1.96

a

~2

原假设为真时,确定检验统计量卬=±互=七9

0.051.96

22

0.012.57

根据(4-3-10)式,有接受域P凶<x2=3.92»=l-a0.0013.29

和拒绝域(见图4-5).

此时,当“。为真时而遭到拒绝,称为犯第一类错误,也称

图4-5接受域与拒绝域图4-6犯纳伪错误的概率

若备选假设为真时,如J=2,亦即“0为伪,则X的分布实为N(2,2),见图4-6。

如x的观测值落在拒绝域中,我们拒绝“。,这是正确的,如x的观测值落在接受域中,使

我们作出错误的判断,认为%为真,这就犯了第二类错误(纳伪/),期率/是图6-6

中当"i为真时接受域范围内密度曲线下的面积。,值的计算:将±3.92标准化得

吗=]_(—3.92—2)=—2.96,

w2(3.92-2)=+0.96

查正态分布表得①(卬J=0.0015,①(卬2)=0.8314

则£=0)(^2)—①(吗)=0.830

6、检验功效

在上例中,作出错误的判断(纳伪)的概率为0.83,作出正确判断(弃伪)的概率为

1-^=0.170»如果重复抽取许多组子样,其中将有83%使我们犯第二类错误,有17%使

我们作出正确的判断,这种作出正确判断的概率称为检验功效,其概率为1-尸。

根据以上所述,将假设检验的四种可能性列于表4-4中。

表4-4假设检验的四利『可能性

现象判断结果概率

接受正确\-a

也为真

拒绝第一类错误(弃真)a

接受第二类错误(纳伪)

”o为不真B

拒绝正确

为真)\-/3(检验功效)

对于一个检验问题,总希望弃真概率a和纳伪概率/均尽可能的小,但这是做不到的,

从图4-6和表4-3可以看出,a减小,£就跟着增大。通常认为弃真的错误较之纳伪的错误

更为严重,因此,总是先控制a,例如,根据问题的性质,选用a为0.05、0.01或0.001

等,然后,在不改变a的前提下,尽可能使减小,即使检验功效1-夕增大。检验功效代

表为某•数值的粗差被正确发现的概率。

第三章回归模型的参数估计与假设检验

§3-1概述

在测量数据处理中,经常遇到要研究变量与变量之间的关系。变量之间的关系一般可分

为两类。一类是变量之间具有确定性关系,称为函数相关。例如矩形面积S与其两边a、b

之间存在确定性关系为s=ab;一个平面三角形的一个内角7与其它两个内角。、,之间关

系为y=180°-0-/;两点间的纵坐标增量Ac等于边长S乘以方位角。的余弦,即

Ax=scosa等,这些变量之间可用一个确定的函数模型表达。在我们学过的《误差理论与

测量平差基础》课程中,所讨论的大多是这种确定性的函数模型。另一类是变量之间并不存

在确定的函数关系,而是存在所谓相关关系,或者说是统计上的相关关系,称为统计相关。

例如,每年春季气温与降雨量,人的高度与体重之间就存在着统计相关。这种现象在测绘学

中也大量存在。例如测距结果与仪器中电子线路受固定的干扰信号引起误差之间;重力测量

结果与气压、温度、地下水等因素之间;海平面变化与气象、海洋天文因素之间;断层位移

与断层活动趋势、气温、地温、蒸发、降雨量之间等等都是这种现象。这种统计相关的特点

是,它们之间既存在着一定的制约关系,又不能由一个(或几个)变量数值精确地求出另一

个变量的值来,由变量之间统计相关所建立的函数模型称为回归模型。

回归分析方法是研究相关关系的一种有力的数学工具。它是建立在对客观事物进行大量

实验和观测的基础上,寻找隐藏在不确定性关系后面的统计性规律的数理统计方法。

在进行回归分析时,将研究相关关系的各变量分为自变量和因变量,例如因变量y随着

m个自变量芯,々…,x,“而变化,y是正态分布的随机量,观测数据(•,…X"”)

(i=l,2…〃),称为样本,如果因变量与自变量之间的关系为线性的,称为线性回归模型,

否则,就称为非线性回归模型。在线性回归模型中,若自变量x的个数只有一个称为一元线

性回归模型,自变量x的个数大于一个,称为多元线性回归模型.回归分析主要研究的问题

是:

(1)如何根据样本(y^xu,x2i,---xmi)»(i=1,2…〃)建立回归模型;

(2)如何估计回归模型参数:

(3)如何检验模型参数的显著性;

(4)如何利用回归方程进行预报和控制。

§3-2线性回归模型

设一个随机变量y与m个自变量X1,4,…之间存在线性形式的统计相关关系,因为

它们并不是确定的函数关系,即使给定了修,々,/之值也不唯一决定y值,因此它们之

间的表达式应写成

y=A)+4匹+42了2+…+凡,x,“+£(3-2-1)

式中£是随机误差,它是N(0变量,即£的期望£(£)=0,方差。(£)=〃。领

40=1,2…机),称为回归方程的系数。

取(3-2-1)式的期望和方差

E(y)=0[X[+设2+…+仇(3-2-2)

O(y)=O(£)=/(3-2-3)

(3-2-2)式说明片+川*+夕2々+…+&x,“是再,々…,x,“对y的平均影响,随机变量

y~N(E(y)/)。

(3-2-1)式是线性回归模型,(3-2-2)式是线性回归理论模型。

为了估计模型参数,需要对变量进行n次观测,得n组观测数据(yt,xu,xv,---xmi)

(z=1,2,•••,«),代入方程(3-2-1)有n个方程。

y(=片+占应+x2a2+,,'+X""£"+与('=1,2,“.,”)(3-2-4)

其矩阵形式为

Y=Xp+£(3-2-5)

n\ntn+1/n+|jn1

这是回归参数估计的函数模型,其随机模型为

D(s)=a2I(3-2-6)

nn

式中I为单位阵。Y为观测值向量,力为待求的参数向量。

当观测数〃〉(m+1)时,可用最小二乘原则估计参数/,设其估值为力,代入(3-2-2)

式可得E(y)的估值即

§=储+8\X[+隈?+…+(327)

称为线性回归方程,给定一组数(番,》2…七”)由上式求出9称为预报值。

如果将回归参数估计的函数模型(3-2-5)和随机模型(3-2-6)与测量中间接平差

函数模型和随机模型相比较,可以看出,在不考虑模型物理性质前提下,两者的参数最

小二乘估计模型形式完全一致,从这个意义上来说,线性回归模型的参数估计也可看成

是一种等权观测的间接平差问题。因此,我们学过的间接平差理论和方法完全可以用于

回归模型的参数估计。

§3-3回归参数的最小二乘估计

一、一元线性回归参数估计

先以一个例子说明一元线性回归问题。

例3-1,某水电站为了监测和预报库水位和大坝坝基沉陷量之间的关系,统计了某

年12个月的月平均库水位和沉陷量的数据如表3-1所示,试分析库水位与坝基沉陷量之

间的关系。

表3-1观测数据

库水位沉陷量库水位沉陷量

编号编号

(m)(mm)(m)(mm)

1102.714-1.967135.046-5.46

295.154-1.888140.373-5.69

3114.364-3.969144.958-3.94

4120.170-3.3110141.011-5.82

5126.630-4.9411130.308-4.18

6129.393-5.6912121.234-2.90

现以X轴表示库水位,以Y轴表示大坝坝基沉陷量,作散点图(图3-1)由图认

为,这些散点的分布可用一条直线方程表示,即

50蹙150200

y=0o+Ax,这是一元回归分析问题。-2

-1

-6

-8

3-1

下面阐述参数估计原理。

为了估计参数为、四,设对y进行n次独立观测(x,x,),有

yi=&+4玉+弓(i=l,2…〃)(3-3-1)

这是一元回归参数估计的函数模型,相应的理论模型为

E(y)=0o+0内(3-3-2)

在回归分析中,假定自变量七是非随机变量,且没有测量误差,这就使我们研究的

问题大大简化,令

丫=[月为…y』,£=k&…£」,

1

Y1%2

A=,pR=

••••••B、

Jx„_

则(3-3-1)式可写成矩阵形式:

Y=X/3+£(3-3-3)

设V为误差£的负估值,称为Y的改正数或残差,成为回归参数夕的估值,

则有误差方程

V=Xp-Y(3-3-4)

根据最小二乘原理VrV=min,对求自由极值,得

T

dVV=2万r土dv=2LrX=0,

dp明

XW=0

将误差方程(3-3-4)代入上式,即得法方程为

XTXfi=XTY(3-3-5)

式中

Z

Z

E

T

T

Xy

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论