第四章-水文统计(修改)_第1页
第四章-水文统计(修改)_第2页
第四章-水文统计(修改)_第3页
第四章-水文统计(修改)_第4页
第四章-水文统计(修改)_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

工程水文学第四章水文统计云南农业大学水利水电学院4.1概述水文现象是自然现象的一种,在其发生和演变过程中,包含着必然性的一面,也包着偶然性的一面。必然想象是指事物在发生、变化中必然会出现的现象。偶然现象是指在事物发展、变化过程中可能出现也可能不出现的现象。统计学的任务就是从偶然现象中揭露事物的规律,这种规律需要从大量的随机现象中统计出来。称为统计规律研究随机现象统计规律的学科称为概论论,而有随机现象的一部分实测资料去研究总体现象的数字特征和规律的学科称为数量统计学。数理统计学必须以概率论为基础,概率论往往把由数理统计所揭示的事实提高到理论认识。水文统计的任务就是将将数学上的概率论和数理统计知识应用到水文上来,通过分析研究大量实测水文资料,寻找其统计规律,并有统计规律对合理未来可能出现的长期变化作出概率预估,为水利水电工程建设提供合理的水文数据。4.2概率的基本概念与定理一、事件事件是指随机试验的结果。必然事件:如果可以断定某一事件在试验中必然发生,称此事件必然事件。不可能事件:可以断定试验中不会发生的事件称为不可能事件。随机事件:某种事件在试验结果中可以发生也可以不发生,这样的事件就称为随机事件。二、概率

为了比较某随机事件出现(或不出现)的可能性大小,必然赋予一种量化的(以数量表示)指标,这个数量指标就是事件的概率。

式中,P(A):一定条件下随机事件A的概率;

n

:试验中所有可能的出现的结果数;

m

:出现随机事件A的结果数。简单(古典)的随机事件的概率定义用下式表示:古典的随机试验是指所有试验的可能结果都是等可能的,而且试验的可能结果的总数是有限的。但水文事件不一定符合这种性质。对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。设事件A在n次随机试验中出现了m次,则称:三.频率为事件A在n次试验中出现的频率。注意:n

不是所有可能的结果总数,仅是随机试验的次数。

频率:

频率是通过若干次试验后才能求得的经验值,事先不能确定,当试验次数n愈大,即当n趋于无穷大时,理论上,n变成试验中所有可能的结果总数,则频率愈接近概率。概率和频率的区别:

概率:

在等可能条件下,表达事件客观上出现的可能性大小,是一个理论值。四.概率加法定理和乘法定理

1.概率加法定理P(A+B)=P(A)+P(B)-P(AB)式中,P(A+B)-事件A与B之和的概率;

P(A)-事件A的概率;

P(B)-事件B的概率。

P(AB)-事件A和B共同发生的概率。2、概率乘法定理

P(AB)=P(A)P(B/A)

=P(B)P(A/B)式中,P(A/B)-事件A在事件B已发生情况下的概率,简称为A的条件概率

P(B/A)-事件B在事件A已发生情况下的概率,简称为B的条件概率对于两个独立事件:

P(AB)=P(A)P(B)事件关系分析互斥P(AB)=0P(A+B)=P(A)+P(B)对立(两个互斥事件必有一个发生)P(A)+P(B)=1P(A)=1-P(B)独立P(AB)=P(A)P(B)

P(A/B)=P(A)不独立P(AB)=P(A)P(B/A)=P(B)P(A/B)1.随机变量

用以表示随机试验结果的一个数量(事先是未知的),由于它事先不能确定,是随机的,称为随机变量。水文现象中的随机变量,一般指某个水文特征值(如年径流量、年降雨量、洪峰流量等)。4.3随机变量及其分布参数

总体

在统计数学中,把某种随机变量所取数值的全体,称为总体。如年径流量的总体数是无穷的。统计学中几个概念:

样本

从总体中不带主观成分任意抽取的一部分,称为样本。样本所包含的项数,称为样本容量。如实测的水文资料是有限的,是一样本。

它是指随机试验结果的一个数量。在水文学中,常用大写字母表示,记作X,而随机变量的可能取的值记作x,即:

X=x1,X=x2,

X=xn

一般称之为随机系列或随机数列。

随机变量的表示:

离散型随机变量

随机变量仅取得区间内某些间断的离散值,则称为离散型随机变量。如洪峰次数,只能取0,1,2…,不能取相邻两数值之间的任何值。随机变量的分类:

连续型随机变量

随机变量可以取得一个有限区间内的任何数值,则称为连续型随机变量。如某河流断面的流量可以取0~

极限值之间的任何实数值。

对于离散型随机变量:

随机变量可以取得所有可能值中的任意一个值,但取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为:2.随机变量的概率分布

上式中P1,P2,…Pn

表示随机变量X

取值x1,x2,…xn

所对应的概率。

x1x2x3x4……xnXP

离散型随机变量概率分布图一般将这种对应关系称作随机变量的概率分布规律,简称为分布律。可以用以下的分布图形表示:

由于它的所有可能取值有无限个,而取个别值的概率为零,故无法研究个别值的概率。水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为:

它是x的函数,称作随机变量X的分布函数,记作F(x),即

F(x)=P(X

x)

表示随机变量X大于或等于值

x的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称累计频率曲线,简称频率曲线)。

对于连续型随机变量:

由图中可知,X=900,相应的P(X

x)=0.15,说明大于900mm降雨的可能性为15%;同理,大于500mm降雨的可能性为60%00.20.40.60.81.0500900年降雨量(mm)某站年雨量概率分布曲线

P(X

x)P(x+

x>X

x)=P(X

x)-P(X>x+

x)=F(x)-F(x+

x)由概率的加法定理:则,降雨量落在900和500mm的可能性为:60%-15%=45%

x

x+

x

PXP(X

x)P(X>x+

x)随机变量X落在(x

,x+

x)

的概率可用下式表示:

平均概率密度:

随机变量落在区间(x,

x+x)的概率与该区间长度的比值称作随机变量落在区间(x,

x+x)平均概率。概率密度函数:称f(x)为概率密度函数,简称密度函数。而密度函数的几何曲线称作密度曲线。当

x

0,取极限得:f(x)f(xi)F(x)xi密度曲线分布曲线xxdx

通过密度函数f(x)可求出随机变量X落在(x~x+dx)区间即dx上的概率=f(x)dx,称之为概率元素,即为图中的阴影面积;

通过密度函数f(x)可求出随机变量X概率分布函数F(x),其与密度函数f(x)有如下的数学关系:

F(x)

分布函数,反映随机变量X超过某个值x的概率。这两个函数能完整地描述随机变量的分布规律。

f(x)

密度函数,反映随机变量X落入dx

区间的平均概率;可见,随机变量的二个函数:

在实际问题中,随机变量的分布函数不易确定,或有时不一定需要用完整的形式来说明随机变量,而只要知道其主要特征就可以。随机变量的分布函数和密度函数中都包含一些参数(如均值、变差系数、偏态系数),而这些参数能反映随机变量分布的特点:如有的分布集中,有的分布分散,有的分布对称,有的分布非对称,等等。在统计学中用以表示随机变量这些分布特征的某些数值,称之为随机变量统计参数。3.随机变量统计参数

平均数/数学期望离散型随机变量的平均数是以概率为权重的加权平均值。a.反映位置特征参数

对于离散型随机变量:

式中,a、b

分别为随机变量X取值的上下限。

数学期望或平均数代表系列的平均情况,可以说明这一系列总水平的高低。

对于连续的随机变量:均值模比系数:

该参数用以反映随机变量分布离散程度(相对于随机变量分布中心即平均值的差距)的指标,通常有以下几种:b.反映离散特征参数

值愈大,分布愈分散;

值愈小,分布愈集中。

标准差(均方差)

1

2

2>

1f(x)x标准差对密度函数的影响均方差

放映系列中各变量值集中或离散的程度

5,10,15σ=4.081,10,19σ=7.35

变差系数(离差系数,离势系数〕CV1CV2CV2>CV1f(x)x变差系数对密度函数的影响CV值愈大,分布愈分散;CV

值愈小,分布愈集中。对于均值不同的二个系列,用均方差来比较其离散程度就不合适,则要采用均方差和均值的比来表示:变差系数(Cv)

5,10,15x=10σ=4.08Cv=0.48995,1000,1005x=1000σ=4.08Cv=0.0048f(x)x偏态系数对密度函数的影响Cs=0Cs>0Cs<0若不对称:CS

>0,称为正偏;CS

<0,称为负偏。c.反映对称特征的参数:

偏态系数(偏差系数)(四)偏态系数(Cs)反映系列在均值两边的对称程度。第四节水文频率曲线线型一、正态分布

许多随机变量如水文测量误差、抽样误差等一般服从正态分布。99.7%f(x)

a.单峰,只有一个众数;

b.对于平均数对称,Cs=0;

c.曲线二端趋于±∞,并以x

轴为渐近线;d.正态分布曲线的特点:把频率曲线画在普通方格纸上,因频率曲线的两端特别陡峭,有因为图幅的限制,对于特小频率或特大频率,尤其是特大频率的点子很难点在图上。有了频率格纸,就能很好地解决这个问题,所以频率计算时,一般都是把频率曲线点绘在频率格纸上,见下图概率密度函数表达式:

二.皮尔逊Ⅲ型分布式中,

)~

的伽玛函数,

,

,a

0:三个参数,它们与三个统计参数有一定的关系,其表达式为:可见,当以上三个参数确定后,P-III型密度函数亦完全确定。f(x)皮尔逊Ⅲ型概率密度曲线

a0M0(x)Me(x)xPxP-III型曲线的特点:一端有限另一端无限的不对称单峰正偏曲线在水文计算中,一般要求出指定概率P

所相应的随机变量的取值xP,即求出的xP满足下列等式:按上式计算相当复杂,故实用中,采用标准化变换:取标准变量(离均系数),即代入上式,

,

,a0以相应的和关系式表示,简化后得:0.031.302.473.384.160.20.021.292.403.233.940.10.001.282.333.093.720.0501010.10.01P(%)

pCsP-III型曲线离均系数

P值表注:详表见附表1,p266被积函数含有参数

,Cs

,而包含在

中,制成对应关系表:已知:

某地年平均降雨量

=1000mm,CV=0.5,CS=1.0,若年降雨量符合P-III型分布试求:P=1%

的年降雨量。

【算例】求解:由CS=1.0及P=1%,查附表1得

p=3.02引入模比系数:

另一种求解方法:由由此建立的对应数值关系[P-III型曲线模比系数KP

值表(见附表2)]

上例的解法:由CV=0.5,CS

=1.0=2

CV

,P=1%查附表2得:P-III型曲线模比系数KP值表(附表2,P266)

P(%)CV0.010.10.20.330.512510205075909599(一)

CS=CV0.051.191.161.151.141.131.121.111.091.071.041.000.970.940.920.89……………………………………1.5011.68.858.027.366.876.005.113.923.002.040.64-0.10-0.53-0.70-0.89(二)CS=1.5CV0.05(三)CS=2CV。。。。。。(三)CS=6CV例:某站年径流系列符合pⅢ型分布,已知该系列的R=650mm,σ=162.5mm,Cs=2Cv,试结合下表计算设计保证率p=90%的设计年径流量。解:Cv=σ/R=162.5/650=0.25,∴Cs=2Cv=0.5

查表得Ф=-1.22,代入

R90%=650×(1-0.25×1.22)=650×0.695=541.8mm

三、经验频率曲线

经验频率曲线由实测资料绘制而成,它是水文频率计算的基础,具有一定的实用性。设某水文要素(如年径流量)的实测系列共n项,按由大到小的次序排列为x1、x2、...、xm、...、xn。经验频率就是在系列中大于及等于样本xi的出现次数与样本容量之比值,即

当m=n时,p=100%,即样本的末项

xn是总体中的最小值,显然不符合实际,因为随着观测年数的增多,总会出现更小的数值。对上式进行修正,有:数学期望公式切哥达也夫公式海森公式水文上常用“重现期”来代替“频率”1.当研究暴雨或洪水时(一般p≤50%)例如,当某一洪水的频率为p=1%时,则T=100年,称此洪水为百年一遇洪水,表示大于等于这样的洪水平均100年会遇到一次。2.当研究枯水或年径流时(一般p≥50%)例如,对于p=90%的枯水流量,则T=10年,称此为十年一遇枯水流量,表示小于等于这样的流量平均10年会遇到一次。

水文随机变量的总体是无限的,这就需要在总体不知道的情况下,靠抽出的样本(观测的系列)去估计总体参数。第五节频率曲线参数估计估算方法有:

矩法;

适线法;

极大似然法;

权函数法;

………6.4.1.矩法a.样本的算术平均值:

已知样本的随机系列:x1,x2,x3,…xn,分别求样本的三个统计参数。b.样本标准差:式中,称作模比系数c.样本的离差系数:注意:以上三个公式求到的参数是根据样本求参得到,故与相应的总体的参数是不相等的。d.样本的偏态系数:根据统计学的证明可知:

以上求到的样本平均值为总体平均数的无偏估计量,然而CV,CS

则不是总体相应参数的无偏估计量,称为有偏估计量。故需要对参数CV

,CS

进行修正,使其变成无偏估计量。无偏估计量:由统计学的定义,若是未知数

的估计量,而且,则称为

的无偏估计量。

(当n较大时)求Cv

,Cs

的不偏估计量的修正计算式:用上述的无偏估算公式计算的很多同容量的样本的统计参值的均值,可望等于总体的同名参数。Cv的无偏估计量:Cs的无偏估计量:

模比系数由有限的样本资料算出的统计参数,去估计总体的统计参数总会出现一定的误差,称为抽样误差。二、权函数法

当样本容量较小时,用矩法估计的参数将产生误差,其中尤以Cs的计算误差最大,为了提高Cs的计算精度,马秀峰(1984)提出了权函数法。第六节水文频率计算适线法

适线法(或称配线法)是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数,得到一条理论频率曲线。

目估适线法、优化适线法一、目估适线法(1)将实测资料由大到小排列,计算各项的经验频率,在频率格纸上点绘经验点据(纵坐标为变量取值,横坐标为对应的经验频率)。(2)选定水文频率分布线型(一般选用PⅢ型)。(3)假定一组参数、Cv、Cs。为了使假定值大致接近实际,可用矩法或权函数法求出3个参数,作为3个参数第一次的假定值。当用矩法估计时,因Cs的抽样误差太大,一般不计算Cs,而是根据经验假定Cs为

Cv的某一倍数(如

Cs=2Cv)。(4)根据假定的、Cv、Cs,查附表1或附表2,计算xp值,以xp为纵坐标,p为横坐标,即可得到频率曲线。将此线画在绘有经验点据的图上,看与经验点据配合的情况,若不理想,则修改参数(主要调整Cv、Cs)再次进行计算。(5)最后根据频率曲线与经验点据的配合情况,从中选择一条与经验点据配合较好的曲线作为采用曲线。相应于该曲线的参数便看作是总体参数的估值。(6)求指定频率的水文变量设计值。现行水文频率计算方法~配线法(适线法)是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数,这是一种较好的参数估计方法,是我国估计洪水频率曲线统计参数的主要方法。

有关的概念介绍:1)经验频率及经验频率曲线:【例】已知某地年降雨量的观测资料(n=12),并由大到小排列,按计算频率。式中,P:大于或等于某一变量值x的经验频率;

m:x由大到小排列的序号,即在n次观测资料中出现大于或等于某一值x的次数。经验频率计算表:n=12其反映年降雨量(X

x)的经验频率P(X

x)和x的关系。随着样本容量n的增加,频率P就非常接近于概率,而该经验分布曲线就非常接近于总体的分布曲线。由此得到经验分布曲线:P(X

x)x注意:样本的每一项的经验频率用公式P=m/n进行计算,当m=n时,P=100%,说明样本的最末项为总体的最小值,这是不合理的。故必须进行修正,中国常采用下面的公式进行计算:经验频率的计算公式:这样,当m=n=12

时,该公式在水文计算中通常称为期望公式具体求解步骤:a

根据实测样本资料进行点绘[纵坐标为随机变量X=x,横坐标为对应的经验频率P(X

x)],经验频率计算公式为:b

假定一组参数

,可选用矩法的估值作为的初始值,一般不求CS,假定,K为比例系数,可选K=1.5,2,2.5,3...3)适线法(配线法)的步骤已知:经验频率分布,求:总体分布参数d根据选定的参数,由P-III型曲线离均系数值(附表1)或P-III型曲线模比系数KP值表(附表2),求出xP

~P

的频率曲线,将其绘在有经验点据的同一张图上,看它们的配合好坏,若不理想,则修改有关的参数(主要调整CV及K=CS/CV),重复以上的步骤,重新配线;c选定线型,对于水文的随机变量,一般选P-III型;e根据配合的情况,选出一配合最佳的频率曲线作为采用曲线,则相应的参数作为总体参数的估值。PxP

适线法的实质是通过样本经验分布来推求总体分布,适线法的关键在于“最佳配合”的判别。经验点据理论频率曲线为避免修改参数的盲目性,要了解参数对频率曲线形状的影响:a)值愈大,频率曲线位置愈高;

xPP

PxP

PxPc)CS值愈大,频率曲线上段变陡,下段变缓,中部向左偏。b)CV

值愈大,频率曲线愈陡;统计参数对频率曲线的影响:(1)均值对频率曲线的影响(2)Cv对频率曲线的影响(3)Cs对频率曲线的影响二、优化适线法

在一定的适线准则(即目标函数)下,求解与经验点据拟合最优的频率曲线的统计参数的方法。优化适线法准则:

离差平方和最小准则(OLS)(最小二乘法)离差绝对值和最小准则(ABS)相对离差平方和最小准则(WLS)离差平方和最小准则(OLS)(最小二乘法):使经验点据和同频率的频率曲线纵坐标之差的平方和达到最小。即使目标函数:取极小值,即:欲使S(Q)为最小,则要使第七节相关分析一、相关关系的概念目的:研究两个或多个随机变量之间的联系。例如:降雨与径流之间、上下游洪水之间、水位与流量之间等。水文计算中的应用:资料的展延、水文预报等。必须注意的问题:必须先分析变量在成因上是否有联系,不能在两个毫不相关的变量之间硬凑出相关关系。二相关关系的概念

水文现象中许多变量不是孤立的,相互之间存在联系,则分析研究二个或二个以上随机变量之间的关系,称作相关关系。

如果两个变量x,y,其中变量x的每一个值,变量y都有一个或多个确定值与之对应,而且x,y成函数关系,即x,y的关系点完全落在直线或曲线上,则称这二个变量是完全相关的。完全相关yx完全相关(函数关系〕直线关系曲线关系二个随机变量之间的关系有以下三种情况:零相关YXb.零相关(没有关系)如果两个变量x,y之间互不影响互不相关,则称这二个变量没有关系或零相关。即x,y的关系点毫无规律,十分分散。yx如果两个变量x,y之间关系介于以上二者之间,x,y的关系点虽有点分散,但有明显的趋势,数学上可以用一定的表达式进行拟合。则称这二个变量关系为:

统计相关或相关关系。统计相关c.统计相关(相关关系〕

a.确定二个变量间相关关系的数学表达式,以相关方程或回归方程表示,用以由已知变量推求未知变量;

b.判断二个变量间相关关系的密切程度,用一称为相关系数的参数来表示。水文计算中的相关分析的主要任务:水文计算中,一般处理两个变量间的相关关系,称简相关,有时也要处理三个或三个以上变量关系,称为复相关。简相关可分为直线相关和曲线相关。曲线相关直线相关6.5.2

简相关

图解法:根据实测值,将对应点绘于方格纸上,如果点群分布平均趋势为一直线,则可以直线来近似代表这种相关关系。通过点群中心目估绘出一条直线,然后在图上量出直线的斜率a和截距b,则直线方程:

y=a+bx即为所求的相关方程。该方法简便实用,而且一般情况下精度可以保证。1)回归方程及其误差分析

相关分析法:若相关点分布较散,目估定线有一定任意性,为保证一定精确性,最好采用分析法来确定相关线的方程。设该直线方程形式为:

y=a+bx式中,x:自变量

y

:倚变量

a,b

:分别为一常数,待定。则相关点与直线在纵轴方向必然存在离差。配合曲线与观测点在纵轴方向的离差为:xiy要求配合曲线与所有的观测点能“最佳”拟合,即满足所有的观测点的离差

y

的平方和为最小,即:分别对a,b

求一阶偏导数,并令其为零:求解上列两联立方程式,可得式中,:分别为x,y

系列的均方差/标准差;

:分别为x,y系列的平均值;

:x,y

系列的变差系数(按不偏估计公式计算):

:相关系数;

Kxi

,Kyi:分别为xi,yi系列的模比系数:为回归线的斜率,称y

为x

倚的回归系数(8-37)式即为y倚x的回归方程,其曲线称为回归线/相关线(仅是对点据拟合最佳一条线),亦可表示为:将

代入y=a+bx中得:注意:由于x,y并非确定性关系,对于x=x0,无法知道其相应的真正值y0

,通过回归方程求到:仅仅是真正值y0的一个估计值。故其与真正值y0存在偏差。根据统计学的研究,由于随机因素的影响,y0在估计值上下波动呈正态分布,其均方误差可用公式表示。(三)相关分析的误差1.回归线的误差

y倚x的回归线的均方误:式中,Sy

:y倚x回归线的均方误;

yi

:观测点的纵坐标值;y:由回归方程求到的纵坐标值;n:观测项的数目

y倚x回归线的均方误估算公式:如前所述,可以用均方误进行误差分析,即对于任一固定的x=x0值,若以作为y的估值,其误差不超过Sy的可能性为68.3%;其误差不超过3Sy的可能性为99.7%。另外,可以证明回归线的均方误与系列标准差及相关系数

有以下关系:式中,为y系列的标准差(无偏估计量)根据均方误公式,也可以用

2来判断相关程度:

2=1,Sy=0,则y=yi

,属函数关系;

2=0,Sy=

y

,误差最大,属零相关;

若0<

2<1,为统计相关,

2

1,x,y关系愈密切。可知,均方误Sy值愈大,则回归方程的误差愈大。相关系数的均方误可用下式来估算:式中,

为相关系数;

n

为观测项数。相关系数是根据有限的实测资料(样本)计算出来的,故相关系数也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论