ch1气象的整理_第1页
ch1气象的整理_第2页
ch1气象的整理_第3页
ch1气象的整理_第4页
ch1气象的整理_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章第一章 气候资料的整理气候资料的整理1.1 气候资料的数学表示气候资料的数学表示 气候资料指地面气象观测站及其他气象要素观气候资料指地面气象观测站及其他气象要素观测平台长期观测记录的集合,即气象要素的长期测平台长期观测记录的集合,即气象要素的长期记录序列,比如气温、降水量、气压的长期观测记录序列,比如气温、降水量、气压的长期观测值,它们可以是月平均值、年平均值,也可以是值,它们可以是月平均值、年平均值,也可以是日平均值等。日平均值等。 气候资料既具备反映某地气候状态的物理属性,气候资料既具备反映某地气候状态的物理属性,又具备随机变量的属性。又具备随机变量的属性。1、单个变量的数学表示形式

2、、单个变量的数学表示形式把单个气象要素记为把单个气象要素记为x;取它某一时间段的资;取它某一时间段的资料记录作为样本,包含料记录作为样本,包含n个数据,记为:个数据,记为: x1,x2,x n, n 称为样本容量。称为样本容量。或向量形式:或向量形式: 若取要素的年(月)资料,这些数据就是一若取要素的年(月)资料,这些数据就是一串按时间排序的数列,也可记为:串按时间排序的数列,也可记为: (t=1,2,n)(xnxxxx321 )(xtx 对于气温、气压及降水量等气象要素,观测对于气温、气压及降水量等气象要素,观测值变化在正负无穷大之间,这种类型要素可值变化在正负无穷大之间,这种类型要素可看成

3、为连续型随机变量。至于有一些气象要看成为连续型随机变量。至于有一些气象要素,例如冰雹、晕、雾等天气现象,气象资素,例如冰雹、晕、雾等天气现象,气象资料中仅记录此现象料中仅记录此现象“有有”或或“无无”,这类无,这类无法用连续型变量表示的变量,一般用法用连续型变量表示的变量,一般用“1”或或“0”二值数字化表征;再如云量,用数字二值数字化表征;再如云量,用数字110来分级表示时,也属于这一类型,这类变来分级表示时,也属于这一类型,这类变量可看成离散型随机变量量可看成离散型随机变量。 2、多个变量的表示、多个变量的表示 多个变量在某时段的观测数据看作多维多个变量在某时段的观测数据看作多维随机变量样

4、本,容量为随机变量样本,容量为n,每个变量的样本,每个变量的样本可看成为一个可看成为一个n维空间的向量,对维空间的向量,对p个变量个变量样本可表示为:样本可表示为: )(x)(x)(xpnpppnnxxxxxxxxx21222212112111如:为处理方便,可用一个矩阵来表示,为处理方便,可用一个矩阵来表示,记记p个要素的个要素的pn个资料样本为个资料样本为 pnppnnxxxxxxxxx212222111211X npnnppxxxxxxxxx212222111211XX的转置矩阵的转置矩阵X1X2X3(x1i, x2i, x3i) (x1j,x2j,x3j)P维空间的维空间的n个资料向量

5、(每个向量代表一组样品),或个资料向量(每个向量代表一组样品),或n维维空间的空间的p个向量(每个向量代表一个变量)个向量(每个向量代表一个变量)站站名名19961997199819992000南南京京1213.5902.81239.01214.51029.6杭杭州州1481.71435.21538.41824.01198.3合合肥肥1157.8697.21123.0986.0901.9宜宜昌昌1420.11056.41259.7962.11327.3南南昌昌1352.81725.42344.22332.11436.0表表1.1南京等五站南京等五站1996年至年至2000年的降水量资料年的降水

6、量资料 例:例: 014361233222344417258135231327196271259410561142099010986011232697811573119801824415382143571481610295121401239890251213.X每列看作每列看作5维空间的矢量,可表示降水场的分布维空间的矢量,可表示降水场的分布 反映气候特征的基本指标反映气候特征的基本指标1、频率、频率 设对某大气现象在同样条件下进行了设对某大气现象在同样条件下进行了n次重次重复观测,其中事件复观测,其中事件A出现了出现了m次,则比值次,则比值 称为事件称为事件A在在n次试验中出现的频率,而次试

7、验中出现的频率,而m称称为频数。为频数。1.2气候变量的基本统计特征量气候变量的基本统计特征量nmAP)(* 不同年数资料统计得到的上海一月逐日平均气温正距平事件的频率不同年数资料统计得到的上海一月逐日平均气温正距平事件的频率年数年数5 5101020203030404050506060707080809090100100频率频率0.3350.3350.3940.3940.4290.4290.4520.4520.4370.4370.4890.4890.4850.4850.4900.4900.5070.5070.5030.5030.5010.501 当观测次数无限增大时,频率将非常接近于概率。于

8、是,当观测次数无限增大时,频率将非常接近于概率。于是,就可以用大量观测中事件出现的频率作为概率的近似值,就可以用大量观测中事件出现的频率作为概率的近似值,这就是概率的统计定义。这就是概率的统计定义。2、频率分布、频率分布nxxx,21Xn*nxxx 21设设是气候变量是气候变量 的的个观测值。个观测值。将它们重新按由小到大顺序排列为:将它们重新按由小到大顺序排列为:)()(*xXPxFn x若以若以表示上述观测值中气候变量表示上述观测值中气候变量X X的值小于数的值小于数的频率,则函数的频率,则函数: *)(nmmnxxxxnmxxF当当当当当当1xx011称为观测值的频率分布函数,由于观测值

9、是一组样本,所以也称为观测值的频率分布函数,由于观测值是一组样本,所以也称样本分布函数,习惯上一般把气象要素变量的总体概率分布称样本分布函数,习惯上一般把气象要素变量的总体概率分布称为理论分布,因此又把由观测试验获得的称为经验分布函数。称为理论分布,因此又把由观测试验获得的称为经验分布函数。图图1.1 上海年降水量频率分布曲线上海年降水量频率分布曲线3、平均值、平均值(位置特征)位置特征) 平均值是一个重要的气候统计量,可以作平均值是一个重要的气候统计量,可以作为要素总体数学期望的估计;是描述资料数为要素总体数学期望的估计;是描述资料数字平均状态的量,对单个变量:字平均状态的量,对单个变量:

10、niixnx11对多个变量,表示为均值向量对多个变量,表示为均值向量: 111121212222111211pnppnnxxxxxxxxxnpxxxx4、方差与标准差(离散特征)、方差与标准差(离散特征)将将 称为第称为第i点资料的距平,反映该资料偏离平点资料的距平,反映该资料偏离平均值的程度。均值的程度。距平向量为距平向量为 )( xxxidi)()(dnddndxxxxxxxxxx2121 称为中心化变量称为中心化变量,因为对任意变量因为对任意变量0d x距平资料阵距平资料阵 dpndpdpndddnddddxxxxxxxxx212222111211X ppnppppnnxxxxxxxxx

11、xxxxxxxxx212222222111112111表表1.2 1.2 南京等五站南京等五站19961996年至年至20002000年时段的降水量距平值资料年时段的降水量距平值资料站名站名19961997199819992000南京(南京(xd1)93.6 -217.1 119.1 94.6 -90.3 杭州(杭州(xd2)-13.8 -60.3 42.9 328.5 -297.2 合肥(合肥(xd3)184.6 -276.0 149.8 12.8 -71.3 宜昌(宜昌(xd4)215.0 -148.7 54.6 -243.0 122.2 南昌(南昌(xd5)-485.3 -112.7 5

12、06.1 494.0 -402.1 方差是衡量资料数据围绕其平均值的变化平方差是衡量资料数据围绕其平均值的变化平均幅度的指标:均幅度的指标: (距平平方的平均值)(距平平方的平均值) 向量形式向量形式: niixxxnS1221)( dddndddnddxxxxxxxxxns 212121)(例如从表例如从表1.2中得南京气象站的降水距平序列中得南京气象站的降水距平序列(93.6,-217.1,119.1,94.6,-90.3),),样本方差可用下式计算样本方差可用下式计算 29174363906941119121769339069411191217693512. s与变量有相同量纲的离散指标

13、为标准差与变量有相同量纲的离散指标为标准差: 标准化变量:标准化变量: niixxxns121)(xizisxxx 资料的中心化和标准化,资料的中心化和标准化,1、E(xd)=02、E(xz) =0,D(xz)=15、协方差与相关系数(两变量关系)、协方差与相关系数(两变量关系)例例 :X1与与x2的距平符号相同率高,有相同的变化趋势,的距平符号相同率高,有相同的变化趋势,x2与与x3的距平符号相反率高,有相反的变化趋势;的距平符号相反率高,有相反的变化趋势;两组变量均有良好的相关关系。两组变量均有良好的相关关系。 对变量对变量x k和和xl,则样本协方差为表示它们之间关系,则样本协方差为表示

14、它们之间关系程度的统计量,定义为:程度的统计量,定义为: )(llinikkiklxxxxns 11两变量关系越密切,其两变量关系越密切,其 协方差的绝协方差的绝对值越大,对值越大,实质是距平符号重合率的实质是距平符号重合率的条件概率是否显著。条件概率是否显著。dldkklnsxx 1)(xkknkkkkdkxxxxxx 21)(x lnllllldlxxxxxx21标准化处理的协方差称为相关系数标准化处理的协方差称为相关系数: nizlzklllikkkilkklklxxnsxxsxxnsssr111)(可以证明,可以证明,-1r1对对p维变量,可用协方差矩阵维变量,可用协方差矩阵表示相关与

15、离散特征:表示相关与离散特征: ppnnnppppppnppppnnddxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxnXXnS22112222112122111121222222211111211111 ppppppsssssssssS212222111211年份年份气温气温() (x1) 云量云量(x2)降水量降水量(mm) (x3)风速风速(m/s) (X4)1951151619073411952147719320411953159709623411954151691559534195515761712237195614666138322819571466911

16、022261958151651028926195915662864426196015662903225表表1.3 1.3 南京气象站南京气象站19511951年至年至19601960年的气象要素观测值年的气象要素观测值例例1.2 由表由表1.3所列资料多要素资料计算协方差矩阵和相关系数矩阵所列资料多要素资料计算协方差矩阵和相关系数矩阵解:解: 由表由表1.3所列南京气象站所列南京气象站4个要素个要素19511960年的观测值资料,分别统计年的观测值资料,分别统计得到各要素的平均值和均方差列入表得到各要素的平均值和均方差列入表1.4, 计算距平值并将距平序列资料代计算距平值并将距平序列资料代入计

17、算式得到协方差矩阵:入计算式得到协方差矩阵:1x2x3x4xxxs15.26.561035.523.250.45380.3747 241.61350.6652表表1.4 442501143105900046001143109583773958440065705900395844140400690004600006570690020600750221323604085052103540508502212848010750850850321325210322128360540460405010101.S 从协方差矩阵看,气温(从协方差矩阵看,气温(x1)与云量()与云量(x2)、降水量)、降水量(

18、x3)的协的协方差方差s12、s13均为负值,说明气温与所列这均为负值,说明气温与所列这2个要素均呈反相关,个要素均呈反相关,但由于但由于x3的量级比其他变量要大的量级比其他变量要大2个量级以上,个量级以上, s13数量上要比数量上要比s12大大800多倍,但这并不表示多倍,但这并不表示x1与与x3的相关性要比的相关性要比x1与与x2的相的相关性强关性强800倍,也就是说,不同量级的变量之间的协方差的相关倍,也就是说,不同量级的变量之间的协方差的相关程度不具备可比性。程度不具备可比性。 将资料进行标准化处理或利用除以标准差方式对协方差矩阵进将资料进行标准化处理或利用除以标准差方式对协方差矩阵进

19、行处理得到相关(系数)矩阵:行处理得到相关(系数)矩阵: 00001193602367015240193600000149040519802367049040000014057015240519804057000001.R 相关矩阵的元素为标准化的系数,其绝对值的大小关系相关矩阵的元素为标准化的系数,其绝对值的大小关系可反映了变量间相关程度的大小,这里气温与降水的相可反映了变量间相关程度的大小,这里气温与降水的相关系数关系数r13为为-0.5198,其绝对值略大于气温与云量的相关,其绝对值略大于气温与云量的相关系数系数r12(-0.4057),即统计结果表明降水与气温的相关),即统计结果表明降

20、水与气温的相关略好于云量与气温的相关。略好于云量与气温的相关。1.3 统计推断与应用统计推断与应用 出于应用的目的,统计量被用来描述气候出于应用的目的,统计量被用来描述气候的总体状况,即估计气候变量的总体参数。的总体状况,即估计气候变量的总体参数。从理论上说,样本容量无穷大,统计量无限从理论上说,样本容量无穷大,统计量无限趋近被估计的参数,如平均值趋近数学期望。趋近被估计的参数,如平均值趋近数学期望。统计量来自总体,包含着总体特征的重要信统计量来自总体,包含着总体特征的重要信息,但实际观测的次数总是有限的,由于观息,但实际观测的次数总是有限的,由于观测资料的有限性和随机性,统计量不等同于测资料

21、的有限性和随机性,统计量不等同于总体参数,统计量在多大程度上反映总体特总体参数,统计量在多大程度上反映总体特征参数,需要检验和判断,常称为显著性检征参数,需要检验和判断,常称为显著性检验。验。 气候统计推断就是根据观测的样本资气候统计推断就是根据观测的样本资料对气候变量总体的数字特征、分布函料对气候变量总体的数字特征、分布函数等进行估计、检验,进而作出正确的数等进行估计、检验,进而作出正确的推断。包含推断。包含参数估计参数估计与与假设检验假设检验,它在,它在气候分析与预报中应用非常广泛,与各气候分析与预报中应用非常广泛,与各种具体的研究对象结合起来能解决许多种具体的研究对象结合起来能解决许多实

22、践中的具体问题,如某地某时段内降实践中的具体问题,如某地某时段内降水是否会超过或低于某值,某预报方法水是否会超过或低于某值,某预报方法是否有效。是否有效。一、参数估计一、参数估计 从气候的角度,我们分析描述概率特征的对象是从气候的角度,我们分析描述概率特征的对象是气候要素的全体,即总体。对于总体而言,它的概气候要素的全体,即总体。对于总体而言,它的概率特征值如平均值率特征值如平均值(数学期望数学期望),均方差等应该是常,均方差等应该是常数,数理统计学上称这些数,数理统计学上称这些不属于随机变量的常数值不属于随机变量的常数值为参数为参数。由于我们一般无法对总体中每一个个体的由于我们一般无法对总体

23、中每一个个体的性质加以测定,尤其是气候要素的总体还包含有未性质加以测定,尤其是气候要素的总体还包含有未来的观测值,即一般总体的参数是无法测定的,通来的观测值,即一般总体的参数是无法测定的,通常只能根据总体中的有限样本资料去估计,推测总常只能根据总体中的有限样本资料去估计,推测总体的这些参数的可能取值。体的这些参数的可能取值。 用样本资料估计总体参数的方法有两类,一类用样本资料估计总体参数的方法有两类,一类是是点估计点估计,就是估计某一参数值等于多少,又,就是估计某一参数值等于多少,又称定值估计。点估计的一般性提法是:设已知称定值估计。点估计的一般性提法是:设已知随机变量随机变量X的分布函数为的

24、分布函数为 ,但参数,但参数是未是未知的,设知的,设 是是X的一个样本,的一个样本, 是相应的一个样本值,点估计就是构造适当的是相应的一个样本值,点估计就是构造适当的统计量统计量 ,用它的观测值,用它的观测值 来估计未知参数来估计未知参数, 称称 为参数的估为参数的估计量,计量, 为为的估计值;另一类是的估计值;另一类是区区间估计间估计,就是估计在某一范围内取值的可能性,就是估计在某一范围内取值的可能性或者说估计在一定的概率下它取值的范围。或者说估计在一定的概率下它取值的范围。);( xFnXXX,21nxxx,21),(nXXX21 ),(nxxx21 ),(nXXX21 ),(nxxx21

25、 估计量的评价估计量的评价1一致性一致性 所谓一致性,就是当观测资料愈多时,用这种估计量估所谓一致性,就是当观测资料愈多时,用这种估计量估计的精度愈高。用概率统计的语言来说,既是要求估计量计的精度愈高。用概率统计的语言来说,既是要求估计量依依概率收敛概率收敛于被估计的总体真值。即对任意,若于被估计的总体真值。即对任意,若 则则 称为称为 的一致性估计量的一致性估计量。0 )(lim nnPn 2无偏性无偏性 误差分析误差分析:易证第三项为零,于是有易证第三项为零,于是有第一项是第一项是 的方差,反映估计量的客观随机波动,而第二项为的方差,反映估计量的客观随机波动,而第二项为 , 它表示估计量的

26、数学期望与被估计参数的真它表示估计量的数学期望与被估计参数的真值的偏差,我们称为估计量的偏,如果偏为值的偏差,我们称为估计量的偏,如果偏为0,即,即 ,则称此估计量为则称此估计量为 的无偏估计量的无偏估计量,即若估计量的数学期望等即若估计量的数学期望等于被估计的参数,则该估计量为无偏估计量。于被估计的参数,则该估计量为无偏估计量。222)()()( nnnnEEEE)()()()( nnnnnnEEEEEE222222)()( nnnEEEn 22)( nEb )(nE22222222221212112122111212111 nnSEnnnnXnEnnXnEXnEnnXXXXEnXXEnXX

27、nESEniniiniiniinii)()()()()()()()()()()(是总体方差的无偏估计量。因为是总体方差的无偏估计量。因为 niiXXnS12211)(*2222122111111 nnnnSEnnnnSEXXnESEnii)()()()(*3有效性有效性 设设 及及 是是 的两个无偏估计量,若的两个无偏估计量,若 ,则称则称 比比 更有效更有效。 n n )()(nnDD n n 二、假设检验二、假设检验 我们已经初步了解了用观测资料估计气象我们已经初步了解了用观测资料估计气象要素概率分布特征值的理论和方法。但是,要素概率分布特征值的理论和方法。但是,在气候统计实践中遇到的许多

28、问题还不是估在气候统计实践中遇到的许多问题还不是估计理论所能解决的。例如,在分析气候变化计理论所能解决的。例如,在分析气候变化时,某站由前时,某站由前25年实测资料计算得的累年平年实测资料计算得的累年平均气温为均气温为251;再由后;再由后10年实测资料计年实测资料计算得的累年平均气温为算得的累年平均气温为24.8,要问该站气,要问该站气温在后温在后10年是否存在显著变化?即是否仅存年是否存在显著变化?即是否仅存由随机波动造成的变化。由随机波动造成的变化。 (一)基本概念(一)基本概念 对一个样本统计结论,它是确实反映对一个样本统计结论,它是确实反映了总体特征还是由于抽样随机性的结果?了总体特

29、征还是由于抽样随机性的结果? 研究统计问题不仅要找到适当的估计量,研究统计问题不仅要找到适当的估计量,还需要对总体特征值作出某种假设,然还需要对总体特征值作出某种假设,然后利用适当的方法检验这种假设的合理后利用适当的方法检验这种假设的合理性。性。1、 假设检验原理的基本思想:假设检验原理的基本思想:认为一次认为一次抽样中发生了的事件,应该是大概率事抽样中发生了的事件,应该是大概率事件,小概率事件在一次抽样中是不应该件,小概率事件在一次抽样中是不应该发生的。发生的。 2、 假设检验的基本步骤假设检验的基本步骤v根据研究目的,提出假设根据研究目的,提出假设H0(如(如m=5),),称为原假设称为原

30、假设v构造一个统计量构造一个统计量T,在,在H0成立的条件下,该成立的条件下,该统计量的抽样分布已知。统计量的抽样分布已知。v给定一个临界概率给定一个临界概率(0.01、0.05、0.1等)等)(显著性水平、信度),确定给出统计量(显著性水平、信度),确定给出统计量T 出现概率为小概率的区间。出现概率为小概率的区间。 如如P(t1tt2)=v由实际样本统计得到统计量由实际样本统计得到统计量T的实测值的实测值Tn,如果如果Tn出现为小概率,则它在一次观测中出现为小概率,则它在一次观测中不该出现,则认为不该出现,则认为H0不合理,而拒绝原假不合理,而拒绝原假设,否则设,否则H0是合理的。是合理的。

31、(二)平均值的假设检验(二)平均值的假设检验1、总体平均值(数学期望)的定值检验、总体平均值(数学期望)的定值检验 所谓定值检验就是检验随机变量的总体参数等于某个已所谓定值检验就是检验随机变量的总体参数等于某个已知值的假设检验。知值的假设检验。 根据研究的问题,提出原假设根据研究的问题,提出原假设 : = 设总体设总体X服从服从正态分布正态分布,总体均方差是未知的,使用样本,总体均方差是未知的,使用样本均方差均方差S近似估计,根据数理统计,定义统计量:近似估计,根据数理统计,定义统计量: 0H 0 1 nSXnSXt/* 可以证明,统计量可以证明,统计量t为服从自由度为为服从自由度为n-1的的

32、t分布变量。分布变量。例例1.3 南京南京1月平均气温从月平均气温从19051980年计有年计有71年资料(其中年资料(其中有间断)。求得有间断)。求得71年平均气温为年平均气温为2.3。假定总体方差为。假定总体方差为2.28(由样本方差估计),给定显著性水平(由样本方差估计),给定显著性水平=0.05,试用,试用t-检验检验法检验南京法检验南京1月平均气温的总体平均与月平均气温的总体平均与2.0有无显著差异。有无显著差异。解:根据研究目的,提出原假设解:根据研究目的,提出原假设 H0: =2.0 则则)(/*11 ntnSXnSXt 6621705110232102. nsxt实实查查t分布

33、表,在分布表,在=0.05,自由度为,自由度为n-1=70时,得时,得t=1.997。因为因为 ,位于接受区。,位于接受区。 所以原假设所以原假设H0: =2.0成立,南京成立,南京1月平均气温总体平均月平均气温总体平均与与2.0无显著差异,其信度为无显著差异,其信度为0.05 tt实(三)、方差的显著性检验(三)、方差的显著性检验 检验两个不同时期气候变率是否显著不同,设检验两个不同时期气候变率是否显著不同,设两时段分别取得样本数为两时段分别取得样本数为n1、n2,分别统计得,分别统计得 在总体为正态分布且两时段方差相等的假设下在总体为正态分布且两时段方差相等的假设下 , 统计量统计量 21

34、222222112111211111niiniixxnsxxns)(,)(* 210:H)/()/(*1111222121222221112221 nnsnnsnnssF 服从自由度服从自由度 的的F分布分布112211 nn , 例例, 假定某站一月降水量为正态分布,根据假定某站一月降水量为正态分布,根据1950年以前年以前10年资料,计算得均方差年资料,计算得均方差 毫米,根据毫米,根据1951年以后年以后20年资料,计算得均年资料,计算得均方差方差 毫米,问前后期一月降水的年际毫米,问前后期一月降水的年际变率有无显著差异变率有无显著差异?解:以方差为年际变化的指标,作原假设解:以方差为年

35、际变化的指标,作原假设 取取=0.05,由第一自由度,由第一自由度10-1=9,第二自由,第二自由度度20-1=19,查表得,查表得 =2.42;再以第一自;再以第一自由度为由度为19,第二自由度为,第二自由度为9,查表得,查表得 =2.95,于是,于是 =0.34。 0401.* s0352.* s 22210:HFf 2.9511 fF将数据代入得将数据代入得因为因为 ,故接受假设,即认为两时,故接受假设,即认为两时期一月降水的年际变率无显著差异。期一月降水的年际变率无显著差异。3103504022. 实实F FFF 实实(四)、相关系数的检验(四)、相关系数的检验 对于总体不相关的两个随

36、机变量,其样本相关对于总体不相关的两个随机变量,其样本相关系数系数r不一定为不一定为0,需检验相关的显著性,样本相,需检验相关的显著性,样本相关系数概率密度较为复杂,但可以证明:在关系数概率密度较为复杂,但可以证明:在 遵从自由度为遵从自由度为n-2的的t分布分布20120rrntH 时时,统统计计量量 : 例,根据(例,根据(,)的)的5对观测资料,求得相关系数对观测资料,求得相关系数r=-0.75 ,取信度取信度=0.01,试判断两变量总体是否相关?,试判断两变量总体是否相关? 解:解:H0: =0 得得 由由 不能拒绝原假设。不能拒绝原假设。 可见当观测资料很少时,即使样本相关系数比较可

37、见当观测资料很少时,即使样本相关系数比较大,也不能肯定总体一定相关。大,也不能肯定总体一定相关。971750175031222.( rrnt0100108415325.,ttt (五)、分布的适度检验(五)、分布的适度检验 设随机变量设随机变量X的分布未知,根据的分布未知,根据n次观测所得样次观测所得样本来检验,本来检验, H0:X服从某一已知分布服从某一已知分布G0(x,). 把把X的取值范围划分为的取值范围划分为L个区间(一般为个区间(一般为714个),统计每个区间内的样本个数(组频数)个),统计每个区间内的样本个数(组频数)ni,区间的划分以每个区间样本数不少于区间的划分以每个区间样本数

38、不少于5为宜;设为宜;设某区间为(某区间为(xi, xi+1),若若X服从服从G0分布,则样本落分布,则样本落在该区间的概率为在该区间的概率为G0(xi+1)-G0(xi)=Pi,理论频,理论频数则应为数则应为nPi,则,则LiiiinPnPn122)(是个统计量,皮尔森证明,当是个统计量,皮尔森证明,当n 趋于趋于无穷大时,无论无穷大时,无论X的原始分布为何种的原始分布为何种分布,该统计量为自由度为分布,该统计量为自由度为=L-1的的 分布。如果它的实际值超出信度分布。如果它的实际值超出信度界限值,表明理论频数与实际相差太界限值,表明理论频数与实际相差太大,则原假设不可靠。大,则原假设不可靠

39、。若若G0(x)中包中包含含k个需由样本估计的参数,则自由个需由样本估计的参数,则自由度为度为L-k-1。 2 例例 .上海年降水量的上海年降水量的100年观测资料的平均值年观测资料的平均值为为1146.5mm,标准差为,标准差为203.0,设服从正态分,设服从正态分布,求降水量在布,求降水量在11001250区间的理论频次。区间的理论频次。40905910122910122910203511461100695105099020351146125011.).()(,.)(,. PZPZZPZiiiiPi=0.6951-0.4090=0.2861 , nPi=28.6 而统计所得的在此区间的实际

40、年数是而统计所得的在此区间的实际年数是30年。年。两种可能错误的概念:1)第一类错误:以真为假;发生概率第一类错误:以真为假;发生概率。2)第二类错误:以假为真;)第二类错误:以假为真;v通过减小信度通过减小信度,可减少第一类错误,可减少第一类错误的发生,但同时有可能使第二类错误的发生,但同时有可能使第二类错误发生的概率增加。分析可知,第二类发生的概率增加。分析可知,第二类错误的概率与信度错误的概率与信度、总体方差、假、总体方差、假设与真值的差异大小、样本容量等有设与真值的差异大小、样本容量等有关,难以估计。关,难以估计。v同时减小两类错误的途径是增加样本同时减小两类错误的途径是增加样本容量。

41、容量。1.4 气候资料的质量审查气候资料的质量审查 在统计各种气候指标、进行气候分析之前,在统计各种气候指标、进行气候分析之前,对气候资料的质量应该进行审查。对气候资料的质量应该进行审查。 一、气候资料的误差一、气候资料的误差 从统计意义上讲,各种气象要素观测值都从统计意义上讲,各种气象要素观测值都可以看作随机变量。一地的气候状态可以用各可以看作随机变量。一地的气候状态可以用各种要素的统计特征值来表示,如算术平均值、种要素的统计特征值来表示,如算术平均值、均方差等实质上是要素总体数字特征的样本值。均方差等实质上是要素总体数字特征的样本值。气候指标是否反映真实的气候状态,取决于气候指标是否反映真

42、实的气候状态,取决于:数字特征样本值对总体值的抽样误差数字特征样本值对总体值的抽样误差如样本平均值的抽样误差如样本平均值的抽样误差 )()()()(xDnmxEnmnxnEmxE222221111nxDxDnxnDxD)()()()( 211一般的,样本容量越大,特征值的抽样误差越小。一般的,样本容量越大,特征值的抽样误差越小。 2)要素观测值对真值的观测误差)要素观测值对真值的观测误差 系统误差;由于仪器不良、观测方法不完善;系统误差;由于仪器不良、观测方法不完善;在各次观测中的大小和符号保持不变。在各次观测中的大小和符号保持不变。 偶然误差(过失误差);由于责任心不强,偶然误差(过失误差);由于责任心不强,操作不慎等,如读错数、计算错误。操作不慎等,如读错数、计算错误。 随机误差;随机因素,如四舍五入的小数位随机误差;随机因素,如四舍五入的小数位数的取舍。随机误差各次观测值是相互独立数的取舍。随机误差各次观测值是相互独

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论