第二章 大气统计基础ppt_第1页
第二章 大气统计基础ppt_第2页
第二章 大气统计基础ppt_第3页
第二章 大气统计基础ppt_第4页
第二章 大气统计基础ppt_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大气统计方法大气统计方法第二章第二章 大气统计基础大气统计基础气象资料气象资料实测实测资料资料模式模式资料资料天气和气天气和气候分析的候分析的根本根本第一步第一步分析数据的分析数据的基本特性基本特性进一步进一步气象资料的整理 用统计方法作气象要素的分析和预报是依据大量的气象观测资料来进行的。从概率论或统计学的观点来看,某个气象要素及其变化可看成为一个变量(或随机变量随机变量),它的全体在概率论中称为总体总体,而把收集到的该要素的资料称为样本样本。 利用统计学方法对样本进行分析来估计和推测总体的规律性总体的规律性就是本课程主要介绍的内容。气象中单个或多个要素可看成为统计学中单个或多个变量。本章将

2、介绍对它们的资料(样本)进行初步整理的方法。 我们要研究的对象是气象要素,比如气温、降水量、气压,它们可以是月平均值、年平均值、也可以是日平均值,这要看我们所要研究的气象问题而定。l 对于长期预报或短期气候预测,经常分析的是气象要素的月或年资料。l 对于短期预报则常使用日资料,要作出预报就需要先研究它们随时间变化的规律性。单个变量 我们把单个气象要素记为,取它某一时间段的资料记录作为样本,样本中包含个数据,记为 称为样本容量,每一个资料称为所抽取的一个样品。, 如果取某要素月平均值的年资料,那么这些数据就是一串随时间变化的序列,我们习惯把它称为时间序列,并记为,其中 , 这种表示法在时间序列分

3、析中常用。 对于气温、气压及降水量等气象要素,观测值变化在正负无穷大之间,这种类型要素可看成为连续型随机变量。至于有一些气象要素,例如冰雹、晕、华等天气现象,气象资料中仅记录此现象“有”或“无”,这类无法用连续型变量表示的变量,一随用“”或“”二值数字化表征,这类变量可看成为离散型随机变量。至于云量,用数字来分级表示的,也属于这一类型。 当然,变量类型可以互相转化,例如对连续型变量如气温,规定一个临界值。凡记为“”,的记为“”,那么这时的气温就处理成二值变量,这种做法在模式输出预报技术中经常被采用来作短期天气预报中的定性预报。多个变量 气象要素观测是三维空间的,有各种等压面上的要素资料,既有空

4、间,又有时间变化。这时就可以把多个要素在某一段时间收集的资料看作为多个变量的样本,每个变量的样本可看成为一个向量。个变量次观测的样本可看成为维空间中个向量,每个向量可用行向量(矩阵)表示统计量的数字特征统计量的数字特征p 平均值平均值p 距平,标准差,方差距平,标准差,方差p 协方差,相关系数协方差,相关系数p 峰度系数,偏度系数峰度系数,偏度系数 中心趋势统计量中心趋势统计量平均值平均值平均值平均值(mean)对于包含有对于包含有 个样本的一个变量个样本的一个变量 ,即,即样本平均值为:样本平均值为:nx12, ,inx xxx12111()nniixxxxxnn变化幅度统计量变化幅度统计量

5、统计量中的平均值描述的仅仅是气候变量分统计量中的平均值描述的仅仅是气候变量分布中心在数值上的大小,并没有告诉我们这布中心在数值上的大小,并没有告诉我们这种变化与正常情况的偏差和变化的波动。种变化与正常情况的偏差和变化的波动。变变化幅度统计量即表征距离分布中心远近程度化幅度统计量即表征距离分布中心远近程度的统计量的统计量。变化幅度统计量包括:变化幅度统计量包括:l距平(距平(anomaly)l方差(方差(variance)和标准差()和标准差(standard deviation) 距平距平是气象上常用的量,它也即通常所说的异常,即对平均值的正常情况的偏差。资料中某一个数值与平均值之差就是距平,

6、例如第点资料的距平为: 气象上经常用距平值代替原样本中资料数值作为研究对象,因为在气象要素的研究中,它们受年变化周期影响很大,各月的平均值不一样。例如月、月、月平均值就各不相同。为使之能在同一水平下进行比较,常使用距平值。用距平值作为变量的资料值,使得各变量的平均值为,可以带来研究上的方便,也便于计算。有时直接以它作为预报值,可以给人们一个偏高或偏低的直观了解。距平的意义距平的意义标准差与方差标准差与方差 描述样本中资料与平均值差异的平均状况的统计量就是标准差,它衡量资料围绕平均值的平均变化幅度。平常说:“内陆台站气温日变化较沿海地区要大”。这个日变化大小的比较就是用它们的标准差来比较的。某气

7、象要素(变量)(含个资料的样本)的标准差计算公式为某气象要素(变量)(含个资料的样本)的标准差计算公式为数据的标准化数据的标准化 原因及优点原因及优点-不同单位、不同量级数据之间不同单位、不同量级数据之间便于比较便于比较 计算公式计算公式- , 为标准差为标准差 特点特点1-通常标准化后的数据为无量纲的数据通常标准化后的数据为无量纲的数据 特点特点2-标准化数据的平均值为标准化数据的平均值为0,标准差为,标准差为1 为相关系数的引出作了铺垫为相关系数的引出作了铺垫zxxxxxxssxs数据的标准化数据的标准化 数据标准化处理是不仅使得数据间便与比较,数据标准化处理是不仅使得数据间便与比较,其其

8、核心思想核心思想是试图消除数据的是试图消除数据的“位置位置”和和离离散程度散程度对进一步分析所带来的影响;对进一步分析所带来的影响; 例如,例如,1月和月和7月某日温度相对本月长期平均月某日温度相对本月长期平均温度的距平相同,但温度的距平相同,但1月和月和7月数据离散程度,月数据离散程度,即标准差不同,则距平标准化值能体现出这即标准差不同,则距平标准化值能体现出这两月中这种温度变化是否是属于异常事件。两月中这种温度变化是否是属于异常事件。 协方差协方差也可以体现两个变量间的关系,其也可以体现两个变量间的关系,其公式为公式为 但协方差是一个带有单位的统计量,不便但协方差是一个带有单位的统计量,不

9、便于不同要素间进行联系,因此需要将原数于不同要素间进行联系,因此需要将原数据作据作标准化处理标准化处理。 得到得到相关系数相关系数为:为:11cov( , )()()nxyiiix ysxx yyn122 1/21111()()11()()()() niinniiixyzizinniixyiiiixx yyxxyyrx ynnssxxyy协方差与相关系数Pearson(“普通普通”)相关)相关-特点特点 相关值介于相关值介于1 1之间,即之间,即 常可以用来表示两个变量中的一个被另一个变量解释常可以用来表示两个变量中的一个被另一个变量解释的程度,但并不能从物理上解释其中一个变量的变化是由的程度

10、,但并不能从物理上解释其中一个变量的变化是由另一个变量所致,可能这两个变量的变化皆由其它物理过另一个变量所致,可能这两个变量的变化皆由其它物理过程所致。程所致。11xyr xyxy2xyr为什么?证明:线性相关的局限性线性相关的局限性数据I数据IIxyxy0028133426493852511657137691483121591161610720162017PearsonPearson相关既不相关既不robustnessrobustness,也不也不resistanceresistance048121620X0481216YR=0.6105101520X0481216YR=0.88Robust

11、ness一个统计分析被称为一个统计分析被称为robustnessrobustness,则,则表明该分析不会受到表明该分析不会受到数据分布特征数据分布特征的的影响;影响; 例如,当数据遵循与高斯分布(正态例如,当数据遵循与高斯分布(正态分布)时,平均值能够很好的体现数据的分布)时,平均值能够很好的体现数据的中心趋势。中心趋势。 而当数据不满足高斯分布时,通常而当数据不满足高斯分布时,通常的平均值计算方法很可能会产生错误的中的平均值计算方法很可能会产生错误的中心趋势结果。心趋势结果。Resistance一个统计分析被称为一个统计分析被称为resistance,则表,则表明它不会受到数据明它不会受到

12、数据极值极值的影响。的影响。 例如,一组数据为11,12,13,14,15,16,17,18,19,其平均值为15,但改变数据为11,12,13,14,15,16,17,18,91,其平均数为23。Spearman排序相关系数排序相关系数数据I数据IIx(rank)y(rank)x(rank)y(rank)0(1)0(1)2(1)8(8)1(2)3(2)3(2)4(4)2(3)6(3)4(3)9(9)3(4)8(4)5(4)2(2)5(5)11(5)6(5)5(5)7(6)13(6)7(6)6(6)9(7)14(7)8(7)3(3)12(8)15(8)9(8)1(1)16(9)16(9)10(

13、9)7(7)20(10)16(10)20(10)17(10)Spearman排序相关很好的体排序相关很好的体现了数据对之间单调关系的现了数据对之间单调关系的强度;强度;而而Pearson相关则反应了数据相关则反应了数据对之间线性关系的强度对之间线性关系的强度21261(1)niirankDrn n为数据对(为数据对(x x,y y)之间序号的差值)之间序号的差值D1rankr0.018rankr自相关(自相关(autocorrelationautocorrelation) 自相关指得是序列与自身的相关自相关指得是序列与自身的相关 时间自相关意思是序列不同时刻(过去或未来)时间自相关意思是序列不

14、同时刻(过去或未来)之间的相关,也称为滞后相关。之间的相关,也称为滞后相关。 通常用通常用Pearson相关来计算自相关。相关来计算自相关。-7.3-6.3-5.5-10.7-8.2-6.9-10.9-5.8-8.1-7.3-6.3-5.5-10.7-8.2-6.9-10.9-5.8-8.119981998年年1 1月北京日最低温度月北京日最低温度11111221 / 212 () () ()()niiinniiiixxxxrxxxx“-”表示前表示前n-1个数个数“+”表示后表示后n-1个数个数自相关自相关-续续“-”表示前表示前n-k个数个数“+”表示后表示后n-k个数个数1998年年1月

15、北京日最低温度时滞相关月北京日最低温度时滞相关1221/ 211()()()() nkiikiknkniiiikxxxxrxxxx01234567Lag k (days)-0.400.40.81.2rk落后交叉协方差与相关系数落后交叉协方差与相关系数中心趋势统计量中心趋势统计量 峰度系数峰度系数(kurtoris) & 偏度系数偏度系数(skewness)u 二阶中心矩就是上面提到的方差;u 三阶中心矩是用来描述变量概率密度分布非对称性的,如果其计算值为正值,表明密度分布曲线的峰点在平均值的右方,反之亦然;u 四阶中心矩用来描述分布曲线的陡度,如果其计算值小,反映观测值与平均值靠近,分

16、布曲线就比较陡,反之,则表明分布曲线平缓。 对遵从正态分布的变量而言,对应的偏度和峰度值应为零。因此,可以通过计算某一气象要素的偏度和峰度值,考察它们偏离零的程度,以便确定它们是否遵从正态分布。正态以及偏态分布示意图正态以及偏态分布示意图平均值平均值平均值平均值平均值平均值正态分布正态分布正正/ /右偏态分布右偏态分布负负/ /左偏态分布左偏态分布可用于非对称研究,如ENSO asymmetry(Sun et al. 2013)正态以及峰度示意图正态以及峰度示意图统计量的检验统计量的检验 在气象分析与预报中,为了研究气象要素本身或气象要素之间的关系,我们总是选取一定的样本进行统计分析,那么所得

17、到的结果是否具有普遍意义呢? 例如,我们为了研究某地夏季某几年的冷害对农业的影响,分析出这几年夏季的天气形势场在该地上游地区某个区域高空有一低槽,高度值特别低。那么我们要问这几年该区域的低值是否是较常年显著地低,会不会是随机抽样的偶然性的结果?回答这些问题就是概率统计中的显著性检验。 一般的显著性检验过程是给定一个原假设,寻找与假设有关的统计量及其所遵从的概率分布函数,用具体的一次抽样的样本数据代入统计量,在给定的显著水平下(气象上常取)作出对原假设的否定和接受的判定。当然,这种判定也有一定的错误,即所谓第类错误(否定假设时所发生的)和第二类错误(接受假设时所发生的)。这两类错误的概率不等,由

18、于第类错误的概率较小,一般情况下以拒绝假设的结论为好,即犯错误的可能性较小。小概率原理 一个事件如果发生的概率很小的话,那么它在一次试验中是几乎不可能发生的,但在多次重复试验中几乎是必然发生的,数学上称之小概率原理。 统计学中,一般认为等于或小于0.05或0.01的概率为小概率。置信区间置信区间置信水平置信水平 1- 显著水平显著水平 统计检验流程明确要检验的问题,提出统计假设。确定显著性水平。 针对研究的问题,选取一个适当的统计量。 根据观测样本计算有关统计量。 对给定的,从统计量分布表查出与水平相应的数值,即确定出临界值。 比较统计量计算值与临界值,看其是否落入否定域中,若落入则拒绝原假设

19、。基本统计量的检验 平均值的显著性检验 两组样本平均值差异的检验 方差的显著性检验 变量的分布检验 相关系数的检验平均值的显著性检验 平均值的显著性检验在概率统计中一般有大样本检验(统计量近似遵从正态分布)和小样本检验(统计量遵从分布)。 在气象上,由于通常所使用的样本容量不大,一般情况下,大多使用分布统计量。 在气候变化的研究中,常常要研究某些特殊年份有何显著特点。经常使用的方法是将这一特殊年份的气象要素与其它年份的平均值进行比较。两组样本平均值差异的检验方差的显著性检验变量的分布检验相关系数的检验 相关系数是衡量两个变量之间关系密切程度的量。这个量的大小是否显著也需要作统计检验。 对于总体

20、不相关(即总体相关系数)的两个随机变量,由于抽样的缘故,其样本相关系数不一定等于,可能出现其它的数值,因而样本相关系数也是一个随机变量。在假设总体相关系数成立的条件下,样本相关系数的概率密度函数为 上式正好是分布的密度函数。于是,就可以用上式正好是分布的密度函数。于是,就可以用检验法来检验,即在原假设检验法来检验,即在原假设自由度的估计 简单估计:随机样本数减2,即n-2 实际上气候变量的一个突出特点就是具有红噪声谱,即不同时间的数据之间不是完全独立的(不是随机的)。气候变量某一时刻的状况对后面的状况是有影响的。因此,序列的有效自由度要比n-2 要小。这会影响对相关系数信度的估计和假设结论的判

21、断。 很多气候变量有很强的持续性或者很高的自相关,例如海温。因此进行相关系数的显著性检验时,需要首先对时间序列的有效自由度进行估计。 估计有效自由度的方法有很多。红噪声时间序列的自相关系数随落后时间步长减少,自相关系数越大则独立样本数(有效自由度)越小。两种估算方法趋势变化对相关系数的影响 变量带有性质相反的趋势变化变量带有性质相反的趋势变化, 会使这二个变量之间的相会使这二个变量之间的相关系数减小关系数减小(正相关的数值减小正相关的数值减小, 负相关被夸大负相关被夸大). 变量带有变量带有性质相同的趋势变化性质相同的趋势变化, 会使这二个变量之间的相关系数增会使这二个变量之间的相关系数增加加

22、(正相关被夸大正相关被夸大, 负相关数值变小负相关数值变小).r=0.001r=-0.33(施能等,(施能等,2007) 无论作气象要素的资料统计量分析,或者作以后陆续介绍的统计方法分析和预报,气象资料的使用是一切分析的出发点。资料的代表性资料的代表性是值得十分注意的。 例如我们要预报某地降水量,用太平洋某一海域的海温资料作为因子,就要对该地区的海温资料的取得有一个基本了解。例如资料观测的误差性如何,如果该地区的资料仅是用该月中几次船舶经过时测量得到的观测值平均作为该月平均海温资料,那么这种资料的代表性就较差。 事实上,气候资料的取得有两个经常遇到的问题:一是资料空间分布不均匀资料空间分布不均

23、匀,资料大多从密度较大的陆地上取得;另一是时间分布不均匀时间分布不均匀,观测时间大部分是白天,尤其在海洋地区。不同历史时期,由于观测手段的改进也会使系统误差发生变化,这样一来,资料的可靠性也是值得重视的。 因此,强调统计显著性,要求用经典统计理论的不同方法,例如置信区间、假设检验、信号噪音比等等来讨论统计量的显著性,绝不是过份的。蒙特卡罗检验 前述检验方法都属于统计学中的参数的统计检验,它们需要样本服从正态分布或其它一些假定。非参数检验则不需要样本服从正态分布或其它假定,蒙特卡罗检验为非参数检验。 例:相关系数的蒙特卡罗检验 利用蒙特卡罗方法解决数学分析问题的基本思想: 建立与描述该问题有相似性的概率模型,利用这种相似性把概率模型的某些特征(如随机事件的概率或随机变量的平均值等)与数学问题的解答(如积分值)联系起来。1.对模型进行随机模拟或统计抽样,再利用所得结果求出这些特征的统计估计值作为原来的分析问题的近似解。 随机数名称命令调用格式参数说明(0,1)上均匀分布Y=rand(m,n)生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论