Chp.2 数据分布模型及其应用_第1页
Chp.2 数据分布模型及其应用_第2页
Chp.2 数据分布模型及其应用_第3页
Chp.2 数据分布模型及其应用_第4页
Chp.2 数据分布模型及其应用_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Chp.2 数据分布模型及其应用数据分布模型及其应用 1q问题的提出问题的提出两个引子两个引子地质研究表明,铬的含量与砷的含量存在一地质研究表明,铬的含量与砷的含量存在一定关系,某矿区取得一批矿样,测得定关系,某矿区取得一批矿样,测得Cr2O3与与As数据,你用何种数学方法确定它们之间数据,你用何种数学方法确定它们之间的数学表达式,来的数学表达式,来预测未知区域的铬的分布预测未知区域的铬的分布?Chp.2 数据分布模型及其应用数据分布模型及其应用 2油藏油藏含油饱和度含油饱和度与储层的与储层的渗透率渗透率、孔隙度孔隙度、排驱压力排驱压力、毛管压力毛管压力、孔喉半径孔喉半径、孔喉歪度孔喉歪度、孔

2、隙峰度孔隙峰度以及以及束缚水饱和度束缚水饱和度等因素相关。今等因素相关。今取得一批上述各项的分析数据,如何通过数取得一批上述各项的分析数据,如何通过数据分析,建立随机因变量与多个随机自变量据分析,建立随机因变量与多个随机自变量间的数量关系,间的数量关系,判断油藏的好坏判断油藏的好坏,以及,以及预测预测新的油气藏位置新的油气藏位置?Chp.2 数据分布模型及其应用数据分布模型及其应用 为了对地质现象(包括地质体本身)正确地进行数为了对地质现象(包括地质体本身)正确地进行数学抽象,需要充分认识其学抽象,需要充分认识其数学属性数学属性。一般地说,地质现象的数学属性可以大致地分为一般地说,地质现象的数

3、学属性可以大致地分为精精确性确性、随机性随机性和和模糊性模糊性三种。三种。地质现象的随机性源于其构成复杂、干扰因素众多,地质现象的随机性源于其构成复杂、干扰因素众多,事件的发展方向和结果有多种可能性。也就是说,地质事件的发展方向和结果有多种可能性。也就是说,地质运动或地质过程是按运动或地质过程是按随机原理随机原理构成的,普遍地受构成的,普遍地受概率法概率法则则的支配。的支配。3Chp.2 数据分布模型及其应用数据分布模型及其应用 为了更好地了解某一地质过程,应先确定其为了更好地了解某一地质过程,应先确定其模式,而这种模式既可以用概率论来描述,同时模式,而这种模式既可以用概率论来描述,同时还可以

4、用数理统计的方法检验。还可以用数理统计的方法检验。显然,要妥善地处理上述各种问题,应当借显然,要妥善地处理上述各种问题,应当借助研究随机现象的数学工具助研究随机现象的数学工具概率论及数理统概率论及数理统计计。4 2.1 基本概念基本概念 必然事件必然事件不可能事件不可能事件随机事件随机事件在一定条在一定条件下必然件下必然不会出现不会出现在一定条在一定条件下必然件下必然出现出现可以预知,具有确定性可以预知,具有确定性一定条件下可能一定条件下可能实现,也可能不实现,也可能不能成为现实能成为现实由于地质作用的长期性和复杂性,地质过程中产生由于地质作用的长期性和复杂性,地质过程中产生的大多数地质现象都

5、可看作是随机事件。的大多数地质现象都可看作是随机事件。 “钻探钻探到到100m深处见到矿体深处见到矿体”5 2.1 基本概念基本概念 现象:现象:当我们在一定的条件下重复作某一观测时,会当我们在一定的条件下重复作某一观测时,会发现一些现象出现的次数多些,另一些现象出现的次发现一些现象出现的次数多些,另一些现象出现的次数少些。表明各事件出现的可能性是有大有小的,这数少些。表明各事件出现的可能性是有大有小的,这自然会使人想到可以用一个数字来描绘事件出现的可自然会使人想到可以用一个数字来描绘事件出现的可能性。能性。概率:概率:设某一随机事件设某一随机事件A在在n次观测中出现了次观测中出现了m次,则次

6、,则称称m/n为事件为事件A出现的频率。当出现的频率。当n足够大时,事件足够大时,事件A的的频率会稳定在某一数值频率会稳定在某一数值P附近摆动,数值附近摆动,数值P即为事件即为事件A出现的概率,记作出现的概率,记作P(A)=P。在实际研究中,常用事件。在实际研究中,常用事件的频率近似地表示该事件的概率。的频率近似地表示该事件的概率。6 2.1 基本概念基本概念 区间号区间号123456789金含量金含量ppm0.10.20.20.50.5112255101020205050100-频数频数203055901358065205500频率频率%46111827161341100某矿脉金含量区间频数

7、及频率分布表某矿脉金含量区间频数及频率分布表7 2.1 基本概念基本概念 随机事件概率的性质和运算公式随机事件概率的性质和运算公式(1 1)对于任意事件)对于任意事件A A,有,有 0 0P(A)P(A)1 1,P()=1P()=1,P(P()=0)=0(2 2)概率加法公式。若事件)概率加法公式。若事件A A和事件和事件B B互不相容,则有互不相容,则有 P(A+B)=P(A)+P(B)P(A+B)=P(A)+P(B) P(A)+P(P(A)+P( )=1)=1(3 3)条件概率)条件概率A)()()(BPABPBAP8 2.1 基本概念基本概念 为考察某地断裂构造对金矿脉的控制作用,抽取具

8、有代为考察某地断裂构造对金矿脉的控制作用,抽取具有代表性的表性的120个已知单元进行统计,结果如下:个已知单元进行统计,结果如下:(1)有金矿脉出现的单元有)有金矿脉出现的单元有26个,其中:伴随有个,其中:伴随有北东北东向向断裂的单元有断裂的单元有17个;伴随有个;伴随有北西北西向断裂的单元有向断裂的单元有7个;伴个;伴随有随有东西东西向断裂的单元有向断裂的单元有2个。个。(2)只出现)只出现北东北东向断裂的单元有向断裂的单元有3个。个。(3)只出现)只出现北西北西向断裂的单元有向断裂的单元有9个。个。(4)只出现)只出现东西东西向断裂的单元有向断裂的单元有6个。个。(5)没有矿脉也没有断裂

9、的单元有)没有矿脉也没有断裂的单元有76个。个。9 2.1 基本概念基本概念 1)P(矿脉出现矿脉出现)=26/120=21.7%;2)P(北东向断裂出现北东向断裂出现)=(17+3)/120=16.7%;3)P(北西向断裂出现北西向断裂出现)=(7+9)/120=13.3%;4)P(东西向断裂出现东西向断裂出现)=(2+6)/120=6.7%; P(北东向断裂北东向断裂|矿脉矿脉)=%4 .65%7 .21%2 .14)()(矿脉出现出现矿脉和北东向断裂同时PP%8 . 7%7 .21%7 . 1)()(矿脉出现出现矿脉和东西向断裂同时PP P(东西向断裂东西向断裂|矿脉矿脉)= P(矿脉矿

10、脉|北东向断裂北东向断裂)=%03.85%7 .16%2 .14)()(北东向断裂出现出现矿脉和北东向断裂同时PP详见详见P1510 2.1 基本概念基本概念 在数学及其它应用研究中,常用随机变量来表征随在数学及其它应用研究中,常用随机变量来表征随机事件的数量特征。机事件的数量特征。 随机变量随机变量(Random Variable) : 在观测或试验中可能取这个或那个数值,但不能预在观测或试验中可能取这个或那个数值,但不能预知一定取什么值的变量,被称为知一定取什么值的变量,被称为随机变量随机变量。当随机变量。当随机变量取某一个值或落入某个数值区间时,便构成一个随机事取某一个值或落入某个数值区

11、间时,便构成一个随机事件。件。 11 2.1 基本概念基本概念 分布率分布率(Distribution Law):R.V.所取的值与其概率形成的所取的值与其概率形成的对应关系。对应关系。 222)(21)(xexf122.1 基本概念基本概念R.V.的分类的分类: :(1)离散型离散型R.V.(Discrete R.V.) 只能取有限个或可列无穷个数值的随机变量(矿田只能取有限个或可列无穷个数值的随机变量(矿田中矿床的个数、矿床中的矿脉数、抽查样品分析的合格中矿床的个数、矿床中的矿脉数、抽查样品分析的合格率等)。常用的率等)。常用的D.R.V.的理论分布有的理论分布有: : 二项分布二项分布(

12、Binomial D.) 泊松分布泊松分布(Poisson D.) 几何分布几何分布(Geometric D.) 负二项分布负二项分布(Negative binomial D.)132.1 基本概念基本概念R.V.的分类的分类: :(2)连续型连续型R.V.(Continuous R.V.) 可以取得某一区间内的一切实数(地球化学元素可以取得某一区间内的一切实数(地球化学元素含量、矿石品位、厚度、地形高程等),它的取值范含量、矿石品位、厚度、地形高程等),它的取值范围是一个实数区间,是不可列的。围是一个实数区间,是不可列的。 常用的常用的C. R.V.理论分布有:理论分布有: 正态分布正态分布

13、(Normal D.) 对数正态分布对数正态分布(Lognormal D.) 标准正态分布标准正态分布(Standard normal D.) 均匀分布均匀分布(Uniform D.) 指数分布指数分布(Exponential D.)142.1 基本概念基本概念为了研究为了研究C.R.V.,必须建立以下几个概念:,必须建立以下几个概念: 直方图直方图(Histogram): R.V.观测值与该观测值的出现观测值与该观测值的出现频率的对应关系图(设频率的对应关系图(设n=总次数,总次数,m=某值出现次数,某值出现次数,则则m/n=频率),频率),f(x)=m/n.15 频率分布密度曲线频率分布密

14、度曲线(Frequency Distribution Density Curve):):通过直方图上各小长方形顶边连接而成的通过直方图上各小长方形顶边连接而成的一条近似曲线。一条近似曲线。 概率分布密度函数概率分布密度函数(Probability Distribution Density Function):):简称密度函数,从理论上推导出的与频简称密度函数,从理论上推导出的与频率分布密度曲线相一致的函数关系,该函数称之为率分布密度曲线相一致的函数关系,该函数称之为P.D.D.F.。2.1 基本概念基本概念为了研究为了研究C.R.V.,必须建立以下几个概念:,必须建立以下几个概念:162.1

15、基本概念基本概念 概率分布函数概率分布函数(Probability Distribution Function):):简称分布函数,当已知简称分布函数,当已知P.D.D.F.时,便可知时,便可知R.V.落在任落在任一区间一区间x1,x2内的概率,但它涉及内的概率,但它涉及x1、x2两个值,不便两个值,不便研究,故引出分布函数:研究,故引出分布函数:xf(t)dtx)P( F(x) 则称则称F(x)为为的概率分布函数,称的概率分布函数,称f(x)为为的概率分布密度的概率分布密度函数。函数。 设设为一连续型为一连续型R.V.,x为任一实数,若存在非负可积函为任一实数,若存在非负可积函数数f(x)(

16、即概率分布密度函数),使得:(即概率分布密度函数),使得: 172.1 基本概念基本概念 从几何意义上看,从几何意义上看,F(x)是是f(x)从从-到到x区间的一个曲边梯区间的一个曲边梯形的面积,如下图。形的面积,如下图。 F(x)的图形如右图,可以近似地把累积频率分布曲线看成的图形如右图,可以近似地把累积频率分布曲线看成是概率分布函数曲线。是概率分布函数曲线。 当知道当知道F(x),可按下式求出,可按下式求出R.V.的任一区间的任一区间x1,x2上的概率上的概率P(x1x2)=F(x2)-F(x1)182.1 基本概念基本概念0)(lim)(xFFx1)(lim)(xFFx)()(lim0a

17、FbFab概率分布函数有下列性质:概率分布函数有下列性质: 概率分布函数概率分布函数F(x)是一个非负的增函数,即对是一个非负的增函数,即对于任何于任何xlx2均有均有F(x1)F(x2)。192.1 基本概念基本概念母体母体(总体,(总体,Population) 所研究对象的全体所构成之集合(所研究对象的全体所构成之集合(R.V.取值的全体)取值的全体) 样本样本(子样,(子样,Sample) 从总体中抽出的一部分个体之集合,子样中的个体数从总体中抽出的一部分个体之集合,子样中的个体数称为子样的大小(容量,称为子样的大小(容量,sample size)。)。样品样品(个体,(个体,speci

18、men) 组成总体的每个基本单元。组成总体的每个基本单元。 小子样(容量小子样(容量3050)。)。 202.2 研究分布率的(地质)意义研究分布率的(地质)意义当频率直方图(当频率直方图(frequency histogram)完成后,对其最)完成后,对其最基本的研究包括:基本的研究包括:单峰?多峰曲线?单峰?多峰曲线?对称?偏斜?对应的理论分布曲线?对称?偏斜?对应的理论分布曲线?计算各种统计分布特征,如均值(计算各种统计分布特征,如均值(mean)、方差)、方差(variance)、标准差()、标准差(standard V.)、变异系)、变异系数(数(coefficient of var

19、iation)等)等。这些研究在地质方面对找矿、矿体预测、勘探方法、地这些研究在地质方面对找矿、矿体预测、勘探方法、地质特征研究等均具有重要意义。质特征研究等均具有重要意义。 212.2 研究分布率的(地质)意义研究分布率的(地质)意义(1)(1) 分布率是地质体等研究对象最重要的数学特征之一,分布率是地质体等研究对象最重要的数学特征之一,不同成因、不同类型的地质体具有不同的分布函数。不同成因、不同类型的地质体具有不同的分布函数。1 1) 把试验分布与理论分布相比,进行资源预测等(某把试验分布与理论分布相比,进行资源预测等(某区矿量分布率、实际分布率比较);区矿量分布率、实际分布率比较);2

20、2) 不同来源(如地层)、但属同一现象(如元素)的不同来源(如地层)、但属同一现象(如元素)的试验数据间的比较(地层对比、岩体特征)。试验数据间的比较(地层对比、岩体特征)。 显然,分布率有重要的鉴别意义及成因意义。显然,分布率有重要的鉴别意义及成因意义。 222.2 研究分布率的(地质)意义研究分布率的(地质)意义(2)(2) 根据数据分布模型以及所研究问题的性质进行各根据数据分布模型以及所研究问题的性质进行各种概率估计种概率估计1 1) 评价各种因素对观测数据的影响(各种变量对母评价各种因素对观测数据的影响(各种变量对母体特征的影响);体特征的影响);2 2) 对未观测到的变量中间值进行内

21、插;对未观测到的变量中间值进行内插;3 3) 确定确定R.V.在在指定区域内出现的概率(如富矿在所有指定区域内出现的概率(如富矿在所有矿体中所占的比例)。矿体中所占的比例)。 232.2 研究分布率的(地质)意义研究分布率的(地质)意义(3) 查明分布率是进一步进行统计分析的基础查明分布率是进一步进行统计分析的基础 1) 选择适合的统计分析方法;选择适合的统计分析方法; 2) 确定原始数据是否要进行预处理;确定原始数据是否要进行预处理; 3) 评价统计分析工作的效果。评价统计分析工作的效果。 242.3 随机变量的数字表征随机变量的数字表征 随机变量的某些特征可以用数字来表征,其中最随机变量的

22、某些特征可以用数字来表征,其中最重要的是重要的是平均值平均值、方差方差和和协方差协方差。 (1 1)平均值)平均值 平均值是变量自身中心趋势的一种度量,它反映平均值是变量自身中心趋势的一种度量,它反映的是随机变量的集中性质。的是随机变量的集中性质。 设设离散型离散型随机变量随机变量的可能取值为的可能取值为x x1 1,x x2 2,x xn n,P(P(=x=xi i)=P)=Pi i,则,则 称为称为的平均值。不难看出,随机变量的平均值是这的平均值。不难看出,随机变量的平均值是这个变量所有可能取值个变量所有可能取值以概率为权的加权平均以概率为权的加权平均。iiiPxE252.3 随机变量的数

23、字表征随机变量的数字表征 对对连续型连续型随机变量随机变量,设它的概率分布密度为,设它的概率分布密度为P(xP(x) ),则,则dxxxPE)(称为称为的平均值。的平均值。在概率论中,平均值也称作数学期望。在概率论中,平均值也称作数学期望。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。 称为称为的平均值。的平均值。 概率论中,平均值也称作数学期望。概率论中,平均值也称作数学期望。 在实际应用中,经常对样本观测值进行不同方法在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。的计算来估计总体

24、的平均值。262.3 随机变量的数字表征随机变量的数字表征 1 1)算术平均值)算术平均值 设设x x1 1,x x2 2,x xn n是样本容量为是样本容量为n n的一组观测值,的一组观测值,则则 称为称为的平均值。的平均值。在概率论中,平均值也称作数学期望。在概率论中,平均值也称作数学期望。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。 称为该样本的算术平均值。称为该样本的算术平均值。 不难看出,用以计算算术平均值的各个观测值的不难看出,用以计算算术平均值的各个观测值的权因子是相等的,并且都等于权因子

25、是相等的,并且都等于1/n1/n。niixnx11272.3 随机变量的数字表征随机变量的数字表征 2 2)加权平均值)加权平均值 设设x x1 1,x x2 2,x xn n是样本容量为是样本容量为n n的一组观测值,的一组观测值,f1,f2,fn是和每个观测值相对应的权因子,则是和每个观测值相对应的权因子,则 称为称为的平均值。的平均值。在概率论中,平均值也称作数学期望。在概率论中,平均值也称作数学期望。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。 称为该样本的加权平均值。称为该样本的加权平均值。n

26、iiniiifxfx11权282.3 随机变量的数字表征随机变量的数字表征 3 3)几何平均值)几何平均值 x x1 1,x x2 2,x xn n是样本容量为是样本容量为n n的一组观测值,则的一组观测值,则 称为称为的平均值。的平均值。在概率论中,平均值也称作数学期望。在概率论中,平均值也称作数学期望。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。 称为该样本的几何平均值。称为该样本的几何平均值。 对于变化较大的地质体,同一个样本的算术平对于变化较大的地质体,同一个样本的算术平均值和加权平均值之间相差

27、可达均值和加权平均值之间相差可达3080%。因而,计。因而,计算方法的选择是影响精度的重要因素之一。算方法的选择是影响精度的重要因素之一。nnxxxx21权292.3 随机变量的数字表征随机变量的数字表征 还有其它一些表征随机变量集中性质的数字特征:还有其它一些表征随机变量集中性质的数字特征: 众数:众数:是具有最大频数是具有最大频数( (或频率或频率) )的随机变量的值,的随机变量的值,一般用一般用M M0 0表示。表示。 中位数:中位数:是把所有观测值按大小次序排列,位于是把所有观测值按大小次序排列,位于数列中间的数值,一般用数列中间的数值,一般用MeMe表示。表示。 当观测值为正态分布时

28、,当观测值为正态分布时, ,当观测值为左,当观测值为左不对称分布时,不对称分布时, 。当观测值为右不对称分布。当观测值为右不对称分布时,时, 。 在实际应用中,当观测值中有特大、特小值或数在实际应用中,当观测值中有特大、特小值或数列两边的数值不够精确时,观测值的众数或中位数更列两边的数值不够精确时,观测值的众数或中位数更能反映随机变量的分布特征。能反映随机变量的分布特征。 称为称为的平均值。的平均值。在概率论中,平均值也称作数学期望。在概率论中,平均值也称作数学期望。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的

29、平均值。 eMMx0 xMMe00MMxe302.3 随机变量的数字表征随机变量的数字表征 (2)方差)方差 方差是变量自身变化幅度的一种度量,它反映的方差是变量自身变化幅度的一种度量,它反映的是随机变量的离散性质。是随机变量的离散性质。 对于随机变量对于随机变量,-E称为称为的离差,各离差平方的的离差,各离差平方的平均值平均值 D=E(-E)2称为称为的方差。的方差。 不难看出,方差是对随机变量的取值与其平均值不难看出,方差是对随机变量的取值与其平均值之间的偏差情况或分散程度的描述,方差越小,变量之间的偏差情况或分散程度的描述,方差越小,变量越集中分布于平均值附近。越集中分布于平均值附近。

30、在实际应用中,用样本的方差值估计总体的方差。在实际应用中,用样本的方差值估计总体的方差。称为称为的平均值。的平均值。在概率论中,平均值也称作数学期望。在概率论中,平均值也称作数学期望。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。 312.3 随机变量的数字表征随机变量的数字表征 (3 3)协方差)协方差 设设和和是两个随机变量,则是两个随机变量,则 CoV(,)=E(-E)(-E) 称为称为和和的协方差。的协方差。 若若、是连续型变量,具有概率分布是连续型变量,具有概率分布P(x,y),则,则称为称为的

31、平均值。的平均值。在概率论中,平均值也称作数学期望。在概率论中,平均值也称作数学期望。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。 在实际应用中,用样本的协方差估计总体的协方差。在实际应用中,用样本的协方差估计总体的协方差。 dxdyyxPEExCoV),()(),(322.3 随机变量的数字表征随机变量的数字表征 设设(x1,y1),(x2,y2),(xn,yn)是样本容量为是样本容量为n的的一组观测值,则一组观测值,则称为称为的平均值。的平均值。在概率论中,平均值也称作数学期望。在概率论中,平均值也

32、称作数学期望。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。在实际应用中,经常对样本观测值进行不同方法的计算来估计总体的平均值。 称为称为x、y的协方差。它是对总体协方差的无偏估计值。的协方差。它是对总体协方差的无偏估计值。)(11)(111niiiiniixyyxnyxnyyxxn332.4 正态分布及对数正态分布正态分布及对数正态分布 正态分布是目前研究得最彻底的一种数据分布率,正态分布是目前研究得最彻底的一种数据分布率,许多统计方法多假设数据服从正态分布。许多统计方法多假设数据服从正态分布。当数据不服从正态分布时,常常将其当数据不服从正态分布时,常常将其: 1)变换

33、为正态分布,或)变换为正态分布,或 2)选择稳健的统计方法()选择稳健的统计方法(robust stat.)或非参数统计)或非参数统计方法(方法(non-parameter, free-distribution)。)。 3435关于稳健统计学关于稳健统计学* *问题的提出:问题的提出: 经典的统计方法大多以经典的统计方法大多以正态分布假设及最正态分布假设及最小二乘法小二乘法为基础,可是在实际数据中特别是地为基础,可是在实际数据中特别是地质数据(如油气化探数据)中的离散度大,质数据(如油气化探数据)中的离散度大,偏偏离正态分布假设离正态分布假设的情况十分普遍。的情况十分普遍。36偏离的原因偏离的

34、原因: a.a.总体服从正态分布,由于各类误差(总体服从正态分布,由于各类误差(随随机误差机误差、系统误差系统误差、过失误差过失误差)或外总体的)或外总体的加入所致;加入所致; b.b.总体本来就不服从正态分布,如服从总体本来就不服从正态分布,如服从t t分布、分布、分布、分布、F F分布等。分布等。37后果后果: : 当数据偏离正态假设较明显时,经典的统当数据偏离正态假设较明显时,经典的统计方法常常计方法常常给出不容易觉察的歪曲的甚至错误给出不容易觉察的歪曲的甚至错误的结果的结果。 可见经典统计学方法对偏离正态分布假设可见经典统计学方法对偏离正态分布假设的情况是非常敏感的。的情况是非常敏感的

35、。 博克斯(博克斯(G GE EP PBoxBox,19531953)把这种现象把这种现象称之为稳健性问题。这就是稳健性一词的由来。称之为稳健性问题。这就是稳健性一词的由来。38 修改统计方法使之更稳健,以适应修改统计方法使之更稳健,以适应数据偏离统计假设的情况,是稳健统计数据偏离统计假设的情况,是稳健统计学产生和发展的一个主导思想。各种稳学产生和发展的一个主导思想。各种稳健统计方法的基础是对位置(即数据点健统计方法的基础是对位置(即数据点群的中心)及尺度(即数据点群的离散群的中心)及尺度(即数据点群的离散度)的稳健估计。度)的稳健估计。改进方法改进方法:39 采用中位数及中位绝对中位差,即采

36、用中位数及中位绝对中位差,即MADmedxi一一med(xi)0.6746来代替算来代替算术平均值及标准差作为数据平均值及离散术平均值及标准差作为数据平均值及离散度的估计值,可以获得较好的稳健性。度的估计值,可以获得较好的稳健性。 目前已提出目前已提出了了M估计估计(最大似然估计(最大似然估计)、)、L估计估计(有序统计量的线性组合)(有序统计量的线性组合)及及R估计估计(秩估计)。(秩估计)。例如例如2.4 正态分布及对数正态分布正态分布及对数正态分布(1)正态分布)正态分布定义:若定义:若R.V.的概率密度函数为:的概率密度函数为: -x0 则称则称服从正态分布,简记为服从正态分布,简记为

37、N(,2) 222)(21)(xexf402.4 2.4 正态分布及对数正态分布正态分布及对数正态分布正态分布概率密度曲线正态分布概率密度曲线 正态分布累积概率曲线正态分布累积概率曲线412.4 正态分布及对数正态分布正态分布及对数正态分布正态分布的概率分布函数为:正态分布的概率分布函数为: (t 为(为(-,x)内)内的任一取值的任一取值)dtexFxt222)(21)(42密度函数的图形为铃形,其特征为:密度函数的图形为铃形,其特征为:2.4 正态分布及对数正态分布正态分布及对数正态分布xf(x)1)单峰;)单峰;2)以)以x=为对称轴的对称曲线,当为对称轴的对称曲线,当x时,时, f(x

38、)=0,x=处是其拐点;处是其拐点;3)(-,+ )内曲线与横轴围成的面积等于内曲线与横轴围成的面积等于1;214)有两个参数有两个参数和和,若固定,若固定,改变,改变,则形状不变,位,则形状不变,位置改变;若置改变;若固定,固定,改变,则由最大值改变,则由最大值f() = 可知,可知,越小,峰值越大,曲线越陡,越小,峰值越大,曲线越陡,集中于集中于附近,附近,越大,峰值越小,曲线越平缓,越大,峰值越小,曲线越平缓,越分散。越分散。 432.4 正态分布及对数正态分布正态分布及对数正态分布(2)标准正态分布)标准正态分布当当=0,=1时的正态分布,即是我们平常所谓的标准时的正态分布,即是我们平

39、常所谓的标准正态分布,记为:正态分布,记为:N(0,1),此时:密度函数和分布函),此时:密度函数和分布函数分别为:数分别为:dte21x)P(x)e21(x)x2t2x22标准正态分布的变换方法:标准正态分布的变换方法:设设为非标准的正态变量,其平均值为为非标准的正态变量,其平均值为,标准差为,标准差为,令令u=(x-)/,并以,并以u代替代替x,则新变量就具有,则新变量就具有N(0,1)分布,变分布,变量量u称为标准化正态变量。称为标准化正态变量。 442.4 正态分布及对数正态分布正态分布及对数正态分布 (2)标准正态分布)标准正态分布452.4 正态分布及对数正态分布正态分布及对数正态

40、分布(3)正态分布的实际应用)正态分布的实际应用现有一铜矿床,现有一铜矿床,Cu品位服从正态分布,且其平均品位为品位服从正态分布,且其平均品位为5%,标准差标准差2%,求矿床中,求矿床中Cu品位介于品位介于5.247.5%的概率为多少?的概率为多少?1) 先进行标准化:先进行标准化:u=(x-)/=(x-5)/2 u1=(5.24-5)/2=0.12 u2=(7.5-5)/2=1.25dxex5 . 724. 5222)5(217.5)P(5.24以上问题即求解:以上问题即求解:de25. 112. 022217.5)P(5.242) 求区间概率求区间概率: =F(1.25)-F(0.12)=

41、0.894-0.548=0.346=34.6%即矿床中即矿床中Cu品位介于品位介于5.247.5%的矿石量为的矿石量为34.6% 462.4 正态分布及对数正态分布正态分布及对数正态分布 (4)对数正态分布)对数正态分布 若若R.V.=ln呈正态分布,则称呈正态分布,则称R.V.服从对数正态分服从对数正态分布,即布,即 N(,2)且)且=ln,若对数正态变量,若对数正态变量的密度的密度函数为函数为(x),则,则ln的密度函数呈正态分布的密度函数呈正态分布f(y) 472.4 正态分布及对数正态分布正态分布及对数正态分布设设x1,x2,为为的观测值,的观测值,=ln,则,则)0(0)0(21)(

42、222)(lnxxexfx式中,式中,和和2分别是变量分别是变量=ln的平均值和方差。对的平均值和方差。对数正态分布有两个参数,即数正态分布有两个参数,即niixn1ln1niixn122)(ln11482.4 正态分布及对数正态分布正态分布及对数正态分布 现象:现象:大多数内生有色、稀有及贵重金属矿床中的有用大多数内生有色、稀有及贵重金属矿床中的有用组分,以及岩石中的微量元素,都具有对数正态分布的特征。组分,以及岩石中的微量元素,都具有对数正态分布的特征。 原因:原因:这类元素的含量往往受某些起显著作用的地质因这类元素的含量往往受某些起显著作用的地质因素所控制,使它们在空间上的分布极不均匀,

43、致使元素含量素所控制,使它们在空间上的分布极不均匀,致使元素含量在数学上因不能满足中心极限定理的条件而趋于较大的正偏在数学上因不能满足中心极限定理的条件而趋于较大的正偏斜,从而导致随机变量服从或近似于对数正态分布。斜,从而导致随机变量服从或近似于对数正态分布。 处理:处理:对这类地质研究对象,就需要按上述思路和方法,对这类地质研究对象,就需要按上述思路和方法,在对原始数据取对数之后,再按正态分布的概率分布密度函在对原始数据取对数之后,再按正态分布的概率分布密度函数和分布函数进行计算。数和分布函数进行计算。492.4 正态分布及对数正态分布正态分布及对数正态分布(5)三参数对数正态分布)三参数对

44、数正态分布 当当y=ln(x)所呈现的不是正态分布,而基于某个所呈现的不是正态分布,而基于某个参数参数b的的y=ln(x+b)呈正态分布,则称该随机变量服呈正态分布,则称该随机变量服从三参数正态分布。从三参数正态分布。 正态分布与对数正态分布的关系:正态分布与对数正态分布的关系: 设设x呈对数正态分布,且有呈对数正态分布,且有、, ln(x)=y呈正态分布,且有呈正态分布,且有e、e,则:,则: =ee+e/2 =2ee-1502.4 正态分布及对数正态分布正态分布及对数正态分布对数正态分布的成因:对数正态分布的成因:1) 某地质变量受综合因素影响,且某个因素相某地质变量受综合因素影响,且某个

45、因素相对突出;对突出;2) 多次地质作用叠加;多次地质作用叠加;3) 样品大小有关。样品大小有关。 512.5 二项分布二项分布(Binomial D.) 该分布专门用于描述非该分布专门用于描述非“成功成功”(A)即)即“失败失败”( )两种试验结果的物理模型,它简单而有用。)两种试验结果的物理模型,它简单而有用。(1)计算公式)计算公式 当当R.V.服从下式时,称服从下式时,称服从二项分布:服从二项分布: Pn(k)=CnkPk(1-P)n-k式中式中,Pn(k):n次试验中事件次试验中事件A出现出现k次的概率次的概率 P:1次试验中事件次试验中事件A出现的概率出现的概率 1-P:1次试验中

46、事件次试验中事件A不出现的概率不出现的概率 Cnk:为二项式系数,:为二项式系数,Cnk=n!/k!(n-k)!A522.5 二项分布二项分布(Binomial D.)1p)(1pCknkn0kkn当当k=0,1,2,n时,构成一必然事件,故有:时,构成一必然事件,故有: 53(2 2)二项分布的性质)二项分布的性质平均数平均数=np 方差方差2=np(1-p)2.5 二项分布二项分布(Binomial D.)54(3) 二项分布的图形二项分布的图形 二项分布的图形,取决于两个方面,其一为事件发二项分布的图形,取决于两个方面,其一为事件发生的概率生的概率p ,其二为样本量其二为样本量n。当当p

47、=1-p =1/2时,二项分布的图形是对称的;时,二项分布的图形是对称的;当当p1/2时,二项分布的图形呈右偏态;时,二项分布的图形呈右偏态;当当p与与1-p不变时,即使不变时,即使p1-p ,但随着但随着n的增大,偏的增大,偏态程度会逐渐降低而趋于对称。态程度会逐渐降低而趋于对称。 2.5 二项分布二项分布(Binomial D.)55二项分布总体不同样本数时的抽样分布二项分布总体不同样本数时的抽样分布 2.5 二项分布二项分布(binomial D.)(4)应用实例)应用实例已知某铁矿:已知某铁矿:TFe45%(富矿)的矿样占样品总数的(富矿)的矿样占样品总数的10%,问,问若取若取3个样

48、,其中个样,其中3个、个、2个、个、1个、个、0个个TFe45%(富矿)的样(富矿)的样品的概率各为多少?(用于选厂入选品位的预测和研究)品的概率各为多少?(用于选厂入选品位的预测和研究)解:已知总样品中,解:已知总样品中,TFe45%的样品占的样品占10%,即,即P=10%(1次取次取样中,样中,TFe45%的概率为的概率为10%) 因而,因而,TFe45%的样品,即的样品,即k=3,2,1,0 按上式,按上式,Pn(k)=CnkPk(1-P)n-k 式中式中Cnk=n!/k!(n-k)!562.5 二项分布二项分布(binomial D.)所以所以:3个样个样全全为为TFe45%的概率的概

49、率P3(3)= C33 (0.1)3(0.9)3-3=0.001=0.1%3个样中个样中2个个TFe45%的概率的概率P3(2)= C23 (0.1)2(0.9)3-2=0.0243=2.43%3个样中个样中1个个TFe45%的概率的概率P3(1)= C13 (0.1)1(0.9)3-1=0.243=24.3%3个样中个样中0个个TFe45%的概率的概率P3(0)= C03 (0.1)0(0.9)3-0=0.729=72.9%且且 P3(3)+ P3(2)+ P3(1)+ P3(0)=1572.6 泊凇分布泊凇分布(Poissons D.)(1)计算公式)计算公式 设离散型随机变量设离散型随机

50、变量的可能取值为的可能取值为x x1 1,x x2 2,x xk k,;P P1 1,P P2 2,P Pk k,是是x xk k出现的概率,则出现的概率,则 上式表示,在一定时间(空间)内,某随机事件的上式表示,在一定时间(空间)内,某随机事件的发生概率是固定的(即发生概率是固定的(即),则在给定的时间(空间)内,),则在给定的时间(空间)内,该事件发生指定次数该事件发生指定次数k的概率为的概率为P(k)。ekkPkPk!)()((=npnp00,k=1k=1,2 2,)称为离散型随机变量称为离散型随机变量服从参数为服从参数为的泊凇分布。的泊凇分布。582.6 泊凇分布泊凇分布(Poisso

51、ns D.) 该分布是二项分布的特例,当该分布是二项分布的特例,当P很小,很小,n很大很大时,用泊凇分布能很好地近似二项分布。时,用泊凇分布能很好地近似二项分布。 泊凇分布的方差泊凇分布的方差DD=,=。 5960二项分布与泊松分布的比较二项分布与泊松分布的比较 由上表可见,二者计算结果非常接近,当由上表可见,二者计算结果非常接近,当n愈大其接近程度愈大其接近程度愈好,但泊松分布的愈好,但泊松分布的P(X)计算较为简便。计算较为简便。 XP(X) 二项分布二项分布 泊松分布泊松分布 0123456780.33600.36970.18490.06100.01490.00290.00050.000

52、10.00000.36790.36790.18390.06130.01530.00310.00050.00010.0000合计合计1.0000 1.0000 2.6 泊凇分布泊凇分布(Poissons D.)61(2)Poisson分布的图形分布的图形 泊松分布的图形是由平均数泊松分布的图形是由平均数来确定的。来确定的。当当较小时,泊松分布不对称的程度较为显著,较小时,泊松分布不对称的程度较为显著,通常呈左偏分布;通常呈左偏分布;随着随着值逐渐增大,泊松分布逐渐趋向对称,而值逐渐增大,泊松分布逐渐趋向对称,而且,和二项分布一样,也逐渐趋向正态分布。且,和二项分布一样,也逐渐趋向正态分布。一般说

53、来,当平均数一般说来,当平均数50时时(有人认为有人认为20),泊泊松分布就近似于正态分布。松分布就近似于正态分布。 622.6 泊凇分布泊凇分布(Poissons D.)(3)应用实例)应用实例 某火山岩盆地发育有与闪长玢岩有关的铁矿床(点),某火山岩盆地发育有与闪长玢岩有关的铁矿床(点),现将该盆地按现将该盆地按9km2大小划分成等面积单元大小划分成等面积单元93个,并统计了含个,并统计了含不同矿床(点)数的单元的个数(频数),如表所示,问有不同矿床(点)数的单元的个数(频数),如表所示,问有无发现新矿床(点)的可能性?无发现新矿床(点)的可能性?单元内矿点数单元内矿点数kFi观测频数观测频数fi*理论频数理论频数07268.211521.1243.3320.3400632.6 泊凇分布泊凇分布(Poissons D.) 计算统计量计算统计量 计算出每个单元平均所含矿床(点)数计算出每个单元平均所含矿床(点)数: =(720+151+42+23+04)/93=0.3118 方差方差2=(0-0.31)272+(1-0.31)215+(2-0.31)214+/(93-1)=0.4342 进行假设:进行假设:即假定矿点分布服从泊凇分布:即假定矿点分布服从泊凇分布:实测值实测值( (含含0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论