概率密度和分布函数_第1页
概率密度和分布函数_第2页
概率密度和分布函数_第3页
概率密度和分布函数_第4页
概率密度和分布函数_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

观测数据的分析与处理

随机变量及其分布:概率密度和分布函数

[例]设某工厂产品中成分A的含量受不可控的随机因素影响而有波动。工厂每2小时测量一次A的百分含量,记为x。下表是一个时间段的数据。日期产品中成分A的百分含量数据11.401.281.361.381.441.401.341.541.441.461.801.4421.461.501.581.541.501.481.521.581.521.461.421.5831.701.621.581.621.761.681.681.661.621.721.601.6241.461.381.421.381.601.441.461.281.341.381.241.3651.581.381.341.281.181.081.361.501.461.281.181.28重点:介绍有关随机变量和概率分布的基本概念,讨论各种常见的有实用价值的分布函数。级宽或段宽(将随机变量x的整个取值范围分成有限个区段,每个级段的取值范围即为级宽或段宽)级频数(每个级段中数据值出现的次数)相对频数或频率(将级频数被样本中数据总个数相除,相当于x取值在该级段的概率。)随机变量及其分布:

概率密度和分布函数

将上表数据从到取级宽0.1分为9级分级频数分布图

概率密度

为了使分布图有更好的泛化可以性,将相对频数除以级宽,得到概率密度:级宽取微量:概率密度p对x的曲线称为概率密度分布曲线,简称概率分布曲线、分布曲线等。随机变量及其分布:

概率分布的数字特征不同性质事物对象具有各种不同形状的分布,为了定量地区别各种分布的特征,通常采用的一组判别指标,称为分布的数字特征。[1]算术平均值总体:样本:一阶原点矩(随机变量取值可能性最大的位置)一阶原点矩的样本估计值随机变量及其分布:

概率分布的数字特征[2]方差总体:样本:二阶中心矩(随机变量的变异程度)二阶中心矩的样本估计值随机变量及其分布:

概率分布的数字特征[3]偏斜度总体:样本:三阶中心矩和二阶中心矩的3/2次幂的商

(曲线偏离对称的程度)样本估计值随机变量及其分布:

概率分布的数字特征[4]峭度或峰态总体:样本:四阶中心矩和二阶中心矩平方的商

(一阶原点矩附近的斜率,和偏离后斜率的变化率)样本估计值随机变量及其分布:

离散型随机变量的概率分布客观世界很多随机过程经分析后可以用某种数学模型表示。不同的物质现象有可能用类似的模型描述。重点:介绍若干重要的随机分布模型。 离散均匀分布 二项分布 多项分布 负二项分布 几何分布 超几何分布 扩充几何分布 泊桑分布离散均匀分布分布模型条件:(1)每次试验可以有k种结果:(2)每种结果出现的概率均相等。

数学模型:

均匀分布的数字特征:二项分布

分布模型条件:(1)设试验系由n次观测组成。(2)每次观测只有“是”和“非”两种可能的结果出现。(3)观测结果中出现“是”的概率为常数p

,而出现“非”的概率为q=1-p。(4)每一次观测均为独立的,即每次观测的结果不受其它任何一次观测的影响。

二项分布

在n次观测中“是”出现x次的概率呈二项分布,模型:C(n|x)表示组合数,即从n个事物中拿出x个的方法数.

二项分布

二项分布的数字特征:总体平均值对的方差总体的方差为其中可以是0或1,表示“非”或“是”。二项分布

[例]

已知某厂生产某A产品的合格率75%,现进行一试验,随机地检查3个产品,看它是否合格。定义不合格产品为“是”,则试验结果为“是”的次数x作为随机变量,可取:0,1,2,3中一个值。

多项分布

分布模型条件(二项分布的一种扩充模型):(1)每次观测可以有k种可能的结果出现:,而各种结果都相互排斥。(2)各种结果出现的概率分别为常数:。(3)每一次观测均为独立,即每次观测的结果不受其他任何一次观测的影响。多项分布

则n次试验的结果,出现:次,次,…,次的概率系多项分布,表示为:负二项分布

分布模型条件:(条件与二项试验相仿,考虑问题的角度相反)(1)由多次独立观测构成的试验。(2)每次观测只有“是”和“非”两种可能的结果出现。(3)结果为“是”的概率为常数p。得到k次“是”所需的观测次数x的概率系负二项分布:负二项分布

[例]由统计知道某药剂的有效率为60%,将该药剂用于一组病人。当用到第7名病人时,累计有效的病人数增加到5名的概率为多少?解:除了最后一次按题意必须成功之外,其余(7-1)次中有(5-1)次成功的方式共有种,因此,满足要求的概率为:

负二项分布

负二项分布的数字特征为:几何分布

这是负二项分布当时的一个特例,即:得到第一次“是”所需要的试验次数为x时的概率。设,出现“是”的概率为p,几何分布的模型描述为:几何分布的数字特征为:

几何分布

[例]由统计结果已知某生产过程平均每100件产品中有1件废品。随机检查到第5件产品,发现废品的概率为多少?解:这是几何分布,,则超几何分布

是二项分布的一种变型,其条件为:(1)对象为有限的N个物体,其中k件为“是”,N-k为“非”。(2)从N个物件中,随机地逐个取出n件,且每次取出后没有替换。则在n件中出现“是”的次数x系超几何分布,其模型描述为:超几何分布

[例]

某车间生产的元件按40个装箱后进行质量检验,其步骤为:从每箱随机检查5个元件,若出现二等品,则把该箱退回车间返装。现若车间采取每40个元件中允许有3个二等品的质量控制标准,则返装的概率p为多少?解:用超几何分布模型计算:超几何分布

超几何分布的数字特征:

扩充几何分布

将超几何分布扩充到以下条件:(1)全体为有限的N个物体,可分为m类:,它们在N中分别含件。(2)从N物件中,随机地逐个取出n件,且每次取出后不再替换,则得到个类,个类,…,个类物件的概率为扩充超几何分布,其模型为:

泊桑分布这是一种常见的重要离散分布,其条件是:(1)已知某种事件在一定时间区段内出现的平均次数为。(2)这种事件可能出现的次数远大于。(3)该事件每次出现均为独立。(4)该事件出现的次数仅与时间区段长度有关,而与区段外这种事件出现的次数无关。

则在某个给定的时间区段内,该事件出现x次的概率为泊桑分布,其模型描述为:

[例]1910年Rutherford和Geiger在镤放射源前的小屏幕上记录粒子每分钟撞击次数x的频数列于下表。每分钟撞击次数观测到的频数撞击次数按泊桑分布计算的频数057054120320321123837664073525157552645352128508540820403946273163825471399731408453606892724329101010011116666总计2608100922608[例]1910年Rutherford和Geiger在镤放射源前的小屏幕上记录粒子每分钟撞击次数x的频数列于下表。解:考虑到不太长的时期内,粒子放出的平均次数为常数,每个粒子的放出可认为独立,且放出次数只与时间有关,故可假设符合泊桑分布。首先计算粒子放出的平均次数:则泊桑分布模型:计算不同值时的频数列于表,可见与实际观测值非常接近。泊桑分布泊桑分布的数字特征:泊桑分布与二项分布之间的关系由二项分布的数字特征得:由二项分布模型得:

泊桑分布与二项分布之间的关系当时,上式有又因为:所以得:但是只有当时,才为有限值,所以应写为:几种离散分布模型之间的关系随机变量及其分布:

连续型随机变量的概率分布当随机变量可以在数轴的一个连续区段内取任意值,则需要用连续型概率分布模型。重点:介绍连续型随机变量若干重要的分布模型。 连续均匀分布 指数分布

Gamma分布

Beta分布

Weibull分布

Chi平方分布连续均匀分布(矩形分布)特点:在一定范围内(从上限a到下限b),事件出现的概率密度q为常数,而在该范围之外为0。概率密度的数学模型:连续均匀分布(矩形分布)对x积分后得到分布函数Q:连续均匀分布(矩形分布)矩形分布的数字特征:指数分布适用于描述出现某事件所需等待时间的概率分布。(例如设备从开始运行到出现故障的延续时间。)数学形式可在以下假设条件下引出:(1)在任一时间段内,事件发生的概率仅与时间段的长度有关,而与时间的起点或终点无关。(2)在一小段时间内,事件发生的概率近似地正比于时间段长,即。(3)在不相重叠的各时间段内,事件的发生是独立的。

指数分布将不发生事件的时间段(0,x)分成n等份:各时间段内事件系独立发生,又令p为不发生事件的概率:t为发生事件的时刻根据条件(1)和(2):为发生事件的概率指数分布因此,在时发生事件的概率为:这是分布函数,相应的密度函数为分布函数的导数:其中为寿命参数。(这是和离散型的几何分布相对应的一种连续分布模型。它在设备和元件的寿命问题中有广泛的应用,实际上是可靠性研究领域中的一种标准分布。)指数分布当时,指数分布的密度函数当时,指数分布的分布函数指数分布指数分布的数字特征为:指数分布[例]某设备采用一元件,它的故障时间T遵循指数分布,并已测得参数为。现将该种元件分别用于5台设备中,试问:8年以后,至少还有2个该种元件仍在工作着的概率为多少?解:根据指数分布,8年后该元件仍在工作着的概率为:令x表示8年后仍在工作着的元件数,由于这是离散性问题,所以采用二项分布:Gamma分布(第三类Pearson分布)设在时间区段内,事件的平均出现率为每单位时间次。Gamma分布系用来描述出现r次事件所需要的时间长度x的概率分布。数学模型:[1]将时间区段离散化,把它等分为n个子区段,长度均为T/n。取n足够大,使每个区段出现1次以上事件的概率可以忽略不计。又设各子区段中事件的出现均为独立。因此,在任一子区段出现一个事件的概率为:[2]出现r次事件所需要的时间区段个数k的概率可以用负二项分布描述为:数学模型:[3]得到x的密度函数为:Gamma分布考虑Gamma函数:当r为非负整数时出现每次事件平均所需时间单参数Gamma分布Gamma分布二参数Gamma分布的数字特征为:单参数Gamma分布当r=1时,单参数Gamma分布就是的指数分布。

设有r个独立的随机变量都符合的指数分布,定义另一随机变量:则y将符合单参数Gamma分布。Beta分布(第一类Pearson分布)最简单的二参数形式的密度函数为(r和s是二参数):二参数Beta分布的数字特征:Weibull分布最常用的是它最简单的二参数形式密度函数:k为标度参数,s为形状参数。二参数Weibull分布的数字特征为:广泛应用于寿命检验,可靠性研究等方面的模型。单参数Weibull分布的密度函数Chi分布Gamma分布的另一种特殊情况是当:时称为Chi平方分布。它是假设检验的重要工具,其密度函数为:称为自由度(它的含义将在以后章节中介绍)。Chi平方分布的数字特征为:几种分布之间的关系几种连续和离散分布之间的关系

离散对象连续对象单次事件几何分布出现一次事件需要测试的次数指数分布出现一次事件需要延续的时间长度多次事件负二项分布出现k次事件需要测试的次数xGamma分布出现r次事件需要延续的时间长度x随机变量及其分布:

正态分布这是连续型随机变量的一种最常见分布模型。在很多实际情况下可以用它描述或近似地描述随机变量的分布。当观测数据中包含的误差纯属随机性,则这种随机变量的概率密度函数一般可用正态分布模型描述。随机误差的特点:(1)大小相等而符号相反的误差出现的概率密度相同。(2)概率密度随误差的绝对值增大而单调下降。(3)绝对值很大的误差出现的概率密度趋于零。正态分布正态分布的密度函数为:(精确度指数)

和分别表示观测数据总体平均值和标准差。正态分布密度函数曲线的位置和形状决定于和两个参数,可以简单地表示为:正态分布曲线正态分布根据误差定义只包含随机因素影响的观测数据,为随机误差。得:这就是随机误差的概率密度函数,或称随机误差的正态分布。因为它们的形状只决定于单个参数,所以表示为:又称其为Gauss误差分布概率方程。随机误差的正态分布标准正态分布引入一个新的随机变量:得:(1)时,,为概率密度最大位置。(2)从正负两方面离开0后,概率密度的值都下降。(3)密度曲线对垂直线对称,。(4)在和处各有一个变凹点。(5)在和之间,密度曲线下的面积表示取值在区间的概率,即:(6)从到,曲线下的面积为1.0。(7)正态分布的数字特征为:(8)规则:标准正态分布有下列性质设为n个具有正态分布的随机变量,它们的总体平均值和方差分别为:和则由线性组合而构成的随机变量也将具有正态分布。且它的总体平均值为:方差为:正态分布的重现性。可以证明:泊桑分布和Chi平方分布也具有重现性。重要特性正态分布和其他分布的关系对于具有二项分布的随机变量x,当时,它经变换后的变量:将遵循标准正态分布,即。对于Gamma分布,在r值逐渐增大后,将趋于正态分布。例如,设,则Gamma分布的数字特征:和正态分布的数字特征已非常接近。正态分布判断过程测量变量:(1)平均值附近出现的概率最大。(2)离平均值正负两方面偏差出现的概率差不多。(3)很大的偏差出现的概率很小。如果:则可以满意地用正态分布。对数正态分布对数正态分布是描述不对称分布最重要的一种模型:对数正态

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论