版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
概率与频率数学建模培训第1页概率,又称几率,或然率,是反应某种事件发生可能性大小一个数量指标,它介于0与1之间。概率论是研究随机现象统计规律一门数学分支学科,希望经过此次学习,能加深对频率和概率等概念了解和认识,并掌握一些概率统计基本原理。随机现象中出现某个可能结果基本知识第2页基本知识
随机试验:满足以下三个条件试验能够在相同情况下重复进行;试验全部可能结果是明确可知,且不止一个;每次试验结果无法预知,但有且只有一个结果。
概率与频率概率是指某个随机事件发生可能性一个度量,是该随机事件本身属性。频率是指某随机事件在随机试验中实际出现次数与随机试验进行次数比值。频率概率随机试验进行次数第3页随机变量基本知识统计分析(假设检验、相关分析、回归分析…)数字特征(均值、方差、相关系数、特征函数…)第4页注:rand(n)=rand(n,n)Matlab中随机函数randperm(m)生成一个由1:m
组成随机排列randn(m,n)生成一个满足正态分布m
n
随机矩阵rand(m,n)
生成一个满足均匀分布m
n
随机矩阵,矩阵每个元素都在(0,1)
之间。perms(1:n)生成由1:n
组成全排列,共n!
个第5页name
取值能够是'norm'or'Normal''unif'or'Uniform''poiss'or'Poisson''beta'or'Beta''exp'or'Exponential''gam'or'Gamma''geo'or'Geometric''unid'or'DiscreteUniform'......random('name',A1,A2,A3,M,N)Matlab中随机函数第6页绘制直方图hist(X,M)
%
二维条形直方图,显示数据分布情形将向量X中元素依据它们数值范围进行分组,每一组作为一个条形进行显示。条形直方图中x-轴反应了向量X
中元素数值范围,直方图y-轴显示出向量X
中元素落入该组数目。M
用来控制条形个数,缺省为10。x=[1293580235210];hist(x);hist(x,5);hist(x,2);例:x=randn(1000,1);hist(x,100);histfit(x,NBINS)
%
附有正态密度曲线直方图
NBINS
指定条形个数,缺省为x
中数据个数平方根。第7页fix(x):
截尾取整,直接将小数部分舍去floor(x):
不超出x
最大整数ceil(x):
大于x
最小整数round(x):
四舍五入取整Matlab中取整函数第8页x1=fix(3.9);x2=fix(-3.9);x3=floor(3.9);x4=floor(-3.2);x5=ceil(3.1);x6=ceil(-3.9);x7=round(3.9);x8=round(-3.2);x9=round(-3.5);x1=3x2=-3x3=3x4=-4x5=4x6=-3x7=4x8=-3x9=-4取整函数举例第9页unique(a)合并a
中相同项,并按从小到大排序若a是矩阵,则输出为一个列向量prod(X)假如X
是向量,则返回其全部元素乘积。假如X
是矩阵,则计算每一列中全部元素乘积。其它相关函数a=[129323];b=unique(a)a=[129;323];b=unique(a)第10页依据表示式不一样取值,分别执行不一样语句switchexpr
casecase1
statements1
casecase2
statements2
......casecasem
statementsm
otherwise
statements
endswitch选择语句第11页method='Bilinear';switch
lower(method)
case{'linear','bilinear'}disp('Methodislinear')
case'cubic'disp('Methodiscubic')
case'nearest'disp('Methodisnearest')
otherwisedisp('Unknownmethod.')endswitch选择语句举例第12页
这里我们主要用rand
函数和randperm
函数来模拟满足均匀分布随机试验。
试验方法先设定进行试验总次数采取循环结构,统计指定事件发生次数计算该事件发生次数与试验总次数比值试验方法第13页
随机投掷均匀硬币,验证国徽朝上与朝下概率是否都是1/2
n=10000;%
给定试验次数m=0;fori=1:nx=randperm(2)-1;y=x(1);ify==0%0表示国徽朝上,1表示国徽朝下m=m+1;endendfprintf('国徽朝上频率为:%f\n',m/n);试验一:投掷硬币第14页随机投掷骰子,验证各点出现概率是否为1/6
n=10000;m1=0;m2=0;m3=0;m4=0;m5=0;m6=0;fori=1:nx=randperm(6);y=x(1);switchycase1,m1=m1+1;case2,m2=m2+1;case3,m3=m3+1;case4,m4=m4+1;case5,m5=m5+1;otherwise,m6=m6+1;endend...%
输出结果试验二:投掷骰子第15页
用蒙特卡罗(MonteCarlo)投点法计算
值n=100000;a=2;m=0;fori=1:nx=rand(1)*a/2;y=rand(1)*a/2;if(x^2+y^2<=(a/2)^2)m=m+1;endendfprintf('计算出来pi为:%f\n',4*m/n);试验三:蒙特卡罗投点法第16页
在画有许多间距为d
等距平行线白纸上,随机投掷一根长为l(l
d)均匀直针,求针与平行线相交概率,并计算
值。试验四:蒲丰投针试验第17页n=100000;l=0.5;d=1;m=0;fori=1:nalpha=rand(1)*pi;y=rand(1)*d/2;ify<=l/2*sin(alpha)m=m+1;endendfprintf('针与平行线相交频率为:%f\n',m/n);fprintf('计算出来pi为:%f\n’,2*n*l/(m*d));试验四源程序第18页
设某班有m
个学生,则该班最少有两人同一天生日概率是多少?试验五:生日问题解:设一年为365天,且某一个学生生日出现在一年中每一天都是等可能,则班上任意两个学生生日都不相同概率为:所以,最少有两个学生同一天生日概率为:第19页n=1000;p=0;m=50;%
设该班人数为50fort=1:na=[];q=0;fork=1:mb=randperm(365);a=[a,b(1)];endc=unique(a);iflength(a)~=length(c)p=p+1;endendfprintf(‘任两人不在同一天生日频率为:%f\n',p/n);试验五源程序第20页clear;m=50;p1=1:365;p2=[1:365-m,365*ones(1,m)];p=p1./p2;p=1-prod(p);fprintf('最少两人同一天生日概率为:%f\n',p);试验五理论值计算第21页
彩票箱内有m
张彩票,其中只有一张能中彩。
问m
个人依次摸彩,第k(k
≤
m)个人中彩概率是多少?你能得出什么结论?第一个人中彩概率为:推知第k个人中彩概率为:第三个人中彩概率为:第二个人中彩概率为:试验六:摸彩问题第22页n=10000;m=10;p=0;k=5;%
计算第5个人中彩频率fort=1:nx=randperm(m);y=x(1);ify==kp=p+1;endendfprintf('第%d
个人中彩频率为:%f\n',p/n);试验六源程序第23页概率与统计概率论中所研究随机变量分布都是已知。统计学中所研究随机变量分布是未知或部分未知,必须经过对所研究随机变量进行重复独立观察和试验,得到所需观察值(数据),对这些数据分析后才能对其分布做出种种判断,即“从局部推断总体”。第24页统计学给定一组数据,统计学能够摘要而且描述这份数据,这个使用方法称作为描述统计学。观察者以数据形态建立出一个用以解释其随机性和不确定性数学模型,以之来推论研究中步骤及母体,这种使用方法被称做推论统计学。数理统计学专门用来讨论这门科目背后理论基础。
第25页数据统计分析第26页现实生活中许多数据都是随机产生,如考试分数、月降雨量、灯泡寿命等。从数理统计角度来看,这些数据其实都是符合某种分布,这种规律就是统计规律。经过对概率密度函数曲线直观认识和数据分布形态猜测,以及密度函数参数预计,进行简单分布假设检验,揭示日常生活中随机数据一些统计规律。背景和目标第27页Matlab相关命令介绍
pdf概率密度函数y=pdf(name,x,A)y=pdf(name,x,A,B)或
y=pdf(name,x,A,B,C)返回由name
指定单参数分布概率密度,x为样本数据
name
用来指定分布类型,其取值能够是:
'beta'、'bino'、'chi2'、'exp'、'ev'、'f'、
'gam'、'gev'、'gp'、'geo'、'hyge'、'logn'、
'nbin'、'ncf'、'nct'、'ncx2'、'norm'、
'poiss'、'rayl'、't'、'unif'、'unid'、'wbl'。返回由name
指定双参数或三参数分布概率密度第28页Matlab相关命令介绍例:x=-8:0.1:8;y=pdf('norm',x,0,1);y1=pdf('norm',x,1,2);plot(x,y,x,y1,':')注:
y=pdf('norm',x,0,1)
y=normpdf(x,0,1)相类似地,
y=pdf('beta',x,A,B)
y=betapdf(x,A,B)
y=pdf('bino,x,N,p)
y=binopdf(x,N,p)……
……第29页Matlab相关命令介绍
normfit正态分布中参数预计[muhat,sigmahat,muci,sigmaci]=normfit(x,alpha)对样本数据x
进行参数预计,并计算置信度为1-alpha
置信区间
alpha
能够省略,缺省值为0.05,即置信度为95%
load从matlab数据文件中载入数据S=load('数据文件名')
hist绘制给定数据直方图hist(x,m)第30页Matlab相关命令介绍table=tabulate(x)绘制频数表,返回值table
中,第一列为x值,第二列为该值出现次数,最终一列包含每个值百分比。ttest(x,m,alpha)假设检验函数。此函数对样本数据x
进行显著性水平为alpha
t
假设检验,以检验正态分布样本x(标准差未知)均值是否为m。第31页Matlab相关命令介绍normplot(x)统计绘图函数,进行正态分布检验。研究表明:假如数据是来自一个正态分布,则该线为一直线形态;假如它是来自其它分布,则为曲线形态。wblplot(x)统计绘图函数,进行Weibull
分布检验。第32页Matlab相关命令介绍
其它函数
cdf
系列函数:累积分布函数
inv
系列函数:逆累积分布函数
rnd
系列函数:随机数发生函数
stat
系列函数:均值与方差函数例:p=normcdf(-2:2,0,1)x=norminv([0.0250.975],0,1)n=normrnd(0,1,[15])n=1:5;
[m,v]=normstat(n'*n,n'*n)第33页常见概率分布二项式分布Binomialbino卡方分布Chisquarechi2指数分布ExponentialexpF分布Ff几何分布Geometricgeo正态分布Normalnorm泊松分布PoissonpoissT分布Tt均匀分布Uniformunif离散均匀分布DiscreteUniformunid第34页连续分布:正态分布
正态分布(连续分布)假如随机变量X
密度函数为:则称X
服从正态分布。记做:标准正态分布:N(0,1)正态分布也称高斯分布,是概率论中最主要一个分布。假如一个变量是大量微小、独立随机原因叠加,那么它一定满足正态分布。如测量误差、产品质量、月降雨量等第35页正态分布举例x=-8:0.1:8;y=normpdf(x,0,1);y1=normpdf(x,1,2);plot(x,y,x,y1,':')例:标准正态分布和非标准正态分布密度函数图形第36页连续分布:均匀分布
均匀分布(连续分布)假如随机变量X
密度函数为:则称X
服从均匀分布。记做:
均匀分布在实际中经常使用,譬如一个半径为r
汽车轮胎,因为轮胎上任一点接触地面可能性是相同,所以轮胎圆周接触地面位置X
是服从[0,2
r]
上均匀分布。第37页均匀分布举例x=-10:0.01:10;r=1;y=unifpdf(x,0,2*pi*r);plot(x,y);第38页连续分布:指数分布
指数分布(连续分布)假如随机变量X
密度函数为:则称X
服从参数为
指数分布。记做:
在实际应用问题中,等候某特定事物发生所需要时间往往服从指数分布。如一些元件寿命;随机服务系统中服务时间;动物寿命等都常常假定服从指数分布。指数分布含有没有记忆性:第39页指数分布举例x=0:0.1:30;y=exppdf(x,4);plot(x,y)例:
=4时指数分布密度函数图第40页离散分布:几何分布
几何分布是一个常见离散分布
在贝努里试验中,每次试验成功概率为
p,设试验进行到第
次才出现成功,则
分充满足:其右端项是几何级数
普通项,于是人们称它为几何分布。第41页x=0:30;y=geopdf(x,0.5);plot(x,y)例:p=0.5时几何分布密度函数图第42页离散分布:二项式分布
二项式分布属于离散分布假如随机变量X
分布列为:则称这种分布为二项式分布。记做:第43页x=0:50;y=binopdf(x,500,0.05);plot(x,y)例:n=500,p=0.05时二项式分布密度函数图第44页离散分布:Poisson分布
泊松分布也属于离散分布,是1837年由法国数学家Poisson首次提出,其概率分布列为:记做:
泊松分布是一个惯用离散分布,它与单位时间(或单位面积、单位产品等)上计数过程相联络。如:单位时间内,电话总机接到用户呼唤次数;1
平方米内,玻璃上气泡数等。第45页Poisson分布举例x=0:50;y=poisspdf(x,25);plot(x,y)例:
=25时泊松分布密度函数图第46页离散分布:均匀分布假如随机变量X
分布列为:则称这种分布为离散均匀分布。记做:第47页n=20;x=1:n;y=unidpdf(x,n);plot(x,y,'o-')例:n=20时离散均匀分布密度函数图第48页抽样分布:
2分布设随机变量X1,X2,…,Xn
相互独立,且同服从正态分布N(0,1),则称随机变量
n2=
X12+X22+…+Xn2服从自由度为n
2分布,记作,亦称随机变量
n2为
2变量。第49页x=0:0.1:20;y=chi2pdf(x,4);plot(x,y)例:n=4和n=10时
2分布密度函数图x=0:0.1:20;y=chi2pdf(x,10);plot(x,y)第50页抽样分布:
F分布设随机变量
,且X
与Y
相互独立,则称随机变量为服从自由度(m,n)
F
分布。记做:第51页x=0.01:0.1:8.01;y=fpdf(x,4,10);plot(x,y)例:F(4,10)分布密度函数图第52页抽样分布:
t分布设随机变量
,且X
与Y
相互独立,则称随机变量为服从自由度n
t
分布。记做:第53页x=-6:0.01:6;y=tpdf(x,4);plot(x,y)例:t
(4)分布密度函数图第54页频数直方图或频数表对于给定数据集,假设它们满足以上十种分布之一,怎样确定属于哪种分布?绘制频数直方图,或列出频数表第55页
从图形上看,笔试成绩较为靠近正态分布x=load('data1.txt');x=x(:);hist(x)例1:某次笔试分数见data1.txt,试画出频数直方图第56页频数直方图或频数表x=load('data2.txt');x=x(:);hist(x)例2:某次上机考试分数见data2.txt,试画出频数直方图
从图形上看,上机考试成绩较为靠近离散均匀分布第57页x=load('data3.txt');x=x(:);hist(x)例3:上海1998年来月降雨量数据见data3.txt,
试画出频数直方图
从图形上看,月降雨量较为靠近
2分布第58页频数直方图或频数表在重复数据较多情况下,我们也能够利用Matlab自带tabulate
函数生成频数表,并以频数表形式来发掘数据分布规律。x=load('data4.txt');
x=x(:);tabulate(x)hist(x)例4:给出数据data4.txt,试画出其直方图,并生成频数表第59页ValueCountPercent1613.04%2613.04%31226.09%41021.74%5510.87%6715.22%第60页频数直方图或频数表x=load('data5.txt');x=x(:);hist(x)fiugrehistfit(x)%
加入较靠近正态分布密度曲线例5:现累积有100次刀具故障统计,当故障出现时该批刀具完成零件数见data5.txt,试画出其直方图。第61页
从图形上看,较为靠近正态分布第62页参数预计当我们能够基本确定数据集X
符合某种分布后,我们还需要确定这个分布参数。因为正态分布情况发生比较多,故我们主要考虑正态分布情形。对于未知参数预计,可分两种情况:点预计区间预计第63页参数预计:点预计结构样本X
与某个统计量相关一个函数,作为该统计量一个预计,称为点预计。Matlab统计工具箱中,普通采取最大似然预计法给出参数点预计。泊松分布P
(
)
最大似然预计是指数分布Exp
(
)
最大似然预计是第64页点预计举例正态分布N
(
,
2)
中,
最大似然预计是,
2最大似然预计是x=load('data1.txt');x=x(:);[mu,sigma]=normfit(x)例6:已知例1中数据服从正态分布
N
(
,
2)
,试求其参数
和
值。使用
normfit
函数第65页参数预计:区间预计结构样本X
与某个统计量相关两个函数,作为该统计量下限预计与上限预计,下限与上限组成一个区间,这个区间作为该统计量预计,称为区间预计。Matlab统计工具箱中,普通也采取最大似然预计法给出参数区间预计。第66页区间预计举例x=load('data1.txt');x=x(:);[mu,sigma,muci,sigmaci]=normfit(x)例7:已知例1中数据服从正态分布
N
(
,
2)
,试求出
和
2
置信度为95%区间预计。x=load('data6.txt');x=x(:);[mu,sigma,muci,sigmaci]=normfit(x,0.01)例8:从自动机床加工同类零件中抽取16件,测得长度值见data6.txt,已知零件长度服从正态分布
N
(
,
2)
,试求零件长度均值
和标准差
置信度为99%置信区间。第67页假设检验对总体分布律或分布参数作某种假设,依据抽取样本观察值,利用数理统计分析方法,检验这种假设是否正确,从而决定接收假设或拒绝假设,这就是假设检验问题。以正态假设检验为例,来说明假设检验基本过程。第68页正态假设检验正态假设检验普通过程:假设检验:利用Matlab统计工具箱给出惯用假设检验方法函数ttest,进行显著性水平为alpha
t
假设检验,以检验正态分布样本x(标准差未知)均值是否为m。运行结果中,当h=1
时,表示拒绝零假设;当h=0
时,表示不能拒绝零假设。对比正态分布概率密度函数分布图,判断某统计量分布可能服从正态分布利用统计绘图函数normplot
或wblplot
进行正态分布检验第69页正态假设检验举例例9:试说明例5中刀具使用寿命服从正态分布,而且说明在方差未知情况下其均值m取为597是否合理。(1)对比刀具使用寿命分布图与正态分布概率密度分布函数图,得初步结论:该批刀具使用寿命可能服从正态分布。解:第70页第71页x=load('data5.txt');x=x(:);normplot(x)(2)利用统计绘图函数normplot
进行分布正态性检验结果显示:这100个离散点非常靠近倾斜直线段,即图形为线性,所以可得结论:该批刀具使用寿命近似服从正态分布。第72页正态假设检验举例x=load('data5.txt');x=x(:);h=ttest(x,597,0.05)(3)利用函数ttest
进行显著性水平为alpha
t
假设检验检验结果:h=0。表示不拒绝零假设,说明所提出假设“寿命均值为597”是合理第73页
前面讨论了当总体分布为正态时,关于其中未知参数假设检验问题.
然而可能碰到这么情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设.第74页比如,从1500年到1931年432年间,每年暴发战争次数能够看作一个随机变量,据统计,这432年间共暴发了299次战争,详细数据以下:战争次数X01234
22314248154
发生X次战争年数第75页
在概率论中,大家对泊松分布产生普通条件已经有所了解,轻易想到,每年暴发战争次数,能够用一个泊松随机变量来近似描述.也就是说,我们能够假设每年暴发战争次数分布X近似泊松分布.上面数据能否证实X
含有泊松分布假设是正确?现在问题是:第76页再如,某工厂制造一批骰子,声称它是均匀.为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现频率与1/6差距.也就是说,在投掷中,出现1点,2点,…,6点概率都应是1/6.得到数据能否说明“骰子均匀”假设是可信?问题是:第77页K.皮尔逊这是一项很主要工作,不少人把它视为近代统计学开端.
处理这类问题工具是英国统计学家K.皮尔逊在19发表一篇文章中引进所谓
检验法.第78页
检验法是在总体X分布未知时,依据来自总体样本,检验关于总体分布假设一个检验方法.第79页
H0:总体X分布函数为F0(x)然后依据样本经验分布和所假设理论分布之间吻合程度来决定是否接收原假设.使用
对总体分布进行检验时,我们先提出原假设:检验法这种检验通常称作拟合优度检验,它是一个非参数检验.第80页总体分布拟合优度检验
GoodnessofFitTest
forDistributionofPopulation第81页卡方拟合优度检验原理与步骤1.原理判断样本观察频数(Observedfrequency)与理论(期望)频数(Expectedfrequency
)之差是否由抽样误差所引发。第82页3.依据所假设理论分布,能够算出总体X值落入每个Ak概率pk,于是npk就是落入Ak样本值理论频数.1.将总体X取值范围分成r个互不重迭小区间[ai-1,ai],i=1,…r,记作A1,A2,…,Ar
.2.把落入第k个小区间Ak样本值个数记作nk
,称为实际频数.2.步骤第83页标志着经验分布与理论分布之间差异大小.皮尔逊引进以下统计量表示经验分布与理论分布之间差异:统计量分布是什么?在理论分布已知条件下,npk是常量实际频数理论频数第84页皮尔逊证实了以下定理:
若原假设中理论分布F0(x)已经完全给定,那么当时,统计量分布渐近(r-1)个自由度分布.
假如理论分布F0(x)中有m个未知参数需用对应预计量来代替,那么当时,统计量分布渐近(r-m-1)个自由度分布.第85页
假如依据所给样本值X1,X2,…,Xn算得统计量实测值落入拒绝域,则拒绝原假设,不然就认为差异不显著而接收原假设.得拒绝域:(不需预计参数)(预计r个参数)查分布表可得临界值,使得
依据这个定理,对给定显著性水平,第86页卡方分布下检验水准及其临界值第87页
皮尔逊定理是在n无限增大时推导出来,因而在使用时要注意n要足够大,以及npi不太小这两个条件.
依据计算实践,要求n大于50,以及npi
都大于5.不然应适当合并区间,使npi满足这个要求.注意:理论频数不宜过小(如大于5),不然需要合并组段!第88页让我们回到开始一个例子,检验每年暴发战争次数分布是否服从泊松分布.提出假设H0:X服从参数为泊松分布按参数为0.69泊松分布,计算事件X=i概率pi
,=0.69将相关计算结果列表以下:pi预计是,i=0,1,2,3,4依据观察结果,得参数极大似然预计为第89页
因H0所假设理论分布中有一个未知参数,故自由度为4-1-1=2.x01234fi
22314248154
0.580.310.180.010.02n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海南种植转让合同范例
- 派遣合同范例 医院
- danbao借款合同范例
- 合作合同范例国家
- 活动合同范例
- 签项目合同范例
- 商务会议合同范例
- 工程人工费合同范例
- 铜仁学院《葡萄与葡萄酒》2023-2024学年第一学期期末试卷
- 铜陵学院《设备安装工程实训》2023-2024学年第一学期期末试卷
- 2024年情趣用品行业商业发展计划书
- 五年级上册数学说课稿《第4单元:第1课时 体验事件发生的确定性和不确定性》人教新课标
- 5互联网中信息获取 教学设计 2023-2024学年苏科版(2023)初中信息技术七年级上册
- 山东2024年山东工业技师学院招聘23人笔试历年典型考题及考点附答案解析
- 知道智慧网课《化学分析》章节测试答案
- 11《葡萄沟》教学课件2023-2024学年统编版语文二年级上册
- 重庆市江津区2023-2024学年下学期七年级期末检测数学试卷 (A)
- JBT 14682-2024 多关节机器人用伺服电动机技术规范(正式版)
- DL-T5434-2021电力建设工程监理规范
- 青海省西宁市2023-2024学年七年级上学期期末英语试题(含答案)
- 色彩原理与应用智慧树知到期末考试答案章节答案2024年上海出版印刷高等专科学校
评论
0/150
提交评论