数学数据统计分析最终PPT课件_第1页
数学数据统计分析最终PPT课件_第2页
数学数据统计分析最终PPT课件_第3页
数学数据统计分析最终PPT课件_第4页
数学数据统计分析最终PPT课件_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、预备知识 概率和统计MATLAB第1页/共71页2概率分布离散型随机变量离散型随机变量:离散均匀分布离散均匀分布二项分布二项分布泊松分布泊松分布几何分布几何分布超几何分布超几何分布负二项分布负二项分布连续型随机变量连续型随机变量:连续均匀分布连续均匀分布指数分布指数分布正态分布正态分布对数正态分布对数正态分布2分布分布非中心非中心2分布分布t分布分布非中心非中心t分布分布F分布分布非中心非中心F分布分布分布分布分布分布Rayleigh分布分布Weibull分布分布第2页/共71页常见的概率分布二项式分布Binomialbino卡方分布Chisquarechi2指数分布Exponentialex

2、pF分布Ff几何分布Geometricgeo正态分布Normalnorm泊松分布PoissonpoissT分布Tt均匀分布Uniformunif离散均匀分布Discrete Uniformunid第3页/共71页 n个点上的均匀分布q 如果随机变量如果随机变量 X 的分布列为:的分布列为: 2 1()1,P Xkknn则称这种分布为则称这种分布为离散均匀分布离散均匀分布。记做:。记做: 1,2, XUnn=20;x=1:n;y=unidpdf(x,n);plot(x,y,o-)例:例: n=20 时的离散均匀分布密度函数图时的离散均匀分布密度函数图离散分布: 21111,nniiiiEXxxD

3、Xxxnn第4页/共71页 几何分布q 几何分布几何分布是一种常见的是一种常见的离散分布离散分布l 在贝努里实验中,每次试验成功的概率为在贝努里实验中,每次试验成功的概率为 p,设试验进行,设试验进行到第到第 次才出现成功,则次才出现成功,则 的分布满足:的分布满足:其右端项其右端项是几何级数是几何级数 的一般项,于是人们称它为的一般项,于是人们称它为几何分布几何分布。11kkpq 1()1,2,kpqPkk x=0:30; y=geopdf(x,0.5); plot(x,y,o-)例:例: p=0.5 时的几何分布密度函数图时的几何分布密度函数图离散分布:21,qEXDXpp第5页/共71页

4、 0-1分布q 0-1分布分布 (Bernoulli分布分布)l 如果随机变量如果随机变量 X 的分布列为:的分布列为:则称这种分布为则称这种分布为服从服从参数为参数为p的的0-1分布。分布。 (1),(0)1, 01 .P Xp P Xpp离散分布: ,1.EXpDXpq第6页/共71页 二项分布q 二项分布二项分布属于离散分布属于离散分布l 如果随机变量如果随机变量 X 的分布列为:的分布列为:则称这种分布为二项分布。记做:则称这种分布为二项分布。记做: ( ,)Xb n p (1()0,1,)kn knppP Xkkkn x=0:50;y=binopdf(x,500,0.05);plot

5、(x,y,o-)例:例: n=500,p=0.05 时的二项分布密度函数图时的二项分布密度函数图离散分布: ,1.EXnpDXnpq n=1,服从参数为p的0-1分布第7页/共71页 Poisson 分布q 泊松分布泊松分布也属于离散分布,是也属于离散分布,是1837年由发个数年由发个数学家学家 Poisson 首次提出,其概率分布列为:首次提出,其概率分布列为:记做:记做:( )XP !()0, 1, 2,0kPekkXk l 泊松分布是一种常用的离散分布,它与单位时间(或单泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系位面积、单位产品等)上的计数过程

6、相联系。如:单位时如:单位时间内,电话总机接到用户呼唤次数;间内,电话总机接到用户呼唤次数;1 平方米内,玻璃上的平方米内,玻璃上的气泡数等气泡数等。离散分布:.EXDX 第8页/共71页Poisson 分布举例x=0:50;y=poisspdf(x,25);plot(x,y, o-)例:例: =25 时的泊松分布密度函数图时的泊松分布密度函数图第9页/共71页 均匀分布q 均匀分布均匀分布(连续分布)(连续分布)l 如果随机变量如果随机变量 X 的密度函数为:的密度函数为:则称则称 X 服从均匀分布。记做:服从均匀分布。记做: , XU a bl 均匀分布在实际中经常使用,譬如一个半径为均匀

7、分布在实际中经常使用,譬如一个半径为 r 的汽车轮的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置轮胎圆周接触地面的位置 X 是服从是服从 0,2 r 上的均匀分布上的均匀分布。 1)0,(, axbf xba 其其他他连续分布: 2,212b aa bEXDX 第10页/共71页均匀分布举例x=-10:0.01:10;r=1;y=unifpdf(x,0,2*pi*r);plot(x,y,o-)第11页/共71页 正态分布q 正态分布正态分布(连续分布)(连续分布)l 如果随机变量如果随机变量 X 的密度函数

8、为:的密度函数为:22X 2e()2(1)f x 0,x 则称则称 X 服从正态分布。记做:服从正态分布。记做:2( ,)XN l 标准正态分布:标准正态分布:N (0, 1)l 正态分布也称高斯分布,是概率论中最重要的一个分布。正态分布也称高斯分布,是概率论中最重要的一个分布。l 如果如果一个变量一个变量是是大量微小、独立的随机因素大量微小、独立的随机因素的的叠加,那么叠加,那么它它一定一定满足满足正态正态分布。分布。如测量误差、产品质量、月降雨量等如测量误差、产品质量、月降雨量等连续分布:第12页/共71页正态分布举例x=-8:0.1:8;y=normpdf(x,0,1);y1=normp

9、df(x,1,2);plot(x,y,x,y1,:)例:例:标准正态分布和非标准正态分布密度函数图形标准正态分布和非标准正态分布密度函数图形第13页/共71页 指数分布q 指数分布指数分布(连续分布)(连续分布)l 如果随机变量如果随机变量 X 的密度函数为:的密度函数为:则称则称 X 服从参数为服从参数为 的指数分布。记做:的指数分布。记做: Exp( )X l 在实际应用问题中,等待某特定事物发生所需要的时间往在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布往服从指数分布。如某些元件的寿命;随机服务系统中的服如某些元件的寿命;随机服务系统中的服务时间;动物的寿命等都常务时间

10、;动物的寿命等都常常常假定服从指数分布假定服从指数分布。 ,00,0( )xf xexx 0 l 指数分布具有无记忆性:指数分布具有无记忆性:|P Xst XsP Xt 连续分布:211,EXDX 第14页/共71页指数分布举例x=0:0.1:30;y=exppdf(x,4);plot(x,y)例:例: =4 时的指数分布密度函数图时的指数分布密度函数图第15页/共71页 2分布q 设随机变量设随机变量 X1, X2, , Xn 相互独立,且同服从正态相互独立,且同服从正态分布分布 N(0,1),则称随机变量,则称随机变量 n2= X12+X22+ +Xn2服从服从自由度为自由度为 n 的的

11、2 分布,记作分布,记作 ,亦称随,亦称随机变量机变量 n2 为为 2 变量。变量。22( )nnx=0:0.1:20; y=chi2pdf(x,4); plot(x,y)例:例: n=4 和和 n=10 时的时的 2 分布密度函数图分布密度函数图x=0:0.1:20; y=chi2pdf(x,10); plot(x,y)抽样分布:第16页/共71页 F 分布q 设随机变量设随机变量 ,且,且 X 与与 Y 相相互独立,则称随机变量互独立,则称随机变量 22(),( )XmYnx=0.01:0.1:8.01;y=fpdf(x,4,10);plot(x,y)例:例: F(4,10) 的分布密度函

12、数图的分布密度函数图/FX mY n 为服从自由度为服从自由度 (m, n) 的的 F 分布。记做:分布。记做:(, )FF m n抽样分布:第17页/共71页 t 分布q 设随机变量设随机变量 ,且,且 X 与与 Y 相相互独立,则称随机变量互独立,则称随机变量 2(0,1),( )XNYn x=-6:0.01:6;y=tpdf(x,4);plot(x,y)例:例: t (4) 的分布密度函数图的分布密度函数图/TXY n 为服从自由度为服从自由度 n 的的 t 分布。记做:分布。记做: ( )Tt n抽样分布第18页/共71页分布函数和逆分布函数q q 第19页/共71页统计量 样本均值样

13、本方差样本协方差样本相关系数样本百分位数q%上分位数=(100-q)%下分位数第20页/共71页第八章随机模拟和统计分析MATLAB第21页/共71页第八章随机模拟和统计分析第一部分 描述性统计分析第二部分 统计图第三部分 随机数的生成第四部分 概率函数第五部分 参数估计第六部分 假设检验第22页/共71页第一部分描述性统计分析MATLAB第23页/共71页mean(X)lX向量,返回向量的均值;lX矩阵,返回矩阵每列元素均值构成的行向量均值等均值等描述性统计分析min/max/median/std/var/sum/prod/cumsum/cumprod/ geomean几何平均数 / har

14、mmean调和平均值 l同mean第24页/共71页 对随机变量对随机变量x,计算其基本统计量的命令:,计算其基本统计量的命令:mean(x)std(x)skewness(x)median(x)var(x)kurtosis(x)均值均值标准差标准差偏度偏度中位数中位数方差方差峰度峰度第25页/共71页数据比较数据比较Y,I=sort(X)l X向量(Y:X升序排列;I:Y中元素原址) lX矩阵,对各列排序Y,I=sortrows (X)lX矩阵,对各行排序(Y:X升序排列;I:Y中元素原址) range (X)lX的极差描述性统计分析第26页/共71页cov(X,Y)lX,Y为向量,各代表一个

15、样本,求得样本协方差cov(X)lX矩阵,各列为一个样本,求得样本协方差矩阵.对角线元素是X各列的方差corcoef(X)l给出X列向量的相关系数矩阵协方差和相关系数协方差和相关系数corcoef(X,Y)l同cov,给出X,Y向量的相关系数描述性统计分析第27页/共71页 %求A的第2列与第3列列向量的相关系数矩阵 协方差和相关系数例子第28页/共71页Y=prctile(X,p)lX向量(X的p%上分位数) lX矩阵(分别求各列的上分位数)trimmean(X,p)n剔除上下各(p/2)%数据以后的均值上分位数描述性统计分析第29页/共71页第二部分统计图MATLAB第30页/共71页hi

16、st(X,k)l将向量X中数据等距分为k组,并作频数直方图,k=10bar(X,Y)l作向量Y相对与X的条形图bar(Y) l作向量Y的条形图N,X=hist(Y,k)l不作图,N返回数据频数,X返回各组的中心位置boxplot(Y)l作向量Y的箱型图箱中包含了从75%上分位数到25%下分位数的数据,中间线是中位数2. 统计图第31页/共71页绘制直方图hist(X,K) % 二维条形直方图,显示数据的分布情形二维条形直方图,显示数据的分布情形l 将向量 X 中的元素根据它们的数值范围进行分组,每一组作为一个条形进行显示。条形直方图中的 x-轴反映了向量 X 中元素数值的范围,直方图的 y-轴

17、 显示出向量 X 中的元素落入该组的数目。K用来控制条形的个数,缺省为 10。x=1 2 9 3 5 8 0 2 3 5 2 10;hist(x); hist(x,5); hist(x,2);例:例:x=randn(1000,1);hist(x,100);histfit(X,NBINS) % 附有正态密度曲线的直方图附有正态密度曲线的直方图l NBINS 指定条形的个数,缺省为 X 中数据个数的平方根。第32页/共71页 vata=randn(1,100); histfit(vata)第33页/共71页第34页/共71页第35页/共71页第36页/共71页第37页/共71页第38页/共71页第

18、三部分随机数的生成MATLAB第39页/共71页注:注:rand(n)=rand(n,n)randperm(N)l 生成一个由 1:N组成的随机排列randn(m,n)l 生成标准正态分布N(0,1)的 m n 随机矩阵rand(m,n) l 生成一个满足均匀分布的 m n 随机矩阵,矩阵的每个元素都在 (0,1) 之间。perms(1:n)l 生成由 1:n 组成的全排列,共 n! 个3. 随机数的生成第40页/共71页l name 的取值可以是的取值可以是normal Uniformpoisson betaexponentialgammageometricdiscrete Uniform.

19、 .random(name,A1,A2,A3,m,n)通用函数求指定分布的随机数 3. 随机数的生成第41页/共71页第42页/共71页binornd(k,p,m,n)l 生成参数为k, p的m n二项分布随机数矩阵unidrnd(N,m,n)l 生成1,2,N的等概率m n 随机矩阵unifrnd(a,b,m,n)l 生成a,b区间上的连续型均匀分布m n随机数矩阵3. 随机数的生成常用分布的随机数 第43页/共71页R=mvnrnd(mu,sigma,m)l 生成n维正态分布数据,mu是n维均值向量,sigma为n阶协方差矩阵(必须是正定的),R是 m n 矩阵,每行代表一个随机数norm

20、rnd(mu,sigma,m,n) l 生成均值为mu,均方差为sigma的 m n 正态分布随机数矩阵3. 随机数的生成第44页/共71页第四部分概率函数MATLAB第45页/共71页cdfcdf( (name,x,p1,p2,m,n),x,p1,p2,m,n)l生成以p1,p2,为参数的m n 分布函数在x处的值. name表示分布类型的字符串pdfpdf( (name,x,p1,p2,m,n),x,p1,p2,m,n) l 生成以p1,p2,为参数的m n 密度函数在x处的值. name表示分布类型的字符串4. 概率函数icdficdf( (name,x,p1,p2,m,n),x,p1,

21、p2,m,n) l生成以p1,p2,为参数的m n 逆分布函数(下分位数)在x处的值. name表示分布类型的字符串(同random)通用函数 第46页/共71页4. 概率函数normpdf(x,mu,sigma,) l 返回参数为 mu和sigma的正态分布密度函数在x处的值normnormcdfcdf(x,mu,sigma)(x,mu,sigma) l正态分布函数值normnorminvinv(p,mu,sigma)(p,mu,sigma) lnormcdf的逆函数,即p下分位数专用函数 第47页/共71页例:例:x=-8:0.1:8;y=pdf(norm,x,0,1);y1=pdf(no

22、rm,x,1,2);plot(x,y,x,y1,:)n 注:注: y=pdf(norm,x,0,1) y=normpdf(x,0,1)相类似地, y=pdf(beta,x,A,B) y=betapdf(x,A,B) y=pdf(bino,x,N,p) y=binopdf(x,N,p) 4. 概率函数第48页/共71页分布概率函数(密度函数)例子第49页/共71页累计概率函数(分布函数)例子第50页/共71页逆分布函数(下分位数)例子第51页/共71页第五部分统计推断之参数估计MATLAB第52页/共71页5. 参数估计q 已知总体的分布类型,总体参数未知,需要根据样已知总体的分布类型,总体参数

23、未知,需要根据样本对未知参数作出估计。本对未知参数作出估计。q 由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。q 对于未知参数的估计,可分两种情况:l 点估计l 区间估计第53页/共71页正态总体的参数估计正态总体的参数估计 设总体服从正态分布,则其点点估计和区间区间估计可同时由以下命令获得:muhat,sigmahat,muci,sigmaci =normfit(X,alpha)第54页/共71页正态总体的参数估计举例正态总体的参数估计举例第55页/共71页其它分布的参数估计其它分布的参数估计(1)muhat, muci = expfit(X,alpha) 在显著性水平alph

24、a下,求指数分布指数分布的数据X的均值的点估 计及其区间估计.(2)lambdahat, lambdaci = poissfit(X,alpha) 在显著性水平alpha下,求泊松分布泊松分布的数据X 的参数的点 估计及其区间估计.(3)phat, pci = weibfit(X,alpha) 在显著性水平alpha下,求Weibull分布分布的数据X 的参数 的点估计及其区间估计.第56页/共71页第六部分统计推断之假设检验MATLAB第57页/共71页6. 假设检验q 对总体的分布律或分布参数作某种假设,根据抽取对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方

25、法,检验这种的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就假设是否正确,从而决定接受假设或拒绝假设,这就是是假设检验假设检验问题。问题。第58页/共71页 正态总体均值和方差的假设检验是最常用且相对简单的假设检验。 在总体服从正态分布正态分布的情况下,可用以下命令进行假设检验.第59页/共71页 h,sig = ztest(x,m,sigma,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差, alpha 为显著性水平。tail的缺省值为 0, alpha的缺省值为 0.05,sig 为假设成立的概率。第

26、60页/共71页第61页/共71页第62页/共71页h,sig = ttest(x,m,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差, alpha 为显著性水平。tail的缺省值为 0, alpha的缺省值为 0.05,sig 为假设成立的概率。第63页/共71页第64页/共71页 p,h = ranksum(x,y )非参数假设检验第65页/共71页66非参数假设检验例例 某商店为了确定向公司某商店为了确定向公司A或公司或公司B 购买某种产品,将购买某种产品,将A,B公司公司以往各次进货的次品率进行比较,数据如下所示,设两样本独以往各次进货的次

27、品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移,取次品的密度最多只差一个平移,取 = 0.05。A:7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5B :5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3解解 分别以分别以A、B记公司记公司A、B 的商品次品率总体的均值。所需检验的假设是的商品次品率总体的均值。所需检验的假设是H0: A=B,H1:AB .Matlab实现如下:实

28、现如下:a=7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5;b=5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3;p,h=ranksum(a,b)求得求得p=0.8041,h=0,表明两样本总体均值相等的概率为,表明两样本总体均值相等的概率为0.8041,并不很接近于零,并不很接近于零,且且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。说明可以接受原假设,即认为两个公司的商品的质量无明显差异。第66页/共71页非参数假设检验:总体分布的检验normplot(x)l 统计绘图函数,进行统计绘图函数,进行正态分布正态分布检验。研究表明:检验。研究表明:如果数据如果数据是来自一个正态分布,则该线为一直线形态;如果它是来自是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态。其他分布,则为曲线形态。第67页/共71页例例 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下: 459 362 624

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论