




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
4输入数据建模
4.1建立输入数据模型的方法建立输入数据模型可以采用如下三种方法之一:(1)在仿真运行中直接使用收集到的数据(2)把收集到的数据定义为经验分布(3)将数据拟合为某种理论分布1输入数据建模原始数据原始数据经验分布理论分布处理确定数值范围计算频率预处理分布类型辨识参数估计拟合度检验输入数据模型直接使用2(1)在仿真运行中直接使用收集到的数据该方法很直接,也可以用来做确定性模型的有效性检验,但是有两个缺点:(1)只能用收集到的历史数据来驱动仿真模型;(2)经常没用足够多的数据来进行多次仿真试验。3(2)把收集到的数据定义为经验分布该方法可以根据实际数据值的范围、某个数据值出现的频率,用随机数来产生所需要的随机变量值,能够产生足够多的数据来进行多次仿真试验。4(3)将数据拟合为某种理论分布如果发现所收集的数据能够较好地服从某种理论分布(TheoreticalDistribution),倾向于采用第3种方法而不是第2种方法。建立输入数据理论分布的几个主要步骤收集原始数据基本统计分布的辨识参数估计以拟合度检验54.2收集原始数据一、收集输入数据的方法
(1)通过实际观测获得系统的输入数据。(2)由项目管理人员提供的实际系统运行数据。(3)从已经发表的研究成果、论文中收集类似系统的输入数据模型。二、收集数据时,要注意以下几点:(1)在收集数据的同时就分析数据,确定收集到的数据是否足够。(2)将性质相同的数据集组合在一起。(3)确定两个随机变量是否相关。(4)注意一组观测到的、似乎是独立的样本是否具有自相关性。64.3随机变量分布的辨识
连续型随机变量分布类型辨识
离散型随机变量分布类型辨识点统计法直方图法线图法点统计法74.3.1连续型随机变量分布类型辨识(1)点统计法点统计法确定连续随机变量分布类型的基本思路为,首先计算连续型随机变量的偏差系数,再根据偏差系数的特征寻求与其相近的理论分布,并假设随机变量的分布为这一理论分布。偏差系数是偏差与均值的比:其中:var(x)——随机变量分布的方差;E(x)——均值。8如果有随机变量X,则有:其中:——随机变量采集数据的均值;s2(n)——随机变量采集数据的方差。所以,910点统计法例4-1:用汽车到达银行的时间间隔原始数据接近1,假设间隔服从指数分布。11(2)直方图法
直方图是一种图形估计方法。基本原理是:用观测到的样本数值建立随机变量的概率密度函数分布的直方图,然后把得到的直方图与理论分布的概率密度函数曲线图形做对比,从图形上直观地判断被观测随机变量是否满足某种理论分布。12具体做法:1)将所有观测数值分为k个区间长度相等的相邻区间。[bj-1,bj),j=1,2,…,k。区间宽度Δb=bj-bj-12)对于第i个区间[bj-1,bj),令gj表示在第j个区间中的观测数据数量nj占整个观测数据的比例,即gj=nj/n。3)定义函数,4)将定义的观测数据取值的区间画在横坐标轴上,在垂直坐标轴上标记出频率函数,画出被观测变量的直方图。5)将直方图与理论分布的概率密度函数对比,确定被观测数据服从哪种理论分布。13b0b1b2b3…bjbj-1bkx1x2…xaxa+1…xbxb+1xc
xi+1xm…Xm+1…xnΔbΔbΔbΔbΔb14例4-2:1)首先确定观测数据的范围在观测到的间隔时间数据中,最小间隔是0.01min,最大间隔是1.96min,观测数值范围为[0.0,2.0]。2)确定相邻区间宽度为Δb=0.1,b0=0,b20=2.0,构造出20个长度相等的相邻区间。153)统计第j个区间所包括的观测数据数目占所有观测数据数目的比例gj,下表中列出了具体数值。164)根据上表给出函数h(X)。5)将连续的区间在横轴上表出,将函数h(x)的数值在纵轴上表出,画出直方图。6)将直方图与理论分布的概率密度函数曲线做比较。从图形上看,间隔符合服从指数分布。17要注意选择区间宽度18194.3.2离散型随机变量分布类型的辨识(1)点统计法与连续型随机变量点统计法方法相同,同样是采用计算偏差系数的方法,寻找偏差系数相近的理论分布进行假设。
20(2)线图法线图法是把采集到的数据与假设的理论分布的概率质量函数曲线进行比较。如果找到相近的,则可以假设其为该理论分布。具体做法步骤如下:①设观察数据为:x1,x2,…,xn;②将其按递增顺序排列,设共有m个取值(m≤n),分别为:x(1),x(2),…,x(m);③x(i)的数据个数占整个观测数据个数的比例数为hi;④以x(i)作为自变量,以hi的值为函数值,即:hi=f(x(i)),i=1,2,…,m;⑤由函数值hi向相应的自变量X(i)做垂线所得的图形称为线图(见下图);⑥与假设的理论分布的概率质量函数比较,确定随机变量的分布。2122例:观测在.7:00am~7:05am时间段内到达某十字路口西北拐角的车辆数目。每周观测5天,连续观测20周,在5分钟内到达的车辆数目列表4.5中。23244.4参数估计用直方图或线图确定样本数据服从的理论分布之后,还要根据已经观察到的样本计算出理论分布的参数。如果可以确定理论分布的参数,我们就建立了输入参数的一个数学模型,可以用前面(第三章)介绍的方法来生成随机变量的数值。25按照统计学的说法,假设某随机变量的总体分布是F,分布F的参数未知,要用已经观测到的部分样本来计算全部样本总体分布F的参数的真值,这样的统计推断问题被称为估计(Estimation)。在数理统计学中有许多参数估计的方法。
点估计:如果用统计方法给出的结果是关于参数真值的一个点,称为点估计(PointEstimation);
区间估计:如果给出参数真值存在的一个区间,称为区间估计(IntervalEstimation)。26点估计(1)样本均值样本均值是随机变量X期望值E(X)的一个点估计,刻画了随机变量的一个特征,即随机变量倾向于某个数值,(2)样本方差
样本的方差越大,说明样本与均值的偏离越大,即样本数值的分散性大;反之,样本的方差越小,说明样本数值的集中程度比较高。2728例:用汽车到达银行的时间间隔原始数据即:29例:用车辆数目数据即:304.5拟合度检验通过做辨识和参数估计,可以估计出观测样本的分布及其参数。在得到了这个估计的理论分布及其参数之后,需要判断观测样本分布与估计的理论分布的接近程度,即确定估计的理论分布的拟合度。比较直观的方法之一是直接把直方图与所估计理论分布的概率密度函数曲线做对比。假设所估计理论分布的概率密度函数为,对于连续型随机变量,比较的具体方法是:把直方图与Δb曲线画在一起。31例:我们估计汽车银行顾客到达时间间隔服从=2.506的指数分布,将直方图与概率密度曲线做对比。拟合样本数据得到顾客到达间隔时间的概率密度函数,直方图与画在一起:
3233拟合度检验的定量方法:
χ2检验(Chi-SquareTest)
Kolmogorov-Smirnov检验(柯尔莫哥洛夫-斯米尔诺夫检验、K-S检验)344.5.1χ2检验(Chi-SquareTest)χ2检验以下假设是否成立。H0:随机变量X满足假定的分布;如果H0假设被接受,那么被检验的随机变量就满足所假定的分布;如果H0假设被拒绝,则被检验的随机变量不满足所假定的分布。35χ2检验的方法:(1)将n个观测样本按数值大小分到k个相邻区间[aj-1,aj)(j=1,2,…,k)中,按照公式计算χ2统计量。其中Nj为在第j个区间中的观测样本数,pj为按照假设的分布确定的样本在该区间中出现的概率。对于连续型变量,对于离散型随机变量,
是所假设的分布的概率密度函数,是所假设的分布的概率质量函数。
36(2)χ2服从k-s-1自由度的Chi-Square分布。k为所划分区间的数目,s为所假定的分布的参数数目。如果则H0假设被拒绝。α是显著水平,相应的(1一α)×100%就是置信度。37不要求k个相邻区间的宽度都相等。对于离散型随机变量,区间的数量由观测样本的取值数目确定;对于连续型随机变量,区间数量采用表4.8中的推荐值。38例4.6:在5分钟内到达十字路口西南拐角的车辆数目被假设为服从泊松分布,通过参数拟合得到λ=3.64。在显著水平α=0.05时,用χ2测试检验在5分钟内到达十字路口西南拐角的车辆数目是否服从所假设的泊松分布。离散泊松分布的概率质量函数为,39表4.9是按照离散泊松分布的概率密度函数计算出的整数X取值0-11时的概率质量。将总共100个样本值分为7个相邻的区间,再根据离散泊松分布的概率密度质量计算出,如果满足所假定的泊松分布,在每个取值区间内应该出现的样本数目npi;。pi为所假设的泊松分布取第i个区间中的数值的概率质量,n为全部样本的数目。检测统计量的计算过程在表4.10中列出。40统计量显著水平取为α=0.05。泊松分布有一个参数,则上分布的自由度为,k-S-1=7-1-1=5查表可得关键值,因此在显著水平取α=0.05,H0假设被拒绝,即样本数据不服从所假定的泊松分布。41在计算χ2统计量时,Ni是分段区间中所包含的样本数量,换算成占全部样本的比例就可以得到直方图。pi则是所假设的理论分布的数值出现在分段区间内的概率,代表了概率密度函数或概率质量。χ2统计量可以被理解为直方图与概率密度函数曲线或线图与概率质量函数曲线偏差曲线的偏差量,χ2测试则是定量化的直方图与概率密度或线图与概率质量函数曲线对比方法。采用χ2测试需要确定分段区间,如何确定分段区间没有严格的规则,区间数量不同对统计量有比较大的影响。对于同一组样本,在选择某个区间数量时,得到了样本不服从所假设分布的结论;选择另外的区间数目,则可能得出样本服从所假设分布的结论。另外,当样本数量比较少的时候,不能采用χ2测试。424.5.2Kolmogorov-Smirnov检验K-S检验是把经验分布函数与所假设分布的分布函数做比较。使用K-S检验不用确定分段区间,对样本数量也没有限制。43K-S检验步骤假设观测到一组样本X1,X2,…,Xn,进行K-S测试的步骤如下:(1)定义样本的经验分布函数Fn(X)。Fn(x)是数值小于等于X的观测样本占全部样本数目的比例(2)计算K-S统计量Dn。Dn是经验分布函数Fn(x)与所假设的分布函数的最大偏差值。44将观测值按照递增的顺序排列X(1)<X(2)<…<X(n),分别计算,统计量Dn的值越大,经验分布函数与所假设的分布函数的偏差越大。(3)判断样本是否服从所假设的分布。根据将统计量与一定显著水平下的关键值dn,α比较,如果Dn≤dn,α,则H0假设被接受,样本服从所假设的分布;否则,H0假设被拒绝,样本不服从假设的分布。45K-检验临界值表46例4.7:在100分钟时间内观测到了50个顾客到达的间隔时间,单位分钟。按照顾客到达的先后顺序,时间间隔如下:用K-S测试检验间隔时间是否满足指数分布?47顾客到达的间隔时间是在(0,100)时间区间上收集到的,如果间隔时间服从指数分布,那么顾客到达时间在(0,100)时间区间上是均匀分布的。为了方便起见,把顾客到达时间规一化到(0,1)区间上。规一化后的到达时间如下:48经验分布函数与(0,1)均匀分布偏差的计算过程列在表4.11中。从表
4.11可以得到,
所以K-S统计量
49统计量D的关键值可以查表得到,取显著水平a=0.05,当n=50时,统计量D比关键值小,所以检验结果表明间隔时间服从指数分布。最初的K-S测试只能应用于所假设分布的参数全部已知的场合,不能使用参数估计所给出的参数。改进后的K-S测试可以使用从样本得到的参数,有关详细内容参见相关书籍。虽然K-S测试有它的优势,但与χ2测试相比它的应用范围比较小。50例:某随机数发生器产生出5个随机数,ui={0.44,0.81,0.14,0.05,0.93},要求显著性水平为α=0.05。用K-S检验是否符合均匀分布。51首先将所产生的随机数由小到大排列,并进行检验步骤中的各项计算,如下表所示:由表可见D+=0.26,D-=0.21,故D=max(0.26,0.21)=0.26。当α=0.05和N=5时,由表3-1可知D的临界值D5,0.95=0.565。由于D<D5,0.95,故不能拒绝所产生的随机数的分布与理论均匀分布之间无显著差异的假设。52SN(X)和F(x)的比较0.050.140.440.810.9353思考:已知有如下随机数:{53,47,42,46,47,51,51,59,47,51}(1)对其做理论分布假设并检验。(提示及要求:第1步:用偏差判断属于哪种概率密度函数的分布;第2步:做直方图,从图形上判断属于哪种概率密度函数的分布;第3步:用第一步计算的参数和第二步得到的直方图的结论,做一条理论分布曲线与直方图相拟合或用卡方检验、K-S检验。)(2)有人认为符合泊松分布,你认为对吗,说明理由。544.7经验分布当无法用理论分布来拟合输入数据或者不需要采用理论分布的时候,我们直接用观测到的数据及每个数据占全部数据的比例来定义一个分布,这种分布被称为经验分布(EmpiricalDistribution)。经验分布具有离散和连续两种类型。554.7.1离散型变量的经验分布假定观测到的样本数据为X1,X2,…,Xn,建立离散数据经验分布的步骤如下。(1)计算样本数值的相对频率。n个样本共有k个取值,按照递增的顺序排列X(1)≤X(2)≤…≤X(n)(k≤n)。对于每样本值X(j),p(j)是数值为X(j)的样本的数目占全部观测样本的比例,称为相对频率。(2)将样本值X(j)及其对应的相对频率p(j)列表,或做相对频率的直方图56例:对中午到餐厅就餐的顾客进行观察,发现每批顾客的入数在1~8之间。需要确定每批顾客数目的数据模型。观测了最近的300批顾客,每批顾客数目及其相应的出现次数在下表中列出。每批客人的数目出现次数相对频率1300.1021100.373450.154710.245120.046130.04770.028120.0457在图4.9中给出的每批顾客数目的累计频率曲线代表了样本的经验分布
58批量到达过程,是系统仿真中经常遇到的一种到达模式,如一批多个工件同时进入加工系统、一批多个顾客同时到达餐厅、一个订单中包括多种商品等。我们首先要确定各批次之间的间隔时间服从哪种分布,通常是指数分布。然后,再来建立每个批次的顾客数量模型。设N(t)是到在时刻为止,已经到达的顾客批次数目。我们可以建立到达过程{N(t),t≥0}的模型。如果Bi是第i个批次中的顾客数目,X(t)是到t时刻为止已经到达的顾客数目。假定B满足独立同分布,而且独立于到达过程{N(t),t≥0},那么{X(t),t≥0}是一个复合过程。59例:604.7.2连续型变量的经验分布对于连续型变量,不定义概率密度函数,而直接用累计频率定义分布函数。在定义的经验分布的时候,需要考虑两种情况:
①能够得到原始的全部观测数据;
②只能得到变量数值落在若干区间内的次数。61①
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个体门店劳务合同范例
- 2025年中国渣油泵市场调查研究报告
- 2025年中国检验级数码金相显微镜市场调查研究报告
- 2025年中国提花缎档绣花方巾市场调查研究报告
- 出国劳务免定金合同范例
- 2025年中国周转箱盖市场调查研究报告
- 与外商销售合同范例
- 与前妻合租合同范例
- 农庄餐饮租赁合同范例
- 出租屋租金合同范例
- 电梯采购合同范本
- 2025年官方二手房交易协议
- 2025年山东泰山财产保险股份有限公司招聘笔试参考题库含答案解析
- 【道法】做自信的人课件 2024-2025学年统编版道德与法治七年级下册
- 高一英语完形填空专项训练100(附答案)及解析
- WE-100B300B600B1000B型万能材料试验机使用说明书
- 相声《治病》
- 盾构施工标准化手册
- 贵州省义务教育阶段中小学生转学申请表
- 高压法兰检查方法
- 《我们大家跳起来》教学课后反思
评论
0/150
提交评论