

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、承诺保证书I1引言11.1 研究背景11.2 研究方法及目的12Poisson分布检验的步骤和基本理论22.1 检验步骤22.2 检验的基本原理33关于Poisson分布检验的三个案例及实际研究73.1 案例分析73.2 对单位时间到来顾客数的实际研究13参考文献18英文摘要19II关于Poisson分布的检验肖秋光摘要:Poisson分布是概率论中的一种重要离散分布,在许多实际问题中都有着广泛应用本文概括了检验样本数据是否服从泊松分布的一般方法,主要是对随机数据进行图像模拟估计和利用假设检验原理对给定的临界值进行估计其中x2检验是众所周知的拟合优度检验,它能适用于任意的备择假设.另外,通过三
2、个例子进行说明,最后用该方法对实测数据进行了分析和检验,并得出了结论.关键词:Poisson分布假设检验独立变量x2统计量1引言1.1研究背景改革开放三十年来随着社会的发展、经济的增长,科学技术日新月异、人民拥有的物质日益丰富、感受到的文化也更加多元、社会的各种法规制度日臻成熟,无论是住房、保险、交通、旅游、高质量产品还是教育、饮食等.其结果是构成了大量的随机数据,而这些数据有没有什么规律可循呢?就需要我们对它进行研究.在现实生活中的许多数据经过人们大量的研究是服从泊松分布的.若通过观察记录得到了一组数据,它是否服从泊松分布,则需要我们对其进行检验.泊松分布是1837年由法国数学家泊松(Poi
3、ssonS.D.17811840)首次提出的.它是概率论中的一种重要的离散型随机变量的概率分布,在理论上和实践中都有广泛的应用.如110报警台24小时接到的报警次数、一定时间内发生的意外事件次数或灾害次数、布匹上的疵点数目、放射性物质放射出的粒子数目等.1.2研究方法及目的由于向110报警台的报警是一次次到来的;自然灾害是一次次发生的;放射性粒子是一个个射出的;进入商场的人是一个个到来的它们都可以看成是一种于随机时刻到来的“质点流”.要对其进行研究,首先,必须收集到有效的数据.其次,由于得到的样本数据通常是实验或统计而来,因此它不能完全的反映事物的本质.我们主要对部分数据进行抽取分析,根据部分
4、数据对全体数据做出推断及判断.因此,研究单位时间内产生的诸多随机变量有助于当事者们对各种新措施、新技术作出更为科学合理的决策.例如,商场每个时段到达的人数不一,通过调查可以确定哪个时段是人流的高峰期,可以在这个时段做一些宣传或促销产生的效益就会比其他时段高,并有效控制成本,使其用最小的投入换来最大的收益.2Poisson分布检验的步骤及基本理论2.1检验步骤2.1.1数据整理进行Poisson分布的检验时,首先要对收集到的数据进行整理.假设收集到单位时间的量为x,x,xx,然后把这些量按从小到大顺序排列起来,并查123n出其频数稍加整理制成表格如下:表1单位时间的量xi012xi频数pip0p
5、1p2pi其中满足:x+x+x=0xp+1xp+xxp12n01ii2.1.2 用图像对样本数据进行模拟由于图形比较直观,而且样本数据在一定程度上能有效反映总体的分布规律,故可以用样本数据的图像模拟通过对比,对该分布进行初步判断.泊松分布的图形一般为左偏,但随九数值的增大,图形趋于对称.F<Jtt4)0,080,05CM0.02f0泊松分(A-12)图12.1.3 检验得出结论2.2检验的基本理论2.2.1 假设检验假设检验是对总体的分布函数形式或分布的某些参数作出某些可能的假设,然后根据所得的样本数据,对假设的正确性作出判断.假设检验的步骤: 根据问题建立原假设和备择假设原假设是设总体
6、参数等于某一数值,而备则假设是根据研究的目的来确定:可采用双侧检验,也可采用单侧检验.确定单、双侧检验的同时,也就确定了接受域和拒绝域的位置. 选择适当的样本统计量,并确定以H°为真时的抽样分布这一步是假设检验的关键,需要根据已知条件找到一个包含待检验总体参数和样本数据的已知分布,并计算出统计量的数值. 选定显著性水平a,确定临界值a应在抽样之前就确定下来,根据单、双侧检验的情况,将a放置一侧或双侧.然后根据第二步骤中所选择统计量服从的分布,查相应分布表,确定临界值. 进行判别,得出结论将第二步计算的数值与第三步得到的临界值进行比较,根据判别原则,作出结论.2.2.2 最大似然估计及
7、拟合优度x2检验3最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的下面我们具体描述一下最大似然估计:为模型参数,f为我们所使首先,假设x,x,x为独立同分布的样本,012n用的模型,遵循我们上述的独立同分布假设参数为0的模型f产生上述样本可20表示为f(x,x,,x19)=f(x19)xf(x19)xxf(x19)12n12n在上面的假定模型且参数是未知的基础上,这时,我们已知的有X1,3,I,未知的有0,所以似然函数定义为:L(9)=f(x,x,x19)=nf(x19)12nii=1L()称为样本的似然函数倘若存在一个值,使得在9时有L(x,x,,x19)=maxL(
8、x,x,,x19)12n9国12n则称9是9的一个极大似然估计值,简记为MLE.在实际应用中通常采用的是两边取对数,得到公式如下:InL(9)=1LInf(x19)ii=1由于ln(x)是x的单调增函数,因此,使对数似然函数InL(9)达到最大与L(9)达到最大是等价的.令二InL(9)=0,即可解出9的极大似然估计值9d9若总体X是具有参数九0的泊松分布,X,X,,X为来自总体X的一个样12n本,则似然函数为:l(x)=ni=1尢x.-e-九x!=(n“=e-滋x!i=1iInL(九)=一工Inx!n九+ii=1(工x)ln九ii=1dinL(X)匸di=一"+U得如下方程:Xxi
9、n+-i=i=0,九1n从中解得:i1Xx,nii=1又d2lnL(九)|dA/2X=Xn乙xii=1于是参数九的最大似然估计为:x.X2拟合优度的检验,是通过X2统计量来检验变量的实际分布是否与理论分布相同所谓拟合优度,是指实际观察的频数与期望(理论)频数相似的程度.X2检验可以对各种假设的分布进行检验.在对各种分布进行检验时,应将各变量值做适当分类,使每一类别的期望频数大于等于5在选定类别时,如果变量值是有限个,则可以将其每一个取值作为一个类别;如果变量值可以取无限个,则通过适当合并,将其变为有限个区间,把每一个区间视为一类.2.2.3P值检验所谓P值,是指在一个假设检验问题中,利用观测值
10、能够做出拒绝原假设选择的最小显著性水平,如果p值小于显著性水平«,则相应的检验统计量的值落入拒绝域中.其检验规则为:若a>p值,则拒绝原假设H;0若a<p值,则接受原假设H.02.2.4Poisson分布检验设总体X服从具有参数为i>0的泊松分布,X,X,X,,X为其样本.123n考虑检验问题:H:九=九;H:九H九,现有0i=1p(x;i)=liei=e-"入九刀%x!i=1i1n(x!)ii=101x)ln九i1n(x!)ii=1其中T(x,x,,x)=工x,b(九)=In九12nii=11h(x,x,x)=,c(")=en九12nn打(x!
11、)ii=11,T<c&>c12b,T=c,j=1,2ij0,c<T<c12aE工X-=Ei"0i=1a=(尢l0,九)=0则申(x,x,,x)工x12niEtp(x,x,,x"012n当H为真时,统计量T=2X服从参数为n九的泊松分布,E(T)=n九,则0i00i=1£(n九)j>+b(")>+b(-)0en"0+(n九)qen"0+(n九)c2en"0j!c!0c!012-叫+j=c2+1艺加)丿j!nM=£)(叫je叫+0j=0j!j=c2+1bcbcen"
12、0+-(n九en"0+22(n九)c2en"0c!0c!012在一般情况下上述方程不易求解,但当九不接近于零而n又不很小时,统计量0£X一n九i0U=4的渐进分布为正态分布N(0,1),则v;nX0P工Xn九<u=P工Xn九>u叽.=1°0J"o,=1i0b,b,c,c1212对一切实数u都渐近地成立(这是因为正态分布具有对称性)因此,由下式确定:a另(n九)jb(7)£(n九)j2j!0c!'0八0j!j=011j=c2+1+b2(nX)cc02e一叫)3关于Poisson分布检验的三个案例及实际研究3.1 案例
13、分析3.1.1 论反腐败与泊松分布腐败现象作为当今社会的一种非常态,它的发生、出现引起了广大群众的关注.调查显示最近几年科级腐败正在加剧,小官受贿成隐患.据悉,某检察院工作人员对某经济较落后省的320个底层官员在一年时间内的受贿金额调查纪录如下表所示.根据这些数据(金额0表示未受贿,金额1表示受贿金额大于0小于等于1,其余类同)检验受贿金额是否服从泊送分布.表21年内320个官员受贿金额(万元)统计表金额0123456789>10合计人数154770815225169410320来源于参考文献6用折线图像模拟数据如下:官员受贿频数图系列11234567891011受贿金额图2从图形走势看
14、,为左偏凸值分布,与泊松分布较为相似,可初步判定为泊松分布.在理论上,这里我们需要检验的是在一年的时间段内受贿官员的受贿金额是否服从泊送分布,所以可以假设H0:一年的时间内受贿官员的受贿金额服从泊送分布;H1:一年的时间内受贿官员的受贿金额不服从泊送分布x!我们知道泊送分布的概率密度函数为f(X=x)x°Z,式中::是未知参数.如果假设为真时,可以根据本数据估计九.由上表的数据可以的到在320个底层官员中,平均每一官员受贿的金额(万元),即八0x15+lx47+9x1+10x0九=3.0320因此,可以用X作为九的估计值,即得到为真时的概率密度函数f(X3xe-3x!根据该密度函数,
15、就可以计算出在每一个官员的受贿金额为各个类别出现的概率,这些概率值可通过泊送分布表查得.例如,在一年内受贿金额为0万元的官员人数的概率是f(X=0)=0.498,受贿金额为1万元的概率是f(X=1)=0.1494等然后用查出的概率分别乘以样本容量n(n=320),就可以得到各类别期望的频数例如,在320个官员中受贿金额为0万元的期望频数是0.0498x320二15.936下表列出了X2统计量的计算过程.表3X2统计量的计算过程受贿金额xi为真时的f(X二x)i实际频数ni期望频数e=n-f(X=x)ii(ne)2iiei00.04981515.9360.055010.14944747.8080
16、.013720.22407071.680.039430.22408171.681.211840.16805253.760.057650.10082532.2561.632260.05041616.1281.015970.021696.91280.008142.5920.981290.002710.86410万元以上0.001200.384合计1.00003203205.0068我们注意到表中,受贿金额为8,9和10万元次及以上金额的期望频数都小于5,所以将这三类归于受贿金额为7万元的合并为一类,所以合并之后的类别数k二8.这时咒2统计量为x2-丈(niei)2-5.0068ei-1i需要注意的
17、是:根据Pearson定理,上式的咒2统计量服从自由度为k-r-1的咒2分布,其中k时类别的个数,r是估计的总体参数的个数在这里k=&r=1(只估计了一个参数九),所以自由度为k-r-1二8-1-1二6.于是,当0.05时,查表可得x2(6)二12.592.对于样本的X2值,因为咒2</2(6)落在接受域中所0.050.05以接受H0,拒绝H,即在一年的时间中该地区官员的受贿金额是服从泊松分布的.大家熟知当n很大,p很小时的二项分布趋于泊松分布.按照泊松分布的规律,一项非正常态现象的出现除了在总体中的概率很小外,其最明显的特征则是常常集中分布.通过上面检验和大量案例表明,腐败现象
18、作为社会现象中的一种非正常态,其发生和发展呈泊松分布规律,特点是总体上的稀有性和局部的密集性加偶然性,具体表现有“前腐后继案”、“串案”、“窝案”等形式.因此治理腐败:一是要尽早发现,尽快惩前毖后;二是不能搞扩大化;三是要综合治理.其次表明,泊松分布密集出现的概率跟社会体制有关,尤其是在经济转型、社会发生变革的时期容易出现。比如我国正处于向社会主义市场经济的过渡时期,法制不健全,各项改革和管理措施还跟不上形势发展的需要,所以腐败现象就表现得比较明显和集中。若从历史长河中看,这种过程还是短暂的,从全局来看它也只集中在某些特定的行业和领域,而大部分时间和大部分领域都是正常的,都是非腐败的。3.1.
19、2 卢瑟福散射实验卢瑟福散射是近代物理科学发展史中最具影响力的重要实验之一。1909年卢瑟福(L.E.Rutherford)和其合作者盖革(H.Geiger)与马斯(E.Marsden)进行的a粒子散射实验,为原子的核式模型奠定了实验基础。他们在云雾实验室观察镭所发射出的a粒子数目.记录了2608个相等时间间隔(他们以7.5秒为一个时间段)内观测了一放射性物质镭放射的a粒子数x,表4X二i012345678910>11ni572033835255324082731394527106来源于参考文献7在上表中的n是观测到i个粒子的时间间隔数(最后一项已经合并)若要i检验观测的数据服从泊松分布
20、这一假设(“0.05),贝V:因为对参数为九的泊松分布是:P(X=k)=±e-X,k=0,1,2k!根据上表原始数据可以算得X最大似然估计X二X二3.870而X二3.870的泊松分布通过计算机计算及查表(泊松分布函数表)可得下表:表5inipinp.(nnp)2iinpi0570.20954.50.114712030.0807210.50267223830.1562407.41.461435250.2015525.50.000545320.1950508.61.076654080.1509393.50.534362730.0973253.81.452571390.0538140.30
21、.01208450.026067.87.66739270.011229.20.165810100.005311.20.1286>1160.00225.70.0158总和26081.0000260812.8967因此x2二12.8967,其自由度为12-1-1=10,对0.05查(咒2分布分位数X2(n)表)得X2(10)二18.307,所以我们接受H,认为观测数据服从泊松分布.p0.050卢瑟福等人经过两年时间综合多方面因素的分析,在1911年提出原子的核式模型,原子中的正电荷集中在原子中心很小的区域内,而且原子的全部质量也集中在这个区域内.原子核的半径近似为10,约为原子半径的千万分之
22、一.卢瑟福散射实验确立了原子的核式结构,为现代物理的发展奠定了基石.这充分表明研究泊松分布具有重大意义.3.1.3 对印刷错误个数的检验一个检验员检查了一本书的100页,并仔细记录各页中印刷错误的个数,其结果为:表6错误个数fi0123456>7含f个错误的页数i36401920210其频数模拟如下图:图4若要检验一页的印刷错误个数是否服从泊松分布.(取0.05)则:假设H:总体X服从泊松分布;H:总体X不服从泊松分布0136x0+40x1+19x2+2x3+0x4+2x5+lx6+0x7从表中数据可得:x=1100当H成立时,九的最大似然估计为九=x=1,检验的拒绝域为:0f2X2=E
23、L-n>x2(k-r-1)npi由给出的条件可知n二100二p(X=0)=卷=03679,=p(X=1)=0.367912e-1二p(x=2)=-2T=0J8397,13e-1二p(x=3)=-3T=0.0613p=p(X=4)=414e-1-4厂=0.01533,15e-1=p(X=5)=5-=0.00306616e-1p=p(X=6)=0.000511,66!p二p(X>7)二1-fp二0.0000237ii=0而对于j>3,有np.<5,j将其合并得£np=8.023,合并后k=4,查x2分布jj=3分位数x2(n)表可得:X2(4-1-1)=5.991
24、p0.05x2362402+36.7936.79+52-100=1.44418.3978.023由1.444<5.991,故在a=0.05下,我们接受H°,即可认为一页的印刷错误个数服从泊松分布.通过对印刷错误的研究,我们可知每页印刷错误在一个左右时是正常的,所以在使用书刊时发现错误不用大惊小怪.3.2对单位时间到来顾客数的实际研究在2011-3-11日星期五,通过实际采样,记录了上午10:5512:05的70分钟内每分钟到达联合书城的人数,记录如下:4875011594216574078551914130375210532517459113494611101212443968
25、8138304578通过整理可以得到下表:表7每分钟进入的人数012345678910111213实际频数51146101036651111显然,可以初步认为进入书城的顾客流是相互独立的随机数.首先用图像初步模拟一下,其散点图如下:每分钟到达人数的频数分布数系列1图5上图和普通的泊松分布图相比差别比较大,有两处凹陷的地方,初步判断不是泊松分布.基于以上内容,下面用假设检验原理对其检验.首先,假设顾客数是服从Poisson分布的.即H:每分钟进入的人数服从泊松分布;0H1:每分钟进入的人数不服从泊松分布.根据前文内容可知,Poisson分布的最大似然估计九=无,则计算平均数八0-5+lx11+2
26、x4+3x6+4x10+5x10+6x3+7x6+8x6+9x5+10x1+llx1I=7012x1+13x170沁4.6571由于泊松分布表提供的九整数位后只有一位小数,而无介于4.6到4.7之间所以可以:用无=4.6作为九的估计值用无=4.7作为九的估计值,因此,用无作为九的估计值,即得到H为真时的概率密度函数03.4.1当取九二4.6时,有f(X=x)=4.6x°e",查泊松分布表计算得下表,其x!中X2统计量按四舍五入取小数点后四位.表8进入人数xi为真时的f(X二x)i实际频数ni期望频数(n-e)2e=nif(X二x)iiiei00.01015-0.707>
27、;10.046211A203.234»11.3826.525220.10634-7.44130.1631611.4172.570240.18751013.1250.744050.17251012.0750.356560.132339.2614.232870.0869S6.083、80.050063.50090.025551.785100.011810.826110.00491(210.3436.52532.1112120.001910.133130.000710.049大于130.00030丿0.021丿合计1707046.5399从表中观察进入人数为0,1,8及其以上的期望频数都小
28、于5,所以将进入人数为0,1的与进入2个的合并为一类,进入8个及以上与进入7的合并为一类,那么合并后的类别数k二6,其X2统计量为:X2仝®二£=46.5399e1i根据Pearson定理,X2统计量服从自由度为k-r-1的x2分布,在这里k=6,r=1,所以自由度为4于是,当0.05时,查X2分布表得X2(4)=9.4880.05对于样本的X2值,有X2>X2(4)落在拒绝域内所以拒绝H,接受H,即每分0.0501钟进入书城的人数不服从泊松分布,与用图像模拟得到的初步结论一致.3.4.2当取九二4.7时,有f(X=x)=°”°"4&qu
29、ot;,查泊松分布表计算得下表表9进入人数xi为真时的f(X二x)i实际频数ni期望频数(n-e)2e=nif(X二x)iei00.00915j0.637、10.042711L202.989”10.6618.180920.10054J7.035<30.1574611.0182.885440.18491012.9430.669250.17381012.1660.385660.136239.5344.478070.09146、6.39880.053763.75990.028051.960100.01321l0.924I110.00561210.392f13.6643.9386120.0022
30、10.154130.000810.056大于130.00030丿0.021,合计1.00007069.98620.5377其余同上,当«二0.05时,查咒2分布表得咒2(4)=9.488对于样本的咒2值,仍然0.05有咒2咒2(4)落在拒绝域内,结论也一致.0.05按照众多学者研究,在一般情况下对于这种随机变量的检验应该服从Poisson分布.在这里为什么得到了相反的结论?我认为可能有两点原因:一是所采集到的样本数据可能具有特殊性,不能完全反映总体的分布,若多测几组数据进行检验结果可能会改变;二是我们假设的前提是每个人相互独立,而实际情况有许多人是有关联的,例如一个家庭四个人同时进入、两个好朋友陪同一个朋友买书等诸多情况,这个因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 律师见证授权书3篇
- 安全炊事员责任书3篇
- 夜不归宿的自我反省与誓言3篇
- 售卖猫咪合同范本3篇
- 关于农村房屋赠与合同3篇
- 学生归家安全承诺书3篇
- 叉车操作员工作满意度调查3篇
- 供水工程质量保修协议3篇
- 公司注册委托书应注意哪些问题
- 家长积极参与学校活动的保证书3篇
- 民营医院分析报告
- 综合办公楼装饰装修工程招标文件
- 造纸行业绿色供应链管理
- 《多胎妊娠》课件
- 心理健康-如何培养强大的心理韧性
- 影视标书模板
- 2024年中国东方航空技术有限公司招聘笔试参考题库含答案解析
- 小学生飞花令大全
- 2024年九省联考新高考 数学试卷(含答案解析)
- Unit2-social-media-detox课件-高一英语外研版(2019)选择性必修二
- 2023版设备管理体系标准
评论
0/150
提交评论