概率论与数理统计大作业_第1页
概率论与数理统计大作业_第2页
概率论与数理统计大作业_第3页
概率论与数理统计大作业_第4页
概率论与数理统计大作业_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、概率论与数理统计大作业题 目:对图书馆晚间人员离馆时间的调查研究学 院:理学院姓 名:顾倍康 柳铄 刘振鹏学 号:160401010216040102101604010614专业班级:理科实验班1603任课教师:王清河 2016年5月12日关键词人员流量、相关关系、回归分析、与时间对应关系、计算机辅助分析。摘要图书馆是大学内重要的功能性场所,很多人都选择在这里做工作,每天进、出馆人员流量巨大。这对图书馆的管理工作构成了挑战,能否合理安排工作,使得工作时间内所有人都能方便的进出馆成为一个随之产生的问题,而解决离馆人员流量和时间的相关关系则是解决该问题的关键。一、问题背景中国石油大学图书馆始建于1

2、953年,当时是北京石油学院图书馆,在清华大学石油工程系图书资料室的基础上建立。迁校山东后,先后于1980年和1997年两次在东营建馆,2004年在青岛建成本馆,馆舍总面积5万平方米,其中本馆2.9万平方米。馆藏纸质图书文献244万余册,中外文纸质期刊2000种,电子文献资源总量35TB(截至2011年),年进纸质图书9万册。作为一个重要的功能性公共场所,很多人都有且有不尽相同的入馆需求,因此就会产生非常大的,且随机性很强的进出馆人数。在一天中的其他时间,馆内人员都可以自行决定是否需要离馆,而馆内人员的时间安排不尽相同,因此人员流量都不是很大,一般来说不会出现大量人流。而闭馆则要求馆内人员必须

3、在闭馆时间之前尽快离馆,这样很多人就都会具有离馆需求,离馆走向可能出现大量人流。因此我们研究的重点就基于此。二、问题调查考虑到每个人都必须离馆,且离馆时间均是自己决定的,基本上不会互相影响,因此我们推测晚间同学们离馆的时间分布与泊松分布类似。因此我们将从晚间九点到十点三十分成若干个小区间,而且我们安排了三位同学同时进行统计,将每次结果取平均值,并且连续统计十五天(含周末)。但我们在先前的两天发现了这样的情况:可以看出在21:4022:05间出现了趋势的变化,出现了峰值,且远远超过之前所取得的极值。绘制饼图结果更加明显:因此我们决定将研究的重点放在人员流量发生激增的21:5022:00这一时段。

4、并划定每分钟为一个计数点,经过剩余几天的调查得到了以下的数据:如果取得平均数,我们发现趋势会更加明显,可以得图:从图像上可以看出这个分布确实和泊松分布很相像;但仅仅根据视觉上的相像是绝不能就此下结论说这就是泊松分布,这是非常不严谨的做法。但我们不妨利用这个模型进行一次拟合:(将上面图例的50、51简化为0、1)很明显,这个模型是失败的:除了24部分比较接近,其他部分的残差是非常大的,甚至在5以后的部分残差居然变号了,显然需要进行调整。我们可以发现,24部分拟合的效果还是很不错的,表明这个模型可能具有范围内的适用性。之前我们知道对于光子轨道的能级问题,也不是一个模型就能做到普适性极强。那么我们不

5、妨利用分段函数对数据进行进一步研究,对于不同的区段利用不同的模型去拟合。这并不是说数据本身存在问题,因为这些数据毕竟是实地考察的结果,应该具有一定的参考意义。基于这种情况,我们决定利用尽可能少的几个模型来得出一个尽可能普适的结果:分析元数据图像可知,前半部分图线对应的函数的二次导数是单调递减的,而后半部分则相反,那么我们可以利用两个不同的泊松分布模型来完成,利用残差平方和最小的原则来控制是否采用的问题:经计算,当=4.90时,e2 =62.19328663取得最小值(在0处的孤立点暂不考虑),作为04部分的模型;如图:同理,当=4.46时,e2 = 6.540435取得最小值,作为610部分的

6、模型;如图:发现5处一直都残差较大,故以510为研究区间独立建模。进行简单拟合后出现以下情况:很明显,这个模型显然没有先前的好。但这个模型在5附近是很接近原数据的,因此不妨只采用它在46的拟合情况。当=1.75时,e2 = 3.874265714取得最小值,作为46部分的模型;如图:综合以上的模型,可以得到以下的综合效果图:(实心部分是原数据)滤去不采用的部分可以看出:这个分段拟合的模型还是比较成功的。因此初步得到一个回归函数:F(X)= 428.8667*4.9x /(x!*e4.9 ) 0x4; 290*1.75x /(x!*e1.75 ) 4x6; 428.8667*4.46x /(x!

7、*e4.46 ) 6x10;从均值进行一次验证。基本上可以说,样本方差是的无偏估计,所以可以用样本函数求的区间估计。我们知道样本函数Tt(n-1)分布(为方便计算,此处n为100)。对于给定的=0.05,那么置信区间为(,)。查表得=1.984,可以算出各个区段的置信区间:0x4(43.32,43.74),4x6(69.09144,71.23144),6x10(31.60565,31.92565)。所以我们有95%的把握说这个组合模型基本上是成功的。为了验证这一模型的真正可靠性,决定进行一次调查验证。选取非常正常的一个工作日进行预报值检验,可得知结果如下:如果剔除某些离群值(1),求得残差平方

8、和为31.38852466,考虑到随机性事件发生的情况,这个模型运行还是比较成功的。另外,这里补充说明一下的算法:(以04区段为例)在计算机上编写程序,利用二分法,计算取中点时模型的残差平方和和取两个端点时的该值进行比较,取较小的两个取值点作为新的端点,在新区间中再重复以上的过程,为避免陷入死循环,设定当区间长小于0.01时停止取中点,取两端点中该值较小的点的对应作为结果使用。核心部分的代码如下:(输出的p即为所求)#include#includeint f1(int x)int i=0,j=1;for(i=0;i=x;i+)j*=i;return j;/*阶乘算法*/double f2(do

9、uble x,int i)double j=1.0;int k;for(k=0;k0.01)for(i=0;i5;i+)lp+= f2(428.8667*f2(l,i)/(f1(i)*exp(l)-ai,2);for(i=0;ilp)/*二分法比较*/r=m; m=(l+r)/2;p=l;elsel=m; m=(l+r)/2;p=r;lp=0.0, rp=0.0;for(i=0;i5;i+)lp+= f2(428.8667*f2(l,i)/(f1(i)*exp(l)-ai,2);for(i=0;ilp)p=l;elsep=r;printf(“%lf”,p);三、问题总结各个图表的峰值时间之晚足

10、以体现出石大学子学习的忙碌、刻苦。然而,猛增的人流量存在安全隐患。建议同学们合理安排学习时间,尽量不要集中在临近闭馆时离开;建议图书馆将各书库闭馆时间分离,从十点到十点半自下而上逐步关闭各层书库;此外,建议学校修缮南教、南堂等教室的桌椅,安装空调,吸引一部分自习的同学,加快小图书馆修建进程,以减轻图书馆的压力;对于在临近闭馆前不可避免的流量上升,馆方应做好预案,如有拥堵及时疏导,防止发生人员滞留甚至更加严重的安全问题。在本次数据调查与分析的过程中,我组采取边收集数据边统计分析的方式,深刻体会到样本长度的增加会使模型逐渐趋近契合于总体的现象;及时针对现实情况作出了相应调整,避免了产生大量无研究价值数据的问题。试想如果未对调查方向及时调整,模型建立将难以进行,后续的工作将无法开展,直至研究失败;求得的回归函数亦表明,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论