Markov链预测法_第1页
Markov链预测法_第2页
Markov链预测法_第3页
Markov链预测法_第4页
Markov链预测法_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、年凝冻日数的Markov链预测法4#【摘要】本文根据所给数据,利用Markov链建立了预测年凝冻日数的模型,分别从整体和局部两个角度进行分析。首先,我们直接以年凝冻日数为依据,对其进行K-均值聚类分析,划分状态。用频率估计概率的方法,估算出一步转移概率矩阵,然后建立Markov链模型。以2008年作为初始状态,估计出2009年凝冻日数所处状态为。按K-均值标准可知,即2009年凝冻的天数在15天以内的可能性为84.8%,在15天以上的可能性为15.2%。由于上述模型选取的是以年为单位的数据,只能估计出2009年的凝冻日数所处区间。为提高精度,我们选取2000-2008年的具体凝冻天数和日期,记

2、每一天只存在两种状态,出现雨凇为状态1,否则为状态0。然后由相邻两年间的状态转移变化,得出一步转移概率矩阵,。由这8个一步转移概率矩阵,根据一步转移矩阵的次方与步转移概率矩阵之差的范数和达到最小的准则,选出优化后的一步转移概率矩阵 ,再次建立Markov链模型。以2008年为初始状态,预测2009年的概率分布为 ,由频率稳定于概率,知2009年凝冻天数的估计值为14天。关键词: Markov链 转移概率矩阵 频率估计概率 1.   问题提出1.1背景知识 凝冻是指冬季出现的温度低于0有过冷却降水或固体降水和结冰现象发生的天气现象,即气象台所说的出现雨凇的天气。雨凇的形成与气

3、温,降水量,湿度等因素有关,超冷却的降水碰到温度等于或低于零摄氏度的物体表面使所形成玻璃状的透明或无光泽的表面粗糙并覆盖层,就叫做雨凇。其造成的危害巨大,高压线塔的倒塌,电力瘫痪,交通瘫痪,农作物的冻亡等。因而对出现雨凇天气的预测显得尤为重要。1.2问题分析 根据所给1969-2008年的数据,建立一个年凝冻日数的预测模型,预测2009年的凝冻日数,并作出误差分析。数据给出了是否出现雨凇与气温、降水量、湿度、气压和风速的关系,而雨凇的出现是一个随机过程,与多个因素有关,且受干预变量的影响,因而传统的回归分析方法,效果不好,而Markov链构造模型不需要从复杂的预测因子中寻找各因素之间的相互规律

4、,只需要考虑事件本身的演变特点,通过计算转移概率矩阵来预测内部状态的变化。 2.    建模准备2.1数据分析与处理 以年为单位,统计出现雨凇的天数,见表1: 年份日数年份日数年份日数1969151983319975197061984271998419710198501999019728198632000101973119873200161974201988122002919758198982003819768199062004171977161991020051819786199212006101979419936200781980819943200837198

5、1101995019827199682.2 Markov链预测的理论基础2.2.1 Markov链定义 (Markov链)1 随机过程,称为Markov链,若它只取有限或可列个值(我们以来标记并称它们是过程的状态,或者其子集记为S,称为过程的状态空间).对任意的及状态有 = (5.1.1)式(5.1.1)刻画了Markov链的特性,称为Markov性。2.2.2 转移概率矩阵 由转移概率组成的矩阵,形如 称P为转移概率矩阵。且有性质: 【2】2.2.3(C-K方程) 对一切有 其证明如下: = = (全概率公式) = = = = 【3】2.3.4 传统的频率估计概率估算一步转移概率矩阵的方法为

6、: 已知系统存在n种状态,状态空间为=0,1,2,n.假设在次观测中,系统处于第种状态共有次,显然用表示系统从状态经过一步转移到状态的频数,显然有组成的矩阵称为转移频数矩阵。将转移频数矩阵的第行第列元素除以行各元素总和所得的值称为转移概率,记为。即有,于是我们得到用频率估计出一步转移概率矩阵【】 3.符号说明 符号 说明 第期的概率分布 从状态到状态的转移概率 状态空间且 频率 4模型的建立4.1 模型假设1)雨凇的年出现次数是一簇依赖于时间的随机变量,其变化过程是一个随机过程; 2)该随机过程具有无后效性; 3)雨凇年出现次数状态的一步转移概率矩阵只与时间差有关,与时间起点无关。4.2模型建

7、立4.2.1以表1为基础,建立Markov链预测模型 : 1)利用SPSS软件,以K均值聚类法将过去的年凝冻日数分为2个区间,确定每年凝冻日数的状态,见表2: 2)根据表2,以频率估计概率的方法,计算一步转移概率矩阵。出现状态的次数为,出现状态的次数为。由转为的次数为,故转移概率;由转为的次数为,故转移概率;由转为的次数为,故转移概率;由转为的次数为,故转移概率。由此可得雨凇年出现次数状态的一步转移概率矩阵为:;Markov链的基本原理就是利用初始状态概率向量和状态转移概率矩阵来推知预测对象将来一个时期所处的状态。 记,则有,称它为Markov链的初始分布,显然有。由上述 C-K方程 可知Ma

8、rkov链在任一时刻的一维分布由初始分布和步转移概率矩阵所确定。 即Markov链的预测模型为 。 (1)4.2.2 根据所建Markov链模型,进行预测 用2008年凝冻天数作为初始状态,即.利用模型(1)式,计算可得2009年凝冻天数的一维分布为: 这表明2009年的凝冻天数所处的状态为1的概率为0.152,状态为2的概率为0.848.由之前SPSS软件的K-均值聚类可知,凝冻的天数在15天以内的可能性为84.8%,在15天以上的可能性为15.2%。4.3 模型检验和结果分析该模型虽然预测出了2009年凝冻日数的范围,并计算出其以84.8%的概率稳定于该状态,却无法的估计出2009年凝冻的

9、具体天数。 由于凝冻基本发生在1月、2月、3月、11月、12月,而2009年前三个月的历史天气数据可以查得,见数据1 【5】 2009年贵阳雨淞出现的次数 日期 雨淞出现 日期 雨淞出现 日期 雨淞出现 1-1 1 2-1 0 3-1 0 1-2 0 2-2 0 3-2 0 1-3 0 2-3 0 3-3 0 1-4 1 2-4 0 3-4 0 1-5 0 2-5 0 3-5 0 1-6 1 2-6 0 3-6 0 1-7 1 2-7 0 3-7 0 1-8 0 2-8 0 3-8 0 1-9 0 2-9 0 3-9 0 1-10 0 2-10 0 3-10 0 1-11 0 2-11 0 3

10、-11 0 1-12 0 2-12 0 3-12 0 1-13 0 2-13 0 3-13 0 1-14 0 2-14 0 3-14 0 1-15 0 2-15 0 3-15 0 1-16 0 2-16 0 3-16 0 1-17 0 2-17 0 3-17 0 1-18 0 2-18 0 3-18 0 1-19 0 2-19 0 3-19 0 1-20 0 2-20 0 3-20 0 1-21 0 2-21 0 3-21 0 1-22 0 2-22 0 3-22 0 1-23 0 2-23 0 3-23 0 1-24 1 2-24 0 3-24 0 1-25 1 2-25 0 3-25 0

11、1-26 1 2-26 0 3-26 0 1-27 1 2-27 0 3-27 0 1-28 0 2-28 0 3-28 0 1-29 0 3-29 0 1-30 0 3-30 0 1-31 0 3-31 0 由数据1可得,2009年发生凝冻1月天数为8天,2月天数为0天,3月天数为0天。 对题目所附数据做简单统计分析,见 表3表3 40以来各月份出现凝冻的天数1月份2月份3月份11月份12月份雨凇出现日数总和16410811343雨凇出现日数平均数4.12.70.2750.0751.075 根据上表可知,凝冻发生在前三个月的频率为 ,发生在后两个月的频率为 。即凝冻发生在11月、12月的天数

12、和远小于1月、2月、3月的天数和,粗略估计2009年11月、12月的天数和小于8天,则2009全年凝冻天数小于15天。与模型(1)非常吻合。 Markov链预测模型成功的关键在于转移概率矩阵的可靠性,因此模型的构造需要足够多的准确的统计数据,而本题提供了40个年度凝冻日数的数据偏少,会影响预测精度。本题在求转移概率矩阵的时候,采用的是传统的估算方法,先假设已知随机过程在n种状态的观测次数及系统从当前时刻向下一时刻转移次数的情况下,用频率估计概率的方法估算出一步转移概率矩阵。但在实际情况下,没有足够的观测次数,会导致一步转移概率矩阵和真实值相差很大。 对于本题,如果改为从具体每天是否出现雨凇的状

13、态考虑,40年的海量数据,将会极大提高我们模型的估计精度。 5模型的改进5.1数据分析 用SAS软件对表1的数据作时序图和自相关图(程序见附件),检验其平稳性。 时序图: 自相关图: 结合时序图与自相关图分析,以年为单位,其凝冻天数基本上平稳。我们不妨取20002008年的数据进行分析预测。5.2 对数据处理并再次建模 从2000-2008年,2月有28或29天,为计算方便,统一取28天,则每年关于凝冻的数据有 151个。 2000年出现雨凇的天数1月2月3月11月12月00000010000100001000010000000000000000000000000000000000000000

14、00000000000001000010000100000000000000000000000000000000000000010000000001000010000000000 2001年出现雨凇的天数1月2月3月11月12月0000000000000000000000000000000000000000100000000000000000000000000001100000000000000000010000000000000000000000000000001000010000000000000000000000000 观察上述两组数据,对于每一天雨凇的出现只存在两种情况,出现或否,即两

15、种状态.现在我们以天为单位,以2000-2001年的数据为例进行分析。2000年的统计数据有151个,其中处于状态的有141个,处于状态1的有10个。记其分布为 ;同理可知 ;从2000年转移至2001年, 状态 有138个; 状态 有3个;状态 有 9个; 状态 有1个。则2000年到2001年的转移概率矩阵为 ; 既有 。同理 2001年到2002年转移概率矩阵为 ; 2002年到2003年转移概率矩阵为 ; 2003年到2004年转移概率矩阵为 ; 2004年到2005年转移概率矩阵为 ; 2005年到2006年转移概率矩阵为 ; 2006年到2007年转移概率矩阵为 ; 2007年到2

16、008年转移概率矩阵为 。由以上八个转移概率矩阵可以看出,实际生活中相邻时刻的一步转移概率矩阵并不是完全相等的,为了能得出一个尽量精确的一步转移概率矩阵来预测2009年的数据,我们需要对上述转移概率矩阵进行优化。余波等人给出了利用最优化的思想,使一步转移矩阵的次方与步转移概率矩阵之差的范数和达到最小的准则,建立模型如下: 目标函数: (2) 约束条件: 。 【6】 (矩阵范数)对任意称为空间的矩阵范数,指满足: 对任意 设, 定义。 【7】结合本题数据,利用模型(2)建立规划求解: 优化后的一步转移概率矩阵记为 目标函数: 约束条件: 由MATLAB软件求解得 ; 以2008年基期,预测200

17、9年的概率分布有 则预测2009年发生凝冻的天数为 14天。 6、模型的优缺点分析 本文从整体和局部两个角度分别建模,两个模型的结果大致吻合,说明Markov链模拟的效果还不错。对于本题,雨凇的出现可以看成是一个随机过程,而影响雨凇出现的因素太多,若直接分析影响因素,会十分麻烦,且由于干预变量会使模型的精度大为降低。Markov链模型的优点在于它不需要从复杂的预测因子中寻找个因素之间的相互规律,直接通过概率矩阵来预测内部状态的变化。可是Markov链对转移概率矩阵的要求很高,实际中,由于观测数据的限制,误差影响,会造成转移概率矩阵精度的降低。因此为保证Markov链模拟的准确性,需要收集足够多

18、的准确的数据。参考文献【1】 张波,张景肖.应用随机过程.北京:清华大学出版社,2008年,P74.【2】 张波,张景肖.应用随机过程.北京:清华大学出版社,2008年,P75.【3】 张波,张景肖.应用随机过程.北京:清华大学出版社,2008年,P81.【4】 于波, 陈希镇, 华栋.马尔柯夫链在农作物年景预测中的应用.统计与决策2007年第21期.【5】 历史天气数据 2009年7月23日.【6】 于波, 陈希镇, 华栋.马尔柯夫链在农作物年景预测中的应用.统计与决策2007年第21期.【7】 ppt Chapter1.2 向量范数与矩阵范数武汉大学精品课程 2009年7月23日 附录1、

19、 程序(时序图)data text1;input days;time=intnx('year','1969',_n_-1);cards;15 6 0 8 1 20 8 8 16 6 4 8 10 7 3 27 0 3 3 128 6 0 1 6 3 0 8 5 4 0 10 6 9 8 17 18 108 37;proc gplot data=text1;plot days*time;symbol c=black v=star i=join;run;(自相关图)data text2;input freq;time=intnx('year',

20、9;1969',_n_-1);cards;15 6 0 8 1 20 8 8 16 6 4 8 10 7 3 27 0 3 3 12 8 6 0 1 6 3 0 8 5 4 0 10 6 9 8 17 18 10 8 37;proc arima data=text2;identify var=freq;run;2.数据 2002年出现雨凇的天数1月2月3月11月12月000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100001000000000000000

21、0000100001000100001000010000100000001000 2003年出现雨凇的天数1月2月3月11月12月0000001000000000000010100101000000000000100000000000000010000000000000000000000000000000000000000000000000000000000000000000000000100000000000000000000 2004年出现雨凇的天数1月2月3月11月12月000000100001000010000100000000000000000000000000000000000000000000000000000000000000010000000001000000000100001000000001100011000000001000010001000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论