(控制理论与控制工程专业论文)多元混沌时间序列的变量选择及预测方法研究.pdf_第1页
(控制理论与控制工程专业论文)多元混沌时间序列的变量选择及预测方法研究.pdf_第2页
(控制理论与控制工程专业论文)多元混沌时间序列的变量选择及预测方法研究.pdf_第3页
(控制理论与控制工程专业论文)多元混沌时间序列的变量选择及预测方法研究.pdf_第4页
(控制理论与控制工程专业论文)多元混沌时间序列的变量选择及预测方法研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 分析观测时间序列的演变规律是掌握系统动力学特性的重要手段。复杂的混沌系统 往往表现为多变量时间序列相互影响的动态演化行为,因此基于多变量混沌时间序列的 预测研究得到越来越多的关注。但是在序列中增加不必要的冗余变量,可能导致预测模 型的结构过于复杂,影响模型学习算法的效率和精度。针对上述问题,本文在过滤式 ( f i l t e r ) 和封装式( w r a p p e r ) 变量选择方法基础上,提出基于输入变量选择的多变量混沌 时间序列预测方法,为预测模型选择合理的输入变量。 在过滤式变量选择方法的框架下,采用典型相关分析方法研究变量之间的相关性, 并借助径向基函数神经网络与核函数理论,提出一种改进的非线性典型相关分析方法, 用少数几个综合变量反映原始多变量输入的大部分信息,从而达到降低输入变量维数的 目的。为克服过滤式变量选择方法缺乏合理评判标准的问题,提出基于神经网络灵敏度 分析的封装式变量选择方法,将预测精度作为变量选择效果好坏的评价准则,为每个输 入节点定义一个灵敏度函数,考察输入变量的变化对预测输出的影响程度,选择灵敏度 较大的节点作为预测模型的输入。考虑到混沌时间序列系统分量之间虽然没有明显的相 关性,但在相空间邻域可能产生同步的特性,提出基于混沌序列相空间同步的非线性相 关分析方法,探讨变量在其相空间邻域轨迹上的相互依赖性,并在此基础上构建多变量 局域预测模型,以更好体现多变量混沌序列运动的演化。为验证本文所提方法的有效性, 分别将其应用于数值模拟产生的多变量混沌时间序列和实际气象领域观测获得的多变 量混沌时间序列进行仿真分析,结果表明本文所提方法可以有效减少输入变量的维数, 提高预测精度,揭示复杂系统的动态特性。 关键词:多变量时间序列预测;变量选择;典型相关分析;灵敏度分析;相空间同步 大连理工大学硕士学位论文 r e s e a r c ho nv a r i a b l es e l e c t i o na n dp r e d i c t i o na l g o r i t h mf o rm u l t i v a r i a t e c h a o t i ct 细es e r i c s a b s t r a c t a n a l y z i n gt h ee v o l v e m e n to fo b s e r v e dt i m es e r i e si sa l li m p o r t a n tm e a n st ou n d e r s t a n dt h e s y s t e md y n a m i c s c o m p l e xc h a o t i cs y s t e m su s u a l l ys h o wt h ed y n a m i c a le v o l v e m e n to f i i i t e r a c t i o n a lm u l t i v a r i a t et i m es e r i e s s om u l t i v a r i a t et i m es e r i e sp r e d i c t i o no b t a i n sm o r ea n d m o r ea t t e n t i o n h o w e v e r , i n t r o d u c i n gr e d u n d a n tv a r i a b l e sw i l lc a u s eac o m p l i c a t e dp r e d i c t i o n s t r u c t u r ea n di n f l u e n c et h ee f f i c i e n c ya n d p r e c i s i o no ft h el e a r n i n ga l g o r i t h m ,w h i c hm a k e si t n e c e s s a r yt os e l e c tt h ei n p u tv a r i a b l e se f f e c t i v e l y i no r d e rt os o l v e 也ep r o b l e m sa b o v e t h i s p a d e rp r e s e n t sam u l t i v a r i a t ec h a o t i ct i m es e r i e sp r e d i c t i o na l g o r i t h mb a s e do nf i l t e ra n d w r a p p e rv a r i a b l es e l e c t i o nm e t h o d st os e l e c tr e a s o n a b l ei n p u t sf o r t h ep r e d i c t i o nm o d e l u n d e rt h ef l a m e w o r ko ff i l t e rv a r i a b i es e l e c t i o nm e t h o 正t h i sp a p e ru s e sc a n o n i c a l c o r r e l a t i o na n a l y s i s ( c c a ) t os t u d yt h er e l a t i o n s h i pb e t w e e nv a r i a b l e s ,a n dp r e s e n t sa n i m p r o v e dn o n l i n e a rc c am e t h o db a s e do nr a d i a lb a s i sf u n c t i o n 限b nn e u r a in e t w o r ka n d k e m e lf u a c t i o n ,w h i c ha t t e m p t st oa s eas m a bn u m b e ro fv a r i a b l e st or e t i e c tm o s to ft h e i l l f o r m a t i o na b o u tt h eo f f 汹gh a lm u l t i v a r i a t et i m es e r i e s t oo v e r c o n l et h ea b s e n c eo fa r e a s o n a b l ee v a l u a t i o ns t a n d a r d sf o rf i l t e rv a r i a b l es e l e c t i o nm e t h o d ,t h i sp a p e rp r e s e n t sa w r a p p e rv a r i a b l es e l e c t i o nm e t h o db a s e do nn e u r a ln e t w o r ks e n s i t i v i t ya n a l y s i s i tu s e st h e p r e d i c t i o na c c u r a c ya st h ee v a l u a t i o nc r i t e r i aa n dd e f i n e sas e n s i t i v i t yf u n c t i o nf o re a c hi n p u t n o d ew h i c hr e p r e s e n t st h ei n f l u e n c eo ft h ec h a n g e si ni n p u tv a r i a b l e st ot h ep r e d i c t i o no u t p u t t h u s t h en o d e sw i t hl a r g es e n s i t i v i t ya r es e l e c t e da st h ei n p u t s c o n s i d e rt l l ec h a r a c t e r i s t i co f c h a o t i ct i m es e r i e st h a tt h e r em a ye x i s ts y n c h r o n i z a t i o ni nt h ep h a s es p a c ea l t h o u g ht h e yh a v e n oo b v i o u sc o r r e l a t i o nb e t w e e nt w ot i m es e r i e s ,t h i sp a p e rp r e s e n t san o n l i n e a rc o r r e l a t i o n a n a l y s i sa l g o r i t h mb a s e d o np h a s es p a c es y n c h r o n i z a t i o n n ea l g o r i t h ms t u d i e st h e i n t e r d e p e n d e n c eo fv a r i a b l e si nt h ep h a s es p a c en e i g h b o r h o o d ,a n dt h e nb u i l d sal o c a l p r e d i c t i o nm o d e l w h i c hs h o w sab e u e re v o l u t i o no fm u l t i v a r i a b l ec h a o t i ct i m es e r i e s t ot e s t t h ev a l i d i t yo ft h ev a r i a b l es e l e c t i o na l g o r i t h m sp r o p o s e da b o v e ,t h ea l g o r i t h m sa r ea p p l i e dt o t h en u m e r i c a ls i m u l a t i o nc h a o t i ct i m es e r i e sa n dt h ep r a c t i c a lm e t e o r o l o g i c a lo b s e r v a t i o n s s i m u l a t i o nr e s u l t ss h o wt h a tt h em e t h o d sc a ne f f e c t i v e l yr e d u c et h ed i m e n s i o no fi n d u t v a r i a b l e s ,i m p r o v et h ep r e d i c t i o na c c u r a c ya n dr e v e a lt h ed y n a m i c so fc o m p l e xs y s t e m s k e yw o r d s :m u l t i v a r i a t et i m es e r i e sp r e d i c t i o n ;v a r i a b l es e l e c t i o n ;c a n o n i c a lc o r r e l a t i o n a n a l y s i s ;s e n s i t i v i t ya n a l y s i s ;p h a s es p a c es y n c h r o n i z a t i o n i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意 作者签名: 魏盘 日期: 2 闷年工2 闩o f 日 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名: 导师签名: 煎查 韩硒殛箜 大连理工大学硕士学位论文 1绪论 复杂的混沌系统往往表现为多变量时间序列的动态演化行为,系统中任一分量的演 化都是由与之相互作用的其它分量决定的,因此基于多变量混沌时间序列的预测研究得 到越来越多的关注。但是在序列中增加不必要的冗余变量,会导致预测模型的结构过于 复杂,影响预测结果。针对上述问题,本文主要研究多变量混沌时问序列预测的变量选 择问题,分析变量之间的相互影响机制,为预测模型选择合理的输入变量。本章首先阐 述论文的研究背景及意义,然后对多变量混沌时间序列预测的研究内容和方法进行归 纳,在此基础上重点介绍目前国内外输入变量选择方法的研究进展及现状,最后简要说 明本文的主要研究内容和组织结构。 1 1 课题的研究背景及意义 时间序列预测是用被预测事物过去和现在的观测数据,构造依时间变化的序列模型, 并借助一定的规则推测未来,是预测领域的重要组成部分。近年来,非线性科学得到了 快速发展。实际问题中,常常需要面临大量复杂且无法直接建立解析数学模型的非线性 系统。通过实验或观测可以获得蕴含这些非线性系统演化信息的时间序列。从复杂性理 论可知,时间序列中不仅包含了系统所有变量过去的信息,而且还包含了参与系统演化 的所有变量的大量信息,因此分析观测时间序列的演变规律是掌握系统动力学特性的重 要手段之一。 混沌时间序列预测是混沌理论的一个重要应用领域和研究热点,可用来确定动力系 统模型,检测和分析混沌,具有重要的实际应用价值和意义【l 】自2 0 世纪3 0 年代以来, 来自天文、水文、气象、经济等领域的诸多时间序列都被发现含有混沌特性i 卅,混沌 时间序列的普遍存在性决定了对其研究的必要性。 目前有关时间序列的建模和预测方法大都集中在单变量时间序列的研究中,其基本 思路是根据观测数据,重构系统相空间,然后采用适当的建模方法在相空间中找到一个 非线性模型去逼近系统动态特性,实现一定时期内的预测。根据延迟嵌入定理,只要嵌 入维数足够大,单变量时间序列足以重构原动力系统,也可以取得较理想的预测效果。 在本课题小组早期的研究中,已经对单变量混沌时间序列的建模预测进行了深入学习和 探讨1 7 - 9 1 ,采用扩展卡尔曼滤波和神经网络等方法,构建精确的预测模型,可以很好地 反映混沌系统的动态特性,具有较高的预测精度。 但是在实际问题中,不能保证实际问题中任何给定的单变量时间序列都足以重构原 系统。例如l o r e n z 方程中工换成呵,y 换成- y ,z 不变时方程仍成立,即由z 坐标不能分辨z , 多元混沌时间序列的变量选择及预测方法研究 y 坐标的对称性,因而z 坐标的测量就不能重构l o r e n z 动力系统。此外,复杂系统往往由 多个变量描述,通过观测可以获得多变量时间序列。多变量时间序列包含了关于原动力 系统更丰富更完整的系统信息,可以起到过滤噪声,提高预测质量的作用。在大多数情 况下,特别是系统含有噪声的时候,使用多变量时间序列来进行预测要比使用单变量时 间序列更为理想【1 0 】。对复杂非线性系统进行研究最主要的任务之一就是通过提取和学习 多个变量序列中包含的信息,构建能够体现多组序列内部关系的模型结构,以便深入掌 握复杂系统的动态特性,进行有效地分析和预测。因此,基于多变量混沌时间序列的预 测研究得到越来越多的关注。 由于多变量时间序列之间相互影响、相互作用的特性,某两个变量的时间序列之间 可能是相互依赖的,或者说两个变量序列可能反映的是复杂系统的同一特征,那么这两 个变量的时间序列只需考虑其中一个即可,否则会导致信息的冗余并增加计算的复杂程 度。因此,当通过观测或实验手段获得实际问题中复杂系统的多变量时间序列后,首先 需要研究的问题是这些变量之间是否存在某种依赖关系。如果某一变量时间序列依赖于 另外一些变量,则在预测建模过程中可以去掉,这样逐一处理后可得到一组相互独立的 多变量时间序列。 目前针对复杂系统内部变量相互关系的研究日益增多。w o j c i k l l l l 等人研究了荷兰 m a a s t r i c h t 地区的降雨和气温的关系,采用二者的联合信息估计月均降雨量和月均温度。 l i u 1 2 】等则收集澳大利亚全国3 9 个观测点的降雨和气温观测值,结合二者信息估计太阳 日辐射大小。值得注意的是,增加不必要的解释变量也会引起不良后果,有时看似改善 了拟合模型,实则导致预测结果更差。因此,如何选择变量及有效提取变量间的信息成 为一个很重要的问题。 本文综合考虑输入变量选择以及预测模型构建两方面的问题,力图充分挖掘多变量 数据中的信息,有效选择输入变量,降低输入变量维数,以简化模型结构,建立更加适 用于多元时间序列的精确预测模型,这一研究具有十分重要的理论价值和现实意义。 1 2 多变量混沌时间序列预测的研究内容及方法 由于混沌吸引子的内在行为具有相当的不规则性及混沌吸引子具有十分复杂的几 何结构,不同的混沌实测数据应该建立不同的混沌模型。这里一个非常重要的问题是: 如何由获取的多变量时间序列来恢复原动力学系统,建立这个动力系统的坐标框架,并 在此基础上建立合理的预测模型来完成时间序列预测的目的。本节首先阐述多变量混沌 时间序列的相空间重构原理及其重构参数( 延迟时间与嵌入维数) 的选取方法,然后介绍 多变量混沌时间序列预测模型构建的主要方法。 大连理工大学硕士学位论文 1 2 1多变量混沌时间序列相空间重构 相空间重构是混沌时间序列分析的重要手段,对多变量时间序列进行相空间重构可 以更好地获取观测系统的特征和演化行为。t a k c n s 定理i ”】认为系统中任一分量的演化都 是由与之相互作用着的其它分量所决定的,因此这些相关分量的信息就隐藏在任一分量 的发展过程中。为了重构一个等价的状态空间,只需考察一个分量,并将它在某些固定 的时间延迟点上的测量作为新维处理,即延迟值被看成是新的坐标,它们确定了某个多 维状态空间中的一点。重复这一过程并测量相对于不同时间的各延迟量,就可以产生出 许多这样的点,它可以将吸引子的许多性质保存下来,即用系统的一个观察量可以重构 出原动力系统模型,可以初步确定系统的真实相空间的维数。 给定m 维多元时间序列“,i - l 2 , ,肘 ,其中而一魄( 1 ) ,( 2 ) ,五( ) r ,为 时间序列的长度。沿用单变量时间序列相空间重构的思想,分别计算各单变量时间序列 的延迟时间和嵌入维数,可以得到每个单变量序列重构后的相空间【1 4 1 : ( f ) ;【五( f ) 而( f 一) ,五o 一眠一1 ) 弓) 】 ( 1 1 ) 其中:t - l ,l + 1 ,n ,l - m 缸f 一1 啊+ 1 ,t 和( i 一1 2 ,m ) 分别为第i 个单变 j 盈朋 量混沌时间序列的延迟时间和嵌入维数。 则重构后的多变量时间序列相空间可以被描述为: x ( t ) 。【( f ) ,工;o ) ,而t ( f ) r ( 1 2 ) 只要嵌入维数以及延迟时间选择恰当,重构相空间在嵌入空间的“轨线”就是微分 同胚意义下的原系统的动力学等价。因而存在一个光滑映射,:r “一r ,使得 x ( t + ,7 ) - f ( x ( f ) ) ,其中口为预测步长。此时x o ) 一x ( f + 1 1 ) 的演化反映了原未知动力 系统的演化。理论上满足上式的,是唯一的,但是实际中可用数据总是有限的,不可能 真正求得,而只能根据有限的数据构造映射庐:一r ,使户充分逼近,这样的映 射就作为非线性预测模型。 嵌入维数和延迟时间的确定,是相空间重构方法中的两个关键技术。由t a k c n s 定 理可知,在数据没有噪声且无限长的情况下,嵌入维数m 和延迟时间t 可以任意取值。 但是实测时间序列都是有限长的,且一般都有噪声污染,因此延迟时间与嵌入维数选择 的恰当与否,将直接影响重构混沌吸引子的质量。 ( 1 ) 相空问重构嵌入维数的选取方法 多元混沌时间序列的变量选择及预测方法研究 一般认为,如果重构相空间的维数足够大,就可以刻画出系统的奇异吸引子,揭示 出传统方法无法展示的系统运动规律。通过国内外学者的大量研究,已形成一些比较成 熟的相空间重构嵌入维数的选取方法,主要结果如表1 1 所示: 表1 1 相空间重构嵌入维数的选取方法 t a b 1 1m e t h o d so f d e t e r m i n i n ge m b e d d i n gd i m e n s i o ni np h a s e s p a c er e c o n s t r u c t i o n ( 2 ) 相空间重构中延迟时间的选取方法 关于延迟时间f 的选取,目前学术上主要有以下两种观点:一种观点认为t 和m 这 两个值的选取是互不相关的,选取过程是独立进行的【冽,其基本思想一般基于三个准则: 序列相关法:使得时间序列内元素之间的相关性逐渐减弱,同时保持时序中所 包含的原动力学的信息特征尽量不丢失,如自相关法【2 1 1 、互信息量法和高阶相关法例 等。 4 - 大连理工大学硕士学位论文 相空间拓展法:使得t 很小时的相空间轨线从相空间的主对角线尽可能地拓展, 而不出现折叠现象,如填充因子法例、摆动量法i 矧、平均位移法i 捌和s v f 法1 2 7 1 等。 复自相关法【2 8 j 和去偏复自相关法:复自相关法是一种介于上述两个准则之间的 折中方法,理论上已经很完善,且计算过程难度不大,有很强的抗干扰能力,但此方法 对数据长度的依赖性十分强。 另一种观点认为t 和m 的选取是互相依赖的,可同时使嵌入维数m 和延迟时问t 变动,但总体上保持一1 ) t 不变来确定最佳的延迟时间t 和嵌入维数m ,如结合自相关 函数与互信息函数的c c 方法【矧、时间窗口法1 3 0 3 1 l 等。 嵌入维数和延迟时间的确定是相空间重构技术的核心,但目前尚无一种通用的适合 各种混沌时间序列的算法,本文中所提及的确定嵌入维数m 和延迟时间t 的各种方法都 在不同程度上带有一定的主观性。由于没有任何有关混沌时间序列相空间的先验信息, 缺乏一个明确的指标来评判相空间重构的效果好坏,因此各种方法将会继续存在,并且 不断会有新的方法从其他学科领域引入。 1 2 2 多变量混沌时间序列预测方法 单变量混沌时间序列的预测方法大部分可以通过某种转化应用于多变量混沌时间 序列。经过二十多年的不懈努力,人们己经就多变量混沌时间序列的可预测性与预测方 法、预测模型等进行了大量的研究,取得了许多重要的理论和应用研究成果,而单变量 时间序列的预测可以作为多变量时间序列预测的特例c m = 1 ) 处理。 同单变量时间序列预测方法一样,按照选用的数学模型不同,现有的多变量时间序 列预测方法也可以分为全局预测方法、局域预测方法与白适应预测方法三类。 ( 1 ) 多变量混沌时间序列的全局预测方法:全局预测方法的基本思想是用重构相空 间中的所有状态点拟合出一个光滑函数作为预测模型,由此预测轨迹的走向。全局预测 方法在概念上很容易理解,但是实现并不容易,尤其当拟合的非线性映射比较复杂时。 全局预测方法通常可分为全局多项式建模预测以及神经网络建模预测等。 全局多项式建模预测方法【3 2 - 3 4 1 :当相空间维数较低时,可以采用高阶多项式进 行全局逼近。根据w e i e r s t r a s s 定理,对任意定义在有界闭区间的连续函数,总可以用一 个多项式来逼近,且当多项式阶数趋于无穷时两者之间误差渐近为零。这就在数学上保 证了该方法的可行性。但是当维数较高时,用高阶多项式拟合重构相空间轨迹的计算量 很大,并且预测精度会迅速下降,因此全局多项式方法不适合实际应用。 神经网络预测方法 3 5 - 4 0 :神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a l q n ) 是非线性系 统逼近和建模的有效工具,不仅具有强大的非线性映射能力,还具有建模容易、预测速 多元混沌时间序列的变量选择及预测方法研究 度快、自适应调整能力强等许多优点,特别适合于处理非线性现象。对于复杂的多变量 时间序列,神经网络方法只需较少的统计学知识即可得到很好的结果。因此,神经网络 为高度非线性动态关系的混沌时间序列预测提供了一条有效途径。借助于神经网络建立 多变量混沌系统的预测模型已经成为现今的热点研究问题之一。 ( 2 ) 多变量混沌时间序列的局域预测方法:局部预测方法认为相空间中某一点的演 化行为可由其邻近点的演化行为反映出来,即在相空间中寻找预测点的最邻近点,只利 用被预测点邻域内其它点的信息来拟合预测函数,且不同的预测点处预测函数是不一样 的。常用的局域预测法包括局部平均预测法、局部线性预测法、局部多项式预测法等。 局部平均预测方法:局部平均预测方法的基本思想是在相点x ( f ) 附近寻找个 最近邻点x 瓴) ,x ( f 2 ) ,x “) 。如果系统是确定性的,则当x ( t ) 靠近于x ( t i ) , ( f = 1 ,2 ,) 时,x ( t + 1 ) 也靠近于x + 1 ) ,因此以x ( f l + 1 ) ,x ( t 2 + 1 ) ,x “+ 1 ) 的平均值作为x ( t + 1 ) 的预测值。局部平均预测算法中,在找到中心点的邻域后,并不 考虑邻域中各点与中心点之间的空间距离对其预测的影响。但是,相空间中各点与中心 点之间的空间距离是一个非常重要的参数,预测的准确性,往往取决于与中心点的空间 距离最近的几个点。因此,将中心点的空间距离作为一个拟合参数引入预测过程中,在 一定程度上可以提高预测的精度,并有一定的降噪能力1 4 1 j 。 局部线性预测方法 4 2 4 3 1 所谓局部线性近似是指以x ( t + 1 ) 一a + 职( f ) 来拟合第t 点周围的小邻域,并用最小二乘法求出参数4 和6 ,得到相空间中轨迹的趋势,再从 x o + 1 ) 中分离出预测值。在此过程中有一个显而易见的问题是如何确定参考点的个数 ,参考点太多会影响预测的效果,通常选n m + l ,m 为嵌入维数。 局部多项式预测方法:单变量时间序列局部多项式预测方法是由f a r m e r l 4 4 1 等人 给出的,选用的映射为高阶多项式,其系数采用最近邻域点拟合。i t o h 4 5 给出了确定多 项式阶数的方法,能够得到比局部平均和局部线性预测法更好的预测结果。在此基础上, 王海燕【舶i 等人将单变量混沌时间序列预测的局部多项式预测方法推广到了多变量情形, 提出了多变量混沌时间序列的局部多项式预测模型。 局域预测法的优点在于其预测值的计算量较少,且每隔一个时间段就构造出一些新 的状态矢量,对实际的变化具有很强的适应能力。但是这种方法只反映了吸引子的局部 特性,一旦超出相应的区域范围,局部模型的精度便会下降,甚至完全失效。 ( 3 ) 自适应预测方法1 4 7 - 4 9 :自适应预测是动态调整模型参数的一种方式,根据当前 获得的数据和当前的预测误差来不断修正模型参数,适用于已知数据不完整或实际物理 系统具有时变特性的情况。混沌时间序列的自适应预测方法是在近年内发展起来的一种 一6 一 大连理工大学硕士学位论文 预测方法。该方法只需要很少的训练样本就能对混沌序列做出很好的预测,适合小数据 量的情况,便于实际应用。并且该方法能白适应地跟踪混沌的运动轨迹,预测精度较高, 但对算法的跟踪辨识和实时递推能力要求较高。 尽管多变量混沌时间序列预测相比于单变量混沌时间序列预测具有较大的优势,并 且已经得到越来越多研究学者的关注。但是,由于多变量混沌时间序列自身的特点限制 了传统预测方法的应用,需要研究新的方法途径。此外,目前对多变量时间序列的预测 大都是在多元相空间重构方法基础上进行的,将每个单变量时间序列作为独立成分处 理。而多变量序列之间的相互影响关系是十分复杂的,如果忽略其内部关系简单的进行 处理,对预测精度会有很大的影响。因此,对于多变量时间序列的预测研究,如何有效 地选择输入变量是一个重要问题。 1 3 变量选择方法的国内外研究现状及存在问题 变量选择是特征选择的一种特殊情况,是指在预测性能满足要求的前提下,从原始 变量集中去除冗余变量,选择出足以包含变量之间信息并能提高预测精度的精简输入变 量子集。经典特征选择的定义包括特征提取和特征选择两个方面:特征提取广义上指的 是一种变换,将处于高维空间的样本通过映射或变换的方式转换到低维空间,达到降维 的目的;特征选择指从一组特征中去除冗余或不相关的特征来实现降维。具体来说,变 量选择可以去掉那些无关和冗余的特征,以此获得的变量子集用于预测可以减少所需的 存储空间、加快处理速度以及提高预测精度。 变量选择是统计学领域的经典问题,自上个世纪6 0 年代起就有学者对变量选择问 题进行研究。变量选择的研究对于提高预测模型的预测精度以及深入理解变量之间的影 响机制具有重要的意义,近年来越来越受到研究人员的重视。尤其是2 0 世纪9 0 年代以 来,随着整个人工智能领域研究的不断推进,在特征选择问题上也取得了丰硕的成果。 d a s h 删等人对机器学习领域的特征选择作了深入研究,认为本质上大多数特征选择方法 可以看作是一个搜索问题,每一个可能的特征子集作为搜索空间中的一个状态。 特征选择需要解决两个问题:一是确定选择算法,在允许的时间内,以可以忍受的 代价找出最小的、最能满足要求的特征组合;二是确定评价标准,衡量特征选择是否最 优,得到特征选择操作的停止条件。因此,一般分两步进行特征选择:先产生特征子集, 然后对子集进行评价。按照不同的标准,特征选择方法可以分为多类。 ( 1 ) 按照特征子集形成方式分类 按照特征子集的形成方式,特征选取方法可分为穷举法( e x h a u s t i o n ) 、启发法 ( h e u r i s t i c ) 和随机法( r a n d o m ) 三类。 多元混沌时间序列的变量选择及预测方法研究 穷举法:指遍历特征空间中所有特征的组合,选取最优特征组合子集的方法。 假设特征个数为m 时,计算复杂度为d ( 吵) 。常用的方法有回溯方法及其改进方法等【5 1 】。 其优点在于一定能得到最优子集,但实际情况下由于特征空间过于庞大,时间耗费和计 算复杂度太大,导致实用性不强。 启发式方法:为一种近似算法,具有很强的主观倾向。实际应用中通过采用期 望的人工机器调度规则,重复迭代产生递增的特征子集。特征个数为m 时,复杂度一 般小于或者等于o ( m 5 。这种方法实现过程比较简单而且快速,在实际中应用非常广泛, 如向前( 向后) 选择法、决策树法 5 2 1 、r e l i e f 方法【5 3 1 等。但是,不能保证结果最优,一般 能够获得近似于最优解的解。 随机方法:是一种相对较新的方法,细分为完全随机方法和概率随机方法两种。 完全随机方法是指“纯”随机产生子集,概率随机是指子集的产生依照给定的概率进行。 虽然计算复杂度仍为d ( 吵) ,但通过设置最大迭代次数可以限制复杂度小于d ( 吵) 。常 用的方法有遗传算法【5 螂】、模拟退火算法【5 6 1 等。这类方法需要进行参数设置,并且参数 值决定是否能得到最优解,因此如何有效地设置这些参数是一个值得研究的问题。 上述三类方法中只有穷举法能保证最优,但耗时并且计算复杂度很高,后两者以性 能为代价换取简单、快速的实现,但不能保证最优。实际应用中为了折中性能和代价之 间的矛盾,常结合几种方法,如b i n s 等吲采用三步法:首先使用r e l i e f 算法去除无关 的特征,其次采用k 均值法去除冗余特征,然后进行标准的组合特征方法,取得了较好 的效果。这也是今后进一步研究的方向。 ( 2 ) 按照特征评价标准分类 特征选择可以看作一个优化问题,其关键是建立一种评价标准来区分哪些特征组合 有助于预测,哪些特征组合存在冗余性、部分或者完全无关。不同的评价函数可能会给 出不同的结果。根据评价函数是否依赖于最终的预测模型学习算法,目前常见的特征选 择算法可以分为两类:过滤式特征选择方法( f i l t e r ) 冈和封装式特征选择方法 ( w r a p p e r ) 1 5 9 1 。 过滤式特征选择方法:评价函数与预测模型无关,通常依赖于数据集本身,一 般可视为建立预测模型前的数据预处理过程,因此不受预测模型参数的影响。无模型特 征选择方法的评价函数主要有距离度量、信息度量、依赖性度量和一致性度量等。 距离测度是利用距离来度量样本之间相似度的一种方式。分布于不同区域的样本, 样本之间距离越小越相似,样本之间距离越大,其可分性就越大。最为常用的一些重要 距离测度有欧氏距离、巴氏距离和马氏距离等。聚类分析【砷】、判别分析【6 1 】等特征提取方 法就是根据变量之间的距离将一些类似的变量进行分组,获得差异性较大的变量组成新 一8 一 大连理工大学硕士学位论文 的变量子集;信息测度是为了衡量后验概率分布的集中程度所规定的一个定量指标。从 特征获取的角度来看,利用具有最小不确定性的那些特征来预测是最有利的,因此引入 信息领域中作为不确定性量度的熵函数作为评价测度。常用的熵函数有s h a n n o n 熵、 r e n y i 熵和条件熵等。互信息函数是常用的基于信息测度的特征选取方法【6 2 捌;相关性 测度包括两个方面的内容,既可以利用相关系数,找出特征和类之问存在的相互关系, 如皮尔斯相关系数、偏相关系数等;又可以利用特征之问的依赖关系,来表示特征的冗 余性畔j :一致性测度发展较晚,它和训练数据集关系密切,并且需要设定参数,最后得 到的结果为满足给定参数的最小尺寸特征子集。 过滤式特征选择方法通常运行效率较高,因此适用于大规模数据集,但k o h a v i 5 9 j 指出寻找与预测目标函数相关的特征子集和选择可最优化预测精度的特征子集是两个 不同的任务。由于这种特征选择与预测模型的分离特性,使得过滤式特征选择方法无法 直接评判所选特征对预测结果的影响。 封装式特征选择方法:特征选择的最终目的在于使预测器的预测误差最小,因 此封装式特征选择方法通过将预测精度作为变量选择好坏的依据,对输入变量选择的参 数进行调整,选择出使预测误差最小的特征或者特征组合。v e r i k a s 6 5 1 等采用神经网络作 为输入变量选择的模型,通过灵敏度分析选取对预测输出影响较大的变量作为预测模型 的输入,在选择输入变量的同时得到预测结果。封装式特征选择方法一个比较明显的缺 陷在于每次运行得到的结果并不稳定,相同模型参数的情况下也可能会得到不同的输入 变量子集。此外,仅根据预测精度对输入变量进行选择,变量之间可能具有较强的耦合 关系,得到的不是最优变量子集,从而造成资源上的浪费。 尽管已经有很多进行特征选取的方法,但针对解决实际问题的研究还很不充分。如 何综合利用现有的方法,以及针对特定问题提出新的方法,是目前特征选取方法研究的 发展方向。 1 4 论文主要内容及结构 本研究得到国家自然科学基金项目( 6 0 6 7 4 0 7 3 ) “基于多元时间序列分析的复杂系统 建模与预测研究”与国家自然科学基金项目( 6 0 3 7 4 0 6 4 ) “含噪声混沌时间序列重构模型 与预测研究”的资助。 本文在已有多变量混沌时间序列预测模型基础上,提出建立基于变量选择的多变量 时间序列预测模型。采用典型相关分析、神经网络等多种方法,对过滤式变量选择方法 及封装式变量选择方法两种常用的变量选择算法进行探讨,并对其进行改进,在此基础 一9 一 多元混沌时间序列的变量选择及预测方法研究 上针对混沌序列特性,研究适合多变量混沌时间序列预测的输入变量选择算法。具体研 究方案如图1 1 所示: l 变量1 h i 过滤式变量选择 i 叫变量l 件 预 i 变量2r +测 封装式变量选择 模 h 预测输出 i 针对混沌相空间的变量选择l 叫变量m h 型 i 变量一 变量选择( ”r ( ,)预测模型 图1 1 本文主要研究内容及组织结构 f i g 1 1 b a s i cr e s e a r c hc o n t e n ta n ds t r u c t u r eo ft h et h e s i s 具体章节安排如下: 第1 章绪论。主要介绍课题的研究背景及意义,总结目前多变量混沌时间序列预 测的研究内容和方法,分析特征选取方法的发展和研究现状,并给出本文的研究内容及 组织结构。 第2 章基于改进非线性典型相关分析的变量选择及预测。在过滤式变量选择方法 基础上,介绍典型相关分析与非线性核典型相关分析的基本思想和实现方法,并结合径 向基函数与核函数理论,提出一种改进的非线性典型相关分析方法,对原始变量进行非 线性组合,用组合后的少数几对典型变量来反映原始输入变量的绝大部分信息。 第3 章基于神经网络灵敏度分析的变量选择及预测。主要研究封装式的变量选择 方法,采用三层感知器神经网络建立预测模型,为每个输入节点定义一个灵敏度函数, 根据灵敏度函数大小对神经网络的输入节点进行减枝,从而达到减少输入变量个数,精 简网络结构,提高预测精度的目的。 第4 章基于混沌序列相空间的变量相关性分析及预测。采用相空间同步方法分析 混沌时间序列之间的相互影响机制,提出一种度量变量间非线性依赖关系的相关系数指 标。根据变量之间的依赖关系对输入变量进行选择,选择与输出同步性较好的影响变量 作为预测模型的输入。 最后在结论中,对本文主要研究内容及所取得的结果进行总结,对需要进一步研究 的问题进行展望。 大连理工大学硕士学位论文 2 基于改进非线性典型相关分析的变量选择及预测 典型相关分析是一种研究两组变量之间相关关系的多元统计分析方法。本章在过滤 式变量选择算法框架下,主要介绍典型相关分析的基本理论与方法,并借助径向基函数 ( r a d i a lb a s i sf u n c t i o n ,r b f ) 神经网络与核函数理论,提出一种改进的非线性典型相关 分析方法。首先采用主成分分析的思想,对原始变量分别进行非线性组合,把两组变量 的相关性转化为两个变量的相关性进行考虑;然后用组合后的典型相关变量代替原始多 变量数据作为输入构建预测模型;最后给出多组仿真结果验证本章方法进行多变量混沌 序列预测的可能性和有效性。 2 1 线性典型相关分析 2 1 1线性典型相关分析的基本思想 在大部分实际问题的研究中,所考虑的众多变量并不是独立的,变量之间存在一定 的相关性。一般情形下,每个变量都会提供一定的信息,但其重要程度与侧重有所不同, 且这些变量所提供的信息将在一定程度上有所重叠。因此,人们希望利用这种相关性对 涉及的变量进行改造和组合,用为数较少的、互不相关的新变量来反映原来多个变量所 提供的大部分信息,通过对新变量的分析达到解决问题的目的。在这种降维思想的指导 下,研究者提出了主成分分析( p r i n c i p l ec o m p o n e n ta n a l y s i s ,p c a ) 、典型相关分析 ( c a n o n i c a lc o r r e l a t i o na n a l y s i s ,c c a ) 等处理高维数据的多元统计方法。 典型相关分析是一种常用的研究变量之间相关关系的多元统计方法,由h h o t e l l i n g 于1 9 3 6 年提出【删。典型相关的概念是在两个变量相关的基础上发展起来的。一般来说, 两个变量之间的相关关系可以用它们的相关系数来衡量,一个变量与一组变量之间的相 关关系可以用复相关系数来衡量。但是考虑两组变量之间的相关关系时,如果运用两个 变量的相关分析思想,分别考虑第一组变量集中的每个变量与第二组变量集中的每个变 量之间的相关性,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相 关性,用得到的多个相关系数来反映两组变量的关系,即繁琐,又抓不住要领。因此, 类似主成分分析,可以考虑对每组变量作一个线性组合,然后研究两组综合变量之间的 相关性,通过对少数几个综合变量的分析来代替原始多变量输入,这样便引出了典型相 关分析。 假设存在两组观测变量x k ,屯,知r 和y - 魄,:,h l r ,其中m 和分 别为每组变量集中变量的个数,每个变量均包含n 个数据点,即x 卯“,y 9 t “。 多元混沌时间序列的变量选择及预测方法研究 典型相关分析的基本思想就是分别选取这两组变量的一个线性组合,使得组合后的变量 ( 称为典型相关变量) 之间的相关系数达到最大。然后通过这一组典型相关变量之间相关 关系的研究,代替原来两组变量之间相关关系的研究,达到降低输入变量维数的目的。 记两组变量的线性组合分别为: 其中ai 【口。,口:,a 。r 与6 一溉,1 r 称为典型相关系数,h 与v 称为典型相关变量。 典型相关分析的目的就是找到这样的一组线性组合,使得组合后的变量与y 之间的相关 系数达到最大。 此时u 与p 之间的相关系数可通过下式给出: 矾。;鱼兰蜂! !。;呈些丝! 竺塑;! :! 等!( 2 2 ) 氏,。再丽丽丽。再乖菰丽。而霞司两荔u “ 其中s 。- v a r ( x ) 是第一组变量x 的方差;s 。一v a r ( y ) 是第二组变量l ,的方差; s 。一c o v ( x ,y ) 是x 和y 的协方差矩阵,且满足s 。- s :。 显然,对于不同的a 与b ,相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论