(计算数学专业论文)基于hht的数据处理问题.pdf_第1页
(计算数学专业论文)基于hht的数据处理问题.pdf_第2页
(计算数学专业论文)基于hht的数据处理问题.pdf_第3页
(计算数学专业论文)基于hht的数据处理问题.pdf_第4页
(计算数学专业论文)基于hht的数据处理问题.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 非线性非平稳信号处理( 或数据分析) 是近年来数据分析领域的热点问题。 h h t ( h i i b e r t h u a n gt r a n s f o r m ) 是一种能适用于非线性、非平稳信号的数据分析方法, 由经验模态分解( e m d ) 及h i i b e r t 谱分析( h s a ) 两部分组成。这一方法不同于f o u r i e r 变换,不是采用预先确定的基函数,而是通过e m d 从信号本身分解出一组各不相同的基底, 即分解结果具有自适应的特点。因此该方法更适合处理复杂的非平稳信号,是一种更具 适应性的时频局部化分析方法。近十年来,h h t 成功应用于海洋、大气、生物医学、金 融、故障诊断等多个领域。但e m d 本质上是一个算法,是一种经验性的方法,缺乏严格 的数学理论基础。h h t 数学理论基础的建立及向高维的推广是亟待解决的公开问题。 在这一热点领域,本文主要做了如下探索:( 1 ) 什么样的数据适合用h h t 方法去处理: ( 2 ) 在e m d 算法中,用哪一种样条去做包络能得到比较好的结果。通过分析讨论,得到 相应的两个结论:( 1 ) 通过第一次取的包络均值的斜率去判断原始数据是否适合用h h t 方 法去处理;( 2 ) 利用二次样条做包络,从能量和减少由逼近工具自身所产生的振荡方面 考虑可以得到更好的结果。 关键词:自适应数据分析;h h t ;样条;时间序列 基于h h t 的数据处理问题 d a t ap r o c e s s i n gb a s e do nh h t a b s t r a c t n o n l i n e a ra n dn o n s t a t i o n a r yd a t aa n a l y s i si sas i g n i f i c a n tp r o b l e mb o t hi np u r er e s e a r c h a n dp r a c t i c a la p p l i c a t i o n s h i l b e r t h u a n gt r a n s f o r m ( h h t ) i sa n a d a p t i v ed a t aa n a l y s i s m e t h o df o rn o n l i n e a ra n dn o n s t a t i o n a r yd a t a ,w h i c hc o n s i s t so ft w op a r t s :e m p i r i c a lm o d e d e c o m p o s i t i o n ( e m d ) a n dh i l b e r ts p e c t r a la n a l y s i s ( h s a ) t h i sm e t h o d ,d i f f e r e n tf r o mt h e w a v e l e t ,d on o te m p l o yt h eb a s i sg i v e ni na d v a n c e ,s oi ti sa d a p t i v e t h eh h t sp o w e ra n d e f f e c t i v e n e s si nd a t aa n a l y s i sh a v eb e e nd e m o n s t r a t e db yi t ss u c c e s s f u la p p l i c a t i o nt om a n y i m p o r t a n tp r o b l e m sa n df i e l d s ,s u c ha sf i n a n c i a la n a l y s i s ,o c e a no b s e r v a t i o n ,a n db i o l o g i c a l m e d i c i n e h o w e v e r , t h i sm e t h o di sa c t u a l l ya na l g o r i t h mt h a ti sl a c ko fm a t h e m a t i c a l f o u n d a t i o n sp a p e rd o e s2r e s e a r c h e sm a i n l yo nh h td a t ap r o c e s s i n g :( 1 ) w h i c hk i n do fd a t a s e r i e si sa d a p t e dt ob ep r o c e s s e di nh h t ? ( 2 ) w l l i c hk i n do fi n t e r p o l a t i n gt o o l ss h o u l db e s e l e c t e da st h ee n v e l o p ec u r v eo ft h eo r i g i n a ld a t a ? a n dc o n c l u d et w or e s u l t s :( 1 ) a c c o r d i n gt o t h es l o p eo ft h es u mo fu pe n v e l o p ea n dd o w ne n v e l o p et od e c i d ei fo rn o tu s eh h t ( 2 ) u s e t h es p l i n eo fd e g r e e2t od ot h ee n v e l o p e k e yw o r d s :a d a p t i v ed a t aa n a l y s i s ;h h t ;s p l i n e ;t i m es e r i e s i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 作者签名: 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅学校有权 保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将本 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印、或扫描等复制手段保存和汇编本学位论文 学位论文题目 作者签名 导师签名 基王旦旦! 鲍数握丛垄虚洼 亟盘日期:盟年上月盟日 _ 殛型l日期:埠年上月雄日 大连理工大学硕士学位论文 引言 非线性非平稳信号处理( 或数据分析) 是近年来数据分析领域的热点问题。f o u r i e r 分析是经典的数据分析方法,由于平稳、分段平稳的要求,且只适用于线性系统,其应用 有一定的局限性。小波分析是一种非平稳数据分析方法,自上世纪8 0 年代以来受到学 术界的广泛关注并逐渐成熟,但其本质上是一种可调窗f o u r i e r 谱分析方法,需要事先选 定基函数,一旦选定小波基底,只能用这组基来分析所有的数据,因此小波分析不是自适 应的,也只能用来分析线性系统n 儿2 j 。删t ( h i l b e r t h u a n gt r a n s f o r m ) 是1 9 9 8 年由n e h u a n gn 1 及其合作者提出的一种能适用于非线性、非平稳信号的数据分析法。这一方 法不同于f o u r i e r 变换,不是采用预先确定的基函数,而是通过e m d ( e m p i r i c a lm o d e d e c o m p o s i t i o n ,经验模态分解) 从信号本身分解出一组各不相同的基底,即分解结果具 有白适应的特点,因此该方法更适合处理复杂的非平稳信号,是一种更具适应性的时频 局部化分析方法。近十年来,h h t 成功应用于海洋、大气、生物医学、金融、故障诊断 等多个领域的数据分析中。但e m d 本质上是一个算法,是一种经验性的方法,缺乏严格 的数学理论基础。2 0 0 3 年,n e h u a n g 圆等在由s i a m ( s o c i e t yf o ri n d u s t r i a la n d a p p l i e dm a t h e m a t i c s ) 及c a i m ( c a n a d i a na p p l i e da n di n d u s t r i a l m a t h e m a t i c s s o c i e t y ) 联合组织的研讨会上,总结了h h t 研究进展中遇到的一些突出的问题,并向 数学界请求援助。近五年来,有关这方面研究论文不断涌现,可以说,自适应数据分析方 法( 包括h h t ) 的理论及应用研究正方兴未艾,继续往更复杂、更广泛、更本质的层次深入。 但该方法属经验性方法,严格的理论基础尚未建立,h h t 数学理论基础的建立及向高维的 推广是亟待解决的公开问题。 基于哪t 的数据处理问题 1 h h t ( h i l b e r t h u a n gt r a n s f o r m ) 理论 h i l b e r t h u a n g 变换( h h t ) 是由n e h u a n g 及其合作者于19 9 8 年提出的一种自适应 数据分析方法i l 】,能适用于非线性、非平稳信号的处理。该方法的思考来源于作者对 瞬时频率的深刻研究与理解。早期的信号处理的研究对象大多都是整体平稳线性的信 号,把信号看成是不同频率的振荡的叠加,基于f o u r i e r 变换,把时域上的信号变换到 频域上,就可以得到不同频率的信号( 振荡) 。但这种观点的一个基本前提是,不同频率 的信号至少是在同一个周期内( 或者说以周期作为度量单位) 叠加在一起,也就是说,频 率的度量是离散的,对每个频率而言,是从全局( 以周期作为度量单位) 去考虑,这就没 有考虑到频率的连续变化,或者说频率的瞬时性与局部性。 2 0 世纪5 0 年代,s h e k e l 提出了瞬时频率【3 】的概念,但一直存有争议,因为它没有 一个明确的定义,“人们很难想象振荡的频率是连续变化的 。直到2 0 世纪9 0 年代, b o a s h a s h l 4 】提出了对于单一信号分量的瞬时频率的概念,才慢慢被接受。任何事物的出 现都有其合理性。对于自然界存在的各种形式的震荡,我们用连续变化的频率去描述 并没有什么不合理的地方,而且后者还包含了前者。举个不是很恰当的例子,这就像 是“积分号的意义包含着连加号一样自然 。 n e h u a n g 在深入理解了瞬时频率的意 义以后,提出了h h t 的信号分析及处理方法,对于非平稳非线性信号,或者说对于频 率变化有很大自由度的信号,这种处理方法在实际应用中取得了不错的效果。 1 1h il b e r t - h u a n g 变换及研究进展 数据分析的目的是得到真实、可靠的信息和结果,以便找出事物的规律,是科学研 究与工程实践的基础。 目前的数据分析方法包括概率统计方法 5 1 、谱分析方法( 包括小波分析方法) 等,它们 均以严格的数学理论为基础,各自拥有大量的研究文献和广泛的应用。f o u r i e r 分析是 经典的数据分析方法,由于平稳、分段平稳的要求,且只适用于线性系统,其应用有一 定的局限性。小波分析是一种非平稳数据分析方法,自上世纪8 0 年代以来受到学术界 的广泛关注并逐渐成熟,但其本质上是一种可调窗f o u r i e r 谱分析方法,需要事先选定 基函数,一旦选定小波基底,只能用这组基来分析所有的数据,因此小波分析不是自适 应的,也只能用来分析线性系统。由于f o u r i e r 谱只能对线性和平稳过程给出有物理意 义的解释,因此用该类方法分析来自非线性、非平稳过程的数据则存在问题。而概率 一z 一 大连理工大学硕士学位论文 分布只能描绘数据的整体性质,不能反映局部的时变性质。随着科学研究的不断发展, 前述方法应用的局限性越来越明显。 h h t 方法分两个步骤来分析数据:第一步,是用经验模态分解( e m p i r i c a lm o d e d e c o m p o s i t i o n , e m d ) 对数据作预处理,通过分解原始数据得到一组“固有模态函数 ( i n t r i n s i cm o d ef u n c t i o n ,r m f ) u j ,并作为“基底 展开数据;第二步,将分解得到的固 有模态函数作h i l b e r t 变换并构造能量时间频率分布,即h i l b e r t 谱,它将保存事件的 时间局部性,称为h i l b e r t 谱分析( h i l b e r ts p e c t r a la n a l y s i s ,h s a ) 。“经验模态分解( e m d ) 是h h t 的关键步骤,该分解基于如下基本假设:任何数据都是由不同的简单固有振荡 模态组成。通过经验模态分解,任何复杂的数据集都可以被分解为个数有限的、而且 常常是为数不多的几个i m f s 。其中“固有模态函数 是h h t 理论中主要的概念上的 创新。这些i m f s 刻画了信号在每一个局部的振荡结构或频率结构。通过对i m f s 作 h i l b e r t 变换,可以得到瞬时频率,作为时间的函数,它可以对非平稳非线性信号的结构 做出精确的分辨。 为了得到有意义的瞬时频率,n e h u a n g 等人进行了深入的研究。得到了使得瞬 时频率有意义的必要条件是:函数必须是关于局部零均值对称的,同时跨零点的个数与 极值点个数相同。基于这个观点,n e h u a n g 等人在提出了固有模态函数【l 】的概念,其 定义如下: 定义1 1 1 【1 】 ( 1 ) 在整个数据范围内,过零点的个数与极值点个数相等或者至多相差1 ; ( 2 ) 在任意点处,由局部极大值定义的包络线与由局部极小值定义的包络线的均值为 零。 第一个条件的意义是明显的,它类似于平稳高斯过程所要求的窄带条件,其直观意 义是:在i m f 中不能出现大于零的极小值,也不能出现小于零的极大值。第二个条件 则是将传统的全局条件修改为局部条件的结果。这对于保证在瞬时频率中不出现由于 波形的不对称而引起不希望的波动是必要的。理想情况下,该条件应该是数据的局部 均值为零。对于非平稳信号,局部均值的计算与“局部时间尺度有关,但这却是无 法确定的。因此,在e m d 中使用由极大值和极小值定义的包络的局部均值来代替实际 的均值以保证每个固有模态函数的局部对称性。之所以采用“固有模态函数 这一命 名,是因为它表示隐藏在数据中的振荡模式。 一3 一 基于h h t 的数据处理问题 1 2e m d 算法 首先,e m d 算法基于一项简单假设:任何时间序列都由一系列简单固有模态振荡 组成。 由于经过e m d 算法处理的数据所得到的i m f s 是h a s 的分析对象,即经过e m d 算法处理过的数据其结果会直接影响数据分析的稳定性,因此e m d 算法是h h t 的重要 步骤,对任意信号x ( t ) ,其筛选过程如下: ( 1 ) 确定x ( t ) 的所有极值点; ( 2 ) 对所有极大值点和极小值点利用三次样条插值分别做出x ( t ) 的上、下包络u t , l l ; ( 3 ) 从原信号中减去包络均值聊= ( u + 厶) 2 ,即得n h = x ( t ) - m : ( 4 ) 将办视为新的原信号重复步骤( 1 ) ( 3 ) ,直到它满足一定条件为止,这样便得到了 第一个i m f ,记为c ; ( 5 ) 做x ( t ) - q = ,i 然后将,- t 视作新的x ( f ) 重复上述过程,依次可得到c 2 ,c 3 ,直到 满足一定条件为止。 其中步骤( 4 ) 的终止条件有多种选择,按i m f 的定义可选择以下条件: a 极值点与跨零点个数相等或之多相差l ; b 均值包络的绝对值足够小,即| m l 。 步骤( 5 ) 的终止可以如下条件,r n 至多有一个极值点( 即无法再做筛选) 。 经过e m d 处理,可以从原始时间序列中分解出n 个固有模态函数分量,即 c l ,c 2 ,q 和一个误差项砌,而原始的时间序n x ( t ) 可以表示成它们的和,即: x ( f ) = e + ( 1 1 ) ,= l 经过e m d 筛选,实际上对原始数据x ( t ) 主要进行了两项处理: a 去除了振荡波形的叠加; b 使得那些非偶性的幅度变得光滑。 这无论是从i m f 的定义方式还是从利用样条函数的处理过程都可以看得出来。 下面我们来简单分析一下e m d 算法。 从e m d 的分解过程可知,除第一个i m f 即c l 外,所有的i m f s 均为样条函数之和: c l = x ( f ) 一( + 如l + 鸭( 七1 ) + 碍i ) ( 1 2 ) 大连理工大学硕士学位论文 其中所有的包络均值m 均由样条函数生成。 因此, ,i = x ( t ) - c 1 2 ( 玛+ 玛l + ( ) + 女) ( 1 3 ) 完全由样条确定。而后续分解过程则是对上述样条函数组合而成的余项五执行同 样的过程: r 2 = 吒一c 2 ,:l 。,;l l e 。 当,:l 的值很小或为单调函数时,停止筛选。 下面是一个信号经过e m d 过程的图像,可以看到分解出的i m f 的性状。此外, 我们还看到一个比较好的性质就是,相比于小波分析,经过e m d 分解出的基函数的数 量要少很多,这对我们之后对其进行处理会省去很大的运算量。 一5 一 基于h h t 的数据处理问题 上述筛选过程与所选择的样条相关,理论上讲,可有多种方法来对数据集进行分解, 通过选择不同参数( 或样条) ,e m d 也可以得到许多不同的i m f s 的集合。那么i m f 能 否建立严格的数学定义? 这些不同的i m f s 集合之间有什么联系? 不同的i m f 集合服从 什么分布以及有什么统计意义? 这些都是h h t 理论中重要的公开问题。 1 3h s a ( h ib e r ts p e c t r aia n aiy sis ) 对e m d 分解得到的i m f 做h i l b e r t 变换1 6 ,从而得到瞬时频率,得到h i l b e r t 谱。简 单地说,h i l b e r t 变换是原信号与l t 的卷积,因此,其特点是强调局部性。对固有模态 函数做h i l b e r t 变换: c 沁土p 业, ( 1 4 ) 一o 一 大连理工大学硕士学位论文 尸代表柯西主值。由这一定义,c i ,) 与c ( ,) 成为复共轭对,因此我们可以定义一 个解析信号 z ( f ) = c ( ,) + f c e ,) = 口( ,) 矿( ) ( 1 5 ) 式中 h 俨+ c 2 】l ,2 川沪a r e t a n l ( c c ( t ) n 6 , 式( 1 5 ) 、( 1 6 ) 是极坐标中的表现形式,明确的表达了瞬时振幅与瞬时相位,很好的 反映了数据的瞬时特性。在此基础上定义的瞬时频率为: 厂( f ) :d o - ( t ) ( 1 7 ) 由h i l b e r t 变换得出的振幅与频率均为时间的函数,把振幅显示在频率时间平面上, 就可以得到h i l b e r t 振幅谱,简称h i l b e r t 谱,记为h ( f ,f ) , 日( 厂,) :r e 羔a j ( t ) e i f j f 瑚 ( 1 8 ) 如果h ( f ,f ) 对时间积分,就得到h i l b e r t 边际谱h ( f ) , 厅( ) = ih ( f ,o a t ( 1 9 ) 边际谱提供了对于每个频率的总振幅分布的度量,表达了在整个时间长度内累积的 振幅。 另外,作为h i l b e r t 边际谱的附加结果,可以定义h i l b e r t 瞬时能量密度, 饱( f ) = f h 2 ( 厂,o a t( 1 1 0 ) , 瞬时能量密度提供了信号能量随时间的变化情况,如果用振幅的平方对时间积分, 就得到h i l b e r t 能量谱, e s ( f ) = 1 日2 ( 厂,f ) 衍 ( 1 1 1 ) h i l b e r t 能量谱提供了对于每个频率的能量的度量,表达了每个频率在整个时间长度 内所累积的能量。 n e h u a n g 指出,无论是h i l b e r t 振幅谱还是h i l b e r t 边际谱所得到的频率与傅立叶 分析中所得到的频率具有完全不同的物理意义。h h t 数据分析方法的创新之处在于它 不是事先选定基底,而是通过e m d 筛选过程由原数据集自适应生成基函数组。i m f s 一7 一 基于h h t 的数据处理问题 是基于信号的时间特征得出的,不同的数据得出不同的i m f s ,每一个i m f 可以看作是 信号中一个固有的振动模态,是一个单分量时间序列,在任意时刻只有唯一的瞬时频率。 1 4 研究进展 自1 9 9 8 年文献【l j 发表至今十年来,h h t 在多个领域得到广泛应用,应用方面的著作 可参考【7 】。但h h t 作为经验性的自适应数据分析方法,却是以难以建立严格的理论基 础为代价的。正是严格数学理论基础的缺乏限制了h h t 更为广泛的应用和进一步的发 展。均值包络的建立是e m d 筛选过程中的关键步骤,在原始方法中采用三次样条插值, 算法执行简便,但存在边界效应、过冲和欠冲现象及模态混叠等问题,且缺乏数学公式 化的表达。为研究e m d 的数学理论,近年来相关学者对均值包络的生成方法作了许多 探索和改进,代表性的工作简述如下。c h e n i 8 】等给出了e m d 的一种b 样条方法,采用b 样条拟插值公式直接构造均值包络,并导出b 样条h i l b e r t 变换的递推公式。 z h e n g t 9 】基 于b 样条基底及结点插入的加细结点表示,用3 次b 样条函数插值对e m d 算法筛选过程中 的均值包络给出了解析定义,本质上虽等价于经典定义,但文中给出了更为明显的数学 公式。 s m e i g n e n 1 0 j 等在中提出了直接构造均值包络的约束优化方法。 该方法利用 h e r m i t e 插值以动能构造目标函数,通过一个带等式与不等式约束的二次规划问题来定义 和求解均值包络,避免了以前筛选方法中对终止条件的依赖。 e d e l c h e l l e 1 1 】等提出了 一种基于四阶抛物型偏微分方程来构造信号均值包络的解析方法,并通过差分格式实现 数值模拟。y k o p s i n i s 等基于遗传算法给出了插值结点及插值多项式优化的e m d 方法。 还有其它一些学者探讨并提出了e m d 的改进方法及边界效应的处理方法,但仍有h h t 的一系列相关数学问题至今尚未解决【2 1 。针对应用中模态混叠问题,z h w u 【1 2 j 和n e h u a n g 给出了所谓聚类经验模态分解方法 ( e n s e m b l ee m p i r i c a lm o d e d e c o m p o s i t i o n ,e e m d ) ,该方法在数值实验的基础上,利用白噪声的统计特性,在信号 真解附近施加扰动后做e m d 分解,经多次重复筛选添加白噪声后的信号再取总体平均值 作为最终结果,白噪声可以经足够多次试验取平均而自我抵消。e e m d 是e m d 相当大 的改进,有效解决了模态混叠问题,但又带来一些未能很好解决的新问题,如:由e e m d 分解得到的i m f s 不再满足固有模态函数的严格定义。 1 5 一些公开问题 n e h u a n g 2 】等在提出了h h t 理论及应用中存在的一系列尚未很好解决的公开问 题。我们简要摘录如下。“过去几年里,h h t 方法获得了一些认可和重视。不幸地是, 完善的理论基础尚未建立。直到今天,h h t 的大多数进展主要在应用方面,基础的数 一8 一 大连理工大学硕士学位论文 学问题大部分尚待探讨。h h t 当前的状态类似于历史上8 0 年代早期小波分析的相应阶 段产生大量的应用结果,却期待数学基础的建立。这项工作正期待像d a u b e e h i e s ( 1 9 9 2 ) 的高人为小波建立数学基础一样建立h h t 的数学理论基础 ,突出的数学问题主要是 如下几个方面: 1 自适应数据分析的一般方法; 2 非线性系统的识别方法; 3 非线性过程的预测问题,这与e m d 中的端点效应密切相关; 4 样条问题:集中于寻找对h h t 最佳的样条工具以及e m d 的收敛性和二维推广: 5 优化问题或最佳i m f 的选取,以及e m d 分解的唯一性,等等。 问题的细节可参考【2 j 。 一9 一 基于h h t 的数据处理问题 2 时间序列分析及h h t 数据处理的特征 上一章我们简单的介绍了一下h h t 数据处理的基本原理以及e m d 算法的筛选过程, 从中不难看到,h h t 理论中的最大问题在于它缺乏理论分析以及严格的数学论证,它 本质上是一种处理时间序列的有效算法。因此,要从理论上对这一方法进行分析,笔 者认为应该从随机过程的角度着手。在实际应用中,通过与几位工程方面的学者的交流, 也发现在利用h h t 进行数据处理时,有时结果不错,有时却又不尽如人意。因此,我 们跳出h h t 的框架,从数据分析的角度,讨论了究竟什么样的数据适合用h h t 对其进 行处理。当然,这些也只是一些试探性的工作,没有严格的理论论证支持,只是试着分 析了一些数值算例,希望有抛砖引玉之效。 2 1 时间序列分析的基础理论 从较广的意义上来说,时间序列是指被观测到的依时间次序排列的数据序列。 从 概率论的角度来看,用随机过程来描述最为合适。随机过程被定义为一簇随机变量, 即k ,t 丁,其中r 表示时间r 的变化范围。对每个固定时刻f ,薯是一个一元随机变量, 这些随机变量全体就构成一个随机过程。当t = 【o ,4 - 1 ,监,) 时,随机过程h ,f 丁) 可 写成 薯,t = o ,1 ,垃 ,称之为随机序列。 由于t 1 - 表时间,所以此类随机序列也成为 时间序列。这种定义对线性和非线性时间序列都是适用的。 由上述可见,时间序列是一类特殊的随机过程离散时间的随机过程。 因此, 时间序列的概率结构是被其有限维分布簇所确定的。粗略地说,当对每个自然数坍和 每组整数f l ,t 2 ,乙,( ,气) 的肌维联合分布 尸 黾 五,吒 乞, 的概率结构就被完全确定了。 严格的定义请参考有关时间 序列分析方面的专著【1 3 1 。 这一定义对线性和非线性时间序列都适用。 对于时间序列的研究,我们应该从较为简单的情形开始,所对应的就是平稳的,线 性的时间序列,下面我们就来分别看一下什么样的序列( 或者说数据) 可以称为平稳的线 性的数据。严格的数学定义将在下面给出,但我们希望读者不用去深究其理论,更希 望对其能有一个很直观的感性认识,我们相信这对于整个h h t 理论的理解也是有帮助 的。 大连理工大学硕士学位论文 2 1 1 平稳时间序列 什么样的数据可以成为是平稳的呢? 从直观上看,就是整体变化的可能性波动不大 的数据。那么我们又怎样去描述数据变化可能性的波动情况呢? 我们知道,数据变化 的可能性,其实就是它的概率分布。假设我们得到一个随机变量的样本,要想知道其 概率分布,这是数理统计这门课程的主要任务。对于时间序列,或者更一般地说,对 于随机序列,研究方法也是如此。数据序列的平稳性就是指其统计量不随时间的变化 而改变,下面是严格的数学定义。 定义2 1 1 【1 3 】 时间序列 薯) 称为严平稳的,如果对任何正整数所和整数 t 2 乙,此序列中 的随机变量州k 州+ ,的联合分布与整数s 无关,即 f ( z 1 ,z 二;f l + j ,乙+ j ) = f ( z l ,乙;,乙)( 2 2 ) 在数理统计中,随机变量的一、二阶矩具有明确的统计意义,即我们熟知的均值与 方差。它是非常重要的统计量。在随机序列中也是如此,它可以描述很大一部分的平 稳的自然现象,从而有下面定义。 定义2 1 2 【1 3 】 时间序列“) 称为宽平稳的,如果薯具有有穷的二阶矩,而且满足以下条件: ( 1 ) “= e x , = c( 2 3 ) ( 2 ) 允o ,s ) = e ( 薯一c ) ( - c ) = y ( t s ,o ) ( 2 4 ) 上述定义表明,宽平稳序列的均值与自协方差函数不随时间的平移而改变。比较 定义( 2 1 1 ) 与( 2 1 2 ) ,宽平稳序列相对于严平稳序列,是对序列的一、二阶矩做了限定。 2 1 2 线性时间序列 线性的变化是自然界的事物最基本也是最为重要的变化方式。而人们对于线性问 题的研究从古至今从没有间断过。现在,对于线性问题的处理,无论是从理论上还是 实际应用方面都是很成熟的。但是要想准确的描述线性时间序列,又不是一件很容易 的事情,人们开始接触这个概念,往往是觉得很了解,但又说不太清楚的感觉。下面 直接给出线性时间序列的数学定义,其中包含了白噪声的定义。相关知识可以参阅信号 处理【1 4 1 或时间序列分析方面的著作1 3 1 。 定义2 1 3 如果随机序列 薯) 可表示为 毛= b 一, ( 2 5 ) 基于h h t 的数据处理问题 其中系数序列 j i b ,) 满足 色2 o o , ( 2 6 ) j = 0 而 ,) 是白噪声序列,满足 匝,= 0 ,e e ,2 = a 2 ,( 2 7 ) 则称 誓) 为线性序列,又称( 2 5 ) 式为 ,) 的无穷滑动平均。 2 2 非平稳非线性时间序列 对于线性的平稳的时间序列,经过了近半个世纪的努力,无论是从理论上还是从实 践上都有了一套比较完善的方法。对应与上一节给出的定义,我们知道非线性非平稳 时间序列是一种自由性更大的序列,当然在自然界中也就对应了更为普遍的现象,例如 地震,水波等等。 而对于非线性非平稳序列( n o n l i n e a rn o n s t a t i o n a r yt i m es e r i e s ) 的处理,虽然这是近3 0 年来研究的热点问题,期间提出了很多有效的方法。但在理论基础上难有突破,还有 一个重要问题是这些方法大部分都不是自适应的。但仍然远远不够。h h t 方法的提出 主要是针对于此。 2 2 1 非线性非平稳时间序列的特点 显然,解决序列的非线性非平稳序列处理主要有两个难点:( 1 ) j t h 何有效的处理序列 的非线性性问题;( 2 ) 如何解决序列的非平稳问题。这里我们先来考虑一个简单的随机 振荡,假设它是不平稳的,且变化具有非线性性,那么我们怎样从这个振荡中抽取有效 的信息呢? 我们可以把情形假设的再简单一些:这个序列的非平稳性对应它的均值随时 间是变化的,而它的非线性性是指它的频率是连续变化的。这就容易看出,序列的非 线性问题是其本质的特征;而其平稳问题是由于受到外界的影响。 循着这个思路,可 以让我们得到一个处理非线性非平稳时间序列的基本思想:要先把不平稳的想办法变成 平稳的,把非线性的变成线性的。从近3 0 年来对于非线性时间序列的各种处理方法来 看,人们也都是一直遵循着这个思想去做的。作为一种新的方法,h h t 有其独创性, 很好的解决了非平稳非线性这一问题,但作者认为它也没有摆脱出这一基本思想。 首先从平稳性来讲这一点是很显然的,经过e m d 算法的筛选,原始数据“至少看上 去平稳了许多 ,让我们可以着手对其进行进一步处理了,不再无章可循。对于经过e m d 算法处理的原始数据所得到的i m f s ,我们在对其进行h i l b e r t 变换,进而就可以对原始数 据进行分析了,得到其时间频率能量的信息。 大连理工大学硕士学位论文 2 2 2 研究进展 在数学上,从概率统计的角度来讲,将时间序列分析分成了两大类,即线性时间序 列分析与非线性时间序列分析。对线性于时间序列,无论是从理论上还是从应用上, 都有了一套较为完备的成果。因此,近三十年以来,非线性时间序列的相关问题在世 界范围内成为了研究热点。我国国内的研究成果主要体现在以下几个方面: 姚琦伟教授基于信息量,首次提出了描述一般随机系统对初始条件敏感性的度量及 估计方法。在高维模型领域,姚琦伟教授提出用复系数线性模型近似高维非线性回归函 数的新方法,以此克服高维非参数回归中样本量短缺的困难问题。此方法在生物、经济、 金融等应用中获得了成功。在时间序列模型的最大似然估计方法的研究中,他完整地建 立了在金融风险管理中有直接应用的a r c h 和g a r c h 模型为最大似然估计的极限理论。 对于重尾部( h e a v y t a i l e d ) 分布模型,提出了基于b o o s t r a p 的新的估计方法以及稳健统 计方法。他还首次建立了在空间域上空间a r m a 过程的最大似然估计理论,这一工作同 时也对h a n n a a1 9 7 3 年给出的关于时间序列的最大似然估计理论首次给出了一个完整的 时域上的证明。 安鸿志、朱力行、陈敏关于非线性自回归模型的平稳性、遍历性和高阶矩的成 果,获得了有这些性质的最弱条件。关于回归或自回归的非线性检验问题,具有重要的 实际意义。他们首次给出了完全对立的假设检验方法,无论从原理和应用都表明此方法 有明显优点。他们研究了条件方差为非常数的回归和自回归模型的平稳性、遍历性和检 验方法。 2 3h h t 数据处理特点 2 3 1 e m d 算法分析 形象的看e m d 的处理过程,无非就是把原来参差不齐的数据上下的拉动了一下,让 它变得平稳些,再确切一点的说,它是满足定义2 1 2 中的第一条的,从i m f 的定义方式 来看,定义1 1 1 中的( 2 ) 与定义2 1 2 中的( 1 ) 本质上是一样的。 我们把经过e m d 算法处理的序y u ( e 口i m f s ) 成为类平稳序列,这种序列在物理上可以 看作是简单的振荡,它具有非线性。这也对应着b o a s h a s h l 4 1 在1 9 9 2 年提出的关于单一振 荡分量的瞬时频率问题。 2 3 2h h t 数据处理的适定性问题 经过上面的分析,从随机过程的角度看,e m d 算法就是要把原始的数据分解成类平 稳序列。那么,什么样的数据适合用h h t 方法去分析呢,我们指出,对于那些看上去 基于h h t 的数据处理问题 “很不平稳 的数据,它是适合用h h t 方法去进行分析的。所谓很不平稳,这在数学 上表现为数据均值的变化情形,在这里数据的均值我们用包络的均值去近似,得到下面 的结论: 结论1 当数据均值变化率k 大于某一个正整数m 时,此数据用h h t 方法去分析可 以得到较好的结果。 其中 尼= 要( u + 厶) 西、1 ” u 。三一分别为原数据的上,下包络。m 的选取可以以具体问题而定。 大连理工大学硕士学位论文 3 极值点拟合及样条的选取 3 1样条的简单介绍 所谓样条函数( s p l i n ef u n c t i o n ) 就是具有一定光滑性的分段或分片定义的多项式函 数。1 9 4 6 年,数学家i j s c h o e n b e r g1 1 5 1 系统地建立了一元样条函数的理论基础。但是, s c h o e n b e r g 的工作刚开始时并未受到重视。从6 0 年代开始,随着计算机科学与技术的飞 速发展,样条函数成为现代科学与工程计算等多个领域的重要工具。 3 2 h h t 中的样条 在h h t 理论中,样条函数主要用于e m d 筛选过程中的极值点数据拟合。然而我 们从一般的角度来看这个数据拟合的问题,很显然,插值工具的选择会直接影响最后结 果的稳定性。最初n e h u a n g 是利用最简单普遍的三次样条函数去做数据的拟合,得 到的结果还是不错的。近十年来,关于e m d 算法中包络的研究有很多,多位学者也尝 试了不同的拟合工具,我们参考过几篇文章,发现得到的很多结果的突破性不大。我们 认为,这个问题最重要的方面是首先要给出一个合理的标准去判断结果的好坏,然后从 此标准出发,根据其特点找到一种比较好的工具,甚至是一套较为完整的理论。 3 2 1 插值三次样条函数 插值三次样条函数具有明确的力学背景,也有很好的数学性质,其算法也已经相当 成熟。对于一般的逼近问题,都可以取得很好的结果。下面就来简单介绍一下插值三 次样条。 定义3 2 1 【1 6 l 设在区间【口,6 】上给定一个分n a :a = x o 五 矗- 1 = 6 ,【口,b 】上的一个函数 s ( x ) 称为三次样条函数,如果它满足以下条件: ( 1 ) 在每个小区间 五十薯】( 江1 ,2 ,刀) 内s ( x ) 是三次多项式: ( 2 ) 在整个区间【口,b 】上,s ( x ) 为二阶连续可导函数,即在点薯( 江1 ,2 ,n - 1 ) 处成立 s ( 五一0 ) = s ( 毛+ o ) ,k = o ,1 ,2 五( f = o ,1 ,刀) 称为s ( x ) 的节点。 在给定一组有序数列咒( 待0 ,1 ,刀) 后,如果s ( x ) 再满足条件 ( 3 ) j ( 薯) - - , z _ 只o = 0 ,l ,以) , 则称s ( x ) 为插值三次样条函数。 基于i - i h t 的数据处理问题 3 2 2 一些相关研究 在e m d 算法中,取包络去做近似处理引起了人们极大的兴趣。经过前面的分析, 我们了解到这样做的合理性,并在实际应用中取得了不错的效果,然而关于这一点的严 格地数学理论还没有建立。 在最近1 0 年中,如何去做包络已经成为一个热门话题,人们主要是利用各种逼近 工具根据具有各种物理意义的约束条件去做插值,相关的文章层出不穷,虽然在不同的 领域取得了一定的进展,但在理论上没有实质性的突破,各种结果相差不大,这里简单 介绍一下。主要利用的逼近工具有b 样条,径向基函数,当然各种逼近工具有各自的 好处与不足,对不同的问题效果也不尽相同。具体内容可参阅相关文献8 】- 【1 2 1 。 3 3 一种新的插值格式 做原始数据包络线本来就是一种近似,如果从原始数据的随机性去考虑,想通过插 值工具的选取以使得到的结果更符合客观情形,这种情况是很复杂的,但我们可以从这 方面考虑去做一些理论分析,这只是一点启发。辽宁师范大学的王晶昕教授在这方面做 了相关工作。这里我们从实际算法的影响去考虑,希望得到一种比较好的插值工具。确 切的讲,是从能量损失和减少振荡的角度去考虑的,也就是不希望由于插值工具的不稳 定,而导致e m d 算法在能量上的不稳定和人为的增加了现有数据的振荡。从表现上来 看我们希望所选的插值工具波动不会太多,但也要保证一定的连续性,所以这里我们提 出,选用二次样条去做插值,可以得到更好的结果。下面先给出这个命题,然后再简单 介绍一下二次样条。 结论2 在e m d 算法中,选用二次样条做包络,从能量和减少由逼近工具自身所产 生的振荡方面考虑可以得到更好的结果。 下面,我们来介绍一下插值二次样条的构造与算法。 其特点是,二次样条由分段抛物线组成,在连接处达到切线连续,适用于光滑性较 低的课题。它的优点是能够减少曲线的波动。由于h h t 对数据的光滑性的要求不高, 因此从包络线的近似上来讲,我们不希望由于插值曲线自身的振荡带来稳定性方面的问 题。因为e m d 算法本来就是为了把原始数据中的叠加振荡分解开,所以我们相信选取 自身振荡少的曲线可以得到更好的效果。 在数学处理上,插值二次样条与插值三次样条十分相像。不同之处只在于:样条的 连接点恰好选在相邻两个已知的插值点的中点上。这种把插值点和连接点交错分布起 来的想法,多半是来自偶次b 样条的启发。 大连理工大学硕士学位论文 定义3 2 1 【1 6 1 设区间【口,6 】上给定一个分割a :口= x o 五 吒一l 磊= 6 和一组有序数列 y j ( i = 1 ,2 ,刀) ,【口,b 】上的一个函数s ( x ) 称为插值二次样条函数,如果它满足下列条件: ( 1 ) 在每个小区间【_ ,x 2 :,s ( x ) 是二次多项式,其中_ = 羔兰,称为半节 点( i = 1 ,2 ,刀) 。 ( 2 ) 在整个区间【口,6 】上,s ( x ) 是一阶连续可导函数,即在半节点x 。( i = 1 ,2 ,刀) 处 成立 s 七( t j - 0 ) = s o k ) ( t + o ) ,( 后= 0 ,1 ) ; ( 3 1 ) ( 3 ) s ( 薯) = 以( 汪1 ,2 ,z ) 现在利用节点处的函数值咒= s ( 薯) 和一阶导数m j = s l ( 薯) ,二阶导数m - - - - s ”( 一) ( i = 1 ,2 ,刀) 来建立插值二次样条的表示式及连续性方程。 在相邻两个半节点之间的第i 段二次多项式函

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论