时间序列相似性度量.doc_第1页
时间序列相似性度量.doc_第2页
时间序列相似性度量.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

讨论一般时间序列相似的度量方式 1、概念:时间序列的相似性度量是衡量两个时间序列的相似程度的方法。它是时间序列分类、聚类、异常发现等诸多数据挖掘问题的基础;也是时间序列挖掘的核心问题之一。2、意义:时间序列式进行序列查询、分类、预测的基本工作,寻求一种好的度量对提高挖掘任务的效率和准确性有着至关重要的意义。3、影响因素: 两个序列是否相似,主要看它们的变化趋势是否一致。由于时间序列数据的复杂性特点,实际中不可能存在两条完全相同的时间序列,即使相似的时间序列往往也会呈现出各种各样的变化。所以,任何两个序列之间都存在着某种差异,影响这种差异的主要因素有:(1) 噪声:现实的大多数时间序列数据都存在噪声,体现在图形上式指数据的曲线不光滑,即存在“毛刺”。(2) 振幅平移:即两条形态相似的时间序列分别绕高低不同的均值波动。(3) 振幅伸缩:即两条时间序列的变化趋势相同,但其中一条时间序列在纵轴上似乎被拉伸或者压缩过一样,即两个序列的振幅不同。(4) 时间轴伸缩:是指两条时间序列的波形相似,但其中一条时间序列在时间轴上按比例伸缩。(5) 线性漂移:是指两条时间序列的波动节奏相似,但其中一条时间序列呈现线性递增或递减趋势。(6) 不连续性:是指两条时间序列整体的波动趋势相同,只是在别的时间点或段出现间断。然而,在实际应用中情况要复杂得多,往往是以上多种因素交织在一起。时间序列的相似性并没有一个客观的定义,具有一定的个人偏好性,也就是说,不同的人或不同的应用场合对各种差异影响的重视程度是不一样的。给定两条时间序列 和,相似性度量的问题就是在各种各样差异因素的影响下,寻求一个合适的相似性度量函数,使得该函数能很好地反映时间序列数据的特点。 4、方法:目前时间序列相似性度量,最常用的有Minkowski距离和动态时间弯曲。一、Minkowski距离 给定两条时间序列 它们之间的Minkowski距离如下: Minkowski距离是一种距离度量,因为它满足距离的三个条件:(1) 非负性:;(2) 对称性: (3) 三角不等式: 大多简单的相似性度量是Minkowski距离及其它的变种,Minkowski距离的优点是简单、直观且计算复杂度不高,与时间序列的长度成线性关系即序列长度的增加不会造成计算复杂程度的迅速提高。所以当训练集比较大时,Minkowski距离比其他更有效。但是Minkowski距离不支持时间序列的线性漂移和时间弯曲,且无法处理不等长的时间序列。参考文献 王达;荣刚;时间序列的模式距离;浙江大学学报(工学版)2004;39(7);795-799 方开泰;潘恩培;聚类分析; 北京地质出版社; 1992;44-51 范明;孟晓峰

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论