毕业论文-基于数据挖掘的时间序列异常事件检测技术研究_第1页
毕业论文-基于数据挖掘的时间序列异常事件检测技术研究_第2页
毕业论文-基于数据挖掘的时间序列异常事件检测技术研究_第3页
毕业论文-基于数据挖掘的时间序列异常事件检测技术研究_第4页
毕业论文-基于数据挖掘的时间序列异常事件检测技术研究_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HUNANUNIVERSITY毕业论文设计论文题目:基于数据挖掘的时间序列异常事件检测技术研究学生姓名:学生学号:专业班级:自动化四班学院名称:电气与信息工程学院指导老师:学院院长:2015年5月20日页摘要研究时间序列的异常事件的检测对于当今社会有重要的学术意义和现实意义。针对时间序列的连续性和非线性的复杂特征,开创了时间序列异常检测的新纪元。时间序列是特殊的数据序列中的一种,其在经济、金融、科学等各个领域都被广泛运用。所以对时间序列的异常检测在现实中具有及其重要的地位。论文重点研究了基于四分法的异常检测和基于密度的dbscan算法的异常检测,还有基于ARMA模型的异常检测。首先是运用四分法粗略检测异常点的分布,这是一种比较简单常规的处理办法,可以去除很明显的异常点。而dbscan算法则较为复杂,是基于密度的一种解决方案,通过对邻域的判断来区分异常点,其结果较为精确。用ARMA模型对数据进行处理,判断数据是否平缓可适用于这个模型的选择,再甄别出异常点。关键词:异常点,时间序列,ARMA模型,异常检测ABSTRACTThedetectionofabnormaleventsoftimeseriesisofgreatacademicandpracticalsignificanceforthesocietytoday.Theneweraofanomalydetectionoftimeseriesiscreatedbythecomplexfeaturesofthecontinuityandnonlinearityoftimeseries.Timeseriesisoneofthespecialdatasequences,anditiswidelyusedinthefieldsofeconomy,finance,scienceandsoon.Sotheanomalydetectionoftimeseriesisofimportantstatusinreality.Thispapermainlystudiestheanomalydetectionbasedonfour-pointmethodandtheanomalydetectionofDBSCANalgorithmbasedondensity,andtheanomalydetectionbasedonARMAmodel.

Thefirstistousethefourmethodstodetectthedistributionofabnormalpoints,whichisasimpleandconventionalmethod,canremovetheobviousabnormalpoints.TheDBSCANalgorithmismorecomplex,isbasedonthedensityofasolution,throughtheneighborhoodofthejudgmenttodistinguishbetweentheabnormalpoints,theresultismoreaccurate.

UsingARMAmodeltodealwiththedata,judgewhetherthedataisflatcanbeappliedtothechoiceofthemodel,thenidentifytheoutliers.KeyWords:Abnormal

point,

timeseries,

ARMAmodel,

anomalydetection目录基于数据挖掘的时间序列异常事件检测研究 I摘要 IAbstract II第一章绪论 11.1研究背景 11.1.1数据挖掘……..…………………….11.1.2时间序列数据挖掘……………….………….11.1.3异常检测…..……………………….11.2研究目的…..……………..………………21.3研究现状和发展趋势 21.4设计和研究方法 31.5设计过程及研究内容 3第二章相关理论技术 42.1时间序列数据挖掘任务 42.1.1时间数据的序列预测………….…………42.2时间序列的表示方法 52.2.1时间序列的定义表示……………..…………………..…52.2.2时间序列的模式表示 62.2.3时间序列的分段表示 62.3聚类分析 62.4分类 62.5异常 7第三章时间序列异常分析 83.1时间序列异常分析方法 83.1.1四分法 83.1.2方差法 93.1.3滑动窗口分析 103.2实验数据处理 103.2.1实验数据…………………….…………103.2.2实验结果……………………….113.3本章小结………………………12第四章ARMA模型异常检测 134.1ARMA模型 134.2ARMA模型的异常点描述 144.3实验数据和结果…………….16第五章基于距离和密度的异常检测 195.1距离 195.1.1欧几里得距离………………..195.1.2闵可夫斯基距离…………….205.1.3距离的性质……………………205.2基于距离的异常检测 215.3基于密度的异常检测……………215.4实验数据和结果……………………23第六章结论………………..………………..…26致谢 27参考文献 28附录

绪论研究背景1.1.1数据挖掘在当今社会快速发展的时候,不管是科学还是自然已经生活,都产生了许许多多的数据,这些数据从理性中解释着我们的世界。在随着这些年的科学技术发展和人类社会进步,在社会的各个方面积累了庞大的数据,所以说在这个数据大爆炸的年代,如何无处理这些庞大的数据是人们关注的一个焦点问题。对海量数据的挖掘需要一定的工具和方法,只有这样才能方便快捷的找出其所隐含的规律来让我们加以利用。定义1.1.1数据挖掘[1]数据挖掘是一种将传统的普通数据分析方法与处理大量数据的复杂算法相结合的一种新方法,并且是从大量的数据中提取出有用的价值的信息和知识的过程。1.1.2时间序列数据挖掘日常生活中有许多的数据都是时间序列,例如实验室的实验数据,股票市场的股价变动,医院的看病人数,电力局的用电量等。时间序列数据挖掘是对一个或多个时间序列的数据挖掘,是将人们事先不知道上的有用信息和知识从大量的时间序列数据中提取出来并完美地应用于指导人们的社会、经济、军事和生活等活动[2]。1.1.3异常检测异常检测的主要目的是发现一些对象,这些对象根本不同于其他的对象。异常数据不是像人们所想的那样是错误的数据,而是就像实验时会产生误差一样,异常数据的产生是不可避免的,同时其也可能包含着一些特殊信息,这些信息相对于正常数据而言,可能会对我们有更大的作用。异常的主要成因有(1)数据来源于不同的类,(2)自然变异,(3)数据测量或收集误差。[3]1.2研究目的对时间序列的异常和变化点检测已可用于欺诈检测在时间序列数据挖掘领域成为研究的热点,发现罕见的事件,事件或趋势变化检测等[4]。基于数据挖掘的时间序列异常事件可以用于气象预报分析中的变化模式的选择,证券市场的股票序列变化模式的原因,金融领域的信息安全和交通领域的道路推荐,供水领域的管网监测以及医保、环保、电力等行业的监测和预报工作。同时对于时间序列异常模式挖掘的研究不仅具有重要的学术价值,还有其现实意义。并且在针对时间序列连续、非线性、高维的复杂结构等性质上,开启了时间序列异常检测的新途径和展望。1.3研究现状和发展趋势异常模式的数据挖掘是数据挖掘大方向上的一个分支,在许多的领域都是不可或缺的,所以成为当前研究的热点。国内外关于这方面的算法文献较多,大致可以分为以下在基于时间序列的异常事件的检测的研究方法[5],例如有(1)生物法,其原理来自于生物学的免疫系统机制,通过自我和异己的机制来识别区分正常和异常的模式,但正常模式不止一种,可能导致负选择机制没法发挥作用。(2)机器学习方法,其分为两类:人工神经网络和支持向量机。主要是基于规则来实现的,对于原始数据进行聚类或分段得到某种规则来构造状态机,这个状态机只接受正常模式,不被接受则是异常模式。(3)基于特征空间的方法,通过对时间序列的特征化使对时间序列异常检测转换为无序集合异常点的检测。(4)基于小波的方法,在查询性能上有所改进但对短期异常无法检测。(5)基于AR或是MA模型的方法,需要知道时间序列模型。由于异常数据包含很重要的信息,所有往往不能将它作为错误数据,而是应该寻找有效的方法来检测和挖掘这些异常数据的潜在意义,使之为我们的生活和发展做出贡献。时间序列在目前社会上通常是高维的、非线性这种类型的数据,如果直接对时间序列的异常模式挖掘的话,其准确率会很低,因此就需要在对时间序列进行数据挖掘模式异常之前做一个数据预处理,使得数据异常模式能够更加方便的应用到时间序列数据中。主要的预处理就是时间序列数据变换,其典型案例就是傅里叶变换,也就是将原始时间序列映射到某个特征空间,通过这个特征空间的映像来反应原始时间序列。这种方法是目前主流应用的方案,同时还有其他一系列的表示方法。例如奇异值分解、离散小波变换、分段合计近似、分段线性表示和分段多项式等方法。在2000年的Science上发表的从低维流形认知事物的观点来探讨流线学习的定义和方法,提出两种代流线形学习方法[6]:局部线性嵌入算法(LLE)和等距映射算法(ISOMAP)。在2003年又提出了Laplace特征映射法,Ridder提出了监督学习法SLLE,在计算K近邻时加入类别信息,还有有监督的局部保存投影法等等。将异常检测和时间序列数据变换这两方法进行结合,使得具有复杂结构的时间序列的异常检测受人瞩目,其中主要划分为基于分类的异常检测方法和基于聚类的异常检测[7]。而李爱国和宋利娜则对传感器的量测值分析,再用相关信息熵描述传感器的相关性,确定相关属性,最后再利用时间序列异常模式挖掘方法进行异常检测。1.4设计和研究方法主要是运用了基于四分法的异常检测和基于密度的dbscan算法的异常检测,还有基于ARMA模型的异常检测,K均值聚类的方法。1.5设计过程及研究内容一、首先对设计研究的背景和目的作了一个介绍,并对前人得到的结果进行总结,分析其特点。二、在数据处理中,将以上所说的几种方法加以实现,首先从简单的四分法开始实验,并不断修改其难度,直到将所有的研究方案进行试验。三、根据题目的要求进行各方案的甄选,并比较列出各方案的优缺点。将数据处理结果进行对照处理,使试验数据更加的明朗真实。第二章相关理论技术以时间序列存在的数据形式在社会各个方面都活跃存在着,其也影响到社会的各种事件,所以对时间序列数据挖掘的研究具有丰富的社会价值意义。同时原本在传统数据挖掘任务中的异常检测和聚类分析等数据处理方法,也从传统简单数据扩展到了时间序列这种类型的高维非线性的数据[8]。本章将会对基于数据挖掘异常检测的相关理论技术进行一个初步介绍和拓展。2.1时间序列数据挖掘任务从第一章的数据挖掘的定义中我们可以知道数据挖掘就是从海量的数据中获取对我们有特殊意义的知识和信息,从而对社会生活产生积极作用。时间序列的数据就是将得到在不同时间上的各个数值,按时间的先后顺序依次排列成的序列。作为一种定量检测方法并广泛应用于军事科学、空间科学、气象预报和工业自动化等部门。与时间序列数据有关的数据挖掘任务常见的包括时间序列数据排序、预测、索引、相似性变量、聚类、异常检测分析、关联分析等。2.1.1时间数据序列的预测预测就是对尚未发生的事情或者目前还不清楚的事物进行预先的估计和推测,是对现时事物在未来将要发生的可能性进行估算,简单地说就是指从已知事件中通过一系列的现象来测定未知事件的可能。我们进行科学预测的总原则是:首先需要认识事物的普遍发展变化规律,再利用规律的必然性来进行科学预测,这就是预测应遵循的原则[9]。时间序列的预测就是通过分析时间数据的序列,然后根据时间序列所反映出的发展过程、方向和趋势来进行一种延伸和类比推理来预测今后一段时间的所会产生的一系列信息。在时间序列预测中主要包括三种基本方法:1、内生时间序列预测技术;2、外生时间序列预测技术;3、主观时间序列预测技术[9]。在时间序列中有一个明显的特性就是记忆性,而记忆性系数指时间序列中的任一观测值的表现皆受到过去观测值的影响。而在其中主要考虑的因素[10]有(1)长期趋势:时间序列可能相当稳定或随时间呈现某种趋势,同时时间序列的趋势一般为线性的,可以用函数形式进行表示的。(2)季节性变动:按时间进行变动,有一定反复发生行为的序列,通常与日期和气候以及年周期有关。(3)周期性变动:相对于季节性变动,时间序列可能经历由经济变动引发的周期性变动。(4)随机影响:在随机情况下发生的不可避免的事件,也可认为是天注定的[9]。预测技术主要是包含两大类:1、指数平滑方法:

描述时间序列数据的变化规律和行为,不去试图解释和理解这种变化的原因。2、描述时间序列数据的变化规律和行为,它允许模型中包含趋势变动、季节变动、循环变动和随机波动等综合因素影响。2.2时间序列的表示方法2.2.1时间序列的定义表示定义2.1时间序列[11]:时间序列是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列,也是记录值和时间相互组成的一个集合,表示为:X=x1其中xk=vk,tk表示时间序列在时间序列中,采样时间的间隔∆t=tk+1-tk2.2.2时间序列的模式表示时间序列的模式用来表示其某种特征,通常是用一段时间内的均值或方差来表示,当然也可以用时间序列离散后的符号和傅里叶变换系数等等来表示。通过这些模式,就可以将时间序列转换到了一种空间模式状态,可以得到更加直观的表现。设有时间序列X=x1,Xt=fn+et,在这里,n是时间序列X的模式,fn是其中的一个模式表示。e2.2.3时间序列的分段线性表示设有时间序列X=xXt=nk表示的是端点的坐标,fkt,2.3聚类分析在数据挖掘中,类是指在概念上具有意义的公共特性的对象组。聚类[12]是将物理或者抽象的集合通过一系列方法来划分成为多个类或者簇的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象之间差别较大。同时聚类也分为以下一些类型:层次的(嵌套的)与划分的(非嵌套的),互斥的、重叠的与模糊的,完全的与部分的等等[12]。在各个领域,针对不同的数据应用类型和场景,人们开发了大量的聚类算法来方便快捷的处理相应地事件,像K均值算法、DBSCAN算法、基于规则的层次聚类等[12]。在这些算法中,没有一种算法可以适用于任何数据类型。簇和应用。事实上,对于更加有效或者更合适特定数据类型、簇和应用的新的聚类算法,在现在看来是有更进一步的开发空间。首先聚类分析的光剑问题就是数据、簇和对聚类分析具有重要影响的算法和特性。聚类分析主要是发现相似度很高的的对象并组成簇,而异常检测则是发现不与其他对象相似度很高的对象并将它进行隔离划分成异常点。在聚类分析的困难以及与其他数据分组技术之间的关系,其最主要的两个问题是:(1)将数据对象集划分成簇集合的不同方法,(2)簇的类型。聚类和分类最大的区别是聚类要划分的类的数目等是未知的,而分类则是按照已经知道的类别对对象来进行划分。聚类是一种没有指导的学习方式,它不用依赖于预先定义的类和带类标号的实例,属于观察式学习;而分类则属于有指导的学习方式,是根据有事先示范的实例来进行的,是示范式学习。2.4分类定义2.4分类:分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y[13]。目标函数也称分类模型,同时分类的过程就是通过建立模型再利用建好的模型来对未知样本进行分类的一个步骤。2.5异常时间序列分析的主要目的是预测基于历史的未来,这被称为时间序列预测。另一个突出的问题,基于时间序列数据是基于异常检测的时间序列,在其中我们重点检测突变和新兴模式通过监测特定时间序列。例如,在每日的股票价格,与其他信息源实时新闻,不仅可以用来预测未来的价格也表明事件可能导致股票价格波动突然和严重的开始,这对企业投资的影响很大。时间序列的突然波动被称为异常[14]。第三章时间序列异常分析时间序列分析是在现代数理统计学中重要的一个模块,是现在我们进行数据分析的一个重要支撑方法。不管是在信号处理,金融,控制系统,水文电力等方面都具有重要的运用,是在这大数据时代的一个重要支柱,在我们的现实生活中发挥中及其重要的作用。所以时间序列异常分析挖掘在不同时间段的形态之间的关联,其频繁出现的变化模式可以诠释为正常变化,但是还有极少数的变化模式是异常模式[15],同时在一些领域,异常模式往往具有更加重要的意义。3.1时间序列异常分析方法3.1.1四分位法首先将所有数值进行一个排列,根据时间序列数据的大小将其均分成四等分,而处于三个分割点的就称为四分位数。三个四分位数可以分别用Q1,Q2,Q3来进行表示。将所有数据按数值大小排序,找到上四分位数UQ和下四分位数LQ,计算它们的差值,得到四分位距:IQR=UQ-LQ(3.1)通过定义,知道所有大于UQ+1.5IQR,小于LQ-1.5IQR的数据都可判定为异常点。图3-1四分法的应用上图是由传统定义所得到的图形,可以发现误差较大,所以进行了一项改正,就是将四分法变为百分法,可以发现误差明显减小,可以得到一个较为合理的异常检测图像。如下图:图3-2百分法的应用由以上两图可以发现,划分等级越多,可以发现其越精确,能够更加具体的表现出异常的存在。3.1.2方差法方差分析是分析和观测实验数据的一项有效方法。标准差(S):标准差能够反映变异的程度。在单位相同,均值相近的情况下,标准差越大则观察值间的变异程度越大,观察值围绕均数的分布较为离散,代表性较差。标准误(SE):标准误是样本均数的抽样误差。一般在工程中是采用随机抽样的方法来取得所需指标,即样本指标。样本指标与总体指标之间存在的差别称为抽样误,其大小通常采用均数的标准误来表示。标准误的大小与标准差成正比,与样本含量(n)的平方根成反比,即:SE=Sn3.1.3滑动窗口分析滑动窗口分析法是在提供N个时间段的信息,当数据更新的时候,这N个时间段的数据读取到下一个时间段中,可以形象的描述为一个“窗口”向下一个方向移动,将其中的旧数据给予抛弃,读取下一个时间段的数据,其中的窗口大小不变。定义重叠滑动窗口[t1,t2,t3⋯tn],假如时间序列在窗口中的[图3-3滑动窗口示意图3.2实验数据处理3.2.1实验数据实验数据为平安银行股票数据集,主要是一天股票的交易情况,主要是包括开盘价、最高价、最低价、收盘价、交易量和交易总数等变量描述的数据。我们对股票数据集进行数据异常检测可以快速发现其中的不合理的点,并通过这些变化发现知道股票的走向以及大概的收益可能性,收集其中的异常点和信息,交给相关人员进行分析和提供相关的决策分析。本次实验的硬件环境为Intelcorei32.53GHz,内存4GB,操作系统为Windows2007旗舰版,使用的软件为MATLAB7.8.0(2009a)实现算法的一个处理和结果的表现。3.2.2实验结果1.四分法:选取参数a1=prctile(x,85);a2=prctile(x,15);找出新定义的分点,并作出相应的决断,可以发现这种方法较为简单,但是处理数据的结果也不能让人感到满意。考虑到其简单的特性,可以说这也是一种比较方便的简单方案。2.四分法差距法:在这种方案中,首先按照四分法的一样分类,但是在这里面加入了中位数的求取,并将分点与中位值进行相应的变化,得到的一系列的变化,相对于四分法可以说这种方法对数据的处理比较完善,但是从图像看出对于上位异常可以检测,但对于下位异常检测不是很明显。图3-4四分法和四分差距法检测结果3.方差法根据数据的均值和方差求得相应的阈值,根据阈值的判断来获取异常点,可以分为上位异常和下位异常。其数据可以说较为精确,对于异常点的检测比较完善。图3-5方差法检测结果4.滑动方差法结合窗口滑动法和方差法的优势,能够较快的发现数据中的异常和趋势点。对比方差法,具有较好的稳定性和,减少误差的估计,但是在一定条件下会出现概率性的失误,这也是一定问题下不可避免的。图3-6滑动方差法检测结果3.3本章小结时间序列下的数据较多,使得处理情况多样化,但是都会在一定条件下出现不符合预计情况下的异常点,所有对于时间序列异常检测有一定的难度。同时采用滑动窗口的分析方法在异常检测的情况下,提高了对异常判别的准确率和覆盖率。同时根据改变时间序列的周期来重新定义滑动窗口的大小可以达到更高的准确率。第四章ARMA模型异常点检测主要是通过检测到异常点并进行分析,在这个方面对数据建立有效地数学模型具有很重要的现实意义。数据模型的设计对于异常点的检测以及对数据趋势的发展有直观的判断和描述,能够让人更加的真实观测到。ARMA模型是最基础也是最重要的一个线性模型,广泛适用于各种时间序列数据。4.1ARMA模型因为时间序列是根据时间先后顺序排列的序列,因此对于时间序列的讨论,将时间指标t引向推移算子B,则对于时间序列xi

φz=

j=-∞∞φB=j=-∞∞bj其中把B叫做时间t的向后推移算子。推移算子B的性质:如果随机变量Y与t无关,则BY=Y对整数n,常数a,有B对于整数n和m,B定义设εt是WN0,δbAB则差分方程Xt=称为自回归滑动平均模型,也可以简称为ARMA(p,q)模型。4.2ARMA模型的异常点描述ARMA模型是一种具有经典性质的时间序列模型,研究和发现异常点的存在都会对于ARMA模型的拟合效果和有效作用都会产生不可思议的影响,所以针对ARMA模型异常点的检测对于模型的选择和使用具有现实意义。若xtxt其中ω表示序列的振幅,ABHB在实际的数据处理分析中,一般是不可能全部知道t1的位置,所以对于异常点的检测不能直接观测出来,对已经知道的位置t1的异常点附加异常点模型(AO模型)A(2)革新异常点模型(IO模型)A(3)水平移位异常点模型(LS模型)A(4)暂时变更异常点模型(TC模型)A从上面异常点的模型定义中可以看出,这些类型的划分实际上是根据ABHB革新异常点模型(IO模型)指的是时间序列在受到白噪声序列的干扰下对t1时刻产生的异常类型,这种异常跟AO模型的最大区别便在于这种异常是具有记忆和连续性的。即当时刻t1的数据发生异常的时候,其后续的数据点也会在一定程度上被其所影响,导致相应的一系列变化,并且变化大小是根据水平移位异常模型(LS模型),其最大的特征便是当一点发生异常变化时,后续时间点也会发生相似的变化,可以看成是被作用了相同的因素使数据发生相同变化,即变化点相对来说是没有别的特征变化,只是类同t1TC模型是在AO模型和LS模型的相应推广,TC模型跟LS模型所不同的是它不再是相同的影响变化而是根据衰减率δ的变化而变化的,一般情况下通常是衰减。在这些异常模型中,附加异常模型是最基本也是最重要的异常点模型,通常都是研究这个模型的居多,在这个模型的领域有很多拓展和发现。在时间序列异常检测中,针对与AO即附加点异常检测模型来检测和发现异常点,其根本思想一般是通过求解残差序列,通过删除异常点使得之后的残差序列的平方和尽可能的小。设et为时间序列xet=πBx对于附加点异常模型有et=ωItt为了让残差序列at的平方和最小,即主要mint=p+1nt=p+1n当ωAO=所以最小平方估计也是异常点估计为ω4.3实验数据和结果实验数据为平安银行股票数据集,主要是一天股票的交易情况,主要是包括开盘价、最高价、最低价、收盘价、交易量和交易总数等变量描述的数据。我们对股票数据集进行数据异常检测可以快速发现其中的不合理的点,并通过这些变化发现知道股票的走向以及大概的收益可能性,收集其中的异常点和信息,交给相关人员进行分析和提供相关的决策分析。实验的硬件环境如上,使用的软件为MATLAB7.8.0(2009a)实现算法的一个处理和结果的表现。通过对ARMA模型的预测分析,即对数据进行差分和残差分析,可以得到下面的结果:图4-1差分图像图4-2残差图像上图就是对数据进行的差分结果,可以看出数据变化的差异性,也可以通过上图的结果来知道异常点,例如设定上方的差分值大于0.06,下方差分值小于0.03的为异常点,结果如下:图4-3差分检测结果可以发现这是通过检测变化率较大的值为异常值,这样也就可以发现其中不符合正常规律变化的值,通过这个检测可以更加有效地将正常值和异常值区分开来,通过其变化来发现原始数据的趋势,检测其中的不合理的地方。还有就是残差的检测,通过判断距离原点的距离和置信度为0.95的置信空间没有通过原点,则视为异常点。即可以看出在残差图像中,异常点主要为那些远离原点的点。第五章基于距离和密度的异常检测从距离和密度的定义中,可以发现对于异常点的发现一般都是距离长和密度小的区域。所以对于异常点的检测可以基于距离和密度[16]来实现,其中一般常用的是欧几里得距离,以及DBSCSN算法来实现异常点的检测。5.1距离5.1.1欧几里得距离欧几里得度量是科学研究中经常采用的一种距离,泛指在空间维度中两个点之间的真实距离,或向量的长度即该点到原点的距离。其公式一般表示为d其中n表示维数,而xk和yk分别是x和y的第k个属性值(分量)。可以用图形5-1,表5-2和5-3图5-1四个二维点表5-2四个点的x和y的坐标P1P2P3P4P10.0P22.80.01.43.2P2.0P0.0表5-3表5-2的欧几里得距离矩阵5.1.2闵可夫斯基距离由欧几里得距离公式扩展出的一个距离公式,其表现形式也与欧几里得距离公式相似,为:d其中r为参数,其余符号与欧几里得距离公式表示内容一致。r=1,即为城市街区距离。同时也可以被称为汉明距离,它是具有二元属性的对象(即两个二元向量)之间不同的二进制位数。r=2,这就是欧几里得距离(L2范数)。r=∞,上确界L∞范数距离。一般定义为对象属性之间的最大距离。通常情况下,Ld在这个公式中,参数r和维数n的意义是完全不一样的。欧几里得距离、汉明距离和上确界L∞范数距离是对n的所有值来进行定义的,并且是通过将每个属性上的差的进行组合计算出总距离的5.1.3距离的性质距离具有一些众所周知的性质,如果d(x,y)表示点x和点y之间的距离,则下列性质成立。非负性。即对于所有的x和y,d(x,y)≥0,并且仅当x=y时,d(x,y)=0.对称性。对于所有的x和y,d(x,y)=d(y,x)。三角不等式。对于所有的x,y和z,d(x,z)≤d(x,y)+d(y,z)。满足以上三个性质的测度称为度量。这三个性质是非常有用的在不同学科中,尤其是在数学上的运用更是令人满意的。三角不等式的成立可以用来提高依赖于距离的技术(包括聚类)的效率。5.2基于距离的异常检测对于距离的异常检测的基本思想还是很简单的,主要就是判断一个点是不是远离大部分点,如果是,那它就是异常点;相反,则这个点就不是异常点。这种方法通常会比统计方法更方便和容易使用,因为如果要确定数据集的有意义的邻近性度量要比确定数据集的统计分布规律更容易。在数据挖掘中,通常采用欧几里得距离公式来计算对象之间的距离,并通过计算出的点的距离来通过事先定义的方法来进行分类,由上可知,如果这个点的距离远远大于其它点的距离,那么这个点通常就是异常点,但是我们不仅要计算出异常点,还有考虑其分布以及可能的趋势。这样才能将异常点实际应用到我们的实际中去,但基于距离的判断通常也会造成大量的资源浪费,故这个方案通常是结合密度的异常检测来进行判断。只有这样才能比较准确的发现和找到复杂数据中的异常点,但是这并不是说基于距离的方法不能检测异常点,只是其检测的通常是简单数据或者较少选择的这类情况。5.3基于密度的离群点检测从基于密度的角度来看,低密度区域的对象很有可能是离群点,在高密度区域中,这种可能则往往很小。所以基于密度的离群点检测通常与基于邻近度的离群点检测密切相关,或者可以说密度检测就是邻近度的检测,这是因为邻近度在数据挖掘中可以表示密度。最常用的方法是假设密度就是点到k个最近邻的平均距离的导数,密度与距离是成反比的,一般是距离小,则密度高,反之距离大,密度小。给定一个正整数k和一个数据集合D,在D中对象q和对象p之间的距离d(q,p)要满足下面两点:至少有k个对象,使得。最多有k-1个对象使得。那么d(q,p)就是对象q的k近邻距离,记为。即为对象q的k领域集合。对象到q的k可达距离=局部可达密度,反应的是该对象的可能性大小,并可以定义对象q的异常因子。对象q的局部异常系数,当局部异常系数较大时,则该对象的局部范围所含对象的数目就会比较稀疏,那么出现异常的可能性就会比较大。5.3.1DBSCAN算法DBSCAN通常使用的是基于中心的方法,在基于中心的方法中,时间序列数据集中点的密度是通过对在该点Eps半径之内的点来计算其密度的大小,即密度是由圈内的点来决定的。如下图:图5-4密度展示基于中心的方法优点主要是实现方法很简单,缺点是点的密度是只考虑指定的半径Eps,就造成数据的单一性。同时如果取的半径Eps足够大,则所有点的点都有可能集中在圆中,那么密度就会趋向于无限小;同理,如果半径Eps太小,则所有点的密度都是1。根据基于中心的密度可以进行数据点的分类:(1)稠密区域内部的点(核心点);(2)稠密区域边缘上的点(边界点);(3)稀疏区域中的点(噪声点或者异常点)。图5-5点的分类DBSCAN算法:1:通过定义将所有的点进行划分。2:找到噪声点。3:为距离在Eps之内的所有核心点的圆取一条边界。4:每组连通的核心点形成一个簇。5:将每个边界的点按照上述方法依次分派到一个与之关联的核心点的簇中。6:在图像中将异常点(噪声点)展示出来。5.4实验数据和结果实验数据为平安银行股票数据集,主要是一天股票的交易情况,主要是包括开盘价、最高价、最低价、收盘价、交易量和交易总数等变量描述的数据。我们对股票数据集进行数据异常检测可以快速发现其中的不合理的点,并通过这些变化发现知道股票的走向以及大概的收益可能性,收集其中的异常点和信息,交给相关人员进行分析和提供相关的决策分析。实验的硬件环境如上,使用的软件为MATLAB7.8.0(2009a)实现算法的一个处理和结果的表现。针对平安银行股票一天发布金额的数据集,使用DBSCAN和距离的方法对时间序列进行处理,并且得到了一些结果和现象。图5-6k=3的检测结果图5-7k=2的检测结果可以看出结果还是较为精确的,只是在单位时间内跳跃太大的地方出现一些小问题,这不会对总的结果产生影响,这可以说是误差。使用DBSCAN还是能够在较大方向的发现异常点,其精确值还是根据邻近度K发生相应变化,如上图对比,k=3就比k=2的异常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论