ATM交易状态的特征分析与异常检测的数学模型_第1页
ATM交易状态的特征分析与异常检测的数学模型_第2页
ATM交易状态的特征分析与异常检测的数学模型_第3页
ATM交易状态的特征分析与异常检测的数学模型_第4页
ATM交易状态的特征分析与异常检测的数学模型_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ATM交易状态的特征分析与异常检测的数学模型摘要本文针对ATM交易状态进行了指标的分析和异常检测,基于1~4月份的交易特征量数据,应用不同的理论建立不同的模型,使交易系统在异常情况下及时作出警报。针对问题一,我们先对三个指标进行了相关性分析并对图像进行直观判断发现三个特征量之间并不存在明显的相关性,只有交易量与日期和时间存在着相关性,再对三个指标提取和分析处理特征量,将大量数据用SPSS绘制成图形,发现易量在1-2月之间相较其他时间有显著的波动,我们推测是春节因素的影响,因此分析时将其分段处理。结合每日交易量图,工作日和非工作日的日总交易量和每日交易量散点图并没有明显区别。排除春节影响的日总交易量平稳时间段,将每小时交易量作为个体,发现其符合正态分布特征,取其平均值和方差作为特征参数。对于成功率指标,通过散点图发现其在交易量少的时间段波动范围较大,因此使用一个模型将交易量累加到一定值的平均成功率来替代,处理后提取其平均值和方差作为特征参数。对于响应时间,通过对其图像的观察,得到数据点分布的特征,同样提取其方差和平均值作为其特征参数。针对问题二,我们从三个指标下手,运用K-Means聚类分析来得到三个指标数据的正常值和异常值的划分,在1~4月份的数据中随机挑选一个月数据进行分析,通过MATLAB编程得到了交易量,响应时间的聚类图,并通过得到的数据和图像上的聚类点,初步分析得到交易量,响应时间,成功率的异常数据的范围,为了提高异常检测的准确性和减少误报率,我们又在一个月的指标数据内随机抽取三天相互独立的数据进行聚类分析,进一步更改了异常值的范围,增加了异常检测数据的准确性。与此同时,我们还构建了BP神经网络模型,通过对正常值和异常值的训练后,可以对成功率和交易时间进行直接分类,更好地达到异常检测的目的。针对问题三,面对前面模型建立后的不足和对异常检测发现的问题,我们提出了系统应用进程异常值这一指标,用于分辨故障二三与故障四。同时我们拓展了网络负载率的相关数据达到对异常交易检测的准确性。关键词:散点图、方差分析法、聚类分析、神经网络、特征参数、异常检测问题重述近年来随着ATM机的覆盖日趋变广,且其具有无人监管、交易量大的特性,对ATM机交易状态的特征分析和异常检测就变得尤为重要,研究ATM机异常故障及时报警的问题具有一定的现实意义。根据题目要求,需要解决以下几个问题:1.对具体的ATM机交易统计数据进行分析,选择并提取特征参数。2.建立交易状态异常检测方案,根据题目中给出的四种故障情形:故障一:分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降;故障二:分行侧参数数据变更或者配置错误,数据中心后端处理失败率增加,影响交易成功率指标;故障三:数据中心后端处理系统异常(如操作系统CPU负荷过大)引起交易处理缓慢,影响交易响应时间指标;故障四:数据中心后端处理系统应用进程异常,导致交易失败或响应缓慢。满足及时分类报警并减少虚警误报的要求。3.如何通过更多的相关资料扩展数据更好的完成上述两问所达目标。问题分析问题一是一个特征分析的问题。首先我们应该建立起对特征参数这一概念的理解,然后再着手分析。考虑先对所给的四种指标值做相关性分析,看其之间有何联系。继而对各个变量单独检验,观察其特征。提取相对具有代表性的特征参数。由于这是一个实际问题,所以还需要对诸如春节、节假日、高低谷特殊时段进行考虑研究。问题二是一个异常检测的问题。异常检测涉及到拒真和采伪的问题,即原本数据是正常的却被认为异常,发生误报和原本数据是异常值却被认为正常,没有发出警报,造成损失。由于两种错误造成的影响均不容小觑,所以我们应该选用合理的模型并做二次检验使两种错误尽可能的降低。经过比较,我们选择了K-Means聚类分析模型和BP神经网络模型来对ATM的交易进行异常检测。K-Means算法具有简单快速的特点,能起到及时分析及时报警的作用,而BP神经网络具有很强的非线性映射能力和柔性的网络结构,得到的结果较为精确,可以有效的减少虚警误报现象的发生,二者结合便可较好的达到我们所需要的目标。由于异常检测问题包括异常状态的监测和异常类型的判断两个部分,我们还需要对异常状况进行故障分类上报,以便于故障处理人员的故障解决。问题三是一个开放性问题。对于ATM机的异常检测,除了题目给出的交易量、成功率、响应时间三个指标外,我们提出了系统应用进程异常值这一指标来解决问题二中部分故障不能很好分类的问题。除此之外,我们考虑增加网络负载率作为扩展数据来进一步减少误报并进行更好的分析。模型假设假设非正常因素不会对数据造成影响。假设银行的经营情况不会对交易量造成影响。假设交易的成功与否只与ATM操作系统有关而与用户的操作无关。假设附录给出的数据不具有特殊性,可以代表其他月份的数据变化趋势。假设题目中给出的故障种类占所有故障的绝大部分,其他特殊故障占比极少。符号及变量说明符号说明符号说明JJ(处理后)交易量均值JF(处理后)交易量方差CJ(处理后)成功率均值CF(处理后)成功率方差XJ(处理后)响应时间均值XF(处理后)响应时间方差聚类中心向量激活函数权值输出单元状态隐单元状态输入单元状态模型的建立与求解1.问题一特征参数的选择、提取、分析特征参数即用于表征物质或现象特性的参数信息,在实际应用中,最常用的基本统计量分为两类:反映集中趋势和反映离散趋势的统计量。在处理ATM交易状态的数据中,这两种统计量依然是我们提取路面特征的主要参数。为此,我们做了以下分析。1.1三个指标量与日期时间的相关性分析首先,我们将附件四个月的数据合并,用spss软件求出其相关性矩阵如图1-1所示。图1-1日期、时间、交易量、成功率、响应时间的相关性矩阵根据所求出的相关性矩阵可以得出:交易量和时间存在正相关性,成功率和响应时间存在负相关性。但是经过我们对各个指标分别进行处理(主要是通过绘制散点图)时初步分析发现,成功率与响应时间并没有明显相关性(如图1-2)。图1-2成功率-响应时间的散点图1.2对交易量的分析处理首先,我们利用MATLAB软件绘制了日总交易量-日期的折线图(如图1-3)。图1-3日总交易量-时间的折线图我们对这幅图进行初步分析后得出以下几个结果:(1)1月23日至2月1日的图像有非常明显的波动,而之后的日总交易量曲线波动较小且维持在一定的区间。从实际因素考虑,我们推测是因为中国春节的这个因素造成的。(2)题目中提示:工作日和非工作日的交易量存在差别,但是通过对图1-3的分析,我们没有发现工作日和非工作日的交易量以及与日期有关的明显周期性变化。而观察图1-4后我们确定工作日和非工作日的单日交易量不存在明显区别。图1-4工作日(红)和非工作日(蓝)交易量-时间散点图并且对上图分析我们可以得到以下结果:(1)交易量与时间的确存在明显的相关性,曲线呈M型,且从图中可以看出不同日期的曲线形状相似度很高,既排除春节期间,交易量均值JJ十分接近。(2)交易量在凌晨2-7点时极低,考虑晚上人流量少的实际因素,因此为正常情况。根据结果一我们进一步分析,猜想不同日期相同时间(分钟)的交易量符合正态分布,并通过作出的图像验证了我们的猜想。图1-5部分相同时间(小时)的交易量根据该数据正态分布特征,我们利用MATLAB编程提取不同日期相同时间(分钟)的交易量的平均值和方差作为交易量的特征参数,以下图1-6为部分结果。交易量相同分钟均值图1-6交易量相同分钟方差1.3对成功率的分析处理首先,我们绘制了成功率-时间散点图1-7。图1-7成功率-时间散点图对上图分析我们可以得出以下结果:(1)成功率-时间图的散点分布较为集中且不随时间变化,验证了之前相关性分析的结论。(2)在交易量低的2-7点,成功率散点的分布离散程度比交易量高的时间段大。我们认为,交易量低正是造成成功率离散程度高的原因,与异常和故障并无直接关系,因此使用编程设计了一个模型,来消除这个无关因素的影响。模型处理过程如下:对交易量不足设定值K的时间进行连续累加——>当累加值超过K时计算一次成功率——>以这个成功率来代表这段时间的成功率。模型流程图如下:考虑到后续及时报警因素的考虑,经过多次尝试,K值定为50时效果明显,且最长累加时间为10分钟,符合及时报警的考虑因素。下图1-8为处理后的成功率-时间散点图:图1-8处理后的成功率-时间散点图从处理后的散点图可以看出该模型符合预期设定的目标。并且我们发现成功率值都集中在较高的区域,因此我们决定使用方差分析法来处理数据[1]。方差分析法作为一种数理统计方法广泛应用于气象、水文、地震等行业数据的科学统计与分析。可应用方差分析法计算最新采集数据与其均值的离散程度。主要思路是:成功率的数据分布集中在一定范围内,当数据变化的绝对值超过N倍标准均方差变化阀值的数据个数达到一定标准时通常说明数据存在异常。利用方差分析数据异常,N的取值采用两种方法来实现:(1)单次N值比较法,通常情况下N值默认为3,即数据变化超过3倍标准方差即认为该点数据不正常,当这种不正常的数据点个数超过用户设定的某个数值时即认为数据存在异常,N的取值和不正常数据点个数可由用户根据测项类型与长期统计结果具体设定,通过该方法可检测出数据超出3倍均方差的数据异常。(2)双次N值比较法,利用第1次N值比较去除干扰,即认为数据变化超过N次标准方差的数据点为干扰点,去掉干扰点后进行第2次N值比较,通常取N为2,即去掉干扰后,数据变化超过2倍方差的数据个数超过用户设定的某个数值时即认为数据存在异常。分析成功率的数据,发现成功率存在极大偏离值,使用双次N值比较法更为合理,我们先进行第一次N值比较处理,去除极端异常值之后求出成功率的平均值和方差作为其特征参数,并用MATLAB实现了这一过程,得到的部分结果如图1-9所示。成功率相同分钟均值图1-9成功率相同分钟方差1.4对响应时间的分析处理首先,我们绘制了响应时间-时间散点图1-10。图1-10响应时间-时间散点图对上图分析我们可以得出以下结果:(1)在交易量较大的时间段响应时间稍有下降,我们推测是由于白天交易量大,银行开设的服务器及处理器较多,因此降低了响应时间。(2)响应时间数据集中在一个较窄的区间,数据点的离散程度较低。同样的使用双次N值比较法,求出响应时间的平均值和方差作为其特征参数,部分结果如下图1-11。响应时间相同分钟均值图1-11响应时间相同分钟方差问题二基于K-Means聚类分析的异常检测模型2.1算法背景分析异常检测在交通事件、网络入侵和工业机械故障检测等领域的应用研究开始较早,技术发展也比较成熟。而基于聚类的入侵检测应用研究也有成果出现。其主要原理是对源数据聚类,数据依据相关性分为多个不同的类别,并按要求把各类数据归为异常类与正常类。基于聚类的异常检测算法相对于传统检测算法无须训练样本集就能自动完成异常检测,且具有无监督检测的优点[2]。聚类指的是把各种抽象的数据对象集根据彼此的相似性划分为不同类别的过程,其目的是相似性越大的数据归为一类,相似性越小的数据归为不同类。如果类内数据相似性越大,则类间数据相差就越大,划分聚类的效果就越好。K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。问题二需要建立检测ATM交易状态异常的综合评价模型,我们采用了K-Means模型,对ATM众多数据进行聚类分析,得到数据的异常值。2.2模型的准备K-MEANS算法包括输入和输出两个部分。输入:聚类个数k,以及包含n个数据对象的数据库。输出:满足方差最小标准的k个聚类。图2-1我们要利用聚类分析区分正常值和异常值,所以我们选择K=2。2.3模型的建立从N个数据对象任意选取K个对象作为初始聚类中心。循环(3)到(4)直到每个聚类不再发生变化为止。(3)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。(4)重新计算每个聚类的均值(中心对象),直到聚类中心不再发生变化。划分使得下式最小[3]:\o"公式"2.4模型的求解因为数据较多,我们从中选取了2月份的数据做分析。2.4.1响应时间的聚类分析图2-22月时间-响应时间K均值法分类图图2-32月时间-响应时间K均值法分类图对比图图2-42月1日时间-响应时间K均值法分类图从图中看出大量数据聚类后集中分布在0-160内,有个别点分散在160以上甚至7000以上,但为了精确我们的模型,我么还将2月1号的响应时间做了聚类分析,发现当天会出现少数点响应时间分布在140以上,大部分数据集中在90-130内,因此为了加强异常点的检测精准性,提高报警的准确性,我们选取响应时间异常点为140以上,这些点可以看成异常点,即检测到的异常值,所以当响应时间到达160以上时,可以认为出现了故障三或故障四。2.4.2交易量的聚类分析图2-52月时间-交易量K均值法分类图图2-6时间-交易量2月1日K均值法分类图图2-7时间-交易量2月10日K均值法分类图图2-8时间-交易量2月20日K均值法分类图由上面的图发现交易量在600-700之间会发生陡降,我们分别做了2月1号,2月10号,2月20号的交易量聚类分析图后发现这三天内按每一分钟的交易量变化为异常检验数据的时候,每分钟之间交易量差别最大为204,所以我们可以按每分钟交易量差若超过300为故障处理,此时可认为出现了故障一。2.4.3成功率的聚类分析对于成功率这一数据,我们采用K-均值聚类算法对二月份的成功率数据进行处理后得到了如下表格:每个聚类中的案例数聚类11827.000238493.000有效40320.000缺失.000最终聚类中心聚类12成功率89%97%表2-1表2-2我们发现,在总共40320个数据中,最终的1类聚类结果有1827个,2类聚类结果有38493个。因此我们确定低于89%的数据为异常数据,认为出现了故障二或故障四。问题二基于BP神经网络的异常检测模型3.1算法背景分析人工神经网络是基于现代神经科学研究基础之上建立的一种数学模型,它的原理与大脑的工作原理相似,也有和大脑类似的特征,人们对BP神经网络算法的理论认识相对完善,利用BP神经网络算法实现非线性模型、函数逼近、模式分类的技术已经相对成熟。因此,我们考虑使用BP神经网络模型进行正常值和异常值的分类[4]。3.2模型的建立我们考虑一个其结构如下图所示的人工神经网络:图3-1激活函数由来决定。图中最下面单元,即由·所示的一层称为输入层,用以输入已知测量值。在我们的例子中,它只需包括两个单元,一个用以输入响应时间,一个用以输入成功率。中间一层称为处理层或隐单元层,单元个数适当选取,我们选择取三个。最上面一层称为输出层,在我们的例子中只包含二个单元,用以输出与每一组输入数据相对应的分类信息。任何一个中间层单元接受所有输入单元传来的信号,并把处理后的结果传向每一个输出单元,供输出层再次加工,同层的神经元彼此不相联接,输入与输出单元之间也没有直接联接。这样,除了神经元的形式定义外,我们又给出了网络结构[5]。为了叙述上的方便,此处引人如下记号上的约定:令s表示一个确定时刻的序号,由于数据过于庞大,我们选择了学习样本中的15个样品,s=1,2,…,15。当将第s个样品的原始数据输入网络时,相应的输出单元状态记为,隐单元状态记为,输入单元取值记为。此处下标i,j,k分别对应于输出层、中间层及输入层。在这一约定下,从中间层到输出层的权记为,从输入层到中间层的权记为,如果,均已给定,那么对应于任何一组确定的输入,网络中所有单元的取值不难确定[6]。如果我们能够选定一组适当的权值,使得对应于学习样本中任何一组正常样品的输入,输出,对应于异常的输入数据,输出为,那么故障检测问题实际上就解决了。因为,对于任何一个时刻,只要将其成功率及响应时间数据输入网络,视其输出模式靠近(1,0)亦或(0,1),就可以判断其归属。对于权值的选择,我们采用了向后传播算法[7]。3.3模型的求解我们选取了(响应时间,成功率)的9组正常值和6组异常值进行训练。得到结果如下:图3-2然后对于三组输入值,判断结果如下:图3-3显然可以看出,1、3组数据为正常值,第二组数据为异常值。问题三扩展数据的选取4.1系统应用异常值新指标的提出通过题目中给出的故障分类我们发现,故障二为成功率下降,故障三为响应时间增长,而故障四的表现为成功率下降或响应时间增长。这使得故障二三与故障四之间难以分辨,考虑到故障四的成因为数据中心后端处理系统应用进程异常,我们提出增加系统应用进程异常值这个新指标,该值用软件在数据中心后端处理系统中实时监测,进程异常时值为1,正常时值为0,当发生成功率下降或相应时间增长时,返回该值结果,若为1则为故障四,若为0则为故障二三。4.2网络负载率若检测到网络负载率达到较大值或者满载值,响应时间较大,成功率较低或交易量骤减就很可能不是前端或后端的故障问题导致,而是数据传输过程出现阻塞导致,此数据的采集也能一定程度上减少误报率。六、模型的检验、灵敏度分析1.模型的检验从数天00:00-23:59的每天1440分钟的数据中,我们随机选取了5000组数据对模型的异常检测和报警能力进行了检测。在这5000组数据中,共有156组数据的ATM工作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论