版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于数据挖掘的审计数据分析[摘要]本文针对计算机审计的现状,提出了基于数据挖掘的审计数据分析流程,以及应用DBSCAN聚类算法查找审计证据的办法。[核心词]计算机审计;数据挖掘;聚类算法;噪声数据随着经济和信息技术的不停发展,许多公司开始引入了ERP等系统,这些系统使得公司的众多活动数据能够实时统计,形成了大量有关公司经营管理的数据仓库。从这些海量数据中获取有用的审计数据是现在计算机审计的一种应用。对于审计人员来说,如何从被审计单位的海量数据中找出全方面、高质量的审计数据从而找出审计证据是一种难题。本文运用数据挖掘技术对此问题进行了探讨并提出理解决的办法。数据挖掘(DataMining)指的是从大量的、不完全的、有噪声的、含糊的、随机的实际应用数据中提取出隐藏的、不为人知的却潜在有用的信息和知识的过程[1]。事实上,实际应用数据的质量和存储模式对于实施计算机审计并成功获取审计证据非常重要。由于被审单位信息系统软硬件平台的异构性和可能存在的人为故意隐瞒、造假等,为确保计算机审计工作顺利进行和审计结论的对的,对审计数据进行采集时必须对数据进行检查、控制和分析。1审计数据采集审计数据采集指在开展计算机审计时从被审计单位的财务及业务信息系统及其它数据源获得审计所需的电子数据并进行适宜的格式转换[3]。普通来说,计算机审计中数据采集的办法重要涉及下列几个:(1)运用被审单位信息系统的数据导出功效。大多数的信息管理系统都提供了数据导出的功效,审计人员直接能够运用该功效导出公司财务数据完毕数据的采集。(2)运用通用的数据解决软件完毕数据采集。如Access、SQLServer等都含有较强大的数据导入导出功效和数据转换功效。审计人员能够运用这些软件完毕数据的采集。如被审公司原始数据为文本格式能够转换为数据库表格格式。(3)运用审计软件完毕数据采集。如国家从2002年开始建设的“金审工程”就以现场审计实施系统(AO)及审计办公系统(OA)作为计算机辅助审计的工具。别外应用国内的公司财务审计软件、审计数据采集分析软件等都能够完毕审计数据的采集。(4)运用专用程序接口完毕数据采集。当被审计单位提供的审计数据的数据构造与已有的审计数据解决软件系统的数据构造差别较大时,能够在审计人员的协助下由专门的程序员开发接口程序,完毕数据的采集,但成本相对较高。2数据清洗运用数据挖掘对审计数据进行解决分类时,为了提高分类的精确性、高效性和可伸缩性,必须对数据库进行预解决,涉及:数据的清洗、有关性分析、数据转换等。文献[4]中给出数据清洗的定义为:发现和消除数据中的错误和不一致来提高数据的质量。普通而言,审计数据库中数据采集于异质操作数据库,不可避免存在着数据的错误或不一致等问题,如数据造假、数据重复、数据缺失等错误。根据文献[5]提出的审计数据质量特性,必须要对采集的原始数据进行清洗,即由“脏”变“干净”,提高审计数据质量,这是确保审计结论对的的核心。数据清洗的普通过程如图2所示。(1)数据分析:为了清洗出干净的数据,必须对数据进行详尽的分析,涉及数据的格式类别等。例如采集来的财务数据的字段类型、宽度、含义等。(2)模式转换:模式转换重要是指将源数据映射成目的数据模型,如属性的转换,字段的约束条件和数据库中各个数据集之间的映射和转换等。有时需要将多个数据表合并成一种二维表格,有时却要将一种数据表拆分成多个二维表格方便于问题的解决。(3)数据校验:上一步的模式转换可行否,需要进行评定测试,通过重复分析、设计、计算、分析才干更加好地清洗数据。否则不通过数据校验可能有些错误数据不是很明显,不能被较好地筛选出来。例如模式转换时将一种数据集分解成多个数据表的时候,造成父表的主核心字的值和子表外部核心字的值不一致,从而形成孤立统计,影响审计人员审计证据的对的性,进而影响审计结论的对的性。(4)数据回流:用“干净”的数据替代原始数据源中的“脏”数据,避免下次数据采集时重做数据的清洗。有时候数据的清洗需要重复进行,审计人员需要对采集到的电子数据进行多次清洗,这样才干得到高质量的审计数据。3数据挖掘实现通过数据预解决后的审计数据库包含了多个数据集,每个数据集又包含了若干数据统计或者称为元组,如何从这些二维表格数据中挖掘出故意义的审计数据至关重要。本文介绍一种运用聚类算法进行审计数据挖掘的算法。3.1算法概述3.1.1聚类算法所谓聚类就是根据相似性对数据对象进行分组,发现数据的分布特性,使得每个聚类中数据有非常高的相似性而不同聚类中的数据尽量不同[6]。它同分类的重要区别在于,分类事先懂得所根据的数据特性,而聚类是要找到这个数据特性。作为数据挖掘的功效,聚类分析能够作为一种获取数据分布状况、观察每个类的特性和对特定类进行进一步独立分析的工具;聚类也能够有效解决噪声数据,例如数据库中普遍包含的孤立点、空缺或错误数据等。聚类分析算法普通有5类[7]:①基于划分的办法,如CLARANS;②基于层次的办法,如CURE和BIRCH;③基于密度的办法,如DBSCAN、OPTICS、GDBSCAN和DBRS;④基于网格的办法,如STING和WaveCluster;⑤基于模型的办法,如COBWEB。其中DBSCAN算法含有较好的过滤噪声数据的优点。本文探讨运用DBSCAN算法对审计数据进行解决,找出异常数据,查找出审计证据。3.1.2DBSCAN算法DBSCAN算法的基本思想为[8]:对于同一种聚类中的每个对象,在给定的半径d的邻域中包含的对象不能少于某一种给定的最小数目MinPts(也称密度)。为了生存一种聚类,DBSCAN算法首先从数据集DB中选择任意一种对象p,并查找数据集DB中有关半径d的全部邻域对象,如果这个邻域对象的个数不大于最小数目MinPts,则p为噪声数据;否则p的邻域对象形成一种初始聚类N,N中包含对象p及p直接密度可达的全部对象。然后拟定该类中的每一种对象q与否为核心对象,若是,就将q的d—邻域内尚未包含到N的全部对象追加到N中,并继续鉴定新追加的对象与否为核心对象,如果是,重复上述追加过程,直到这个聚类不能再扩大为止。然后DBSCAN算法再在数据集DB中另选一种没有被标记为某个聚类或者噪声的对象,重复上面的操作,始终到数据集DB中的全部对象要么被标记为某个聚类、要么被标记为噪声数据为止。DBSCAN算法进行聚类的过程就是不停执行数据集查询比较的过程,最后产生的噪声数据就是普通所说的异常数据,对于协助审计人员进行审计判断非常有效。图3表达了二维平面坐标下的噪声数据和若干聚类。3.2数据模式定义3.2.1项间的距离设Ri和Rj是数据集DB中的任意两条统计即某两个数据项,它们之间的距离定义为:式中,Ri(Rix,Riy),Rj(Rjx,Rjy)表达数据集中两个项Ri和Rj在二维空间的坐标点,因此dij表达Ri和Rj在二维空间坐标的距离。如果dij不不大于给定的值d,则表达Ri和Rj不属于同一种聚类分组。3.2.2审计数据预解决数据挖掘时数据的选择是在二维平面上进行的,首先选择列(字段或属性),再选择行(统计或元组)。为了能够获得有效的审计证据得出对的的审计结论,有时候必须对源数据集进行数据转换。由于各个企事业单位的规模不同,财务数据的数量级或者数量单位可能不同,为了得到更加科学可靠的聚类分析成果,需要对财务数据进行预解决,普通进行比例变换。如将x轴定义为某公司某月营业收入与利润总额的比值,将y轴定义为财务费用与净利润的比值,这样解决的数据能更加好地反映该公司的实际状况。这里的财务数据预解决都是由顾客来定义的,能够根据不同的审计规定和审计目的来定义。建立一种新的二维表格数据最少包含4个属性项:统计号,x轴数据,y轴数据,标记。其中统计号保持对应源数据集DB中的统计号,x坐标和y坐标即为通过比例变换后的数值,标记字段初始内容为空。3.3算法描述及流程图给定一种计算机审计数据集,假设含有N个元组或者统计,运用DBSCAN算法思想构造出L个分组(L<N),每个分组代表一种聚类。且L个分组必须满足以下条件:(1)每个分组最少包含MinPts个元组。(2)每个分组中的任意两个元组直接的距离不大于等于给定的距离d。(3)每个元组仅属于一种分组。图4为实现审计数据挖掘的算法(称为AUDBSCAN)的流程图。3.4聚类算法的实现算法:审计数据挖掘聚类算法(AUDBSCAN)输入:根据数据集DB产生的二维表格数据 //最少含有4个字段:rec统计号,rxx坐标数据,ryy坐标数据,rno标记 半径d//度量密度的距离 密度MinPts//簇中的数目输出:噪声数据统计AlgorithmAUDBSCAN(data,d,MinPts)ForeachrecordindatadoIfeachreccordindataismarkedOutputnoisereccord//输出标记为噪声的数据ElseForeachreccordindataisnotmarkednoiseorclasserdoP←Rand(areccordisnotmarkednoiseorclasser)//随机选用没有被标记的统计pL←Found(p,d,MinPts)//找到p有关d的MinPts密度可达统计Ifs=recount(L)<MinPtsPismarkednoiseElseN←Found(p,d,MinPts)EachreccordinNismarkedclasserForeachreccordinNdoq←onereccord Ifqisacenterrecord//q为核心统计 N←found(q,d)EndifEndforEndifEndforEndifEndfor在AUDBSCAN算法中,运用Rand()函数产生第一种随机统计p,运用Found()函数产生p有关d的MinPts密度可达统计。该算法最后的成果和随机产生的第一条统计有关,形成的聚类可能有不同,但得到的噪声数据一致,因此对于审计证据的查找是有效的。4结论数据挖掘技术与海量数据下审计业务的有效结合是将来计算机审计的一种发展方向。本文重要介绍了审计数据的采集、数据的解决转换和数据的挖掘3个方面,并且在数据的挖掘方面采用了基于聚类的DBSCAN算法来快速、精确、高效地输出噪声数据。该算法中涉及的二维平面x,y轴坐标能够根据实际审计需要由审计人员加以定义,因此能够应用到各类审计实践中去。另外,能够将DBSCAN算法扩展到三维空间上,只要再加上一种z轴数据,固然z轴数据也应当是和x,y轴数据有关的一种比例数据,此时聚类的成果将会变成一种不规则球体,从而能够更加容易挖掘出未曾发现的知识,也更加容易发现数据间的潜在联系。重要参考文献[1][加]JiaweiH,MichellineK.数据挖掘概念与技术[M].范明,译.北京:机械工业出版社,2004.[2]陈伟,张金城,RobinQiu.审计数据解决实验中的模拟数据生成系统[J].计算机工程,2007(19).[3]王琦峰,胡玲玲.基于AO的审计数据采集办法[J].计算机系统应用,2009(3).[4]米天胜,张金城.面对数据的计算机审计中数据质量问题的探讨[J].审计与经济研究,2006(1).[5]王昊,朱文明.审计数据质量研究:从审计取证的视角[J].南京大学学报:自然科学版,2007(1).[6]杨磊,李建军,张志军,孙翠娟.谈数据挖掘中惯用的聚类算法[J].
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新能源汽车智能安全-洞察分析
- 网络虚拟化资源调度优化洞察报告-洞察分析
- 污染物吸附材料研发-洞察分析
- 历史中考备考经验交流主题发言稿范文(6篇)
- 外汇市场干预效果评估-洞察分析
- 网络文化对表情包的影响-洞察分析
- 文化遗产保护与环境保护-洞察分析
- 医生申请换科室申请书范文(6篇)
- 农业教育中的技术培训与能力提升
- 办公环境中提升工作效率的色彩配置
- 挂靠装修公司合同范例
- 湖南省邵阳市2023-2024学年高一上学期拔尖创新人才早期培养竞赛(初赛)数学试题 含解析
- 2024年执业药师资格继续教育定期考试题库附含答案
- 微短剧制作手册专业版
- 酒店前台消防安全培训
- 2021-2022学年河北省唐山市高一上学期期末语文试题
- 【期末复习提升卷】浙教版2022-2023学年八年级上学期数学期末压轴题综合训练试卷1(解析版)
- 山东省临沂市费县2023-2024学年八年级上学期1月期末生物试题
- PDCA血液透析水循环案例汇报
- 岩石钻机施工方案
- 山东省烟台市2023-2024学年七年级上学期期末数学试题(含答案)
评论
0/150
提交评论