浅谈应用Benford法则和Apriori算法对海量数据的审计_第1页
浅谈应用Benford法则和Apriori算法对海量数据的审计_第2页
浅谈应用Benford法则和Apriori算法对海量数据的审计_第3页
浅谈应用Benford法则和Apriori算法对海量数据的审计_第4页
浅谈应用Benford法则和Apriori算法对海量数据的审计_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈应用Benford法则和Apriori算法对海量数据的审计

[摘要]随着信息时代的飞速发展,被审计单位财务和业务数据量爆炸式增长,审计技术必须不断发展和创新以适应信息时代审计的新要求。本文在这一背景下,对审计技术的创新作了探索性的研究,主要通过Benford法则和Apriori算法的关联数据挖掘的技术手段在审计中的应用,探讨了如何在被审计单位海量数据中进行挖掘分析,从而发现有业务意义的强规则,通过这些强规则解释数位发生偏离的原因,从而快速发现审计疑点。

[关键词]Benford法则;Apriori算法;关联规则;审计数据分析

1技术简介

1.1Benford法则简介

1.Benford法则[1]的定义

1938年,通用电气公司物理学家FrankBenford收集了大量的数据集合后发现,人们处理较低数字开头的数值的频率较大。

2Benford法则的Benford分布

Benford分布属于第二代分布,描述了数据总体的客观分布规律,数据总体由其他分布中的抽样数据组成的分布。

2004年UtahStateUniversity的CindyDurtschi的研究[2]表明:

数字出现概率的期望值的标准偏差为:

Z=/Si

分布概率的Z统计量为:

P0:实际的数据出现比率;Pe:根据Benford法则的预期出现比率;Si:某个数字的标准偏差;n:目标数据集的记录数。

3Benford分布中的数字频率上下限

数字频率的上限:

数字频率的下限:

4Benford法则的应用范围

可以针对海量数据进行挖掘分析,数据规模越大,分析结果越精确。

会计舞弊调查[3-5]、审计[6-8]、税收监管[9]、金融分析和反洗钱[10]。

1.2Apriori算法简介

Apriori算法[11]是一种对布尔关联规则频繁项集进行挖掘的算法。Apriori算法使用一种逐层搜索的迭代方法,即使用k-项集用于探索-项集,其中k=1,2,3,…,n,n∈N,直到最终无法找到频繁-项集,从而确定最终的频繁k-项集。

2应用Benford法则和Apriori算法对海量数据的审计分析

Benford法则和Apriori算法的联合数据挖掘在审计中的应用主要围绕为以下两个核心步骤展开:

2.1应用Benford法则发现审计疑点

判断数据的来源是否符合Benford法则的应用范围。

对总体数据的一、二位有效数字进行Benford法则的符合性测试,初步发现对数据进行深入钻取的线索。

对标准分布频率和实际分布频率进行比较,分析频率偏差,确定合理的钻取重点。

根据分析结果和实际需要,进行更多位数字的进一步数据钻取和分析,直至发现目标数据。

钻取过程如图1所示。

2.2应用Apriori算法分析审计疑点

采集通过Benford法则分析后输出的疑点数据集。

整理疑点数据集以建立事务集,即Apriori算法要求输入的数据集合。

扫描事务集产生候选数据集合,并依据最小支持度筛选出频繁项集。

频繁项集进行自关联,迭代第三、第四步,确定最终的频繁项集。

依据最小置信度从频繁项集产生强规则。

对强规则进行人工审计业务分析。

3应用案例

3.1应用Benford法则对审计疑点的发现过程

3.1.1确定审计数据和目标字段

分析某企业的凭证数据,从其记账凭证表accvouch摘取字段结构如表1所示:

3.1.2数据导入

将相应的目标数据表导入审计人员使用的数据库。

3.1.3总体频率计算

3.1.3.1数位的选取

以凭证T2000001和T2000002为例解释数位选取方式,如我们选取凭证编号T2000001的金额栏1000元的第一、二位数值为”10”,作为该笔记录的第一、二位数;我们选取凭证编号为T2000002的借方金额栏3029元的第一、二位数值为”30”,作为该笔记录的第一、二位数,如表2所示:

3.1.3.2数位分析

对记账凭证表accvouch中的借方金额字段前两位进行分析,第一、二数值为10的凭证纪录有540笔,全部记录有10149笔,因此第一、二位数为”10”频率为5.3%。部分结果如图2所示。

3.1.4分析频率偏差

根据Benford分布的数字频率上限、数字频率下限和分布概率Z统计量的公式计算得到图2所示数据。

分析图2数据可以得出:

第一、二位数为”10”的实际频率为5.3%,高于Benford法则的理论上限4.53%,计算其Z统计量的值,Z值为5.8444,也大于1.96,因此我们初步判定存在错误、潜在舞弊行为或者人为的偏差。

第一、二位数为”11”的实际频率为3.25%,低于Benford法则的理论下限3.4%,虽然Z值为3.038也大于1.96,但可能是由于数位为”10”超过Benford法则的理论频率过大从而导致其频率偏低,因此应该属于无异常。

3.2应用Apriori算法对审计疑点的关联规则挖掘

3.2.1获取并整理疑点数据

为了进一步明晰数据间的关系,观察数据的规律性,对疑点数据通过关联查询筛选出来,形成审计中间表,部分数据如表3所示。

3.2.2运用Apriori算法探索关联规则

步骤一:以表3中的第1列、第3列、第4列和第5列数据建立事务集D,由D建立候选1-项集C1,部分数据如表4所示。

步骤二:假设最小支持记录数为100,将支持度不足的项去掉,得到频繁1-项集L1,如表5所示。

步骤三:循环步骤一和步骤二,得到最终的频繁3-项集L3,如表6所示。

步骤四:根据最终的频繁3-项集L3和设置的最小置信度100%得出表7所示的强规则。

步骤五:由业务审计人员确定强规则的业务价值,进行人工排查后,确定编号为1的强规则为有意义的规则。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论