已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据环境下基于文本挖掘的审计数据分析框架 【摘 要】 大数据的浪潮推动着审计技术的变革,给审计模式和审计方法都带来了巨大的改变。传统的审计数据分析方法不能对半结构化以及非结构化数据进行分析,也无法满足大数据环境下审计信息化发展的要求,亟须提出新的审计数据分析思路和方法。在此背景下,文章提出了基于文本挖掘的审计数据分析框架,并阐述了采集与存储、挖掘与分析、总结与发布详细的审计数据分析流程。通过利用文本挖掘技术对采集的非结构化原始审计数据进行挖掘,根据明确的审计需求建立不同的文本挖掘模型,对审计数据进行分析,进而发现审计疑点,最终形成可理解的审计证据和审计线索。该框架的构建旨在为大数据审计提供新的思路,以降低大数据审计风险,提高审计质量。 下载 【关键词】 大数据; 文本挖掘; 审计数据分析 【中图分类号】 F239.1 【文献标识码】 A 【文章编号】 1004-5937(2017)16-0117-04 引 言 大?稻菀?发了审计领域的创新和变革,海量的数据中结构化数据难以代表整体,非结构化数据已经成为大数据的关键组成部分。如何对这些非结构化数据进行分析是推动大数据审计开展的重要内容。我国当前在审计领域对非结构化数据还未形成全面系统研究。以文本挖掘为代表的数据挖掘技术在大数据审计中占有举足轻重的地位,它不再仅仅以结构化的审计数据为分析对象,可以深入地对大量非结构化数据进行挖掘分析和利用。所以本文提出了基于文本挖掘的审计数据分析框架,这将为大数据审计研究提供全新的分析思路。 一、文献综述 国外学者在研究大数据给审计带来的影响中讨论到,大数据能够改变和影响审计师所做出的决定和收集审计证据的方式。Gray et al.认为采用数据挖掘方法能提高审计程序的效率和有效性。国内学者对大数据审计的研究始于2013年。阮哈建等分析了大数据对财政审计、金融审计带来的挑战与机遇。吕劲松等提出并构建了金融审计数据分析平台,为金融审计提供了新的思路。秦荣生指出大数据环境下审计模式、审计观念、事物之间的关系将发生转变。之后,学者开始对大数据环境下审计技术方法进行研究,顾洪菲对大数据环境下的审计数据分析方法进行初步探索,提出了对NoSQL、机器学习的需求。鲍朔望探讨了聚类分析、异常分析及演化分析等数据挖掘方法在政府采购中的运用。羌雨探索了R语言在大数据审计分析中的优势及可行性。国外学者提出的审计数据分析方法有聚类、随机森林、语言分析和粗糙集。 纵观国内外学者的研究,大部分研究主要还是局限于对结构化审计数据进行分析,在这种相对封闭的环境下研究了大数据对审计的影响以及具体的审计方法,并且大多研究着重于从大数据对审计的影响和审计技术方法这两个方面进行探讨,鲜有学者针对非结构化审计数据进行深入研究,而且也很少研究提出关于如何构建大数据环境下的审计数据分析框架,对于大数据审计还未形成完整的研究成果。所以,本文提出并构建大数据环境下基于文本挖掘的审计数据分析框架,研究该框架下文本挖掘的详细流程。 二、传统的审计数据分析 审计人员如何将采集的原始数据转化为审计证据,这将直接影响到审计目标的实现。从采集到获取证据的过程中,审计人员最应该关注的问题是能否挖掘出有价值的数据进行审计数据分析,这对审计项目的质量和审计成果的体现都起着重要的作用。所以,在审计工作中最关键的步骤是进行审计数据分析。 目前,审计人员在审计工作中经常采用的审计数据分析方法以及计算机辅助审计工具(CAATS)有账户分析、经济指标比率分析、趋势分析、统计分析、Excel数据分析、Access、SQL、AO审计软件等。Excel数据分析和针对会计账表的审计软件被事务所熟用;SQL语句查询、AO审计以及审计数据采集与分析等审计软件常常被用于政府部门和事业单位的内部审计工作中;对于企业的内部审计,大型企业采用专门的审计平台或在ERP中嵌入内部审计模块,中小企业比较依赖Excel和Access进行审计数据分析。但大数据时代的来临,使得海量和多元异构的数据极大地拓展了大数据审计的范围,传统的审计方法和辅助审计工具已显得力不从心,无法对非结构化数据进行采集和分析。 三、大数据环境下的审计数据分析 在国际数据公司(IDC)发布的一项报告中显示,企业中最多只有5%的数据为结构化数据,其余大都是非结构化数据,并且88%的企业管理者认为这些存储在数据库以外的非结构化数据,才是他们接触和了解企业的最佳选择目标。数据是审计分析的核心,采用文本挖掘技术对非结构化审计数据进行挖掘分析,将会给审计领域带来一个新的技术应用潮流。这将有助于审计人员在大数据模式下对被审计单位进行内部控制、舞弊识别、违法违规等方面的评估。 (一)非结构化数据 顾名思义,非结构化数据没有固定的结构,不能通过一般的数据库二维逻辑表结构来表达,也不能将其标准化和完全数字化。按照格式可以分为文本文档、图片、音视频等。 (二)审计数据分析范围 随着“云计算物联网大数据智慧城市”的快速发展,数据信息将实现共享,数据量将以难以想象的速度爆发式增长。一方面,审计数据分析的对象将发生变化,审计对象不再局限于和被审计单位财务相关的信息,而被审计单位内部的规章制度、会议记录、合同、通知等非财务信息也将是审计的重点对象。与被审计单位相关的外部数据也显得尤为重要,比如新闻文章、股吧评论、论坛发布等。另一方面,海量的数据必然会产生多样的数据格式,审计数据类型从传统的结构化数据转向多元异构的大数据。审计范围的重点转为对非结构化的数据进行分析,可以全面有效地对被审计单位的内部控制、违法违规行为、重大经济决策等内容进行评估。 (三)审计数据分析思维 审计数据分析思维由单一的“因果分析”模式向“因果分析与关联分析”共存的思维模式发生转变。因果分析是分析事件因和果这两者之间存在的必然关系,据因找果或者溯果撷因。然而,在海量的数据中,数据之间可能存在一因多果,或是一果多因的复杂关系,如果深入分析因果关系“为什么”和“是什么”需要耗费审计人员大量的时间和精力。所以,为了高效地开展审计工作,审计人员应该更加注重数据间的相关关系。若一种现象的发生通常伴随另一现象的出现,那么可以推断A和B经常是一起发生的,进一步对两者之间的相关关系进行仔细的研究,从而确定关联规则。经济学中最成功的营销案例啤酒与尿布,就是把关联分析思想运用到大数据分析中的典型例子。同样在审计数据分析中运用相关关系分析的思维,挖掘审计数据之间的潜在关系,建立明确的关联规则,可以增加审计证据的效力。 (四)审计数据分析技术方法 审计人员在审计工作中仍然运用抽样审计的方法显得较为保守。在大数据模式下开展审计数据分析工作,采用总体代替样本的方法更能反映数据的本质,使得审计数据分析的内容更加全面、质量更加可靠。“总体即样本”的方法可以规避由局部推算整体进行审计数据分析的局限性,避免抽样审计风险。随着舞弊手段日益复杂,各种虚假信息隐藏在海量的数据中,通过一般的审计方法和工具难以对其进行察觉,因此,审计人员需要运用新的审计技术和方法对隐蔽的信息进行挖掘。以文本挖掘为代表的数据挖掘技术可以帮助审计人员分析审计数据内部潜在的规律和本质,挖掘数据之间隐含的关系,分析异常数据。例如,与被审计单位相关的信息,可以从论坛、股吧等社交媒体网站中去挖掘?W民和媒体发布的评论和报道,采用文本挖掘技术能有效地对这些信息进行挖掘整合,从而获得全面、实时的审计数据。 四、基于文本挖掘的审计数据分析框架 文本挖掘技术主要是针对非结构化知识进行挖掘,是大数据审计技术中不可或缺的部分。特别是随着大数据在审计领域的广泛推广和运用,文本挖掘技术对审计数据分析的重要性已逐步凸显。目前文本挖掘技术主要是应用于对文档、网页中蕴含的文字说明进行分析,对于如视频、图片、语音等数据进行挖掘时,也是从中提炼出主要内容并换为易于理解的文字描述。所以本文将以文本挖掘技术为重点对审计数据进行分析,构建基于文本挖掘的审计数据分析框架,如图1所示。 (一)审计数据的采集及存储 审计人员首先应对被审计单位的基本情况进行深入了解,通过分析审计目标、审计范围、审计内容,确定具体的审计需求。根据明确的审计需求,采集与被审计单位相关的大量非结构化数据是进行审计数据分析的关键步骤。一方面,针对来自企业外部的数据能够通过采用网络爬虫技术和API等方式进行获取;另一方面,可以通过各种有效的数据访问接口对非结构化数据进行采集。 为了保证审计数据的完整性和真实性,需要建立严格和规范的制度,对采集到的非结构化数据进行科学安全的管理。通过构建Hadoop分布式框架的HDFS文件存储系统,集中存储业务系统的非结构化审计数据。在此基础上,还需要搭建适合用于存储非结构化数据的数据库HBase。HBase可以弥补HDFS没有随即读写操作功能的缺陷,其内部管理的文件全部存储在HDFS中。 构建基于Hadoop的分布式文件系统HDFS、分布式数据库HBase以及分布式计算框架MapReduce组成的Hadoop生态系统,如图2所示,对非结构化数据进行统一管理。这种管理模式降低了审计数据管理风险,使各个平台的数据实现共享,打破了信息孤立的尴尬局面。 (二)审计数据文本挖掘分析 1.文本预处理 审计文本预处理的过程,需要对审计文本进行分词、删减停用词、特征抽取与选择等步骤,如图3所示。 (1)特征抽取。对审计文本进行预处理的第一步是根据审计需求,抽取出能够代表审计文本特征信息的词或者短语,要求获取的这些特征对审计文本的类别能起到区分和识别的作用。通过向量模型对审计文本的内容进行抽取,建立文本表示模型,将非结构审计文本转化为计算机能处理的表达形式。 (2)特征选择。根据明确的审计需求,优先采用对审计文本内容具有较强表达能力的特征。审计人员还需根据审计目的需要,对经过特征抽取的文本特征集采用卡方检验、TF-IDF等特征选择方法进行进一步选取,在进行审计文本挖掘前避免垃圾数据,保证获取的数据能很好地表达审计文本信息的特征项。 2.文本挖掘 文本挖掘是审计数据分析的核心内容,本阶段需要对经过清理和筛选出的文本数据根据不同的审计目标选择不同的文本挖掘方法(文本摘要、关联规则分析、文本分类、文本聚类、等技术)进行挖掘分析,发现数据之间的异常关系,为审计疑点和线索提供有效的审计证据。 文本摘要,是指用极其简短的语言对文档的内容进行高度概括,达到完整清晰地传递文本主题思想的目的。将文本摘要技术运用在审计数据分析中,可以通过求取中心文档的方式对审计文本的摘要进行获取。文本摘要可以帮助审计人员通过方便的浏览方式和快速的审计线索查询方法来提高审计数据分析效率,不需要对审计文档的全部内容进行分析,只需获取审计文本摘要即可。 关联分析,关联分析技术在文本挖掘中主要针对知识进行关联。大量的审计文本信息之间本质上存在着潜在的知识关联,可以通过推理规则、知识检索、语义分析等技术来表示审计文本信息之间存在的这种关系,针对审计非结构化文本进行关联分析,研究审计文档之间可能存在的某种隐含的关系,从中获取审计事项和审计目标的本质联系。这是借助一般的审计数据分析方法和工具不能完成的任务。 文本分类,属于有监督的学习。首先,对文档的类别设定主题,根据主题对文本进行分类,将符合同一主题的文本作为相同的类别。通过对预先设定的文本类别进行描述,建立分类模型对训练文本进行分类训练和准确率评估,最后利用确定好的模型对测试样本进行分类。将文本分类技术运用到审计数据分析中,可以帮助审计师针对不同的审计需求和审计目的,对审计文本快速有效地进行分类,并结合相应的审计方法有针对性地开展审计数据分析工作。 文本聚类,聚类分析是基于同类文本之间文本差异最小化的思想,反之亦然。文本聚类的优势是无须进行监督学习,不需要通过训练进行模拟,属于无导师学习。由于一些难以发觉的信息以特殊的形式隐藏在大数据中,一般的审计数据分析方法很难挖掘出这些异常信息,而采用文本聚类的算法能够弥补这个缺陷。这些异常信息往往是审计人员重点审查的对象,可以对舞弊和违规行为的评估提供审计证据。对审计文本进行聚类后,可以按类别对每类文本进行具体的分析、比较和总结,分析异常数据存在的原因,大大减轻了审计人员进行审计数据分析的工作量。 3.结果可视化 结果可视化的主要思想是将复杂的审计数据通过可供使用者所理解的方式表达出来。结果可视化可以把文本挖掘所获取的知识通过可视化的视觉符号(网络图、树状图、维恩图、坐标等)清晰地进行展示,审计人员可以根据审计目标和评估指标,对可视化的结果进行分析、解释和评价,从不同的角度对审计数据进行更加深入的观察和更加全面的多维分析。 (三)总结和发布 总结和发布是审计数据分析流程的最终阶段。审计人员和技术人员共同将上一阶段可视化分析所展现的结果进行筛选、归类、整理和深入分析,总结出有价值和有效的审计知识进行标准化,形成审计经验和审计线索,供审计人员分析取证。最后对被审计单位做出相关的评价,得出审计结论。 大数据环境下的文本挖掘审计数据分析主要是借助文本挖掘技术进行审计数据分析。根据明确的审计需求,采集与被审计单位相关的原始审计数据进行预处理,建立不同的文本挖掘模型对审计数据进行分析,最后对可视化的结果进行分析和评价,为审计报告提供参考意见。如果文本挖掘的结果无法满足审计目的和审计需求,则需要分析审计过程中存在的问题,不能达到审计目的的原因以及该过程中存在的薄弱环节,比如是否需要考虑重新选择文本挖掘模型和参数。所以从开始采集原始数据到获取审计证据的审计数据分析过程不是一次性能够顺利完成的,需要通过不断总结和完善某些环节,达到预先设定的审计目标。 五、结论与展望 大数据环境下,为了给审计研究提供新的思路和审计运用提供新的方法,本文从审计数据分析工作实际需要的角度出发,提出了基于文本挖掘的审计数据分析框架。该框架是基于Hadoop生态系统,结合文本挖掘技术,建立融审计数据的采集、存储、分析处理、结果可视化为一体的审计数据分析框架。本文的研究旨在为大数据环境下审计数据分析提供参考,但还未对此进行实证分析。可以肯定的是,利用文本挖掘技术可以弥补传统审计技术方法的不足,如何实现和验证文本挖掘技术在审计工作中的运用,将是后续研究的重点内容。 【参考文献】 MOFFITT K C, VASARHELYI M A. AIS in an age of Big
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 七年级上学期语文第一次月考试卷-6
- 楚雄彝族自治州八年级上学期语文期末试题
- 雇人干活免责协议书(2篇)
- 音乐课件制作教学课件
- 统计分析软件模拟试题二及答案
- 南京工业大学浦江学院《太极推手》2022-2023学年第一学期期末试卷
- XX制药活动中心消防水施工组织设计
- 飞向蓝天的恐龙说课稿
- 《自相矛盾》说课稿
- 《因式分解》说课稿
- 消防安全培训内容
- 2024-2030年辣椒种植行业市场深度分析及发展策略研究报告
- 变电站绿化维护施工方案
- 校园展美 课件 2024-2025学年人美版(2024)初中美术七年级上册
- 2024版《糖尿病健康宣教》课件
- ktv保安管理制度及岗位职责(共5篇)
- 脑出血试题完整版本
- 义务教育信息科技课程标准(2022年版)考试题库及答案
- 建筑施工安全生产责任书
- 新员工三级安全教育考试试题参考答案
- 公司年会策划及执行服务合同
评论
0/150
提交评论