数据挖掘案例审计行业_第1页
数据挖掘案例审计行业_第2页
数据挖掘案例审计行业_第3页
数据挖掘案例审计行业_第4页
数据挖掘案例审计行业_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录12神通数据挖掘K-Miner简介K-Miner数据挖掘案例K-Miner审计领域应用案例342K-Miner并行数据挖掘性能优势2K-Miner:神通BI套件之一基础数据数据仓库分析模型业务展现数据仓库平面文件OLAP模型神通BIK-Cuber切片切块、上钻下钻、同比环比、指标预警标准报表K-Fusion抽取、转换、加载K-Front报表的设计、生成、展现、打印数据库K-Miner、聚类、关联报表应用系统知识可视化数据挖掘模型数据集市3K-Miner应用领域电信商务电力税务 客户流失 客户分群 客户价值评估 价格敏感度分析 新业务精准 猜您喜欢 客户特征识别 电力负荷 偷漏税识别 财务报

2、表异常检测 税收 电力故障路径分析 窃电识别 用电价格敏感度分析 价格敏感度分析虚假申报识别其它制药金融 贷款风险评估 基因疾病关联分析 投保分析预警识别邮件过滤成品率参数灵敏度分析故障检测 原材料产地鉴定 药材成分光谱图分析 临床试验效果分析 投资组合分析 指数趋势 网络监测自动识别4 客户分析 情报分析神通K-Miner 40种算法 算法性能高效 MPP+SMP并行计算架构 灵活的任务调度 模型生命周期管理 B/S架构5神通K-Miner:算法列表属性筛选属性重要性打分主成分分析属性筛选基于卡方检验的属性筛选基于增益的属性打分决策树回归树神经网络支撑向量机逻辑回归朴素网络组合模型数据挖掘多

3、元线性回归神经网络回归广义线性回归回归支撑向量机回归回归组合模型K均值聚类基于K均值的层次聚类两阶段聚类聚类分析分布估计聚类K-Miner算法关联分析购物篮分析属性关联分析序列模式分析时间序列ARX时间序列ARMA时间序列描述性统计归纳分析列联表离散化相关分析函数拟合数据探测统计分析分布估计因子分析异常检测K-sigma异常检测线箱图异常检测层次聚类样本层次聚类属性层次聚类共计40个方差分析单因子方差分析双因子方差分析神通K-Miner:高效的执行速度7神通K-Miner:和国外相当的精度算法准确率对比,准确率越高越好。有的K-Miner略好,有的Mer略好回归算法准确率对比,相数越高越好。8

4、算法准确度和SPSS Mer相当,神通K-Miner:并行计算架构u 全节点采用MPP架构,实现多任务的并行和部分算法单任务粗粒度并行;u 单节点采用SMP架构,实现所有算法的细粒度并行,并确保内存的节约。K-Miner为唯一一款所有算法实现并行的数据挖掘。9神通K-Miner:整体对比对比项指标神通K-Miner5.0SPSS Mer15SAS EM4.3(SAS9.2的)算法算法数量27+13=402913执行速度高中中精度高高高其他功能数据源主流数据库、TXT、CSV、Excel等主流数据库、TXT、CSV、Excel等主流数据库、TXT 、CSV 、Excel等任务调度支持,且强大&#

5、215;×模型管理模型库CRISP-DM×扩展性并行计算××架/SC/SC/S调用接口API、WebServiceAPIAPI第整合××易用性可视化好好中建模方式向导式工作流工作流建模难度容易容易难帮助文档可读性较好好差服务与价格价格中高,每增加一个用户需购买一个客户端高,年租模式原厂技术服务××定制开发支持10××目录12神通数据挖掘K-Miner简介K-Miner挖掘案例K-Miner审计领域应用案例342K-Miner并行数据挖掘性能优势11目录12神通数据挖掘K-Miner简介K-Min

6、er挖掘案例 济南地税数据分析系统【仅该案例其他略】家有电视购物数据分析系统天津公福利110智能决策应用平台在线数据分析系统K-Miner审计领域应用案例342K-Miner并行数据挖掘性能优势12济南市地税数据分析系统-项目背景 济南市地税局概况:济南市地方税务局共有17个机关处室、下辖13个直属派出心税务所,负责18万户纳税业户的征管服务工作。,56个中 济南市地税局的机遇及:全省数据大集中之后,对爆炸性增长的数据的利用缺乏有效的和工具。随着纳税户数量的剧增,传统的计划性稽查选案等监管较为低效已不,性差。纳税人的偷逃税行为越来越隐蔽,传统的经验式的管理适应当前形势。税收计划制定、税源管务报

7、表审核、税收申报异常分析等缺乏较为科学、高效的。13济南市地税数据分析系统-稽查选案(偷漏税分析)构造出了400多个和偷漏税相关的KPI指标。14申报入库核定否欠税金额、环比、同比入库金额、环比、同比申报金额、环比、同比企业所得税个人所得税城建税印花税衍生指标纵向指标(同比、环比)横向指标配比指标领用金额、数量缴销金额、数量利润表主营业务收入主营业务成本主营业务税金主营业务利润其他业务利润营业费用管理费用财务费用营业利润投资营业外收入营业外支出利润总额净利润资产负债表货币资金短期投资应收票据应收账款其他应收款存货待摊费用一年内到期的长期债权投资其他资产资产合计长期债权投资长期投资合计固定资产原

8、价累计折旧登记登记登记类型工商开业从业人数国地共管标志核算形式济南市地税数据分析系统-稽查选案(偷漏税分析)上面是基于408个KPI指标建立的纳税户偷漏税判定的决策树模型。决策树的根节点(这里是“资产合计”指标)和每个叶子节点(红色节点)之间的路径对应一条业务规则(纳税户偷漏税的特征),可用来判定纳税户是否偷漏税,以及偷漏税的概率。如上面绿色线条对应的业务规则表示“资产合计<=403.5万,管理人数>20 且成本费用增长率的波动率>4.05 则该纳税户偷漏税的可能性有97%,有369个纳税户满足这条业务规则。”15济南市地税数据分析系统-稽查选案(偷漏税分析)16济南市地税数

9、据分析系统-财务报表异常检测目标:算法自动检测财务报表中的异常填报问题。存货数量远大于正常值,可能虚增申报情况17济南市地税数据分析系统-税收目标:建立税收科学性。模型,提高税收计划的准确性,进一步推进税收决策的左图中,使用2004年1月至2005年12月的税收数据建立模型(分割线左侧的数据),并对2005年1月至9月的数据及评估模型。在建立挖掘分析平台之前,计会部门利用统计进行人工税收,2006年39月这7个月期间人工计划税收的平均误差是10.4%。利用K-Miner建立的模型对9月份的税收误差率不到1%,运行一年后的全年平均误差只有3.5%。18济南市地税数据分析系统-客户评价 数据挖掘功

10、能和国外数据挖掘算法基本相当以支撑向量机回归、购物篮分析等为代表的算法速度、精度优于国外厂商相同算法。B/S架构,便于和税收分析平台无缝整合 数据挖掘模型稽查选案模型:建立起了更、更为高效、具有自学习能力的偷漏税知识库。2009年,对偷漏税概率大于95%的2363户进行稽查,其中1864户查补金额大于1万,查补金额近8亿元。GDP和税收相关分析模型:为税收征收力度监管提供了。2010年发现有3亿税收未催缴。税收模型:全年误差率小于3%,刚上线当月误差率小于0.3%。为税收计划制定提供了更有效的决策依据。 税收申报预警模型:每月各地市发现上万户财务报表填报问题,其中近1/2 各地市税收层次聚类、

11、各行业税负层次聚类等模型为各地区、各行业税收供了科学的依据。虚报行为。制定和税收监管提 税收分析模型使税收分析工作更系统、;数据挖掘工具可在后续工作中进一步发挥更广泛的作用,建立、更实用的业务模型,以更广范地指导税收分析和税源管理工作。19目录12神通数据挖掘K-Miner简介K-Miner挖掘案例K-Miner审计领域应用案例342K-Miner并行数据挖掘性能优势20商业银行审计-背景正常贷款审计重点不良贷款数据挖掘历史数据算法建模定义基本特征损失率1正常能够履行合同,没有足够理由怀疑贷款本息不能按时足额偿还。一切正常02关注目前有能力偿还贷款本息,但一些可能对偿还产生不利影响的因此。潜在

12、缺陷3%-5%3次级还款能力出现明显问题,完全依靠其正常经营收入无法足额偿还贷款本息,即使执行担保, 也可能会造成一定损失。缺陷明显, 可能损失15%-25%4可疑无法足额偿还贷款本息,即使执行担保也肯定要造成较大损失。肯定损失50%-75%5损失采取所有可能的措施或一切必要的法律后,本息仍然无法收回,或只能收回极少部分。损失严重100%商业银行审计-数据构造分析指标22附表_法人基本客户代码客户名称财务主管主管部门成立时间编号有效期经营范围基本行基本存款帐号市场定位信贷对象行业1行业2管理特征经营规模类型产业当前信用等级年度信用等级经营组织形式经营状况改制状况股权比例重点客户标志贷款类别贷款

13、性质贷款期限专项贷款类别借款用途借款金额还款方式核销金额保证形式担保方式贷款五级是否以资抵债经营范围领导素质技术素质管理素质主表_法人借款凭证表借款凭证编号借款合同编号客户代码机构编码项目编号借款凭证原始号码贷款类别贷款性质贷款期限专项贷款类别借款用途商业银行审计-贷款风险评估模型23商业银行审计-筛选审计对象利用模型对所有贷款进行评估,满足第92条规则的贷款如下:如上表所示,满足第92条规则的12条给予了1级(正常)贷款,模型认为评级应该是5级贷款,所以这12笔贷款需要重点审计。24借款凭证编号客户代码贷款期限还款方式行业1原始 贷款分级值规则编号2512004002504824643990

14、3-6121H165159225120040014094646485775-4112H163159225120040025082446e000065539112H163159225120040025082546474203-3111H163159225120040025082846479151-3112H165159225120040025083346e000044510112H165159225120040025084646e000044510111H165159225120040025084746578580-X111C136159225120040025085246474203-3111

15、H163159225120040025085646e000045053111H165159225120040025086246485775-4111H163159225120040025492546485775-4112H1631592国有企业财务风险评估-传统模型国外的ZETA企业财务风险评估模型各KPI如下:理论上企业财务风险指数Z= a*X1 + b*X2 + c*X3+ d*X4 + e*X5+f*X6 + g*X7。25指标计算公式指标说明资产率(X1)税息前/总资产该变量用于评估公司业绩方面相当有效。收入的性(X2)收入在5-10年估计值的标准误差收入上的变动会影响到公司风险债务偿

16、还(X3)利税前/总利息偿付这是固定证券分析者和债券评级机构所采用的主要变量之 一。(资产-负债)/总资产它需要考虑以下因素:公司,公司股利,以及不同时 积累(X4)期的获利体现企业资产的变现能力比率(X5)资产/负债资本化率(X6)普通股权益/总资本在分子和分母中,普通股权益可以用公司五年的股票平均市场 值衡量,而不是帐面值。五年平均市场值可以排除可能出现的 严重、暂时性的市场波动,同时在模型中纳入了趋势的成分。规模(X7)公司总资产的对数该变量可以根据财务报告的变动进行相应的调整。国有企业财务风险评估-我们能做的更好吗?(1) 利用上市公司数据(ST认为有财务风险),训练模型,得到回归系数

17、,形成我们的审计模型。国外结果不能照搬!(2) 加入别的、我们认为重要的指标,建立指标体系更全的、更适合我们的模型。(如下表)(3) 建立非线性的、更复杂、准确度更高的模型。指标计算公式X8主营业务收入/(应收帐款+ 其他应收帐款)X9存货/主营业务成本X10(应付票据+ 应付帐款) /主要业务成本X11主营业务成本/主营业务收入X12净利润/货币资金X13营业费用/主营业务收入X14主营业务税金及附加/主营业务收入X15所得税/利润总额X16主营业务毛利率(营业利润/主营业务收入)X17利润/期间费用( 管理费用+财务费用+ 营业费用)X18存货周转率X19在建工程/资本X20资产负债率X2

18、1固定资产周转率26X22(营业外收入- 营业外支出) /净利润国有企业财务风险评估-模型结果基于20个正常、20个ST上市公司建立的财基于模型对所有40个公司的财务风险评估结果务风险模型27预算执行审计-背景与数据审计目标:分析部门预算执行的异常之处,做好资金审计监督工作。Ø数据基础:本案例从某市审计局随机收集了150 个部门预算执行情况的数据,剔除有缺失值的7 个部门,剩下 143 个部门的数据作为样本。Ø指标选择:选取各个共有的支出项目,得出基础指标,通过对各费用除以预算总费用(预算总费用包含上述指标外其他项目费用),得到构造指标除以预算总费用28构造指标部门奖金比例

19、住房补贴比例办公购置费比例交通费比例差旅费比例会议费比例基础指标部门奖金住房补贴办公购置费交通费差旅费会议费预算执行审计-分析思路利用K均值算法,对几个具有不同特征的群体。的费用支出结构数据进行聚类,将所有部门聚成预算执行审计-查找疑点部门通过建立批量打分任务可以将各个部门划分到不同的类别,得到疑点部门列表如下:聚类结果显示:(1) 部门134、21、90属于聚类4,需要重点审计住房补贴支出。(2) 部门128、64、139、129、88属于聚类3,需要重点审计交通费用支出。部门住房补贴比例奖金比例办公购置费比例差旅费比例会议费比例交通费比例聚类结果部门1340.410.130.240.310

20、.230.074部门210.410.130.040.160.120.074部门900.220.040.20.370.10.034部门1280.220.040.040.230.150.243部门640.220.040.010.150.290.243部门1390.20.080.10.270.060.173部门1290.230.030.040.240.130.243部门880.030.090.130.190.130.213医保审计-审计目标医疗保险是将医疗保险费集中起来建立医疗保险基金,用于支付社会医疗保险合同规定赔付范围内医疗费用的一种保障制度。但由于道德方面的缺失,普遍医保诈骗的现象。31医保审

21、计-分析思路数据:B医院20052007年的住院数据,共有23970条。数据:不同病种的费用差距较大,从中选择数较多的病种“不性心绞痛”进行分析,数总共为841条。对数据表中影响费用结算的字段进行分析,筛选出右侧与费用结算有关的指标,构造出用于分析费用异常结算的数据表。32患者基本职业住院时间住院天数入院入院科别入院时情况出院出院科别出院情况治疗过程主要抢救次数费用医保报销费用医保建模:审计-分析思路建立支撑向量机回归分析模型,模型建立完成后,利用测试数据对模型进行评估,测试结果如右图所示。模型误差在可接受范围之内,说明初步找到了医保报销费用和各影响因素间的通过散点图直观的展示医保报销费用预测

22、值与实际值的接近程度。横轴表示患者医保报销费用的值,纵轴表示患者实际的医保报销费用。这几个患者的实际值远大于值,需要重点审计。33医保审计-审计选案利用模型,输入所有该病种患者的基本资料和治疗数据,得到医保报销费用的值。把医保报销费用的实际值与值比值,实际值远大于值的作为重点审计对象。住院号688的患者住院费住院号546的患者报销费用是住院号688患者的2.9倍34两患者基本一致用与结果基本一致住院 住院性年 职业 住院入院出院入院出院主要抢救 医保报误差号次数别龄天数科别科别情况情况次数销费用结果比546125816心内病房 心内病房32I20.001012916.144745.882.72

23、26881王25914心内病房 心内病房32I20.00104394.044630.560.9492053149工人7心内病房 心内病房32I20.00104549.474531.711.0047971石25514心内病房 心内病房32I20.00104279.64530.910.94584021549心内病房 心内病房32I20.00104612.254526.591.0心内病房 心内病房32I20.00108193.054506.331.81891李金钢 15214心内病房 心内病房32I20.00104233.374505.150.9402093陈250工人14心内病房 心内病房32I2

24、0.00104353.214502.100.967审计高频问题发现-背景 审计部门积累了为数众多的审计报告,均以Word或者PDF形式; 通过人工查阅很难回答如下问题: “哪些审计问题最经常出现、出现频率有多大?” “哪些或者哪类被审计的财务报表经常出现多计利润问题?” “某个问题涉及的金额有多少?” 通过文本挖掘技术,可以高效、高质量解决此类问题。35审计高频问题发现-分析思路审计可扩展该词库统计结果:报告数2430高频问题多计利润少计利润问题公司定位审计报告中的审计问题段落工资发放不规范个人所得税企业所得税。502020提取审计问题关键字并统计词频, 获得统计结果给出包含某审计问题的所有审

25、计报告(被审计)对每一份审计报告,提取审计问题关键字及金额,形成结构化数据36审计问题段落识别建立审计专业词库上市企业粉饰财务报表审计-多计少计利润挖掘:k-均值聚类聚类指标:营业收入增长率营业利润增长率利润总额增长率净利润增长率37上市企业粉饰财务报表审计-多计少计利润每次聚类异常示例通过K-Miner对企业财报的异常圈定,极大提高了审计的工作效率和质量,经审计以及、上交所的报告证实:异常所对应的公司财务舞弊、信息披露不实的报表粉饰行为,给出了行政处罚、市场禁入、警告或者的处分。38报告期公司营业收入增长率四、营业利润增长率五、利润总额增长率六、净利润增长率2010/12/310.28655

26、56210749.1787110.2695X2012/12/31X134607.063.90829094.23132944.1577672011/12/31X29.83794811584.9785.68286576.64282009/12/31-0.141599-2840.5227-195.16563-120.67971X2011/12/31X701.59216846.1138849.0234633.22894上市企业所得税异常审计-数据分析思路指标筛选相关程度>0.8 50个指标对比值与实际256个指标相关性分析线性回归值发现异常净利润、利润总额、营业利润、管理费用等上市企业所得税异常

27、审计-分析思路l 应用拟合出的回归方程计算“所得税”,与财报中实际的“所得税” 进行对比,即可发现异常。公司报告期利润总额计提 所得税所得税少交税倍率X20121059212622343.97.81X20111559275739676.7113039076.01327.63X201213470852-41898.2112375611.96296.37X20115337729-225629.6543038238.49191.75X20117103528.588017.6516826740.67190.17X2012119922392174260.1431837385.95181.70X20114

28、066830.75161516.2726925993.24165.71X20111365984930000.224880731.397161.69X20122484120.75321745.8847789337.8147.53X2011-30465347220011.752711449.16134.49目录12神通数据挖掘K-Miner简介K-Miner挖掘案例K-Miner审计领域应用案例342K-Miner并行数据挖掘性能优势41测试环境数据环境环境l 操作系统环境: Windows 2003 Server 64bitl 集群并行数据库环境: 神通xCluster3.5 * 1神通KSTORE3.5 * 2实例硬件环境l CPU:英特尔E7450测试:电信客户流失(103 税务稽查选案(20中彩客户分析(678l))2.4GHz 6l 内存:64G*4UCI检测(230l 节点数:1l 回归测试:增值税l 聚类测试:(72)l数据挖掘对比:神通K-Miner5.0旗下SPSS M中彩客户分群(220)er15对比测试-K均值43测试算法测试数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论