版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
利用数据分析模型加强地税数据分析初探
内容提要:天津市地税系统经过多年的信息化建设,全系统信息化推广及应用水平有了显著的提高,
另一方面也使税务数据库系统中积累了大量的涉税数据。如何将这些“历史的、静态的“涉税数据变
成动态的、具有分析决策性质的信息,已成为当前整个地税系统急需研究的课题。本文通过运用数
学公式建立数据分析模型的方法研究,对纳税评估、税源监控与税收预测等具体工作提供思路,把
"死数据''变成支持税务决策的实用信息,以期对提升税务系统信息化建设的水平和应用效能做出帮
助。
关键词:数据挖掘税收信息化数据模型数据应用
随着近年来地税系统信息技术的飞速发展,应用系统整合力度的加大,数据省级集中步伐的加快,
我市税务系统已基本实现了数据升级集中,全市地税系统每年数据量以TB级的速度增长。但是在
实际工作中面对这些海量的信息数据,却往往是“数据丰富''与"信息缺乏”并存。如何将这些“历史
的、静态的“数据变成具有分析决策价值的信息,如何结合税收征管实际来加强税收数据分析应用,
从而更好地为组织税收收入、加强税收征管、提高纳税服务水平服务,是新形势下有效利用税收数
据分析应用,实现税收征管“科学化、精细化”的关键所在。
一、对税务数据深度利用问题的提出
随着税收信息化的深人,税务机关积累了大量的涉税数据,日常工作中税务数据利用常见形式仍是:
报表浏览、简单查询、一户式查询、复杂查询、税源分析、税负分析、收入预测、过程监控等。目
前地税系统涉税数据应用仍是基于汇总、分类、简单计算基础之上的原始税收数据的“复制式”展现
和对税收现象的“陈列式”描述。决策者很难从这些数据中获得深入的、有价值的信息。随着税收信
息化工作的深入发展,如何匡助决策者在面临半结构化或者结构化比较差的问题时进行决策,是税
收信息化面临的重大课题。增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的
负担和干扰,是税务部门的重要目标。
税收数据的深度利用是指:在数据集中和系统整合的基础上,建立全面的税务数据信息,既包括税
务系统内部数据,也包括其他政府部门、企业、居民等外部数据,并且进一步在各种模型的匡助下,
发现数据的内在规律。就目前而言,重点突破口就是在税务管理方面提出合用税务实践的模型并且
应用,同时初步探索在税收经济方面能够刻划符合我市财税特点的模型.
二、利用数学方法构建模型是数据深度利用的切入口
(-)模型的分类
税务数据深度利用和挖掘的关键在于模型的应用,就税收数据深度利用的模型而言,大致可以分为
两类:以科学化管理、定量化管理、精细化管理为内在思想的管理工具和手段所形成的模型;以研
究税收经济关系协调发展为目的的税收经济模型。
(二)模型可以发挥的作用
通过模型的建立,进一步核实税基,提高了税务部门对现有税源和潜在税源的掌控能力。依据可能
影响税源的指标(如:本地区的国内生产总值、投资总额、社会消费品总额、工业附加值等)的历
史数据,预测下一年度的税源,作为制订税收计划的依据。
同时,能充分展现行业经营特点,暴露出税收违法的共性问题,根据纳税人的登记信息、纳税信息、.
财务指标、以往的偷税记录等信息,创建预测纳税人可能有偷税行为的分类模型,并以此模型作为
稽查选案的依据,便于各级税源管理部门及时发现和找出税收管理中的薄弱环节,及时对纳税人偷
税行为进行预测。从而有针对性地剖析问题,及时整改,阻塞税收漏洞,规范市场竞争秩序。
结合目前的税务数据基础及其发展趋势来看,天津市地方税务局信息中心的“新数据仓库”的使用和
各区县局“数据回放'’的使用将成为税收数据深度利用的良好契机,尝试使用数学方法构建相应模型
是形成税务系统涉税数据深度利用良好局面的切入口。
三、常用数据对照模型介绍
(一)跨税种申报对照分析类模型
利用“数据回放”平台,从中分别调取企业所得税年度申报收入与营业税年度申报收入逐户进行比对,
查找营业税申报收入大于企业所得税申报收入的疑点企业。理论上企业所得税申报收入应该大于或
者等于营业税申报收入。
住"”与3立"6羹收AW比
itsei.wv
tM9901B4WX)JI/
iamscaiw
M“"gmg上甯
73.811.tn<»!0XDat*
Ytr444mne
MU*-HabIW
108.1411swgE»
10M41B44IMKOFt
SIH“2US1*
10MU1.111400t*
1f17T9
图3.1滨海六分局“数据回放”中企所税与营业税申报分析模型
(二)纳税申报与财务报表数据对照分析类模型
一是企业所得税申报收入与财务报表数据对照分析模型。从“数据回放”系统调取企业所得税年度申
报收入与利润表的收入进行对照分析,从中查找收入存在差异的疑点企业。
企**利悦*JK申林收入与利法辰的收入对比
1J
三04M7.47101
e.mao<BsiM
1920Tl
三
0e:.e»
1M2.5N»
a•皿,力”
三
2"WO”72^”“
---------24214II407
三
_______J।一
V553M8I7-34
00
70CS.409
图3.2企业所得税年度申报收入与利润表的收入对照
二是企业所得税申报亏损额与实收资本对照分析模型。从数据回放系统调取企业所得税年度申报中
的亏损额与资产负债表中的实收资本进行对照分析。
(三)外部数据对照分析类模型
一是增值税申报收入与企业所得税申报收入对照分析模型。通过国税、地税信息数据交换共享,利
用地税部门提供的增值税申报数据与数据回放中企业所得税申报收入数据进行比对分析,从而发现
少报企业所得税收入的纳税人。
二是国地税登记数据对照分析模型。从数据回放系统调取企业所得税税种登记数据与地税登记数据
进行稽核比对,筛选出在地税有营业税登记无企业所得税税种登记,而在国税也没有企业所得税税
种登记的漏征漏管企业名单。
(四)开票数据分析模型
从数据回放系统的发票简并中调取纳税人开票数据与申报统数据进行比对分析,查找开票量大或者
金额大但申报数额偏小的企业。
tMarr741r
OMBIHl*7*4*
m.azar
r•・•••■MMM«**«»,rwr
WHOMmUML
•1tWMr
tmBM«,£
—flWKrn.cz9L
wKn'Ki;rrrF
图3.3发票数据分析模型
四、挖掘数据关系方法模型
对现有的数据加以有效的处理分析和挖掘应用,将数据资源转换成实用的信息,研究数据之间相互
关联关系,是当前信息化条件下提高税收管理水平的重要课题。数据挖掘常用方法有:关联规则、
离群数据、时间序列等。
(1)关联规则表示数据库中一组对象之间某种关联关系的规则,可以利用数学统计中对相关对象
进行相关分析来进行。其中相关系数是统计学中用于反映两组数据相互关联程度的统计指标,它说
明一组数据(自变量)对另一组数据(因变量)的影响程度。相关系数等于1,表明两组数据彻底
相关;相关系数大于0.9,表明两组数据高度相关;相关系数小于0.9,表明两组数据不彻底相关。
分析相关系数,目的在于利用相关的一组数据(自变量)判断或者预测另一组数据(因变量),研
究另一组数据(因变量)发生的可能性。如果相关系数大于0.9,即在高度相关的情况下,可以
做这种猜测,否则,认为两组数据之间不彻底相关,则不能做此种猜测。
按下列公式分别计算各列数据的相关系数R:
23
6・与①
其中:
Cov(r:j)=-y(r-rX>-y)
”............................②
①式为相关系数,②式为协方差,③式为自变量x的方差,④式为因变量y的方差
可以利用这种方法从数据仓库中提取相关信息进行分析,如对企业所得税与企业利润的相关性分析,
对同一地区按不同行业分组提取纳税户的企业所得税与企业利润数据,通过上述公式可以计算出不
同行业企业所得税与企业利润的相关系数,以检验企业所得税的征收率与企业利润率的相关性,如
果两者之间不满足这种相关关系的,表明这一行业企业缴纳的所得税在数量上不能与税源相匹配,
说明该行业企业缴纳的企业所得税很可能存在问题。
离群数据是指明显偏离其他数据、不满足数据的普通模式或者行为、与存在的其他数据不一致的数据。
离群数据可能来源于信息采集失误、人为错误等,也可能就是数据的真实反映。利用数据仓库中的
税收数据和各种社会信息,综合分析行业总体税收状况和纳税人个体纳税情况,分行业制定平均利
润率、平均税负率、销售额变动率等指标,并计算出各种指标的正常波动范围,超出此范围的即为
离群数据。然后可分户对纳税人进行相应的指标分析,如行业税负分析,如果得到的数据为离群数
据,说明该纳税人的这一指标浮现异常,并作进一步分析,浮现异常情况是否为信息采集失误或者
人为错误等因素造成,在排除这些因素后,则表面纳税人可能存在问题,应加大对该纳税人进行监
控。(3)时间序列分为截面数据与时间序列数据。所谓横截面数据就是对大体上同时、或者
和时间无关的不同对象的观测值组成的数据;而时间序列,也就是由对象在不同时间的观测值形
成的数据。横截面数据可以用来对某一指标进行横向比较分析,要求具有统一的统计口径和计算
方法。如目前在地税系统数据大集中以及数据回放BOXI大量应用基础上,可对全市不同行业的
税负进行计算比较,如果分局与全市平均税负差距较大的,需要进一步分析其原因,如果剔除了
政策、经济发展水平等因素后还有差距,就应该加大对该区域该行业的监控和检查力度。时间序
列分析方法的目的是用变量过去的观测值来预测同一变量的未来值,于是可以利用历史数据,实
现税源预测分析,如可对本地区某一行业税收增长建立一个数学模型,用这一模型预测以后年度
的税收增长,然后将情况进行对照,如果预测的结果与实际有差距,就需要不断修改数学模型,
使之逐渐接近真正的数据,最后使这一模型能反映实际的税收增长,达到预测的目的。
五、税收预测分析方法模型
税收预测分析模型的主要目的是根据数据仓库和“数据回放''中以往年度涉税数据,采用不同的数学
方法预测模型,对未来时间点的税收数据进行预测。税收收入的变化没有明显的表达式,需要用一
定的方法来加以确定,并用此进行计算获得观测值。但由于税收受到国家政策和社会上诸多因素的
影响,能准确预测税收收人是非常艰难的。下面介绍几种预测方法模型,以求预测的税收与实际税
收相接近,为税收征管提供有力支持。
1、插值多项式算法
如果对于一个函数F(X),已经知道它在某些点处的函数值,现要求近似函数丫(x)在这些点处
的函数值与F(x)的相同。例如,已经函数
F(x,),G=OJ,...,n)
要求近似函数Y(x)在这n+l个互异点处满足
尸(巧)=产(x,Xi=O:L…⑼.
可以证明次数不超过n的多项式
Pn(x)=cc
满足条件,并惟一确定。
插值多项式算法就是根据已知年份的税收数据,以年份为x,以税收数据为F(x),求得近似函数
Fn(x)=%+C[X+c;x'+…+c„x
然后将年份代入Y(x),求得预测值。由于将年份带入计算量较大,所以将年份进行转换,变为
对应值。根据上面的算法,对一些2022年滨海六局实际税收总额进行了预测:
插值多项式预测表
•5:万示
320M年200622QM任R1信一信三2002010%的1修
加,乐备即4S1-州IT葩工
<•5P加T*
43127*501旧CM85-8力5及11阶nnor>14g
蓑5.1转雄强需I多蹊施疗阿羯
2、曲线拟和的最小二乘法
根据插值原理可以建立一个次数不超过n的插值多项式Pn(x))作为函数F(x)的近似,从而预
测新点处的函数值。但是由于许多因素,使得数据点带有一定的随机性,从而使函数F(x)在预
测点的误差较大。通过数据观察,可以确定已知点大致上属于什么函数,然后利用最小二乘法来确
定有关的参数,再将预测点的值带人,求得较好的预测效果。这就是曲线拟和问题。曲线拟和与函
数插值显然不同,它不要求曲线通过所有已知点,只要求得出的函数能反映数据的基本关系。因此,
曲线拟和的过程比插值过程得到的结果更能反映客观实际,曲线拟和更具有实用价值。根据已知数
据做拟和曲线时,普通总是希翼使已知数据和拟和曲线的偏差的平方和最小,这就是最小二乘原理。
用最小二乘原理作为衡量“曲线拟和优劣”的准则称为曲线拟和的最小二乘法。
税收数据大致上是逐年上升的,因此可以选用一次线性函数作为曲线拟和函数。
设未知函数近于线性函数,取表达式
Z(x)=ov+b
作为它的拟和曲线。又设已知数据为。Q‘'1'…'a则数据点与拟和曲线的偏差为:
=+e>-rtu=n),
而偏差的平方和为
n
*1
根据最小二乘原理,应取a,b使F(a,b)有极小值,即a,b应满足如下条件:
竺竺=2£(3+八”处=0
oa/=i''
dF(a,b)_«,,、八
——^=2L(":+方力)=0
00i-l
即可解出a与b,确定拟和曲线的表达式。
线性拟和的算法比较简单,先求出X的平方和及的和,然后解上面
二元一次方程组,即可得a与b的值,将新点的x值代人
Y(x)=ax+b
即可得到新的Y值。
根据上面的算法,对一些2022年滨海六局实际税收总额进行了预测:
最小二乘法预测表
单位:万元,
2004年2006年2006年2007年2008年2009年2010年,20105-,
买际值其际面实际值•实际值实际值」实际脩倏则值,实际面
«
对应X转
2。3少5万6©7-
摘博
«
滨海六局
4312V50115^6668383757/11528*'111107*147901.141669c
税收总鼓C
表5.2滨海六局利用曲线撤台的最小二章法进行十页剜表"
3、相关与回归预测
在地税系统中,营业税、企业所得税、个人所得税的税收收人占有较大的比重,属于重点税种,所
以对这些税种进行预测,为领导提供决策的依据具有很重要的意义。这几个税种与一些经济指标有
密切的关系,比如,建造安装业营业税与建造业产值有密切的关系,企业所得税与利润总额有密切
的关系,个人所得税与劳动者报酬有密切的关系,因此,可用一元回归方程,从建造业产值预测建
筑安装业营业税的发展变化:从利润总额预测企业所得税的发展变化;从劳动者报酬预测个人所得
税的发展变化。
相关与回归预测法是分析因变量与自变量之间的相关关系,用回归方程表示,并根据自变量的数值
变化,去预测因变量数值变化的方法。其中,因变量就是要预测未来的税收收入,自变量则是与税
收收人有密切关系的一个或者几个变量,如国内生产总值、社会消费品零售总额、国民收人、价格
总水平等因素。
利用相关与回归预测法进行税收收人预测,普通有以下几个步骤:
第一,选自变量(即影响因素)。首先要分析自变量与因变量直接的相互关系,观察其相互关系表
现形式和密切程度,然后选用那些与因变量关系最密切的自变量。观察相互关系表现形式和密切程
度的普通方法是绘制散点图。
第二,确定回归预测模型。根据理论分析和相关分析,如果有多个因素同时影响税收收人,可以确
定用多元回归预测模型;如果其中某一个因素是起决定作用的,而其他因素影响只要不大,可以确
定用一元回归预测模型;如果税收收入与影响因素之间的数据分布是直线趋势,可确定用直线回归
预测模型;否则可确定用曲线回归预测模型。
第三,计算相关系数,说明预测结果的可靠程度。
一元线性回归相关系数的计算公式如下:0
立邛-y2>
x:-y'
式中n代表时间数列资料的项数。
相关系统介于-1和1之间,计算结果为正数表示正相关,负数表示负相关,零表示零相关优相关)。
判断自变量与因变量之间的相关程度,要使用相关系数检验表进行检验。即根据数列资料的项数n
确定相应的自由度,在一定显著水平a下(若概率为p,则,查相关系数表,取
临界值此("一2),若计算的相关系数的绝对值为固N则表明自变量与因变量之间
的相互关系最密切的,反之则不密切。
第四,利用回归预测模型进行预测。通过计算和检验相关系数后,如果税收收人与影响因素之间确
实存在着显著的相关关系,那末建立的回归预测模型就可以反映未来的发展变化情况,也就能够用
于预测。将掌握的影响因素数据代人回归预测模型,就可以求得税收收入的预测值。
第五,对预测结果做出置信区间估计。利用回归预测模型计算的预测值是一个具体的数,实际执行
的结果或者高于或者低于它。因此,必须指出预测值的范围和可能性大小,即要计算预测值的置信区
间。若给定概率p,则可求得预测值y的置信区间如下:
讯2(〃-2N
式中,a=1—P,称为显著性水平,2;为自由度。
根据显著性水平及自由度八-2渣t分布表求得。
s为标准差,一元线性回归s的计算公式为:
包一尤"卜-味
Y-2廿〃Z区-
1,税收收人实际值
税收收人预测值
n-为数列资料的期数
为自由度
为影响因素的实际值
x.为影响因素的平均值
“为需要计算置信区间的预测点的影响因素已知值
线性回归的预测模型为:
v-a+bx.
式中为因变量,即税收收入的预测值;X为自变量,即影响税收收入的因素;
一元线性回归分析的是一个影响因素与税收收入的关系,线性回归方程记为:
乂二。+好.
式中a,b为未知参数,要求得最佳估计值,就要使残差
e=S(>f-y):
达到最小,用最小二乘法a,b,使,因为Q是非负二次函数,它存在着极小值。分别取Q关于a,
b的偏导,并令其为0,有:
0=0
da
二0"
通过推导博出
a=y-bx
式中:
'—为影响因素的平均值
3—为税收收入的平均值
根据以上算法,预测滨海六局所属某企业2022年度企业所得税入库数。并己知2022年利润总额为
23960万元,该企业各年利润总额与企业所得税入库数额如下表:
2004年——2022年滨海六局某企业企业所得税入库数与利润总额表
单位:万元6
利MB.a料较收s
舞构,y.3,Cr-另’,
■)ACFJ
2004-9343,750-87291649"5625087007250-25310961^1110916*
2005^14027a1257219675672》1580049^17631939^120409P29920
2006・、1490A178&、222039801,、3186225^26598285、277729一36L,
2007<>liOOO*1171rB196000000,3L3290Q<21780000*,13987611D6<
2008-14163<
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位之间协议书
- 2025年广东广州市泰昌实业(消防工程)有限公司招聘笔试参考题库附带答案详解
- 2025年度个人房贷再担保合同标准范本4篇
- 2025年度个人车辆购置担保合同2篇
- 2025-2030全球狄氏剂行业调研及趋势分析报告
- 2025-2030全球黏性伤口护垫行业调研及趋势分析报告
- 2025-2030全球可擦除可编程只读 (EPROM) 存储器行业调研及趋势分析报告
- 2025年度个人网络安全防护解决方案服务合同2篇
- 2025版智慧社区消防安全管理合作协议3篇
- 2025年度个人住宅抵押贷款合同实施细则
- 2024-2025学年八年级数学人教版上册寒假作业(综合复习能力提升篇)(含答案)
- 大健康行业研究课件
- 租赁汽车可行性报告
- 计算机辅助设计AutoCAD绘图-课程教案
- 老年护理学-老年人与人口老龄化-课件
- 文化墙、墙体彩绘施工方案
- 初中化学校本课程
- 科技文献检索
- 元代文学绪论
- QUALITY MANUAL质量手册(英文版)
- 了不起的狐狸爸爸-全文打印
评论
0/150
提交评论