新代税务行业大数据服务平台支撑数据管税解决方案_第1页
新代税务行业大数据服务平台支撑数据管税解决方案_第2页
新代税务行业大数据服务平台支撑数据管税解决方案_第3页
新代税务行业大数据服务平台支撑数据管税解决方案_第4页
新代税务行业大数据服务平台支撑数据管税解决方案_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新代税务行业大数据服务平台支撑数据管税解决方案

新一代税务行业大数据服务平台支撑数据管税

解决方案

文档名称新一代税务行业大数据服务平台支撑数据管税解决方案

作者

邮箱

版本V1.0

变更记录2016/7/21V1.0

2016/7/24V1.2

目录

1总体业务需求分析与整体架构概览..............................................3

1.1新时代的税务管理要求....................................................3

1.2税务行业信息化建设现状..................................................5

1.3大数据服务平台整体架构概览..............................................6

2理论指导数据治理之需求与技术分析............................................9

2.1数据治理综述............................................................9

2.2定义业务问题,以指导方向...............................................11

2.3获得管理层支持,以获得组织与资源保障..................................12

2.4执行成熟度评估,以熟悉现状与确定将来所达目标...........................12

2.5创建数据治理路线图.....................................................14

2.6建立数据治理组织蓝图...................................................15

2.7创建数据字典/业务术语库................................................16

2.8懂得业务与数据.........................................................17

2.9创建元数据存储库.......................................................18

2.10定义度量旨标..........................................................20

2.11主数据治理............................................................21

2.12治理分析..............................................................22

2.13管理安全与隐私.......................................................23

2.14数据生命周期治理......................................................24

2.15度量结果.............................................................24

3理论指导大数据服务平台建设之需求与技术分析.................................25

3.1数据对数据管税的价值...................................................25

3.1.1数据对税务的价值分析.............................................................25

3.1.2税务数据价值实现分析.............................................................26

3.2数据挖掘方法论指导大数据服务平台建设..................................27

3.3按业务主题与规则采集、加工数据以打好数据基础..........................31

3.3.1数据采集平台.....................................................................32

3.3.2数据加工平台.....................................................................34

3.4合理利用各类报表工具,实现报表展现服务.................................37

3.4.1固定报表实现分析.................................................................38

3.4.2临时报表实现分析.................................................................39

3.4.3报表展示与可视化分析.............................................................40

3.5灵活使用数据,实现多维分析与微创新能力.................................42

3.5.1多维分析技术设计.................................................................42

3.5.2标签体系设计.....................................................................44

3.5.3微创新系统设计...................................................................46

3.6对内对外更好的数据共享与交换,扩充能力.................................47

3.6.1打破条线壁垒,实现数据共享.......................................................48

3.6.2实现数据流通,打通上下级与税务与其他部门的数据联系...............................49

3.7提供更好的开发模式,加速数据管税能力的提升.............................49

总体业务需求分析与整体架构概览

1.1新时代的税务管理要求

新一代税务行业大数据服务平台的总体目标是实现"数据管税,

新时代的税务管理要求是,以税收风险管理为主线,以现代信息化先进技术为依托,加强业

务与技术的融合,优化资源配置与税源管理体系,优化服务,规范执法,不断提高税法遵从度与

税收征收率,形成新一代税收征管新管理方式:

1)服务优化:税务管理部门的定位要从企业税务管理角色向企业税务服务角色转变,要利用

现代化手段进行税务管理工作,在减少对企业日常经营的干扰情况下,保证税务管理工作

的有效进行,成为纳税人与国家连接的桥梁;

2)以风险管理为主线:结合先进技术与创新管理手段,降低与防范税收风险,做到事前重点

防控潜在税收征管风险,事中降低税收征管风险,事后具备有效手段,查处偷漏税,营私

舞弊等违法行为;

3)数据实现省市县分级分类管理:将数据情报管理、税收风险分析、风险应对任务触、大

企业与跨境税源风险应对等重要管理事项集中调整到省局层面;市、县税务机关精简行政

管理职责,要紧承担直接面向纳税人提供纳税服务、实施风险应对的职责;

4)强化税源专业化管理,探索"两个转变":属地固定管户制到非固定管户制的转变,与无

差别管理到差别化管理的转变。

在新时代的税务管理要求下,不能继续使用原先传统方式解决问题,要使用新的技术来解决;

国家税务总局局长王军指出:"大数据时代,谁能掌握好数据、谁能利用好数据,谁就能提高洞察

力、占领制高点大数据最重要的作用是提供了实现税务管理由"税管员管"向"大数据管"转

变的技术基础。过去,由于受到技术、思维等多方面等的限制,人类在采集与使用数据时为了节

约时间,增加准确性,更多使用了随机采样法,这个时代被称之“小数据时代"。小数据时代的特

点是:样本随机性、数据精确、因果关系论、结果群体化。在大赚时代,数据收集、存储与分

析工具极大提升,这使得"样本=总体"的全数据模式得以实现,数据处理的总体特点变为:要全

体不要抽样,要效率不要精确,要有关不要因果。这颠覆了千百年来人类的思维惯例,对人类认

知与与世界交流的方式提出了全新的挑战。大数据时代中的税收管理也应当“顺应时势变化,及时

转变思维,提出创新举措。

目前,大数据技术要紧应用在电子商务、金融、零售等领域,在实现"通过数据寻找到更多

合适的客户、与给客户推荐合适的产品,实现精准营销,从而给企业带来更多的收入与利润"上

已取得长足有效的成绩;

税务行业的大数据所需要达到的业务战略目标与其他行业企业(比如电子商务、金融、零售

等)是有比较大的差异,关于税务来说,大数据所需要达到的目标的第一重点是"根据企业的生

产经营活动等各类数据,防止企业通过非法途径进行偷税漏税的风险管控,与通过相应的数据,

防止税务业务人员内部腐败的内部风险管控",通过这个目标来实现数据管税,以达到国家所需

要进行税务改革的这个战略目标。用大数据强化税收分析,对税收数据的分析应用将成为税务系

统一项常规的重要工作,数据管税需要达到下列目标:

(-)结合风险管理与大数据理念,将大数据税收征管模式与先进的管理理念相结合,利用

大数据技术与现有数据,对税务工作进行更好的风险管理:

1)结合大数据分析技术,让纳税评估更为准确:面对企业越来越复杂的经济业务,数量有限

的税务工作人员无法投入太多的精力去全面熟悉每一家企业的生产流程,通过对海量数据开展分

析,探寻,发现、懂得信息内容及信息与信息之间的关系,结合对企业的规模大小、对生产经营

活动成本、利润与税负率等指标的分析,对企业财务核算与纳税申报质量作出评判。

比如:在对纳税人、对税源的评估过程中,通过对纳税人或者者税源长期的登记信息、历史

交易记录、海关进出口信息、水电缴费与银行借贷记录等多种信息与特征测试的数据汇总,来进

行信用评级,从而使纳税评估更为准确;

比如:比对分析纳税人税收资质、应纳税(费)种的条件符合性、存在的风险疑点,跟踪分析后

续动态变化,对风险疑点进行评估处理,并依法据实认定、调整或者取消纳税人的税收资质、应

纳税(费)种;

2)融合第三方涉税数据,提高税法遵从度与税收征收率:结合纳税人登记信息,申报信息、

第三方涉税信息等数据,以大数据技术为基础,开展分析比对、风险识别、排序推送、风险应对,

加强业务内控与遵从风险防范。

比如,将从工商、银行与统计等部门,与互联网爬虫等途径获取的外部数据与纳税人申报数

据作比对分析,从而更为准确地推断税源状况,进一步通过税源附空、税收分析、纳税评估与税

务稽查等质量操纵手段,达到堵塞漏洞、纠正偏差与提高税收质量的目的。

比如:在纳税人申报房产、土地明细时,利用房管、土管等部门信息进行比对,推进"以房

控税"、"以地控税"、"车船税联网征收”等工作;

税源监控税收分析

税务稽查纳税评估

提供产■违法案件

3)尝试业务系统变革,进一步防范涉税风险,提高税收征收率:如将纳税人申报缴税系统、

收入系统、金融管理系统与财产系统等都纳入公民诚信系统,通过各个信息的比对,数据的分析,

管控纳税人的资金流、信息流、货物流与生产经营信息,形成以数据质量管理为基础的风险识别、

等级排序、风险应对与绩效评价的闭环风险管理体系,进一步防范涉税风险,提高税收征收率。

4)防控廉政,防范内部违法风险:通过优化流程、节点操纵与全程操作数据留痕,实现税收

执法权的透明操作、规范运行,从源头上防控廉政与执法风险。

5)通过纳税人画像,辅助管理:采集、处理、评价纳税人的信用信息,建立纳税人画像,建

立纳税信用体系,据此实施分类服务、管理,辅助数据情报管理、税收风险分析、风险应对任务

管理、大企业与跨境税源风险应对,同时还能够实现信用信息的共享。

比如:对信用好、无风险的纳税人不打搅,对低风险的纳税人予以提醒,对严重失信、高风

险的纳税人实施重点监管;

比如:关于异地税务机关评价的纳税高信用等级纳税人,本地税务机关予以认可,与本地高

信用等级纳税人企业享同等待遇;关于有违法记录的低信用等级纳税人企业,,本地同等监管。

6)建立风险特征库,自动预警防控:通过风险特征库与风险监控规则建立,预警预防偷漏税

风险;

比如:将"一址多照"、"一照多址”的纳税人列入重点关注对象,设计风险触发规则,防

范其虚开增值税专用发票、骗取出口退税等风险。

(-):充分利用广泛的数据开展税源分析,用数据说话、用数据改进管理、用数据推动创新,

不断提高运用大数据的技术与分析大数据的能力,解决工作中的新情况与新问题,提高税收工作

的针对性与有效性。

比如:实现根据相应企业所需要的税务管理与税务服务类型,来进行相应的税务业务人员任

务分配;达到简单的税务业务由办事大厅(比如实体的办事大厅、电子税务局)进行支撑,复杂

的税务管理与税务服务业务有专业的税务业务人员进行支撑,即实现由数据来给不一致的税务业

务人员分配相应的、合适合理的任务。

(三)加强宏观、行业与微观税负数据分析,加强税收政策、经济与税收关系分析,进一步

发现税收与经济之间的关系,从而更好地预测税收走势,科学估算收入规模,增强组织收入工作

的预见性。

1.2税务行业信息化建设现状

税务行业的信息化建设(金税工程)已经有近二十年的历史,由于技术进展的现实问题,同时

由于税务组织机构职能、业务管理、规范、流程等的复杂性(其复杂性远远超过电子商务,甚至

超过金融领域在信贷、风险、杠杆等三大核心'要素所需要组织机构职能、业务管理、规范、流程

等),税务信息化系统不可避免的存在较为严重的零碎化、数据孤岛、应用烟囱等现象,特别是建

立在《全国税收征管规范》基础之上的核心征管系统与其他各类生产业务系统,存在如下图所示

例的一系列问题:

①系统、数据来源多②原有业务系统停用③数据量大关联复杂

T造成数据使用杂乱一造成数据无法使用一造成应用效率低下

税务系统信息化建设中,最为突出与典型的问题包含下列三个方面:

1)数据杂乱:随着经济与技术的进展,出现越来越多的系统与数据。包含新建业务系统产

生的数据、随着云计算与数据中心建设出现在税务系统中的外部交换数据、传统系统历

史积存的数据等等。这些系统由于种种历史建设原因,存在使用的信息化建设规范不统

一、数据格式不一致、数据表达不连贯等种种问题。这些问题导致每个业务系统在建设

过程中,不信任已有的其他系统的数据分析结果,而选择从生产库直接获取原始数据进

行分析与加工。这导致了大量的业务系统在建设过程中"干重复活"、"走重复路"、"做

重复事"。严重影响地税工作效率。

2)系统各自为政:在江苏省地税信息化建设过程中,各业务系统由不一致的承建单位进行

建设,缺乏统筹规划,系统之间的打通困难,数据缺乏交互碰撞。"烟囱式”系统仍然普

遍存在。业务人员面对多样的系统,需要从不一致的业务系统中找到描述一个业务情形

的不一致阐述角度的数据,以全面、客观地分析业务问题。这极大地影响了业务人员的

工作效率。

3)关联复杂:地税行业涉及数据众多,各地市具体情况又不完全相同,各地市依靠于省厅

提供标准数据与业务模型,但在处理本地业务时会加入地方性特征的数据并对模型进行

修正。这造成大量的相似但是有区别的数据,使得开发人员在进行数据开发时陷入推断

相似数据准确性的困惑中,影响数据的可运维性与二次开发。

1.3大数据服务平台整体架构概览

在当前信息化现状的基础上,要达到数据管税的战略目标,需要建立以数据为核心,以大数

据技术为支撑的精确管理体系;基于税务组织机构职能、业务管理、规范、流程等的复杂性,我

们务必要通过进行前瞻性的研究,形成相应符合税务行业所需要的数据治理、数据分析挖掘所需

要的方法论体系,从而形成符合税务行业所需要的大数据平台,从而让税务行业沉睡的数据苏醒

过来、发挥价值、产生效益。

因此,对新一代税务行业大数据服务平台,整体架构概览如下图所示:

rmET用体察

•MAftxnflaMM

TO*tt«

・am

一军GHB

MMS--■

占rj

一■〃数据管税〃业务应用体系(大数据应用体系)

>税务人员工作流程与效率优化:税务改革往常是一个人管N多企业所有的情况,税务改革之

初很多人不明白干什么情况,因此需要通过大数据应用来给合适的人安排合适的情况

>发票分析:发票数据的应用分析,通过分析发票的数据信息,准确查找发票管理存在的问题风

险,有针对性的制定征管应对措施,准确打击发票使用中的不法行为,切实促进发票管理的遵从,

实现以票管税、信息管税的目标

>纳税人信用评估:在税务大数据服务平台提供的数据与在数据衍生出来的法人画像、自然人

画像等能力的基础之上,评价纳税人的信用信息彳导出纳税信用评价结果,据此实施分类服务与

管理。同时与地方政府及有关单位征信平台对接,实现纳税人信用信息在各部门间的共享利用

>纳税人服务流程优化:税务改革往常是一个人管N多企业所有的情况,企业没得选;但是现

在针对一个纳税人服务有很多环节,不一致环节对应的是不一致税务工作人员;因此我们需

要根据数据来给企业在不一致环节中提供合适的、专业的税务人员提供服务,从而让企业满

意让国家满意

纳税人风险管控:通过相应的纳税人画像与相应的其他数据,来防止企业通过非法手段进行

偷税漏税等,同时能够起到警示作用

>税务人员操作性风险管控:通过相应的数据能够抓出内部的腐败份子给国家所带来的缺失与

伤害,同时能够起到警示作用

>收入与税源分析:通过相应的数据分析能力,从而让国家的税收任务更好的完成同时对企业

不可能产生更大的干扰。

>其他:泛指各类没有说明的税务大数据分析应用。

二、税务大数据服务平台

税务大数据服务平台不是一个技术平台、更不是一个只具有一个技术功能点集合的平台,此

平台是一个大数据应用支撑平台,即需要加速税务数据管税所需要的各个大数据应用能力的开发

效率、开发质量的平台,也是一个能够沉淀出税务行业所需要的各个大数据业务应用所需要的各

个能力资产以形成能力中心的平台。

2理论指导数据治理之需求与技术分析

2.1数据治理综述

随着税务信息化建设的深入与大数据技术的不断进步,我们需要让沉睡在各个业务系统中数

据发挥出更多的价值、让数据说话以实现数据管税;同时我们已经深刻地认识到我们的税务数据

我们税务关键的资产之一,就类似于关于企业中的最关键资产是人力、资金、物资(工厂、设备)

等一样。

将数据视为战略性税务资产,意味着我们的组织需要建立其现有数据的清单,就像建立物理

资产的清单一样。而数据治理是以企业资产的形式对数据进行优化、保护与利用。

数据是税务最大的价值来源也可能会是最大的风险来源。糟糕的数据治理常常意味着糟糕的

业务决策与提供给违规(内部税务工作人员的违规,外部企业逃税的违规)更大的暴露面,我们

必定需要通过良好的数据治理来提高数据质量(比如提高数据的可信度、完整度、可用度等),从

而提供较好的业务决策与减少、操纵违规等。

数据治理注定会是一项复杂的工作,涉及到对组织内的人员、流程、技术与策略的编排,从

一开始,数据治理就在协调不一致的、孤立的且常常冲突的策略(可能导致数据特殊)的过程中扮演

着重要角色。

在这么多年的信息化建设中,我们发现数据质量问题要紧受"业务、管理、技术”这三个方面

的影响,同时要紧由下列几大影响因素所决定:

>缺乏科学、规范、完整的数据质量标准,同时在系统开发与实施过程中忽视数据质量:关于

这方面的问题,我们务必建立全局数据模型(包含数据源视图与数据流视图\统一的数据标

准与数据口径,从而供各个应用开发团队在工作中遵循与参考、目让各个应用开发团队对税

务信息系统有一个整体认识,以减少数据源调用错误与建立重复蝇源的情况发生,影响数

据的一致性。如下图所示例:

企业数据模型到某应用级的数据模型

>缺乏统一与全面的纳税人数据

>数据多头重复采集、没有统一规范检险

>缺乏系统的数据质量管理机制与监控管理工具与手段:在这方面,除了技术原因外,很多是

业务、管理方面的问题,因此我们在业务、管理方面制定相应的流程,即需要使用较为成熟

的闭环的数据质量管理方法与相应配套的数据治理软件平台,对数据的质量进行持续的监控

与管理,及时地清除系统中的垃圾数据,减少隐患的产生。

综上所述,数据治理是大数据服务平台建设成功的核心基础与因素,没有好的数据治理会使我

们的大数据成为空谈。因此我们需要形成相应的数据治理参考流程来指导我们税务数据治理的建

设,从而给大数据服务平台的建设打下一个成功的基石。

数据治理建议参考流程如下图所示,同时这个数据治理流程是一个闭环、不断优化的流程。

2.2定义业务问题,以指导方向

数据治理是我们大数据服务平台建设是否成功的关键因素之一,数据治理失败的根源是缺乏与

业务价值的链接,与通常单纯的把数据治理当作是IT部门的事等因素。因此为了保障我们税务的数

据治理能够比较成功,我们务必保证:数据治理要能支持"数据管税"这个战略目标实现业务价

值与解决业务问题,并需要制定下列所建议的准则:

首席数据

治理官

1)数据治理务必由业务部门所需要的业务价值与效益为驱动;

2)数据治理务必由业务部门、信息科技部门、第三方厂商与应用开发商等多方参与;

3)数据治理务必获得江苏地税管理层的支持,任命首席数据治理官;首席数据治理官负责统一管

理与协调多方(业务部门、信息科技部门、第三方厂商与应用开发商等)力量进行数据治理工

作,以保证支撑"数据管税”实现的各类业务能力所依靠的数据是"可信、可用、完整”等。

4)数据治理是一个工程项目,需要一个专业的业务人员、专业的技术人员构成的团队,根据所需

要解决的业务问题及从实现相应的业务价值出发,借助对业务的懂得分析与对技术的懂得分析,

并在专业的产品支撑下,比如数据集成平台(采集、ETL等I数据治理平台(元数据管理、主

数据管理等等),才能够做好数据治理的有关工作。

5)数据治理是一个长期计划,而不是一个短期目标;我们是需要不断地投入相应地金钱、人力资

源才能够完成与不断的演讲与优化。

2.3获得管理层支持,以获得组织与资源保障

数据治理的最终目的是为了提升数据质量,让数据变得更加"可信、可用、完整";只有较高

质量的数据才能让数据说话,以达到税务管理与税务改革所需要"数据管税”这个目标;因此数

据治理是牵涉到税务各个业务部门、信息科技部门、与各个业务系统的应用开发商与产商的情况。

这就使得获得税务管理层的支持是一个非常关键核心的因素。要保障数据治理工作的顺利开展,

税务管理层需要给予下列组织与资源保障:

1、成立数据治理工作组

此虚拟组织的成员需要有来自税务有关业务部门(比如征管与科技进展处、规划财务处、数据

管理处、纳税服务处等1核心业务应用系统的开发商(比如征管系统的开发商、发票管理系统的

开发商、电子税务局系统的开发商等I大数据服务平台的开发商等有关的业务人员与技术人员构

2、获得有关方高层的支持

需要获得税务局管理层、有关业务部门的管理层、有关应用开发商与产商的高层支持;特别是

税务局管理层的支持。

3、确定数据治理的负责人

设立首席数据治理官,此职务需要在税务管理层的支持下进行任命;由他来统一管理与协调多

方(业务部门、信息科技部门、第三方厂商与应用开发商等)力量进行相应地数据治理,以提高

支撑"数据管税"实现的各类业务能力所依靠的数据是"可信、可用、完整”等

2.4执行成熟度评估,以熟悉现状与确定将来所达目标

如图是数据治理成熟度评估模型,按照如图所示的类别,对当前的税务数据治理成熟度进行

评估,从而得出我们税务数据质量的当前所处状态,与期望通过专业数据治理后需要达到的

状态。

这11个数据治理类别能够分成4个相互关联的组:

1、成果:数据治理计划的预期结果。即在数据风险管理与合规,与价值创建方面需要达到相应

的目标,并为“数据管税"所需要的数据能力提供"可信、可用、完整"的高质量数据支持。

2、促成要素:数据治理需要合适的策略、合适的数据照管(即首席数据治理官所带领的团队所发

挥的作用\良好的组织结构(数据治理工作组)与认知(数据治理工作组对数据治理要做的情况

与所能表达出的业务价值有共同的认知X

3、核心准则:一个能达到相应业务价值的成功数据治理,必定需要实现一个满足业务要求、技术

要求的数据质量管理、数据生命周期管理、数据安全与隐私等方面所需要的软件产品与相应的经

验能力。

4,支撑准则:要进行数据治理,我们务必建立一个较为合适、完整、可用的数据架构体系用来指

导数据治理与相应的数据应用的设计与开发,同时需要建立相应的分类与元数据与相应的审计数

据日志与报告。

我们对上述4个相互关联的组中的11个数据治理类别,定义相应的能力成熟度模型(参考CMM),

即现在的能力成熟度,通过这次的大数据服务平台的长期数据治理建设后,所需要达到的能力成

熟度模型。下图是我们的一个建议:

初始级可重短级已定义级已管理级优化级

2016年当2017年将要达

前状态到的状态

上图阐述了当前(2016年)对税务数据治理在11个类别中所处的状态,与通过1年(12个月/18个

月)数•据治理后所需要达到的状态;同时在后续不断的数据治理过程中最终达到第五级。

2.5创建数据治理路线图

数据治理路线图的开发要紧通过下列三方面来进行

1、总结数据治理成熟度评估的结果

即在执行成熟度评估,以熟悉现状与确定将来所达目标此章节所做的情况的产出的基础上,

业务部门、信息科技部门、第三方(信息科技技术产商、应用开发商)在首席数据治理官的统筹

安排下进行相应的评估,即对当前状态的评估与将来想要达到状态的评估,与当前状态与将来想

要达到状态之间的偏差等;通过评估来决定后续的工作。

2,列出填补评估中强调的差距所需关键人员、流程与技术计划

这个环节非常关键,为了说明这个,我们通过下面的例子说明。

人员技术

•建立聚焦在“数据管税"所需•需要建立重点关注在数据治理•实现数据治理平台,提供数据

要达成的业务价值的数据治理领域所需要牵涉到"原则、策地图、数据标准和数据模型管

工作组.络、规程、业务规则和度量指理、数据质量管理、数据脱敏、

标”等完整的工作流程元数据管理、主数据管理等能

•成员来自税务相关业务部门力

(例如征管和科技发展处、规•梅定数据治理所需要的研发团

划财务处、数据管理处、纳税队、服务团队的人员、技能、•实现数据集成平台,从而能够

服务处等)、核心业务应用系工作内容、开发和实现计划等采集到更多的、更全面的数据,

统的开发商(例如征管系统的完整的工作流程并且通过相应的斓加工(ETL)

开发商、发票管理系统的开发对数据进行清洗;从而可以积

商、电子税务局系统的开发商累出更多、更全面、更完整、

等)、大数据服务平台的开发•选取一个业务案例(例如纳税更可用的数据

商等相关的业务人员和技术人人信用评估)来验证数据治理

员.的合理性•提供机器学习算法,来提高数

据加工(ETL)的效率和质量以

•设立首席数据治理官以及相关•定义关键度量指标来监控数据降低人工干预所带来的工作量

的具体人员,重点关注在“法治理计划的执行

人、自然人、发票、风睑、税•提供更好的可视化能力,让我

务机构、法规等"这几大领域们更好地可以在数据地图中查

的数据看、编辑相应的数据血缘等能

\7y

3基于关键计划的优先级创建路线图

基于上面所示的内容制定一个时间周期为12-18个月的数据治理计划路线图,并在过程中对相应

的数据治理效果与相应的能力进行监控。

•通常来说务必先进行数据治理工作组的成立,与有关人员的进入,然后任命首席数据治理官。

•建立数据治理领域所需要牵涉到"原则、策略、规程、业务规则与度量指标”等完整的工作

流程。

•确定数据治理所需要的研发团队、服务团队的人员、技能、工作内容、开发与实现计划等完

整的工作流程。

•选取相应的业务案例来验证数据治理的合理性与定义关键度量指标来监控数据治理计划的执

行。

•实现数据治理平台与数据集成平台,并利用机器学习与可视化能力来提升数据治理平台与数

据集成平台的能力与质量、效率等。

2.6建立数据治理组织蓝图

建立数据治理组织蓝图要紧由下列几大部分构成

1、定义数据治理章程

数据治理章程类似于企业的公司条例。该章程阐明数据治理的要紧目标、及其关键利益有关者

(比如各个业务部门、税务管理层等\

2、定义数据治理的组织结构,并建立数据治理委员会、数据治理工作组、数据治理开发与服务组

数据治理的最优组织结构是一种3层结构。数据治理委员会,位于组织的顶点,包含高层利益有关者。

下面的一层是数据治理工作组,由负责定期治理数据的成员构成。最后,数据治理开发与服务组负责

每天实际处理数据。

取掘*oia员会

收揖治理工作ta

畋据治理开发和阳财组

3、举行数据治理委员会与工作组定期会议

数据治理委员会举行会议来设置数据治理策略,跟踪数据治理计划的所产生的业务价值与效果。该

委员会(包含高层领导)定期会面,但不一定是经常会面。典型的会议安排为每月或者每季度举行一次,

持续一两个小时。

2.7创建数据字典/业务术语库

不一致应用开发商或者者不一致的业务人员都会对相同意思的词语产生不一致的描述词,比如关

于性别的描述,有些应用开发商在系统中定义为"男"、"女"、"未知",而有些应用开发商

在系统中定义为"1"、"o","1";关于客户的描述,有些业务人员认为是“企业”,有些

业务人员认为是“自然人";关于纳税人信用等级A的描述,不一致业务人员的懂得都会是不一

样的等等。

因此我们务必进行统一的数据标准与数据口径,即我们需要建立数据字典,实现业务元数据与业

务词汇的定义有关联;数据字典(或者业务术语库)是一个存储库且是一个系统(包含了相应的批量

导入、录入、修改等能力),包含将业务与IT的共同定义集中在一起的关键词汇的定义。税务务必

部署数据字典来确保业务词汇在上下文内良好定义,从而能够让我们的数据加工、数据的挖掘与

分析、数据的展现变得更加可信、完整、全面、一致,只有这样才能更好的支撑数据管税。

数据字典的创建牵涉到下列几个重要的步骤与相应的核心能力:

1,选择一个数据领域。

我们务必选择一个领域,比如针对风险管理所牵涉到的法人、自然人、发票、税务机构等来进行。

2、确定相应人员来保护关键业务词汇

我们需要选择相应的业务人员、技术人员来保护关键业务词汇。

3、识别关键数据元素

这方面的工作我们务必要让业务专家/业务架构师帮助我们找出关键数据元素

4,创建、填充与丰富数据字典

假如我们已经有了相应部分的词汇术语表的话,则把这些输入或者者导入到数据字典中。假如没

有的话我们需要进行相应的手工录入。

5、链接业务词汇与技术组件

我们就业务词汇达成一致后,我们需要由相应的以数据架构师为Lead的技术团队建立相应业务词

汇与技术组件(比如数据库的某张表与列1这样的话业务人员就能够通过业务词汇来下钻寻找相

应的技术数据源与数据,由于我们一定要牢记一点就是业务人员只关注业务词汇,他是不懂什么

数据库的表名与列名的。

6、支持数据治理审计、报告与日志需求

业务术语总是容易变化。今天的"纳税信用等级A"的定义可能在明天又不一致。随着业务需求不

断演化,一个词汇的可同意定义也会变化。能够熟悉更换历史、更换的内容与执行更换的人,这与更

换本身一样重要。

7、整合数据字典与有关的数据应用与业务应用

业务人员在操作一个数据应用或者者业务应用的时候,遇到了一个含义模糊的词汇或都豆语。他

不确定这个词汇是如何在税务组织内定义或者使用的。因此我们务必使数据字典能够提供一个非

常容易的访问入口,让业务人员能够快速的查找该业务词汇是如何定义或者使用的。

2.8懂得业务与数据

关于业务懂得,我们需要站在税务业务的角度,去比较深入的懂得《全国税务征管规范》所

介绍的"税务登记、认定管理、申报纳税、税收优惠、税额确认、税款追征、税务检查、违法处

置、争议处理、凭证管理、信息披露"等业务核心生产环节中所牵涉到的服务对象、所需要输入

的数据、输出的数据、所要实现的逻辑等等;同时我们还非常需要借助对税务整体业务现状与将

来税务改革所带来的业务变化具有很好懂得,且具有前瞻性的税务专家与税务业务架构师的帮助。

只有通过这些,我们才能对税务的整体业务流程中的关键环节、关键问题、关键诉求、关键数据

有一个全局性、前瞻性的懂得,同时使我们关于拥有什么数据,它们位于何处,与它们在系统之

间如何关联等,会有I;匕较深的懂得,同时也能给出需要新增什么关联的建议,来帮助建设以“数

据为核心"的整个大数据体系对业务发挥出价值与效益,最终达到“数据管税”这个目标。

关于童得数据,我们需要进行下列的几个要紧步骤与提供相应的能力:

1、数据源管理功能

即:懂得我们所需要的每一个数据源,同时需要对这些数据源都要管理起来,关于每个所需要懂

得的数据源,我们需要实现下列的几个能力:

1)执行列与表级别分析:关于表级别分析,需要从数据源中有关表的主外键的关系,找出表与

表之间的关系(即能够生成ER图);列级别分析包含有关数据源中每一列的基本统计数据,比

如自动生成统计数据,比如隐含的数据类型、模式频率、值频率、长度频率、比例、格式、

基数、空计数、最小值、最大值、长度与精度等;

2)识别每个数据源中的关键数据元素,关键数据元素是建立跨所有数据源构造一个大数据服务

平台的统一数据模式的不错起点;

3)识别每个数据源中的敏感数据元素,敏感数据元素是我们建设数据安全与隐私的Y不错起

2、懂得数据源之间的关系

懂得一个数据在从一个来源传输到另一个来源的数据血缘(或者者地图)的联系非常重要:

1)懂得关键数据元素在各个数据源之间的数据重叠:这个是保证数据一致性、可用性非常关键

的一点;

2)发现数据相应的数据血缘与复杂转换逻辑;

3)发现数据不一致性与特殊。

2.9创建元数据存储库

元数据是描述数据的数据(DataaboutData),可懂得为比通常意义的数据范畴更加广泛的数

据,不仅表示数据的类型、名称、值等信息,还提供了数据的上下文描述信息,比如数据的所属

域、取值范围、数据间的关系、业务规则,甚至是数据的来源等。元数据能够帮助管理员与开发

人员非常方便地找到他们所关心的数据,元数据是描述分析型应用内数据的结构、建立方法及流

程的数据。

举个例子来说明,假如没有合适的元数据,我们将无法证明,数据分析报告,或者数据可视化

展示的内容,或者数据报表中的特定字段源于一个特定的数据集市,该数据集市又来自企业数据

仓库,最终来自一组后端数据源,与证明它们之间的所有数据转换;假如我们不明白业务报表与

数据分析报告中看到的信息是如何集中在一起,通常不敢对业务报表与数据分析报告中的结果产

生信任;也就是说,假如没有合适的元数据,我们的数据资产可能无法识别、不受信任与甚至不

适用。而通过元数据这种实现记录数据转换的过程的数据,记录数据来源的数据,让我们的数据

资产可被识别,被信任。

因此,我们务必要建立元数据存储库与元数据管理系统,对元数据进行规定与管理。

在大数据服务平台项目中,可将其按用途的不一致分为三类:技术元数据(Technical

Metadata\业务元数据(BusinessMetadata)与管理元数据(ManagementMetadata\

•技术元数据:技术元数据是描述数据分析中技术领域有关概念、关系与规则的数据,要紧

包含对数据结构、数据处理方面的特征描述,覆盖数据分析过程中涉及到的数据源、数据

仓库与数据集市、ETL、OLAP、数据封装与前端、可视化展现等全部数据处理环节;技

术元数据对技术人员进行数据分析型应用的开发能发挥重大的作用;

•业务元数据:业务元数据是描述数据分析中业务领域有关概念、关系与规则的数据,要紧

包含业务术语、信息分类、指标定义与业务规则等信息;这方面是用来支撑主数据管理,

核心应用系统建设的关键。业务元数据要紧从数据字典中生成。

•管理元数据:管理元数据是描述数据分析中管理领域有关概念、关系与规则的数据,要紧

包含人员角色、岗位职责与管理流程等信息。

元数据管理系统需要根据下列步骤,具备下列相应的能力:

1、链接业务元数据与技术元数据

在元数据管理中,需要实现相应业务元数据(要紧从数据字典中生成)管理与技术元数据管理;

业务元数据与技术元数据的分离会让业务团队与技术团队产生巨大的隔阂,因此我们务必要实

现业务元数据与技术元数据的链接甚至合并。

2、实现以元数据驱动的数据地图

数据风险管理需求与合规性需求影响着税务组织管理它们数据的方式,比如一个税源分析报告

中,我们需要证明数据的来源,它流经何处,与它在税务相应的环节中传输时通过了何种转变,

这样才能证明数据是可信的、可用的,也证明这个分析报告也是可信可用的。因此我们要建立一

种以元数据驱动的数据地图来回答"此数据来自何处?”、"此数据去向何处?”与"在此过程中它发

生了什么?"等基本问题。

3、实现与执行"影响分析"

懂得对一种数据的更换对其他数据有何影响的能力称之"影响分析"。数据治理需要确保业务

人员、技术人员能够检查与一个对象(比如一个纳税人分析报告)有关的所有关系,继而在创建

任何更换之前,评估与减轻更换带来的风险。考虑到在开发生命周期中不可避免地会引入更换,

因此"影响分析”的能力将帮助税务能更有效地治理数据。

4、实现技术元数据之操作性元数据管理

在我们实现的大数据服务平台中,将会存在大量的数据计算任务(如离线计算任务、流计算任

务等),来完成相应的数据加工(比如ETLI数据挖掘(比如机器学习)等,从数据治理角度,我

们务必要明白这些数据计算任务在哪个环节失败、重试次数、某些数据行丢失、何时开始何时结

束等等。因此,我们需要通过实现技术元数据的操作性元数据管理来实现管理。

2.10定义度量指标

数据治理的工作要紧集中在人员、流程与所采取的技术上,几者都是无形的。因此,拥有协商一

致的度量指标或者关键绩效指标(KPI)集关于度量与监控数据治理计划的进度很重要。

定义相应的度量指标要紧有下列几个要紧步骤与所需要实现的能力

1、懂得业务的整体KPI

懂得业务整体KPI至关重要,江苏地税整体的KPI与地税各个业务部门(比如数据管理处、征管

科技处、纳税服务处等)的KPI是不一致的;这种KPI的懂得与定义是业务强有关的。

2、定义数据治理的业务驱动KPI

数据治理的成功表达就是是否能够符合业务部门所需要的业务价值,因此需要根据江苏地税整

体的业务目标与各个业务部门的业务目标来定义数据治理相应的业务驱动KPI。

3、定义数据治理的技术KPI

数据治理的技术KPI,用于度量数据治理技术工作方面的进度,比如元数据、归档、大数据应

用能力中心、安全与隐私、数据审计等。

4、实现数据治理成熟度评估的仪表盘

此仪表盘一个数据可视化界面,直观显示执行成熟度评估,以熟悉现状与确定将来所达目标所

描述的11个数据治理成熟度类别的每一个的实际评分、目标评分与偏差等。通过数据治理成熟度

评估的仪表盘,直观度量与监控数据治理计划的进度,并能根据实际情况,进行适当的数据治理

计划修正或者调整。

2.11主数据治理

主数据是在多个税务系统之间共享的基础数据,如:法人、自然人、税务机构、法规等。

目前这些基础数据,每一类数据大多都同时分布在多个应用系统当中,数据由各个应用系统独

自保护与操纵,这样就容易造成了系统之间基础数据的不完整、不一致,甚至不准确的情况。而

且系统之间基础数据的同步机制也不完善,同步不及时、同步的过程无法监控,出现问题难以发

现。由此引发数据不可信,与数据分析不可信的结果。

为此,务必要建立一个统一主数据管理系统,实现:

•主数据集中存储:对分布在各个系统中的基础数据进行集中存储;

•数据同步机制:建立系统之间基础数据的同步机制,保证各个系统之间的数据变化能被及

时的E艮踪与记录,保证这些基础数据在生成、传递、变更、存储、利用过程中的唯一性、

完整性、准确性、及时性;

•统一管理:通过一个统一的主数据管理平台,实现数据统一入口、统一校验、统一存储、

统一分发的主数据管理模式;

•提高数据及数据分析准确性与可信性:主数据的准确性能够极大的提高,同时提高有关的

业务数据分析的准确性、可信性与一致性。

主数据管理系统的要紧建设内容应包含:

■主数据所依靠的数据字典

・主数据模型建设:概念主数据模型建设、逻辑主数据模型建设、物理主数据模型建设。

■主数据所依靠的元数据建设:要紧是业务元数据的建设、包含部分的系统元数据建设

(比如技术元数据建设、管理元数据建设I

■主数据形成建设:在主数据模型与元数据的基础上,通过相应的数据集成平台(比如采

集与ETL)或者相应的人工方式,从各个系统中采集、转换数据,形成相应的主数据。

■主数据服务建设:根据主数据模型所覆盖的主题域(如法人、自然人、税务机构、法规

等),形成主数据服务,供相应的数据应用或者者业务应用使用(使用方式包含直接查询、

主数据同步分发等)。

税务纳税人主数据所包含的要紧内容如下表简要示例所示:

类别数据内容

纳税人基本信息纳税人识别号、纳税人名称、登记注册类型等

纳税人基《出状态信息纳税人登记状态、增值税通常纳税人资格、纳税人信用等级、防伪税控纳税人资

格、出口退税纳税人资格、是否具有其他资格、定期定额征收、减免优惠标志、

稽查案件未结、违法违章未处理等

共享代码

2.12治理分析

各个业务部门使用了不一致的数据,创建了业务分析报告与各类报表,但是信息科技部门、业

务人员、应用开发商并不总是明白来自数据仓库的数据是如何使用与加工的。因此我们通过大数

据应用能力中心(BigDataCC)来解决这些挑战。

下述是与治理分析有关的一些任务步骤与一些所需要具备的能力:

1、定义大数据应用能力中心的目标

尽管技术(比如大数据技术),总是具有驱动业务转型(比如驱动税务改革)的潜力,但纯^卒

从技术能力去驱动的话,将会受到组织内部、应用开发商、业务漏呈等各类障碍。组织、业务的

复杂性、与需要实现的功能的紧急性等,导致了现在在税务中实施商业智能(BI)、绩效管理与数据

仓库解决方案基本上是烟囱式实现。此情形已导致整个解决方案的管理、交付与履行中的技能零

散的总体不一致性。

因此我们需要站在能够帮助到业务部门实现业务价值,从而达到数据管税的目标这个角度去来

定义大数据应用能力中心的目标,让业务部门能够体会到大数据技术是实实在在地能帮助到他们

的,而不是让业务部门对大数据技术产生一个“空中楼阁"、"忽悠"的印象。大数据应用能力

中心需要具备什么具体的能力,需要由业务部门与信息科技部门与第三方技术与应用提供商一起

讨论与确定,通过这些能力的确定,来决定我们到底需要什么大数据技术与确定对数据治理所能

带来的价值的一个治理分析。

2、准备验证大数据应用能力中心的业务案例

做好数据治理,以打下良好的数据基础,从而支撑大数据服务平台与相应大数据应用,是一个

长期过程,通常情况下,管理层迫切需要在较短的周期内,就想看到投入大量的金钱能带来回报,

因此我们需要从业务需求角度,梳理出合适的业务案例,通过这些业务案例,分析出具备共性的

大数据应用能力中心的有关能力,这些能力能够被注册以被共享;从而能够被相应的业务人员进

行订阅使用,这必定将提高业务人员的使用率、满意率与业务人员的创新意识。

3、确定大数据应用能力中心的组织结构

大数据应用能力中心的能力是需要能够被各个业务部门所共享、不断演化创新进步的,因此大

数据应用能力中心是需要得到各个业务部门领导与与各个业务部门所需要的数据应用的支持的,

这样大数据应用能力中心才能变得越来越强大,也驱动着数据治理的不断优化、演进。

4、协商大数据应用能力中心的关键功能

需要各个业务部门、信息科技部门、第三方技术与应用提供商等进行协商与分析,来确定出

大数据应用能力中心所需要具备的关键功能,与大数据应用能力中心所需要的咨询建议、沟通与

推广措施、大数据技术架构、业务与支持能力、对数据治理的调整等等。

2.13管理安全与隐私

管理安全与隐私是数据治理中非常重要的环节,它要紧包含下列几个重要的关键任务步骤与能

力:

1、与关屣利益者协调一致:关键利益者要紧包含相应的管理层、业务部门有关领导与业务人员、

有关的技术团队(比如数据架构师、安全架构师等等)人员;

2、建立税务数据安全与隐私架构蓝图:这个蓝图的建立需要业务人员与技术团队,特别是数据架

构师、安全架构师从对业务的懂得,与从数据存储、处理、流转等流程的角度去考虑、分析、设

计与实现;

3、加强数据变更操纵:要紧是记录下相应的线索,通过对线索数据的分析,以识别未被授权的数

据变更行为活动;

4、定义、发现、分类与标记敏感数据;

5、加密敏感数据:要求传输中的敏感数据需要被加密,以防止被网络窃听;根据业务场景的要求,

决定是否需要对敏感数据的存储进行加密。

6、保护非生产环境中的敏感数据:假如在测试、开发、培训环境中包含了税务方面的敏感数据的

话,这将会带来一定的数据风险管理与合规性问题,因此我们需要相应的数据脱敏能力,使得在

测试、开发、培训环境中的敏感数据都是通过脱敏处理的;

7、防止恶意者对数据的攻击:比如现在的SQL注入、撞库等手段都是为了盗取相应的数据,我

们需要相应的安全手段去防止恶意者对数据的攻击。

2.14数据生命周期治理

数据生命周期治理指的是一种基于策略的数据架构、分类、收集、使用、存档、保留与删除

方法,使我们能够操纵与管理数据的寿命,实现数据从产生到销毁的全过程规范管理。数据生命

周期治理的目标要紧需要达成下列几个:

1、通过规范数据的生命周期,提高数据的整体管理水平

2、优化数据存储结构,有效操纵在线数据规模与降低成本,提高要紧与核心业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论