




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国海关督察内审司审计领域大数据项目管理项目设计(草案)
序为促进大数据创新及技术应用在中国重要行业的推广和应用,结合中国海关督察内审司大数据项目的实际需求,结合清华大学课题组历年的研究成果,作大数据概要设计(草案)
目录一、项目背景 4二、目前面临的问题 5三、针对问题的解决方案以及背景支撑 63.1数据的去条形化管理 63.1.1使用数据仓库的优势 73.1.3背景支撑:福建渔业渔政大数据中心 103.2数据整合处理 123.2.1建设元数据管理平台的重要性 123.2.2背景支撑:标准元数据的大数据管理平台 143.3增强信息监管 173.3.1 日志管理系统的重要作用 183.3.2 背景支撑:海军安全项目 22
一、项目背景随着经济全球化发展,中国对外贸易量迅速增长,海关作为国家进出关境的监督管理机关,其进出口监管业务量及进出口征税额也随之迅猛增长。与此同时,给海关业务执法领域与非执法领域各项工作带来了更大的执法风险和廉政风险。这些均对海关内部监督工作的重要组成部分———内部审计提出了新的挑战。伴随着社会信息化管理水平的提高、海关征管模式的发展以及审计人员对海关审计认识的逐步加深,海关计算机审计研究和发展的环境将得到不断的改善,审计的内容和领域将更加广泛,审计的技术手段和方法也要同步先进化。海关审计信息化,实质上是利用海关业务电子数据之间内在的或者外在的各种因果逻辑关系和时间顺序关系、内容数量包含关系等非因果逻辑关系,对海关业务进行抽象、建模,并通过审查模型在实际业务管理中是否成立的方式发现疑点和线索。因此,认真研究海关业务数据的含义、特点和彼此之间的规律,是开展海关审计信息化的关键。目前,审计人员主要是总结以往的审计经验,将审计经验转化为对相应电子数据含义、特点和规律的掌握。为此,我们重点研究海关内部执法监督工作制度,海关系统内部审计工作制度,海关管理审计工作制度、财政财务收支、基建、采购,以及常规督察审计、专项督察审计的组织实施方法。在此基础上,结合课题组大数据研究的成果,构建一套满足审计业务、管理和决策支持的应用系统,一套满足审计业务开展的数据资源,一套推动审计信息化建设的管理机制,一支适应信息化建设的审计人才队伍,达到以信息化手段实现审计监督工作“全覆盖”,实现审计业务开展、过程管理信息化、智能化。最后,为了实现海关基础数据资源互联互通,需要丰富海关执法相关领域基础数据源,打破部门之间存在数据壁垒,实现缉私行政执法数据、稽查数据、监管场所信息、口岸单位数据等的关联比对,打破目前各关区之间的数据壁垒,实现对不同关区数据的横向比对分析,推行国务院建议的“把握总体、突出重点、关联分析、精准延伸、系统判断”的数字化审计方法,发挥大数据的整合优势。并且引入海关现行通用财务管理、罚没财物管理、固定资产管理等现有信息系统的基础数据,实现“财”与“物”的联动比对和对碰分析。还要推动海关对物资采购、基建修缮等领域信息系统的开发建设,实现财务管理、政府采购、基建修缮、资产管理的横向联动分析以及总署-直属海关-隶属海关三级纵向联动分析。最终建立“多专业融合、多数据关联、多视角分析、多层级关联”的集约化运作机制,提高海关审计大数据的处理、分析、挖掘的质量。二、目前面临的问题当前亟待解决的问题:目前海关内部关于数据的管理条形化过重,模块化管理设计不合理。主要原因有以下几点:数据无处不在:数据量十分庞大,拥有众多的数据源,但是各种数据被锁定存储在各个不同的系统当中,收集集成起来有着很大困难。数据的正确使用:当前的信息系统是面向各个部门系统的应用层面的建立的,其数据的组织仅按照具体的应用处理来划分,并不适合督察内审司的业务以及决策分析。数据分析效率低:针对各种数据的整理分析没有聚合、实时的信息视图,将大量的时间花费在整合数据上。无法通过可视化以及先进的科学方法对数据进行分析和展示。数据的可追溯性:各个海关部门的数据库主要关心当前某一个时间段内的数据,而审计业务通常需要历史信息。通过对各部门的数据的整理,可以得到相当大的数据集,这是对数据进行分析以及建立大数据模型的基础。但是建立大数据模型仍然面临数据质量等问题。在建模的过程中,将这些概念映射到数据模型时缺乏统一的认识标准,会产生不同的抽象标准和约束理念,现有的系统无法管理不同的约束理念和抽象标准,所以很难实现系统内数据的有效互联。特别是当一个系统需要对应不同的数据库管理系统,应用不同的数据库设计时庞大的数据源更加难以管理。增强信息监管:因为目前海关部门的数据库采用的是各级分管制度,有部分数据库在基层—即数据存在着异地管理的问题,如何保证数据在总部和基层不被修改,保证数据的一致性。如果数据被修改,采用什么样的方式可以修复数据、追踪数据或者是查看历史版本以便审查。三、针对问题的解决方案以及背景支撑3.1数据的去条形化管理由于信息化建设的阶段性导致各个信息系统之间有着很大的差距以及不同,所以在数据的传输以及管理上呈现很明显的条形化现象—即数据存储和传输有着明显的隔阂,需要花费大量的时间和精力去做到数据的全面分析。同时无法对数据有全面的了解掌控。针对以上问题,提出的解决方案是建设督察内审司的审计大数据仓库。数据仓库是数据集合的成熟方案,它是为更高层次上的数据应用而提出的一中解决的方案。数据仓库作为决策支持系统服务的基础,是用于分析型处理的数据集合,也是供查询和决策分析用的集成化的信息仓库。3.1.1使用数据仓库的优势针对上一节提到的目前督察内审司可能遇到的问题,使用大数据仓库的优势在于:数据无处不在:数据仓库的数据是从原有分散的各个海关部门的数据库的数据中抽取、集成得到的。事务数据与支持决策分析的数据之间差别甚大,数据仓库中的数据是用于支持决策的,因此在数据进入数据仓库之前,必然要经过抽取、加工与集成,这一步也是数据仓库建设中最关键、最复杂的一步。有时还要将从不同数据库(可能是异构的)中提取的数据按统一的模型和模式组织。数据的正确使用:根据督察内审司的审计业务在较高层次上建立对数据进行综合、归类和分析利用的各种主题,如一个海关部门有各种海关业务的应用数据库,这些数据库仅仅是针对该部门的横向数据。但是通过建立大数据仓库,便可以从时间,税务等不同角度对查看分析所有部门的纵向数据。不需要在去访问收集各个部门的数据,直接从大数据仓库中可以获得需要的(通过模型的建立抽取需要的数据,自动过滤掉不需要的数据)所有部门的数据。数据分析效率低:数据仓库支持多维分析。多维分析通过把一个(业务)实体的属性定义成维度,使能方便地从多个角度汇总、计算数据,增强了数据的分析处理能力,通过对不同维度数据的比较和分析,增强了信息处理能力。提供了标准的报表和图表展示功能,数据仓库内的数据来源于不同海关的业务处理系统,而数据仓库系统展示的数据是所有部门的数据集成,数据仓库的作用就是利用这些最宝贵的业务数据作出最明智的决策。数据的可追溯性:各个海关部门的数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了督察内审司从过去某一时点到目前的各个阶段的所有需要的信息,通过这些信息,可以做出定量分析和预测。3.1.3背景支撑:福建渔业渔政大数据中心项目建设内容:渔业渔政大数据仓库。数据对接海渔厅以及其他海洋相关业务单位的各类业务系统;收集,汇总,存储,加工包括海洋地理基础数据、海洋气象水文环境观测数据、人类渔业生产活动数据、海洋以及海岸线开发与经济数据等,形成海洋与渔业第二数据生产中心。渔业渔政数据管理平台大数据中心后端数据业务流程管理平台,包括数据资源管理、数据加载(ETL)管理、大数据加工管理、大数据分析建模、数据存储与生命周期管理、数据质量管理、数据分发管理、运维监控管理、安全管理审计等功能。渔业渔政统一数据交换平台建设基于ESB企业服务总线技术的统一数据交换平台,提供易于扩展和可伸缩的统一数据交换服务,解决海洋云大数据中心以及海渔其他相关业务系统采用不同的平台和技术构建,各业务整合参与方属性不同,数据定义、数据格式上差异较大,数据难以互联互通的问题。使渔业渔政大数据中心的数据汇聚和数据共享成为可能。3.2数据整合处理随着中国信息化程度越来越高,包括海关已经使用了很多数字化的信息系统,但是因为数据量的庞大,高效地存储和计算问题的解决迫在眉睫。虽然有了数据仓库这一有效的数据集成方案,但是这并没有解决数据中的冗余和冲突问题。甚至数据冲突和冗余更频繁地出现在后者中,后期进行数据清洗、数据维护的成本也相当高。例如:某部门A在其系统中定义了一个长度为100的字段,另一个部门B在自己系统将相同的字段定义成长度101。看似差距很小,但是在数据融合时系统无法自动判定他们是同一个含义的。包括审计业务在内,语义的歧义,数据的不标准都是很大的隐患。所以大数据管理平台的核心解决方案就是建设元数据管理平台。3.2.1建设元数据管理平台的重要性解决数据质量问题:随着数据量的增加,数据中的错误也会越来越多。有几类常见的数据错误:数据冗余:由于大数据仓库的建立是将各个海关系统中所有的数据整合起来,所以有可能会出现重复的数据。数据与定义不符:某笔税务当中涉及的某字段要求用数字表述,但是建立数据的时候没有按照要求设置字段。多个相同数据的定义冲突:表示相同含义的数据在不同的数据库中使用的不同的单位(数据库1中以元为单位,数据库2中以万元为单位)。还有很多数据问题,都可以通过元数据管理平台来进行数据的处理,保障数据的稳定和正确在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据。元数据知识库元数据知识库业务元数据技术元数据即席查询析数据挖掘企业数据模型、多维数据模型数据仓库RDBMS外部数据源操作环境层数据仓库层业务层3.2.2背景支撑:标准元数据的大数据管理平台该平台是以一种基于标准元数据统一约束的可视化建模平台展现。该平台通过构建标准元数据文件,实现数据模型标准化和元数据的标准化。平台由数据交换层、模型层、运算控制层、视图层四个部分构成。具体描述如图1所示。数据交换层:执行与数据库、操作系统的数据交换功能。模型层:位于模型层的是经过统一约束的数据模型,数据模型由模型元素构成。运算控制层:执行模型构建、模型维护、模型存储、模型加载和模型实例化的功能。其中模型存储表示存储模型的数据信息和图形信息的过程,具体是指其中可视化建模平台将其中数据模型中的模型元素按照统一约束和标准元数据要求写入本地模型文件中;模型加载表示其中平台可将存储的模型的数据信息和图形信息读取到其中视图层,以供用户进行查看,编辑,保存操作;模型维护是指用户可以可视化地生成概念模型和物理模型并相互转换,生成、拖拽模型元素并修改数据元素属性,同时编辑多个模型;模型实例化是指导出数据模型到数据库。视图层:位于视图层的是其中模型元素对应的图形对象。其中图形对象包含模型元素显示的相关信息,如图形符号的形状、颜色、大小以及坐标等。基于标准元数据的大数据管理平台主要特性如下:1.模型元素可视化2.提供多样化模型构建方法3.以标准元数据作为元数据管理的核心4.基于统一约束的模型构建方法5.支持多种软硬件环境6.支持多种软件环境:平台兼容的操作系统,包括Windows操作系统、Ubuntu系统、CentOS系统、中标麒麟系统。平台兼容的目标数据库管理系统是其中物理模型需要针对的特定数据库管理系统,包括SQLServer数据库管理系统、MySQL、Oracle、达梦数据库管理系统、人大金仓数据库管理系统、神通数据库管理系统。数据库抽取生成数据模型:从数据库中,按照标准数据元和统一约束抽取数据及关联关系,生成数据模型。不同系统数据库中的数据、不同名称的数据,如果对应相同的标准元数据,那么可以交换。从模型文件生成数据模型:从存储中读取模型文件并解析出数据模型,是模型存储的逆向操作。从标准元数据生成数据模型:标准元数据生成数据模型过程中可以通过数据项映射进行数据的清洗和标准化。从公共模型库读取模型文件生成数据模型:公共模型库是模型仓库,用户可以下载存储的数据模型或者上传自己制作的数据模型。这种方式可以实现数据模型的协同管理,并提高了数据模型的可迁移性。建模平台接入一个有多数据源的大型系统,表示同一含义的字段可能具有不同的数据类型或者类型相同但是长度不同,建模平台接入部署在局域网或者私有云中的公共模型库。其中标准元数据存储为一种严格定义的xml文件,以标准元数据描述的数据表名或者对象名来命名,根节点是DataElements,每个DataElement节点下是组成数据元素的多个数据项,每个数据项是实体或者联系的一个属性,具有描述这个属性的多个标识符。其中物理模型可以转换为数据库模式定义语言DDL,也可以通过ODBCAPI和JDBCAPI直接操作数据库管理系统执行SQL命令。物理模型、其中概念模型都是逻辑概念,其中xml模型则是物理概念,物理模型和概念模型对应的xml模型则有相似的存储结构。3.3增强信息监管作为督察内审司的主要业务来说,最大的问题就是数据的安全性。因为数据的基层分管制度,让数据的安全收到了一定的威胁。基层数据库的数据与总部数据库的数据的不一致将直接影响审计工作,所以如何保障数据的安全是数据管理系统的重中之重。为了防止审计系统存在审计数据信息被蓄意地修改、插入、删除等等问题,而由此形成的虚假信息将使审计结论严重失实的情况需要建立数据的日志管理系统。日志管理系统的重要作用通过建立日志管理系统来确保数据安全,日志管理系统如图1所示。1.建立日志存储系统日志是指系统所指定对象的某些操作和其操作结果按时间有序的集合,每个日志文件由日志记录组成,每条日志记录描述了一次单独的系统事件。日志文件为服务器、工作站、防火墙和应用软件等IT资源相关活动记录必要的、有价值的信息。针对整个系统建立统一的日志存储系统。事务提交时,同时发起写日志操作,将日志写到日志存储系统。主数据库系统此时等待次日志操作成功返回之后,才返回给从数据库系统事务提交成功消息,如图2所示。由于事务提交操作返回给从数据库系统时,事务产生的日志在日志存储系统上都已经存在。所以,当更新操作写日志、事务提交时,保证将事务产生的日志先刷到日志存储系统上,保证整个事务的更新操作数据不丢失。此日志管理系统可工作在最大性能,最大可用,最大保护三种模式下,其中第三种最大保护模式,采用的就是图2中的基本思想.2.建立日志监控系统监控每一个日志操作。当有日志操作时,触发日志分析系统。3.建立日志分析系统通过对系统日志的收集和分析,及时察觉数据库系统的异常行为并找出数据安全问题所在,及时报警。3.1主数据库系统与从数据库系统中数据不一致的异常检测如图3所示,当日志监测系统监测到日志存储系统有日志操作,触发日志分析系统。当日志分析系统分析到该日志操作是日志更新操作,日志分析系统从日志存储系统中取到日志更新操作的详细信息后,便从主数据库系统和从数据库系统中取到相应的数据进行比较。如果两者不相符,则监测到相关数据异常,从而触发日志报警系统。否则,进行主数据库系统与从数据库系统中数据一致的异常检测。3.2主数据库系统与从数据库系统中数据一致的异常检测如图4所示,当日志监测系统监测到日志存储系统有日志操作,触发日志分析系统。当日志分析系统分析到该日志操作是日志更新操作时。日志分析系统从日志存储系统中取到日志更新操作的详细信息后,便从主数据库系统和从数据库系统中取到相应的数据进行比较。如果两者相符,则调用日志还原系统。日志还原系统对从数据库系统中相应数据进行还原。如果从数据库中还原数据与更新数据不相等时,则监测到相关数据异常,从而触发日志报警系统。3.3基于数据挖掘对日志进行深入分析基于数据挖掘的分析方法是从海量日志数据中提取出异常的数据信息,抽象出有利于进行判断和比较的特征模型,根据这些特征向量模型和行为描述模型,采用相应的数据挖掘算法判断出当前数据异常的深层联系。4.建立日志报警系统当日志报警系统被触发时,日志报警系统利用基于机器学习的分析方法对数据异常情况进行深入分析。基于机器学习的分析方法是利用日志的信息来学习用户的异常行为模式,通过日志的历史事件用一些学习算法来预测此用户未来的异常行为。因此,日志报警系统可以提供数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 别墅果树出售合同范本
- 勘查标准合同范本
- 上海古董拍卖合同范本
- 信托转让合同范本
- 单位与单位入股合同范本
- 乡村道路跨宽施工合同范本
- 加工企业入股合同范本
- 单位施工合同范例
- 包装盒印刷厂合同范本
- 隐蔽验收合同范本
- 教师师德和专业发展课件
- 服务器巡检报告模版
- 2023年中国煤化工行业全景图谱
- 2023年高中生物新教材人教版(2023年)必修二全册教案
- 小学美术 四年级 人教版《造型•表现-色彩表现与创作》“色彩”单元美术作业设计《色彩的明与暗》《色彩的渐变》《色彩的情感》
- 中国心脏重症镇静镇痛专家共识专家讲座
- 川教版七年级生命生态安全下册第1课《森林草原火灾的危害》教案
- 护理人员心理健康
- 安全技术说明书粗苯
- 六年级上册心理健康教育课件-健康上网快乐多 北师大版
- 单招面试技巧范文
评论
0/150
提交评论