版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.:.;一、概述1.1背景安徽省地税在2006年全省上线运转了安徽征收管理系统ahtax2005,全省的信息化任务曾经全面展开。但是系统是在各地市独立运转的,对于省地税来说,无法及时准确地了解全省的税收情况。另外,税务数据的省级集中也是一个大的趋势。为了执行国家税务总局要求税务数据全省集中,以及实践的需求,必需建立一致的数据中心,集合全省的数据。目前,安徽省全省共有17个地市,加上省属直接单位,共有18个业务数据库在运转,各地数据都在本地效力器存放,虽然全省曾经实现17个地市的2M带宽的衔接,但是要对全省的数据进展查询分析还是比较费事的。而且,由于各地税的数据是相对独立的,虽然运用的是同一套系
2、统,但是由于各地的情况比较复杂,数据存在不一致的风险。因此,必需建立一致的数据模型,经过建立数据仓库整合数据,支撑全省查询分析的需求。1.2系统建立目的安徽地税数据中心的建立目的是:1、经过一致的数据存储平台,对数据进展规范化处置和规范化管理,实现数据透明和共享。目前各地市运用系统在线数据保管在不同的数据库中,各数据构造大致一样,但数据的一致性、一致性和规范性较差,数据共享非常困难。因此,经过数据中心构建安徽地税一致的数据效力平台,实现企业数据的一致规划、集中采集、集中处置和一致管理,构成地税数据的一致视图,实现数据透明和共享,充分发扬地税数据资源的价值。2、有效支撑统计分析及查询运用等功能。
3、经过数据中心的建立,整合各地市、各业务系统等多种数据源,构成一致的业务数据视图,并采用统计分析、查询等方式满足各级专业和管理部门人员的不同要求。3、在完成前两步目的的根底上,进一步建立全省的数据仓库,支撑更多的业务查询、统计分析、数据发掘功能,提升管理和整体决策才干。1.3系统建立原那么系统建立遵照以下原那么:整体规划,分步实施, 循序渐进,步步见效;有效控制工程风险;维护投资的长期有效性,资源能得到有效利用;为数据和运用大集中做好预备。二、技术方案数据仓库体系构造如以下图所示:整个数据仓库系统是一个包含四个层次的体系构造:数据源:是数据仓库系统的根底,是整个系统的数据源泉。通常包括内部信息和
4、外部信息。内部信息包括存放于关系数据库中的各种业务处置数据和各类文档数据,外部信息包括各类法律法规、经济统计信息等等。数据存储与管理:是整个数据仓库系统的中心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决议了它有别于传统数据库,同时也决议了其对外部数据的表现方式。要决议采用什么产品和技术来建立数据仓库的中心,那么需求从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进展抽取、清理,并有效集成,按照主题进展组织。其中,数据的存储与管理在数据仓库中通常按照三个层面进展存储和管理:操作数据存储区ODS、数据仓库DW、数据集市DM。在线分析效力器OLAP:对分析需求的数据进展有
5、效集成,按多维模型予以组织,以便进展多角度、多层次的分析,并发现趋势。其详细实现可以分为:关系型在线分析ROLAP、多维在线分析MOLAP和混合在线分析HOLAP。ROLAP根本数据和聚合数据均存放在关系数据库之中;MOLAP根本数据和聚合数据均存放于多维数据库中;HOLAP根本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据发掘工具以及各种基于数据仓库或数据集市的运用开发工具。其中数据分析工具主要针对OLAP效力器,报表工具、数据发掘工具主要针对数据仓库。2.1操作数据存储区ODS2.1.1ODS的定位操作数据存储ODS是运用
6、数据库与数据仓库之间的桥梁,在ODS中系统地进展数据整合使数据仓库系统的时效性缺乏得以弥补,提供一致完好的企业视图和准确的运营数据信息;经过集中简化的信息提取过程,提高业务运转效率;更有效地统计分析税务信息,为实现安徽地税内部自动化的信息和业务流程提供便利条件。ODS的建立实现对税务数据的清理整合,构筑一个一致的、完好的数据平台,确定数据一切者,建立数据同步机制,一致数据编码定义,建立数据访问机制,实现业务系统数据共享,完成运用与数据分别,实现数据从地市到省级的提升。ODS在安徽地税数据集中方案中可以发扬以下几个方面的作用:作为数据仓库的主要数据源ODS数据库对运用系统的数据进展了清洗、转换和
7、整合,存储了较为详细和全面的业务运转数据,ODS数据库中的数据不仅具有较高的数据质量,而且比运用系统更有利于数据仓库对数据进展获取和进一步转换,是数据仓库的主要数据来源。提供报表和查询统计功能ODS从不同的运用系统中采集数据,整合各个运用系统的共享数据,构成企业级数据的整体视图,实现综合统计和报表查询功能。进一步引导需求经过ODS的建立及建立在其上的运用,进一步启发新的业务需求,为数据仓库的建立打下根底。2.1.2数据抽取、转换与加载ETL 数据源安徽省地税数据中心需求采集的业务根本数据包括:税务登记核定管理申报征收发票管理票证管理行政执法税费检查会统管理这些数据主要从以下一些消费作业系统获得
8、:安徽地税征收管理系统ahtax2005.1税务登记1、目的:获取纳税人信息等。纳税人根本登记信息,应缴税种信息,纳税人当前情况,证照信息等。2、信息交换方式:直接访问数据库。3、通讯呼叫方式:纳税人新信息每日定时上传访问一次,假设当日没有数据那么不需求上传。4、数据文件称号与内容:1税务登记信息:纳税人称号,运营地址,行业信息,开业时间,纳税人形状,所属税务机关,科室代码,注册类型代码,主营范围,兼营范围,运营方式,注册资本,工商登记等。2纳税人缴税信息税种代码、税目代码、缴税频率按月、季、半年、年等,限缴期限。3纳税人形状信息停复业登记,注销登记、非正常户确认,纳税人迁移。4证照信息证件打
9、印,封存、缴销、作废、遗失。.2核定管理1、目的:获取定期定额纳税人的税收信息。核定税款信息,核定社保费信息。2、信息交换方式:FTP访问数据库。3、通讯呼叫方式:本地核定操作后,每月定时往数据中心系统ETL效力器传送本地网的一切核定信息;或经过各本地网接口效力器直接访问。4、数据文件称号与内容:1核定税款信息核定时期,核定所属期,申报年月,核定的税种、税目,核定税额。2社保费核定信息核定时期,核定所属期,申报年月,核定的税种、税目,核定费额。.3申报征收1、目的:各地市的申报征收开票信息。2、信息交换方式:FTP访问、直接访问数据库。由于涉及较大的数据量,思索到效力器的压力,建议经过FTP的
10、方式间接访问数据局库。3、通讯呼叫方式:每月定时传送访问二次。征收期过后一次,月末一次。4、数据文件称号与内容:1申报信息企业编码,申报日期,申报税种、申报税目,申报日期,限期申报日期,申报所属期,申报类型,预算级次,预算科目,记税金额,申报税款,减免税款,能否零申报,金库编码2开票信息企业编码,开票日期,入库日期,欠税属性编码,限缴日期,开票税金,减免税金,计纳税金,税率、金库编码,预算级次,款项类别,税票号码,开户银行,银行账号3减免税信息企业编码,减免税种、税目,减免类型,减免期限,减免比率或减免金额4延期申报信息企业编码,延期税种、税目、税款所属期、延期交纳时间、延期理由5欠税信息 企
11、业编码,税种编码、税目编码、税款所属期,欠税金额,欠税属性编码.4发票管理1、目的:各地市发票方案、印制、库存等信息2、信息交换方式:直接访问数据库。3、通讯呼叫方式:每日定时上传访问一次。4、数据文件称号与内容:1发票方案信息发票称号,方案领购数量2发票印制信息承印单位,发票代码,印制数量、印制价钱。3发票操作信息发票发出数量,发票入库数量,发票核销等。4发票账务信息发票记账信息、结账信息。.5票证管理1、目的:各地税票信息2、信息交换方式:直接访问数据库。3、通讯呼叫方式:每月定时上传访问一次。4、数据文件称号与内容:1票证领单票证编码,发出机关,领入机关,字轨,票号,数量。2票证领据票证
12、编码,发出机关,用票人编码,领用数量,字轨,票证号码范围,数量。3票证结报票证编码,用票人,结报类型,结报数量,字轨,票证号码范围。4票证上缴票证编码、用票人,上缴单位,数量、字轨,票证号码范围。.6行政执法1、目的:各地行政处分数据2、信息交换方式:FTP访问。3、通讯呼叫方式:每日定时上传访问一次。4、数据文件称号与内容:1处分案件登记案件称号,纳税人编码,处分缘由,案件来源,处分类型,处分方式,违章缘由。2处分案件情况表案件编码,处分根据,处分金额,处分时间,处分类型。.7税费检查1、目的:各地稽查和税费检查情况数据:2、信息交换方式:直接访问数据库。3、通讯呼叫方式:每日定时上传访问一
13、次。4、数据文件称号与内容:1案件情况表案件编号,企业编码,企业称号,行业编码,检稽查所属期,检稽查时间,案件检稽查单位,案件形状,结案时间,立卷时间,能否立案,能否大要案,检查人员,审理人员,执行人员。2案件检查情况案件编号,查处税种,查处税目,查处期间,查处金额,税款类型,预算级次,款项类型,所属金库编码,处分机关,征收机关编码。 数据源分析数据源可以做如下分类:1按照数据类型:流水型数据记录增量产生,原记录不能修正的数据,该类数据通常按照一定的周期,根据时间戳传送特定的纪录。例如:系统的字典表和关键的辅助表:BM_SZ,BM_SM等。混合型数据记录既可以增量产生,原记录又可以修正的数据,
14、该类数据通常按照一定的周期,对数据进展整表传送。税收数据大部分都是这种类型的数据。税收的大部分数据都是这种类型:比如登记信息表,征收表等。2按照数据量:大数据量数据量到达每天百万条记录以上。从全省的角度来讲,申报表和开票表接近这个数据量。中等数据量数据量为每天一万条记录以上。其他业务数据。小数据量数据量低于每天万条条记录。根本上比较少,如部分文书表等。3按照数据周期:实时、日周期、月周期、年周期、不定周期。 数据抽取、转换、加载ETL即数据抽取、转换和加载,是数据中心实现过程中,将数据由数据源系统向数据中心加载的主要过程。从功能上看,整个ETL包括三个部分: 数据抽取:从数据源系统抽取数据中心
15、系统需求的数据;数据转换:将从数据源获取的数据转换成数据中心要求的方式,对数据进展转换;数据加载:将数据装入数据中心。ETL实现过程的流程图如以下图所示:在ETL的整个过程中,还必需充分思索异常情况的处置。.1 数据抽取.1.1 数据抽取接口1、直接访问接口直接访问方式是在对方数据库上建立接口表或视图,本系统经过数据链接直接获取对方数据,然后进展处置的数据通讯方法。该方法适用于双方数据库在同一台效力器上或在同一个局域网内。2、FTP方式在省中心配置ETL效力器,在ETL效力器上安装并启动FTP效力,外部系统需求发送给本系统的数据由相关外部系统定期或按需将需求传送的数据按要求组织成文本格式文件,
16、经过FTP上传到本系统的ETL效力器。FTP文件存放位置在省级ETL效力器中,一致建立针对外围不同系统存放文件的总目录,并以本地网为单位设置相应子目录,子目录称号为各本地网称号的全拼拼音字母,用来存放各本地网上传的文件;FTP文件命名规那么用文件扩展名区分数据文件类型,构造类型不同的数据文件其扩展名将不同。文件扩展名长两位,每位取值范围从0-9、A-Z;文件名前半部分分两种情况:对于每天生成的数据文件,取文件内数据发生的日期,详细文件格式:yyyy年mm月dd日.?。对于每月生成的数据文件,那么取文件内数据所属的帐务月或统计月,详细文件格式:yyyy年mm月.?。FTP文件格式可以按照各系统和
17、实践情况,灵敏设置FTP文件的格式,如:文本文件的分隔符采用逗号方式,记录终了标识为换行/回车;或采用字段定长,记录定长的方式。FTP文件传送完成确认方法由于数据文件能够很大,FTP传送能够是个漫长的过程,本系统接口处置程序不知道数据文件什么时候传送终了。因此,在此要求每个数据文件传送完成之后,再传送一个数据文件传输完成确实认文件,该确认文件以要确认传送终了的数据文件扩展名后加字符A,文件类容仅仅包含要确认传送终了的数据文件名。一批传送多个数据文件时,每一个数据文件对应一个确认文件。例如:要上传一个20021024.A1的数据文件,确认文件名为20021024.A1A,确认文件内容为:2002
18、1024.A1。.1.2 数据抽取战略数据的抽取必需可以充分满足数据中心的需求,又能保证不影响业务系统的性能,所以进展数据抽取时应制定相应的战略,包括抽取方式、抽取时机、抽取周期等内容。抽取方式:增量抽取、完全抽取等。抽取时机:尽能够避开业务系统的顶峰时段,可选择在夜间业务系统比较闲时进展。抽取周期:对不同类型的数据源,应综合思索业务需求和系统代价,制定合理的抽取周期。在制定抽取战略时,需求对以上各项要素综合思索。通常情况下,流水型增长且数据量大的数据适宜采用增量抽取的方式;变化更新的数据适宜采用完全抽取的方式;对于两者结合的数据,假设能提取增量信息,那么进展增量抽取,否那么采用完全抽取的方式
19、进展。此外,对于抽取周期要思索实践业务的需求和抽取进展的系统代价,在能够的情况下,尽量缩短抽取周期。.2 数据转换数据转换是指对从业务系统中抽取的源数据根据数据中心模型的要求,进展数据的转换、清洗、拆分、汇总等处置,保证不同系统、不同格式的数据的一致性和完好性,并按要求装入数据中心。.2.1 数据转换的主要功能数据转换主要完成由于以下缘由呵斥的数据不一致性问题:源数据系统同数据中心系统在模型上的差别性;源数据系统平台不一致:数据中心系统的数据源能够包括基于不同平台的数据库的数据,能够会存在大量的转码任务。;源数据构造的不一致:有些数据源由于历史的缘由,导致同一个表在不同的时期数据构造不一致;源
20、数据定义不规范导致错误数据;对数据的约束不严厉,导致无意义数据;存在反复记录。.2.2 数据转换技术和战略根据实践情况,数据转换任务普通会在以下几个环节中详细实现:在抽取过程中进展数据处置;运用异步数据加载,以文件的方式处置;在数据加载过程中进展数据处置;进入数据中心以后再进展数据处置。采用在数据抽取过程中进展数据转换时,必需思索抽取的性能以及对业务系统性能的影响;采用异步数据加载需求以文件方式处置时,必需充分思索中间磁盘的存储量以及ETL整个流程的协调性任务,以及大量的非SQL语句的编程;采用在数据加载过程中进展数据转换时,必需思索加载性能;采用先将数据装载到数据中心后再处置时,必需思索数据
21、中心引擎的海量数据处置才干。.3 数据加载.3.1 数据加载主要功能数据加载就是将从数据源系统中抽取、转换后的数据加载到操作数据存储区或数据仓库系统中。要求数据加载工具必需具有高效的加载性能。.3.2 数据加载技术及战略主要加载技术:运用数据仓库引擎厂商提供的数据加载工具进展数据加载;经过数据仓库引擎厂商提供的API编程进展数据加载。数据加载战略要思索加载周期及数据追加战略两方面的内容。根据安徽地税业务数据的实践情况,加载周期要综合思索业务分析需求和系统加载的代价,对不同业务系统的数据采用不同的加载周期,但必需坚持同一时间业务数据的完好性。数据的追加战略根据数据的抽取战略以及业务规那么确定,普
22、通有以下三种类型:直接追加、全部覆盖、更新追加。直接追加:是指每次加载时直接将数据追加到目的表中。对于典型的流水数据,普通采用此方法;全部覆盖:对于抽取数据本身已包括了数据的当前和一切历史情况,对目的表采用全部覆盖方式。更新追加:对于需求延续记录业务的形状变化,用当前的最新形状同历史形状数据进展对比的情况采用更新追加的方式。详细采取何种方式,要综合思索效率、业务虚现等要素。 数据审计每个数据加载周期中,如何保证数据中心中数据同业务系统中数据在业务意义上的一致性及数据的准确性极其重要。因此,必需引进数据审计功能。数据正确性的审计任务是在数据加载任务完成以后,一方面要从设计到实施的整个过程中确保算
23、法的正确性,另一方面要经过事后的检验来检查ETL的正确性。理想的情况是,审计任务必需在数据抽取、转换、加载等一切的阶段都要进展,比如,假设采用异步数据抽取和加载,那么在数据抽取传输终了后,要从记录数、文件大小等角度检验抽取和传输的正确性。数据加载终了后,一方面经过加载日志检验加载过程的正确性,另一方面要经过业务规那么来校验数据的正确性。2.2数据仓库DW数据仓库Data Warehouse是一个面向主题的Subject Oriented、集成的Integrate、相对稳定的Non-Volatile、反映历史变化Time Variant的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两
24、个层次予以了解,首先,数据仓库用于支持决策,面向分析型数据处置,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进展了重组,并包含历史数据,而且存放在数据仓库中的数据普通不再修正。根据数据仓库概念的含义,数据仓库拥有以下四个特点:面向主题。操作型数据库的数据组织面向事务处置义务,各个业务系统之间各自分别,而数据仓库中的数据是按照一定的主题域进展组织。主题是一个笼统的概念,是指用户运用数据仓库进展决策时所关怀的重点方面,一个主题通常与多个操作型信息系统相关。集成的。面向事务处置的操作型数据库通常与某些特定的运用相关,数据库之间相互独立,并且往往是异构的。
25、而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的根底上经过系统加工、汇总和整理得到的,必需消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的。操作型数据库中的数据通常实时更新,数据根据需求及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,普通情况下将被长期保管,也就是数据仓库中普通有大量的查询操作,但修正和删除操作很少,通常只需求定期的加载、刷新。反映历史变化。操作型数据库主要关怀当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开场运用数据
26、仓库的时点)到目前的各个阶段的信息,经过这些信息,可以对企业的开展历程和未来趋势做出定量分析和预测。企业数据仓库的建立,是以现有企业业务系统和大量业务数据的积累为根底。数据仓库不是静态的概念,只需把信息及时交给需求这些信息的运用者,供他们做出改善其业务运营的决策,信息才干发扬作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供应相应的管理决策人员,是数据仓库的根本义务。因此,从产业界的角度看,数据仓库建立是一个工程,是一个过程。2.2.1主题数据库数据仓库里的数据都是按照业务主题进展组织的。主题数据库的根本特征如下:1面向业务主题(不是面向单个报表)。主题数据库是面向业务主题的数据组织存
27、储,例如,对于安徽地税来讲,需求建立的典型的主题数据库包括:税务、申报、发票、票证、行政执法、税费等数据库的构造,是对有关税务、发票、税费的数据项进展分析整理而设计的,不是按税务、发票、税费的原样建立的。这些主题数据库与税务管理中要处理的主要问题相关联,而不是与通常的计算机运用工程相关联。2信息共享(不是信息私有或部门一切)。主题数据库是对各个运用系统“自建自用的数据库的彻底否认,强调建立各个运用系统“共建共用的共享数据库。不同的运用系统的计算机程序调用这些主题数据库。3一次一处输入系统(不是多次多处输入系统)。主题数据库要求调研分析各业务层次上的数据源,强调数据的就地采集、就地处置、运用和存
28、储,以及必要的传输、汇总和集中存储。同一数据必需一次、一处进入系统,保证其准确性、及时性和完好性,经由网络-计算机-数据库系统,可以多次、多处运用。4由根本表组成。一个主题数据库的科学的数据构造,是由多个到达“根本表(BaseTable)规范的数据实体构成的,这些根本表具有如下的特性:原子性根本表中的数据项是数据元素即最小的、不能再分解的信息单元;演绎性可由根本表中的数据生成全部输出数据即这些根本表是精练的,经过计算处置可以产生全部企业管理所需求的数据;规范性根本表中数据满足三范式(3-NF)要求,这是科学的、能满足演绎性要求、并能保证快捷存取的数据构造。在设计的同时,关键是要做好数据字典的维
29、护任务,以使他对本人的数据库了如指掌。2.2.2数据存储数据仓库为安徽地税各级管理部门、分析人员的分析、决策操作提供一致、集成的根底数据,包括安徽地税各个业务部门当前及其历史的细节性业务数据,以及为了进展分析决策操作而生成的分析型数据,是一个一致、集成、稳定、基于历史数据的庞大数据集合,需求借助成熟的数据库技术对其进展存储管理,即利用改造过的关系数据库系统来组织和管理面向主题的数据仓库中的数据。 整合业务数据的根底数据层数据仓库系统的根底数据是按照主题来组织的。根底数据层只思索数据本身的来源与属性,按照业务本身的数据之间的相互关系来组织数据,而不思索数据的运用,即“整合数据,其目的在于减少数据
30、的冗余,提高系统的灵敏性,能快速的实现新增主题和功能。 面向决策支持的分析数据层运用数据层与详细的运用需求严密结合,按照运用的要求来组织根底数据层的数据。面向运用,其目的就是针对面向主题,面向详细的运用,提高访问、执行、查询的效率,即“面向决策支持。 数据仓库信息模型数据仓库信息主题,主要包括:税务登记、核定管理、申报征收、发票管理、票证管理、行政执法、税费检查、会统管理等,按照安徽地税信息的组成进展前瞻性的构造设计。2.2.3数据展现数据仓库系统应提供灵敏多样的展现方式。目前常用的展现方式有:固定预定义报表、图表、即席查询Ad-Hoc、多维动态分析等。各主题分析的展现方式除了可以经过以上方式
31、进展展现,对于异常的分析结果还可以经过短音讯、或其他告警方式进展预警。表格和图表可以转换为Excel等格式,分析人员可以根据需求排序、分组数据并改动图表的类型直方图、饼形图、折线图、堆积图等,可在任何维度上经过“钻取和“切片生成报表及图形。复合报表要“所见即所得。2.2.4数据发掘数据发掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速开展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据发掘就是为顺应这种需求应运而生开展起来的数据处置
32、技术。是知识发现(Knowledge Discovery in Database)的关键步骤。数据发掘步骤普通包括定义问题、数据预备、数据发掘、结果分析和知识运用等步骤。1、定义问题:明晰地定义出业务问题,确定数据发掘的目的。2、数据预备:包括:选择数据:在大型数据库和数据仓库目的中提取数据发掘的目的数据集;数据预处置:进展数据再加工,包括检查数据的完好性及数据的一致性、去噪声,填补丧失的域,删除无效数据等。3、数据发掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进展数据发掘。4、结果分析:对数据发掘的结果进展解释和评价,转换成为可以最终被用户了解的知识。5、知识
33、运用:将分析所得到的知识集成到业务信息系统的组织构造中去。2.3系统平台要求2.3.1 系统容量规划 用户数据量的估算用户数据量的估算与用户数、业务量、系统中数据保管期限、业务系统中单个数据记录容量有关。设数据量为T,估算公式如下:T=U*N*R*Ti其中:U:为安徽省地市税务局的数量;N:为某个地市年业务量。对于不同的地市可取业务量最大值进展估算;R:为单个数据记录的容量;Ti:为数据存储期限。 数据仓库磁盘容量估算数据仓库系统的存储主要由三部分构成,按照数据仓库系统功能构造,自上而下分别是:多维数据存储,数据仓库存储,接口文件存储。总的存储是这三部分的和。令T为系统的存储总量,Ta为多维数
34、据存储所需的存储量,Td为数据仓库存储所需的存储量,Ti为接口文件存储所需的存储量,三者单位均为GB,那么 TTa +Td +Ti一接口文件存储所需的存储量Ti接口文件存储区主要用于存放消费系统传送到数据仓库系统的数据文件和一些数据仓库系统从其他系统抽取的部分数据文档。估算时可取存储空间最大的接口文件,其它类型的文件数据量可以按该最大接口文件数据量的一定比例来计算。由此可得出如下公式:TiU*(1+Pi)*Ni *Nu 其中,U为最大接口文件数据量,单位为GB Pi为其他类型文件所占比例因子,通常可取0.05 Ni为接口文件在数据仓库系统中的保管天数 Nu为用户数量二数据仓库所需存储量Td计算
35、数据仓库所需的存储量,主要思索操作数据存储区、数据仓库层和数据集市层存储所需的磁盘空间,其中数据仓库层占用绝大部分。这里需求思索承载数据的数据库系统、文件系统、RAID、数据冗余等对存储的影响。这些系统所占用的空间都将折合成所需存储的纯数据量的比例因子。这里的纯数据由两部分构成:用户详单数据和客户资料数据。其中用户详单数据量可以由用户数,存储时间和单用户每天数据量得到,单用户每天数据量的计算公式曾经在上节得出。那么有如下公式:TdU*Nu*Nd*1+Pdb+Praid+Pfs+Predu其中,U为单个地市数据量的平均值或最大值,Nu为地市局数量,Nd为存储时间,Pdb为数据库相关因子,Prai
36、d为RAID相关因子,Pfs为文件系统和软件相关因子,Predu为系统冗余因子。三多维数据存储所需存储量Ta这部分所占的存储空间和运用相关,主要是多维分析所需求的磁盘空间。空间的大小取决于分析的业务数量、维度数量和层次、分类等要素,还和详细采用的产品相关。凡是和时间相关的多维分析,其所占用的空间计算公式如下:Ta(Dmea+Ddim*Ndim)*Nserv*Nfact*(NserdimNlevNtype)*Ptdim*Nkp*Ncpr其中:Dmea为现实表中度量字段的平均数据量,单位为GBDdim为现实表中维度字段的平均数据量,单位为GBNdim为现实表中维度字段的平均个数Nserv为多维分析
37、业务类型平均个数Nfact为每个业务类型分析的现实表平均个数Nserdim为现实表中除时间维外的维度个数,普通为Ndim-1Nlev为现实表中维度的平均层次数Ntype为现实表中每个维度层次的平均类型个数Ptdim为时间维因子,假设分析到日,那么为365,到月为12Nkp 为数据保管周期,单位是年Ncpr为多维数据紧缩因子,和详细的产品有关四数据库紧缩技术某些数据仓库产品中引入了独特的数据紧缩技术,用于数据存储。对于分区表,可以选择紧缩全部或部分分区。紧缩属性可以在表空间、表或分区上声明。假设在表空间上声明,那么该表空间中建的一切表都被紧缩存储。大型数据仓库的紧缩比例通常为2:1到4:1,某些
38、业务的数据有能够获得更高的紧缩比,详细的紧缩比与数据的类型和存储的顺序有关。2.3.2 配置要求数据仓库系统主机效力器与存储设备假设安徽地税的数据仓库效力器和ETL效力器是分别的,并且不包括对固定报表的访问,由于这部分报表曾经以静态数据的方式存放在WEB效力器上,对数据库不产生压力。那么对数据仓库效力器的处置才干要求主要于对数据库的实时查询。假设:安徽地税数据仓库系统的用户数为Nu系统的最大并发数为用户总数的10每次查询平均调用100个目的每查询5个目的折合成1个规范买卖系统在3秒中内完成处置那么数据仓库主机所需求的TPMC为:100/5Nu1060/3 ETL系统主机效力器与存储设备ETL效
39、力器主要的处置任务包括以下方面:接纳消费系统提供的源数据或从其他系统抽取数据。(我们将这个任务简称为W1)将接口文件包含的数据进展格式转换,进展数据清洗,重新整理,生成新格式的记录插入数据库中或构成文件,装载入数据仓库中,整个过程要求在一定的时间内完成。我们将这个任务简称为W2以上的任务流程为串行关系,数据仓库效力器的处置才干要求为:MAXW1处置才干要求;W2处置才干要求。一W1处置才干需求分析我们运用以下的条件对W1进展处置才干需求分析:一切任务每日要求在1小时内完成;平均抽取150条记录所需的事务数为1;思索四处置过程中能够遇到的业务顶峰期和用户数不可预料的增长情况,效力器的处置才干冗余
40、30%。那么,W1需求的TPMC为:TPMCW1每日抽取的记录数/处置时间*60*处置一条记录所需的事务数 * 30%二W2处置才干需求分析我们运用以下的条件对W2进展处置才干需求分析:一切任务每日要求在2小时内完成;平均处置6条记录所需的事务数为1。那么,W2需求的TPMC为:TPMCW2记录数/处置时间*60*处置一条记录所需的事务数根据以上的分析,ETL效力器的处置才干要求为:MAXW1处置才干要求;W2处置才干要求同时我们需求思索以下要素:添加效力器处置才干的20%,需运转数据仓库管理等运用;思索四处置过程中能够遇到的顶峰期和用户数不可预料的增长情况,效力器的处置才干冗余30%。根据实
41、践系统阅历,接口系统有时接口文件的生成时间会延迟,为了保证数据处置的及时性,以及未来业务的开展和系统扩展性的保证,建议TPMC实践思索时适当扩展。网络带宽网络带宽可以根据每分钟的业务量、每笔业务占多少流量、并发用户数来进展估算:网络带宽每分钟的业务量*每笔业务所占流量*并发用户数实践计算时思索系统网络流量冗余30%。三、建议实施方案业务数据量估算一年:5G/地市*18地市90G3.1 只建立操作数据存储区ODS该方案只建立操作数据存储区ODS,不建立数据仓库。此时,在数据仓库体系中的操作数据存储区实践上起着安徽地税数据中心的作用,担任将各地市业务数据集中到省局数据中心,并在此根底上提供根本的统
42、计、查询功能。3.1.1硬件方案主机采用小型机,建议IBM P595或同等档次机型。数据存储存储2-3年的数据量:90G*3270G网络省局数据中心的网络环境,主干网带宽支持100M以上,省局数据中心同各地市之间的网络带宽支持10M以上,数据批量ETL占用2M网络衔接。3.1.2工具平台数据库运用Sybase数据库。ETL工具建议自行开发。3.1.3软件方案固定报表:提供固定预定义报表及模板、图形展现、导入导出等功能。综合查询:提供自定义报表、图形展现、导入导出等功能。3.1.4任务量及费用估算任务量估算如下:建立内容任务量估算人*月ODS建立开发调研3ETL过程设计6数据库设计5软件开发30
43、试点1-2地市数据抽取、加工3数据质量审核3软件功能完善10推行全省范围推行30培训和维护20合计110费用估算如下:110人月*2万/人月220万RMB3.1.5 进度方案初步方案工程启动时间为4月初,进度方案如下:3.2 同时建立操作数据存储区ODS和数据仓库DW该方案先建立操作数据存储区,将各地市业务数据集中到省局数据中心,并提供简单的统计和查询功能。同时,在此根底上建立数据仓库,以支持更丰富的业务查询、综合统计、多维分析、数据发掘等功能。此方案中的操作数据存储区是实践意义上的数据仓库的一部分,其作为数据仓库与数据源之间的一个暂时数据缓冲区,存储少量的、短期的数据,一切的数据最终都加载到数据仓库中。3.2.1硬件方案主机数据仓库采用小型机,建议IBM P595或同等档次机型。操作数据存储区ODS可以与数据仓库物理独立,也可以与数据仓库物理在一同。假设操作数据存储区与数据仓库物理独立,那么操作数据存储区也可以采用PC效力器。数据存储操作数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课程设计外墙构造详图
- 2025年度砂石厂员工培训与发展合同3篇
- 2025年度科研试验合同:活动板房作为科研试验平台的租赁3篇
- 超市调研课程设计
- 二零二五年度建筑施工现场安全应急预案编制合同范例
- 2025版环境监测网络建设环境行政服务合同3篇
- 2025年期货交易工作计划范文(2篇)
- 关于员工请假规章制度
- 2025年新世纪版八年级地理上册阶段测试试卷含答案
- 2025年沪教版八年级化学上册阶段测试试卷
- 2025年上半年河南郑州荥阳市招聘第二批政务辅助人员211人笔试重点基础提升(共500题)附带答案详解
- 山东省济南市历城区2024-2025学年七年级上学期期末数学模拟试题(无答案)
- 医疗器械考试题及答案
- 初三家长会数学老师发言稿
- 责任护理组长竞选
- 法人代持免责任协议书(2篇)
- 闸站监理实施细则
- 2024-2025学年湖北省恩施土家族苗族自治州数学六上期末检测试题含解析
- 2024年中国宠物殡葬服务行业市场规模及发展前景研究报告(智研咨询)
- 矿用电缆市场发展预测和趋势分析
- 失踪老人归家协议书模板
评论
0/150
提交评论