数据仓库和平台_第1页
数据仓库和平台_第2页
数据仓库和平台_第3页
数据仓库和平台_第4页
数据仓库和平台_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库及

税源监控分析平台袁芳

2011年11月什么是数数据仓库库数据仓库库之父WilliamH..Inmon在1991年出版的的“BuildingtheDataWarehouse””一书中所所提出的的定义被被广泛接接受——数据仓库库是一个个面向主主题的、、集成的的、相对对稳定的的、反映映历史变变化的数数据集合合,用于于支持管管理决策策。数据仓库库特点——面向主题题操作型数数据库的的数据组组织面向向事务处处理任务务,各个个业务系系统之间间各自分分离,而而数据仓仓库中的的数据是是按照一一定的主主题域进进行组织织的。主题是与与传统数数据库的的面向应应用相对对应的,,是一个个抽象概概念,是是在较高高层次上上将企业业信息系系统中的的数据综综合、归归类并进进行分析析利用的的抽象。。每一个个主题对对应一个个宏观的的分析领领域。数数据仓库库排除对对于决策策无用的的数据,,提供特特定主题题的简明明视图。。数据仓库库特点——集成的数据仓库库中的数数据是在在对原有有分散的的数据库库数据抽抽取、清清理的基基础上经经过系统统加工、、汇总和和整理得得到的,,必须消消除源数数据中的的不一致致性,以以保证数数据仓库库内的信信息是关关于整个个企业的的一致的的全局信信息。数据仓库库特点——相对稳定定的数据仓库库的数据据主要供供企业决决策分析析之用,,所涉及及的数据据操作主主要是数数据查询询,一旦旦某个数数据进入入数据仓仓库以后后,一般般情况下下将被长长期保留留,也就就是数据据仓库中中一般有有大量的的查询操操作,但但修改和和删除操操作很少少,通常常只需要要定期的的加载、、刷新。。数据仓库库——反映历史史变化数据仓库库中的数数据通常常包含历历史信息息,系统统记录了了企业从从过去某某一时点点(如开始应应用数据据仓库的的时点)到目前的的各个阶阶段的信信息,通通过这些些信息,,可以对对企业的的发展历历程和未未来趋势势做出定定量分析析和预测测。数据仓库库的组成成1、数据仓仓库数据据库数据仓库库的数据据库是整整个数据据仓库环环境的核核心,是是数据存存放的地地方和提提供对数数据检索索的支持持。相对对于操纵纵型数据据库来说说其突出出的特点点是对海海量数据据的支持持和快速速的检索索技术。。数据仓库库的组成成2、数据抽抽取工具具数据抽取取工具把把数据从从各种各各样的存存储方式式中拿出出来,进进行必要要的转化化、整理理,再存存放到数数据仓库库内。对对各种不不同数据据存储方方式的访访问能力力是数据据抽取工工具的关关键。数数据转换换都包括括:删除对决决策应用用没有意意义的数数据段;;转换到到统一的的数据名名称和定定义;计计算统计计和衍生生数据;;给缺值值数据赋赋给缺省省值;把把不同的的数据定定义方式式统一。。数据仓库库的组成成3、元数据据元数据是是描述数数据仓库库内数据据的结构构和建立立方法的的数据。。可将其其按用途途的不同同分为两两类,技技术元数数据和商商业元数数据。技术元数数据是数数据仓库库的设计计和管理理人员用用于开发发和日常常管理数数据仓库库是用的的数据。。商业元数数据从商商业业务务的角度度描述了了数据仓仓库中的的数据。。

数据仓库库的组成成4、访问工工具为用户访访问数据据仓库提提供手段段。有数数据查询询和报表表工具;;应用开开发工具具;联机机分析处处理(OLAP)工具;;数据挖挖掘工具具。数据仓库库组成5、数据集集市(DataMarts)为了特定定的应用用目的或或应用范范围,而而从数据据仓库中中独立出出来的一一部分数数据。在数据仓仓库的实实施过程程中往往往可以从从一个部部门的数数据集市市着手,,以后再再用几个个数据集集市组成成一个完完整的数数据仓库库。数据仓库库数据存存储与管管理数据的存存储与管管理是整整个数据据仓库系系统的核核心。OLAP(联机分析析处理)服务器对分析需需要的数数据进行行有效集集成,按按多维模模型予以以组织,,以便进进行多角角度、多多层次的的分析,,并发现现趋势。。其具体体实现可可以分为为:ROLAP(关系型型在线分分析处理理)、MOLAP(多维在在线分析析处理))和HOLAP(混合型型线上分分析处理理)。ROLAP基本数据据和聚合合数据均均存放在在RDBMS之中;MOLAP基本数据据和聚合合数据均均存放于于多维数数据库中中;HOLAP基本数据据存放于于RDBMS之中,聚聚合数据据存放于于多维数数据库中中。数据仓库库的几个个概念维:是人人们观察察数据的的特定角角度,是是考虑问问题时的的一类属属性,属属性集合合构成一一个维(时间维、、地区、、行业维维等)粒度:数数据仓库库的数据据单位中中保存数数据的细细化或综综合程度度的级别别。细化化程度越越高,粒粒度级就就越小;;相反,,细化程程度越低低,粒度度级就越越大。单元格::多维数数组的取取值(2011年10月,安徽徽,增值值税,56亿)数据仓库库设计步步骤1)选择合适适的主题题(所要要解决问问题的领领域)2)明确定义义事实表表3)确定和确确认维4)选择事实实表5)计算并存存储fact表中的衍衍生数据据段6)转换维表表7)数据库数数据采集集8)根据需求求刷新维维表9)确定查询询优先级级和查询询模式。。数据仓库库的建立立步骤1)收集和和分析业业务需求求。2)建立数数据模型型和数据据仓库的的物理设设计。3)定义数数据源。。4)选择数数据仓库库技术和和平台。。5)从操作作型数据据库中抽抽取、净净化、和和转换数数据到数数据仓库库。6)选择访访问和报报表工具具。7)选择数数据库连连接软件件。8)选择数数据分析析和数据据展示软软件。9)更新数据据仓库。。数据仓库库与数据据库的联联系二者的联联系:数据仓库库的出现现,并不不是要取取代数据据库。目目前,大大部分数数据仓库库还是用用关系数数据库管管理系统统来管理理的。可可以说,,数据库库、数据据仓库相相辅相成成、各有有千秋。。数据仓库库数据一一般来源源于数据据库。数据仓库库与数据据库的区区别(1)1、出发点点不同::数据库库是面向向事务的的设计;;数据仓仓库是面面向主题题设计的的。2、存储的的数据不不同:数数据库一一般存储储在线交交易数据据;数据据仓库存存储的一一般是历历史数据据。3、设计规规则不同同:数据据库设计计是尽量量避免冗冗余,一一般采用用符合范范式的规规则来设设计;数数据仓库库在设计计是有意意引入冗冗余,采采用反范范式的方方式来设设计。4、提供的的功能不不同:数数据库是是为捕获获数据而而设计,,数据仓仓库是为为分析数数据而设设计。

数据仓库库与数据据库的区区别(2)5、基本元元素不同同:数据据库的基基本元素素是事实实表,数数据仓库库的基本本元素是是维度表表。6、容量不不同:数数据库基基本容量量上要比比数据仓仓库小的的多。7、服务对对象不同同:数据据库是为为了高效效的事务务处理而而设计的的,服务务对象为为企业业业务处理理方面的的工作人人员;数数据仓库库是为了了分析数数据进行行决策而而设计的的,服务务对象为为企业高高层决策策人员。。

税源分析析监控平平台税源监控控分析平平台产生生背景省局领导导要求::“所有有业务均均由一个个系统支支持(不不要一个个系统只只解决一一项业务务目的)),所有有数据集集中在一一个数据据库”。。为税源专专业化管管理提供供技术支支撑各应用系系统已实实现省级级集中税源监控控分析平平台主要要任务为实现管管理决策策的需求求,利用用数据仓仓库技术术,抽取取各生产产业务系系统原始始凭证,,使用数数据分析析、展示示工具,,加工分分析原始始凭证,,展示分分析查询询结果的的一体化化应用平平台。税源监控控分析平平台数据据特点1、所有数数据来源源于原始始凭证数据标准准化有据可查查定位准确确有利于今今后的业业务拓展展2、各种分分析都是是通过工工具来实实现的。。实现了了业务加加载与技技术无关关性。3、采用合合作的开开发模式式。税源分析析监控平平台与各生产产系统之之间联系系与区别别

平台的基基础数据据来源于于各生产产系统。。生产系统统是面向向事务的的设计,,税源分分析监控控平台是是面向主主题设计计的。生产系统统是用于于采集数数据,平平台是用用于分析析数据。。生产系统统一般存存储在线线交易数数据,税税源分析析监控平平台一般般次月进进行数据据分析,,展示分分析结果果。技术架构构数据仓库库的数据据流程数据归集集数据归集集是对分分散在各各业务系系统数据据进行抽抽取。目前已抽抽取的数数据包括括:综合合征管软软件、增增值税防防伪税控控系统、、车辆购购置税征征收管理理系统、、公路内内河货物物运输发发票税控控系统、、机动车车销售发发票系统统、出口口退税系系统。数据抽取取的方式式是通过过原始凭凭证。从从源头规规范和统统一了数数据口径径,提高高了数据据质量,,保障了了分析数数据的可可追溯性性。可可实现透透明访问问。抽取的原原始凭证证与实际际上的原原始凭证证的差异异。已抽取原原始凭证证220多项,抽抽取记录录近亿条条记录归集的手手段:原原始凭证证定义工工具。业务功能能一户式查查询征管状况况分析申报监控控数据质量量分析税收风险险管理税收收入入分析重点税源源分析预预警数据仓库库要完成成的基础础工具原始凭证证定义工工具数据抽取取工具通用查询询工具风险管理理工具应用管理理工具数据质量量检测工工具通用采集集工具元数据管管理工具具档案管理理工具安徽国税税数据仓仓库资源源集成各系系统的原原始凭证证。原始凭证证加工的的公用信信息。各类应用用工具。。分析成果果。如何使用用数据仓仓库省局管理理用户的的使用省、市分分析用户户的使用用一般用户户的使用用安徽国税税数据仓仓库的建建设概况况安徽国税税数据仓仓库建设设项目与与浪潮公公司合作作完成的的。2008年9月1日,数据据仓库一一期项目目启动2009年9月15日,用户试运运行,同同年11月一期项项目通过过验收。。2010年8月启动数数据仓库库二期项项目。目目前已基基本完成成。登录登录地址址:http:///79..16..17..82::8710/可通过省省局网站站链接用户:CTAIS用户,134……。密码默默认为999999。IE设置添加IP地址:http:///79..16..17..82到可信任任的“网站”列表中,,安全级别别调整到到“低”。进入【Internet选项】常规页,,Internet临时文件件框,,按“设置”按钮,选选择“每次访问问此页时时检查”。详细见下下载文档档。控件安装装进入“安安徽国税税统一工工作平台台”,打打开页面面“下载载安装””链接,,系统检检测需安安装的插插件,点点击““系统插插件安装装”链接接。安装装下载的的“报表表”控件件。详细见下下载文档档。安装FLASH插件进入“安徽国税税统一工工作平台台”,打开页页面“下载”按钮,点点击“FLASHPLAYER10插件下载载“超链接,,下载“FLASHPLAYER10”插件,安安装下载载的“FLASHPLAYER10”插件。详细见下下载文档档。解决树形形菜单显显示问题题由于IE版本的不不同,树树形菜单单有时只只能显示示第一层层,不能能显示下下面的第第二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论