2024发电企业数据仓库规划方案_第1页
2024发电企业数据仓库规划方案_第2页
2024发电企业数据仓库规划方案_第3页
2024发电企业数据仓库规划方案_第4页
2024发电企业数据仓库规划方案_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

发电企业数据仓库规划方案2024目录TOC\o"1-2"\h\u307131.1.数据仓库概述 2284621.2.业务场景及需求分析 3105651.2.1.实时入仓和实时分析 4209451.2.2.数据汇聚和数据治理 4291581.2.3.大数据离线计算生成专题库 5107281.3.设计原则 5186421.3.1.总体架构设计 6102921.3.2.功能设计 9253061.3.3.系统运维管理设计 17166291.3.4.兼容性设计 18294831.3.5.可靠性设计 19212211.3.6.安全性设计 19319521.3.7.先进性说明 21243761.3.8.存储规划设计 2295302.1数据仓库分层架构规划 2488242.2数据仓库业务域规划 26143652.3数据仓库模型管理规划 2775491. ETL配置管理: 28202612. ETL元数据管理: 28222143. ETL资源监控及分配管理: 28256724. ETL执行监控管理: 2981945. ETL报障处理管理: 2930152.4数据仓库模型设计方法 291数据仓库设计数据仓库概述黄河公司目前具有大量光伏、风电、水电、火电厂等生产数据资产以及企业经营管理类数据。信息化系统建设中,数据作为系统基础支撑,需要对各类子系统所有的数据进行接入,形成系统化体系。业务场景及需求分析数据接入:DRS:从业务数据库中实时同步增量数据;Kafka:接入Kafka缓存的实时数据;CDM:从业务数据库或者文本数据同步批量数据;DIS:实时流数据接入。数据存储:本地存储:一般情况下数据存储在数据仓库节点数据盘上;HDFS:与大数据MRS配合方案时,大数据加工后的数据可以使用数据仓库外表方式读取;OBS:大量数据导入到数据仓库时,可以先放到OBS上,再以数据仓库外表方式写入到数据仓库;或者是历史数据可以归档到OBS中,使用是可以以数据仓库外表方式读取。数据治理:实现数据加工、数据治理、业务调度。数据应用及BI工具:专业BI工具,如永洪、帆软。实时入仓和实时分析该场景要求生产数据实时入仓,并提供实时数据分析和交互式查询能力。数据源通常来自于生产数据、供应数据、销售数据、财务数据等,通过数据仓库的高性能计算,为企业管理者提供大屏展示、统计和预测、详单查询。数据仓库需具备:数据汇聚和数据治理该场景要求数据仓库汇聚ERP、CRM、SCM、OT等各个系统的数据,并对数据进行分层加工、汇聚、统计,通过数据仓库的建设打通部门之间信息壁垒、连通数据孤岛,从而构建领导决策分析体系,为经营分析和决策提供数据支撑。数据仓库需具备:大数据离线计算生成专题库该场景需要先用大数据平台进行原始数据的离线加工计算,生产主题数据;专题数据高效快速的抽取到数据仓库,或者建立外表直接查询;上层应用基于数据仓库再进行交互式查询、自助分析等业务应用。数据仓库需具备:设计原则简明性(Simplicity)数据仓库的架构设计应当遵循简单性原则,架构易于理解且不失精细。基于简单性原则设计的系统更小,在其生命周期中更易于理解、建设、维护和管理。抽象性(Abstraction)数据仓库的架构设计应实现数据与过程分离的抽象性,提取关键特性进行抽象和简化,消除物理依赖和紧耦合,并尽量屏蔽复杂性。隔离性(Isolation)数据仓库架构设计中的隔离性指的是功能划分和解耦。功能组件相互隔离能够保证体系架构的结构化,功能组件的变更不会对对其他部分的造成过度影响。扩展性(Scalability)考虑到保护用户投资等多种因素,大多数计算机系统都有对扩展能力方面的要求。为保证可扩展性,数据仓库的体系架构采用模块化设计方式,保证软硬件具有模块化扩展能力,以适应扩大应用范围、增加多种功能的需要。系统能够支持系统规模的扩充,能实现对现有系统和未来系统的灵活性支持,保证在可以预期的时间范围内系统的可持续扩展。伸缩性(Extensibility)数据仓库的体系架构需要能够适应未来业务需求不断变大的升级要求,支持未来需求而无须变更或引起大的改变。合理设计的架构,能提高系统的生命力。结合系统的扩展能力,使得整个架构可以随着业务的增长而发展。完整性(Integrity)在数据仓库设计和实施过程中,为保证数据和处理流程在整个仓库中具有完整性,整个架构应该提供从源到目标的完整性,利用可审计的流程来保障业务信息的正确性,保证相同的问题总是能得到相同的结果。总体架构设计本期项目数据仓库采用华为云stack数据仓库服务GaussDB(DWS)。数据仓库服务(GaussDB(DWS),简称DWS)是一种在线数据处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务。DWS是基于华为融合数据仓库GaussDB产品的云原生服务,兼容标准ANSISQL99和SQL2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案GaussDB(DWS)基于Shared-nothing分布式架构,具备MPP大规模并行处理引擎,由众多拥有独立且互不共享的CPU、内存、存储等系统资源的逻辑节点组成。在这样的系统架构中,业务数据被分散存储在多个节点上,数据分析任务被推送到数据所在位置就近执行,并行地完成大规模的数据处理工作,实现对数据处理的快速响应。数据加载工具、ETL(Extract-Transform-Load)工具、以及商业智能BI工具、数据挖掘和分析工具,均可以通过标准接口与GaussDB(DWS)集成。GaussDB(DWS)兼容PostgreSQL生态,且SQL语法进行了兼容Oracle、Teradata和MySQL的处理。应用只需做少量改动即可向GaussDB(DWS)平滑迁移。支持应用程序通过标准JDBC4.0和ODBC3.5连接DWS。一个GaussDB(DWS)集群由多个在相同子网中的相同规格的节点组成,共同提供服务。集群的每个GaussDB(DWS)负责存储数据,其存储介质是磁盘。协调节点(CoordinatorNode)负责接收来自应用的访问请求,并向客户端返回执行结果,此外,协调节点还负责分解任务,并调度任务分片在各DN上并行执行。支持将集群快照自动备份到EB级对象存储服务OBS(ObjectStorageService)中,方便利用业务空闲期对集群做周期备份以保证集群异常后的数据恢复。快照是GaussDB(DWS)集群在某一时间点的完整备份,记录了这一时刻指定集群的所有配置数据和业务数据。提供了数据并行加载工具GDS(GeneralDataService)、SQL语法迁移工具DSC、SQL开发工具DataStudio,并支持通过控制台对集群进行运维监控。Shared-nothing/MPP架构GaussDB(DWS)是基于通用x86平台和华为鲲鹏平台,支持redhat和SUSE等主流linux平台,shared-nothing/MPP架构,具备高性能,高扩展性,高可用等特性,支持多达2048节点的扩展能力,支持PB级的数据存储和分析能力。通常OracleShared-diskRAC架构通常适合小事务高并发场景,在大规模数据处理(10TB~PB)时,因为无法充分利用整集群CPU/IO的全并行能力,导致在处理规模数据复杂查询时显得力不从心,基于Shared-nothing/MPP极致对等的计算模型可以充分利用CPU/IO/Mem资源,将计算均匀分布在多个计算节点上,获得更好的查询性能以及更好的扩展性,当前很多系统都是100TB甚至PB级数据规模,在各个领域MPP数据库已经成为EDW的主流建设方案。分布式存储数据库数据入库时通过hash算法将数据精确存储在物理节点,在查询时可以很快精确定位到数据存储位置。分布式存储获得性能优势在于:分布式计算GaussDB(DWS)在节点内采用SMP并行架构,在节点间采用MPP并行架构。在集群的单个节点内,对数据库常用算子,如扫描、关联、排序、聚合的步骤之间,利用现代计算机的多核计算理论,采用流水线方式,实现了高度并行的计算能力。在集群范围内,可生成分布式执行计划,通过分布式并行执行引擎,该执行计划可以依据查询类型、数据分布方式、数据规模进行自动评估,产生最佳的查询执行路径,合理利用集群资源,将计算下发到各个数据节点执行,并行利用节点的计算能力。执行计划会根据数据的分布情况,自动将查询发送到合理节点,避免查询发送到无意义的节点而造成无意义的数据处理和计算。在数据库里面主要的计算操作包括Join、Sort、Groupby。行列混存通常按列存储,因为每列数据属性相同,数据相似度较高,所以通常基于列存的存储压缩比远远高于行存压缩比,使用列存主要获得性能优势在于:功能设计高效即席查询自助查询面向动态分析等的实时查询服务和不固定的查询需求,需要数据库集群具备即席查询的支撑能力,能够根据不同用户的不同需要灵活的进行高性能即席查询。min-max智能索引与传统数据库的细粒度索引不同。传统数据库的细粒度索引是根据查询条件,建立索引,从而优化查询性能,但仅适用于已知查询条件的应用场景。面对即席查询应用场景下,查询条件的随机性,传统数据库索引不可能对全部字段建立索引,因为这样不仅造成极大的数据库膨胀,而且会对数据增加和修改操作带来极大的性能影响,因此传统数据库的细粒度索引不满足即席查询应用场景。而GaussDB(DWS)定位于海量数据分析类应用,针对即席查询进行了优化设计,采用基于列存储和数据包的min-max智能索引,该智能索引技术面向数据库表的全字段建立,在数据加载时自动生成,无需人工维护,而且数据膨胀率极小。这些特征都能够极大提高即席查询的能力。高并发能力高并发的本质是降低单个查询对系统资源的消耗,GaussDB(DWS)通过数据Hash路由、分区剪枝、列存储高效压缩算法、Psort/min-max索引等一系列技术降低单个查询对系统资源的消耗,提升并发能力。高可用能力华为并行数据设计之初就考虑到了数据库系统的高可用,从硬件到软件,设计无单点故障,主要包括以下几个方面:动态资源管理通过资源管理特性限定用户SQL的执行优先级,可以控制单用户的计算资源和IO资源,避免过度消耗,和用户使用的磁盘工作空间和配额,避免单一用户占用较多资源。用户可以灵活的控制一个Session或Query可使用的运行期系统资源:自适应负载管理通过自适应负载特性允许用户执行任意并发数量的作业,不再需要配置数据库系统max_active_statements参数及work_mem参数,数据库系统根据负载情况,自动决定可允许执行作业的数量,实现参数免调优,保障高并发、高负载下的稳定运行。支持OLAP函数支持的OLAP函数包括avg()、over()、sum()over()、rank()over()、row_number()over()等。支持强大的数据仓库功能,具备对指标汇总、立方体生成、立方体钻取等的高效处理能力。高效数据入库在数据库迁移中,数据迁移占据着非常重要的位置,业务系统又数据量极大,这样需要高效的数据入库能力。GaussDB(DWS)提供GDS(GaussDataServer)工具,能够快速高效地进行文本数据入库。并行导入的基本原理:数据加载机上GDS进程读取磁盘上文件,将文件按照一定大小分片下发给各DN节点,DN节点收取GDS进程发的数据再做重分布,充分各节点能力分布式并行加载。使得性能可达到10T/小时,实现数据快速入库。数据备份恢复GaussDB(DWS)支持多种形式的数据备份:通过ETL、gs_dump、copyto、GDS、Roach进行备份。可以借助ETL工具,直接对接GaussDB(DWS),把表数据从数据库中抽取到别的库中。应用场景:数据量不大的表数据备份。gs_dump是GaussDB(DWS)提供的逻辑备份工具,它可以对数据库进行完整的一致备份,支持将数据库中的对象定义和数据导出为文件,并可以使用gs_restore工具进行恢复。应用场景:对象定义备份,数据量不大的表数据备份。copyto是一种sql语句级别的数据导出方式,可以把指定的表、或者select语句导出为文本数据。应用场景:数据量不大的表数据备份;select结果集备份。GDS(GaussDataServer)是GaussDB(DWS)并行数据导入导出工具,进行可以把文本数据导入到数据库中,也可以把数据库表数据导出为文本。应用场景:数据量大的表数据备份。Roach是GaussDB(DWS)提供的,可以进行集群级和schema级别的物理备份工具。应用场景:为数据库提供不同级别的备份能力。包括集群级的物理备份恢复,schema级别备份表级别恢复场景。数据分区管理数据分区是在一个节点内部对数据按照用户指定的策略对数据做进一步的水平分表,将表按照指定范围划分为多个数据互不重叠的部分。对于大多数用户使用场景,分区表和普通表相比具有以下优点:GaussDB(DWS)支持的分区表为范围分区表。将数据基于范围映射到每一个分区,这个范围是由创建分区表时指定的分区键决定的。这种分区方式是最为常用的。用户可以在实际使用中根据需要调整建表时的分区键,使每次查询结果尽可能存储在相同或者最少的分区内(称为“分区剪枝”),通过获取连续I/O大幅度提升查询性能。实际业务中,时间经常被作为查询对象的过滤条件,因此,用户可考虑选择时间列为分区键,键值范围可根据总数据量、一次查询数据量调整。集群扩容随着业务量的增长,集群存储容量、计算能力或服务能力无法满足业务需求时,需要考虑对集群进行扩容。扩容后弹性计算华为云数据仓库服务业务规模持续扩增,且有突增业务负载,在月末或者季度末各个业务存在数据分析峰值的负载,计算资源成为较大的瓶颈点。在此业务背景下,云化弹性架构成为关键诉求,计算的弹性能力的成为产品关键竞争力。(1)资源隔离方面:支持在原有MPPDB集群基础上,根据不同的业务负载更进一步切分成子集群NodeGroup,以此作为独立的业务负载服务子系统。用户逻辑层面子系统用户能够独立管理该业务系统内部的数据和表对象。数据存储方面能够从物理存储上做到业务系统之间业务的隔离。同时能够独立集群内的用户-对象权限管理,达到跨子集群对象访问控制。如果NodeGroup的创建考虑到DN和物理节点的对应,NodeGroup从逻辑上等同于一个小规模的集群,最终达到用户、数据、资源的物理隔离。(2)计算弹性方面:支持SQL的执行在指定NodeGroup上执行、能够在不做系统扩容的前提下瞬间达到“扩展计算容量”,体现了计算弹性能力。映射到在云化场景DN计算资源池或者大集群场景中能够实现某一子业务系统利用其它空闲业务子系统的DN计算资源,考虑到不同业务子系统负载的时序变化不同,这样能够充分互用空闲资源进行计算,同时也通过设置SQL执行的NodeGroup可以把SQL的执行限定在一个特性的DN节点集合内达更细化的计算资源隔离。在线扩容引入执行层IUD增量框架来记录扩容重分布阶段产生的UPDATE、DELETE、INSERT增量,然后合并增量,做到基线数据数据扩容重分布过程中不阻塞用户的IUD操作,实现在线扩容期间业务不中断,查询高效。平滑升级支持数据库版本间平滑升级,升级过程无需数据迁移。根据版本间的差异自动选择小版本(二进制替换)升级和大版本(全量重建)升级。并且能够通过图形化界面进行升级。数据库的升级主要包括数据库软件本身的升级和管理的业务数据的升级。当现网版本与最新版本存在较大差异时,无法通过打补丁来替换为最新版本,需要通过大版本升级(全量重建)来完成数据库软件和数据的升级。大版本升级主要包含四个阶段:升级前环境检查环节;升级前备份环节;升级软件和数据环节和升级完成后清理环节。如果升级模块在某个阶段发生故障,则其会自动进入回滚流程,回滚到数据库原始状态。需要通过检查环境和修复故障后重新进行升级。在数据升级环节,利用数据、页面结构多版本和元数据就地修改技术,避免对用户数据和元数据的大规模全量重写,从而实现升级时间与数据库用户数据、元数据量解耦,保证不同用户场景,尤其是海量数据、元数据场景下,稳定、较短的升级时间窗口以及可控的用户业务影响。如果现网版本和最新版本差异不大,则可以通过小版本升级的方式来完成版本升级,即打补丁。小版本升级也分为四个阶段:升级前环境检查环节;升级前备份环节;升级软件和数据环节和升级完成后清理环节。如果升级模块在某个阶段发生故障,则其会自动进入回滚流程,回滚到数据库原始状态。全文检索华为分布式数据库提供了全文检索能力,全文检索(或者说文本搜索)提供了查询可读性文档的能力,并且通过查询相关度将结果进行排序。搜索最常见的方式是:找到包含指定查询词的所有记录,并且按照查询顺序返回这些记录。GaussDB(DWS)全文检索特性有如下:对接KafkaKafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理大规模流数据,是Hadoop平台常用的数据分发处理系统。当前大数据平台数量流量越来越大,对数据入库和分析的实时性要求也越来越高,华为分布式数据库也提供了对接Kafka的能力,每秒达到上百万条数据的入库能力。系统对外接口设计系统运维管理设计作为日常运维的管理层工具,管控面r为用户提供了统一的图形化工具,用于访问、控制和管理数据库集群。图形界面简洁、直观、友好,支持鼠标操作,操作习惯与主流数据库产品操作保持一致。实现对数据库的访问、控制和管理操作。作为该服务层的底层,由操作层代理功能和JDBC/ODBC等标准数据库访问接口提供数据访问和操作层支持。在数据库运行过程中,会生成大量日志文件,这些日志信息可以帮助快速定位问题,但是也会大量占用磁盘空间。所以建议定期对日志进行备份。在数据库运行过程中,会出现大量日志,既有保证数据库安全可靠的WAL日志,也有用于数据库日常维护的运行和操作日志等。在数据库发生故障时,可以使用这些日志进行问题定位和数据库恢复的操作。集群运行时CN、DN、GTM、CM以及集群安装部署时产生的日志统称为系统日志。如果集群在运行时发生故障,可以通过这些系统日志及时定位故障发生的原因,根据日志内容制定恢复集群的方法。操作日志是指数据库管理员使用工具操作数据库时以及工具被集群调用时产生的日志。如果集群发生故障,可以通过这些日志信息跟踪用户对数据库进行了哪些操作,重现故障场景。通过审计日志可提供新增用户、访问权限控制、用户权限变更、登录信息等各类日志管理功能。审计功能开启时会不断产生大量的审计日志,占用磁盘空间。您可以根据磁盘空间的大小设置审计日志维护策略。预写式日志WAL(WriteAheadLog,也称为Xlog)是指如果要修改数据文件,必须是在这些修改操作已经记录到日志文件之后才能进行修改,即在描述这些变化的日志记录刷新到永久存储器之后。在系统崩溃时,可以使用WAL日志对集群进行恢复操作。GaussDB(DWS)安装后,有CN、DN、GTM等实例配合工作。为了获取CN、DN、GTM实例的运行状态,了解其是否正常工作,GaussDB(DWS)会定时检查告警项并向上层模块上报CN、DN、GTM等实例是否有告警或者告警恢复。现有告警模块分为两种告警方式,在安装集群时,通过调用前置脚本中指定-T参数指定使用哪种告警方式。指定-T为1时,选择第一种告警方式;指定-T为2时,选择第二种告警方式。使用第二种告警方式时,需要确保防火墙开放514端口。兼容性设计支持64位Linux系列的操作系统和平台,包括:RedHat、SUSE、CentOS、EulerOS等。基于开放式硬件平台构建,支持主流存储和网络设备,具体包括:支持基于X86/华为鲲鹏的标准服务器;支持本地存储(SATA、SAS、SSD等);支持SSD存储介质作为二级I/O缓存;支持千兆、万兆网络;包括ODBC、JDBC,方便实现与第三方工具及应用的对接。可靠性设计GaussDB(DWS)设计之初就考虑到了数据库系统的高可用,从硬件到软件,设计无单点故障,主要包括以下几个方面:安全性设计GaussDB(DWS)安全解决方案由以下四部分组成:GaussDB(DWS)安全策略:GaussDB(DWS)的权限管理包括系统权限管理和对象权限管理。GaussDB(DWS)支持的系统权限有系统管理权限、安全管理权限、审计权限、登录权限、数据库创建权限。GaussDB(DWS)对不同的数据对象可以配置不同的权限,数据对象包括表、视图、字段、函数、表空间、数据库、名字空间等,可以配置的权限包括创建、更新、删除、查询、执行、连接数据库等。GaussDB(DWS)支持权限分离策略,系统管理权限、安全管理权限和审计权限可以互相制约。同时可以控制用户私有空间下的数据不允许系统管理员访问。密码策略可配置,缺省提供强密码策略,提供密码更改策略控制。强密码策略包括:GaussDB(DWS)会对连接的用户、IP地址进行认证,只有通过认证的用户才可以操作数据库。同时GaussDB(DWS)可以限制每个用户的会话数目和每个数据库的会话数目。GaussDB(DWS)对敏感数据和密码加密,密码以不可逆加密算法加密,数据库管理员无法看到明文密码信息,数据库文件中不会包含密码的明文信息。密码默认使用SHA256加盐算法加密。GaussDB(DWS)可以使用SSL安全协议算法进行网络连接,有效阻止了包括中间人攻击在内的攻击。GaussDB(DWS)的所有文件只有安装和运行GaussDB(DWS)的用户和系统管理员可以访问,进行读、写、执行等操作。安全事件(如登录、用户维护、授权等)记录到审计日志中。重要的系统事件、运行状态报告、资源告警等均记录到系统日志中。具有审计权限的用户可以查看审计日志。GaussDB(DWS)集群内部网络和业务网络隔离,减少网络攻击面。集群内部所有应用程序仅监听内网地址,外部应用程序只能连接对外开放连接的CN节点执行SQL,不能连接其他内部程序监听端口。GaussDB(DWS)可以将用户关心的数据库操作记录到审计日志中,只有具有审计权限的用户才可以查看这些审计信息。先进性说明GaussDB(DWS)拥有自主知识产权,国内外专利数达40项以上,同时支持通用x86和ARM架构服务器,架构上基于全对称分布式Active-Active的Shared-nothingMPP架构,全分布式并行执行。GaussDB(DWS)支持分布式事务强一致和基于MVCC机制的并发控制,支持行存和列存存储格式混合查询,以及完善的分区表、全文索引,以及HDFS和OBS数据融合分析能力。GaussDB(DWS)无单点故障设计,支持各类作业和故障监控和自动切换,RTO<60s,支持故障作业自动重跑,支持过载保护和资源隔离,支持物理和逻辑备份及细粒度备份,支持跨AZ、跨region容灾,保障业务可靠性。GaussDB(DWS)支持在线扩容、升级闪断等在线运维能力,支持完善的图形化监控运维系统,支持审计日志、通信加密和数据透明加密,以及丰富的权限管理、数据脱敏等高安全特性,业界领先。存储规划设计存储需求评估根据能源行业经验:水电站每10MW装机容量每年产生数据量2GB;光伏电站每10MW装机容量每年产生数据量10GB;风电站每10MW装机容量每年产生数据量5GB;火电厂每10MW装机容量每年产生数据量2GB;电力协同(铝业、光伏、多晶硅产品制造)等3年产生数据量预计1TB;信息化系统,包括新能源智能运维生产管理系统、ERP生产管理模块、电站巡检系统、门禁系统、MES系统等3年产生数据量预计6TB。数据总量汇总如下表:业务模块装机总容量(MW)每10MW装机容量每年产生数据量(GB)3年数据总量(TB)水电站10817.426.34光伏电站7203.81021.10风电站379255.55火电厂262021.54电力协同产业--1.00信息化系统(生产管理系统、ERP系统、MES系统等)--6.00合计41.53本期项目3年数据总量约41.53TB,预留20%的冗余,数据仓库可用容量需求总量为50TB。配置计算RAID系数GaussDB(DWS)推荐采用RAID5方式,RAID因子:0.83。数据副本采用主备节点机制:数据为两副本。磁盘信息单磁盘容量space=1.8TB、磁盘数disk=25。单节点存放数据量单节点数据容量=1.8TB(单磁盘容量)*25(磁盘数)*0.83(RAID系数)/2(两副本)*0.9(磁盘进制转换)=16.8TB节点数计算数据仓库节点数=总容量需求50T/单节点数据容量16.8TB=3数据仓库服务器配置硬件名称配置建议数量数据仓库节点机型:2U2路机架式服务器3CPU:2*英特尔至强(主频≥2.2GHz,每个处理器≥24核)内存:≥16*32G内存硬盘:1、2块SSD硬盘,单块要求≥960GB;2、25块SAS硬盘,单块要求≥1.8TB;网卡:≥2*10GERaid卡:支持RAID0、1、5

2数据仓库实施规划数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。其主要特性包括:通过本项目的数据仓库规划和建设,拟解决公司以下三类常见问题:1. 解决数据孤岛问题:当前,各个专业的业务数据分布在各个原系统,没有进行有效的汇聚整合,容易导致数据孤岛问题。完善的企业决策依赖于跨专业线条的数据支撑,需要跨专业数据融合,而数据孤岛问题将导致企业数据无法融合贯通,造就信息壁垒,导致公司拥有大数据,有效利用的只是小数据。2. 解决标准不一致问题:在经营管理、生产运营方面,各个业务系统由不同厂商独立开发,没有建立统一的数据标准。而实现“书同文、车同轨”的统一数据标准,是打通数据融合障碍,建立跨专业数据高效交互的前提。3. 解决数据重复建设问题:公司各专业线条独立进行数据开发,常导致“烟囱式”重复建设,数据缺乏沉淀和共享,不利于成本和效率。通过数据仓库的建设,可以根据业务之间的共性需求沉淀数据模型,共享给各个应用使用,避免各应用之间的重复性二次开发。2.1数据仓库分层架构规划数据仓库通常按分层架构进行设计构建,目前业内主流的数据分层架构如下图,本项目将基于黄河公司现有数据架构,根据具体数据需求情况,参考下图架构对黄河公司的数据架构进行调整优化。1. 近源层/基础层:从业务应用系统采集过来的数据,首先进入近源层。近源层一般采用和源系统相同的数据格式,且数据保持和上游系统一致,不进行数据清洗和加工。2. 标准层:依据既定的数据标准,对近源层接入的数据进行标准化处理,比如主数据标准化、参考数据标准化,从而形成高一致性的数据,支撑后续的跨专业数据融合统计工作。3. 整合层/明细层:明细层是数据仓库核心层,主要对近源层数据进行质量清洗、分主题整合、跨专业融合等,存储最细粒度的明细数据,以及历史数据。4. 共性加工层/汇总层:从各个数据分析应用中,提炼出多个数据应用共有的数据需求。通过对这些共性需求的加工,沉淀出各个应用都需要用到的数据成果,避免数据应用之间的重复性开发,提升数据成果复用。5. 集市层/应用层:直接面向专题数据应用的个性化需求进行数据模型开发,满足数据应用的特定数据场景下的用数需求。基于上述业内主流的数据分层架构,设计黄河公司的数据分层架构。以某发电公司的数据分层架构为实例,如下图,包括ODS贴源层、DWD明细层、DWS共性加工层、DM应用集市层四层组成。2.2数据仓库业务域规划对能源发电公司的所有业务流程、业务活动进行体系化的提炼和归纳,形成数据仓库的业务域规划,参考某发电公司的数据仓库业务域实例,一级业务域可划分为九大域,包括:人员域、安全域、财务域、生产域、项目域、物资域、燃料域、市场域、综合域,具体描述如下表:序号一级业务域缩写相关业务描述1人员域Hr主要描述人事管理、绩效、薪酬、组织管理等人员相关的数据,比如人才队伍建设、人才结构转向、人工成本等。2安全域Saf主要描述安全事件、安全监督、应急管理等安全相关的数据,比如重大危险源、高风险作业、安全培训、应急演练等。3财务域Fin主要描述总账、应收、应付、成本管理、预算管理、资金管理等财务相关的数据,比如财务费用、投资收益、单位费用、单位利润等。4生产域Pro主要描述生产指标、风机故障等生产相关的数据,比如发电量、风机总数、故障次数等。5项目域Prj主要描述项目规划、项目计划、项目执行、项目预算等项目相关的数据,比如工程进度、工程造价、基地建设等。6物资域Mat主要描述采购计划、采购合同、供应商关系等物资相关的数据,比如供应商、订单类型、库存、物料等。7燃料域Fue主要描述燃料、燃料经营风险防控、燃料运输等燃料相关的数据,比如来煤量、耗煤量、入炉热值、火车煤量等。8市场域Mrt主要描述市场管理、市场运营等市场相关的数据,比如发电量、上网电价、供热耗用原煤量、入厂原煤量等。9综合域Itg主要描述法律法规、审计管理、党建管理等综合型数据,比如合同主体、合同金额、案件情况等。本项目将对黄河公司实际的业务流程进行进一步调研、分析和归纳,从而将一级业务域进一步细化为二级业务域。针对二级业务域,可根据项目需要,以业务流程为粒度进一步对业务域进行细化。以某发电公司的安全域、财务域、燃料域、生产域、物资域为示例,进一步阐述各个一级业务域下面的二级业务域,以及二级业务域包括的业务流程,如下表:一级业务域二级业务域包含的业务流程描述安全域安全管理包括两票管理、风险管理、隐患管理、危险源管理、问题库管理、应急演练、反违章管理等业务流程。安全域设备管理包括设备台账管理、技术监督、检修管理、缺陷管理、工单管理等。安全域运行管理包括值班管理、异常分析、作业管理、日计划管理等财务域贷款管理包括贷款基础信息、贷款流程、应付票据等财务域收付款管理包括供应商财务信息、发票管理、收付款处理、应收票据等财务域预算管理包括预算编制、分解、调整、执行分析等全过程信息财务域资金管理包括资金计划编制、调度编制、调度执行等全过程信息财务域总账管理包括凭证管理、生成总账、会计科目、财务报表等信息燃料域化验管理包括采样、合样、借样、制样、存样、销毁等全流程信息燃料域进出厂管理包括调运计划、来煤批次、运输管理、入厂登记、入厂计量、出厂登记等全过程信息燃料域煤场管理包括煤场调配、入库、盘点、合并、拆分、入炉计量、掺烧、损耗、出库等全过程信息燃料域燃料采购管理包括需求计划、采购计划、库存计划、招标管理、采购管理、供应商管理、煤矿管理等全过程信息燃料域燃料核算及结算管理包括燃料成本核算、燃料结算管理等生产域发电生产包括发电产能、供热产能、综合厂用电、可靠性管理等生产域能源环境包括风资源、光资源、水资源等能源环境信息生产域设备运行包括生产设备管理、设备运行量测等物资域采购管理包括采购计划执行与分析、采购计划调整物资域仓储管理包括物料的到货验收、调拨、入库、盘点、补库、出库、移库、退库等全过程信息物资域招投标管理包括招标方案、评标、定标、合同管理、供应商评价等信息2.3数据仓库模型管理规划规划内容主要包括:制定公司模型管理办法,管理模型建设工作中的模型需求,针对模型新增、模型变更、模型下线、模型运维等流程,形成体系化、流程化的数据模型管理机制。制定数据模型管理制度的第一步是需求和现状调研,围绕数据模型管理的最终目标,制定调研提纲,完成需求和现状调研。提纲至少包括:1. 当前数据模型管理现状:包括模型需求方、建设方、管理方、运维方等,了解各方职责分工,了解当前模型新增、变更、下线流程等。2. 当前数据模型管理目标:了解通过实施数据模型管理,最终要达成什么样的目标,起到什么样的效果。3. 数据模型管理范围:了解哪些部门和人员需要参与到数据管理工作中,主要的职责分工和定位。4. 数据模型管理工具:了解当前有哪些工具可以用于支撑数据模型的线上化管理,便于对比选择最优工具。完成需求和现状调研后,接下来开始数据模型管理制度的设计。数据模型的生命周期总体分为新增、变更、下线这三个阶段,针对上述三个阶段,将分别制定数据模型的管理制度,主要设计要点包括五个方面:1. 角色:定义参与数据模型管理角色,以及角色对应的职责。2. 流程:通过流程图,直观描述出数据模型管理的业务流程。3. 环节:确定流程上每一个工作环节点,包括实施什么工作,哪些角色参与。4. 输入:确定每一个环节的输入内容,并定制相关内容模板,便于规范工作。5. 输出:确定每一个环节的输出内容,并定制相关内容模板,便于规范工作。数据模型上线后,需规划制定数据模型的运维机制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论