数据仓库建设需求_第1页
数据仓库建设需求_第2页
数据仓库建设需求_第3页
数据仓库建设需求_第4页
数据仓库建设需求_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库建设需求一、项目概况在企业的数字化转型浪潮中,数据被誉为“新时代的石油”,而数据仓库作为数据管理与分析的核心基础设施,在企业的信息化建设中扮演着重要的角色。数据仓库是为了便于多维分析和多角度展现,而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库系统体系结构:数据源->ETL->数据仓库存储与管理->OLAP->BI工具。数据源数据仓库系统的数据源泉,通常包括企业各类信息,包括存放于RDBMS中的各种业务处理数据和各类文档数据;各类法律法规、市场信息和竞争对手的信息等等。在互联网常见的产品中,一般的数据来源还有产品端的数据,包括订单类到业务类,日志类到用户行为类,角色类到用户画像类和商家属性类。ETLETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。抽取:抽取前期需要做一些调研工作,主要包括:弄清数据是从哪几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS。是否存在手工数据,手工数据量有多大。是否存在非结构化的数据。需要明白的是,需要为各种类型的数据做准备。因为在市场往前发展的过程中,会延伸出来很多新的需求和变化。有时候为了临时支持某些决策和功能的监控,必须采用这些原本不在计划中的数据类型。清洗与转换:数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。清洗的数据种类:不完整数据,错误数据和重复数据。这种情况在对Log日志数据的清洗比较常见。如外卖早期通过数据探查发现了很多记录的缺失和埋点的错误。幸而发现的早,并没有造成大量的数据缺失和错误。数据转换的内容包括编码转换(m/f->男/女),字段转换(balance->bal),度量单位的转换(cm->m),数据粒度的转换。业务系统数据存储非常明细的数据,而数据仓库中数据是用分析的,不需要非常明细,会将业务系统数据按照数据仓库粒度进行聚合.商务规则的计算:不同企业有不同的业务规则,不同的数据指标,在ETL过程,将这些数据计算好之后存储在数据仓库中,供分析使用(比如KPI)。加载:经过前两步处理后的数据可直接加载入数据仓库。数据的存储与管理:数据的存储和管理是整个数据仓库的核心,是关键。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。从数据仓库的技术特点着手分析,来决定采用什么产品和技术来建立数据仓库,然后针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。OLAP服务器对需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。BI工具主要包括各查询工具、数据分析工具、数据挖掘工具、报表工具以及各种基于数据仓库或数据集市的应用开发工具。数据分析工具主要针对OLAP服务器。报表工具、数据挖掘工具主要针对数据仓库。我院现有数字化应用系统40个,各个应用系统使用对象和用途不同,随着业务融合和管理提升的需要,现有模式存在以下不足:一是系统分散,产生的数据分散在各应用系统,缺乏统一的聚集手段,存在数据孤岛,导致数据的互联互通不畅,数据资源利用率低。二是系统的融合度不高,数据标准不统一,数据无法便捷提取,各系统之间集成采用的是一对一接口方式,建设和维护成本较高。二、项目目标为了打破信息壁垒,推进业务协同和数据共,通过建立统一的标准规范、安全保障、运行维护体系,按照遵循“一数一源,一源多用”的原则,建设集数据汇集,数据治理,数据共享等功能为一体的数据仓库,使得各应用系统既是数据的产生和提供者,也是数据的使用者,实现我院数据资产统一管理、统一存储和统一共享。数据仓库建设的基本要求如下:1.数据质量高:数据仓库是聚合来自不同来源的数据,因此需要对源数据进行清洗、整合、标准化等处理,以确保数据质量高、准确性好、可信度高。2.数据安全性好:数据仓库需要存储企业的核心数据,要确保数据安全性,防止数据泄漏、数据不当使用、数据被破坏等情况。3.数据一致性好:数据仓库需要维护和管理来自各个数据源的数据,因此需要保证数据的一致性、标准化和格式化等。4.数据可追溯性:数据仓库需要能够追溯数据的来源和变更,以形成全面的数据历史记录,方便数据分析和数据挖掘等。5.数据可扩展性强:企业的数据量和类型会不断增长和变化,因此数据仓库需要具备高度的可扩展性和灵活性,以应对未来的业务变化和扩展需求。6.数据查询性能好:数据仓库的主要目的是支持企业的数据分析和决策,因此需要具备高效的查询和报告生成功能,以提高数据分析的效率。7.数据仓库的维护成本低:数据仓库需要的硬件和软件资源相对较高,因此建设和维护成本也相对较高,企业需要在建设和维护过程中控制成本,降低数据仓库的成本。三、项目内容项目包含主要内容:(1)建设数据仓库基础软件平台1套:建立统一的数据汇集和治理平台,该平台能实现多源异构数据(多应用系统不同类型数据库)的采集、存储、清洗、共享和API接口发布等功能;支持信创环境部署。(2)项目实施服务:构建我院数据仓库底座,包括基础数据,业务数据和历史数据迁移;(3)形成一套数据使用和管理规范,包括数据库设计规范、数据使用管理规范、数据接口标准规范、数据运维管理规范;(4)配套提供该平台的运行环境。具体包括:1.建设一套统一的数据汇集和治理平台技术侧采用成熟的软件平台,建立统一的数据汇集和治理平台,该平台能实现多源异构数据(多应用系统不同类型数据库)采集、存储、清洗、共享、融合服务功能要求。业务侧覆盖全院人力、财务、科研、资产、检验、项目等各业务条线指标体系。支持指标体系存储、更新、定义。同时支持信创环境部署和使用。2.建立一套统一的数据交换接口服务平台支持通过可视化操作,快速生成数据发布API,提供数据访问接口实现数据对接;支持自定义SQL模式生成、API分页配置,支持绑定参数进行动态筛选。同时支持API测试,API运维管理,API授权,API加密调用等功能。3.形成一套数据使用和管理规范通过项目实施,形成符合我院实际的数据库设计规范、数据使用管理规范、数据接口标准规范、数据运维管理规范,进一步提高数据资源使用和管理规范性。四、功能要求一、软件部分(1)数据仓库基础平台1套模块子模块功能功能描述1、数据开发常规节点常规节点:包含数据同步、SQL脚本、参数赋值、条件分支、虚拟节点、调用任务、消息通知节点。循环容器循环容器:包含循环容器节点的功能。调度配置调度配置:定时ETL的调度配置功能。任务运维任务运维:包含任务各阶段的任务数量,调度简介与周期,运行记录日志等运行监控,自定义调整硬件资源使用阀值,便于硬件资源利用率优化。数据转换-基础算子包数据转换-基础算子包:数据转换依托自身Spark引擎强大的能力,保证了数据的分析处理性能,此项包含数据转换中基础类型算子。数据转换-高级算子包数据转换-高级算子包:在数据转换-基础算子包基础上,增加大量复杂计算逻辑出算子,使得数据转换节点中可实现复杂数据分析处理过程。2、数据源管理基础数据源基础数据源:包含mysql,Oracle,SQLServer,PostgreSQL,DB2,RestAPI,FTP等最用的数据源种类。3、B/S运维管理平台系统管理系统管理:包含外观配置、系统运维、系统配置、插件管理、用户管理、数据配置,平台安全防护及用户信息监控的综合门户。智能运维智能运维:智能检测系统存在的问题和风险,阈值预警,为系统稳定运行提供保障。集团权限控制集团权限控制:支持分配数据源连接权限,任务设计权限以及任务查看和管理权限的多个层级分配,借以达到多部门共用系统且多个管理员分级管理的目的。短信平台短信平台:开通短信平台功能,无缝对接帆软系统和任务的短信通知,比如任务失败通知、身份验证、系统消息通知等等,短信费用按需收费。4、数据源管理进阶数据源-大数据进阶数据源-大数据:包含大数据场景中常见的数据源种类,如数仓引擎SAPHANA、Hive,Impala,Presto、ClickHouse等。5、数据管道管道任务管道任务:包含读取方式选择、读取起点配置、写入设置、资源控制设置、源端数据结构变更设置、错数队列设置、预警通知设置等功能,实现5分钟完成两个数据系统间的同构/异构数据实时同步配置,支持多表或者整库的自动数据初始化,断点续传和实时增量同步。数据监控及补全数据监控及补全:针对单表能够及时发现数据差异,并在发现数据差异时,可以快速便捷地处理差异,减少数据异常对业务的影响时间,保证源侧与目标侧数据一致,并可在差异处理后分析差异原因。6、数据源管理高阶数据源-指定公有云(API&Webhook)高阶数据源-指定公有云(API&Webhook):针对指定公有云应用的API&Webhook进行易用性优化定制数据源,满足定时同步和实时同步场景。高阶数据源-Mysql(Binlog)高阶数据源-Mysql(Binlog):基于Mysql的Binlog日志解析进行数据增量抽取,支持数据本身及其元数据(DDL)的增量变化,要求Mysql5.6及以上。高阶数据源-Oracle(Logminer)高阶数据源-Oracle(Logminer):基于Oracle的Logminer日志解析进行数据增量抽取,支持数据本身及其元数据(DDL)的增量变化,要求Oracle版本在9i~19c。高阶数据源-Oracle(CDC)高阶数据源-Oracle(CDC):基于Oracle的CDC最小基本日志进行数据增量抽取,仅支持数据本身的增量变化,要求Oracle版本在9i~11c。高阶数据源-Sqlserver(CDC)高阶数据源-Sqlserver(CDC):基于Sqlserver的CDC最小基本日志进行数据增量抽取,仅支持数据本身的增量变化,要求Sqlserver版本在为企业版(EnterpriseEdition)需要2008及以上版本,标准版(Standard)需要2016SP1及以上版本。高阶数据源-PostgreSQL(wal2json)高阶数据源-PostgreSQL(wal2json):基于PostgreSQL的wal2json日志解析进行数据增量抽取,仅支持数据本身的增量变化,要求PostgreSQL9.6及以上。高阶数据源-IBMDB2高阶数据源-IBMDB2(CDC):基于IBMDB2的CDC最小基本日志进行数据增量抽取,仅支持数据本身的增量变化,要求DB2为EnterpriseServerEdition版本。7、数据API服务API数据准备API数据准备:同一API可以从单个数据表或者SQL数据集中取数,并且在API的基础数据中允许绑定参数进行动态筛选。API管理API管理:0代码/低代码可视化配置提供API的数据订阅服务,包含API地址设置,参数绑定,安全设置等。以及完成API业务包的管理动作。API监控台API监控台:对单个API的请求时间,请求地址,响应时长,返回码等进行实时记录和监控。二、软件部分(2)项目实施服务服务项具体功能功能描述1、数据仓库规划数据仓库调研、规划为加快特检院数据治理体系建设,明确数据治理归口管理部门,加强数据标准化元数据和主数据管理工作,定期评估数据治理能力成熟度。加强生产现场、服务过程等数据动态采集,建立覆盖全业务链条的数据采集、传输和汇聚体系。加快数据管理平台体系建设,创新数据融合分析与共享交换机制。强化业务场景数据建模,深入挖掘数据价值,提升数据洞察能力。构建符合业务需求的标准数据模型,并逐渐沉淀特检院标准数据考核模型,数据考核模型应符合甲方系统规范,并通过审查。完成数据模型设计说明书。对于关键数据,需要完成数据探查并完成数据探查报告,用以辅助数据模型开发。2、元数据管理实时存储构建融合流处理等技术,支持特检院大数据的高效储存和统一管理,为特检院决策提供实时的数据支撑。在数据集上同时进行离线计算和流式处理,满足高吞吐大数据量和低时延实时处理等多方面的数据计算要求。离线存储构建对在线存储的数据进行备份,防范可能发生的数据灾难,又称备份级的存储。实现对离线硬盘数据的完全控制,防止硬盘数据的非法读写与修改。实现对预警硬盘的备份复制。多引擎计算构建集成Hive、Flink、ES等数据引擎进行并线计算。可根据计算优先级进行存算资源调配。存算任务支持断点续传。运维管理构建支持可视化运维管理界面,运维成本低,支持集群资源灵活调整,资源使用率高。数据管控构建具备多租户权限管理能力,支持Kerberos身份认证和数据加密,使用Ranger数据访问控制。3、主数据管理主数据建表方便地管理主数据、检索主数据,并基于业务实际使用情况及用户反馈,帮助特检院建立主数据对照标准。包含主数据标准制定、检索、多系统多维分析。标签服务检索基于数仓ETL加工好的维表、事实表,围绕业务对象进行标签数据模型搭建,方便不同类型标签的加工调用。包含标签建模可视化、多种标签开发模板、支持动态标签调参数据应用构建对产出元数据标签进行分群圈选、画像洞察等操作,快速验证数据准确性。

包含分群圈选验证、多维画像洞察4、主题域构建贴源层构建(ODS)建议基于高性能数据库进行数据仓库实施,ETL数据跑批更新频率建议为T+0,部分冷数据可酌情考虑调整为T+1。

ODS技术指标:源数据同步更新,并进行去重、标准化、脏数据过滤等动作。结果层构建(DW)建议基于高性能数据库进行数据仓库实施,ETL数据跑批更新频率建议为T+0,部分冷数据可酌情考虑调整为T+1。

DW技术指标:基于ODS进行维度构建,初步形成面向业务主题的结果表。后续可结合维度表进行结果数据输出。集市层构建(ADS)建议基于高性能数据库进行数据仓库实施,数据跑批更新频率建议为T+1,部分财务数据可酌情考虑调整为T+7。

DM技术指标:严格面向主题场景的结果表,又名数据集市。能够快速响应数据查询诉求。主题域-财务模型(含ODS、DW、ADS)财务管理主题基于特检院OA管理系统全模块的数据进行财务主题分析建设,通过OA系统数据中间库获取相关指标等数据,多维度综合分析特检院财务状况,满足领导对特检院财务指标的全貌管理关注需求,并实现数据的溯源。主题域-科研实验模型(含ODS、DW、ADS)科技管理主题基于内控项目管理和LIMS系统板块的数据进行科技管理主题分析建设,提炼科研项目,装备项目进度管理,科研成果及成果转化等指标,按项目,人员,部门等不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论