版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、企业数据中心系统平台技术建议 PAGE i第 PAGE 45页共 NUMPAGES 45页总体建设计划建设总体思路图,数据中心建设构想图按照对数据中心的理解,一个完整的数据中心应该具备IT基础设施(主机、存储和网络)、企业ETL平台、数据存储中心、数据共享服务、应用层、统一门户和数据控制平台。功能框架图,功能框架系统的功能框架分为企业ETL平台、存储和计算中心、服务层、应用层、统一门户和统一平台管控。企业ETL平台:负责企业数据中心数据采集、处理、聚合、分发的过程,完成企业级数据标准化和集中化,实现数据脉络化和关系化,实现统一的数据处理,包括非实时数据处理和实时数据处理,提供数据抽取、数据转换
2、、数据加载、数据聚合、数据分发、数据挖掘等能力。使用存储和计算中心:建立统一的数据中心数据模型,以及统一的数据存储和计算,具体提供关系数据库、分布式非关系数据库、分布式文件和分布式计算,实现统一的数据存储和计算。数据共享服务:通过标准化、开放的数据服务接入,帮助企业在IT建设中将应用与数据分离,引入更多的应用开发者,促进应用的百花齐放和应用的专业化;基于标准化接口,API包的数据查询如标签、客户视图、指标等。实现了与外围系统的实时交互,体现了数据价值,减少了数据冗余,保证了数据安全性和数据一致性。应用层:应用层中的应用程序使用服务层提供的各种数据服务。本期应用层包括:经济细分应用、流量运营、E
3、SOP应用、VGOP应用、指数数据库、流量运营策略地图、掌上分析、自助业务分析、区域洞察、渠道运营、自助分析、客户标签数据库、实时营销、LTE互联网管控策略。统一门户:提供统一域名分配、负载均衡、认证管理、统一管控平台访问、应用注册、应用发布、应用访问数据信息等功能。还提供了应用访问数据中心的频率、应用访问的数据范围、数据资产的评估,为应用线上线下、数据开放提供了基础。统一的平台管理和控制:对开发者和运维人员的数据、应用和资源进行统一管理和控制,包括数据资产管理和控制、开发管理、监控管理、调度管理、系统管理和安全管理。技术架构图,技术架构该系统的技术架构包括数据采集、计算和存储服务、数据共享服
4、务以及平台管理和控制。Hadoop云技术可以满足计算能力、多租户能力、数据聚合能力的线性扩展。批处理场景由Hadoop的Map/Reduce、Hive或Spark完成;流式数据处理由斯珀计算引擎实现。数据采集:采用Flume计算框架实现文件和消息的收集和分析;采用流式爬虫、中文分词和图像识别技术,实现互联网网页信息的实时采集;采用FTP文件收集数据文件;采用Socket消息方式收集消息数据;Sqoop用于将数据库数据加载到HDFS文件系统中。计算服务:采用Hadoop中的HDFS文件系统提供统一的大数据存储,以满足数据完整保留的要求;Yarn提供跨平台的资源管理,满足资源的统一调度和管理;Ha
5、doop用于实现海量数据的非实时ETL和批量处理,主要处理ODS层-DWD层-DW层-ST层的数据处理;根据业务数据的情况,用Spark计算框架实现DW层-ST层的数据处理;采用斯珀和rabbitmq支持流数据处理和复杂事件处理;老DB2提供ST层数据的存储和计算,支持高并发索引数据共享。数据共享:开放数据共享采用基于HTTP协议的REST式OpenAPI完成同步处理,消息队列(MQ)完成异步处理,从而实现类SOA的面向服务架构。支持OAuth提供一个安全、开放和简单的许可协议。数据共享服务部署在集群环境中,处理高并发访问请求,实现集群的负载均衡。统一的平台管理和控制:利用Java EE技术,
6、通过MVC模式(模型视图控制器)将业务逻辑、数据和界面显示分离出来组织代码,将业务逻辑聚集成一个组件。在改进和个性化界面和用户交互的同时,不需要重写业务逻辑。数据流图Mc信令(实时)数据通过Socket消息适配模块接入斯珀计算引擎进行实时处理,为应用提供事件API服务,支持实时营销应用;比如后来的Gn信令和LTE信令也提供实时数据,可以满足基于Gn信令和LTE信令的实时处理。除Mc信令(实时)数据外,Gn信令、Mc信令、自有服务订购和使用行为等数据通过非实时ETL加载到Hadoop的HDFS文件系统,实现数据全保留;Hive承担主库的功能,实现海量数据的批量处理,承载ODS-DWD-DW-ST
7、的数据处理,其中DW层的部分数据提供给Spark,Spark完成数据处理。外部数据服务可以由不同种类的API完成:客户统一视图、客户标签库等数据探索和查询服务:将数据加载到Spark的RDD中,通过API实现数据共享;客户标签信息查询、客户详单查询等数据查询服务(特点是通过一个键查询数据):将数据加载到Hbase,通过API共享数据;比如索引数据查询、KPI数据查询服务(特点是高并发、多维数据查询):将数据加载到DB2数据库,通过API共享;多租户数据共享服务,详见5.3节;企业ETL数据处理平台功能框架根据数据中心建设的需求,企业ETL平台可以实现统一的数据采集、转换、加载、处理、统一调度、
8、控制等功能。这里的ETL是指广义的ETL,它具有以下特征:统一数据采集和访问,支持B域数据、M域数据、O域数据或其他外部数据对数据中心平台的统一访问。支持结构化和非结构化数据的收集和处理;非结构化数据要从非结构化处理到结构化。支持数据采集、转换、加载等关键点、数据处理流程,实现企业数据标准。支持周期性批量数据采集和实时数据采集。满足数据中心的数据处理和加工要求,提供外部数据分发和同步。支持数据审计的全过程。包括事前、事中、事后的审计方法。以及灵活的审计规则管理和算法管理。全程可视化开发和配置管理。通过可视化开发、配置、测试和部署上线。全程元数据管理。我们应该预先关注元数据的管理。管理内容包括:
9、支持数据模型、数据流、转换规则、数据关系和转换映射规则。企业ETL平台产品DACP可以很好地支持上述关键特性。数据存储层概述Mc信令(实时)数据通过Socket消息适配模块接入斯珀计算引擎进行实时处理,为应用提供事件API服务,支持实时营销应用;比如后来的Gn信令和LTE信令也提供实时数据,可以满足基于Gn信令和LTE信令的实时处理。除Mc信令(实时)数据外,Gn信令、Mc信令、自有服务订购和使用行为等数据通过非实时ETL加载到Hadoop的HDFS文件系统,实现数据全保留;Hive承担主库的功能,实现海量数据的批量处理,承载ODS-DWD-DW-ST的数据处理,其中DW层的部分数据提供给Sp
10、ark,Spark完成数据处理。存储规划储备数据库db2ODS层三月+一月三月+一月-DWD层六月+一月-DW层2+1个月-ST层六月-六月客户/视图三月2+1个月-指数三月+一月-永久的模型设计数据模型按照层次化、主题化的数据模型设计思想进行设计。根据模型设计,系统会自动转换到hadoop上存储。层次结构和主题被映射到相应的目录。模型标准化管理分层规格根据数据仓库建模理论和实践经验,数据计算平台承载的数据模型分为ODS、DWD、DW和ST四层,即接口层、存储层、汇总层和应用层。模型分层描述:接口层:ODS模型的数据结构与业务系统的接口文件结构一致,接口层的数据暂存在数据计算平台中。存储层:详
11、细数据层,是数据计算核心层的数据模型之一,用于存储来自清洗转换层的数据或者直接来自接口层的数据。其设计目标是为后续的汇总数据层和信息子层提供数据基础。汇总层:轻汇总数据层,也是数据计算核心层的数据模型之一。这一层实现了题目中数据的轻汇总。设计目标是为应用层提供足够灵活方便的基础数据,并保证从该层获取的数据具有最佳性能。应用层:在汇总数据层之上,根据应用需求聚合数据,生成相关应用所需的数据。应用数据层是面向应用的,但不是每个应用都对应应用数据层的一个表,应用应该集成在数据应用层。表命名规范OMG标准化组织建议采用五段命名约定,如下所示字段命名规范建立字段的命名规范,固化为域类型,指导模型设计字段
12、命名。当有变化时,可以实现跨平台的统一建模。模型版本管理数据开放服务层建设目标通过标准化、开放的数据服务接入,帮助企业在IT建设中实现应用与数据的分离,引入更多的应用开发者,促进应用的百花齐放和应用的专业化。基于标准化接口,API包的数据查询如标签、客户视图、指标等。实现了与外围系统的实时交互,体现了数据价值,减少了数据冗余,保证了数据安全性和数据一致性。对于明细列表级数据,支持通过文件或授权的方式与外围系统共享。通过统一的技术平台框架,可以制定企业数据标准体系规范、基础数据采集处理、加工汇总,引入众多厂商或租户进行标准化开发。为实现上述目标,需要解决的关键问题是:需要什么样的平台功能?打开对
13、象。对谁开放?什么内容是开放的。包括基础数据集成开发开放和应用接入层数据开放两部分。开放式安全机制如何保证开放对象开发提交结果的规范性和质量?开放平台运营的组织结构和流程体系。摘要为满足建设目标的要求,数据服务开放的整体功能框架如下:打开对象例子如下打开对象解释使用形式相关资料多租户通过授权机制,赋予租户通过sql查询数据的能力,租户可以在此基础上收集和处理自己的私有数据。用于数据处理的SQL在保证数据安全和数据可控的前提下,蜂巢仓库的ODS、DWD、DW层的oauth2.0将开放给租户进行数据处理。ESOP,VGOP数据通过文件接口分发给对等系统,以满足其数据分析需求。文件客户视图、汇总模型
14、等。手机经典通过在线同步API调用获取数据。开放API索引数据实时营销客户端通过事件注册的方式监控服务接口,并在服务满足触发条件时主动通知监控客户端。消息服务信令位置信息等。开放共享模式共享模式解释应用场景示例文件接口数据中心主动将数据导出到文件,并发送给数据需求方。1.boss的交互界面2.临时周期性数据生成的即席查询开放API通过API查询得到结果数据,即可以不落地查看使用。根据查询数据对象的粒度,可以分为三类:1)ST表查询1.启动LSQL查询发布的数据模型以获取数据。2)索引类查询2.比如手机子查询的索引原来是通过接口表导入的,数据可以通过API查询。3)单用户列表信息查询应用程序接口
15、数据分布将数据从数据中心分发到目标数据库。需求方申请通过后,系统通过分发平台定期将数据分发到目标数据库。定期数据同步。例如,定期将用户行为汇总数据同步到业务分析系统。特别地业务分析师通过查询和分析打包的数据模型以及提供在线特定查询和分析工具来获取数据。临时统计和数据检索消息服务通过消息传递数据。适用于系统间的实时辅助,比如用户事件信息。作为消息的消费者,需求者同时传递消息事件和内容。多租户管理摘要采用多租户的思想,数据平台的数据能力和数据处理能力按需开放,可控。在保证数据安全性和可控性的前提下,通过标准化、封装化的数据操作,将可视化开发工具开放给业务运营部门,业务运营部门可以自行进行数据操作和
16、开发。使用企业数据中心提供的统一开发平台实现多租户数据开发,其功能结构如下:该系统包括开发控制和技术平台两部分。通过这两部分的配合,可以开放系统开发能力。该模式要解决的关键问题包括:如何控制资源、管理数据权限、跨系统数据交互、自动调度和操作、元数据管理。角色功能系统管理员:管理开发团队,分配和批准数据权限和系统资源。1.设置开发团队使用的资源和帐户。2.批准和授权开发团队提出的数据权限申请。3.表的敏感级别和敏感字段。不同的团队对相同的数据可以有不同的安全级别。4.批准启动开发团队。检查性能,开发规格的满足度,调度申请周期是否合理。5.审核开发团队的数据导出安全性。租户开发:使用统一的技术框架
17、和开发工具,在可用数据的基础上处理私有数据。1.检查详细的数据结构。2.申请新的数据权限。如果需要新数据,可以申请,管理员审核通过后就可以使用了。3.数据处理与开发:数据汇总、联查、数据导出等数据处理与开发。4.临时和正式发布。5.监控开发的程序数据的运行。统一开发平台技术详解租户管理将租户与系统用户进行映射通过映射开发管理平台的账号和执行平台的账号,以租户的方式管理用户和用户组,达到资源控制和数据权限控制的目的。如下图所示,开发团队的管理和相应账号的设置在管控平台上进行,租户的资源和权限在数据平台上控制。每个开发团队根据需要指定其在hadoop或关系数据库上的执行帐户。实现账户的权限和对数据
18、平台资源的控制。查询或运行数据处理任务时,使用其对应的帐号执行。从而实现对开发团队任务资源和权限的控制。当管理平台上新建租户的账号或数据权限发生变化时,管理平台实时调用OCDC的相关API,根据配置参数自动授权、修改和创建账号。系统计算资源分配控制在管控平台中,租户被统一分配计算资源,分配的参数被部署到hadoop或关系数据库中实现控制。实现资源控制,包括两部分:hadoop上的资源分配和关系数据库(DB2)中的资源分配。Hadoop计算资源控制hadoop要实现对计算资源的控制,需要OCHadoop3.2以上版本,安装安全组件(sentry)。计算资源控制原理资源池与系统的帐户相关。一个系统
19、账号只能属于一个资源池,YARN支持资源池控制系统用户的CPU和内存的操作。资源控制参数:独占资源:分配最少的资源。系统确保该用户拥有最少的资源。共享资源:系统空闲时可以使用的最大资源。单元:虚拟cpu核和内存单元。如何设置租户的资源参数,是一个需要根据运营情况不断优化的过程。注意:Spark和hadoop之间的资源管理DB2资源控制要实现DB2的资源控制,需要DB2版本9.5。目前已经满足db2的版本,需要开启WLM的有效参数。工作负载管理WLM是在DB2版本9.5中引入的(请参考附录,不收取额外费用),但是它只能限制CPU的数量。控制参数如下:参数名称解释部分配给服务类的资源的最小百分比。
20、默认值为0。分类器在冲突的情况下(这里可以理解为资源短缺),服务类可以获得最少比例的资源。在没有冲突的情况下,服务类的可用资源可以超过该值设置的比例。默认值为100哈德曼克斯一个服务类在不发生冲突的情况下可以获得的最大资源比例。默认值为100系统存储资源分配Hadoop存储资源控制,每个租户独立拥有一个文件和目录,并设置文件目录大小;Db2的存储资源控制,每个租户有一个独立的表空间,并且表空间大小是固定的;说明:hadoop存储控制采用操作系统的目录大小控制。缺点是不能自动共享可用空间。也就是说,一个目录的大小被分配后,就意味着它占用了这个空间。所以一般的做法是从小到大慢慢分配空间。数据权利的
21、分配和控制在开发管理平台中分配数据权限。根据分发结果,在数据平台上进行授权、恢复等操作。数据权限控制包括表级权限控制和字段级权限控制:表级权限分配:根据分配结果,系统生成对db2授权或权限恢复的脚本,hadoop控制执行完成权限。注:逻辑模板表分布在管理平台,实际表由数据平台控制。所以有一个模块是按照模板表的权限规则转换成物理表的授权脚本的。级别权限分配:基于表级授权,对表字段的权限进行授权和分配。目前由于db2的原因,hadoop无法直接控制字段级的权限。所以我们用两种方式来实现这个功能:1:创建一个视图,过滤掉没有权限的字段,然后将视图授权给相关账户。实现字段级权限控制。2:通过应用级控制
22、。通过对开发人员编写的sql语句的分析,分析其查询中使用的字段。如果字段超出权限范围,则给出提示,不允许执行。资源控制方式列表:控制项目db2大数据表级权限通过db2的权限管理,数据权限的分配是通过脚本实现的。通过kerbors的权限管理,数据权限通过脚本进行分配。字段级权限透视视图透视视图资源-CPU通过wlm设置。通过纱线资源池进行控制资源-内存无法实现通过纱线资源池进行控制资源存储每个租户都有一个独立的表空间。设置表空间大小。每个租户都有独立的文件和目录,并且文件目录大小是固定的。系统文件目录每个租户在数据主机上建立一个文件目录,用来存储源代码和可执行程序。每个租户在数据主机上建立一个文
23、件目录,用来存储源代码和可执行程序。租户的数据开发流程检查数据字典开发人员可以查看所有数据字典。内容包括数据表名称、中文名称、描述信息、存储位置和数据结构。通过调用基础平台的元数据,可以查看数据字典。开发界面通过开发平台配置数据处理流程,可以支持数据库、云平台、关系数据库内外的数据处理混搭。例子如下:实现了上面的处理流程:hadoop上的sql脚本汇总ods_cdr,然后通过数据分发到db2上的dw_cdr _ yyyymmdd表。开发人员需要设置输出表dw_cdr的表结构,sql处理汇总办公室编写sql脚本。在处理任务流中,包括数据节点和数据功能节点的节点被拼接在一起。其中,数据处理功能节点
24、包括:Sql、tcl、java、shell、数据分发、数据加载、数据导出、ftp、建表、删表等。试验在界面上,可以立即执行一个节点或者整个处理流程,执行过程和日志信息会输出到前台界面实时查看。示意图如下:释放;在线开发者直接在界面上在线提交。包括临时上线和正式上线。临时启动要求开发人员填写有效的开始日期、结束日期和计划周期。正式上线,系统管理员审批。审批事项包括:程序名、表名是否规范,字段名、中文信息是否齐全。上线时,系统会自动将开发环境的配置信息中的程序代码和数据结构部署到生产环境中。奔跑节目上线后,调度平台会根据节目数据依赖自动调度。如果它暂时在线,则只有计划在有效期内运行的程序才会被计划
25、执行。程序开发者可以申请延长有效期或在线申请固定。计划执行多租户调度使用平台提供的统一调度功能,实现流程如下:行程安排根据输入的表关系,根据数据关系,实现对依赖操作的正确调度。当安排租户的临时计划时,将只安排有效的计划。SQL脚本执行开发的SQL脚本可以运行在多种数据平台上,系统需要做出正确的选择,放到相应的数据平台上。开发人员可以指定节点运行的数据库,如下图所示。系统会解析开发者写的sql,得到它所依赖的输入表和输出表。然后与元数据进行比较,自动选择对应的数据库。选择以下策略:所有输入表都在同一个库中。然后选择该库。输入分布在两个库中。系统给出错误提示。建议在开发前采用数据同步。如果所涉及的
26、表涉及两个库的存在如果有关联表,它将跟随同一库中的关联表;否则优先选择大数据平台。跨数据平台运行命令比如如何在hadoop平台上汇总数据,导入db2,汇总。当服务器读取这个处理任务时,将汇总命令发送给hadoop代理执行,然后将命令发送给hadoop代理分发到db2,再将命令发送给db2代理进行数据处理。应用和部署应用程序开发流程应用层的所有业务应用与底层数据松耦合,通过接口层提供的各种数据接口向业务人员或第三方厂商提供开放的API服务。根据不同的应用场景,通过选择和组合相应的API,可以快速生成所需的业务应用,从而满足快速开发、部署和在线应用的能力。应用程序的开发可以通过两种方式实现:数据中
27、心平台中的应用开发:直接通过数据中心提供的应用开发平台进行应用开发,开发平台提供了高效的可视化开发界面,包括跟踪各类API,展示详细的API元数据信息。同时对应用设计、应用开发、应用测试、应用上线、应用下线的全过程、全生命周期进行开发和控制。这种开发场景主要适合没有硬件资源的用户(比如业务部门开发人员)开发应用。数据中心平台外的应用开发:通过Http协议数据服务接口,直接调用数据中心服务层的各类API服务,通过开发编写相应的计算流程,形成相应的业务应用。这种开发场景主要适合有硬件资源的用户(比如第三方厂商)开发应用。应用部署建议本期从外部系统接入8类数据源,所有库存数据在企业数据中心汇总,提供
28、数据、存储和API接口服务能力,供14类应用调用。标签库的应用:所有标签数据的计算和存储都在数据中心,标签结果数据分别存储在HIVE和HBASE。HIVE存储的数据通过Spark的RDD提供“按标签查看用户组”的API,HBASE存储的数据提供“按号码查看标签信息”的API。指标库:所有指标在数据中心进行计算和存储,结果数据存储在RDB,通过“KPI查询”API对外提供服务。掌上评分的应用支持:掌上评分所需的KPI由评分提供,而不是数据中心的KPI查询API。实时营销支持:将MC位置信令事件集成到数据中心,数据中心向实时营销平台提供消息事件。LTE控制策略(PCC),自有业务分析平台,区域价值
29、洞察:对于这些规划的系统,建议采用多租户的方式。企业数据中心的数据处理和存储都在数据中心,应用可以通过调用API来获取数据。通过子系统接口、MIS接口、财务报表、ESOP、VGOP、战略地图、渠道运营平台和所需数据源,数据中心将DWD和DW层数据统一分发到各系统,应用系统自行处理和显示数据。由其他应用(除了接口、MIS接口、财务报表):数据处理和存储都在数据中心,ST层数据存储在db2。统一门户摘要建设企业数据中心统一门户是为了降低系统用户访问数据中心的难度,提高系统的可用性,实现数据中心资源的有机整合和统筹管理。开放数据服务门户:为开放数据服务提供开发者门户,包括数据服务授权申请、开发者帮助
30、文档、服务注册、创建和取消等。管控门户:整个数据中心管控平台的用户门户,包括系统管理、运维调度、质量监控等。应用入口:对于应用用户的入口,支持多租户应用和第三方应用的集成统一呈现。门户功能框架统一门户功能框架如下图所示。门户功能框架包括门户访问和门户功能。通过对角色工作台的功能适配,形成不同的角色视图。接入:主要负责企业数据中心用户接入通道的接入管理;应用程序的日志管理、负载平衡和访问授权。门户功能:包括角色工作台、认证管理、权限管理、用户管理、流程审批、数据开发、应用开发、数据授权、运维监控、多租户管理等接口。控制平台摘要元数据管理功能框架元数据管理是对各系统信息、设计工具信息、生产平台信息
31、进行统一的收集和管理。提供一个视图,帮助用户了解数据分布、数据关系、业务规则、指标口径等。元数据包括系统元数据、技术元数据和管理元数据。整体功能框架图根据数据中心的需求,元数据管理的主要特性如下:需要标准化的应用程序开发工具来满足不同平台上的开发需求。基于开发工具可以实现100%的ETL开发、数据模型开发和应用开发。95%以上的元数据可以自动收集、解析和管理。元数据的范围包括但不限于数据结构、数据字典、字段维度、程序映射逻辑、数据生命周期等。多租户统一元数据管理基于元数据的应用程序开发工具提供统一的应用开发工具,完成高效应用的开发,并能自动完成应用元数据的收集。提供数据展示等工具,包括报告工具
32、、仪表板分析等。支持各种常见的报表样式。支持各种常用分析图表和图表组合分析。支持各种数据源。支持oracle、db2、mysql等常用关系数据库。支持Gp、gbase等mpp数据库。支持hdfs、hbase等大数据平台提供数据支持webservice获取数据基于元数据的数据开发工具采用元数据驱动(MDA)的设计概念来规划元数据对象的创建、操作、评估和维护。屏蔽大数据平台的差异,统一模型设计和程序开发,将元数据融入开发的各个环节,有利于管理。数据模型设计支持IDE数据模型设计,以及模型设计工具power design和Erwin的批量导入功能。提供数据周期、数据表级字段级敏感度设置和字段口径定义
33、。数据流设计设计程序输入表和输出表的元数据信息。程序开发根据设计内容转化为开发内容。开发者可以在此基础上进行开发。提供各接入平台的统一封装功能,降低开发难度。数据质量控制1.例行检查。包括时效性、运行状态、运行时间、处理记录数量等。2.审核程序日志。包括单步的处理时间、记录数量的波动等。3.开始检查程序的目标表。检查目标的统计指标值,检查关键字段维度和级别间数据的一致性。提供程序接口测试功能。测试和优化开发内容,检查质量规格、性能和质量是否符合预期。适用于官方运行环境。元数据收集和存储:项目的基本信息。包括程序名、中文名、备注、周期、级别、主题、创作者、开发者。程序的处理步骤信息。包括程序步骤
34、号、调用函数和执行脚本。程序投入产出关系。输入模型,输出模型程序的字段映射规则。从输入模型到输出模型的转换规则数据流设计设计数据模型,设置数据存储周期、敏感级别,设计数据模型的数据流,支持模型字段映射关系的设计。数据流设计设计程序输入表和输出表。输入表可以是文件,也可以是远程数据库中的表。目标表可以是文件,也可以是远程目标数据库上的表。数据模型设计设计输入表和输出表的表结构。包括表的基本信息、存储的信息和表之间的关系。根据不同的存储类别,设计参数会有差异。映射规则设计根据表关系和表模型信息进行转换映射。映射规则包括合并、拆分、规则转换、函数转换等常用操作。可视化程序开发统一函数库,屏蔽底层差异
35、,通过类sql编写,或者函数调度,实现跨平台统一开发。根据数据仓库处理流程,抽象出五种通用函数库,统一调用参数接口,使开发者可以针对不同平台实现无差别开发。如果将某种类型的数据文件加载到数据库中,开发人员只需指定数据文件路径和目标表。系统执行时,如果要存储在DB2中,调用DB2的命令,如果是Hadoop平台,调用Hadoop的命令。通过可视化的流程界面,拖拽排列函数,写入各个节点函数的参数,实现数据处理功能。降低开发难度。开发时,排列函数,填写节点函数参数。实施具体的数据处理过程。支持多种脚本开发,提供tcl、python开发程序等基于web的脚本开发工具;从开发的脚本中自动解析和建立元数据的
36、能力:输入表和输出表之间的关系;基于脚本的开发工具,集成了开发、测试和在线集成。同时,集成了函数库和数据模型;关键技术描述正向元数据管理1.在开发过程中,结构化元数据信息由IDE工具生成。2.上线时,对元数据内容进行审核和检查,确保元数据信息的完整性和合理性。把统一上线作为管理的控制点。各团队将内容提交到网上,并存储在统一的元数据库中,以进行标准化检查和审计。上线检查内容:程序需要提交的内容:程序本身的信息和程序输出表的信息。多租户元数据管理每个开发团队输出到不同的开发目录。包括现有的数据字典、业务口径、程序代码等。这些都输出到同一个元数据中心,进行统一的标准化和规范化检查。统一标准和规范,统
37、一制定基本规范和标准,无论哪个开发团队开发的内容都必须符合这些基本标准。进程管理通过流程管理,实现数据处理过程的统一管理和控制,并提供一系列工具实现数据处理过程的可视化和控制。它包括系统资源、软件资源、业务应用、参与者等资源的统一管理,一个全面的监控平台,可以随时重现大数据环境中各个组件的相互依赖关系,从资源规划、资源采集、性能分析、故障定位与处理、统计分析、知识沉淀、管理流程等方面为各级IT管理者提供支持。流程引擎流程管理集成有自己的轻量级流程引擎,完成各种流程的快速配置和开发。功能如下:1.流程的建模和实现在流程定义、执行、管理控制等阶段,业务和IT人员高度一致。总体性能查看和监控的操作和
38、可视化。提供灵活的方法来实现过程修改和进化。支持流程模式和部门协同,支持流程中的附件添加和查看。它自己的业务规则和决策表支持分支选择、路由到特定用户、用户组、角色、投票规则、异常和事件处理、服务级别监控规则等。2.过程模拟、优化和分析开发控制,版本控制过程评估和监控分析任务管理通过元数据获取作业输入表,作为作业启动的前提条件。1.通过数据流设计确定数据关系。2.手动输入和输出修改作业。3.支持前置作业的手动设置。工作资源占用类型的评估采集程序的历史运行时间、处理记录数量等关键指标支持系统自动测量和手动指定,程序的资源占用类型可分为三类:1.高:运行时间特别长,处理记录数量比较多。2.中:处理记
39、录数量相对较少,处理步骤多,时间长。3.运行时间短的程序。作业静态优先级根据应用和血缘关系分析的重要性,找到路径上的所有处理任务。1.应用程序越重要,其路径上的节点的任务优先级就越高。2.手动修改和维护数据管理数据生命周期管理释放;在线无论如何完成开发,在线必须保证数据相关信息的完整性和合理性。数据管理员负责检查在线元素的信息。确保在上线时正确保存信息元素,以供后续使用。查看在线基本信息元素。信息元素:存储信息元素:数据元素:查看表格的基本信息表结构表格信息设置系统规范自动检测数据监控存储策略情况将检查表的实际储存情况与计划储存周期进行比较,找出计划与实际的差距,并找出原因。为下一次扩张做准备
40、。安全漏洞检测安全策略管理:数据加密的密钥管理、敏感数据的定义、账号权限、离线数据终端的注册等。安全策略检测:自动检测安全策略是否到位。如果敏感信息被加密,该帐户的权限是否超出范围。安全监控:审计数据的所有使用日志,是否涉及敏感数据的非法使用。存储空间监控检查文件空间、表空间等信息是否满足生产要求。数据估计数据价值评估功能:评估数据价值成本,优化数据存储、处理和应用。评估算法:科目分摊方法价值使用的前台应用程序数量应用程序的点击次数平均分配给应用程序链接上的所有表。支持kpi,指标统计的数量KPI的应用次数被平均分配到KPI的统计表链接上的所有表格中。分发到外部系统接口的数据(分布到外部表,均
41、匀分布到分布接口表链上的所有表)*加权系数外部应用程序调用时间(外部应用调用表的数量平均分配给应用表链上的所有表)*加权系数成本项目保管费用表大小*(存储扩展的总投资/总空间大小)计算成本表格数据总处理时间*(主机扩容总投资/所有程序总运行时间)开发成本表中字段数*(年度新业务开发费用/表中字段数据合计)运行和维护成本总维护成本/表格管理成本分配总管理成本/总表数应用场景:数据重要性评估评估表在数据使用和数据应用过程中的重要程度,输出表的重要程度。储存周期评估包括存储规则的配置示例如下:内容建议的组数据保留期用户数据和联系人记录在线存储:三年近线存储:Hadoop擦除代码各种账单在线存储:一年
42、近线存储:三年(Hadoop擦除代码)和信令日志。在线存储:一个月近线存储:六个月(Hadoop擦除代码)各种汇总数据在线存储:永久存储储存期的计算,表过期时间的计算。如果过期,可以删除或转储该表。及时性评估通过对数据关系的分析,发现孤立表或无效表。根据表名,判断这个表的大概意思,表的创建日期,状态日期,表中数据的时间等。,并判断此表的上次更新时间。通过数据的使用日志判断是否使用了孤立表和无效表。如果满足以上三点,则可以判断该表单未被使用和处理,可以进行离线处理。冗余数据评估系统中存在大量冗余数据。比如列表中有大量的汇总表,而这些汇总表中有些是彼此熟悉的,这就造成了大量的冗余数据,不仅会影响数
43、据的准确性和可靠性,还会影响数据库的性能。要解决这个问题,有两个环节:寻找冗余数据,消除和合并冗余数据。数据关系评估数据类别可分为以下几类:主外键关系。上线时注册。参考关系。描述主实体表和维度表之间的关系。上线时注册。输入和输出。通过元数据分析建立。历史摄影。通过处理程序解析找到。冗余备份。目的可以分为:分工、转储优化、应用分流、数据统计临时备份。根据以上关系类别,系统通过熟人表的发现和分析,自动建立数据之间的关系。数据优化优化策略种类情况优化策略执行策略离线清洗1.该表符合存储评估的到期条件。2.同时,各个地方的数据也要同步。或者转储。自动执行离线清洗1.满足时效性分析发现的无效表。清楚的人
44、工确认性能优化1.查找高查询使用的表。转储高端设备或内存数据人工确认冗余消除1.查找相似表或冗余表。数据合并人工确认冗余字段1.发现提取了太多字段但没有使用。优化提取策略人工确认优化执行多系统协同生命周期管理:不同的存储库中可以制定不同的存储策略,如近期数据和历史数据分发策略;自动管理和手动管理:系统支持自动管理和清理,部分关键表手动审批和管理;数据离线注销符合注销要求的表的数据。离线前为了安全起见,重要的表和不确定的冗余表可以先离线再离线。撤消对该表的所有权限,以确保所有用户都不能使用该表。将此表的状态标识为:脱机前状态。过了预离线期限,就可以进行离线操作了。如果有人在此期间要求此表单,您可
45、以回滚并恢复权限配置和状态。离线分析对于脱机表,删除表,并清理数据和程序。根据系统元数据信息的自动分析,给出了该表的唯一程序和输入表。这些表格和程序是离线的内容。离开生产线根据这些表的唯一程序和输入表,停止从后台调度系统中删除相关程序,并清理唯一表的数据。完成线下工作。数据质量管理数据质量管理的总体目标:全面数据质量管理的规范化、系统化、标准化和自动化,以实现数据质量控制的全面性、可控性、可测性、快速定位和有效解决。TDQM(Total Data Quality Manage),即企业级的全面数据质量管理,是通过流程体系、质量评价体系和质检IT平台的建设来实现的。提供数据质量审计规则的统一配置
46、,支持质量规则的定义和任意节点的附件。按照时间发生的先后顺序分为事前质量检查、事中运行监控和事后总结,并能对事件和每个过程中产生的信息形成报警信息,可以通过短信、彩信、邮件发送。从上表可以看出,日常生产中的大部分问题都可以通过上线前的严格控制来避免,可见数据质量的重要性。质量规则的定义支持增加、删除、修改和检查质量规则。定义元数据对象的质量规则,如接口质量规则、程序质量规则、数据模型质量规则、指标质量规则和报表质量规则。审计模板配置是被审计对象的基本信息,包括审计对象的基本实体配置、审计所需的数据实体、对象审计结果的汇总和明细信息。质量规则附件支持根据相关性为每个节点附加质量规则,并分别检查不
47、同类型的质量规则。单击编辑以编辑规则的详细配置。该平台提供了十多种检查功能。函数名功能描述变量定义添加变量定义,比如添加sql变量,引用是$ tabinfo.dataname。数组比较比较单列数组是否相同。脚本规则比如:1000=新增用户数 100000;如果指标计算结果为0,则报警。字符串比较比如是否通过SQL解析建立映射关系;检查是否存在未与任何数据处理流程建立数据处理关系的数据实体。跨库字符串比较满足约定的条件,得到预约的结果。注:没有条件时else写成。非空支票选择一个参数,该参数不能为空。数值比较选择用于比较的数值。比较参数可以是sql语句、常量或变量。跨库数值比较在多个数据库之间进
48、行数值比较。范围检查确定某个值是否在指定范围内。时间比较确定某个时间是否在指定时间之前,每天7:30,每月3日5:00之前,M3 5:00。数组属性比较将数组中某个时间的所有属性值与指定时间的所有属性值进行比较。首先,确保数组定义包含时间字段和比较时间的数据。阵列波动比较将数组中某个时间的所有属性值与指定时间的所有属性值进行比较。首先,确保数组定义包含时间字段和比较时间的数据。阵列分量与总波动的比较总体波动和成员波动的允许范围相关性比较相关性,检查相关对象的指标值范围的波动。静态表属性更改检查检查新增或减少的成员,或当新增或减少的成员比例大于规定范围时发出警报。静态表属性波动检查查看会员自己的
49、波动范围。SQL脚本根据SQL语句,返回校验结果;如果结果集为空,则检查通过;否则,它会失败。事前质量检查在线前检查在开发阶段,定义每个元数据对象的质量规则。上线时调用检查规则,检查上线指标是否符合质量规则,避免一些开头常见的错误。源代码更改检查表结构变化监控:监控表中字段的更改、增删引起的变化(比如BOSS已经在线修改了表)。可以和接口程序结合,当字段发生变化时,可以判断对应接口号的哪个字段和对应接口的对应接口文件发生了变化。字段值监控:字段值主要是将一个表中一个字段的不同值的个数和大小与之前的快照进行比较,发现值的个数或大小的变化。业务规则监控:检查逻辑合理性。比如成为大客户的时间一定要晚于开户时间,在用号码一定要唯一。过程监控操作过程监控:为运行过程中的对象设置质量规则,在运行过程中及时调用这些规则,第一时间审计运行结果,以便及时发现问题。当发现问题时,会及时显示监控到的当前告警信息,并将错误信息发送到集中告警管理。可以定位分析报警,分析类似问题,转移问题列表或取消(误报警信息)。业务指标监控指标管理的集中化、标准化、系统化和自动化。1)指标界面监控框架的分类:指标的监控展示框架分为四个层次。L0:一般情况L1:详细列表L2:报警点详细信息L3:报警点性能2)表现形式的分类:不同类型的最佳表现形式,以明确显示检测的内
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年茶叶品牌区域销售代理协议
- 2024秋季农产品销售代理合同
- 2024年度特色车位买卖协议(儿童乐园配套)3篇
- 《煤矿运输提升系统的安全检查》培训课件2025
- 2024政府采购保密协议范本(体育场馆建设)3篇
- 2024新校区建设项目沉降数据收集与分析及基础施工合同3篇
- 2024无线网络覆盖系统弱电装修合同
- 2024政工程有限公承建的绿色环保智慧校园合同3篇
- 2024年精装室内实木门采购合同版
- 2024手绘墙绘艺术装置设计与制作合同3篇
- SHS5230三星指纹锁中文说明书
- 无水氯化钙MSDS资料
- 专利产品“修理”与“再造”的区分
- 氨碱法纯碱生产工艺概述
- 健康管理专业建设规划
- 指挥中心大厅及机房装修施工组织方案
- 真心英雄合唱歌词
- 架空电力线路导线应力弧垂计算
- 上海交通大学留学生本科入学考试 英语
- 【校本教材】《身边的化学》高中化学校本课程
- 常住人口项目变更更正呈批表
评论
0/150
提交评论