大数据治理管理与运营体系数据治理平台建设方案_第1页
大数据治理管理与运营体系数据治理平台建设方案_第2页
大数据治理管理与运营体系数据治理平台建设方案_第3页
大数据治理管理与运营体系数据治理平台建设方案_第4页
大数据治理管理与运营体系数据治理平台建设方案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

平台总体概述提供多种数据采集或集成,包括业务系统数据ETL,外部文件、第三方接口抽取,实时消息采集等。采集/集成环节支撑多种数据加工方式,包括批量数据加工,实时交互计算,机器学习等。加工/计算环节支持用户个性化需求、自主数据探索,提供固定主题的报表、指标,临时报表需求、自助取数,数据探索、数据实验等功能。决策/探索环节数据治理平台适用于分析型系统数据处理的各个过程,负责数据的加工处理以及加工处理过程数据标准、元数据和数据质量的管理。平台可以提供数据输入、数据加工、数据输出等数据流图各个过程的全生命周期、全流程的数据处理,并在数据处理全过程提供中提供数据治理和数据管控的一站式解决方案。大数据时代组织普遍要面对数据多样化,缺少统一标准,集成困难;数据分散,形成信息孤岛,共享困难;数据质量低下,导致统计不准确的诸多问题。如何有效管理数据资源使之能够驱动业务的快速发展,成为数据治理产品的核心价值所在。平台设计理念·一个标准化工厂数据治理产品以为组织打造通用的数据工厂为设计理念,以构建流水式数据产线为核心,帮助组织快速实现从“数据原料”

到“数据产品”

整个过程的加工处理、价值转化以及规范管控。标准化生产自动化生产精益化管理由场景理解、场景抽象、抽象实现、抽象配置、方案生成、调度等工序组成由数据上下文形成自动化的数据流由多个工序最终生成一体多面的数据治理流程平台设计理念·四大治理原则平台设计理念·五大治理标准数据模型标准化数据运营全员化数据安全可控化数据治理产品化数据处理工厂化数据安全可控化

体现安全的重要性、必要性,保障系统数据安全和数据服务开放过程中数据的安全可控。数据模型标准化

通过数据治理平台将数据模型的要求严格落地,杜绝不满足标准的数据模型出现在系统中。数据运营全员化

体现“平台化、开放性”的思想,提高数据开放的可视化,实现人人参与数据治理、数据建设和数据运维。数据治理产品化数据治理的成果和内容,必须通过切实可行的IT手段落实到系统来严格执行。数据处理工厂化

数据处理工作,必须实现工厂化的建设和管理,以“极速、低成本、高质量”要求来响应业务部门的个性化数据需求。平台设计理念·三大实施策略1)有实现数据全程的可见、可管、可控,最小化业务和技术沟通成本的理论和机制;2)有实现数据的全生命周期管理的理论和机制;3)有实现开发管理规范和数据管理规范低成本的严格执行的理论和机制;4)有实现系统建设过程中问题的低成本监管和解决的理论和机制;5)有实现引入第三方独立监管供应商来负责系统的监控和维护的理论和机制。1)有保证业务元数据与技术元数据的一致性的理论和机制;2)有保证元数据与数据加工环节的一致性的理论和机制;3)有实现基于历史经验的告警机制;4)有低成本高效地解决传统调度面临的问题定位和修复问题最小代价等难题的理论和机制。1)有保证文档与实现的一致性机制;2)有实现对文档系统的低依赖性的机制。整理制作郎丰利1519质量管控2系统管控1知识管控3平台总体架构元数据管理数据标准管理数据开发调度数据资产管理数据质量管控数据共享服务…服务能力解决方案金融零售制造业交通农业用户群体行业应用基础平台数据开发人员数据分析师业务用户数据科学家数据管理员数据操作员组织、用户、角色、权限管理数据源管理数据采集插件管理数据管理基础平台大数据存储与计算引擎日志管理元数据智能管理调度中心建模设计数据治理服务能力数据共享数据服务引擎服务门户数据门户(Web

UI)数据治理(Web

UI)元数据管理元数据血缘元数据维护元数据解析元数据采集数据标准管理业务标准管理技术标准管理命名标准管理维度标准管理数据质量管理质量统计分析质量报告管理质量稽核管理质量规则配置数据资产管理数据资产检索数据资产总览数据资产地图数据资产目录数据开发管理统一任务调度数据模型设计可视化开发数据脚本开发数据服务管理订阅审核服务监控服务审核服务管理算法库消息管理互联网…电子政务教育平台技术架构采用工厂化的数据处理和管理模式,通过数据生产计划、数据生产执行和数据生产管理三大子模块,保障数据处理全过程透明可控,实现工具化、流程化和自动化的开发、运维、管理,提升数据开发、生产效率,保持系统健康、持续、稳定的发展。数据处理管理模块:负责软件开发和数据规范的管控数据生产计划模块主要功能为:需求设计、设计确认等数据处理执行模块:负责数据处理计划的执行、数据的生产和数据质量控制等工作提供元数据获取和管理功能提供数据对象设计功能提供对象化接口模块提供数据质量管理功能提供可视化的标准IDE环境提供与各类底层平台对接功能提供基于元数据血缘图的调度功能平台功能特性·组件化应用提供各类组件,支持通过拖拉组件的方式快速形成数据生产线,缩短应用的开发周期、节约应用的开发成本、提高应用的开发质量,帮助用户更快地完成数据模型、数据处理的开发。组件采用松耦合式的架构,支持自定义扩展。分为三种类型:功能组件、模板组件、管控组件。01)功能组件02)管控组件03)模板组件04)自定义扩展功能组件对常用的数据处理、系统交互等方法进行封装,实现快速的数据处理开发。包括:1)数据采集组件;2)数据处理组件;3)数据加载组件;4)数据分发组件;5)数据校验组件;6)质量告警组件。管控组件为系统管理员对开发人员开发的规范性提供管控手段。包括:1)命名规范组件;2)元数据完整性组件;3)表关联合理性组件;4)余度限制组件;5)危险操作控制组件;6)质量规则组件;7)告警处理组件;8)分析报告组件。模板组件为开发人员提供数据模型快速开发的手段。包括:1)HDFS模板;2)HIVE模板;3)MR/Spark模板;4)HBase

模板;6)RDBMS模板。平台的组件具备可扩展能力,支持组件的新增、删除、修改。组件扩展采用热插拔机制,且无需重启平台。平台功能特性·元数据管理提供元数据管理功能,获取和管理在开发过程中沉淀的各类元数据信息,并提供开放开视图,以支持管理人员、业务人员和技术人员快速准确地了解系统,同时支持数据质量管理、安全管理、应用优化、应用开发等功能。元数据前向获取统一管理和开放元数据一致性保障为确保元数据能够真实反映系统现状,平台提供业务元数据与技术元数据、技术元数据与技术实现、元数据血缘与数据调度等一致性的保障功能。1)业务元数据与技术元数据的一致性保障;2)技术元数据与技术实现的一致性保障;3)元数据血缘与数据调度的一致性。提供元数据前向获取功能,让开发人员在完成应用程序开发的同时,完成元数据的收集。元数据获取分两类:1)技术元数据的获取;2)业务元数据的获取。提供元模型设计、元数据填充、血缘分析等元数据管理功能平台功能特性·数据处理根据不同的数据生产环境,具备不同的数据处理能力,可根据自身需求,基于平台扩展自主的数据处理功能。数据治理平台提供数据处理各项能力的开发功能,提供包括数据采集、处理、装载、分发、校验等功能开发。具备执行标准的开源Hadoop接口调用能力,以及基于个性化Hadoop接口封装能力。如果数据存储是以数据库表形式,应支持基于SQL的数据处理开放。开发者可以通过集成开发环境编写相应的SQL语句,发送到相应的数据库运行。基于SQL的数据处理基于Hive提供类SQL的数据处理能力的开放。开发者通过集成开发环境编写相应的HiveQL

语句,并发送到Hive执行,以处理存储在分布式文件系统HDFS中的数据。类SQL的数据处理Spark是基于MapReduce

算法实现的分布式计算,它立足于内存计算,能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce

的算法。SparkSQL基于Spark提供SQL方式的数据访问。基于Spark的数据处理支持在集成开发环境中进行MR作业开发,对开发者屏蔽Hadoop底层的复杂性。基于Map/Reduce的数据处理开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能流处理,支持流式计算平台功能特性·质量管理平台提供从设计、开发到运行全过程的数据质量管理功能,以及从数据来源、数据加工到数据输出的全流程监控功能。设计阶段质量在平台中数据质量规则是设计出来的,并作用于数据处理过程,具备灵活调整的特性,可实现PDCA循环的落地.开发阶段质量在开发阶段,平台提供规则配置和规范检查功能。包括:1)规则配置;2)规范检查。全流程监控平台提供全流程监控功能,各层的监控包含但不限于以下规则:1)数据来源质量监控规则;2)数据加工质量监控规则(包括临时表);3)数据输出质量监控规则。PDCA优化1)P(plan)计划,分析现状,制定质量监控规则;2)D(Do)执行,执行监控规则;3)C(check)检查,检查执行结果是否达到了预定的目标;4)A(act)修正,对检查的结果进行处理,对准确的质量监控规则予以标准化。运行阶段质量运行阶段,平台提供系统自动化保障和质量规则监控告警功能。包括:1)质量规则监控告警;2)系统自动化保障。平台功能特性·统一调度提供统一的调度管理,用于数据层和应用层的任务调度。在统一调度下,每个任务都是一个个的数据对象,任务的前后关系严格按照元数据血缘关系进行调度,实现数据从源头到目标的全程的元数据血缘与数据调度的一致性。在统一调度下,可进行调度关系管理、调度周期管理、调度状态管理和调度资源管理。调度状态管理提供调度状态查看和控制功能:1)通过列表或图形化界面,可查看调度运行过程中任务的状态;2)提供可对错误进行分析和处理的操作;3)提供历史调度信息库;调度周期管理提供各类不同类型的调度周期:1)固定调度;2)定时调度;调度关系管理自动和手动的调度机制,提供调度关系管理功能,包括:1)调度关系设置功能;2)调度关系分析功能;3)调度重跑最小代价分析功能;4)调度关系维护功能;调度资源管理提供调度资源的管理功能,包括:1)队列设置;2)并发数设置;3)优先级设置;4)任务分配;跨平台统一调度支持异构计算引擎下的任务调度,能够按照数据流向关系组成数据流图,即不同环境下的任务,能同时存在于同一数据流调度图中。平台功能设计平台应用案例·某运营商大数据体系离线采集(ETL平台)数据采集B域数据O域数据M域数据互联网数据社交数据…实时采集(Flume/Kafka)互联网采集(采集平台)DPI数据模型数据仓库操作数据存储层市场基础模型政企基础模型大数据平台位置数据模型信令数据模型通信数据模型数据存储经分系统政企产品运营平台标签库数据应用数据集市业务网管参与建设重点建设政企应用模型市场应用模型统一GIS平台政企客户分析平台营销管理平台全面、深度的参与了某运营商大数据管理与应用体系的建设,深耕政企数据管理与运营分析,先后建设了政企产品运营平台,政企客户分析平台,统一GIS平台,营销管理平台,并主导建立了某运营商政企数据经营分析全流程体系。平台应用案例·某公安大数据资源平台总体方案公安大数据中心构建TB级大数据采集、存储、计算、挖掘、分析与应用能力汇聚数据资源形成数据资产保护数据安全挖掘数据价值形成业务洞察建立数据服务城市管理者城市运营者城市企业城市监管机构城市居民公安各系统数据物联网数据社会数据政府机构数据互联网数据…智慧公安数据检索数据计算决策依据洞察&建议数据统计、经营分析、风险预警、智能服务、辅助决策&兑现数据价值、赋能公安实战、提升治安水平、推动社会发展平台应用案例·某ZX中心工厂化生产管控平台利用数据治理平台产品,建设了某ZX中心数据仓库的建管一体化平台,通过对某ZX中心数据仓库的全面重构以及建管一体化的新生产方式的实施,解决了长期困扰某ZX中心的数据仓库内部模型和代码黑盒化的问题。采用了工厂化的数据处理和管理模式,改变了传统的数据处理和管理方式,实现数据“统一采集、统一存储、统一管理、统一运营、统一服务”;构建了面向数据处理的统一管控框架;实现了模型和数据处理的标准化、规范化;实现了数据处理过程中元数据、数据质量的统一管控;建立系统知识库,沉淀数据资产、管理规则与应用模型相关知识。完成了某ZX中心数据仓库全面的重构;建立并实施了建管一体化的全新数据管理与生产方式。平台应用案例·某证券统统一调度平台利用数据治理平台产品,为某证券搭建了数据管理与应用的统一调度平台,解决了某证券跨系统跨计算引擎的统一调度所存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论