数据中台解决方案两份资料_第1页
数据中台解决方案两份资料_第2页
数据中台解决方案两份资料_第3页
数据中台解决方案两份资料_第4页
数据中台解决方案两份资料_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中台解决方案目录Contents数据中台是数字化转型基础11“咨询+平台+实施”三位一体方案21.1数字化转型已成为国家政策1.2数字化转型的解读迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。培育壮大人工智能、大数据、区块链、云计算、网络安全等新兴数字产业,提升通信设备、核心电子元器件、关键软件等产业水平……加快推动数字产业化12建立健全数据要素市场规则3实施“上云用数赋智”行动,推动数据赋能全产业链协同转型。在重点行业和区域建设若干国际水准的工业互联网平台和数字化转型促进中心,深化研发设计、生产制造、经营管理、市场服务等环节的数字化应用……统筹数据开发利用、隐私保护和公共安全,加快建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范……推进产业数字化转型1.1中央人民政府:《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》着力夯实数字化转型基础建设基础数字技术平台(运用云计算、人工智能、数字孪生等新一代信息技术,探索构建适应企业业务特点和发展需求的“数据中台”“业务中台”等新型IT架构模式)建立系统化管理体系构建数据治理体系(加快集团数据治理体系建设,加强数据标准化、元数据和主数据管理工作,定期评估数据治理能力成熟度……)提升安全防护水平打造行业数字化转型示范样板加快推进产业数字化创新多措并举确保转型工作顺利实施推进产品创新数字化(打造差异化、场景化、智能化的数字产品和服务……)推进生产运营智能化(推进物联网、大数据、人工智能、数字孪生等技术规模化集成应用,实现作业现场全要素、全过程自动感知、实时分析……)推进用户服务敏捷化推进产业体系生态化制造类企业数字化转型示范(以智能制造为主攻方向,加快建设智能工厂、数字化车间、智能钢厂等智能现场,推动装备、生产线和工厂的数字化、网络化和智能化改造……)能源类建筑类服务类制定数字化转型规划和路线图协同推动数字化转型工作做好数字化转型资源保障1.1国务院国资委:《关于加快推进国有企业数字化转型工作的通知》数字化建设三大机会点应用上云用数赋智产业互联1.2数字化转型解读1.3数据中台是一套解决方案数据中台是一套可持续“让企业数据用起来”的机制,是一套解决方案,不仅是一个平台。让数据更加灵活地支撑前端业务,通过持续沉淀企业数据复用能力形成数据从采集、治理、开发到数据服务的一整套数据使用的机制。平台能力数据采集存储满足企业各类型数据的采集存储数据治理开展治理,沉淀数据资产数据服务可对外提供数据,实现共享数据开发支撑数仓建设、数据处理计算、数据分析挖掘等咨询服务实施服务平台搭建数据资产建库数据治理数据分析应用战略与目标数据应用规划数据规划平台规划组织、流程、规范监控与优化目录Contents数据中台是数字化转型基础11“咨询+平台+实施”三位一体方案22.1数据中台咨询规划2.2数据中台软件平台建设2.3数据中台实施“咨询+平台+实施”三位一体中台建设方案“咨询+软件平台+实施”三位一体确保数据中台成功建设:咨询服务:顶层设计,确定数据战略和数据规划,绘制蓝图,指导中台建设实施。软件平台:中台战略的承接载体,实施工作的支撑工具。实施服务:数据中台落地的关键保障。数据中台咨询规划数据战略愿景/使命/目标组织流程制度数据架构规划数据标准体系平台规划及技术选型数据质量体系数据服务需求分析数据安全体系数据中台规划的核心内容是确定企业的数据战略,以及为达成战略目标所需要的组织保障(组织、流程、制度)、数据保障(数据架构、数据安全、数据标准、数据仓库、数据质量、数据服务)和技术平台保障。组织规划数据规划数仓分层数据模型设计指标体系设计数仓体系数据治理体系数据服务体系数据服务规范数据服务管理制度平台规划数据管理能力成熟度评估数据现状调研调研项调研关注点业务调研业务战略、组织架构及其职能、主价值链业务、业务对数据的需求数据战略及数据治理调研信息化现状、信息化对数据的需求、数据治理组织、数据制度数据架构调研数据模型、数据分布、数据集成与共享(现状、需求)、元数据管理数据应用调研数据分析、数据开放共享、数据服务数据安全调研数据安全策略、数据安全管理、数据安全审计数据质量调研数据质量需求、数据质量检查、数据质量分析、数据质量提升数据标准调研业务术语、参考数据和主数据、数据元、指标数据数据生存周期调研数据需求、数据设计和开发、数据运维、数据退役数据现状调研报告长期目标中期目标短期目标数据战略数据战略:与业务战略保持一致长期目标中期目标短期目标业务战略透明化管理、业务协同、降本增效业务创新与转型全球领先的轨道交通系统解决方案供应商数据满足基本的管理决策和业务协同需求数据促进业务创新与转型在数字化竞争生态中处于领军地位CDO数据管理委员会数据管理工作组各专业业务专员IT技术支持人员数据管理监督人员数据管理联络人员各部门负责人跨职能高层领导相关领域专家数据管理组织整体负责数据管理工作的开展、政策的推广和执行,并作为数据管理问题的最终决策组织解决争议,监控和监督数据管理工作的绩效,并确保数据治理工作预算支持。根据数据管理领导组的战略目标,建立数据管理流程,阶段目标、计划,制定和维护数据管理方法、总则、工具、框架,对跨部门和领域的数据问题和争议进行解决和决策。根据计划完成数据标准管理、数据架构管理、数据安全管理、数据质量管理、元数据管理、主数据管理、数据仓库管理、数据服务管理等活动。数据管理制度与流程序号数据管理领域制度与流程1数据标准数据标准管理制度2数据标准制定需求提请流程3数据标准制定流程4数据标准修订&停用流程5元数据元数据管理制度6元数据采集命名规范7数据元管理制度8元数据管理变更流程9企业数据分类分层维护流程10数据元维护流程11数据元使用流程12数据建模企业主题域划分规范13企业数据模型设计规范14主题域维护流程15数据模型维护流程16主数据主数据管理办法/规范17主数据创建流程18主数据变更流程19主数据停用流程20数据架构数据架构规范序号数据管理领域制度与流程21参考数据参考数据管理办法/规范22参考数据维护流程23参考数据使用流程24指标数据指标数据标准管理规范25指标数据标准体系管理规范26指标数据分类维护流程27指标数据字典维护流程28指标维护流程29数据质量数据质量管理办法30数据质量规则定义规范31数据质量评价办法32数据质量改进贡献度评价考核规范33数据质量管理流程34数据集成数据服务管理办法35数据集成规范36数据服务上架流程37数据服务下架流程38数据安全数据安全管理办法39数据加密标准和机制40外部供应商的数据访问指南序号数据管理领域制度与流程41数据安全通过互联网的数据传送协议42远程访问规范43安全漏洞事件报告规程44数据采集授权流程45数据访问授权流程46数据备份流程47数据恢复流程48数据仓库数据仓库建模规范49数据仓库数据接入规范50数据仓库数据共享规范51数据仓库建模流程52数据仓库数据接入流程53数据仓库数据共享流程54数据使用及考核评价数据入湖贡献度评价考核规范55数据认责考核评价办法56数据政策考核评价办法57数据管控考核评价办法58数据需求提请流程数据架构数据架构业务架构业务领域业务职能业务流程应用架构主题域划分数据主题域数据主题数据业务视图数据实体数据所在业务域,如:研发创新域、生产制造域、营销销售域等数据主题细分,如营销销售域可细分为:市场营销|、客户管理、销售管理等业务视角的数据对象(用户视图),如:销售计划、销售合同、销售订单等系统中实体表,如:销售凭证头表VBAK、销售凭证行数据VBAP数据模型系统功能数据库数据实体属性(表字段),如:销售凭证、凭证类型、销售组、产品组、订单数量、单价…数据分布地图数据流向图数据实体识别以企业业务架构和应用架构为输入,规划设计企业数据架构,主要内容包括数据主题域和主题划分,数据实体识别和企业级数据模型设计,数据流向梳理和数据分布地图绘制。数据标准数据标准元数据标准业务数据标准指标数据标准参考数据标准明确元数据属性的基本组成和含义(中文名称、英文名称、数据类型、值域…)明确参考数据类别及其值域代码名称…00正常…10试制…明确指标数据基本信息、统计信息、口径信息、管理信息的数据元及其属性(指标名称、统计维度、归口部门、数据来源…)对核心业务数据元的标准化(姓名、公民身份号码、性别名称、性别代码…)数据质量定义数据质量评判规则设计数据质量分析指标建立数据质量考核机制确定质量权责和流程规范权责认定:为前期梳理的每一类数据资产确认权责部门,如:人员数据的质量问题由人资部门牵头处理流程规范:设计数据质量相关问题发现、反馈、分析、处理、闭环验证和质量工作考核相关的流程规范技术规则:从数据库存储的物理维度定义技术规则,如数据类型,数据编码,主键等业务规则:从业务维度定义业务规则,如:值域范围、数据格式、业务关联逻辑、计算逻辑等评估策略:确定各类数据质量检查频率及范围质量分析指标:明确数据质量问题的统计规则,设计质量分析维度和分析指标,以全面、直观展示数据质量问题质量预警机制:设计数据质量预警机制,包括预警方式、预警指标、预警值、预警信息规则等设计考核指标:设计数据质量考核指标体系,对企业数据质量治理工作进行定量评价建立考核机制:根据考核指标定期对企业数据质量治理工作进行考核,促进企业数据质量治理工作持续健康开展数据安全以数据安全管理组织、流程和制度为基础保障,分析企业在数据全生命周期的不同阶段的安全需求

,设定相应的管控策略,确保企业数据安全管理目标达成。安全需求分析数据安全管理组织、流程、制度企业自身业务需要利益相关方的安全需求政策、法规、监管要求全生命周期安全管控数据采集数据传输安全管理策略数据分类分级数据权限体系存储加密策略数据安全管理目标确保适当的数据访问,防止不当的数据访问确保对隐私保护、保密制度、法规的遵从传输加密策略数据脱敏规则安全日志审计数据存储数据处理满足利益相关方的隐私和保密需求支撑企业战略目标的达成数据交换数据销毁数仓分层设计面向业务主题的、整合的、反映历史变化的、稳定的明细数据面向数据来源各类异构数据源面向分析应用需求;高度汇总数据基于分析需求轻度汇总数据或合并企业数据仓库DWS(单主题轻度汇总数据)DM(跨主题高度汇总数据)ODS(原始数据)结构化数据数据分析应用DWD(业务明细数据)非结构化数据数仓各层数据形态示例维度模型:关系型数据库,BI统计分析;宽表模型:非关系型数据库,大数据分析。关系模型:给DM打好基础,保持灵活性、复用性宽表模型:直接用于展示,提高访问效率。数仓ODS层总体规划1、模型设计:1)模型与源头基本保持一致;2)分类上体现源头业务系统;3)保持数据关系;4)增加必要的标识属性。2、数据处理:不做数据处理。信息系统产生数据感知设备产生数据ODSETL工具(定时、复制)维护界面(不定期)服务接口/ETL工具(准实时)关系型数据库/MPP数据库/NoSQL数据库人工采集数据PDM产品物料设计BOM设计更改单…ERP设备需求订单生产订单生产计划…表面处理设备开关机信息加工状态信息…线下数据维修信息故障信息客户表扬信息…数仓DW层总体规划DWS业务主题库(轻度汇总层)DWD业务主题库(明细层)ODS缓冲库(贴源层)ERPMES外委外协供应链合同线下数据…物资主题采购计划采购订单入库单出库单供应商...生产主题生产计划数据(生产预测计划、年度生产大纲、主计划(批产、科研、修排贯)、生产订单(零件、毛坯、装配)、月度滚动交付计划…)生产保障数据(工装工具基本信息、工装工具领用记录、工具工装修理记录、动能申请记录、设备故障记录、设备三级保养记录…)生产执行数据(关键设备安排任务表、生产入库记录、车间作业计划、工序完成反馈、生产问题记录…)…人资主题组织机构人员…财务主题物资主题生产主题科研型号月度完成情况、批产型号月度完成情况、生产准备月度完成情况、外委外协月度执行情况、月度物料平衡会问题进度情况、月度生产现场有关物料督办问题的处理进度情况、月度工时数量…ETL(定时、数据过滤、数据类型标准化、编码转换、量纲统一、数据去重、数据汇总等)ETL非结构化数据服务接口(数据解析)/维护界面1、模型设计:1)数据属性范围;2)时间属性;3)派生属性;4)数据粒度;5)分离数据。2、数据处理:1)数据过滤;2)数据类型标准化;3)量纲标准化;4)去除重复;5)编码映射。数仓DW层数据模型数据模型特点:明细数据区和轻度汇总数据区。按业务分主题进行设计。明细数据区每个实体原则上都要加相应的时间戳。轻度汇总数据区的模型设计依赖于分析需求。数据仓库模型是符合3NF

的带有时间戳的关系模型。建立编码映射表,用于进行有关编码转换。数仓DM层总体规划DM分析数据库(高度汇总层)DWS业务主题库(轻度汇总层)DWD业务主题库(明细层)物资主题采购计划采购订单入库单出库单供应商...生产主题生产计划数据(生产预测计划、年度生产大纲、主计划(批产、科研、修排贯)、生产订单(零件、毛坯、装配)、月度滚动交付计划…)生产保障数据(工装工具基本信息、工装工具领用记录、工具工装修理记录、动能申请记录、设备故障记录、设备三级保养记录…)生产执行数据(关键设备安排任务表、生产入库记录、车间作业计划、工序完成反馈、生产问题记录…)…人资主题组织机构人员…财务主题物资主题人资分析主题物资分析库科研型号年度完成情况、批产型号年度完成情况、各系列各机型年度责任令完成情况、各军种年度完成情况、科研任务年度总体情况以及各机型年度科研任务项完成情况、年度工时数…生产分析主题生产主题科研型号月度完成情况、批产型号月度完成情况、生产准备月度完成情况、外委外协月度执行情况、月度物料平衡会问题进度情况、月度生产现场有关物料督办问题的处理进度情况、月度工时数量…ETL(数据合并、数据汇总)ETL(数据合并、数据汇总)1、模型设计:1)数据合并;2)数据汇总。2、数据处理原则:1)数据合并;2)数据汇总。数仓DM层数据模型数据模型特点:完全基于需求建立,它的主题域、主题的划分与DW层不同;主题划分有两种类型:为企业主管层面服务的综合分析类主题;为企业业务主管层面服务的专业分析类主题;数据分为两类:一类是基于数据仓库的细节数据或轻度汇总数据进行的统计分析,另外一类数据是基于统计分析进一步分析挖掘的数据;数据集市模型通常采用星形模型建模。采购完成情况日期ID物料ID采购数入库数供应商ID采购员ID供应商某公司人员张三年月日201415物料分类物料紧固件螺栓维度模型跨主题宽表模型指标体系设计指标梳理需求来源内部管控专题会议预测分析数据报送需求输入公司考核KPI上级单位下发文件客户关注/检验点业务域流程文件集团考核KPI公司级例会材料专题例会材料给上级汇报材料指标体系业务域管理主线业务域管理业务场景及受众对象业务场景对应关注指标梳理各业务域的业务主线自上而下分解业务场景并梳理关注指标自下而上关联业务场景并提炼关注指标设计原则名称统一定义统一口径统一来源统一参照统一设计要求提供方式以系统自动提供为主,手工补录为过渡辅助提供时限以满足实际业务需求为依据数据要求提供明细数据及计算公式尽可能提高指标数据频度指标体系示例战略管控战略发展人力资源管理财务资本运营审计与风险管理科技质量网络信息化安全重点亏损企业累计减亏率集团公司损失风险容限单位子公司产权状况军工项目整体预算执行率营业收入利润总额净利润营业收入利润率人才引进总数人才引进学历成分占比全员劳动生产率人均利润“三供一业”分离移交补助”僵尸企业”处置补助率率特困企业治理补助工业企业专项奖补资金集团公司风险容限集团领导批示的重大报告数盈利户数资产负债率科技活动经费支出总额基础数字经济总体规模品牌价值研究投入占比…

…战略规划改革管理人才发展财务管理劳动薪酬资本运作产权管理审计指标风险管理标准化信息化…………………………集团公司整体产业板块企业清理参股主要经营目标资产及负债两金规模亏损情况…

…人才引进人才培养用工管理劳动关系产权增减情况产权存量情况资产证券化规模重大风险监控财务决算审计编制标准数量信息化投入信息化业务覆盖度信息化资产…

……

……

……

……

…业务板块业务主题业务主题评价项战略管控指标内控指标/报送指标数据服务体系服务需求分析业务协同及流转需求数据分析应用需求数据流向内部管控专题会议预测分析数据服务规范服务方式数据格式服务交互规范数据服务管理制度服务申请与开发流程服务授权与上线流程服务下线流程数据服务的需求来源包括业务协同和流转需要、数据分析应用(业务分析和优化)需要两个方面。基于服务需求,制定相应的服务规范和服务管理制度。DMDWSDWD数据管理能力成熟度评估GB/T36073—2018《数据管理能力成熟度评估模型》咨询规划服务一套企业数据架构一套数据治理体系建设路线规划一张数据流向图一张数据分布地图一套企业核心数据实体一套企业业务域一套数仓体系四大类数据标准体系30+数据管理流程30+数据管理制度一套组织架构数据中台建设路线规划数据管理能力成熟度评估数据平台选型建议书株车数据中台软件平台框架规划咨询规划模块--数据架构规划咨询规划模块数仓体系规划规范与制度管理组织与角色管理数据管理能力成熟度评估治理实施模块--数据标准管理对数据元标准、枚举项标准和标准文件进行统一的线上、结构化管理与检索;标准起草、审批、发布、修订、废止全生命周期管理;数据标准与实际数据对象进行关联,对标准的实际执行情况进行评估和监控。治理实施模块--数据标准管理治理实施模块--元数据管理元数据管控元数据采集元数据统一服务新增导入抽取元数据统一检索元数据血缘追溯元数据分布地图版本管理状态管理流程审批变更自动感知接口采集数据来源/存储位置数据分类/数据主题数据模型数据关系(血缘、引用)元数据标签数据管理与应用规则业务对象/过程数据库表数据记录业务解释标准化数据定义元数据内容元数据管理功能治理实施模块--元数据管理治理实施模块--数据质量管理质量评估质量控制前置数据录入数据导入集成接入已有数据不符合规则的数据不进入平台质量评估评估报告脏数据明细数据自动清洗低分/异常预警质量情况统计质量问题质量规则规则定义权重分配完整性相关性唯一性一致性及时性准确性真实性......根据业务需要自定义数据质量规则,对数据进行前置质量校验以及周期性质量稽查,自动发现数据质量问题,生成质量分析报告,并进行针对性清洗和整改,解决用户明知数据质量差却不知从何下手治理的困境。帮助企业沉淀高质量的数据资产,支撑数据价值变现。数据存储数据存储导出数据时静态脱敏访问数据时动态脱敏、三员管理、系统口令认证、数据设定密级、用户设定密级、权限控制、审计日志记录存储数据时进行敏感数据加密数据消费者传输数据时进行敏感数据加密、接口授权按照备份策略进行数据备份及恢复验证治理实施模块--数据安全管理治理实施模块--数据安全管理敏感发现敏感标签智能扫描敏感推荐元数据数据文件敏感信息涉密信息密级管控数据密级文件密级人员密级数据加密加密存储加密传输数据脱敏脱敏查看脱敏传输密级应用密级过滤密级匹配安全监控敏感信息分布敏感数据访问情况敏感信息处理情况数据权限体系(库、分类、表、列、行等全方位数据权限管控)三员管理(三员权限隔离,数据安全审计)治理实施模块--数据安全管理治理实施模块--数据地图显性化、全方位、多维度展现企业数据资产积累、分布和运营管理情况,包括资产大盘、元数据、数据标准、数据管理、数据质量、数据交换、数据安全等维度的监控与统计分析。企业数据资产运营情况一望可知。数仓实施模块--基于数仓的指标加工过程ERPBWMAKTMARATSPATJESTAUFKAFPOods_sap_makt_diods_sap_mara_diods_sap_tspat_dfods_sap_afpo_diods_sap_aufk_diods_sap_jest_diods_bw_zppt_werks_zrbm_dfdwd_org_man_dep_dfdwd_temp_mat_spart_dfdwd_prd_pp_order_del_dfdws_prd_finishquan_month_dftdm_prd_scddzx_mtrend_dsERPERPERPERPERPdwd_sap_afpo_df物料描述/2,889,255物料主数据/2,884,915产品组描述/29,106生产订单状态/2,144,937,805生产订单主数据/21,730,430生产订单行项目/21,721,351工厂与责任部门对照表/124,886订单明细表物料主数据表明细表API生产订单行项目生产订单执行情况明细表ZPPT_WERKS_ZRBM数据源贴源层ODS整合明细层DWD汇总层DWS集市DM应用需求生产订单执行情况工厂与责任部门对照表月度生产订单执行情况表通过物料关联通过订单号关联指标与维度数仓实施模块--数据采集与加工web端拖拽式、可视化的数据开发工具,摆脱数据库SQL脚本、ETL工具、EXCEL公式函数等复杂、繁琐、技术难度高、难维护的数据处理方式。业务人员也可轻松玩转数据,激活数据价值自由探索通道。指标数据源数据库数据采集库表接入配套准时率出货目标达成率新增订货计划值质量问题闭环率数据血缘影响分析全链分析血缘分析接口数据线下数据接口接入线下补录数据加工数据输入数据处理(连接、过滤、合并、拆分、聚合、转化、赋值等)数据输出……数据服务模块--数据资产目录数据开放共享的窗口,用户可基于资产目录进行全局数据检索访问、数据订阅以及API服务接口申请。改变企业数据沉积在数据库底层不可见、难管理、难获取、难理解、难使用的现状,激发用户发掘数据价值的积极性和效率。元数据管理数据管理文件管理数据主题管理主题定义数据目录管理资源关联目录自动生成目录属性补录数据资产目录资产检索数据查看

数据结构查看数据订阅数据标签业务系统数据流向地图数据服务模块--数据交换服务BI可视化生产计划大屏质量保障大屏数据仓库生产计划主题分析售后服务主题分析质量保障主题分析研发计划主题分析生产计划完成率生产计划延迟率服务保障及时性售后服务满意度质量合格率质量改进趋势研发任务完成率研发改进计划执行率数据服务发起订阅申请订阅审批服务封装与授权服务发布服务监控采购订单获取接口MBOM接口库存台账接口物资采购订单接口设备采购单接口设备检验台账接口生产计划完成率指标接口采购及时率指标接口产品质量合格率指标接口质量改进趋势指标接口售后服务满意度指标接口客户投诉统计指标接口……接口ERP设备管理系统……系统调用接口获取数据数据服务模块--数据服务数据分析应用模块--数据可视化企业报告DM(高度汇总层)DWS(轻度汇总层)DWD(明细层)人资分析主题物资分析库ETLETL人资主题生产主题物资主题人资主题生产主题物资主题生产分析主题领导驾驶舱主题分析明细报表数据分析应用模块--数据可视化从数据源添加数据数据预处理场景发布场景实现②①③④数据分析应用模块--数据挖掘分析数据处理分析成果数据门户业务应用模型仓库随机抽样缺失值处理表转置异常值检测机器学习统计分析文本分析深度分析多维分析可视化分析数据分析场景故事模型经营管理领导驾驶舱专题分析专项问题分析业务实时监测……科研生产产品性能优化工艺改进质量改进产能提升……运维服务预防性维修远程运维设备寿命预测……数据仓库实时数据接入……DM(高度汇总层)DWS(轻度汇总层)DWD(明细层)人资分析主题安全库存专题ETLETL人资主题生产主题物资主题生产分析主题人资主题生产主题物资主题数据分析应用模块--数据挖掘分析分类算法决策树SVM随机森林自动分类回归算法线性回归神经网络保序回归自动回归聚类算法KMeans层次聚类视觉聚类自动聚类关联规则AprioriFPGrowth序列协同过滤时间序列ARIMAX12指数平滑自动时序综合评价熵值法层次分析Topsis模糊综评文本分析分词情感分析信息抽取主旨主题统计分析数据分布相关系数典型相关方差分析深度学习DNNRNNLSTMTensorFlow集成学习BaggingXGBoostGBDTVoting分布式算法

文本算法算法类型独创算法实施服务买软件?认为建设数据中台就是买一套软件产品。数据治理与数据中台是两件事?数据中台建设也包括数据治理开展。中台=数字化?认为建设数据中台就具备了数字化转型的能力,什么能力并不明确。名词陷阱数据中台?数据湖?数据中心?数据仓库?数据中台建设遇到的典型误区数据中台建设建议坚持“业务牵引,咨询、平台、实施三位一体推进”原则以满足相关业务应用需求为目标总体规划按需搭建平台基于平台敏捷实施遵循“横向规划,纵向切入”建设模式规划必须全盘考虑,打通企业的所有业务板块数据中台建设不可能一蹴而就,需要从业务应用出发倒推数据需求围绕单个业务场景的闭环快速搭建起数据中台的各种能力按照全景规划依次迭代,逐步实现全局数据中台谢谢聆听Thanksa四川电信数据湖+数据中台实施方案企业信息化部2021年2月数据驱动数据湖数据资产数据治理23451回顾理解2数据驱动构建数据驱动能力构建数据驱动场景构建原子事件库设计态能力策略库调用生成事件ID及描述配置事件属性和目录树位置原子事件规格发布原子事件测试原子事件上线事件调用说明业务场景库调用事件发布事件源配置:基于成熟事件源系统、基于数据资产的事件配置、基于解释器的事件配置解析、计算、判断规则:通过计算规则配置,解析事件源数据及计算结果是否满足编排事件封装规则:包含事件出入参、调用形式、周期、失效时间、其他限制条件等调用规则事件模板调用1.事件注册-生成事件2.事件编排-数据源及加工配置3.事件发布-提供交互目录树事件生效并挂目录树支持业务场景库和策略库调用原子事件目录树更新事件目录树原子事件库设计态根据业务需求的输入及分析,整合包含业务系统和数据中台的多事件源数据,在原子事件库中完成原子事件的注册、编排和发布全流程能力,强化事件管理、编排、开放等多种能力,构建数据驱动的统一事件支撑管理能力库,提供标准化的数智能力,助力数据中台能力提升和价值演进根据业务需求注册事件原子事件ID原子事件描述原子事件目录树归属原子事件创建时间原子事件类型根据原子事件业务规格进行事件编排原子事件所需数据业务系统数据资产数据中台数据模型数据调度……数据获取配置数据加工编排配置事件解析器基于SQL解析配置基于业务描述配置原子事件编排事件源解析规则事件源配置原子事件状态…事件计算规则事件判断规则事件封装规则业务需求输入原子事件运行态事件编排逻辑触发数据资产注册源数据跨多系统数据源事件源系统事件源数据事件编排信息业务系统已有事件事件要素齐备系统事件触发事件解析2 事件模型事件调度4

事件分析事件判断而随着135……数据目录运算数据模型生成调度规则注册数据资产标签库事件编排运行查事件进程查事件信息查事件接口事件所需数据汇聚事件ID事件类型事件对象事件参数1…基于原子事件的侦测事件所需数据用户行为2 业务信息扩展信息4

事件增强..135……APIkafka消息队列…一站式事件数据汇聚:持续整合事件所需的数据;实时事件侦测:依托事件数据实时汇聚能力,高实效监测事件触发和执行;编排事件执行:依托数据中心现有能力,高效实现事件编排内容,扩大数据驱动范围和时效性;事件模板实例化事件推送/调用根据时间编排逻辑监测事件并整合数据源大数据平台支撑事件实例化:讲设计态中的事件模板进行实例化,封装实例数据事件推送/调用:通过事件目录树实现事件调用响应和主动推送能力策略平台调用推送停机客户自主联系智能客服实现业务实时高效的查询和开通事件驱动-停复机场景支撑策略匹配事件侦测消息队列事件推送根据时间编排逻辑监测事件数据驱动1、用户停机,拨打10000号紧急复机10000号等客服平台用户紧急开机清单(事件id、账户ID、信用额度、用户信用等级、地市、用户状态)匹配事件事件解析事件分析事件判断侦测事件数据中台kafka事件模版实例化策略引擎动作执行策略1:用户信用度是否为0计费平台启停信用度接口复机接口是否策略2:查询欠费计费平台欠费查询接口返回欠费详情策略3:用户信用额度>用户欠费<用户信用等级*50元计费平台临时授信接口复机接口策略4:复机是否成功CRM系统查询用户状态接口返回是否复机成功策略平台策略平台事件中心将原子事件解析为业务事件,供协同中心进行策略规则解析,生成工单任务信息,推动给触点系统触点系统触点系统接收工单任务信息后,进行相应的任务执行,并将执行结果反馈给策略平台,供策略平台进行二次策略协同派单和执行信息共享1事件流程驱动2345电话、短信、微信渠道(IVR,NGCC,公众号...)能力开放和注智客户停复机场景事件捕捉客户停复机相关数据整合分析智能侦测停机客户复机诉求数据驱动服务能力数字化智能服务前台场景判断和策略匹配查询业务系统执行结果和封装策略执行并调用能力中心能力服务前台实时查询停复机策略接口数据驱动停复机场景支撑能力打造以数据中台为底座事件源采集3数据湖构建数据湖构建数据湖入湖能力构建数据湖的分析开发能力构建数据服务体系构建权限安全体系总述数据湖是一套针对混搭数据库架构,具备数据采集、数据计算、数据访问、数据管理的技术架构;通过企业级数据资产,数据湖和数据中台,为不同级别的使用对象提供数据分析、开发的原子能力。数据汇聚数据湖:原生数据,采集、同步形成,或直接存储在生产系统数据中台:具备共享性的整合、加工数据数据探索数据资产统一纳管;提供基于数据湖、数据中台的数据探索数据生产提供多套计算引擎和场景开发,满足实时大规模数据预测、大宽表数据加工、大数据信息扫描等生产需求。数据服务提供统一的元数据管理,通过直接读取本地化的元数据信息,即可实现同源异构、异源异构和异源同构的数据访问。典型场景统一采集入湖营服实时数据入湖人脸图片数据入湖综合告警典型场景:跨域业务的探索分析网络动态资源树原子能力平台典型场景:volte实时数据分析厅店实时数据分析多维实时指标典型场景:一站式检索IDE实时分析工具基于数据湖+数据中心的新一代数据中台实施举措序号关键能力建设内容1构建数据湖构建适应于不同类型数据的存储能力,支持数据入湖基于全域数据资产目录,构建生产系统数据快速采集的存储配置策略、数据落地规则初步形成数据湖成果构建数据湖的视图,清晰数据湖构成和数据分布(在数据资产管理中落地)2构建数据入湖能力构建生产区到原生区数据的按需同步能力支持按资产目录驱动的数据入湖流程管理构建多种异构数据源的接入能力构建多样化的入湖开发模板,如:引导式、场景式等多种入湖能力3构建全域数据的开发能力构建统一的IDE分析开发工具,支持对多种异构数据资源的支撑能力构建支持即席分析探索能力,屏蔽底层物理存储4构建数据服务体系构建统一的数据服务框架,按场景驱动服务开发构建数据从注册、开发、上线、授权的全生命周期管理构建基于实时计算框架的数据服务,赋能实时业务场景5构建权限安全体系构建逻辑租户、团队、用户模型体系构建数据资源的租户权限管理体系构建集群资源分配、任务动态策略管理能力结构化非结构化数据湖数据架构入湖标准明确数据属主数据标准细则入湖方式注册元数据数据源规范认证物理入湖虚拟入湖离线实时逻辑数据湖物理表虚拟表账务域事件域参与人地域域管理域营销域计费域账务域管理域资源域客户域网络域PULL(拉)+PUSH(推)产品域资源域其他域财务域安全域其他域逻辑统一数据类型、业务分策略存储统一元数据语义定义、拉通、管理类型多样结构化:IT业务交易、流程、管理非结构化:网络设备产生文本、流数据原始记录湖内数据不转换、清洗,保留最原始特征,提供更多分析可能入湖标准明确数据属主执行数据标准数据质量评估元数据注册从业务出发,以用促建、急用先行的建设策略,数据中心统一规划,各领域配合执行,明确入湖的数据责任方,遵循安全、负责、易用的原则构建整个数据湖体系。数据源内部数据外部数据BSSOSSMSS网络专业···网络社交···

数据湖目标入湖标准要求数据湖存储架构-构建低存储成本的数据湖统一存储统一计算MPP(AntDB)RDBMS(TelePG)流数据统一采集流处理交互式查询微批处理批处理多维分析文本搜索数据湖流数据处理网络爬虫流式采集批量采集CDC采集HDFSKafkaHBaseKylinES结构化、非结构化数据时序查询归档Tidb/时序数据库多维分析复杂分析,时序数据分析全文检索以HDFS为核心构建大数据湖,以廉价成本(纠删码)将数据进行持久化,数据采集进来后由HDFS存储原始数据,其他数据存储按需采用HDFS、Redis、MPP(AntDB)等技术。二阶段一阶段基于数据湖的整体能力架构开发能力检索同步采集赋权解析扫描计算消息安全管理能力账号管理租户管理鉴权服务调用服务开放引擎服务调用服务订阅服务治理服务鉴权对外服务引擎数据监控服务监控质量监控文件类大数据基础平台paas平台分析类图片类人脸库指标库爬虫数据行业数据地市报表证件库基础能力sparkMRTezFlinkiceberghbaseAlluxioredis计算类存储类数据服务引擎企业内部应用集团dcoos外部应用请求监控服务开放引擎提供界面化服务订阅、服务发布、服务治理开发能力提供基于组件化的采集、开发、查询、交换、分析能力基础能力提供实时、离线、批流一体的底层计算存储组件的服务封装能力安全管理中心实现不同资源存储租户间数据访问的统一权限管理运营监控提供不同环节处理的任务、过程、操作日志和状态监控数据共享基于数据湖的混搭数据库架构设计,通过服务提供的形式,用于解决数据查询、数据分析、数据共享、数据预测等业务需求。

数据湖整体能力支撑运营监控基于数据湖的开发管理组织规划数据使用开发参与对象开发者开发者开发者开发者数据分析者数据分析角色数据运营角色数据开发角色数据分析角色:根据需求场景及个人业务理解,产生需求使用系统,提供数据目录检索、资产详情查看、IDE数据分析探索生成分析结果数据开发角色:对接需求分析师,拿到需求和制定开发计划对需要数据发起入湖流程入湖任务监控,数据问题处理反馈数据分析者开发者数据分析者运营者运营者运营者运营者团队1团队2数据分析者平台管理者平台管理者数据运营角色:查看数据湖的整体资产情况查看数据入湖的任务执行监控查看数据湖抽样数据的存储情况查看各自团队数据安全权限分配和入湖处理平台管理角色合理的角色分工清晰的流程处理平台管理角色:负责分配用户的系统资源负责创建平台账号负责分配平台工具的使用权限负责保障平台的稳定运行数据入湖能力-即时数据自助探索分析

数据湖区(私有租户)1、查找需要模型3、获取样例数据4、数据开发5、数据洞察&分析2、查看资产详情对接安全管理平台数据同步/异步传输机制数据抽样标准元数据资产检索元数据检索(模型名、字段名、口径描述)

开发IDE模型目录一键集成开发IDE基于数据内容的检索(抽样数据、ES存储)高效分析查询基于数据开发结果对接可视化组件快速完成分析提供保存分析结果历史,方便持续性的趋势洞察关键能力资产目录基于数据湖中全域的数据资产目录,提供便捷数据分析入口,引导式发起即时数据分析的全场景,完成自助数据探索分析。资产详情资产详情可视IDE业务元数据(业务口径、频率、全量、来源系统、存储周期等)技术元数据(数据源、字段、类型、长度、分区等)管理元数据(五性)文件/表同步方式支持多样数据库类型数据分析人员运营要求要求安全平台满足实时抽取同步响应及时要求各域数据运营人员抽样数据安全性需要权限管控

要求平台使用人员严格执行入湖流程标准

抽样数据直采效率更高,可探索尝试

入湖模版推荐数据入湖能力-支撑按需快速入湖的自助流程现状:目前存在两套采集平台,两次采集的问题,数据延迟,数据同步差异不可控,问题定位复杂,采集数据门槛高。目标:实现多种异构数据源的直接采集,提供简单高效的入湖能力,提升原生区数据的可靠性,将这些异构数据同步到数据湖中统一存储,提供多样化的入湖开发模板,如:引导式、场景式等举措:资产目录驱动:通过资产目录检索,定位到需要采集的生产区元数据,选择资产自动注册服务能力,一键注册到原生区,然后选择需要的采集原子能力,完成配置后,数据一键入湖入湖模板:支撑流程驱动的引导式开发和场景化的业务模板异构数据源支撑:RDBMS、MPP、文件、消息等。自定义入湖策略:模型的数据来源、频度、增全量、定责以逻辑集中,物理分散为原则,以实现数据的统一采集、统一存储、统一管理为目的,打造标准化的入湖能力,实现企业级数据湖。屏蔽数据源异构技术差异,实现透明、可编排的采集开发能力,快速实现业务按需入湖。典型应用场景:快速按需完成产品设计场景数据入湖企业数据目录P1:通过数据目录定位需要的模型数据数据资产详情P2:查看模型数据的详情,包括:业务口径、管理口径、血缘依赖信息等,确认数据使用场景P4:调整实际的入湖策略,如数据来源、频度、全量或增量等,完成最终任务的发布上线策略调整并上线入湖数据确认P5:通过IDE探索平台确认数据查看业务含义按需调整策略分析入湖数据P3:基于模型的元数据信息,自动推荐适合该场景的数据入湖模版并加载构建入湖场景低代码快速开发入湖组件指标注册指标服务开放FTP组件指标标准脚本组件消息组件自定义组件大数据组件MPP组件统一IDE编排组件关系型组件数据开发角色运营要求要求安全平台满足即时采集策略的流程配置及实效性要求具备直采条件的建议直接拉数据,源系统分配安全账号数据湖开发分析能力-可视化IDE工作台搭建统一IDE开发平台,管理底层混搭的数据存储架构,屏蔽底层差异性,通过SQL编写、参数配置、流程调度,实现跨平台、跨数据源的在线数据分析工具,通过可视化界面操作、资产全文检索能力和内置工具,实现快速找数据、即时分析数据。数据注册管理提供统一的多种异构数据源的元数据采集能力,支持主流的RDBMS、HIVE、ES数据源的管理;根据采集上来的数据源类型进行数据访问封装,形成统一IDE查询能力;支持对指定数据源数据的分析探索能力。数据开发处理消息管理:提供离线和实时可视化开发平台封装开发函数组件,屏蔽底层细节,降低开发门槛,提高开发效率;丰富的组件可以支持多种数据开发分析的场景,通过编排可快速实现业务场景数据访问日志记录开发者详细查询、开发操作轨迹日志;开发者可以查询历史访问信息。智能SQL

IDE标准SQL语法Hdfs组件Hive组件Sql通用组件文件组件脚本组件命令组件控制组件函数组件质量组件数据访问适配器丰富开发组件库hdfshivemysqlhbase数据开发&数据分析角色①数据需求想法②检索湖数据和探索分析③分析结果呈现或应用数据湖的数据开发能力-双集群研发工作区建设在数据湖+数据中台核心能力基础上,基于数据统一存储统一管理的原则,构建多处理平台工作区环境,支持数据研发测试、探索开发场景。1、提供数据中台研发环境开发学习能力作为数据中台的工作区开发环境,具备敏捷开发功能,快速实现模型开发、数据开发、作业调度和一键发布能力,并增加JOB及HQL语意审核,上线发布前试运行效率评估。

作为关键基础业务数据备份,支撑极端场景下生产环境业务数据的恢复。作为大数据学习平台,提供操作系统、大数据组件、数据实例的学习环境。2、提供跨区访问、跨区读取探索开发能力可提供跨区访问数据中台产品区、数据湖原生区的开发能力;可提供跨区实时读取数据中台产品区、数据湖原生区数据能力提供敏捷开发能力,通过一键发布实现工作区研发成果发布到产品区。3、提供半结构化数据探索开发能力,实现抽样分析工作区原生区历史库采集类数据同步库/复制库虚拟数据对象类数据语音库/人脸库流式数据产品区关联数据标签指标整合数据经营类关联数据预测分析整合数据注智类生产区资产信息资产检索跨区访问跨区读取发起入湖需求探索开发敏捷开发数据采样、测试资产注册任务调度一键发布探索学习系统类学习数据类探索组件类学习智能类探索数据湖的数据服务能力-高效安全的服务开放共享文件服务API服务消息服务

在数据湖+数据中台核心能力基础上,基于全域数据湖资产目录,提供快速对湖内数据进行数据开放能力,统一服务创建和发布流程,数据开放安全可控。数据服务引擎统一配置统一管理统一监管统一运营集团上传驱动集团实时业务驱动生产运营业务驱动资产目录资源注册资源发现原生区产品区场景驱动数据服务管理提供统一的API创建、测试、发布、下线生命周期管理;支持Mysql、Hbase、Oracle、Redis、Http、文件多种数据源的数据开放能力;提供统一服务不同的安全访问策略,如:字段个数、不同字段脱敏;提供API的调用管控,如:流量控制、调用次数等熔断控制;提供应用访问的APPKEY申请管理能力,保障服务安全接入数据服务运营提供整体API的整体概览:上线总数、调用次数、成功次数、服务调用排行等;提供对API冷热度分析评估,指导不常用服务下线处理,对调用次数较高服务进行重点服务保障提供全面的服务调用日志审计,对每类应用、每个接口的调用分组统计和分析调用趋势,指导资源优化数据服务开放目标:统一服务开放平台数据湖的数据服务能力:资产一站式检索Parquet样例数据非/半结构化文本HDFS文件消息图片/音视频混搭数据存储图文本/音频文本资产目录数据服务引擎资源管理结构化文本产品区生产区元数据原生区检索查询结果显示结果返回搭建全文数据检索引擎,将完整的信息,包括资产、位置、数据、索引全部转化为计算机可以识别、处理的信息单元,存储到提速引擎中,形成资产路由,以实现一站式的全文检索。检索引擎多维检索数据元数据(表、字段、业务口径)血缘纬度查询基于业务过程纬度查询(梳理业务过程,定义业务过程中保护的实体模型进行建模);高级检索存储引擎:基于抽样数据(结构、非结构)进行模型与数据的索引构建,内存存储;快速检索:屏蔽底层底层数据差异性,构建统一搜索引擎,完成数据的检索呈现;

资产快速检索数据快速检索索引缓存数据湖资源安全体系-灵活的团队管理模型目标:支持多团队、多厂商使用,构建团队、租户、账号的权限资源管控体系支持不同团队下计算存储资源的配额管控,解决集群内资源的高效使用举措:团队账号管理:梳理现有系统账号、组织机构、角色、权限管理,引入新的团队账号体系管理,构建多租户模式的工作空间管理体系租户资源管理:建立逻辑租户的资源管理体系,管理团队租户下集群账户、用户、角色、权限,明确各角色职责和开通流程统一租户模型集群资源用户用户用户用户资源实例资源实例资源实例资源实例YARN计算资源队列队列队列团队租户团队租户以开发团队申请入住为例,需要申请租户并绑定集群资源获取数据和开发。创建团队并绑定用户,以团队为单位配置该团队集群资源配额(vcore、mem、存储)。创建租户,租户绑定数据资源实例,可以针对应用场景绑定需要的存储计算资源。给团队用户分配对应租户资源,一个用户可以拥有多个租户资源的权限申请。开发用户对模型的访问权限通过统一数据访问权限控制。实现集群统一的资源管理,以租户为对象实现集群资源的按需分配,并且需要根据运营体系实现资源的授权管理。支持租户的角色定义及用户授权,满足对租户管理的诉求。实现集群资源的配额管控,更合理的使用集群资源。100vcore1024M2T团队1150vcore1024M1T团队2数据湖资源安全体系-跨平台用户权限统一管理租户开通账号开通资源分配数据授权资源信息管理大数据基础平台paas平台分析类图片类人脸库指标库爬虫数据行业数据地市报表证件库文件类用户权限统一管理服务引擎(servicebroker)资源注册租户创建账号绑定租户资源分配数据授权租户同步账号开通资源分配数据授权12345图例资源租户统一管理提供统一的资源管理模块,将原生区和产品区资源管理和租户管理纳入统一的管理。将集群资源注册,租户开通,资源分配,服务分配,数据授权等能力进行统一的可视化管理。并采用服务调用的形式管理paas平台和大数据基础平台的底层混搭的数据库架构。

租户同步改变传统的通过后台分配租户、数据访问权限等操作,采用可视化操作。通过实时和离线两种方式保证产品和集群租户一致,实时,通过服务注册的方式,通知平台完成租户创建;离线,平台定期同步租户到本地产品租户库,产品自动完成增补全租户注册。

服务引擎设计权限服务引擎,管理底层混搭数据的权限开通、停用,提供统一权限申请流程,替换现在线上申请,线下赋权的流程。同时记录操作日志,对违规操作进行审计,提高了系统运维的安全性。资源信息注册数据架构优化基于数据湖的场景支撑---升级对象存储引擎,持续强化赋能一线的数据能力数据中台提供多种对象存储能力,支撑结构化和非结构化数据的入湖,便捷的数据存储服务及在线分析查询能力,快速赋能生产运营,释放中台能力价值,提升客户办理感知。①营业厅改套餐②人脸扫描认证③实时存储计算分析④认证结果服务能力数据中台缓存索引图像处理服务文档处理服务音频处理服务日志处理服务大数据集群对象存储(Ceph)HDFS/HBASE结构化处理服务其他处理服务半结构化结构化大文件图像文档音/视频统一数据服务图像数据服务赋能业务受理,助力人脸识别业务场景。留存全省用户图像及人脸历史库提供低延迟的图像数据服务赋能更多的智能业务受理场景基于数据湖的场景支撑---加强实时计算分析能力,提升VoLTE客户服务感知实时流处理引擎HadoopHDFS大数据海量存储网络信息设备信息位置信息感知分析/告警随着数据中台各种计算引擎能力的构建和升级,基于批量实时流计算引擎能力赋能业务处理的场景越来越重要,通过快速采集实时事件结合历史数据分析,提前分析问题原因及预知风险,协助客服解决通话质量投诉问题,避免客户流失,提升用户通话和服务感知。感知内容:故障率高的网络设备型号分布通话质量差的位置区域分布投诉用户的地区热点分布投诉反馈的时间段、时长分布投诉用户的通话设备型号排行···FlinkSQLKafkaconnector用户信息4数据资产存量资产管理生产区资产管理原生区资产管理资产目录管理资产管理现状和目标2020年建立DAMS至今,已经基本构建完成核心功能,包括资产自动扫描采集入库通道、信息补全、数据稽核、信息检索、资产视图等,后续将持续优化打造适用于数据湖+数据中台的数据资产管理体系。数据入湖标准化打造企业资产目录提升数据采集准确性采集入湖自动化制定资产和数据入湖标准,并纳入上云管控流程,从源头保证资产标准化;并统一数据湖和数据中台的资产注册规范。参考集团《中国电信数据资产目录管理办法》,融合数据湖+中台各区资产,重构建设省级资产统一目录。统一数据湖+数据中台系统标志,根据标准规范,实现协议自动注册、自动采集入湖,和资产的前后台到开发贯穿管控,保证数据采集的唯一性、采集路径的合理性。自动扫描实现结构化数据的注册,通过接口协议自动实现采集入湖;对非结构化和对象型数据打造统一入湖能力。现状目标目前安全平台自动扫描工具接入系统43个,数据库95个,还需推进全面扫描工作;自动扫描结果数据合规率较低,需要补齐和修正;缺少非结构化和对象型资产统一注册能力;缺少非结构化和对象型采集入湖能力;数据源采集路径多,交互效率低;

缺少统一融合的数据资产目录。实施举措序号关键能力建设内容1构建全域数据资产视图基于资产盘点成果(含数据资产、数据资产标注信息),结合中台数据资产,融合形成全域数据资产视图增量数据资产自动扫描(细分职责、明确困难或问题)2系统上云优化资产入湖开发者门户、安全管理平台、CMDB、DAMS各自建设入湖标准管控能力、分段负责管理层面:形成稽核-派单-反馈-考核的管理机制制定入湖标准文档,包括:上云规范、数据资产稽核细则规范、考核机制;3数据湖资产管理数据湖目录管理资产自动注册能力4全域数据资产服务能力构建多维度的资产目录视图,支持不同业务视角的数据使用需求优化数据资产检索能力:基于场景、NLP、热点、个人关注等构建资产标注能力,实现资产的多业务标签体系构建资产平台和OA集成能力,提升使用便捷性数据资产的管理成果01随着盘点工作的开展,持续对存量资产的梳理,系统总数508个,目前通过稽核并成功收录的系统达304个完成全面盘数据资产梳理02搭建CMDB、安全平台和DAMS的数据资产自动化识别流程,目前接入系统43个,数据库95个,表110643个,字段1460883个具备资产自动化注册能力03定位数据采集源,避免重复采集分析数据分布图,开展安全审计开展数据评价,促进数据价值提升初具数据资产应用能力04提供接口全视图、优化数据稽核能力,实现数据质量监控,目前数据中台重点支撑业务27个,涉及70个来源系统的563个模型,共配置稽核任务3061个深度部署重点数据治理埋点05提供资产全景视图,建立接口采集标准,优化采集开发流程,实现数据按需采集的标准化需求管理,2020年采集类需求116条,接口协议1068条数据采集需求标准化管理持续优化资产管理能力、构建全域数据资产采集管理展示管理视角开发视角业务目录一级视图二级视图应用目录一级视图资产自动注册界面录入自动补齐资产变动通知变更流程变更申请发起工单稽核工具规则管理规则检查问题管理源系统1源系统2源系统N程序主动扫描标准模板采集指定数据表读取二级视图存量204个系统未注册到DAMS存量472个系统未在安全平台扫描存量4500个DAMS资产与数据中台数据未建立联系DAMS对注册后的资产进行定期抽审,并将审核结果纳入考核实现存量资产全面纳管CMDB、安全平台、DAMS协同统一系统信息、维度编码;DAMS协助开发者门户梳理系统IP,完善系统信息管理DAMS督促NOC、天虎云商、无线等部门完善系统纳管DAMS完善资产注册标准,并持续更新完善资产发现注册能力建立数据评价规则及评价结果应用机制建立数据标注体系便于资产的分类管理建立样本数据库服务于及时的在线分析融合数据中台与DAMS资产目录,构建全域数据资产目录打造数据资产服务能力样本数据采集运营视角数据评价视图资产打标视图具备优化新建运营要求通过数据安全管理平台的数据抽样能力获取抽样数据由于数据库版本适配、网络不通等原因导致的源系统无法被自动化扫描的问题,是由源系统负责解决技术问题或进行改造,还是沿用样例数据导入借助上云契机,严格管控增量数据资产入湖标准落地与安全专业、IT运维专业联合工作,形成CMDB+安全管理平台+DAMS的数据资产管理体系,并嵌入到系统上云审核环节,实现数据资产盘点自动化,避免手工盘点前清后乱的风险。IT安全集中运维扫描:负责对源系统的系统信息录入,系统IP扫描。CMDB平台:负责对源系统的系统主数据管理数据安全管理平台:负责资产扫描、扫描任务管理,元数据管理。DAMS:对数据资产信息进行二次稽核,数据再加工,绘制资产全景视图等,并按照集团规范要求将数据资产卡片自动上传到集团运营管理系统。数据安全管理平台DAMSCMDB平台系统注册源系统数据扫描资产注册系统上云流程(统一PaaS平台)资产合规性审核报告管理举措:制定paas上云流程制定平台接口规范、稽核指标规范完善资产审核和数据扫描能力附后:《四川电信数据资产入湖标准》试运行预备案申请资源正式备案设计评审开发管控初验终验系统上线验收流程中审核《资产稽核报告》《企业IT系统上云管理规范》《盘点稽核指标计算细则》签字审核IT安全集中运维平台系统IP扫描运营要求建立不同类型的数据资产管理模式的长效机制目标:从源头控制,形成全域数据资产自动接入、完整覆盖,提升数据资产服务能力。资产目录南-北向接口需求3网络侧资产注册服务Kafak需求2TOPIC配置资产注册服务汇聚库/生产系统1安全管理平台资产自动注册服务接入流程注册流程:①采集类需求:采集流程优化,资产自动注册汇聚库类数据,通过安全管理平台扫描资产自动注册(原生区)需求管理人员接到增量数据采集需求,通过DAMS生产区资产目录检索,定位到系统表,调用资产自动注册能力,完成资产注册在DAMS未定位源系统表时,通知源系统在安全管理平台完善资产信息,完善后方能发起采集需求,反向推动数据湖资产补全②③需求纳入统一管理,提供南北向接口资产注册服务,形成资产全面管理DAMS提供资产注册服务给统一采集平台,将统一采集平台产生的文件类资产统一管理DAMS提供资产注册服务给PaaS平台,将流式数据kafka类资产统一管理网络侧数据无法通过安全管理平台注册,需要提供注册服务构建清晰易用的全域资产目录,提升数据湖数据服务能力多维视图提供多维视图按业务,展现企业核心资产;按部门,展现数据管理归属;按需求,展现数据支撑业务;按场景,引导式场景数据推荐;资产关联强化资产关联建立不同区域资产血缘关系;建立不同类别资产血缘关系;建立不同区域资产的一致性结果;服务开放能力集成资产订阅、收藏、评价资产检索在线分析数据服务现状设计数据中心资产目录现状:不完整:数据湖的数据资产未融合开放性不够:主要为专业数据开发人员使用,技术门槛较高,数据共享的支持性需要加强清理不及时:资产清理不及时,老旧数据资产、冷数据无标识标准不完善,管控不强硬:不合理的数据依赖关系依然存在资产标注完善资产五者关系,有助于问题处理;明确部门管控关系,有助于责任划分;数据打标资产打标资产运营构建统一的服务目录视图,梳理并建立标准化的后台原子服务目录。5数据治理数据治理总述构建贯穿数据生产服务链全生命周期数据治理体系,让数据中台更好用、更好监控和更好管控,进行持续的改进。通过TOC、PDCA以及精益思想理论,圈定资产、质量、使用和评价4个模块作为重点治理对象,通过机制、规范、监测和评估实现中台的精益治理。数据资产针对资产是否全面完整、资产是否可用和资产是否多余进行数据资产关联对比、资产标准化和资产下线管理资产关联管理通过CMDB、安全管理平台以及DAMS三方对比确认资产完整性资产标准化建立资产标准库,识别资产是否标准,严控资产质量资产清理发现低值、未用资产,通过血缘和下线清理策略评估,进行系统下线和迁移后历史资产的处理。数据质量新建数据湖需要更明确的机制、流程以及管控工具来进行监控。数据运营针对客户使用情况,真实直面的反馈数据、系统、能力的使用情况,创建交互通道,嵌入到数据运营的各个阶段中进行埋点管理咨询、问题搜集通道埋点能力数据评价建立评价模型和指标,合理利用集群资源,注智开发、运营、服务和管理管理强化生产区纳湖,新建原生区,多集群存储和多管理部门协作的五者边界的划分和流程确认结合质量考核办法进行管理能力优化根据能力成熟度模型,逐步创建从人工入湖、半自动入湖、自动入湖能力,运维上创建执行稽核动态上下线,实现湖内资产数据一体化管控质量稽核着重半结构化和非机构化数据治理,创建抽样监测、定制专项业务稽核以及生产系统提供稽核校验文件形式保障数据可用性为数据使用人员提供问答式互动通道,填写关于数据、平台使用的意见反馈、知识经验共享、交流学习等;数据生产到使用的各个阶段,创建埋点,收集客户使用行为,客户使用意见、评论等;结合上云嵌入插件能力,观测数据、接口、模型、字段使用情况质量评价感知评价资产评价成本评价价值评价主要针对运维过程中出问题情况进行评价针对客户使用感知进行评价随着DAMS的提出,资产合规性等很重要,进行资产评价针对存储、使用资源等评估针对重要程度,使用频率等进行价值评价统一数据标准库劳动竞赛/积分模型开展劳动竞赛,建立共管支持能力,深化数据资产运营智慧运维运维对象数字化,提升可用性,降低运维成本实施举措序号关键能力建设内容1数据资产治理1、完善标准库:系统上云、资产入湖、数据使用2、资产关联稽核管理:生产区、原生区、产品区资产一致性稽核能力、异常资产在数据资产视图中的标注和提示能力(细分职责)3、基于数据评价,支持数据中台数据自动预警、定期下线或回退到原生区2数据质量治理1、质量体系完善:将现有中台的稽核方式,以质量评估模型+知识库形式进行有效组织和设计,以系统化方式实现从人工到自动化的迭代演进2、能力优化:优化稽核效率,制定调度任务评估模型动态调整执行策略(任务完成度、指标使用频率、血缘依赖度)3、管理强化:新建原生区,多集群存储和多管理部门协作的五者边界的划分和流程确认,结合质量考核办法进行管理3数据运营1、交互式问答平台:为数据使用人员提供问答式互动通道,填写关于数据、平台使用的意见反馈、知识经验共享、交流学习等;2、嵌入式点评留言:用户直接可以根据使用情况进行评价和反馈。精确反馈功能模块使用情况3、应用埋点:将类插件方式埋点到指定应用查看数据使用情况和价值4、资产标注:对资产进行业务标注,提升检索和管理能力5、劳动竞赛:鼓励全员参与,建立赛道,全员自主自愿参与业务数据打标、数据治理赛道竞赛6、积分模型:设置积分奖励制度和奖励办法4数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论