数据中台“咨询平台实施”三位一体方案两份资料_第1页
数据中台“咨询平台实施”三位一体方案两份资料_第2页
数据中台“咨询平台实施”三位一体方案两份资料_第3页
数据中台“咨询平台实施”三位一体方案两份资料_第4页
数据中台“咨询平台实施”三位一体方案两份资料_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a四川电信数据湖+数据中台实施方案企业信息化部2021年2月数据驱动数据湖数据资产数据治理23451回顾理解2数据驱动构建数据驱动能力构建数据驱动场景构建原子事件库设计态能力策略库调用生成事件ID及描述配置事件属性和目录树位置原子事件规格发布原子事件测试原子事件上线事件调用说明业务场景库调用事件发布事件源配置:基于成熟事件源系统、基于数据资产的事件配置、基于解释器的事件配置解析、计算、判断规则:通过计算规则配置,解析事件源数据及计算结果是否满足编排事件封装规则:包含事件出入参、调用形式、周期、失效时间、其他限制条件等调用规则事件模板调用1.事件注册-生成事件2.事件编排-数据源及加工配置3.事件发布-提供交互目录树事件生效并挂目录树支持业务场景库和策略库调用原子事件目录树更新事件目录树原子事件库设计态根据业务需求的输入及分析,整合包含业务系统和数据中台的多事件源数据,在原子事件库中完成原子事件的注册、编排和发布全流程能力,强化事件管理、编排、开放等多种能力,构建数据驱动的统一事件支撑管理能力库,提供标准化的数智能力,助力数据中台能力提升和价值演进根据业务需求注册事件原子事件ID原子事件描述原子事件目录树归属原子事件创建时间原子事件类型根据原子事件业务规格进行事件编排原子事件所需数据业务系统数据资产数据中台数据模型数据调度……数据获取配置数据加工编排配置事件解析器基于SQL解析配置基于业务描述配置原子事件编排事件源解析规则事件源配置原子事件状态…事件计算规则事件判断规则事件封装规则业务需求输入原子事件运行态事件编排逻辑触发数据资产注册源数据跨多系统数据源事件源系统事件源数据事件编排信息业务系统已有事件事件要素齐备系统事件触发事件解析2 事件模型事件调度4

事件分析事件判断而随着135……数据目录运算数据模型生成调度规则注册数据资产标签库事件编排运行查事件进程查事件信息查事件接口事件所需数据汇聚事件ID事件类型事件对象事件参数1…基于原子事件的侦测事件所需数据用户行为2 业务信息扩展信息4

事件增强..135……APIkafka消息队列…一站式事件数据汇聚:持续整合事件所需的数据;实时事件侦测:依托事件数据实时汇聚能力,高实效监测事件触发和执行;编排事件执行:依托数据中心现有能力,高效实现事件编排内容,扩大数据驱动范围和时效性;事件模板实例化事件推送/调用根据时间编排逻辑监测事件并整合数据源大数据平台支撑事件实例化:讲设计态中的事件模板进行实例化,封装实例数据事件推送/调用:通过事件目录树实现事件调用响应和主动推送能力策略平台调用推送停机客户自主联系智能客服实现业务实时高效的查询和开通事件驱动-停复机场景支撑策略匹配事件侦测消息队列事件推送根据时间编排逻辑监测事件数据驱动1、用户停机,拨打10000号紧急复机10000号等客服平台用户紧急开机清单(事件id、账户ID、信用额度、用户信用等级、地市、用户状态)匹配事件事件解析事件分析事件判断侦测事件数据中台kafka事件模版实例化策略引擎动作执行策略1:用户信用度是否为0计费平台启停信用度接口复机接口是否策略2:查询欠费计费平台欠费查询接口返回欠费详情策略3:用户信用额度>用户欠费<用户信用等级*50元计费平台临时授信接口复机接口策略4:复机是否成功CRM系统查询用户状态接口返回是否复机成功策略平台策略平台事件中心将原子事件解析为业务事件,供协同中心进行策略规则解析,生成工单任务信息,推动给触点系统触点系统触点系统接收工单任务信息后,进行相应的任务执行,并将执行结果反馈给策略平台,供策略平台进行二次策略协同派单和执行信息共享1事件流程驱动2345电话、短信、微信渠道(IVR,NGCC,公众号...)能力开放和注智客户停复机场景事件捕捉客户停复机相关数据整合分析智能侦测停机客户复机诉求数据驱动服务能力数字化智能服务前台场景判断和策略匹配查询业务系统执行结果和封装策略执行并调用能力中心能力服务前台实时查询停复机策略接口数据驱动停复机场景支撑能力打造以数据中台为底座事件源采集3数据湖构建数据湖构建数据湖入湖能力构建数据湖的分析开发能力构建数据服务体系构建权限安全体系总述数据湖是一套针对混搭数据库架构,具备数据采集、数据计算、数据访问、数据管理的技术架构;通过企业级数据资产,数据湖和数据中台,为不同级别的使用对象提供数据分析、开发的原子能力。数据汇聚数据湖:原生数据,采集、同步形成,或直接存储在生产系统数据中台:具备共享性的整合、加工数据数据探索数据资产统一纳管;提供基于数据湖、数据中台的数据探索数据生产提供多套计算引擎和场景开发,满足实时大规模数据预测、大宽表数据加工、大数据信息扫描等生产需求。数据服务提供统一的元数据管理,通过直接读取本地化的元数据信息,即可实现同源异构、异源异构和异源同构的数据访问。典型场景统一采集入湖营服实时数据入湖人脸图片数据入湖综合告警典型场景:跨域业务的探索分析网络动态资源树原子能力平台典型场景:volte实时数据分析厅店实时数据分析多维实时指标典型场景:一站式检索IDE实时分析工具基于数据湖+数据中心的新一代数据中台实施举措序号关键能力建设内容1构建数据湖构建适应于不同类型数据的存储能力,支持数据入湖基于全域数据资产目录,构建生产系统数据快速采集的存储配置策略、数据落地规则初步形成数据湖成果构建数据湖的视图,清晰数据湖构成和数据分布(在数据资产管理中落地)2构建数据入湖能力构建生产区到原生区数据的按需同步能力支持按资产目录驱动的数据入湖流程管理构建多种异构数据源的接入能力构建多样化的入湖开发模板,如:引导式、场景式等多种入湖能力3构建全域数据的开发能力构建统一的IDE分析开发工具,支持对多种异构数据资源的支撑能力构建支持即席分析探索能力,屏蔽底层物理存储4构建数据服务体系构建统一的数据服务框架,按场景驱动服务开发构建数据从注册、开发、上线、授权的全生命周期管理构建基于实时计算框架的数据服务,赋能实时业务场景5构建权限安全体系构建逻辑租户、团队、用户模型体系构建数据资源的租户权限管理体系构建集群资源分配、任务动态策略管理能力结构化非结构化数据湖数据架构入湖标准明确数据属主数据标准细则入湖方式注册元数据数据源规范认证物理入湖虚拟入湖离线实时逻辑数据湖物理表虚拟表账务域事件域参与人地域域管理域营销域计费域账务域管理域资源域客户域网络域PULL(拉)+PUSH(推)产品域资源域其他域财务域安全域其他域逻辑统一数据类型、业务分策略存储统一元数据语义定义、拉通、管理类型多样结构化:IT业务交易、流程、管理非结构化:网络设备产生文本、流数据原始记录湖内数据不转换、清洗,保留最原始特征,提供更多分析可能入湖标准明确数据属主执行数据标准数据质量评估元数据注册从业务出发,以用促建、急用先行的建设策略,数据中心统一规划,各领域配合执行,明确入湖的数据责任方,遵循安全、负责、易用的原则构建整个数据湖体系。数据源内部数据外部数据BSSOSSMSS网络专业···网络社交···

数据湖目标入湖标准要求数据湖存储架构-构建低存储成本的数据湖统一存储统一计算MPP(AntDB)RDBMS(TelePG)流数据统一采集流处理交互式查询微批处理批处理多维分析文本搜索数据湖流数据处理网络爬虫流式采集批量采集CDC采集HDFSKafkaHBaseKylinES结构化、非结构化数据时序查询归档Tidb/时序数据库多维分析复杂分析,时序数据分析全文检索以HDFS为核心构建大数据湖,以廉价成本(纠删码)将数据进行持久化,数据采集进来后由HDFS存储原始数据,其他数据存储按需采用HDFS、Redis、MPP(AntDB)等技术。二阶段一阶段基于数据湖的整体能力架构开发能力检索同步采集赋权解析扫描计算消息安全管理能力账号管理租户管理鉴权服务调用服务开放引擎服务调用服务订阅服务治理服务鉴权对外服务引擎数据监控服务监控质量监控文件类大数据基础平台paas平台分析类图片类人脸库指标库爬虫数据行业数据地市报表证件库基础能力sparkMRTezFlinkiceberghbaseAlluxioredis计算类存储类数据服务引擎企业内部应用集团dcoos外部应用请求监控服务开放引擎提供界面化服务订阅、服务发布、服务治理开发能力提供基于组件化的采集、开发、查询、交换、分析能力基础能力提供实时、离线、批流一体的底层计算存储组件的服务封装能力安全管理中心实现不同资源存储租户间数据访问的统一权限管理运营监控提供不同环节处理的任务、过程、操作日志和状态监控数据共享基于数据湖的混搭数据库架构设计,通过服务提供的形式,用于解决数据查询、数据分析、数据共享、数据预测等业务需求。

数据湖整体能力支撑运营监控基于数据湖的开发管理组织规划数据使用开发参与对象开发者开发者开发者开发者数据分析者数据分析角色数据运营角色数据开发角色数据分析角色:根据需求场景及个人业务理解,产生需求使用系统,提供数据目录检索、资产详情查看、IDE数据分析探索生成分析结果数据开发角色:对接需求分析师,拿到需求和制定开发计划对需要数据发起入湖流程入湖任务监控,数据问题处理反馈数据分析者开发者数据分析者运营者运营者运营者运营者团队1团队2数据分析者平台管理者平台管理者数据运营角色:查看数据湖的整体资产情况查看数据入湖的任务执行监控查看数据湖抽样数据的存储情况查看各自团队数据安全权限分配和入湖处理平台管理角色合理的角色分工清晰的流程处理平台管理角色:负责分配用户的系统资源负责创建平台账号负责分配平台工具的使用权限负责保障平台的稳定运行数据入湖能力-即时数据自助探索分析

数据湖区(私有租户)1、查找需要模型3、获取样例数据4、数据开发5、数据洞察&分析2、查看资产详情对接安全管理平台数据同步/异步传输机制数据抽样标准元数据资产检索元数据检索(模型名、字段名、口径描述)

开发IDE模型目录一键集成开发IDE基于数据内容的检索(抽样数据、ES存储)高效分析查询基于数据开发结果对接可视化组件快速完成分析提供保存分析结果历史,方便持续性的趋势洞察关键能力资产目录基于数据湖中全域的数据资产目录,提供便捷数据分析入口,引导式发起即时数据分析的全场景,完成自助数据探索分析。资产详情资产详情可视IDE业务元数据(业务口径、频率、全量、来源系统、存储周期等)技术元数据(数据源、字段、类型、长度、分区等)管理元数据(五性)文件/表同步方式支持多样数据库类型数据分析人员运营要求要求安全平台满足实时抽取同步响应及时要求各域数据运营人员抽样数据安全性需要权限管控

要求平台使用人员严格执行入湖流程标准

抽样数据直采效率更高,可探索尝试

入湖模版推荐数据入湖能力-支撑按需快速入湖的自助流程现状:目前存在两套采集平台,两次采集的问题,数据延迟,数据同步差异不可控,问题定位复杂,采集数据门槛高。目标:实现多种异构数据源的直接采集,提供简单高效的入湖能力,提升原生区数据的可靠性,将这些异构数据同步到数据湖中统一存储,提供多样化的入湖开发模板,如:引导式、场景式等举措:资产目录驱动:通过资产目录检索,定位到需要采集的生产区元数据,选择资产自动注册服务能力,一键注册到原生区,然后选择需要的采集原子能力,完成配置后,数据一键入湖入湖模板:支撑流程驱动的引导式开发和场景化的业务模板异构数据源支撑:RDBMS、MPP、文件、消息等。自定义入湖策略:模型的数据来源、频度、增全量、定责以逻辑集中,物理分散为原则,以实现数据的统一采集、统一存储、统一管理为目的,打造标准化的入湖能力,实现企业级数据湖。屏蔽数据源异构技术差异,实现透明、可编排的采集开发能力,快速实现业务按需入湖。典型应用场景:快速按需完成产品设计场景数据入湖企业数据目录P1:通过数据目录定位需要的模型数据数据资产详情P2:查看模型数据的详情,包括:业务口径、管理口径、血缘依赖信息等,确认数据使用场景P4:调整实际的入湖策略,如数据来源、频度、全量或增量等,完成最终任务的发布上线策略调整并上线入湖数据确认P5:通过IDE探索平台确认数据查看业务含义按需调整策略分析入湖数据P3:基于模型的元数据信息,自动推荐适合该场景的数据入湖模版并加载构建入湖场景低代码快速开发入湖组件指标注册指标服务开放FTP组件指标标准脚本组件消息组件自定义组件大数据组件MPP组件统一IDE编排组件关系型组件数据开发角色运营要求要求安全平台满足即时采集策略的流程配置及实效性要求具备直采条件的建议直接拉数据,源系统分配安全账号数据湖开发分析能力-可视化IDE工作台搭建统一IDE开发平台,管理底层混搭的数据存储架构,屏蔽底层差异性,通过SQL编写、参数配置、流程调度,实现跨平台、跨数据源的在线数据分析工具,通过可视化界面操作、资产全文检索能力和内置工具,实现快速找数据、即时分析数据。数据注册管理提供统一的多种异构数据源的元数据采集能力,支持主流的RDBMS、HIVE、ES数据源的管理;根据采集上来的数据源类型进行数据访问封装,形成统一IDE查询能力;支持对指定数据源数据的分析探索能力。数据开发处理消息管理:提供离线和实时可视化开发平台封装开发函数组件,屏蔽底层细节,降低开发门槛,提高开发效率;丰富的组件可以支持多种数据开发分析的场景,通过编排可快速实现业务场景数据访问日志记录开发者详细查询、开发操作轨迹日志;开发者可以查询历史访问信息。智能SQL

IDE标准SQL语法Hdfs组件Hive组件Sql通用组件文件组件脚本组件命令组件控制组件函数组件质量组件数据访问适配器丰富开发组件库hdfshivemysqlhbase数据开发&数据分析角色①数据需求想法②检索湖数据和探索分析③分析结果呈现或应用数据湖的数据开发能力-双集群研发工作区建设在数据湖+数据中台核心能力基础上,基于数据统一存储统一管理的原则,构建多处理平台工作区环境,支持数据研发测试、探索开发场景。1、提供数据中台研发环境开发学习能力作为数据中台的工作区开发环境,具备敏捷开发功能,快速实现模型开发、数据开发、作业调度和一键发布能力,并增加JOB及HQL语意审核,上线发布前试运行效率评估。

作为关键基础业务数据备份,支撑极端场景下生产环境业务数据的恢复。作为大数据学习平台,提供操作系统、大数据组件、数据实例的学习环境。2、提供跨区访问、跨区读取探索开发能力可提供跨区访问数据中台产品区、数据湖原生区的开发能力;可提供跨区实时读取数据中台产品区、数据湖原生区数据能力提供敏捷开发能力,通过一键发布实现工作区研发成果发布到产品区。3、提供半结构化数据探索开发能力,实现抽样分析工作区原生区历史库采集类数据同步库/复制库虚拟数据对象类数据语音库/人脸库流式数据产品区关联数据标签指标整合数据经营类关联数据预测分析整合数据注智类生产区资产信息资产检索跨区访问跨区读取发起入湖需求探索开发敏捷开发数据采样、测试资产注册任务调度一键发布探索学习系统类学习数据类探索组件类学习智能类探索数据湖的数据服务能力-高效安全的服务开放共享文件服务API服务消息服务

在数据湖+数据中台核心能力基础上,基于全域数据湖资产目录,提供快速对湖内数据进行数据开放能力,统一服务创建和发布流程,数据开放安全可控。数据服务引擎统一配置统一管理统一监管统一运营集团上传驱动集团实时业务驱动生产运营业务驱动资产目录资源注册资源发现原生区产品区场景驱动数据服务管理提供统一的API创建、测试、发布、下线生命周期管理;支持Mysql、Hbase、Oracle、Redis、Http、文件多种数据源的数据开放能力;提供统一服务不同的安全访问策略,如:字段个数、不同字段脱敏;提供API的调用管控,如:流量控制、调用次数等熔断控制;提供应用访问的APPKEY申请管理能力,保障服务安全接入数据服务运营提供整体API的整体概览:上线总数、调用次数、成功次数、服务调用排行等;提供对API冷热度分析评估,指导不常用服务下线处理,对调用次数较高服务进行重点服务保障提供全面的服务调用日志审计,对每类应用、每个接口的调用分组统计和分析调用趋势,指导资源优化数据服务开放目标:统一服务开放平台数据湖的数据服务能力:资产一站式检索Parquet样例数据非/半结构化文本HDFS文件消息图片/音视频混搭数据存储图文本/音频文本资产目录数据服务引擎资源管理结构化文本产品区生产区元数据原生区检索查询结果显示结果返回搭建全文数据检索引擎,将完整的信息,包括资产、位置、数据、索引全部转化为计算机可以识别、处理的信息单元,存储到提速引擎中,形成资产路由,以实现一站式的全文检索。检索引擎多维检索数据元数据(表、字段、业务口径)血缘纬度查询基于业务过程纬度查询(梳理业务过程,定义业务过程中保护的实体模型进行建模);高级检索存储引擎:基于抽样数据(结构、非结构)进行模型与数据的索引构建,内存存储;快速检索:屏蔽底层底层数据差异性,构建统一搜索引擎,完成数据的检索呈现;

资产快速检索数据快速检索索引缓存数据湖资源安全体系-灵活的团队管理模型目标:支持多团队、多厂商使用,构建团队、租户、账号的权限资源管控体系支持不同团队下计算存储资源的配额管控,解决集群内资源的高效使用举措:团队账号管理:梳理现有系统账号、组织机构、角色、权限管理,引入新的团队账号体系管理,构建多租户模式的工作空间管理体系租户资源管理:建立逻辑租户的资源管理体系,管理团队租户下集群账户、用户、角色、权限,明确各角色职责和开通流程统一租户模型集群资源用户用户用户用户资源实例资源实例资源实例资源实例YARN计算资源队列队列队列团队租户团队租户以开发团队申请入住为例,需要申请租户并绑定集群资源获取数据和开发。创建团队并绑定用户,以团队为单位配置该团队集群资源配额(vcore、mem、存储)。创建租户,租户绑定数据资源实例,可以针对应用场景绑定需要的存储计算资源。给团队用户分配对应租户资源,一个用户可以拥有多个租户资源的权限申请。开发用户对模型的访问权限通过统一数据访问权限控制。实现集群统一的资源管理,以租户为对象实现集群资源的按需分配,并且需要根据运营体系实现资源的授权管理。支持租户的角色定义及用户授权,满足对租户管理的诉求。实现集群资源的配额管控,更合理的使用集群资源。100vcore1024M2T团队1150vcore1024M1T团队2数据湖资源安全体系-跨平台用户权限统一管理租户开通账号开通资源分配数据授权资源信息管理大数据基础平台paas平台分析类图片类人脸库指标库爬虫数据行业数据地市报表证件库文件类用户权限统一管理服务引擎(servicebroker)资源注册租户创建账号绑定租户资源分配数据授权租户同步账号开通资源分配数据授权12345图例资源租户统一管理提供统一的资源管理模块,将原生区和产品区资源管理和租户管理纳入统一的管理。将集群资源注册,租户开通,资源分配,服务分配,数据授权等能力进行统一的可视化管理。并采用服务调用的形式管理paas平台和大数据基础平台的底层混搭的数据库架构。

租户同步改变传统的通过后台分配租户、数据访问权限等操作,采用可视化操作。通过实时和离线两种方式保证产品和集群租户一致,实时,通过服务注册的方式,通知平台完成租户创建;离线,平台定期同步租户到本地产品租户库,产品自动完成增补全租户注册。

服务引擎设计权限服务引擎,管理底层混搭数据的权限开通、停用,提供统一权限申请流程,替换现在线上申请,线下赋权的流程。同时记录操作日志,对违规操作进行审计,提高了系统运维的安全性。资源信息注册数据架构优化基于数据湖的场景支撑---升级对象存储引擎,持续强化赋能一线的数据能力数据中台提供多种对象存储能力,支撑结构化和非结构化数据的入湖,便捷的数据存储服务及在线分析查询能力,快速赋能生产运营,释放中台能力价值,提升客户办理感知。①营业厅改套餐②人脸扫描认证③实时存储计算分析④认证结果服务能力数据中台缓存索引图像处理服务文档处理服务音频处理服务日志处理服务大数据集群对象存储(Ceph)HDFS/HBASE结构化处理服务其他处理服务半结构化结构化大文件图像文档音/视频统一数据服务图像数据服务赋能业务受理,助力人脸识别业务场景。留存全省用户图像及人脸历史库提供低延迟的图像数据服务赋能更多的智能业务受理场景基于数据湖的场景支撑---加强实时计算分析能力,提升VoLTE客户服务感知实时流处理引擎HadoopHDFS大数据海量存储网络信息设备信息位置信息感知分析/告警随着数据中台各种计算引擎能力的构建和升级,基于批量实时流计算引擎能力赋能业务处理的场景越来越重要,通过快速采集实时事件结合历史数据分析,提前分析问题原因及预知风险,协助客服解决通话质量投诉问题,避免客户流失,提升用户通话和服务感知。感知内容:故障率高的网络设备型号分布通话质量差的位置区域分布投诉用户的地区热点分布投诉反馈的时间段、时长分布投诉用户的通话设备型号排行···FlinkSQLKafkaconnector用户信息4数据资产存量资产管理生产区资产管理原生区资产管理资产目录管理资产管理现状和目标2020年建立DAMS至今,已经基本构建完成核心功能,包括资产自动扫描采集入库通道、信息补全、数据稽核、信息检索、资产视图等,后续将持续优化打造适用于数据湖+数据中台的数据资产管理体系。数据入湖标准化打造企业资产目录提升数据采集准确性采集入湖自动化制定资产和数据入湖标准,并纳入上云管控流程,从源头保证资产标准化;并统一数据湖和数据中台的资产注册规范。参考集团《中国电信数据资产目录管理办法》,融合数据湖+中台各区资产,重构建设省级资产统一目录。统一数据湖+数据中台系统标志,根据标准规范,实现协议自动注册、自动采集入湖,和资产的前后台到开发贯穿管控,保证数据采集的唯一性、采集路径的合理性。自动扫描实现结构化数据的注册,通过接口协议自动实现采集入湖;对非结构化和对象型数据打造统一入湖能力。现状目标目前安全平台自动扫描工具接入系统43个,数据库95个,还需推进全面扫描工作;自动扫描结果数据合规率较低,需要补齐和修正;缺少非结构化和对象型资产统一注册能力;缺少非结构化和对象型采集入湖能力;数据源采集路径多,交互效率低;

缺少统一融合的数据资产目录。实施举措序号关键能力建设内容1构建全域数据资产视图基于资产盘点成果(含数据资产、数据资产标注信息),结合中台数据资产,融合形成全域数据资产视图增量数据资产自动扫描(细分职责、明确困难或问题)2系统上云优化资产入湖开发者门户、安全管理平台、CMDB、DAMS各自建设入湖标准管控能力、分段负责管理层面:形成稽核-派单-反馈-考核的管理机制制定入湖标准文档,包括:上云规范、数据资产稽核细则规范、考核机制;3数据湖资产管理数据湖目录管理资产自动注册能力4全域数据资产服务能力构建多维度的资产目录视图,支持不同业务视角的数据使用需求优化数据资产检索能力:基于场景、NLP、热点、个人关注等构建资产标注能力,实现资产的多业务标签体系构建资产平台和OA集成能力,提升使用便捷性数据资产的管理成果01随着盘点工作的开展,持续对存量资产的梳理,系统总数508个,目前通过稽核并成功收录的系统达304个完成全面盘数据资产梳理02搭建CMDB、安全平台和DAMS的数据资产自动化识别流程,目前接入系统43个,数据库95个,表110643个,字段1460883个具备资产自动化注册能力03定位数据采集源,避免重复采集分析数据分布图,开展安全审计开展数据评价,促进数据价值提升初具数据资产应用能力04提供接口全视图、优化数据稽核能力,实现数据质量监控,目前数据中台重点支撑业务27个,涉及70个来源系统的563个模型,共配置稽核任务3061个深度部署重点数据治理埋点05提供资产全景视图,建立接口采集标准,优化采集开发流程,实现数据按需采集的标准化需求管理,2020年采集类需求116条,接口协议1068条数据采集需求标准化管理持续优化资产管理能力、构建全域数据资产采集管理展示管理视角开发视角业务目录一级视图二级视图应用目录一级视图资产自动注册界面录入自动补齐资产变动通知变更流程变更申请发起工单稽核工具规则管理规则检查问题管理源系统1源系统2源系统N程序主动扫描标准模板采集指定数据表读取二级视图存量204个系统未注册到DAMS存量472个系统未在安全平台扫描存量4500个DAMS资产与数据中台数据未建立联系DAMS对注册后的资产进行定期抽审,并将审核结果纳入考核实现存量资产全面纳管CMDB、安全平台、DAMS协同统一系统信息、维度编码;DAMS协助开发者门户梳理系统IP,完善系统信息管理DAMS督促NOC、天虎云商、无线等部门完善系统纳管DAMS完善资产注册标准,并持续更新完善资产发现注册能力建立数据评价规则及评价结果应用机制建立数据标注体系便于资产的分类管理建立样本数据库服务于及时的在线分析融合数据中台与DAMS资产目录,构建全域数据资产目录打造数据资产服务能力样本数据采集运营视角数据评价视图资产打标视图具备优化新建运营要求通过数据安全管理平台的数据抽样能力获取抽样数据由于数据库版本适配、网络不通等原因导致的源系统无法被自动化扫描的问题,是由源系统负责解决技术问题或进行改造,还是沿用样例数据导入借助上云契机,严格管控增量数据资产入湖标准落地与安全专业、IT运维专业联合工作,形成CMDB+安全管理平台+DAMS的数据资产管理体系,并嵌入到系统上云审核环节,实现数据资产盘点自动化,避免手工盘点前清后乱的风险。IT安全集中运维扫描:负责对源系统的系统信息录入,系统IP扫描。CMDB平台:负责对源系统的系统主数据管理数据安全管理平台:负责资产扫描、扫描任务管理,元数据管理。DAMS:对数据资产信息进行二次稽核,数据再加工,绘制资产全景视图等,并按照集团规范要求将数据资产卡片自动上传到集团运营管理系统。数据安全管理平台DAMSCMDB平台系统注册源系统数据扫描资产注册系统上云流程(统一PaaS平台)资产合规性审核报告管理举措:制定paas上云流程制定平台接口规范、稽核指标规范完善资产审核和数据扫描能力附后:《四川电信数据资产入湖标准》试运行预备案申请资源正式备案设计评审开发管控初验终验系统上线验收流程中审核《资产稽核报告》《企业IT系统上云管理规范》《盘点稽核指标计算细则》签字审核IT安全集中运维平台系统IP扫描运营要求建立不同类型的数据资产管理模式的长效机制目标:从源头控制,形成全域数据资产自动接入、完整覆盖,提升数据资产服务能力。资产目录南-北向接口需求3网络侧资产注册服务Kafak需求2TOPIC配置资产注册服务汇聚库/生产系统1安全管理平台资产自动注册服务接入流程注册流程:①采集类需求:采集流程优化,资产自动注册汇聚库类数据,通过安全管理平台扫描资产自动注册(原生区)需求管理人员接到增量数据采集需求,通过DAMS生产区资产目录检索,定位到系统表,调用资产自动注册能力,完成资产注册在DAMS未定位源系统表时,通知源系统在安全管理平台完善资产信息,完善后方能发起采集需求,反向推动数据湖资产补全②③需求纳入统一管理,提供南北向接口资产注册服务,形成资产全面管理DAMS提供资产注册服务给统一采集平台,将统一采集平台产生的文件类资产统一管理DAMS提供资产注册服务给PaaS平台,将流式数据kafka类资产统一管理网络侧数据无法通过安全管理平台注册,需要提供注册服务构建清晰易用的全域资产目录,提升数据湖数据服务能力多维视图提供多维视图按业务,展现企业核心资产;按部门,展现数据管理归属;按需求,展现数据支撑业务;按场景,引导式场景数据推荐;资产关联强化资产关联建立不同区域资产血缘关系;建立不同类别资产血缘关系;建立不同区域资产的一致性结果;服务开放能力集成资产订阅、收藏、评价资产检索在线分析数据服务现状设计数据中心资产目录现状:不完整:数据湖的数据资产未融合开放性不够:主要为专业数据开发人员使用,技术门槛较高,数据共享的支持性需要加强清理不及时:资产清理不及时,老旧数据资产、冷数据无标识标准不完善,管控不强硬:不合理的数据依赖关系依然存在资产标注完善资产五者关系,有助于问题处理;明确部门管控关系,有助于责任划分;数据打标资产打标资产运营构建统一的服务目录视图,梳理并建立标准化的后台原子服务目录。5数据治理数据治理总述构建贯穿数据生产服务链全生命周期数据治理体系,让数据中台更好用、更好监控和更好管控,进行持续的改进。通过TOC、PDCA以及精益思想理论,圈定资产、质量、使用和评价4个模块作为重点治理对象,通过机制、规范、监测和评估实现中台的精益治理。数据资产针对资产是否全面完整、资产是否可用和资产是否多余进行数据资产关联对比、资产标准化和资产下线管理资产关联管理通过CMDB、安全管理平台以及DAMS三方对比确认资产完整性资产标准化建立资产标准库,识别资产是否标准,严控资产质量资产清理发现低值、未用资产,通过血缘和下线清理策略评估,进行系统下线和迁移后历史资产的处理。数据质量新建数据湖需要更明确的机制、流程以及管控工具来进行监控。数据运营针对客户使用情况,真实直面的反馈数据、系统、能力的使用情况,创建交互通道,嵌入到数据运营的各个阶段中进行埋点管理咨询、问题搜集通道埋点能力数据评价建立评价模型和指标,合理利用集群资源,注智开发、运营、服务和管理管理强化生产区纳湖,新建原生区,多集群存储和多管理部门协作的五者边界的划分和流程确认结合质量考核办法进行管理能力优化根据能力成熟度模型,逐步创建从人工入湖、半自动入湖、自动入湖能力,运维上创建执行稽核动态上下线,实现湖内资产数据一体化管控质量稽核着重半结构化和非机构化数据治理,创建抽样监测、定制专项业务稽核以及生产系统提供稽核校验文件形式保障数据可用性为数据使用人员提供问答式互动通道,填写关于数据、平台使用的意见反馈、知识经验共享、交流学习等;数据生产到使用的各个阶段,创建埋点,收集客户使用行为,客户使用意见、评论等;结合上云嵌入插件能力,观测数据、接口、模型、字段使用情况质量评价感知评价资产评价成本评价价值评价主要针对运维过程中出问题情况进行评价针对客户使用感知进行评价随着DAMS的提出,资产合规性等很重要,进行资产评价针对存储、使用资源等评估针对重要程度,使用频率等进行价值评价统一数据标准库劳动竞赛/积分模型开展劳动竞赛,建立共管支持能力,深化数据资产运营智慧运维运维对象数字化,提升可用性,降低运维成本实施举措序号关键能力建设内容1数据资产治理1、完善标准库:系统上云、资产入湖、数据使用2、资产关联稽核管理:生产区、原生区、产品区资产一致性稽核能力、异常资产在数据资产视图中的标注和提示能力(细分职责)3、基于数据评价,支持数据中台数据自动预警、定期下线或回退到原生区2数据质量治理1、质量体系完善:将现有中台的稽核方式,以质量评估模型+知识库形式进行有效组织和设计,以系统化方式实现从人工到自动化的迭代演进2、能力优化:优化稽核效率,制定调度任务评估模型动态调整执行策略(任务完成度、指标使用频率、血缘依赖度)3、管理强化:新建原生区,多集群存储和多管理部门协作的五者边界的划分和流程确认,结合质量考核办法进行管理3数据运营1、交互式问答平台:为数据使用人员提供问答式互动通道,填写关于数据、平台使用的意见反馈、知识经验共享、交流学习等;2、嵌入式点评留言:用户直接可以根据使用情况进行评价和反馈。精确反馈功能模块使用情况3、应用埋点:将类插件方式埋点到指定应用查看数据使用情况和价值4、资产标注:对资产进行业务标注,提升检索和管理能力5、劳动竞赛:鼓励全员参与,建立赛道,全员自主自愿参与业务数据打标、数据治理赛道竞赛6、积分模型:设置积分奖励制度和奖励办法4数据评价1、数据评价模型和指标库建立:从质量评价、感知评价、资产评价、成本评价、价值评价5个方面进行评价2、考核体系:建立数据质量考核管理流程,处理沟通问题,提高问题处理效率,更好的保障数据质量标准管理的重要性:标准分布在整个数据管理流程中调用入湖方式统一服务传统报表数据驱动数据应用生态……管理决策营销服务智慧家庭金融征信智能连接客户洞察既有采集方式原生区RDB消息对象存储HDFS流式采集流式采集CDC采集采集服务批量采集镜像直接连接FTP/SFTP图片/音频/文本半/非结构数据Databases系统/平台Files《存储标准》《数据架构定义》《系统上云标准》《数据安全管理规范》生产区资产管理《资产梳理流程》《资产治理流程》《五者定义》《资产质量标准》《元数据管理办法》《目录分类》《数据接入标准》数据中台工作区产品区安全区《数据项定义规范》《表定义规范》《开发规范》《上线生产规范》《数据安全管理规范》《运维管理流程》统一管理统一调度《数据共享标准》《插件标准管理》源系统上云申请结构化数据资产标准化:优化标准库标准规范定义和分类《资产定义》《数据表/项定义》《五者五性定义》业务标准(业务层面)《目录分类标准》《关键字使用标准》技术标准(技术层面)《数据项命名规范》《数据表命名规范》《开发规范》管控标准(管理层面)《资产管理办法》《插件管理办法》《上线生产规范》稽核标准(质量层面)《数据质量管理规范》安全标准(安全层面)《数据安全管理规范》流程制度系统上云流程资产入湖流程标准库数据使用流程数据治理流程1.完善规范制度流程系统上云流程资产入湖流程数据使用流程数据治理流程2、完善标准规范建立标准库就资产、数据表/项以及五者五性定义标准内容根据业务、技术、安全、管控和稽核等不同层面制定不同的管理和使用规范3、规范和实例映射关系根据每项规范内容形成标准实例,稽核和治理系统上云、资产入湖、数据使用、数据治理四大流程建立标准库,完善管理规范、流程制度和资产标准,保障数据资产持续运营,严控资产质量。附件:标准细则数据质量-建立质量模型,演进质量管理从人工到自动化发展新建质量模型,将现有中台的稽核方式和理念整合起来,以质量模型+知识库形式进行有效组织和设计,以系统化方式实现从人工到自动化的发展。1、建立对象层生产区纳湖,新建原生区,带来更复杂的半结构和非结构数据,每个对象的保障力度应该是分类型、分应用和分等级进行保障的。2、建立核心层每个对象实例应该采用核心层的不同保障方式和指标适配,数据质量的保障是有标准有模型进行保障的。核心层主要包含采用什么样的质量动作、采用什么质量指标以及输出质量服务能力3、建立治理层根据核心层提供的服务能力,提供治理策略,有哪些人针对哪些治理对象做哪些动作以及治理情况4、质量模型入知识库通过质量模型操作的动作、处理经验以及客户反馈组成链路形成知识入知识库,促进数据质量由人工向自动化演进对象层分类型结构化半结构非结构分应用集团上传数据门户收入保障分等级1级2级3级核心层服务能力体检抽样监测专业指标稽核Check文件校验五性嵌入阻断式白+黑嵌入非阻断式质量报告根因定位影响分析治理层策略配置资产治理数据治理产品治理补全资产优化程序数据错位资源不足开发知识库自动化半自动质量指标质量动作运维治理治理对象治理内容业务运维。。治理人质量预测质量关系文件本身属性人工1自动关联自动入湖重点数据治理-数据湖资产完整性稽核接口视图信息源系统信息接入数据库资产稽核不合规清单生产区系统接口外部数据库文件表数据项资产目录资产目录安全平台资产扫描kafka入湖源系统湖数据模型数据项原生区自动关联kafak入湖表数据项接口协议存量关联治理确认关联121匹配筛选统一标志关联关联资产构建过程生产区资产自动注册,自动采集入原生区,建立两区资产的关联关系;kafak等方式入湖,根据入湖规范申请,实现在生产区和原生区的资产自动注册和自动关联。存量数据关联治理稽核原生区数据资产,对不合规,如没有源系统标志、源头模型缺失、数据项缺失的,可以查看不合规资产清单;查看不合规资产清单及采集视图信息;线上搜索匹配,线下和业务部门、源系统厂家确认,最终线上实现数据资产的整改处理。资产治理运营稽核的差异结果推送资产责任方,并集成到数据目录服务中,给分析使用人员提示和引导数据资产稽核具体举措根据数据质量管理规范,要实现数据湖+数据中台各区数据资产全流程管控,首先要规范管理生产区和原生区数据关联。通过提供新入湖数据通道管理处理能力,并对存量数据资产进行关联治理,实现数据湖生产区和原生区的数据资产关联。运营要求要求安全平台整改不合规的资产,重新发起流程

稽核流程自动化、工单流程驱动自动采集入湖重点数据治理-数据中台减负

资产下线计划资产评价数据湖原生区历史库数据中台复用度分析活性分析专题分析任务下线存储数量大小

执行时间?清理存储?归档备份?执行人?通知谁?归档/清理消息发布通知到期执行资产目录血缘清理资产目录清理转存数据湖生产区源系统源系统源系统……分区存储下线确认数据管理标准明确现有中台各层模型的分类,保留中间层及以上数据,接口层数据入湖制定接口层模型的识别标准,如:命名规则制定低价值数据的识别标准,如:被程序调用率制定满足数据下沉迁移的策略,如:符合接口层命名规则、模型无调用、空模型等数据标准评估定期资产评估,不限于复用度分析、活性分析等,提供低价值低复用度数据资产清单,及资产详细信息,包括存储、大小、五者信息等;制定数据中台资产迁移入湖计划;根据迁移方案进行清理,中台数据转存数据原生区,并及时清理原生区资产血缘关系。形成长效的评估迁移机制,直到满足中台减负目标数据中台减负具体举措运营要求要求数据责任方对评估结果进行确认,配合执行迁移

新规划建设指导下,构建新一代数据湖+数据中台,为数据中台减负,新增汇聚数据入湖;存量数据强化数据治理,实现数据中台资产清理瘦身管理。要求数据责任方配合梳理模型减负的范围

重点数据治理-数据资产下线近期电信各系统都在紧急实施上云计划,生产系统上云后都涉及到数据库切换变更,数据中台需要支撑已经纳管的数据资产的变更管理。采用数据治理手段建立长效机制,实现资产主动申请和源头被动发起下线申请的全流程管控能力。系统下线后数据资产下线管理建立系统下线申请通道,提供系统下线申请;系统下线后生产区数据资产归档和注销处理;系统下线后原生区数据资产归档和注销处理;通知产品区进行资产变更和资产清理处理。系统数据库变更数据资产下线管理建立系统数据库变更处理申请通道;新数据库扫描自动入湖按新系统流程管控;旧数据库下线,按上面数据资产下线管控。关联数据的下线管理对于下线的资产有关联实体数据,集中统计;对要下线的模型发起数据归属人,确认下线;形成资产数据下线的历史,方便后续审计。原生区数据中台任务下线存储数量、容量归档/清理资产目录资产目录生产区系统下线数据库变更功能模型下线数据湖消息发布通知执行下线计划资产目录目录注销/归档目录注销/归档制定数据资产下线管理标准消息发布通知执行下线计划目录注销/归档血缘清理自主发起被动发起制定计划执行时间?清理存储?归档备份?负责人通知谁计划管理申请消息确认执行数据质量-其他现阶段质量上需要优化点数据安全管理平台数据采集资产注册DAMSCMDB平台资产注册资产注册原生区数据扫描数据质量管理流程资产稽核资产标准资产标注资产目录系统上云结构化半/非结构化5性稽核指标稽核文件稽核抽样稽核数据中心数据血缘资产适用场景数据模型数据项跨域整合新建数据湖需要更明确的机制、流程以及管控工具来进行监控。1、管理强化生产区纳湖,新建原生区,多集群存储和多管理部门协作的五者边界的划分和流程确认结合质量考核办法进行管理。扩展数据质量规则,适应多结构数据管理2、能力优化优化数据稽核执行效率优化稽核资源与核心计算资源冲突问题重点打造资产业务标签能力(资产标注)、连接识别能力推式:专题数据资产定期推送拉式:资产全景视图持续优化及发布3、质量稽核构建分等级、分场景、分类型的数据质量管控流程创建含非结构化等数据抽样检测能力定制专项业务指标识别生产系统提供稽核校验文件5者划分数据质量-数据稽核效率具体优化举措通过制定质量稽核的评估模型,实现动态稽核任务的执行,探索自动调整资源的机制。现状:现有技算资源条件,为了保障集团上传类和重点指标仅配置了相关数据的稽核规则配置,但是忙时稽核资源和任务加工争用。目标:通过制定质量稽核的具体举措,实现动态稽核任务的执行,探索自动资源调整的机制。举措:评估标准制定:制定任务评估公式,如:连续N天OK,执行频率调整为P;指标使用频率分析,如:业务提前梳理出核心指标对应模型及使用频率,使用频率N天使用一次,调整执行频率为P评估执行策略:制定定期评估任务,根据结果自动调整相关任务的执行周期;对于不满足条件的,要自动调整回默认的执行周期;数据稽核运营要求集团上传类任务针对扣分情况给予一定策略,探索自动化的动态稽核调优机制任务执行任务调整生成执行实例统计分析

模型评估

评估执行动作

满足评估模型分专业/分类型任务名称责任人连续N天满足状态任务执行周期BSS

p_ods_cust_day.sh张三7天OK3天(调整后)BSS

p_ods_fee_day.sh张三30天OK7天(调整后)MSS……稽核评估实施路径埋点能力和交互通道的搭建助力数据运营交互式问答平台嵌入式点评留言应用埋点智能客服帮助客户解决24小时咨询回复问题人工辅助解决智能客服不能解决疑难杂症问题点评和留言嵌入到使用模块中,用户直接可以根据使用情况进行评价和反馈。精确反馈功能模块使用情况将类插件方式埋点到指定位置收集用户在什么时间什么地方以什么样的方式做了什么事情,通过用户行为分析功能使用情况和数据调用情况等针对用户使用情况,真实直面的反馈数据、系统、能力的使用情况,创建交互通道,嵌入到数据运营的各个阶段中进行埋点管理用户的行为和反馈是治理的最佳输入客户提问智能客服能回复回答结束不能回复人工服务(可不配)能回复回答结束不能回复工单受理触发短信、邮件职责单位回复提问者确认触发短信、邮件确认结束超时结束交互式问答流程保障流程保障开展劳动竞赛,建立共管支持能力,深化数据资产运营众包模式SME专家管理积分奖励自愿参与数据打标系统审核专家审核标签优化发布清单赛道1:数据打标赛道2:数据治理确认问题提出问题解决问题系统积分众包模式:鼓励全员参与,全员自主自愿参与业务数据打标、数据治理赛道竞赛。SME专家管理:SME专家由数据资产管理委员会任命或个人申请委员会审核2种方式产生,SME专家负责打标赛道中标签类目的建设、完善,以及业务标签的审核;负责数据治理中问题的确认。积分奖励制度:积分分别对两个赛道积分,并设置奖励办法。考评奖励建立数据评价体系,进行数据质量和数据价值评价。评价结果注智开发、运营、服务、管理,优化数据资产管理,提升资源利用率和数据价值。1、建立数据评价管理机制稽核评估、评价报告、问题需求为模型开发、数据服务、数据运营、数据管理注智2、建立数据评价模型和评价指标库价值评价:对数据湖的数据品质、资源、效能、成本等进行综合评价。质量评价:从数据环境、格式、变化以及存储周期等对数据质量的准确、完整、合理、一致、及时性进行评价感知评价:通过数据使用,对数据的准确、完整、合理、一致、及时性进行评价成本评价:针对存储、使用资源方面进行评价资产评价:随着DAMS的提出,资产价值突显,针对资产准确性和完整性进行评价举措:构建数据评价体系注智模型开发注智数据运营注智数据服务智能调度策略规章制度考核资源配置优化数据生命周期管理……模型原子化粒度模型关联关系模型处理规则数据合并策略查询性能优化服务等级管理热点推荐数据服务封装…………注智数据管理冷热数据资源分配整合管理接入管理汇聚管理……稽核评估问题、需求管理价值、质量报告……统一日志、控制中心质量评价感知评价资产评价成本评价价值评价数据评价指标库数据评价模型体系落地

对各类指标进行自动或人工稽核统计评分,基于不同指标权重的评估模型,评估出每个模型的价值得分,再按要求分析出不同团队、系统可量化的整体价值成本得分,提升运营效率。数据评价举措实施路径数据质量数据中台元数据数据存储……完整性指标正确性指标评估指标类别规范评估体系存储评估体系风险评估体系价值评估体系程序任务数据标准字段标准指标模型一致性指标相似表指标存储分层存储到期模型有效使用模型客户评分数据规模模型成本敏感级别评估引擎一~二季度各专业配合完成数据评价指标的初步梳理(字典规范、质量标准和约束规则等三季度实现自动化的基础指标评估实现复杂评估指标的人工与系统融合的处理机制四季度持续完善数据评价体系,优化和扩展现有评估指标,提升运营效率循序渐进重点先行长效久治阶段目标各专业配合梳理制定数据评价相关指标的工作,需要各部门的密切配合、高效协作,由数据治理委员会统筹,各专业相关部门配合完成需建立有效的评价机制,在数据长期运营中,对数据标准的执行情况进行有效的监管、评估,不合规的情况,通报、修正、考核对评估的结果要按专业和团队进行定期通报及运营优化运营要求数据评价指标列表分类指标指标含义指标数据来源质量评价(运维)job执行时长模型对应程序执行的时长,用于比较偏离基准值的时长资产管理平台JOB执行成功次数一定时间内job成功运行次数资产管理平台JOB执行失败次数一定时间内job成功运行次数,结合成功次数使用资产管理平台及时性job完成是否符合客户期望时间,与期望时间比较偏差时长创立监控平台完整性字段顺序对比

字段类型对比

字段数与源头一致

分区数检查

表结构对比资产管理平台一致性数据量对比

文件个数对比资产管理平台合理性一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异,如数据量和前一个账期对比(数据量范围值波动稽核)

关键字段波动检查

内容范围值波动稽核(标签、维度)

指标间的复合对比(A+B>C)资产管理平台准确性层间数据量校验

数据随机抽取

分区数数据非空检查

主键字段唯一性检查

指标的零值检验资产管理平台运维质量不满足条数用于度量模型在一定周期内稳定性情况资产管理平台感知评价问题数客户提出问题并且受理更改对应的问题数量新建交互界面资产评价资产信息完整性用于度量资产信息是否完整的指标DAMS资产信息准确性用于度量资产信息是否符合录入规范的指标DAMS成本评价物理存储实际存储(MB)平台提供存储周期分区数据资产管理平台计算资源消耗container量平台提供价值评价模型引用数使用到该模型的模型数资产管理平台应用引用数模型往后追溯到末端对应的应用数资产管理平台重点应用引用量模型往后追溯到末端对应的应用中重点应用数资产管理平台查询次数统一IDE等工具对应的模型的查询次数资产管理平台数据质量考核管理建立数据质量考核管理流程,处理沟通问题,提高了问题处理效率,更好的保障数据质量1、管理上进一步完善数据五者信息,制定不同角色职责,共同保障数据质量。设定数据质量考核管理办法,提高问题处理效率,保障各方按有流程有方法的执行。制定考核减免机制,考核只是为了提高质量而实施的办法2、能力上汇总质量问题,结合数据评价制定质量考核模型和指标。结合资产质量、数据质量以及操作流程合规率等来源数据设计指标优良评分和优良率,用于评定和考核。建立通报平台,用于展示、跟踪、反馈质量问题处理情况。建立通知机制,结合通报平台自动通过短信、邮件、消息督促责任人员进行改正。数据应用方提出数据质量问题上报数据质量(Counter/KPI)数据质量保障方汇总质量/评价指标、汇总问题指标优良率分析考核减免考核计分每月通报考核结果查看数据质量问题处理回复数据管理方1344672数据质量考核管理流程智慧运维-运维对象数字化,运维成效初显2021年重点业务保障成效回顾4月5月6月7月8月9月10月11月12月1月运维模式人工(夜晚值守、次日复盘)硬件资源投入换取效率运维模式运维数据体系数据化、自动化运维能力精准治理运维模式人工(夜晚值守、次日复盘)雅西平台上线重保任务调整:两批次->17个关键流程时间:每日0点->6点30运维质量劣化月延迟次数:15次延迟时间:4+小时运维质量劣化月延迟次数:10次延迟时间:4+小时运维质量稳定、提升月延迟次数:不大于3次延迟时间:4+小时运维数据体系JOB、血缘、资源数据拉通基于SLA的JOB调度标签数据化自动运维能力关键报错自动外呼关键任务容错、自愈低效率任务自动识别精准治理低效任务分级治理机制整改通知自动批量定点邮件通知2021年1月门户报表展现时间统计魔方接口延迟计费、CRM简阳字段割接2021年1月集团上传提速统计(时长)上传提速4小时,加分0.08为常态化计费、CRM简阳字段割接重保任务不受影响现状与主要挑战-智慧调度、运维环境治理、数据开发CICD能力现状极端场景下重保应用任务调度人工干预度大。挑战:2.29万JOB25个重保业务现状指标口径变动和数据,造成JOB运行稳定性下降。挑战:86个模型180增指标改47次依赖调整现状开发、运维能力参差不齐,平台稳定性下降。挑战:97个团队500+开发者现状数据全生命周期管理延伸到数据及相应计算能力。挑战:76个应用库35万表1+万亿单表记录现状平台计算资源利用率提太,实现“需要即用”。挑战:500+开发2.29万JOB复杂场景任务自动调度数据域CICD能力打造,实现测试+审核自动化DataOps深化,异常高效识别、自动处理,运维知识库应用深化基础、业务、应用级数据和对应计算能力生命周期智能、自动化管理智能调度能力延伸到全天,业务扩展到全域复杂场景自动调度数据开发CICD多租户运行环境治理数据生命周期管理多目标智能调度注:统计12月11日-1月25日目标-提升可用性、资源利用率;智慧运维,有效降低运维人工干预度提升-可用性目标服务水平每年每季每月每周每天90%36天9天3天16.8小时2.4小时95%18.3天4.5天1.5天8.4小时1.2小时99%3.65天21.6小时7.2小时1.68小时14.4分钟99.5%1.83天10.8小时3.6小时50.4分钟7.2分钟99.9%8.76小时2.16小时43.2分钟10.1分钟1.44分钟99.99%52.6分钟12.96分钟4.32分钟60.6秒8.64秒服务保障水平与服务容错时间表90%->99%提升-资源利用率集团上传提速加分水平,保持0.08分/天门户报表8点30展现及时率智慧资产数据服务及时率100%本地报表数据服务及时率平台算力负载不均衡0-13点资源满载13-24点资源相对空闲70%->85%压降-纯运维人力9-12点,分公司算力资源可用率提升14-18点,分析、开发类算力资提升18-24点,分析类算力资源开放…4.5人/日->1.5人/日全职运维人力投入4.5人日压缩到1.5人日夜间出帐平均人工介入次数压降75%,到7次内…总体实施思路-运维数据治理,AI助力智能运维能力打造,向DataOps和AIOps演进全应用JOB数字化画像算力资源画像全应用JOB依赖血缘图全应用JOB认领业务应用SLA数字化管理业务指标、标签、报表上、下线数据化评估体系数据生命周期数据化管理(访问量+算力)运维对象数字化-向纵深推进运维数据治理-标准化JOB运行日志解析产品、组件状态监控库表访问量租户/组-库/表权限运维对象数字化-扩展完善极端场景JOB调度自动巡检配置及执行调度(作业计划、数据质量等)数据开发CICD场景打造日志解析器、事件引擎运维基础能力提升基于角色的监控、运维一体化工作平台CICD场景化应用(JOB审核发布)日出帐进度诊断自动作业计管理能力开放与可视化重点突破:运维对象大数据建模、机器学习及成果应用扩展运维对象日志采集范围提升日志解析结果收敛抽象能力,优化运维数据流转利用数据挖掘、机器学习、传统统计技术,推进中台全域运维对象画像,支撑中台智慧运维重点突破推进三类运维对象定量化、标准化管理,为运维自动化提供基础重点突破基于CEP引擎的运维应用深化CICD场景构造及能力封装基于ANTLR,构建DSL解释器,拉通运维业务、模型。代码数据重点突破:可视化应用基于图相关的运维对象建模、计算、挖掘基于Neo4j的可视化应用智慧运维-业务架构与运维类数据管理106原子事件配置数据采集数据解析yarnPrometheus运维分析处理分析业务监控视图类数据清洗复杂事件处理Drools数据存放MysqlRedis实时数据清单数据AmbariPostgreSQLRedisElasticsearch结果提炼异常数据报表类采集程序采集程序动作KILL进程自动启停Job平台资源资产平台资产平台(日志)平台资源(日志)Appid+Dagname+Jobid告警血缘数据neo4j历史数据hive前、后端主要技术框架后台实现:系统后台架构采用Maven架构实现,定时任务由springBoot单独搭建的定时框架前端实现:前端框架使用layui,报表采用freeMark模板引擎,图表展现使用D3+echarts外部系统交互:与外部系统交互统一采用http+json形式服务器应用:web服务器+数据库等机器都是安装在虚拟机,通过堡垒机连接使用运维类数据管理数据采集资产管理平台基础数据采集:JDBC直采亚信PG库集群数据采集:准实时采集yarn、ambariAPI数据清洗与存储数据清洗与存储:drools处理引擎+规则库;准实时运维应用数据存Redis+MySQL(周期3个月),同步转储中台hive历史运维数据(hive),规范化后形成分主题域运维数据,支撑智慧运维调度类机器学习、数据挖掘JDBCAPIANTLR+JSQL异常事件实时结果集解析数据结果集结果集关键举措一:推进运维对象数字化,打造事件驱动、自动决策体系107接口订阅监控大屏运维门户稽核日志调度规则血缘信息调度日志资产平台节点信息集群资源库表存储队列资源基础平台外围系统调度智能标签调度时序分析调度智能启停出账预测智慧调度智慧决策影响因子分析调度优化建议调度异常预测调度恢复预测调度智能评分噪点数据分析置信区间计算测试调度控制22管理类标签运行类标签业务应用Job时序资源变化队列时序变化Job时序运行状态变化2Job依赖(血缘)资源队列画像JobID+AppID动态映射依托资产数字化项目推进,拉通应用业务数据与平台资源数据,实现运维对象数字化,搭建数据中台智慧运维数据体系。并以运维决策输出为导向,推动智慧化运维阶段探索,逐步实现运维精益化智慧化。具体举措运维对象大数据建模、机器学习及成果应用:数据来源:扩展运维对象日志采集范围、提升日志解析结果收敛抽象能力,优化运维数据流转,实现JOB和集群的跨平台动态映射。运维对象数字化:利用数据挖掘、机器学习、传统统计技术,推进中台全域运维对象(JOB、资源队列)画像,支撑中台智慧运维关键能力建设:任务智能标签:建立任务标签为任务时序建议,智能启停、预测分析提供依据;任务时序建议:基于标签,结合集群资源实时情况计算分析得出的一个较合理的时序建议。避免资源队列长时间超负荷运行的情况,达到调度运行资源占用均合理的目的;任务评估建议:基于解析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论