基于大数据中台新能源智能汽车应用解决方案两份资料_第1页
基于大数据中台新能源智能汽车应用解决方案两份资料_第2页
基于大数据中台新能源智能汽车应用解决方案两份资料_第3页
基于大数据中台新能源智能汽车应用解决方案两份资料_第4页
基于大数据中台新能源智能汽车应用解决方案两份资料_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新能源智能汽车应用解决方案--基于大数据中台智能汽车车企数字化解决方案INDUSTRYUNDERSTANDING对智能汽车行业的认识与理解01随着新能源汽车与车联网的发展,智能汽车时代正在到来,汽车不仅是个交通工具同时也是一个网络入口与智能设备对智能汽车行业的总体认识网络入口娱乐空间业务载体智能设备交通工具电力驱动无人驾驶车联入网智能体验合规监管自动驾驶众包地图车载娱乐行为分析无人车…智能汽车是一组技术创新与应用发展的成果,而随着智能汽车的普及与推广,众多基于智能汽车的智能应用与业务创新也层出不穷智能汽车相关技术与应用智能汽车相关技术与应用高效连接实时互动精准操控智能应用智能化配置:随着汽车智能化、网联化、电动化,车联网逐步成为行业标配,逐步完成基础连接多样化运营:利润点逐步向后市场转移,尤其商用车,包括保养、维修、租赁、共享、行业应用等国家监管要求:新能源汽车国家监测和管理平台截止2020年5月21日共计接入车辆323万云计算5G边缘计算无人驾驶车联网V2X…大数据OTA高清地图智能升级场景创新业务整合生态合作车辆移动信号波动网络延迟地下车库偏远山区随着智能汽车的使用与推广,如何确保在复杂环境下,确保给车主提供可靠、安全、高效的智能应用与体验,是摆在车厂面前的一个巨大课题智能汽车应用给车厂提出了更高的要求多样地理环境多种驾驶场景应用多样复杂网络环境恶劣广阔区域覆盖复杂环境车辆安全公共安全合法合规数据安全人员安全高度安全车厂需要确保在复杂环境下保证驾驶与车辆的安全并满足智能汽车多样、高标准的需求强需求与高标准大并发高精准强互动大数据智能化高时效为了有效应对智能汽车应用所带来的全新挑战,车厂需要构建一整套以车联为基础、以数据智能为核心的技术与业务能力支撑体系在智能汽车时代新挑战中车厂的核心需求构建车联、数据管理与智能应用的核心能力弱网环境大量设备海量数据智能应用合规要求大并发高精准强互动高时效大并发高可靠设备连接管理能力弱网环境下稳定的数据传输能力低延迟音视频互动能力海量数据的存储管理与应用能力智能场景的学习与模型训练能力02TOTALSOLUTION总体解决方案依托CBA等最新数字化技术与成熟产品,为车企构建一个车联能力中台支撑体系,赋能车企搭建端到端的车联智网,形成智能车辆应用闭环智能汽车应用总体解决方案多终端一平台大中台设备管理、数据采集与指令下发能力大数据治理能力数据智能训练能力多方数据应用安全中台支撑体系各类车载设备多协议SDK接入实时数据采集远程操作控制智能车辆设备辅助驾驶场景车载视频应用车辆信息监控数据统计分析车联应用平台车辆设备数据实时上传操控指令、业务数据下发应用、日志等数据汇聚数据服务、智能应用支撑应用互动、数据反馈应用服务、指令下发车联感知层智能车联大数据中台车联中台边端接入与计算节点大数据中台AI能力中台业务中台窄带车联设备连接与管理宽带车联实时音视频互动利用IOT相关技术与产品搭建一个智能车联大数据中台,高效连接、管理车辆与各类设备,实时采集并处理车联数据,支撑各类智能应用解决方案蓝图打造智慧产城社区的关键环节可视化管理舱PC端手机APP微信小程序车主经销商运营人员监管人员厂商人员第三方前端服务层车载设备管理高效设备连接音视频数据传输智能互动&车控指令车联数据支持海量数据管理大数据应用支撑AI模型训练TSP前台应用层车辆管理用户管理热点分布指标分析历史数据查询国家监管平台车辆实时监控智能驾驶远程车控自动泊车驾驶行为监控车载娱乐…基础架构(公有云/私有云/混合云)数据安全流通解决方案架构智能汽车边缘接入与计算端物联边缘网关边缘加速节点车联中台IOT平台RTC平台设备管理设备接入消息上下行OTA升级数据存储语音通话实时视频视频互动视频转码水印……基础平台计算服务器、虚拟机、容器…网络公有\私有\混合云存储(时序)数据库、对象存储…安全AI平台在线服务&GPU资源训练服务OCR…人脸识别图像识别边缘计算虚拟机采用云原生的设计理念与微服务的部署架构,搭建分层、开放,安全、可弹性扩展的智能汽车能力与支撑大中台大数据基础底座Hadoop集群数据治理数据应用分布式存储离线计算实时计算数据采集作业管理集群管理元数据管理数据标准管理数据目录管理数据集成管理数据开发管理数据质量管理数据服务管理交互式查询报表服务数据分析故障预测数据可视化数据安全流通使用边缘网关、边缘虚拟机及CDN等技术,为车厂建立大规模边端接入与业务处理能力,以满足海量车辆、设备的高效接入以及高时效业务处理的需求构建大规模边端接入与计算能力边缘网关边缘计算加速节点数据上传指令下发中间计算结果推送访问加速内容获取边缘网关边缘计算加速节点数据上传指令下发中间计算结果推送访问加速内容获取……全球边缘节点资源设备接入业务处理支撑中台车联中台·IoT车联中台·RTC大数据中台AI中台数据上传指令下发数据传输内容缓存中间计算结果上传业务计算任务下发大规模分布式算力全球设备接入能力高可靠加速连接架构更大规模并发接入能力更稳定可靠数据传输更高效业务内容响应更快速低延迟业务处理基于车联网技术与相关平台产品,建立车辆设备管理与接入的基础车联中台,统一接入设备数据并将数据分发到不同系统进行处理或消费利用IoTStack构建窄带车联中台设备管理产品管理设备密钥设备管理产品密钥认证注册权限安全高并发接入链路加密连接管理转发后数据电池监控车辆运行监控车辆位置监控实时监控转发后数据转发后数据IoTStack车联网(窄带)通信平台车辆运行管理人员管理故障报警管理车辆管理系统管理权限管理报表管理管理设置消息收发数据上报设备调试远程控制消息日志其他功能OTARRPC数据解析消息监控HTTPKafkaRDB规则引擎TSDBLB广连接高并发双向数据IoTbrokerTLS加密MQTT4G4G5G基于URTC建立抗弱网、低延迟的宽带车联中台,实现音视频类数据的高时效、双向传输,支撑各种基于音视频的互动与智能应用利用URTC构建宽带车联中台RTC·宽带车联平台实时合流转码中心AI处理视频水印全球覆盖实时音视频集群直播集群(live+CDN)点播集群(S3+CDN)云端录制·MP4旁路直播·推拉流全平台SDKAndroidiOSWindowsWeb设备管理分辨率调节美颜/水印内容审核设备管理分辨率调节美颜/水印内容审核音视频实时互动音视频数据上传音视频数据下发音视频实时互动数据接收音频下达音视频数据上传远程监控中心监管单位车联APP车辆保护驾驶监管互动娱乐远程操控自动泊车车载哨兵远程驾驶驾驶行为检测远程语音告警路况信息采集车载视频车载会议……基于US3、私有化存储等产品,为车厂构建覆盖数据全生命周期的存储系统,实现对各类数据统一、高效、安全的存储,支撑业务同时满足合规要求利用分布式存储系统支撑海量业务数据高效存储私有化存储系统UIoTURTC……TSP海量存储分布式架构存储空间不限文件类型不限节点横向扩展快速节点接入安全存储数据加密多副本存储访问控制加密传输数据备份高效存储分层分级切片存储压缩存储文件级妙传支持加速管理应用文件上传文件下载文件查询图片处理文件删除低频存储标准存储归档存储降冷归档非结构化数据&半结构化数据+文档&音视频&图片&日志…+业务&归档&备份SDKAPI管理界面跨地域自动备份基于高可用架构设计,提供稳定可靠的存储能力,11个9的数据持久性提供数据加密、防盗链、白名单等功能并采用全链路SSL加密传输,确保数据安全,保证业务合规,满足审计需要采用分级存储模式,支持弹性存储空间,助力降低总体数据存储成本可结合CDN解决海量数据分发问题,提供高效文件访问服务灵活便捷的业务接入,提供API/SDK、命令行工具和管理界面等多种访问方式适配基础云服务,为各类服务提供稳定可靠的后端存储支持数据归集基于UDSP+UAI构建智能大数据管理与应用中台,实现对智能车联数据的统一管理、治理、分析与智能训练,兑现车联数据价值,为各类应用提供全面的数据服务利用UDSP+UAI构建智能大数据中台数据服务数据生产端音视频数据轨迹数据传感数据行驶数据用户数据……数据消费端车联IOTURTC管理系统营销系统……TSP大数据管理与服务门户 UDSP·智能大数据平台数据汇集清洗加工数据资产模型计算质量稽核共享应用数据治理管理规范标准(元数据、标准、质量、资产、目录)持续反馈数据湖UAI·人工智能训练平台模型构建数据标注数据训练算法调优模型调用数据喂养模型应用存储计算管理安全车联平台对象存储TSP……车辆管理驾驶监测故障诊断故障预警用户画像……基于多方安全计算相关技术,为车厂构建一个行业级安全多方大数据开放平台,助力全面整合行业上下游数据资源,挖掘数据价值,支撑场景应用与创新利用多方安全计算打造安全的多方数据开放平台数据所有权和使用权分离可用不可见,可用不可拿数据需求方数据提供方增值服务方提供透明的、可监管的服务例如算法提供、模型提供等第三方监管方网络安全部门、第三方评估机构对数据流通平台实施合规监管平台方·车厂自身运用数据搭建算法模型合法合规使用提供方的数据保证所提供数据源的合法合规性向平台开放数据字典与样例数据车辆设计交通治理个性车险车主画像车贷金融建立各类数据从车端采集到边缘接入及预处理,再到集中存储、治理、分析与智能训练,并最终提供数据应用服务的完整流程总体数据流图数据服务UIoT平台边缘机房视频图像URTC轨迹数据4/5g激光数据4/5g雷达数据4/5g位置数据4/5g对象存储视频图像URTC视频图像URTC大数据管理平台车联数据内网加速AI训练与服务平台音视频数据车联数据数据喂养模型调用数据存储数据治理数据开发数据服务应用平台TSP…指令下发指令下发模型调用服务响应数据服务业务数据模型调用服务响应业务数据业务内容业务&基础数据车联业务数据交互安全屋·多方数据共享与应用兄弟单位数据上下游企业数据第三方企业数据监管单位数据03APPLICATIONSCENARIOS行业应用场景创新类应用基础类应用行驶类应用车载类应用智能汽车行业数字化解决方案可为车厂提供基础层与能力层的完整解决方案,能够支撑丰富的行业应用场景,助力车厂开展在智能汽车领域的业务运营与创新行业应用场景智能汽车应用解决方案基础架构支撑公有云全球网络数据中心IDC托管设备租赁私有云平台边端能力支撑边缘网关边缘虚拟机边缘加速边缘网关边缘虚拟机边缘加速中台能力支撑车联·IoT车联·RTC智能大数据AI训练AI服务数据私有存储路况采集众包地图多方数据应用无人车…车辆管理行驶数据分析故障分析……自动泊车远程驾驶驾驶行为监测……车载哨兵模式车载视频娱乐车载会议……热点分布与指标分析车辆分布大屏展示、宏观指标显示显示平台管理的车辆总数显示平台行驶总里程实时更新在线车辆、离线车辆数量统计值实时展示车辆平均油耗、平均行驶里程基于GIS的车辆分布图平均每日的车辆在线率物联平台010100110001100101001100011001010011000110车辆实时监控车辆状态动态数据实时或离线监控,并根据数据进行驾驶行为分析小程序移动端APPPC端WEB账号登录,实时显示车辆信息,一键知晓位置寻车,清晰可见实时数据实时分析服务实时展示车联数据实时上传规则引擎实时给分析模块处理前端页面实时展示用户及车辆管理平台的核心管理功能,管理所有和车辆个体相关的内容车辆静态信息管理用户信息管理车型管理添加、删除、修改、查看车辆信息更改设备、车牌号、电池编码等记录主关联APP或小程序可查看本车相关信息单一、批量添加、删除、修改、导出相关数据车型的新增和修改型号、排放标准、扭矩、功率等添加车辆可以绑定车型,或自动匹配车型注册、登录、修改密码用户基本信息管理用户权限管理用户和车的绑定关系管理,车和设备的绑定关系管理历史数据查询及分析离线分析并支持导出油耗、里程、上线时长、充电时长、平均车速、运营情况等使用情况计算分析总里程、平均里程计算分析总耗电量(油耗),平均耗电量(油耗)计算分析充电时长计算分析平均车速在线情况计算车辆在线时长分析不同区域不同车型不同时间的上线情况运营情况月度地区或所属机构车辆运营情况数据导出支持导出不同分析条件的列表结果自动泊车通过智慧汽车实时音视频解决方案,用户可以在手机端,实时观看车身周围情况,通过手机端实时控制车辆。

厂商可以借助智慧汽车实时音视频解决方案远程实时监控汽车自动泊车情况。

自带摄像头可以全天24小时对车身周围进行监控,并且上传至云端,供车主回看。远程指挥自动驾驶场景需求5G网络快速普及带来了两个很大的优势,一个是传输速度快,另一个就是网络容量的加大;这将有效提升实时音视频等多媒体应用的发展速度。在无人驾驶、远程指挥等应用场景对于网络的要求都很高,但仅仅是网络变的更好,并不代表音视频产品的体验就变的更好。解决方案RTC依托核心音视频编解码、信道传输、网络调度等技术,实时音视频通信RTC可以为用户提供高可用、高品质、超低延时的音视频通信服务。RTC音视频通信的端到端延迟仅200ms,远程指挥场景下,RTC能够在毫秒级监测到并实时将周围环境的高清画面回传给远程指挥人员。而驾驶员借助RTC360度无死角的画面就能采取下一步措施,确保无人车的安全流畅行驶。驾驶形为监测未系安全带双手脱离方向盘打电话使用手机抽烟长时间视线偏移实时监测+自动识别主动语音提醒+对接监管平台低延迟抗弱网

主要场景传统的解决方案对网络的依赖较高,在正常的网络环境下,端到端的延迟超过2s以上,已经无法满足智慧汽车对驾驶形为监测告警的应用场景。关键方案RTC实时音视频解决方案具备抗弱网,在网络环境较差的情况下,自动冗余包、丢包重传,并且结合控制算法,可以满足视频抗40%丢包、音频抗70%丢包。驾驶形为监测打瞌睡车载视频互动车载会议车载音视频娱乐车载哨兵车载哨兵模式如果检测到是小威胁,哨兵模式将切换到“警报”状态,并在触摸屏上显示一条消息,警告其摄像机正在录制。如果检测到更严重的威胁,例如有人打破窗口,哨兵模式会切换到“警报”状态,激活汽车警报,增加中央显示屏的亮度,并以最大音量播放汽车音响系统的音乐。“哨兵模式”是车辆在停车时通过360度车载摄像头检测威胁并发出警报。多方数据开放应用共享汽车车联网应用车主画像完善车型优化设计定制保险服务精准车贷服务交通治理……数据智能应用利用多方数据安全计算相关技术帮助车厂实现内部数据打通以及车厂与外部组织的数据共享,全面整合驾驶行为数据、车主个人数据、汽车轨迹数据、行车记录仪数据与保险公司等多方数据资源,支撑共享汽车、用户画像完善、车型设计优化、定制保险等创新应用。04OVERALLARCHITECTURE应用架构设计基于RTC、IoT、边缘计算、大数据以及AI等数字化技术与产品,为车厂搭建智能汽车应用能力与支撑中台总体架构设计边缘网关节点·IoTEdge边缘计算节点·VM私有化存储车联网平台·IoT实时影视频·RTC大数据管理平台·HadoopAI平台·AI(AI-Inference&AITrain&AIAlgorithm)公有云网络&计算&存储&安全数字化服务(咨询&方案&交付&运维&重保)私有云私有云平台&私有云一体机混合云IDC&设备托管&服务器租赁边缘加速节点·CDN安全数据流通平台·多方数据安全&隐私计算私有云平台架构德尔玛私有云平台资源虚拟化裸金属纳管统一资源管理与调度层基础应用层虚拟机GPU虚拟机裸金属服务镜像GuestOS弹性网卡云硬盘分布式存储VPC弹性IPNAT网关负载均衡安全组VPN网关混合云接入PAAS能力层数据库容器对象存储大数据安全…消息队列AI门户DMSERP研发系统TSP大数据……系统底层资源应用环境能力组件架构保障运维支撑本地机房1业务中心A本地机房2业务中心B异地机房1业务中心C新建机房X灾备中心N多地域支持&多数据中心管理&大规模集群部署&多架构、多类型设备兼容&统一平台管理&集中资源纳管与池化&弹性架构扩展车联网平台架构

物联平台视频电力监控人脸识别电气火灾可燃气体消防水压闸机门禁停车管理应用服务风场应用工单调度告警应用协同应用消防应用安防应用梯控应用边缘管理场景联动告警管理实时数据监控数据统计与报表统一数据接入和数据发布服务LAN/485/232/Zigbee/LoRa/WiFi/CAN边缘设备消息路由函数计算消息缓存子设备驱动子设备管理远程运维云边协同本地应用本地Web设备管理权限安全设备调试IoTBroker(百万并发/亿级连接)脚本解析监控日志设备鉴权规则引擎数据存储官方驱动产品管理文件上传RTC平台架构多城市覆盖全球节点大带宽保障云骨干专线多可用区能力层设备管理切网保持通话音频通话云端录制智能调节音效、耳返直播连麦视频属性设置多通话横式网络传输Qos3A处理屏幕共享接入层全平台SDK(支持Web、Android、iOS、macOS、Windows、Electron多种客户端的集成接入)RTC产品核心能力基础层BGP智能调度算法传输层AES加密传输接入线路容灾开放调度接口增值服务核心能力视频通话多路混流抖动缓冲音量大小回调视频截图网络流媒体输入自定义视频数据旁路直播互动白板私有化部署统一分布式存储平台架构统一存储管理门户块存储接口RBD统一分布式存储通用存储集群存储一体机集群归档集群块存储服务对象存储服务文件存储服务多副本/纠删码缓存加速数据重均衡多级故障域故障自恢复在线扩/缩容WORM/多版本数据归档NFS共享CIFS共享访问控制审计日志目录快照访问授权快照备份对象存储接口S3丨NFS文件存储接口NFS丨CIFS丨CEPHFS容器K8S-CSIKVM虚拟机大数据服务Web服务媒资服务物联网服务文件共享数据归档分布式文件系统运营运维集群管理资源管理监控报警账号管理审计日志升级扩容平台管理部署系统大数据平台架构SDPAgent代理层监控告警权限认证实时计算OLAP引擎离线计算NoteBook智能运维交互式查询数据科学工作台作业管理元数据管理数据使用&作业管理计算引擎数据存储数据集成平台管理资源管理RangerZepplinHueMysql、AtlasMRHDFS&KUDU&存储集群Elasticsearch、UESZookeeperFlink、SparkKylinHive、TezPresto、ImpalaYarnHBaseKafka、UKafkaSqoop、DataXFlume、Logstash、Kafka、UKafka、Beats大数据物理机、虚拟机、云主机等AlertManagerGrafanaInfluxDBNodeExporterPrometheusUSDPMonitorUDS、OozieAzkaban数据安全流通平台架构数据资产管理数据总线数据超市自助式报表数据可视化运行监控数据挖掘融合计算层数据上传与管理快速算法验证算法维护与管理主流开发语言支持数据质量评估安全融合计算流程与规则管理结果使用规则交易规则审核规则项目管理安全保障云基础安全防护数据管理权限安全分布式加密安全加密数据库数据采集与管理数据清洗与拉通标签与画像实时流计算离线批处理源数据层基础层汇总层业务数据集群资源管理平台运维认证授权审计数据集成作业开发调度监控数据资产管理元数据管理数据质量管理安全流通数据中台边缘节点行业应用5G专网光纤专网虚拟专网数据应用数据区资源管理数据处理节点1数据采集数据区资源管理数据处理节点2数据采集数据区资源管理数据处理节点3数据采集数据区资源管理数据处理节点n数据采集...THANKSa四川电信数据湖+数据中台实施方案企业信息化部2021年2月数据驱动数据湖数据资产数据治理23451回顾理解2数据驱动构建数据驱动能力构建数据驱动场景构建原子事件库设计态能力策略库调用生成事件ID及描述配置事件属性和目录树位置原子事件规格发布原子事件测试原子事件上线事件调用说明业务场景库调用事件发布事件源配置:基于成熟事件源系统、基于数据资产的事件配置、基于解释器的事件配置解析、计算、判断规则:通过计算规则配置,解析事件源数据及计算结果是否满足编排事件封装规则:包含事件出入参、调用形式、周期、失效时间、其他限制条件等调用规则事件模板调用1.事件注册-生成事件2.事件编排-数据源及加工配置3.事件发布-提供交互目录树事件生效并挂目录树支持业务场景库和策略库调用原子事件目录树更新事件目录树原子事件库设计态根据业务需求的输入及分析,整合包含业务系统和数据中台的多事件源数据,在原子事件库中完成原子事件的注册、编排和发布全流程能力,强化事件管理、编排、开放等多种能力,构建数据驱动的统一事件支撑管理能力库,提供标准化的数智能力,助力数据中台能力提升和价值演进根据业务需求注册事件原子事件ID原子事件描述原子事件目录树归属原子事件创建时间原子事件类型根据原子事件业务规格进行事件编排原子事件所需数据业务系统数据资产数据中台数据模型数据调度……数据获取配置数据加工编排配置事件解析器基于SQL解析配置基于业务描述配置原子事件编排事件源解析规则事件源配置原子事件状态…事件计算规则事件判断规则事件封装规则业务需求输入原子事件运行态事件编排逻辑触发数据资产注册源数据跨多系统数据源事件源系统事件源数据事件编排信息业务系统已有事件事件要素齐备系统事件触发事件解析2 事件模型事件调度4

事件分析事件判断而随着135……数据目录运算数据模型生成调度规则注册数据资产标签库事件编排运行查事件进程查事件信息查事件接口事件所需数据汇聚事件ID事件类型事件对象事件参数1…基于原子事件的侦测事件所需数据用户行为2 业务信息扩展信息4

事件增强..135……APIkafka消息队列…一站式事件数据汇聚:持续整合事件所需的数据;实时事件侦测:依托事件数据实时汇聚能力,高实效监测事件触发和执行;编排事件执行:依托数据中心现有能力,高效实现事件编排内容,扩大数据驱动范围和时效性;事件模板实例化事件推送/调用根据时间编排逻辑监测事件并整合数据源大数据平台支撑事件实例化:讲设计态中的事件模板进行实例化,封装实例数据事件推送/调用:通过事件目录树实现事件调用响应和主动推送能力策略平台调用推送停机客户自主联系智能客服实现业务实时高效的查询和开通事件驱动-停复机场景支撑策略匹配事件侦测消息队列事件推送根据时间编排逻辑监测事件数据驱动1、用户停机,拨打10000号紧急复机10000号等客服平台用户紧急开机清单(事件id、账户ID、信用额度、用户信用等级、地市、用户状态)匹配事件事件解析事件分析事件判断侦测事件数据中台kafka事件模版实例化策略引擎动作执行策略1:用户信用度是否为0计费平台启停信用度接口复机接口是否策略2:查询欠费计费平台欠费查询接口返回欠费详情策略3:用户信用额度>用户欠费<用户信用等级*50元计费平台临时授信接口复机接口策略4:复机是否成功CRM系统查询用户状态接口返回是否复机成功策略平台策略平台事件中心将原子事件解析为业务事件,供协同中心进行策略规则解析,生成工单任务信息,推动给触点系统触点系统触点系统接收工单任务信息后,进行相应的任务执行,并将执行结果反馈给策略平台,供策略平台进行二次策略协同派单和执行信息共享1事件流程驱动2345电话、短信、微信渠道(IVR,NGCC,公众号...)能力开放和注智客户停复机场景事件捕捉客户停复机相关数据整合分析智能侦测停机客户复机诉求数据驱动服务能力数字化智能服务前台场景判断和策略匹配查询业务系统执行结果和封装策略执行并调用能力中心能力服务前台实时查询停复机策略接口数据驱动停复机场景支撑能力打造以数据中台为底座事件源采集3数据湖构建数据湖构建数据湖入湖能力构建数据湖的分析开发能力构建数据服务体系构建权限安全体系总述数据湖是一套针对混搭数据库架构,具备数据采集、数据计算、数据访问、数据管理的技术架构;通过企业级数据资产,数据湖和数据中台,为不同级别的使用对象提供数据分析、开发的原子能力。数据汇聚数据湖:原生数据,采集、同步形成,或直接存储在生产系统数据中台:具备共享性的整合、加工数据数据探索数据资产统一纳管;提供基于数据湖、数据中台的数据探索数据生产提供多套计算引擎和场景开发,满足实时大规模数据预测、大宽表数据加工、大数据信息扫描等生产需求。数据服务提供统一的元数据管理,通过直接读取本地化的元数据信息,即可实现同源异构、异源异构和异源同构的数据访问。典型场景统一采集入湖营服实时数据入湖人脸图片数据入湖综合告警典型场景:跨域业务的探索分析网络动态资源树原子能力平台典型场景:volte实时数据分析厅店实时数据分析多维实时指标典型场景:一站式检索IDE实时分析工具基于数据湖+数据中心的新一代数据中台实施举措序号关键能力建设内容1构建数据湖构建适应于不同类型数据的存储能力,支持数据入湖基于全域数据资产目录,构建生产系统数据快速采集的存储配置策略、数据落地规则初步形成数据湖成果构建数据湖的视图,清晰数据湖构成和数据分布(在数据资产管理中落地)2构建数据入湖能力构建生产区到原生区数据的按需同步能力支持按资产目录驱动的数据入湖流程管理构建多种异构数据源的接入能力构建多样化的入湖开发模板,如:引导式、场景式等多种入湖能力3构建全域数据的开发能力构建统一的IDE分析开发工具,支持对多种异构数据资源的支撑能力构建支持即席分析探索能力,屏蔽底层物理存储4构建数据服务体系构建统一的数据服务框架,按场景驱动服务开发构建数据从注册、开发、上线、授权的全生命周期管理构建基于实时计算框架的数据服务,赋能实时业务场景5构建权限安全体系构建逻辑租户、团队、用户模型体系构建数据资源的租户权限管理体系构建集群资源分配、任务动态策略管理能力结构化非结构化数据湖数据架构入湖标准明确数据属主数据标准细则入湖方式注册元数据数据源规范认证物理入湖虚拟入湖离线实时逻辑数据湖物理表虚拟表账务域事件域参与人地域域管理域营销域计费域账务域管理域资源域客户域网络域PULL(拉)+PUSH(推)产品域资源域其他域财务域安全域其他域逻辑统一数据类型、业务分策略存储统一元数据语义定义、拉通、管理类型多样结构化:IT业务交易、流程、管理非结构化:网络设备产生文本、流数据原始记录湖内数据不转换、清洗,保留最原始特征,提供更多分析可能入湖标准明确数据属主执行数据标准数据质量评估元数据注册从业务出发,以用促建、急用先行的建设策略,数据中心统一规划,各领域配合执行,明确入湖的数据责任方,遵循安全、负责、易用的原则构建整个数据湖体系。数据源内部数据外部数据BSSOSSMSS网络专业···网络社交···

数据湖目标入湖标准要求数据湖存储架构-构建低存储成本的数据湖统一存储统一计算MPP(AntDB)RDBMS(TelePG)流数据统一采集流处理交互式查询微批处理批处理多维分析文本搜索数据湖流数据处理网络爬虫流式采集批量采集CDC采集HDFSKafkaHBaseKylinES结构化、非结构化数据时序查询归档Tidb/时序数据库多维分析复杂分析,时序数据分析全文检索以HDFS为核心构建大数据湖,以廉价成本(纠删码)将数据进行持久化,数据采集进来后由HDFS存储原始数据,其他数据存储按需采用HDFS、Redis、MPP(AntDB)等技术。二阶段一阶段基于数据湖的整体能力架构开发能力检索同步采集赋权解析扫描计算消息安全管理能力账号管理租户管理鉴权服务调用服务开放引擎服务调用服务订阅服务治理服务鉴权对外服务引擎数据监控服务监控质量监控文件类大数据基础平台paas平台分析类图片类人脸库指标库爬虫数据行业数据地市报表证件库基础能力sparkMRTezFlinkiceberghbaseAlluxioredis计算类存储类数据服务引擎企业内部应用集团dcoos外部应用请求监控服务开放引擎提供界面化服务订阅、服务发布、服务治理开发能力提供基于组件化的采集、开发、查询、交换、分析能力基础能力提供实时、离线、批流一体的底层计算存储组件的服务封装能力安全管理中心实现不同资源存储租户间数据访问的统一权限管理运营监控提供不同环节处理的任务、过程、操作日志和状态监控数据共享基于数据湖的混搭数据库架构设计,通过服务提供的形式,用于解决数据查询、数据分析、数据共享、数据预测等业务需求。

数据湖整体能力支撑运营监控基于数据湖的开发管理组织规划数据使用开发参与对象开发者开发者开发者开发者数据分析者数据分析角色数据运营角色数据开发角色数据分析角色:根据需求场景及个人业务理解,产生需求使用系统,提供数据目录检索、资产详情查看、IDE数据分析探索生成分析结果数据开发角色:对接需求分析师,拿到需求和制定开发计划对需要数据发起入湖流程入湖任务监控,数据问题处理反馈数据分析者开发者数据分析者运营者运营者运营者运营者团队1团队2数据分析者平台管理者平台管理者数据运营角色:查看数据湖的整体资产情况查看数据入湖的任务执行监控查看数据湖抽样数据的存储情况查看各自团队数据安全权限分配和入湖处理平台管理角色合理的角色分工清晰的流程处理平台管理角色:负责分配用户的系统资源负责创建平台账号负责分配平台工具的使用权限负责保障平台的稳定运行数据入湖能力-即时数据自助探索分析

数据湖区(私有租户)1、查找需要模型3、获取样例数据4、数据开发5、数据洞察&分析2、查看资产详情对接安全管理平台数据同步/异步传输机制数据抽样标准元数据资产检索元数据检索(模型名、字段名、口径描述)

开发IDE模型目录一键集成开发IDE基于数据内容的检索(抽样数据、ES存储)高效分析查询基于数据开发结果对接可视化组件快速完成分析提供保存分析结果历史,方便持续性的趋势洞察关键能力资产目录基于数据湖中全域的数据资产目录,提供便捷数据分析入口,引导式发起即时数据分析的全场景,完成自助数据探索分析。资产详情资产详情可视IDE业务元数据(业务口径、频率、全量、来源系统、存储周期等)技术元数据(数据源、字段、类型、长度、分区等)管理元数据(五性)文件/表同步方式支持多样数据库类型数据分析人员运营要求要求安全平台满足实时抽取同步响应及时要求各域数据运营人员抽样数据安全性需要权限管控

要求平台使用人员严格执行入湖流程标准

抽样数据直采效率更高,可探索尝试

入湖模版推荐数据入湖能力-支撑按需快速入湖的自助流程现状:目前存在两套采集平台,两次采集的问题,数据延迟,数据同步差异不可控,问题定位复杂,采集数据门槛高。目标:实现多种异构数据源的直接采集,提供简单高效的入湖能力,提升原生区数据的可靠性,将这些异构数据同步到数据湖中统一存储,提供多样化的入湖开发模板,如:引导式、场景式等举措:资产目录驱动:通过资产目录检索,定位到需要采集的生产区元数据,选择资产自动注册服务能力,一键注册到原生区,然后选择需要的采集原子能力,完成配置后,数据一键入湖入湖模板:支撑流程驱动的引导式开发和场景化的业务模板异构数据源支撑:RDBMS、MPP、文件、消息等。自定义入湖策略:模型的数据来源、频度、增全量、定责以逻辑集中,物理分散为原则,以实现数据的统一采集、统一存储、统一管理为目的,打造标准化的入湖能力,实现企业级数据湖。屏蔽数据源异构技术差异,实现透明、可编排的采集开发能力,快速实现业务按需入湖。典型应用场景:快速按需完成产品设计场景数据入湖企业数据目录P1:通过数据目录定位需要的模型数据数据资产详情P2:查看模型数据的详情,包括:业务口径、管理口径、血缘依赖信息等,确认数据使用场景P4:调整实际的入湖策略,如数据来源、频度、全量或增量等,完成最终任务的发布上线策略调整并上线入湖数据确认P5:通过IDE探索平台确认数据查看业务含义按需调整策略分析入湖数据P3:基于模型的元数据信息,自动推荐适合该场景的数据入湖模版并加载构建入湖场景低代码快速开发入湖组件指标注册指标服务开放FTP组件指标标准脚本组件消息组件自定义组件大数据组件MPP组件统一IDE编排组件关系型组件数据开发角色运营要求要求安全平台满足即时采集策略的流程配置及实效性要求具备直采条件的建议直接拉数据,源系统分配安全账号数据湖开发分析能力-可视化IDE工作台搭建统一IDE开发平台,管理底层混搭的数据存储架构,屏蔽底层差异性,通过SQL编写、参数配置、流程调度,实现跨平台、跨数据源的在线数据分析工具,通过可视化界面操作、资产全文检索能力和内置工具,实现快速找数据、即时分析数据。数据注册管理提供统一的多种异构数据源的元数据采集能力,支持主流的RDBMS、HIVE、ES数据源的管理;根据采集上来的数据源类型进行数据访问封装,形成统一IDE查询能力;支持对指定数据源数据的分析探索能力。数据开发处理消息管理:提供离线和实时可视化开发平台封装开发函数组件,屏蔽底层细节,降低开发门槛,提高开发效率;丰富的组件可以支持多种数据开发分析的场景,通过编排可快速实现业务场景数据访问日志记录开发者详细查询、开发操作轨迹日志;开发者可以查询历史访问信息。智能SQL

IDE标准SQL语法Hdfs组件Hive组件Sql通用组件文件组件脚本组件命令组件控制组件函数组件质量组件数据访问适配器丰富开发组件库hdfshivemysqlhbase数据开发&数据分析角色①数据需求想法②检索湖数据和探索分析③分析结果呈现或应用数据湖的数据开发能力-双集群研发工作区建设在数据湖+数据中台核心能力基础上,基于数据统一存储统一管理的原则,构建多处理平台工作区环境,支持数据研发测试、探索开发场景。1、提供数据中台研发环境开发学习能力作为数据中台的工作区开发环境,具备敏捷开发功能,快速实现模型开发、数据开发、作业调度和一键发布能力,并增加JOB及HQL语意审核,上线发布前试运行效率评估。

作为关键基础业务数据备份,支撑极端场景下生产环境业务数据的恢复。作为大数据学习平台,提供操作系统、大数据组件、数据实例的学习环境。2、提供跨区访问、跨区读取探索开发能力可提供跨区访问数据中台产品区、数据湖原生区的开发能力;可提供跨区实时读取数据中台产品区、数据湖原生区数据能力提供敏捷开发能力,通过一键发布实现工作区研发成果发布到产品区。3、提供半结构化数据探索开发能力,实现抽样分析工作区原生区历史库采集类数据同步库/复制库虚拟数据对象类数据语音库/人脸库流式数据产品区关联数据标签指标整合数据经营类关联数据预测分析整合数据注智类生产区资产信息资产检索跨区访问跨区读取发起入湖需求探索开发敏捷开发数据采样、测试资产注册任务调度一键发布探索学习系统类学习数据类探索组件类学习智能类探索数据湖的数据服务能力-高效安全的服务开放共享文件服务API服务消息服务

在数据湖+数据中台核心能力基础上,基于全域数据湖资产目录,提供快速对湖内数据进行数据开放能力,统一服务创建和发布流程,数据开放安全可控。数据服务引擎统一配置统一管理统一监管统一运营集团上传驱动集团实时业务驱动生产运营业务驱动资产目录资源注册资源发现原生区产品区场景驱动数据服务管理提供统一的API创建、测试、发布、下线生命周期管理;支持Mysql、Hbase、Oracle、Redis、Http、文件多种数据源的数据开放能力;提供统一服务不同的安全访问策略,如:字段个数、不同字段脱敏;提供API的调用管控,如:流量控制、调用次数等熔断控制;提供应用访问的APPKEY申请管理能力,保障服务安全接入数据服务运营提供整体API的整体概览:上线总数、调用次数、成功次数、服务调用排行等;提供对API冷热度分析评估,指导不常用服务下线处理,对调用次数较高服务进行重点服务保障提供全面的服务调用日志审计,对每类应用、每个接口的调用分组统计和分析调用趋势,指导资源优化数据服务开放目标:统一服务开放平台数据湖的数据服务能力:资产一站式检索Parquet样例数据非/半结构化文本HDFS文件消息图片/音视频混搭数据存储图文本/音频文本资产目录数据服务引擎资源管理结构化文本产品区生产区元数据原生区检索查询结果显示结果返回搭建全文数据检索引擎,将完整的信息,包括资产、位置、数据、索引全部转化为计算机可以识别、处理的信息单元,存储到提速引擎中,形成资产路由,以实现一站式的全文检索。检索引擎多维检索数据元数据(表、字段、业务口径)血缘纬度查询基于业务过程纬度查询(梳理业务过程,定义业务过程中保护的实体模型进行建模);高级检索存储引擎:基于抽样数据(结构、非结构)进行模型与数据的索引构建,内存存储;快速检索:屏蔽底层底层数据差异性,构建统一搜索引擎,完成数据的检索呈现;

资产快速检索数据快速检索索引缓存数据湖资源安全体系-灵活的团队管理模型目标:支持多团队、多厂商使用,构建团队、租户、账号的权限资源管控体系支持不同团队下计算存储资源的配额管控,解决集群内资源的高效使用举措:团队账号管理:梳理现有系统账号、组织机构、角色、权限管理,引入新的团队账号体系管理,构建多租户模式的工作空间管理体系租户资源管理:建立逻辑租户的资源管理体系,管理团队租户下集群账户、用户、角色、权限,明确各角色职责和开通流程统一租户模型集群资源用户用户用户用户资源实例资源实例资源实例资源实例YARN计算资源队列队列队列团队租户团队租户以开发团队申请入住为例,需要申请租户并绑定集群资源获取数据和开发。创建团队并绑定用户,以团队为单位配置该团队集群资源配额(vcore、mem、存储)。创建租户,租户绑定数据资源实例,可以针对应用场景绑定需要的存储计算资源。给团队用户分配对应租户资源,一个用户可以拥有多个租户资源的权限申请。开发用户对模型的访问权限通过统一数据访问权限控制。实现集群统一的资源管理,以租户为对象实现集群资源的按需分配,并且需要根据运营体系实现资源的授权管理。支持租户的角色定义及用户授权,满足对租户管理的诉求。实现集群资源的配额管控,更合理的使用集群资源。100vcore1024M2T团队1150vcore1024M1T团队2数据湖资源安全体系-跨平台用户权限统一管理租户开通账号开通资源分配数据授权资源信息管理大数据基础平台paas平台分析类图片类人脸库指标库爬虫数据行业数据地市报表证件库文件类用户权限统一管理服务引擎(servicebroker)资源注册租户创建账号绑定租户资源分配数据授权租户同步账号开通资源分配数据授权12345图例资源租户统一管理提供统一的资源管理模块,将原生区和产品区资源管理和租户管理纳入统一的管理。将集群资源注册,租户开通,资源分配,服务分配,数据授权等能力进行统一的可视化管理。并采用服务调用的形式管理paas平台和大数据基础平台的底层混搭的数据库架构。

租户同步改变传统的通过后台分配租户、数据访问权限等操作,采用可视化操作。通过实时和离线两种方式保证产品和集群租户一致,实时,通过服务注册的方式,通知平台完成租户创建;离线,平台定期同步租户到本地产品租户库,产品自动完成增补全租户注册。

服务引擎设计权限服务引擎,管理底层混搭数据的权限开通、停用,提供统一权限申请流程,替换现在线上申请,线下赋权的流程。同时记录操作日志,对违规操作进行审计,提高了系统运维的安全性。资源信息注册数据架构优化基于数据湖的场景支撑---升级对象存储引擎,持续强化赋能一线的数据能力数据中台提供多种对象存储能力,支撑结构化和非结构化数据的入湖,便捷的数据存储服务及在线分析查询能力,快速赋能生产运营,释放中台能力价值,提升客户办理感知。①营业厅改套餐②人脸扫描认证③实时存储计算分析④认证结果服务能力数据中台缓存索引图像处理服务文档处理服务音频处理服务日志处理服务大数据集群对象存储(Ceph)HDFS/HBASE结构化处理服务其他处理服务半结构化结构化大文件图像文档音/视频统一数据服务图像数据服务赋能业务受理,助力人脸识别业务场景。留存全省用户图像及人脸历史库提供低延迟的图像数据服务赋能更多的智能业务受理场景基于数据湖的场景支撑---加强实时计算分析能力,提升VoLTE客户服务感知实时流处理引擎HadoopHDFS大数据海量存储网络信息设备信息位置信息感知分析/告警随着数据中台各种计算引擎能力的构建和升级,基于批量实时流计算引擎能力赋能业务处理的场景越来越重要,通过快速采集实时事件结合历史数据分析,提前分析问题原因及预知风险,协助客服解决通话质量投诉问题,避免客户流失,提升用户通话和服务感知。感知内容:故障率高的网络设备型号分布通话质量差的位置区域分布投诉用户的地区热点分布投诉反馈的时间段、时长分布投诉用户的通话设备型号排行···FlinkSQLKafkaconnector用户信息4数据资产存量资产管理生产区资产管理原生区资产管理资产目录管理资产管理现状和目标2020年建立DAMS至今,已经基本构建完成核心功能,包括资产自动扫描采集入库通道、信息补全、数据稽核、信息检索、资产视图等,后续将持续优化打造适用于数据湖+数据中台的数据资产管理体系。数据入湖标准化打造企业资产目录提升数据采集准确性采集入湖自动化制定资产和数据入湖标准,并纳入上云管控流程,从源头保证资产标准化;并统一数据湖和数据中台的资产注册规范。参考集团《中国电信数据资产目录管理办法》,融合数据湖+中台各区资产,重构建设省级资产统一目录。统一数据湖+数据中台系统标志,根据标准规范,实现协议自动注册、自动采集入湖,和资产的前后台到开发贯穿管控,保证数据采集的唯一性、采集路径的合理性。自动扫描实现结构化数据的注册,通过接口协议自动实现采集入湖;对非结构化和对象型数据打造统一入湖能力。现状目标目前安全平台自动扫描工具接入系统43个,数据库95个,还需推进全面扫描工作;自动扫描结果数据合规率较低,需要补齐和修正;缺少非结构化和对象型资产统一注册能力;缺少非结构化和对象型采集入湖能力;数据源采集路径多,交互效率低;

缺少统一融合的数据资产目录。实施举措序号关键能力建设内容1构建全域数据资产视图基于资产盘点成果(含数据资产、数据资产标注信息),结合中台数据资产,融合形成全域数据资产视图增量数据资产自动扫描(细分职责、明确困难或问题)2系统上云优化资产入湖开发者门户、安全管理平台、CMDB、DAMS各自建设入湖标准管控能力、分段负责管理层面:形成稽核-派单-反馈-考核的管理机制制定入湖标准文档,包括:上云规范、数据资产稽核细则规范、考核机制;3数据湖资产管理数据湖目录管理资产自动注册能力4全域数据资产服务能力构建多维度的资产目录视图,支持不同业务视角的数据使用需求优化数据资产检索能力:基于场景、NLP、热点、个人关注等构建资产标注能力,实现资产的多业务标签体系构建资产平台和OA集成能力,提升使用便捷性数据资产的管理成果01随着盘点工作的开展,持续对存量资产的梳理,系统总数508个,目前通过稽核并成功收录的系统达304个完成全面盘数据资产梳理02搭建CMDB、安全平台和DAMS的数据资产自动化识别流程,目前接入系统43个,数据库95个,表110643个,字段1460883个具备资产自动化注册能力03定位数据采集源,避免重复采集分析数据分布图,开展安全审计开展数据评价,促进数据价值提升初具数据资产应用能力04提供接口全视图、优化数据稽核能力,实现数据质量监控,目前数据中台重点支撑业务27个,涉及70个来源系统的563个模型,共配置稽核任务3061个深度部署重点数据治理埋点05提供资产全景视图,建立接口采集标准,优化采集开发流程,实现数据按需采集的标准化需求管理,2020年采集类需求116条,接口协议1068条数据采集需求标准化管理持续优化资产管理能力、构建全域数据资产采集管理展示管理视角开发视角业务目录一级视图二级视图应用目录一级视图资产自动注册界面录入自动补齐资产变动通知变更流程变更申请发起工单稽核工具规则管理规则检查问题管理源系统1源系统2源系统N程序主动扫描标准模板采集指定数据表读取二级视图存量204个系统未注册到DAMS存量472个系统未在安全平台扫描存量4500个DAMS资产与数据中台数据未建立联系DAMS对注册后的资产进行定期抽审,并将审核结果纳入考核实现存量资产全面纳管CMDB、安全平台、DAMS协同统一系统信息、维度编码;DAMS协助开发者门户梳理系统IP,完善系统信息管理DAMS督促NOC、天虎云商、无线等部门完善系统纳管DAMS完善资产注册标准,并持续更新完善资产发现注册能力建立数据评价规则及评价结果应用机制建立数据标注体系便于资产的分类管理建立样本数据库服务于及时的在线分析融合数据中台与DAMS资产目录,构建全域数据资产目录打造数据资产服务能力样本数据采集运营视角数据评价视图资产打标视图具备优化新建运营要求通过数据安全管理平台的数据抽样能力获取抽样数据由于数据库版本适配、网络不通等原因导致的源系统无法被自动化扫描的问题,是由源系统负责解决技术问题或进行改造,还是沿用样例数据导入借助上云契机,严格管控增量数据资产入湖标准落地与安全专业、IT运维专业联合工作,形成CMDB+安全管理平台+DAMS的数据资产管理体系,并嵌入到系统上云审核环节,实现数据资产盘点自动化,避免手工盘点前清后乱的风险。IT安全集中运维扫描:负责对源系统的系统信息录入,系统IP扫描。CMDB平台:负责对源系统的系统主数据管理数据安全管理平台:负责资产扫描、扫描任务管理,元数据管理。DAMS:对数据资产信息进行二次稽核,数据再加工,绘制资产全景视图等,并按照集团规范要求将数据资产卡片自动上传到集团运营管理系统。数据安全管理平台DAMSCMDB平台系统注册源系统数据扫描资产注册系统上云流程(统一PaaS平台)资产合规性审核报告管理举措:制定paas上云流程制定平台接口规范、稽核指标规范完善资产审核和数据扫描能力附后:《四川电信数据资产入湖标准》试运行预备案申请资源正式备案设计评审开发管控初验终验系统上线验收流程中审核《资产稽核报告》《企业IT系统上云管理规范》《盘点稽核指标计算细则》签字审核IT安全集中运维平台系统IP扫描运营要求建立不同类型的数据资产管理模式的长效机制目标:从源头控制,形成全域数据资产自动接入、完整覆盖,提升数据资产服务能力。资产目录南-北向接口需求3网络侧资产注册服务Kafak需求2TOPIC配置资产注册服务汇聚库/生产系统1安全管理平台资产自动注册服务接入流程注册流程:①采集类需求:采集流程优化,资产自动注册汇聚库类数据,通过安全管理平台扫描资产自动注册(原生区)需求管理人员接到增量数据采集需求,通过DAMS生产区资产目录检索,定位到系统表,调用资产自动注册能力,完成资产注册在DAMS未定位源系统表时,通知源系统在安全管理平台完善资产信息,完善后方能发起采集需求,反向推动数据湖资产补全②③需求纳入统一管理,提供南北向接口资产注册服务,形成资产全面管理DAMS提供资产注册服务给统一采集平台,将统一采集平台产生的文件类资产统一管理DAMS提供资产注册服务给PaaS平台,将流式数据kafka类资产统一管理网络侧数据无法通过安全管理平台注册,需要提供注册服务构建清晰易用的全域资产目录,提升数据湖数据服务能力多维视图提供多维视图按业务,展现企业核心资产;按部门,展现数据管理归属;按需求,展现数据支撑业务;按场景,引导式场景数据推荐;资产关联强化资产关联建立不同区域资产血缘关系;建立不同类别资产血缘关系;建立不同区域资产的一致性结果;服务开放能力集成资产订阅、收藏、评价资产检索在线分析数据服务现状设计数据中心资产目录现状:不完整:数据湖的数据资产未融合开放性不够:主要为专业数据开发人员使用,技术门槛较高,数据共享的支持性需要加强清理不及时:资产清理不及时,老旧数据资产、冷数据无标识标准不完善,管控不强硬:不合理的数据依赖关系依然存在资产标注完善资产五者关系,有助于问题处理;明确部门管控关系,有助于责任划分;数据打标资产打标资产运营构建统一的服务目录视图,梳理并建立标准化的后台原子服务目录。5数据治理数据治理总述构建贯穿数据生产服务链全生命周期数据治理体系,让数据中台更好用、更好监控和更好管控,进行持续的改进。通过TOC、PDCA以及精益思想理论,圈定资产、质量、使用和评价4个模块作为重点治理对象,通过机制、规范、监测和评估实现中台的精益治理。数据资产针对资产是否全面完整、资产是否可用和资产是否多余进行数据资产关联对比、资产标准化和资产下线管理资产关联管理通过CMDB、安全管理平台以及DAMS三方对比确认资产完整性资产标准化建立资产标准库,识别资产是否标准,严控资产质量资产清理发现低值、未用资产,通过血缘和下线清理策略评估,进行系统下线和迁移后历史资产的处理。数据质量新建数据湖需要更明确的机制、流程以及管控工具来进行监控。数据运营针对客户使用情况,真实直面的反馈数据、系统、能力的使用情况,创建交互通道,嵌入到数据运营的各个阶段中进行埋点管理咨询、问题搜集通道埋点能力数据评价建立评价模型和指标,合理利用集群资源,注智开发、运营、服务和管理管理强化生产区纳湖,新建原生区,多集群存储和多管理部门协作的五者边界的划分和流程确认结合质量考核办法进行管理能力优化根据能力成熟度模型,逐步创建从人工入湖、半自动入湖、自动入湖能力,运维上创建执行稽核动态上下线,实现湖内资产数据一体化管控质量稽核着重半结构化和非机构化数据治理,创建抽样监测、定制专项业务稽核以及生产系统提供稽核校验文件形式保障数据可用性为数据使用人员提供问答式互动通道,填写关于数据、平台使用的意见反馈、知识经验共享、交流学习等;数据生产到使用的各个阶段,创建埋点,收集客户使用行为,客户使用意见、评论等;结合上云嵌入插件能力,观测数据、接口、模型、字段使用情况质量评价感知评价资产评价成本评价价值评价主要针对运维过程中出问题情况进行评价针对客户使用感知进行评价随着DAMS的提出,资产合规性等很重要,进行资产评价针对存储、使用资源等评估针对重要程度,使用频率等进行价值评价统一数据标准库劳动竞赛/积分模型开展劳动竞赛,建立共管支持能力,深化数据资产运营智慧运维运维对象数字化,提升可用性,降低运维成本实施举措序号关键能力建设内容1数据资产治理1、完善标准库:系统上云、资产入湖、数据使用2、资产关联稽核管理:生产区、原生区、产品区资产一致性稽核能力、异常资产在数据资产视图中的标注和提示能力(细分职责)3、基于数据评价,支持数据中台数据自动预警、定期下线或回退到原生区2数据质量治理1、质量体系完善:将现有中台的稽核方式,以质量评估模型+知识库形式进行有效组织和设计,以系统化方式实现从人工到自动化的迭代演进2、能力优化:优化稽核效率,制定调度任务评估模型动态调整执行策略(任务完成度、指标使用频率、血缘依赖度)3、管理强化:新建原生区,多集群存储和多管理部门协作的五者边界的划分和流程确认,结合质量考核办法进行管理3数据运营1、交互式问答平台:为数据使用人员提供问答式互动通道,填写关于数据、平台使用的意见反馈、知识经验共享、交流学习等;2、嵌入式点评留言:用户直接可以根据使用情况进行评价和反馈。精确反馈功能模块使用情况3、应用埋点:将类插件方式埋点到指定应用查看数据使用情况和价值4、资产标注:对资产进行业务标注,提升检索和管理能力5、劳动竞赛:鼓励全员参与,建立赛道,全员自主自愿参与业务数据打标、数据治理赛道竞赛6、积分模型:设置积分奖励制度和奖励办法4数据评价1、数据评价模型和指标库建立:从质量评价、感知评价、资产评价、成本评价、价值评价5个方面进行评价2、考核体系:建立数据质量考核管理流程,处理沟通问题,提高问题处理效率,更好的保障数据质量标准管理的重要性:标准分布在整个数据管理流程中调用入湖方式统一服务传统报表数据驱动数据应用生态……管理决策营销服务智慧家庭金融征信智能连接客户洞察既有采集方式原生区RDB消息对象存储HDFS流式采集流式采集CDC采集采集服务批量采集镜像直接连接FTP/SFTP图片/音频/文本半/非结构数据Databases系统/平台Files《存储标准》《数据架构定义》《系统上云标准》《数据安全管理规范》生产区资产管理《资产梳理流程》《资产治理流程》《五者定义》《资产质量标准》《元数据管理办法》《目录分类》《数据接入标准》数据中台工作区产品区安全区《数据项定义规范》《表定义规范》《开发规范》《上线生产规范》《数据安全管理规范》《运维管理流程》统一管理统一调度《数据共享标准》《插件标准管理》源系统上云申请结构化数据资产标准化:优化标准库标准规范定义和分类《资产定义》《数据表/项定义》《五者五性定义》业务标准(业务层面)《目录分类标准》《关键字使用标准》技术标准(技术层面)《数据项命名规范》《数据表命名规范》《开发规范》管控标准(管理层面)《资产管理办法》《插件管理办法》《上线生产规范》稽核标准(质量层面)《数据质量管理规范》安全标准(安全层面)《数据安全管理规范》流程制度系统上云流程资产入湖流程标准库数据使用流程数据治理流程1.完善规范制度流程系统上云流程资产入湖流程数据使用流程数据治理流程2、完善标准规范建立标准库就资产、数据表/项以及五者五性定义标准内容根据业务、技术、安全、管控和稽核等不同层面制定不同的管理和使用规范3、规范和实例映射关系根据每项规范内容形成标准实例,稽核和治理系统上云、资产入湖、数据使用、数据治理四大流程建立标准库,完善管理规范、流程制度和资产标准,保障数据资产持续运营,严控资产质量。附件:标准细则数据质量-建立质量模型,演进质量管理从人工到自动化发展新建质量模型,将现有中台的稽核方式和理念整合起来,以质量模型+知识库形式进行有效组织和设计,以系统化方式实现从人工到自动化的发展。1、建立对象层生产区纳湖,新建原生区,带来更复杂的半结构和非结构数据,每个对象的保障力度应该是分类型、分应用和分等级进行保障的。2、建立核心层每个对象实例应该采用核心层的不同保障方式和指标适配,数据质量的保障是有标准有模型进行保障的。核心层主要包含采用什么样的质量动作、采用什么质量指标以及输出质量服务能力3、建立治理层根据核心层提供的服务能力,提供治理策略,有哪些人针对哪些治理对象做哪些动作以及治理情况4、质量模型入知识库通过质量模型操作的动作、处理经验以及客户反馈组成链路形成知识入知识库,促进数据质量由人工向自动化演进对象层分类型结构化半结构非结构分应用集团上传数据门户收入保障分等级1级2级3级核心层服务能力体检抽样监测专业指标稽核Check文件校验五性嵌入阻断式白+黑嵌入非阻断式质量报告根因定位影响分析治理层策略配置资产治理数据治理产品治理补全资产优化程序数据错位资源不足开发知识库自动化半自动质量指标质量动作运维治理治理对象治理内容业务运维。。治理人质量预测质量关系文件本身属性人工1自动关联自动入湖重点数据治理-数据湖资产完整性稽核接口视图信息源系统信息接入数据库资产稽核不合规清单生产区系统接口外部数据库文件表数据项资产目录资产目录安全平台资产扫描kafka入湖源系统湖数据模型数据项原生区自动关联kafak入湖表数据项接口协议存量关联治理确认关联121匹配筛选统一标志关联关联资产构建过程生产区资产自动注册,自动采集入原生区,建立两区资产的关联关系;kafak等方式入湖,根据入湖规范申请,实现在生产区和原生区的资产自动注册和自动关联。存量数据关联治理稽核原生区数据资产,对不合规,如没有源系统标志、源头模型缺失、数据项缺失的,可以查看不合规资产清单;查看不合规资产清单及采集视图信息;线上搜索匹配,线下和业务部门、源系统厂家确认,最终线上实现数据资产的整改处理。资产治理运营稽核的差异结果推送资产责任方,并集成到数据目录服务中,给分析使用人员提示和引导数据资产稽核具体举措根据数据质量管理规范,要实现数据湖+数据中台各区数据资产全流程管控,首先要规范管理生产区和原生区数据关联。通过提供新入湖数据通道管理处理能力,并对存量数据资产进行关联治理,实现数据湖生产区和原生区的数据资产关联。运营要求要求安全平台整改不合规的资产,重新发起流程

稽核流程自动化、工单流程驱动自动采集入湖重点数据治理-数据中台减负

资产下线计划资产评价数据湖原生区历史库数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论