企业数字化转型大数据湖一体化平台项目建设方案 两份资料_第1页
企业数字化转型大数据湖一体化平台项目建设方案 两份资料_第2页
企业数字化转型大数据湖一体化平台项目建设方案 两份资料_第3页
企业数字化转型大数据湖一体化平台项目建设方案 两份资料_第4页
企业数字化转型大数据湖一体化平台项目建设方案 两份资料_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

企业数字化转型大数据湖一体化平台项目建设方案PPT整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行2023年目录项目概述1总体规划2建设方案3项目建设背景“4智”应用基础支撑企业集团大数据智能化经营管理智能化业务作业智能化医疗健康行业运营智能化解决数据“汇”、“存”、“管”、“用”、“营”难题

数据湖及应用平台数据管理和业务应用要求数据分散:基础数据分布在各个应用平台中,应用开发商整合能力差;数据管理能力较弱:缺乏统一的数据标准管理、数据质量管理、数据开发管理、数据服务管理、数据安全管理和监控运维管理等;数据利用能力不强:现有数据无法适应新业务需求,同时历史数据无法并入新的系统再利用。集团战略要求集团战略管控数字化;业务运营数字化;产业协同数字化;管理支撑数字化。“十四五“规划愿景响应国家“十四五”规划提出的““加快数字发展,建设数字中国”,推进“三医”联动持续深化改革,以“守护生命与健康”为使命,筹划建设“集团城市健康中心”,打造以传统中医药理论为基础,依托现代科技赋能,基于用户关系经营,通过大数据、实体医疗、网络诊疗平台、药事服务平台和

新零售平台等提供防、养、调全渠道多场景的健康产品、健康内容、健康定制和健康管理服务,打造一站式解决目标用户健康问题的创新型健康服务中台。集团信息化现状分析集团领导市场财务销售运营办公自动化系统三方OMS生产管理系统全渠道数字化平台移动应用门户网站ERP系统人力资源系统业务信息系统集团级集团财务系统业务系统信息化基本形成体系项目管理级公司级1线上线下业务信息化整合工作稳步推进2决策管理和数据分析应用正在迭代完善3集团统一数据管理和应用体系尚未建成4业务运营和管理遇到的问题分析未统一业务口径和数据标准数据质量层次不齐缺乏统一数据管理支撑平台需方多、变化快信息化投入较大,却不能及时有效了解集团整体业务运营情况海量业务报表,却无法对决策管理提供有效支撑无法通过企业关键绩效指导决策大量时间精力投入到数据收集、报表制作中缺乏统一的业务运营口径和指标标准业务的管理口径和财务口径不一致,各部门运营管理信息存在交叉重复对上级部门运营管理汇报要求不够灵活,响应效率低下;对下级单位数据收集不及时、不准确运营管理缺乏综合性系统和完整的数据支撑能力缺少统一的平台满足决策层、管理层和运营层等对数据应用的各种需求运营管理需求反复变更、“多对多”的情况,IT服务部门疲于应付运营管理应用需求类型多、数量多、口径不一和数据质量差等原因,导致开发周期较长,时效性差等问题业务数据来源分散,缺乏整合统一的基础数据,无法有效支撑决策和管理集团高管层(决策层)IT服务支撑层业务运营管理层数据孤岛、数据分散总体建设目标以“守护生命与健康”为使命,推动企业数字化转型,建立集团数据湖及应用平台,全面提升集团智慧化经营决策管理能力。借助5G、云计算、大数据、物联网和人工智能等技术,重点解决战略闭环、业务运营、管理支撑等业务系统间数据不通和数据孤岛等问题,破解数据“汇”、“存”、“管”、“用”、“营”等难题。通过建立集团统一的数据湖及应用平台,提供数据汇聚、存储、治理、分析、服务、共享、应用和运营能力,夯实企业大数据智能化、经营管理智能化、业务作业智能化、医疗健康行业运营智能化的“4智”应用基础支撑能力,构建跨业务、跨部门和跨层级的融合应用场景,形成企业“数智化”运行的智能中枢,实现经营状态的实时监测,经营数据的辅助决策、指标的智能预警预测,关键问题的智慧决策,打造集团运行管理闭环与智慧化决策能力

。整理制作郎丰利1519.总体建设目标数据汇聚能力数据存储能力数据治理能力数据分析能力数据服务能力数据应用能力数据运营能力离线数据采集实时数据采集结构化数据采集非结构化数据采集视频数据采集物联网数据采集互联网数据采集手工数据补录采集…数据库数据存储文件数据存储图片数据存储声音数据存储视频数据存储关系图谱数据存储时序数据存储…数据架构管理数据标准管理数据建模管理数据开发管理数据调度管理数据质量管理元数据管理数据安全管理数据生命周期管理…统计分析灵活查询多维分析数据挖掘人工智能标签管理指标管理知识图谱数据可视化…数据需求管理资源目录管理数据服务接口管理数据共享交换管理数据报送管理数据开放管理数据服务评价…人员管理用户管理营销管理渠道管理财务管理风控管理工程管理生产管理监管报送…数据运维管理数据产品管理数据资产价值评估数据资产营销推广数据资产合作数据资产价值变现数据运营考核评价…1234567总体架构规划数据架构规划技术架构规划应用体系规划数据治理规划数据共享规划平台工具规划平台建设蓝图规划…建设目标规划数据湖及应用平台框架体系、搭建技术基础平台,实现C端用户数据采集、入湖、治理和共享服务,以及支撑企业务+(私域流量业务)综合分析和智能化应用,总结经验教训,为集团数据湖及应用平台的整体建设奠定基础。目标基础平台搭建数据治理体系建设数据共享服务建设数据分析应用建设框架体系规划大数据平台TBDS安装部署数据治理产品安装部署数据共享交换产品安装部署用户数据采集用户数据建模用户数据开发数据质量检查元数据管理数据标准管理用户需求分析应用设计数据及应用开发数据共享与服务对接共享服务需求分析资源目录梳理共享服务发布共享服务申请用户信息调研共享服务调用12345共享服务授权预期成效:”七步走”解决企业面临的数字化转型发展痛点利用大数据技术建立集团统一的数据湖,实现数据采集、存储、处理、分析和服务的统一管理,提高信息和数据的响应时间,提高经营管理工作效率,有利于压缩开支,降低管理成本,推进数字化转型发展。03020406070503信息烟囱

数据分散

利益割据

数据保密不全面

数据标准

不统一

管理机制不成体系

安全保障

不健全

数字化转型面临的痛点”七步走”解决问题1设立专管机构,完善管理体系2整合数据孤岛,统一数据标准3构建数据采集体系,打通数据整合通道4设计数据存储策略,提升数据存储效率5初步构建数据治理体系6制定数据共享服务策略,促进数据融合安全发展7奠定数据应用基础,打造大数据综合应用能力目录项目概述1总体规划2建设方案3建设总体思路搭建技术基础平台,探索平台应用能力第一阶段夯实数据基础,推进服务与应用建设第二阶段完善应用体系,提升平台智慧能力第三阶段建立数据运营体系,持续优化平台能力第四阶段数据湖及应用平台建设规划数据采集技术平台搭建数据存储技术平台搭建数据处理技术平台搭建数据调度技术平台搭建数据治理技术平台搭建数据共享技术平台搭建试点数据域(用户)采集、存储、治理、分析和共享实施…集团与事业部应用建设全面支撑(人员管理、用户管理营销管理、渠道管理、财务管理、工程管理、合同管理、生产管理、风控管理、应急指挥、监管报送…)基础分析能力完善(指标、标签、知识图谱)综合分析应用增强态势感知能力建设实时分析应用场景体系建设算法模型体系建设AI服务体系化建设区块链技术场景应用…数据资产运营规划数据产品体系建设数据产品价值评估体系建设数据价值变现体系建设数据运营安全体系建设数据采集能力迭代升级数据治理能力迭代升级数据分析能力迭代升级数据应用能力迭代升级数据共享服务能力迭代升级算法模型中心健全AI服务能力迭代升级场景应用持续推进数据运营考核体系建设…数据治理体系咨询规划技术平台能力增强集团与四大事业部数据入湖全域数据采集、存储、治理、分析和共享体系建设数据治理体系建设AI平台搭建与应用探索基础分析能力建设(指标、标签、知识图谱)综合分析应用建设实时分析与应用场景探索重点应用建设支持…数据湖及应用平台总体架构(构建六个平台、四个中心、三个保障体系,一个统一门户)运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换离线数据同步实时数据同步数据补录共享监测共享审计权鉴发布订阅认证注册数据源业务系统互联网数据外部数据物联网数据HR系统OAERP主数据渠道系统三方OMS财务系统……Hadoop关系数据库MPP内存数据库图数据库对象数据库时序数据库爬虫离线数据处理实时数据处理非结构化数据转化数据统一调度数据分析平台统计分析多维分析即席查询机器学习…数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务数据产品服务知识图谱服务…可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务库表共享服务接口共享服务共享服务引擎共享服务管理共享服务保障文本识别影像识别语义解析图像识别语音识别…数据服务中心数据需求管理应用集成运营可视化数据资源目录管理租户管理…统一用户/权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价12345678实时分析9101112业务赋能管理驾驶舱客户营销资金管理财务分析产能预测风险审计用户分析…绩效考核监管报送13平台管理实时数据区汇聚区临时库ODS库基础区主题区分析区应用集市区实时数据存储实时分析处理实时指标计算当事人财务…用户管理营销管理…指标库标签库…经营分析用户画像…数据湖及应用平台分阶段规划运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换离线数据同步实时数据同步数据补录共享监测共享审计权鉴发布订阅认证注册数据源业务系统互联网数据外部数据物联网数据HR系统OAERP主数据渠道系统三方OMS财务系统……Hadoop关系数据库MPP内存数据库图数据库对象数据库时序数据库爬虫离线数据处理实时数据处理非结构化数据转化数据统一调度数据分析平台统计分析多维分析即席查询机器学习…数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务数据产品服务知识图谱服务…可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务库表共享服务接口共享服务共享服务引擎共享服务管理共享服务保障文本识别影像识别语义解析图像识别语音识别…数据服务中心数据需求管理应用集成运营可视化数据资源目录管理租户管理…统一用户/权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价12345678实时分析9101112业务赋能管理驾驶舱客户营销资金管理财务分析产能预测风险审计用户分析…绩效考核监管报送13平台管理实时数据区汇聚区临时库ODS库基础区主题区分析区应用集市区实时数据存储实时分析处理实时指标计算当事人财务…用户管理营销管理…指标库标签库…经营分析用户画像…二阶段:夯实三阶段:完善一阶段:打基础四阶段:运营事业部数据资源池集团数据资源池实时区实时数据存储实时分析处理实时指标计算汇聚区临时库ODS库集团数据健康数据药品数据中药数据省医药数据…基础区当事人机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目…主题区用户管理营销管理运营管理风险管理财务管理…集市区经营分析用户画像风险审计监管报送产能预警财务分析事业部应用…分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库ODS库事业部基础区事业部主题区事业部分析区事业部应用集市区123456123456数据湖及应用平台数据架构(统一标准,构建集团和四大事业部数据湖的六大数据区)(1)数据源(2)采集(3)汇聚(6)共享服务(4)治理(5)分析(7)数据应用标签服务API实时服务API数据库共享文件共享数据共享服务API共享离线采集实时采集消息CDCAPI...文件数据库接口补录填报...实时数据源物联感知数据实时营销数据…物流数据离线数据源业务系统HR系统OAERP主数据渠道系统三方OMS财务系统…外部数据互联网数据数据来源数据采集平台指标服务API关系图谱服务API数据检索服务API数据安全服务API…数据应用管理驾驶舱客户营销资金管理财务分析产能预测风险审计指挥调度…绩效考核监管报送用户分析集团数据湖与事业部四大数据湖之间定位及关系探讨事业部数据资源池集团数据资源池实时区实时数据存储实时分析处理实时指标计算汇聚区临时库ODS库集团数据健康数据药品数据中药数据省医药数据…基础区当事人机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目…主题区用户管理营销管理运营管理风险管理财务管理…集市区经营分析用户画像风险审计监管报送产能预警财务分析事业部应用…分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库ODS库事业部基础区事业部主题区事业部分析区事业部应用集市区123456123456方案一:事业部独立建设数据湖,集团汇聚整合建湖方案二:集团统一建湖,事业部数据湖同步和特色发展方案建议:集团领导牵头,统一标准和统一建湖方案描述:事业部根据自身业务特色构建数据湖和数据治理体系,集团数据湖汇聚事业部数据湖数据,设计数据标准,进行数据治理、数据分析和数据共享服务。优点:建设灵活,能快速满足各事业部和集团数据湖的应用需求。缺点:难以统一标准和数据口径,多头数据采集,后期维护工作量较大。方案描述:集团数据湖统一标准和数据治理体系,统一汇聚、治理、分析和数据共享服务;集团数据湖根据事业部数据需求统一分发数据,事业部同步数据和,并根据自身特色构建数据湖及应用。优点:集团与事业部数据标准统一,后期管理协调难度较少。缺点:前期统一难度较高,事业部建设灵活度不高。先进经验:目前信息化领先行业和企业的数据平台能力建设,大部分采用集团统一标准、统一建设、统一管理和统一运营。方案建议:目前集团和事业部业务系统已较为完备,数据湖建设处于起步阶段,为集团统一标准和建湖奠定了基础。目录项目概述1总体规划2建设方案3建设范围数据湖平台框架体系规划、技术基础平台搭建,集团C端用户数据采集、入湖、治理、共享服务和用户分析应用总体架构规划数据架构规划技术架构规划应用体系规划数据治理规划数据共享规划平台工具规划平台建设蓝图规划…1.数据湖平台框架体系规划3.数据汇聚4.数据资源中心建设5.数据治理6.数据分析2.平台搭建7.数据共享服务TBDS基础平台搭数据治理平台搭建数据共享服务平台搭建健康事业部用户数据汇聚省医药公司用户数据汇聚药品事业部用户数据汇聚云健康事业部用户数据汇聚信息调研基础区数据模型设计主题区数据模型设计应用数据集市模型设计数据清洗、转换和汇总数据标准管理元数据管理数据质量管理C端用户分析需求调研C端用户数据分析设计C源用户数据分析开发C端用户数据资源目录梳理C端用户数据共享发布郎丰利整理制作建设总体思路事业部用户数渠道分析用户月活用户日活地域分析时间分析数据入湖及治理数据分析应用数据可视化FineReportFineBI用户信息数据用户标签模型填报数据、参数数据采集数据建模数据清洗数据加载数据整合数据汇总数据源健康事业部省医药公司药品事业部智慧零售达人管理微信公众号后台医疗器械app电商系统数据excelerp孩子王电商saas云健康电商平台用户电商平台用户门店用户数据生意参谋数据共享服务用户资源目录梳理用户数据目录挂接用户数据共享发布逻辑架构:搭建基础平台,以集团C端用户需求为试点打通数据湖链路本期范围运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换离线数据同步实时数据同步数据补录共享监测共享审计权鉴发布订阅认证注册数据源业务系统互联网数据外部数据物联网数据HR系统OAERP主数据渠道系统三方OMS财务系统……Hadoop关系数据库MPP内存数据库图数据库对象数据库时序数据库爬虫离线数据处理实时数据处理非结构化数据转化数据统一调度数据分析平台统计分析多维分析即席查询机器学习…数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务数据产品服务知识图谱服务…可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务库表共享服务接口共享服务共享服务引擎共享服务管理共享服务保障文本识别影像识别语义解析图像识别语音识别…数据服务中心数据需求管理应用集成运营可视化数据资源目录管理租户管理…统一用户/权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价12345678实时分析9101112业务赋能管理驾驶舱客户营销资金管理财务分析产能预测风险审计用户分析…绩效考核监管报送13平台管理实时数据区汇聚区临时库ODS库基础区主题区分析区应用集市区实时数据存储实时分析处理实时指标计算当事人财务…用户管理营销管理…指标库标签库…经营分析用户画像…数据架构事业部数据资源池集团数据资源池实时区实时数据存储实时分析处理实时指标计算汇聚区临时库ODS库集团数据健康数据药品数据中药数据省医药数据…基础区当事人机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目…主题区用户管理营销管理运营管理风险管理财务管理…集市区经营分析用户画像风险审计监管报送产能预警财务分析事业部应用…分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库ODS库事业部基础区事业部主题区事业部分析区事业部应用集市区123456123456(1)数据源(2)采集(3)汇聚(6)共享服务(4)治理(5)分析(7)数据应用标签服务API实时服务API数据库共享文件共享数据共享服务API共享离线采集实时采集消息CDCAPI...文件数据库接口补录填报...实时数据源物联感知数据实时营销数据…物流数据离线数据源数据来源数据采集平台指标服务API关系图谱服务API数据检索服务API数据安全服务API…健康事业部用户数据省医药公司用户数据药品事业部用户数据云健康事业部用户数据数据应用管理驾驶舱客户营销资金管理财务分析产能预测风险审计指挥调度…绩效考核监管报送用户分析本期范围1.数据湖平台框架体系规划行业最佳实践平台提升机会专家知识战略定位应用体系规划规划原则调研问卷调研访谈现状调研评估建议分项规划目标现状期望问题总体评估平台提升建议提升机会分析总体架构规划技术架构规划数据架构规划数据共享服务规划运维体系规划蓝图规划与演进蓝图规划与演进平台工具规划数据治理规划业务与IT部门输入服务提供商输入与分析2、基础技术平台搭建需求沟通1环境准备2平台安装部署3平台部署验证4平台优化完善5TBDS部署需求沟通数据共享交换部署需求沟通数据治理部署需求沟通网络访问需求沟通…服务器确定网络环境确定端口环境确定操作系统确定软件版本确定…操作系统安装部署TBDS安装部署数据共享安装部署数据治理安装部署…平台功能验证平台访问和服务验证平台系统接口验证外部接口验证网络访问验证…平台实施需求支持应用功能优化完善系统运行问题处理…平台搭建流程预期成效用户分析平台搭建完成,操作使用正常具备数据湖实施支撑能力具备完整平台运维文档3、数据采集汇聚

提供异构数据源之间的数据同步能力,实现集团C端用户整库迁移、全量数据汇聚、增量数据汇聚、ETL任务管理和监控运维。数据汇聚架构数据汇聚流程汇聚范围确定1汇聚信息整理2数据汇聚开发3任务调度配置45汇聚业务范围确定汇聚系统范围确定汇聚表范围确定汇聚手工数据范围确定系统信息整理数据字典整理接口信息整理网络信息整理…汇聚调度任务整理汇聚调度任务基础信息配置汇聚调度任务依赖触发配置任务调度测试验证…调度任务监控配置汇聚任务监控预警汇聚监控任务故障处理日常运维巡检…汇聚监控运维用户信息配置数据源配置汇聚区建表配置数据汇聚任务配置与开发数据汇聚任务测试数据汇聚查看和问题处理…预期成效数据汇聚需求数据源汇聚知识库采集汇聚引擎采集汇聚知识库汇聚知识库数据源管理数据采集开发管理数据采集调度管理数据采集监控预警汇聚区数据库文件CDC日志消息接口临时区ODS数据汇聚平台健康事业部省医药公司药品事业部智慧零售达人管理微信公众号后台医疗器械电商系统数据erp孩子王电商平台智云健康电商平台用户电商平台用户门店用户数据生意参谋4、数据体系建设—总体流程信息调研(ID)业务需求分析应用概要设计项目前期准备业务调研(BD)业务需求编写应用开发系统软硬件资源安装系统测试与验收系统管理与维护项目结束回顾业务访谈项目管理(ProjectManagement)应用详细设计前端界面设计逻辑数据模型设计物理数据模型设计数据接口规范设计映射/ETL/实时数据开发应用设计需求分析系统开发系统设计上线与维护数据治理①②③④4、数据资源中心建设—步骤一:信息调研工作内容了解企业的整体IT架构和发展规划了解企业的当前业务系统的现状了解3-5年内业务系统建设的规化了解企业针对信息系统建设标准化的规划详细查看每个实体业务含义和数据特征、并且进行分类和取舍定义详细查看每个字段业务含义和数据物理特征、进行分类和取舍定义掌握针对人员、组织机构、客户、营销、产品、渠道、合同、财务、生产、ERP等定义重要业务编码规则仔细整理业务系统的代码编码、主外键关联关系检查客户提供的重要业务编码规则是否在系统中完整执行检查业务系统的代码的一致性和完整性,并且做出代码映射关系基于实体和字段的物理特征,给出初步的数据质量审核报告基于现有ID情况,结合业务需求调研,进行简要的缺口分析识大局找关系掌握业务系统之间的业务功能划分掌握业务系统之间的数据交换、流向、以及数据衍生关系掌握现有分析系统从业务系统之间进行数据抽取的内容和方式掌握现有分析系统和业务系统以及应用系统的数据回送情况看细节查质量调研流程各个源系统分别进行收集源系统源:系统需求文档、操作手册、表结构说明书、代码值、样本数据、建库脚本了解系统系统架构、功能、业务处理及其它系统间的关系了解系统的数据量、改造计划、软硬件平台了解数据表的业务含义,并初步筛选出关注的表筛选出需求相关的表通过分析样本数据验证前期调研的结果、分析表间关系在复原源系统ER图的过程中了解表之间关系、表与字段的业务含义根据调研结果及入模型策略筛选入仓范围基于信息调研结果编写信息调研报告分系统确认信息调研报告:主要确认如模型范围评审信息调研报告准备访谈分析评审了解源系统的字段的业务含义只调研初步筛选关注的表生产系数据统结构与资料不一致怎么办?源系统设计人员不配合怎么办?入模型范围如何确定?…资料收集资料收集系统与表级调研字段级调研样本数据分析调研报告编写调研报告评审123456持续迭代完善4、数据资源中心建设—步骤二:①数据模型设计方法物理模型(技术)逻辑模型(业务)概念模型参考模型行业数据模型选择:行业主题模型数据主题与主要数据概念客户化逻辑数据模型客户化物理数据模型业务访问数据模型视图集市报表业务需求数据要素清单数据整合映射映射制造业企业行业模型数据湖数据库4、数据资源中心建设—步骤二:②数据区定位与数据模型设计流程数据资源中心各区定位模型设计步骤汇聚数据区源系统分类数据不整合保留长期历史数据保留明细数据全量数据增量数据基础数据区主题分类数据整合保留长期历史数据保留明细数据主题/分析数据区主题分类结合维度建模数据整合保留一定周期的历史数据保留部分明细/汇总加工数据集市区维度建模为主数据整合保留特定业务需求的历史数据保留部分明细/汇总加工数据面向数据面向需求从业务的角度出发满足公共需求迭代开发全部原始数据核心数据、清洗融合后汇总与分析数据特定需求数据(1)前期准备项目管理:文档、沟通、问题跟踪、回顾、验证、测试、认可…方法技术工具模板经验业务知识(2)信息调研(6)物理模型设计(3)构建主题模型(4)构建概念设计(5)逻辑模型详细设计逻辑模型设计(7)设计评审/验证物理模型实现:ETL开发4、数据资源中心建设—步骤二:③基础区数据模型设计行业主题模型设计参考用户模型设计部分参考当事人偏好当事人偏好频率当事人偏好类型当事人偏好联系事件当事人偏好媒介类型当事人偏好当事人当事人偏好当事人角色当事人偏好地点当事人偏好地点角色当事人偏好地址地理区域地址当事人偏好语言当事人基于成熟行业模型蓝本,构建集团C端用户基础数据模型,融合集团和事业部内外部数据、规避变化、形成统一的当事人数据视图。线下活动数据订单编号商品名称订单金额买家ID收货人姓名收货地址联系电话发票抵扣券订单创建时间微信行为数据扫描二维码关注公众号微信ID昵称公众号留言打开微页面注册会员来源渠道关注公众号访问活动微页面提交活动表单姓名手机号邮箱数据采集、数据清洗微信openidEmailMAC华东地区基本信息:男性 30岁微信unionid手机号码CookieQQ用户ID:行为轨迹:会员信息:会员等级 会员积分会员权益电商订单数据用户在不同平台以不同的身份留下行为轨迹。通过建立

ID

关联机制,在基础区进行数据建模和标准化,在不同渠道的身份对应到唯一的独立身份,不断累积用户的行为“像素”。在基础区建模的基础上,根据用户特征形成清晰的用户360画像。4、数据资源中心建设—步骤二:④用户标签数据模型设计线上媒体数据Cookie访问行为记录手机号车型页面停留时间试驾时间姓名城市数据采集、数据清洗数据采集、数据清洗数据采集、数据清洗用户画像主题建模ID识别基础区建模数据标准化【订单】女装

无缝羽绒长大衣

409125金额:1299元收货地址:上海市X区XX大街手机号:138****8271购买时间:2018/01/11

09:21:21沟通时间:2018/01/04

12:18:00所在渠道:小程序商城手机号:138****8271咨询问题:倍舒暖与HEATTECH区别【订单】童装

Ultra

Stretch

起居套装

414607下单时间:2018/01/3120:22:00下单门店:上海淮海中路旗舰店订单金额:129元付款方式:支付宝2017/10/21

19:40:22

关注公众号微信昵称:skyfly001微信OPENID:nsisuykksikqy阅读“U系列2019春夏款Lookbook”点击菜单“会员福利-50元心意券”阅读“2018年代表作”文章点击菜单“年货买买买”点击商城-男装-HEATTECH,访问某倍舒暖商品详情页收藏男装HEATTECH

螺纹圆领T恤

413314浏览新春新品活动页访问时长

00:21:34

跳出电商平台自有平台客服线下门店静态标签流程标签模型标签预测标签性别 地域 年龄职业 婚否 有孩相对稳定的信息、人口学属性、身份属性根据行为与轨迹、自定义规则,自动添加参与X活动浏览X页面报名领取权益线上消费线下消费教育水平依据属性行为、计算得出的客户标签重要价值客户 品类偏好-童装30天活跃度-120分购买力-高利用算法训练模型得到的预测标签预测流失风险-低需求推荐-限时特优-女装复购可能预测-高情感 产品 活动信息 偏好 偏好场景偏好销售 价格终端 体系情感 视觉 促销卖点 系统 活动关键 衍生词 品消费者维度人口 认知信息 信息产品维度基本 功能信息 卖点内容场景地点 社交 文化类型 属性 氛围4、数据资源中心建设—步骤二:⑤用户标签设计源数据标签构建标签体系ETL知识库ETL调度管理ETL任务管理日志管理负载管理ETL监控4、数据资源中心建设—步骤三:数据开发体系框架追加清洗、转换和标准化汇总加载基础数据区临时区应用数据集市区实时数据区数据汇聚平台主题区ODS库汇总提炼加工任务文件加载任务应用数据加工任务实时数据处理文件检查任务数据汇聚加工任务数据清洗转换任务数据质量检查任务数据抽取加载任务数据治理任务数据处理任务抽取加载任务数据质量管理业务检核任务文件监听抽取触发定时元数据管理库实时数据采集数据库主动采集数据文件采集消息、接口追加清洗、转换和标准化分析区提炼提炼提炼ETL开发管理ETL任务管理数据汇聚平台元数据加载任务4、数据资源中心建设—步骤三:数据开发流程与支撑工具数据开发准备1建库建表2数据映射3ETL配置开发45建库建表环境准备开发系统准备配置文件准备信息调研结果数据模型成果..创建数据库创建数据库用户创建数据表数据库表赋权…单元测试模板准备单元测试执行单元测试报告…单元测试6ETL调度配置7系统集成测试表映射字段映射代码映射关联过滤条件映射…数据开发参数配置数据映射导入数据开发配置公共代码配置脚本编写调试…调度任务整理调度任务基础信息配置调度任务依赖触发配置调度任务测试验证…集成测试模板准备集成测试执行集成测试报告…数据开发流程数据开发工具支撑4、数据资源中心建设—步骤四:数据统一调度管理邮件短信外部管理应用ETLAutomationRepositoryETL调度平台管理与控制模块知识库模块Master模块消息接口功能接口Agent模块实时监控系统管理统计分析控制台系统插件文件监控定时任务BTEAgent1Agent2AgentnPrimaryStandby一站式开发平台数据治理平台其他工具调度程序生成器历史明细引擎元数据数据质量数据标准数据生命周期批量接口直连接口Cube构建引擎数据加载数据同步数据卸载质量检查清洗融合分析汇总数据挖掘机器学习触发5、数据治理建设:数据标准管理数据标准设计流程1.标准框架数据主题设计范围优先策略工作重点配合支持……2.现状调研现有定义使用习惯问题梳理现状分析参考文档……3.标准设计信息大类信息小类信息项数据类型重要规则……4.标准映射系统范围应用领域数据表数据字段数据取值……5.标准执行影响分析范围/顺序系统改造新建系统手工补录……6.维护反馈标准发布管理机制工作流程维护增强配套工具……标准范围含哪些?目前的状况如何?标准应该什么样?这些内容都在哪儿?标准应该如何执行?如何维护理标准?数据标准工具支撑基础标准管理:为实体及属性设置标准统计标准管理:为统计指标设置标准机构清单管理:为层级化实体设置标准公共代码管理:引入国家、行业或企业自定义的代码标准业务术语管理:为元数据业务口径配置业务术语命名规范管理:为系统各类标识符设立统一标准标准内容管理标准审核浏览:查看目前已发布的各类标准详情标准审核审批:审核新创建的标准并发布标准评分评分体系库管理:设置元数据标准评分计算要素权重标准评分管理:管理各级元数据的标准评分132标准审核管理5、数据治理建设:元数据管理元数据管理流程元数据管理工具支撑元数据采集可以对技术元数据进行细粒度到字段级别的全链分析,影响分析和血缘分析元数据使用包括技术元数据和业务元数据使用142血缘&影响分析支持上10种异构元数据采集,采集配置、采集任务的管理和采集任务配置元数据地图35知识中心按照数据资产的层级分类,以3D形式展示各个层级数据资产的汇总情况支持文档上传、下载、在线预览元数据采集1血缘影响分析2元数据利用3元数据运营维护4数据源配置元数据采集任务配置数据库元数据采集文件元数据采集接口元数据采集脚本元数据采集ETL调度元数据采集…元数据检索系统、表与字段血缘关系分析系统、表与字段影响分析关系分析业务元数据分析…元数据采集监控预警元数据采集问题处理系统日常运维监控…数据资产展示数据字典管理数据对标业务指标管理数据质量检查系统故障排查变更影响评估…5、数据治理建设:数据质量管理数据质量管理流程数据质量管理工具支撑数据质量检查规则管理包括检查模板(质量检查SQL脚本)的新建、编辑及删除等工单管理包括工单流程的新建、浏览及审批132检查模板管理数据质量库2.配置质量检查规则3.部署检查脚本4.数据质量报告1.收集数据质量管理需求元数据资料库基于元数据配置数据质量规则增加数据质量规则集5.质量问题工单跟踪处理抽取数据源数据源基础区主题区传输汇聚区转换加载汇总抽取ETL处理流程数据质量检查数据集市分析区数据质量管理7.质量考核评价6.处理结果查询提供检查规则的创建、编辑、删除、启用及停用等功能数据质量探查45质量评分管理一是自动探查,根据系统内置好的探查模板自动对数据进行预设好的分析检查;二是手动探查,自定义方式设置探查模板,再根据探查模板对数据进行分析检查包括评分体系库管理(为元数据质量评分设置评分标准)和质量评分管理(管理各级元数据系统的质量评分)6、数据分析试点应用(运用BI工具对集团C端用户综合分析)用户地域分布产品地域销量门店地域分布用户数量统计用户增长分析日活用户分析用户年龄分布用户评价分析地域用户消费分析提升效率提升用户量辅助领导决策助力产品销量提升大屏PC端移动端7、数据服务试点应用:基于供需对接建立数据服务共享体系目录清单有什么?在哪里?谁负责?数据资源中心1、目录问题域2、目录分类部门目录主题目录基础目录业务目录数据目录管理目录上级目录本级目录下级目录资源属性功能分类层级属性3、目录建立4、数据挂接提供方主动编目A管理方编目B供需对接推动编目C提供方主动挂接A供需对接推动挂接C需求清单需求方资源信息数据项信息需求说明管理方审批/分发责任清单资源信息共享内容共享条件结束目录清单:确保数据的系统性需求清单:确保数据的针对性责任清单:压实数据采集责任提供方以信息化手段推动数据共享服务,建立能按需共享的业务模式,解决各部门数据共享和应用难题。管理方挂接B提供方7、数据共享服务试点应用:基于C端用户建立数据共享服务流程数据资源目录梳理1共享资源发布2共享资源申请3共享资源审核授权45汇聚区资源目录梳理基础区资源目录梳理主题区资源目录梳理数据集市区资源目录梳理..共享服务目录创建共享数据源配置共享数据接入共享数据资源配置与更新共享服务测试共享服务发布…数据共享资源检索数据共享服务调用数据共享服务调用问题反馈…共享服务调用6共享服务管理与运维共享服务系统管理共享服务权限管理共享服务日志管理共享服务监控预警共享服务故障处理共享服务统计分析…数据共享资源检索数据共享资源申请数据共享资源数量申请数据共享资源问题反馈…数据共享资源使用审核数据共享资源数量审核数据共享资源跨部门授权数据共享资源部门内授权…数据共享服务流程数据共享服务工具支撑谢谢聆听企业数字化转型大数据湖一体化运营管理平台建设方案整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行2023年目录背景:大数据湖的发展背景与建设理念1生态圈:探索新兴业务入湖建设模式3共享:大数据湖统一访问共享规划4运营:大数据湖一体化运营管理建设5体系:大数据湖体系规划与建设思路2整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行数据架构与承载体系的演变过程完整性、一致性、交互稳定性,并发性,异常可恢复性数据库时代关系型数据库解决了信息时代的数据资源存储和管理,实现了电子化的文件柜采用数据模型表示数据结构,冗余小面向事务管理,具有ACID特性数据统一管理和控制,易维护和扩充程序与数据独立,具有良好用户接口1数据仓库时代DW研究和解决了从数据库中获取信息的问题,通过OLAP、数据挖掘等帮助企业决策分析,构建商业智能(BI)面向主题的,关注用户重点业务集成的,跨越历史、区域、系统…稳定的,具有只读性质,以查询为主以时间序列存储,非规范化管理2大数据平台时代面对大数据5V特点,采用分布式、并行化的存储和计算架构,提升数据处理能力对象:PB级,80%以上非结构化数据技术:分布式架构、云计算、虚拟化等CAP原理:CAPBASE目标:线性扩展、弹性计算、实时响应、动态调节31970’s1990’sBillInmon提出DW概念E.F.Codd发明DBMS2000’sGoogle发布三篇论文存储经济性、高性能、高扩展、高并发、灵活模型适配性企业级跨域整合、业务扩展性、架构设计合理性、流程规范性背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放更多企业数据将进入数据湖,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破。随着大数据分析能力的不断提高,人工智能的重要性被逐步提升。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。数据服务数据应用数据分析数据治理数据平台以更加深度的数据开放,跨行业大数据关联。以更多样的应用能力,构建针对性行业解决方案。数据平台存储方式向数据湖模式转变,多数据汇聚。支持结构化,半结构化和非结构化数据多数据入湖。入湖即治理,针对性对数据源系统输入数据制定入湖标准数据驱动治理规范,以数据为核心实时制定治理规范。从深度学习到机器学习,从机器学习到人工智能。基于数据湖的大量的原始数据,深度训练,快速分析智能应用,基于AI与机器学习分析,个性化服务提供。应用快速构建,基于数据湖进行细粒度的收集、探索和分析数据湖数据治理数据分析数据应用数据服务数据驱动规范,入湖标准制定人工智能分析,直引湖中数据大数据发展趋势分析应用更加智能,构建更加快速深度数据开放,针对方案制定数据湖产生背景及概念提出企业现在正处于大数据的“焦虑期”存储成本问题:海量数据需要在多环境、多级下重复存储,存储开销大数据形态问题:应用大多聚焦在经过加工后的再生数据,原始数据无法得到充分利用业务响应问题:必须事先进行充分规划和较长周期加工,欠缺运营所需的灵活性和时效性数据集市数据湖问题?挑战?变革!数据湖一词是2011年由Pentaho首席技术官詹姆斯

迪克森最初提出的,参照“数据集市”得来。较小的数据存储库如同瓶装水,经过过滤包装结构化后以供使用数据来源于不同地方如同湖泊,存储更自然状态下的大量的水预先设定问题使用方式单一集中存储+无限能力用户各取所需把不同结构的数据统一存储,使不同数据有一致的存储方式,在使用时方便连接,真正解决数据集成问题。全部采集(CollectEverything)随处研究(DiveInAnywhere)灵活访问(FlexibleAccess)数据湖的定义与特性存储一切,分析一切,创建所需数据湖(DataLake)核心思想

把你以前在磁带上拥有的东西倒入到数据湖,然后开始探索该数据。重要的

只把需要的数据倒入到Hadoop;如果你想结合来自数据湖的信息和客户关系

管理系统(CRM)里面的信息,我们就进行连接,只有需要时才执行这番数

据结合。整理制作郎丰利1519

数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种

模式和结构形式配置数据,通常是对象块或文件。湖中的数据包括结构化数据

从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非

结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从

而形成一个集中式数据存储容纳所有形式的数据。詹姆斯·迪克森维基百科从对比中理解数据湖概念—优势篇对比项数据仓库数据湖支持数据类型有限的数据类型支持,以结构化为主支持结构化,半结构化和非结构化数据数据采集方式过程开始于业务流程识别,通常由数据管理者和业务负责人基于数据和业务的某种假设在数据湖世界里,没有关于已经取得的数据假设。一旦数据发生,即开始在细粒度级别收集数据。业务流程发现基于数据与输入数据数据处理能力写入模式,建立模型对数据进行某类格式和结构的处理,为了减少数据的复杂性,比较难于实现上卷(Rollup)和钻取(Drilldown)分析,该设计可能需要妥协一定粒度的数据读取模式,接受原始形式的数据,在数据细粒度级别收集、探索和分析非常简单架构重建能力数据库架构演变需要谨慎,过程耗时,成本较高,影响较大,需要对原有数据进行重构不存在结构问题,支持复杂数据类型,便于重置数据模型、查询和应用,并具有简单的重建关系的能力动态性敏捷性差,采用静态固定配置,基于业务流程驱动而设计系统高度敏捷,动态灵活配置,基于数据的业务流程定义扩展性提供预定义的业务需求点燃创新和新的商业机会从对比中理解数据湖概念—劣势篇对比项数据仓库数据湖数据规划体系具有周密的数据发现、采集、探索和转换的数据计划,易于突显数据价值不太重视事先的数据规划,允许存储任何数据,难以抓取数据价值数据利用效率数据利用率高,按数据优先级和数据可用性的大小进行组织,可以快速定位所需数据数据利用率低,缺少数据优先级排序,需要花费大量时间查找和分析前的准备数据需求响应能力具有较高的需求响应能力,可以保证平稳高效的数据访问数据响应延迟较高,整个分析过程容易中断复杂性和难度较低,建设规模与成本可控很高,建设难度与规模呈线性增长趋势,隐性成本较高逻辑可解释性数据组织逻辑性强,数据关系可解释性较高欠缺语义一致性和严格的元数据,数据关系较为松散,难以解释安全性多年发展历程,保护数据的能力比较成熟比较新的技术,需要持续完善适用对象企业的业务行家和专业人员,技术门槛低面向熟练用户、科学领域的数据科学家,技术门槛高潜在风险数据湖数据沼泽数据湖是大数据概念的延伸多样化的数据存储高效的数据处理存储全部数据处理任何数据访问任何数据数据能力要求支持所有用户更容易适应变化更快的洞悉能力IT能力要求数据湖的能力视图数据湖并非是个全新概念“数据湖”是关于企业应用大数据的概念,是面向企业的最佳的大数据的解决方案“数据湖”不仅是数据存储和处理的单元,也是释放数据价值的过程企业大数据应用成功的关键并不是存储所有的数据,而是要创建一个更有意义的“数据湖”,帮助企业加速提取高价值数据的速度数据湖是大数据发展方向上的高级阶段,是一种建设理念,而不是一种特定的实施方法“数据湖”是个架构概念,是数据仓库的一种演进,是一种大数据概念下的延伸数据湖概念上的甄别1、用于安置企业所有数据的一个数据仓库或数据集市2、替代运营数据存储(ODS)3、高性能的生产环境4、生产型报表的应用程序5、一个专门建立的系统来解决一个特定的问题(尽管专门建立的数据集市可以从数据湖中提供)1、用户可以访问大量原始数据的环境2、一个开发和验证分析模型的环境,然后将其转化为生产3、用于探索数据以获得洞察力的分析沙箱4、企业级目录,可帮助用户查找数据并将业务术语与技术元数据链接起来5、一个支持重用数据转换和查询的环境数据湖是……数据湖不是……数据湖体系的架构规划Hadoop不一定是数据湖的组成部分,只是它是目前最理想的选择!数据湖的逻辑架构数据湖的数据架构持久层(PersitentLayer):存放所有从和外部获取的结构化、半结构化和非结构化数据分析沙箱(AnalyticsSandbox):数据科学家和分析师被授予持久层的访问权限并使用进行数据研究和实验探索数据源(Curated):数据分析师会将有商业价值的数据进行处理并创建新的数据源以提供给业务分析师可操作层(Operationallayer):业务分析师继续精炼已处理过的数据,和数据管理团队一起将这些数据转换为更为容易操作和使用的数据,存放之以便得到更广泛的使用数据湖建设的四个阶段整合数据湖基础设施可扩展的数据处理和摄入数据目录管理趋于完善EDW与DataLake协作对外生产价值输送能力数据服务和运营管理能力端到端的业务支撑能力稳定的成熟度服务架构灵活完善的企业运营模式分析能力增强优化探索环境丰富价值发现模型价值挖掘阶段基础架构阶段成熟运营阶段协作交互阶段01020304大多数企业处于前三个阶段的建设和完善过程中……建设难点与风险数据湖关键点数据湖体系的建设要点与风险分析灵活自动化的采集与存储组织和编目数据管理统一的透明访问方式数据质量和可靠性无感知的分布式架构(存储、计算、网络)企业全局数据的掌握与预测统一元数据规范和管控能力业务关联场景的数据理解系统化的质量管控体系分布技术的规划和扩展能力参考:来自实践中数据湖建设内容目录背景:大数据湖的发展背景与建设理念1生态圈:探索新兴业务入湖建设模式3共享:大数据湖统一访问共享规划4运营:大数据湖一体化运营管理建设5体系:大数据湖体系规划与建设思路2生产型系统分析型系统数据接入数据存储生产数据(1+N)操作/临时存储原生数据(1+N)就近/分域存储应用数据(N)分区建设应用计算处理整合数据(1)全网/分层支撑协同计算引擎实时检索和流处理引擎结构化数据(数据库/格式文件等)半结构化数据(XML/TXT等)非结构化数据(语音、视频等)统一索引层计算侧cache生产系统驻留统一接入配置生态圈系统PB级存储OracleMySqlHDFSHbaseGreenplumTXTTB级计算访问共享API数据沙箱访问接口(JDBC、ODBC)同源异构访问挖掘工具交互分析OLAP应用构建工具生产直采前置采集存储计算加速离线批处理引擎交互式查询引擎计算资源调度IOT接入BSSOSSMSS网络/平台生态圈同步镜像运营管控采集接入规范源数据提供规范数据分类规范数据模型规范元字典规范资源申请规范计算调度规范访问接入规范数据共享标准生产模型规范数据湖统一目录<统一服务数据集>逻辑化视图缓存加速统一数据服务代理(DataBroker)统一数据接入跨架构数据联邦存储规范数据安全规范角色权限规范运营管理规范资源池化

弹性伸缩自动调度

按需使用应用专区省分专区生态圈专区…源端系统可视化定义

即配即用透明化部署

实时接入调度平台工具外部系统互联网合作伙伴大吞吐管道服务对象外部系统互联网网络爬虫主数据(1)全网统一大数据湖体系规划大数据湖存储能力规划——统一标准/分区存储制定全集团统一数据标准,采取分域分类的数据入湖策略,构建生产、原生、整合/应用、专区等分区数据存储及计算能力,实现数据原生入湖、按需使用的宗旨,为全国1+31省提供应用数据服务能力,注智生产激发生产力。数据存储数据接入数据访问运营管理数据计算计算资源管理资源池化,弹性技术自动调度,按需使用实时流式离线批量内存计算及缓存机器学习交互式查询协同计算非结构化计算存储资源管理结构化数据半结构化数据(日志/XML文件等)非结构化数据(文件/图片/音频/视频等)省份专区生态圈专区内蒙生产数据区原生数据区整合数据区实体关联视图主数据区省份B/O侧生产系统集团横向系统生态圈生产系统网络/平台生产系统(前置预处理)编码统一转换实体对齐客户产品渠道营销资源服务自然人贵州河北辽宁宁夏…互联网金融智能连接智慧家庭物联网新兴ICT人员组织资源产品客户…BSS原生数据OSS原生数据MSS原生数据网络/平台数据集团横向数据生态圈-ICT生态圈-金融…存储分区原则:生产数据区:遵循电信集团数据建模标准及主数据规范要求;规范层面属于大数据湖范畴,物理资源层面可采用湖资源也可自建;原生数据区:分域分类存储生产数据;将非标准数据做标准化转化;整合数据区:采用大数据挖掘等技术进行实体归集补全;构建实体关联视图;主数据区:存储企业级全网主数据,大数据主数据唯一提供者;应用专区:本着数据不出湖,充分挖掘数据价值原则,为使用者提供基于自有、原生、整合数据的处理空间,面向应用开展数据处理工作;郎丰利整理制作大数据湖原生数据区规划——原生入湖/分类存储/按需使用以原生入湖分类存储按需使用为宗旨,分域分类存储按周期存储原生数据,为云公司、集团ODS、省份大数据平台提供原生数据共享服务,为湖内整合数据区、应用数据区提供原生数据服务。原生数据区生态圈数据网络/平台数据集团横向数据BSS数据OSS数据MSS数据EDA数据共享服务数据生产系统BSS系统OSS系统MSS系统EDA系统集团横向系统生态圈系统…网络/平台系统原生入湖预处理入湖数据共享原生数据专区共享原生数据整合共享数据整合区数据专区实体关联视图共享互联网金融智能连接智慧家庭物联网新兴ICT应用枝繁叶茂类翼支付甜橙欺诈盾IWIFI统一账号NFC产品4G-QoS云堤流量控海洋卫星宽带天翼网关智能组网视频通话聚精彩车管专家乐驾天翼云盘企业云189邮箱翼校通翼机通+天翼对讲旺铺助手外勤助手号簿助手手机看店爱音乐天翼视讯天翼阅读爱游戏爱动漫天翼空间易信新视通4G家庭云安全办公专属云加密通道影像云21CN地产大数据语音云旅游大数据移动感知DPI4G分组域话单固网DPI日志留存DPIOIDDMR/CDRPM/CM智能网管电渠悦ME商机行业短信ODMS量化微信易信号百4G数据集约积分政企KPI渠道终端…CRM计费客户服务PPMVSOP…综合资源采购辅助财务辅助工程辅助ERP人力久其装维EDA直采省+集团电渠服务量省份专区生态圈专区…实体关联视图编码标准化实体对齐移动/固网DPIOIDDMR/CDRCM/CP计费详单HANA数据ODMS翼支付集约积分…主数据区大数据湖整合数据区规划——构建企业级核心实体关联视图保存原子性:整合数据区数据不做聚合操作,保持数据原子性,不影响专区应用指标加工处理;实体补齐性:对核心实体根据不同原生数据进行属性补齐;实体关联性:面向实体全业务流程数据,整合各域数据实现实体跨域关联视图;共享一致性:按照湖应用的使用需求进行共性提炼,实现统一的公共宽表建设;整合数据区完成数据清洗、编码转换、实体对齐及构建企业级核心实体关联视图,为应用专区提供整合数据服务。整合数据区保持数据原子性粒度,不对数据做聚合处理,不影响业务专区业务指标加工处理。实体对齐实体关联视图参与营销活动产品订购资源配给上门服务用户投诉修障维护用户使用存量经营用户出账产品实体跨域关联视图构建BSS数据客户信息订购信息OSS数据MSS数据网络/平台装维信息开通信息佣金结算成本信息用户投诉率行为数据质量数据消费信息服务信息资源数据报障数据财务收入补贴数据客户产品渠道营销资源服务合作伙伴核心实体自然人…CP/SP订购位置信息自然人员工组织地域政企客户合作伙伴数据清洗外部数据管理规则管理实体沉淀聚合管理冲突管理大数据湖应用数据专区规划——面向应用的自建自维数据专区独立性:保证资源独立性、数据独立性、应用独立性;可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;易用性:提供丰富的可视化开发及专区运营工具;可管理性:大数据湖对专区具备监控、审计能力;数据服务性:专区数据可以数据形式服务,也可开发应用直接链接调用;大数据湖为业务应用场景提供具有数据存储、数据计算、数据服务及数据应用访问能力的应用专区,用户可自行获取数据,面向特定应用场景完成数据加工处理;大数据湖提供专区申请及监控管理,以保证专区健康、有价运营。数据接入源端生产系统/数据仓库省份专区应用生态圈专区应用其它专区应用应用数据专区专区管理整合数据区主数据区省份专区-内蒙自有数据原生数据整合区数据应用数据专区申请专区审批专区划分专区变更专区回收运营监控资源利用率数据处理规范性使用频度应用成果评估安全性监控省份专区-…生态圈专区-…原生数据区实时采集批量采集消息采集共享访问大数据湖主数据区规划——企业级核心/统一运营保障主数据区负责存储全域主数据,并确保与主数据生产者保持同步,为大数据湖各区提供唯一主数据源,以保证湖中企业级核心实体数据的一致性和完整性,提升大数据湖运营效率及效果。统一主数据标准:面向全国各域各生产系统提供主数据标准;统一主数据存储:面向大数据湖提供统一主数据存储能力;统一主数据整合:清洗整合各域主数据,形成统一、标准、唯一主数据;统一主数据服务:为大数据湖中各区提供主数据服务;数据接入生产数据入湖主数据区主数据管理主数据整合主数据目录主数据共享主数据评估客户产品渠道订单主数据组织…数据专区集团横向生产系统省份BMO生产系统网络/平台系统生态圈生产系统其他系统整合数据区原生数据区原生数据服务专区主数据入湖主数据主数据整合数据原生数据省份专区生态圈专区内蒙贵州河北辽宁宁夏…金融智能连接智慧家庭物联网新兴ICT目录背景:大数据湖的发展背景与建设理念1生态圈:探索新兴业务入湖建设模式3共享:大数据湖统一访问共享规划4运营:大数据湖一体化运营管理建设5体系:大数据湖体系规划与建设思路2已建新建生态圈系统大数据湖数据接入智能连接智慧家庭互联网金融新兴ICT物联网生产系统驻留生产直采前置采集IOT接入同步镜像iWIFI海洋宽带天翼高清天翼网关智能组网翼支付甜橙欺诈盾天翼云盘189邮箱家庭云地产大数据物联网卡车管专家数据湖采集一站式配置采集源连接/采集方式(FTP/API/流式/…)采集类型(全量/增量)/采集计划/采集存储数据存储生产副本(已建)生产正本(新建)原生数据智能连接智慧家庭互联网金融物联网新兴ICT整合数据统一账号客户特征行为轨迹应用数据地产大数据专区车管专家营销云盘客户洞察金融欺诈分析专区家庭圈画像计算处理实时流处理引擎StromSparkstreaming离线批处理引擎HiveMPP机器学习引擎R图数据库协同计算引擎DataBroker内存计算引擎Redis计算资源按需动态调配计算需求分类/资源队列管控/租户任务管理

计算规模/优先级别/时间窗规划访问共享智慧家庭新兴ICT智能连接IPTV用户流量轨迹客户感知数据互联网金融翼支付合作商户客户金融特征支付风险识别物联网终端设备列表客户故障记录生态圈统一共享目录生态圈客户数据/特征画像数据/客户感知数据/…

生态圈原生数据/主数据/整合数据/专区数据生态运营协同生态资源互换生态精准营销生态创新发现生态圈应用APIJDBCODBC沙箱共性基础数据专业应用数据基于大数据湖的生态圈建设模式生态圈入湖指导原则核心生态圈数据量庞大、繁杂,同时入库对计算资源、并行处理能力、运营效率提出了极大的要求,基于此,应构建科学、完整的入湖流程及标准,保证生态圈数据能够顺利、高效的入湖并发挥效果目标驱动入湖原则贴近实际:充分融合业务需求,遵循业务优先原则计算效率:充分保证数据质量,让计算效率显著提升边际效益:合理控制数据入湖速度、在成本控制的前提下,实现效益最大化生态创新:数据、业务、需求间的融会贯通,实现生态圈的关联及衍生场景业务驱动数据分类了解生态业务关键概念生态核心资料1掌握生态整体经营状况生态经营数据2开展生态业务数字化营销生态营销数据3实现生态管理运营一体化生态管理数据4开拓生态业务智慧创新生态协同数据5价值驱动入湖逻辑维度说明权重系数优先级准确性数据准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论