大数据湖体系规划与建设方案_第1页
大数据湖体系规划与建设方案_第2页
大数据湖体系规划与建设方案_第3页
大数据湖体系规划与建设方案_第4页
大数据湖体系规划与建设方案_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

划与

案目录12345背

景:大数据湖的发展背景与建设理念体

系:大数据湖体系规划与建设思路生态圈:探索新兴业务入湖建设模式共

享:大数据湖统一访问共享规划运

营:大数据湖一体化运营管理建设数据架构与承载体系的演变过程完整性、一致性、交互稳定性,并发性,异常可恢复性企业级跨域整合、业务扩展性、架构设计合理性、流程规范性存储经济性、高性能、高扩展、高并发、灵活模型适配性E.F.Codd发明DBMSBillInmon提出DW概念Google发布三篇论文1970’s1990’s2000’s123数据库时代数据仓库时代大数据平台时代关系型数据库解决了信息时代的数据资源存储和管理,实现了电子化的文件柜DW研究和解决了从数据库中获取信息的问题,通过OLAP、数据挖掘等帮助企业决策分析,构建商业智能(BI)面对大数据5V特点,采用分布式、并行化的存储和计算架构,提升数据处理能力ü

对象:PB级,80%以上非结构化数据ü

技术:分布式架构、云计算、虚拟化等ü

CAP原理:CAP

BASEü

采用数据模型表示数据结构,冗余小ü

面向事务管理,具有ACID特性ü

面向主题的,关注用户重点业务ü

集成的,跨越历史、区域、系统…ü

稳定的,具有只读性质,以查询为主ü

以时间序列存储,非规范化管理ü

数据统一管理和控制,易维护和扩充ü

程序与数据独立,具有良好用户接口ü

目标:线性扩展、弹性计算、实时响应、动态调节背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放u

更多企业数据将进入数据湖,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破。u

随着大数据分析能力的不断提高,人工智能的重要性被逐步提升。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。大数据发展趋势分析数据服务以更加深度的数据开放,跨行业大数据关联。以更多样的应用能力,构建针对性行业解决方案。••数据服务深度数据开放,针对方案制定数据应用••智能应用,基于AI与机器学习分析,个性化服务提供。数据应用应用快速构建,基于数据湖进行细粒度的收集、探索和分析应用更加智能,构建更加快速••从深度学习到机器学习,从机器学习到人工智能。基于数据湖的大量的原始数据,深度训练,快速分析数据分析数据分析人工智能分析,直引湖中数据数据治理入湖即治理,针对性对数据源系统输入数据制定入湖标准数据驱动治理规范,以数据为核心实时制定治理规范。•数据治理•数据驱动规范,入湖标准制定数据平台•••数据平台存储方式向数据湖模式转变,多数据汇聚。数据湖支持结构化,半结构化和非结构化数据多数据入湖。数据湖产生背景及概念提出企业现在正处于大数据的“焦虑期”问题?挑战?

p

存储成本问题:海量数据需要在多环境、多级下重复存储,存储开销大p

数据形态问题:应用大多聚焦在经过加工后的再生数据,原始数据无法得到充分利用变革!p

业务响应问题:必须事先进行充分规划和较长周期加工,欠缺运营所需的灵活性和时效性数据湖一词是2011年由Pentaho首席技术官詹姆斯

迪克森最初提出的,参照“数据集市”得来。ü

较小的数据存储库ü

如同瓶装水,经过过滤包装结构化后以供使用ü

数据来源于不同地方ü

如同湖泊,存储更自然状态下的大量的水n

预先设定问题n

使用方式单一n

集中存储+无限能力n

用户各取所需数据集市数据湖数据湖的定义与特性把你以前在磁带上拥有的东西倒入到数据湖,然后开始探索该数据。重要的只把需要的数据倒入到Hadoop;如果你想结合来自数据湖的信息和客户关系管理系统(CRM)里面的信息,我们就进行连接,只有需要时才执行这番数詹姆斯·迪克森

据结合。数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所有形式的数据。维基百科把不同结构的数据统一存储,使不同数据有一致的存储方式,在使用时方便连接,真正解决数据集成问题。数据湖(DataLake)核心思想n

全部采集(CollectEverything)n

随处研究(DiveInAnywhere)n

灵活访问(FlexibleAccess)存储一切,分析一切,创建所需从对比中理解数据湖概念

优势篇对比项数据仓库数据湖支持数据类型

有限的数据类型支持,以结构化为主支持结构化,半结构化和非结构化数据在数据湖世界里,没有关于已经取得的数据假设。一旦数据发生,即开始在细粒度级别收集数据。业务流程发现基于数据与输入数据过程开始于业务流程识别,通常由数据管理者和业务负责人基数据采集方式于数据和业务的某种假设写入模式,建立模型对数据进行某类格式和结构的处理,为了读取模式,接受原始形式的数据,在数据细粒度级别收集、数据处理能力

减少数据的复杂性,比较难于实现上卷(Rollup)和钻取探索和分析非常简单(Drilldown)分析,该设计可能需要妥协一定粒度的数据数据库架构演变需要谨慎,过程耗时,成本较高,影响较大,不存在结构问题,支持复杂数据类型,便于重置数据模型、查询和应用,并具有简单的重建关系的能力架构重建能力需要对原有数据进行重构动态性扩展性敏捷性差,采用静态固定配置,基于业务流程驱动而设计系统提供预定义的业务需求高度敏捷,动态灵活配置,基于数据的业务流程定义点燃创新和新的商业机会从对比中理解数据湖概念

劣势篇对比项数据仓库数据湖数据规划体系具有周密的数据发现、采集、探索和转换的数据计划,易于突显数据价值

不太重视事先的数据规划,允许存储任何数据,难以抓取数据价值数据利用率高,按数据优先级和数据可用性的大小进行组织,可以快速定

数据利用率低,缺少数据优先级排序,需要花费大量时间查找和分数据利用效率位所需数据析前的准备数据需求响应能力复杂性和难度逻辑可解释性安全性具有较高的需求响应能力,可以保证平稳高效的数据访问较低,建设规模与成本可控数据响应延迟较高,整个分析过程容易中断很高,建设难度与规模呈线性增长趋势,隐性成本较高欠缺语义一致性和严格的元数据,数据关系较为松散,难以解释比较新的技术,需要持续完善数据组织逻辑性强,数据关系可解释性较高多年发展历程,保护数据的能力比较成熟企业的业务行家和专业人员,技术门槛低适用对象面向熟练用户、科学领域的数据科学家,技术门槛高潜在风险数据湖是大数据概念的延伸数据湖的能力视图数据湖并非是个全新概念1.

“数据湖”是关于企业应用大数据的概念,是面向企业的最佳的大数据的解决方案p

多样化的数据存储数据能力要求p

高效的数据处理p

存储全部数据p

处理任何数据p

访问任何数据2.

“数据湖”不仅是数据存储和处理的单元,也是释放数据价值的过程3.

企业大数据应用成功的关键并不是存储所有的数据,而是要创建一个更有意义的“数据湖”,帮助企业加速提取高价值数据的速度4.

数据湖是大数据发展方向上的高级阶段,是一种建设理念,而不是一种特定的实施方法IT能n

支持所有用户力

n

更容易适应变化要求5.

“数据湖”是个架构概念,是数据仓库的一种演进,是一种n

更快的洞悉能力大数据概念下的延伸数据湖概念上的甄别数据湖是……数据湖不是……1、用户可以访问大量原始数据的环境2、一个开发和验证分析模型的环境,然后将其转化为生产1、用于安置企业所有数据的一个数据仓库或数据集市2、替代运营数据存储(ODS)3、高性能的生产环境3、用于探索数据以获得洞察力的分析沙箱4、企业级目录,可帮助用户查找数据并将业务术语与技术元数据链接起来4、生产型报表的应用程序5、一个专门建立的系统来解决一个特定的问题(尽管专门建立的数据集市可以从数据湖中提供)5、一个支持重用数据转换和查询的环境数据湖体系的架构规划数据湖的逻辑架构数据湖的数据架构p

持久层(PersitentLayer):存放所有从内部和外部获取的结构化、半结构化和非结构化数据p

分析沙箱(AnalyticsSandbox):数据科学家和分析师被授予持久层的访问权限并使用进行数据研究和实验p

探索数据源(Curated):数据分析师会将有商业价值的数据进行处理并创建新的数据源以提供给业务分析师p

可操作层(Operationallayer):业务分析师继续精炼已处理过的数据,和数据管理团队一起将这些数据转换为更为容易操作和使用的数据,存放之以便得到更广泛的使用Hadoop不一定是数据湖的组成部分,只是它是目前最理想的选择!数据湖建设的四个阶段p

端到端的业务支撑能力p

稳定的成熟度服务架构p

灵活完善的企业运营模式协作交互阶段p

分析能力增强p

优化探索环境0403p

丰富价值发现模型基础架构阶段p

EDW与DataLake协作02p

对外生产价值输送能力p

数据服务和运营管理能力成熟运营阶段01价值挖掘阶段p

整合数据湖基础设施p

可扩展的数据处理和摄入p

数据目录管理趋于完善大多数企业处于前三个阶段的建设和完善过程中……数据湖体系的建设要点与风险分析数据湖关键点建设难点与风险灵活自动化的采集与存储企业全局数据的掌握与预测组织和编目数据管理统一的透明访问方式数据质量和可靠性统一元数据规范和管控能力业务关联场景的数据理解系统化的质量管控体系无感知的分布式架构(存储、计算、网络)分布技术的规划和扩展能力参考:来自实践中数据湖建设内容业界主流公司的数据湖规划

HortonworksHortonworks公司基于

Hadoop生态构建的数据湖提出的现代化数据架构(MordenDataArchitecture),从南向北包含四个层面:数据采集层(DataAcquisitionLayer)数据采集层负责从数据源抽取和移动数据,并将数据存放到数据湖中。采集的数据源包括传统的关系型或事务型系统、用户获取的数据、非结构化或半结构化数据、外部数据或流数据等。数据监管层(DataCurationLayer)数据监管层负责数据湖中的数据组织、定型并为其他层提供消费,包含数据标准化流程制定,数据创建、脱敏、清洗、转换、维护、管理和展现等工作。数据供应层(DataProvisioningLayer)数据供应层采用更适用于业务报表和分析的传统数据储存方式,使用OLAP、数据仓库和数据集市降低数据消费的复杂度并提供快速的交互式查询和分析。数据消费层(DataConsumptionLayer)数据消费层提供所有最终用户的接口,对于不同用户对数据的需求,大量和多元化的工具和技术会被用于该层。业界主流公司对于数据湖的规划

IBMIBM公司提出的数据湖架构,包括六大关键部件:一.数据湖资源库按照数据特点进行原始格式的分类存储库二.企业IT交互统一提供企业生产侧系统与数据湖资源库的灵活交互,快速配置能力三.原始数据交互为数据价值发现提供安全的资源分析访问接口与试验环境四.目录接口唯一权威的数据湖元数据发布和访问模式五.基于可视化的交互统一可视化的业务应用交互接口和沙箱环境六.信息集成与治理集成的数据湖运营管理工具与环境目录12345背

景:大数据湖的发展背景与建设理念体

系:大数据湖体系规划与建设思路生态圈:探索新兴业务入湖建设模式共

享:大数据湖统一访问共享规划运

营:大数据湖一体化运营管理建设大数据湖体系规划生产型系统交互分析OLAP挖掘工具平台工具内部应用生态圈系统应用构建工具省分专区生态圈专区服务对象应用专区外部系统互联网合作伙伴分析型系统运营管控API数据沙箱访问接口(JDBC、ODBC)跨架构数据联邦访问共享统一数据服务代理(DataBroker)访问接入规范统一数据接入逻辑化视图数据同源异构访问安数据湖统一目录<统一服务数据集>缓存加速数据共享标准全规范存储计算加速计算侧cache实时检索和流处理引擎统一索引层交互式查询引擎计算调度规范资源申请规范计算处理协同计算引擎离线批处理引擎TB级计算计算资源调度自动调度

按需使用资源池化

弹性伸缩角色权限数据分类规范数据模型规范生产数据(1+N)

操作/临时存储原生数据(1+N)

就近/分域存储MySql主数据(1)整合数据(1)

全网/分层支撑应用数据(N)

分区建设规全网统一数据存储范TXTOracleHDFSHbaseGreenplum…元字典规范PB级存储存储规范结构化数据(数据库/格式文件等)半结构化数据(XML/TXT等)非结构化数据(语音、视频等)采集接入规范生产直采前置采集同步镜像统一接入配置网络爬虫IOT接入生产系统驻留数据接入运营管源数据提供规范生产模型规范可视化定义

即配即用透明化部署

实时接入调度理大吞吐管道规范源端系统BSSOSSMSS网络/平台生态圈外部系统互联网大数据湖存储能力规划——统一标准/分区存储制定全集团统一数据标准,采取分域分类的数据入湖策略,构建生产、原生、整合/应用、专区等分区数据存储及计算能力,实现数据原生入湖、按需使用的宗旨,为全国1+31省提供应用数据服务能力,注智生产激发生产力。数据访问存储分区原则:数据计算p

生产数据区:遵循电信集团数据建模标准及主数据规范要求;规范层面属于大数据湖范畴,物理资源层面可采用湖资源也可自建;p

原生数据区:分域分类存储生产数据;将非标准数据做标准化转化;离线批量内存计算及缓存机器学习交互式查询协同计算非结构化计算实时流式资源池化,弹性技术计算资源管理自动调度,按需使用主数据区省份专区生态圈

互联网专区智能连接智慧家庭物联网新兴ICT内蒙贵州

河北辽宁

宁夏…金融人员组织资源运营管理整合数据区:采用大数据挖掘等技术进行实体归集补全;构建实体关联视图;pBSS原

OSS原

MSS原网络/平实体关联视图省份B/O侧生产系统数据存储集团横向系统生数据

生数据

生数据

台数据客户产品渠道营销资源服务自然人集团横

生态圈

生态圈产品客户……向数据

-ICT-金融主数据区:存储企业级全网主数据,大数据主数据唯一提供者;应用专区:本着数据不出湖,充分挖掘数据价值原则,为使用者提供基于自有、原生、整合数据的处理空间,面向应用开展数据处理工作;网络/平台生产系统(前置预处理)p生态圈生产系统实体对齐编码统一转换生产数据区原生数据区整合数据区p存储资源管理数据接入大数据湖原生数据区规划——原生入湖/分类存储/按需使用以原生入湖分类存储按需使用为宗旨,分域分类存储按周期存储原生数据,为云公司、集团ODS、省份大数据平台提供原生数据共享服务,为湖内整合数据区、应用数据区提供原生数据服务。共享服务数据数据专区生产系统移动/固网DPIHANA数OIDDMR/CDRCM/CP

计费详单ODMS翼支付集约积分…据省份专区BSS系统数据共享OSS系统MSS系统EDA系统生态圈专区…原生数据区CRM计费客户服务…采购辅助ERP财务辅助工程辅助久其省+集团电渠服务量BSSMSS数据OSS数据EDA数据综合资源装维EDA直采原生数据专区共享数据

PPMVSOP人力原生入湖主数据区日志留存DPI移动感知实体关联视图共享悦ME行业短

ODMS集团固网DPIOIDD集团横向系统电渠商机

微信易信量号百4G数据终端…DPI网络/平横向数据政企KPIMR/CDR台数据4G分组域话单集约积分渠道PM/CM

智能网管信化数据整合区生态圈系统原生数据整合共享互联网金融智能连接智慧家庭物联网新兴ICT应用翼支付IWIFINFC产品云堤海洋卫星宽带天翼云盘

189邮箱翼机通+

旺铺助手

号簿助手实体关联视图…智能

视频聚车管天翼网关乐驾生态圈数据组网

通话

精彩流量控专家企业云翼校通

天翼对讲

外勤助手

手机看店安全办公

加密通道

21CN

语音云甜橙欺诈盾爱音乐统一账号

4G-QoS新视通4G预处理入湖枝繁叶茂类网络/平台系统地产大数

旅游大数据家庭云专属云影像云天翼视讯天翼阅读爱游戏爱动漫天翼空间易信据实体对齐编码标准化大数据湖整合数据区规划——构建企业级核心实体关联视图整合数据区完成数据清洗、编码转换、实体对齐及构建企业级核心实体关联视图,为应用专区提供整合数据服务。整合数据区保持数据原子性粒度,不对数据做聚合处理,不影响业务专区业务指标加工处理。实体关联视图p

保存原子性:整合数据区数据不做聚合操作,保持数据原子性,不影响专区应用指标加工处理;p

实体补齐性:对核心实体根据不同原生数据进行属性补齐;llCP/SP订购位置信息p

实体关联性:面向实体全业务流程数据,整合各域数据实现实体跨域关联视图;p

共享一致性:按照湖应用的使用需求进行共性提炼,实现统一的公共宽表建设;核心实体自然人…实体对齐数据清洗自然人聚合管理政企客户冲突管理外部数据管理规则管理组织实体沉淀合作伙伴员工地域大数据湖应用数据专区规划——面向应用的自建自维数据专区大数据湖为业务应用场景提供具有数据存储、数据计算、数据服务及数据应用访问能力的应用专区,用户可自行获取数据,面向特定应用场景完成数据加工处理;大数据湖提供专区申请及监控管理,以保证专区健康、有价运营。生态圈专区应用其它专区应用省份专区应用p

独立性:保证资源独立性、数据独立性、应用独立性;p

可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;应用数据专区运营监控应用成果评估资源利用率数据处理规范性使用频度安全性监控专区回收整合数据区原生数据区主数据区专区管理专区划分专区申请自有数据专区审批专区变更p

易用性:提供丰富的可视化开发及专区运营工具;p

可管理性:大数据湖对专区具备监控、审计能力;p

数据服务性:专区数据可以数据形式服务,也可开发应用直接链接调用;省份专区-内蒙应用数据生态圈专区-…省份专区-…整合区数据原生数据实时采集

批量采集

消息采集数据接入源端生产系统/数据仓库共享访问大数据湖主数据区规划

——

企业级核心/统一运营保障主数据区负责存储全域主数据,并确保与主数据生产者保持同步,为大数据湖各区提供唯一主数据源,以保证湖中企业级核心实体数据的一致性和完整性,提升大数据湖运营效率及效果。数据专区p

统一主数据标准:面向全国各域各生产系统提供主数据标准;省份

内专区

蒙贵州河北辽宁宁夏生态圈专区智能连接智慧家庭物联网新兴ICT金融…主数据整合数据p

统一主数据存储:面向大数据湖提供统一主数据存储能力;主数据区原生数据服务专区主数据客户产品渠道订单组织…主数据整合数据区主数据管理p

统一主数据整合:清洗整合各域主数据,形成统一、标准、唯一主数据;p

统一主数据服务:为大数据湖中各区提供主数据服务;主数据整合主数据目录主数据共享主数据评估原生数据主数据入湖原生数据区生产数据入湖数据接入集团横向生产系统省份BMO生产系统网络/平台系统生态圈生产系统其他系统目录12345背

景:大数据湖的发展背景与建设理念体

系:大数据湖体系规划与建设思路生态圈:探索新兴业务入湖建设模式共

享:大数据湖统一访问共享规划运

营:大数据湖一体化运营管理建设基于大数据湖的生态圈建设模式生态圈应用生态运营协同API生态资源互换生态精准营销生态创新发现沙箱JDBCODBC智能连接互联网金融智慧家庭新兴ICTIPTV用户流量轨迹客户感知数据翼支付合作商户

客户金融特征支付风险识别物联网

终端设备列表客户故障记录访问共享生态圈统一共享目录生态圈客户数据/特征画像数据

/

客户感知数据

/…生态圈原生数据/主数据/整合数据/专区数据离线批处理引擎实时流处理引擎机器学习引擎协同计算引擎DataBroker内存计算引擎大数据湖Spark计算处理数据存储HiveMPPStromR图数据库Redisstreaming计算资源按需动态调配计算需求分类

/

资源队列管控

/

租户任务管理计算规模

/

优先级别

/

时间窗规划智能连接智慧家庭统一账号客户特征行为轨迹新兴ICT物联网地产大金融欺诈分析专区车管专家营销云盘客户洞察家庭圈画像生产副本

生产正本(已建)

(新建)原生数据整合数据应用数据数据专区互联网金融共性基础数据专业应用数据天翼高清天翼网关天翼云盘189邮箱家庭云地产大数据生态圈系统iWIFI海洋宽带智能组网翼支付甜橙欺诈盾物联网卡车管专家已建新建生态圈入湖指导原则p

核心生态圈数据量庞大、繁杂,同时入库对计算资源、并行处理能力、运营效率提出了极大的要求,基于此,应构建科学、完整的入湖流程及标准,保证生态圈数据能够顺利、高效的入湖并发挥效果价值驱动入湖逻辑目标驱动入湖原则业务驱动数据分类生态核心资料生态经营数据生态营销数据权重系维度说明优先级数p

贴近实际:充分融合业务需求,遵循业务优先原则准确性

数据准确无误

0.282完整性

数据完整

0.213高中低中高高1

了解生态2掌握生态3

开展生态业p

计算效率:充分保证数据质量,让计算效率显著提升p

边际效益:合理控制数据入湖速度、在成本控制的前提下,实现效益最大化业务关键概念整体经营状况务数字化营销一致性

数据记录规范

0.087及时性

数据获取及时

0.234生态管理数据生态协同数据价值性复用性数据价值关联性0.2350.3474

实现生态管5

开拓生态业p

生态创新:数据、业务、需求间的融会贯通,实现生态圈的关联及衍生场景理运营一体化务智慧创新生态圈入湖建设思路与步骤解决生产经营看数:以生态圈应用和价值提升需求为导向,优先将客户、经营、阶段一阶段二营销、管理、生产方面的核心主数据入湖,满足当前业务发展和管理需求主数据经营数据•

收入数据•

发展数据•

缴费数据•

…..营销数据•

业务订购数据

财务数据•

红包数据•

金融消费数据

资源/库存数据管理数据业态生产数据•

原始数据•

生态协同数据•

业务流程数据•

…..•

客户数据•

产品数据•

账户数据•

….•

成本/补贴数据•

…..•

……开展大数据价值挖掘:将各模块未导入的全量数据入湖,同时丰富生态边际和互联网数据,拓展应用场景,实现大数据精准营销和管理主数据•

渠道数据•

供应商数据

交易类数据•

商客数据•

….经营数据•

活动数据营销数据•

业务感知数据

人力资源数据•

卡券数据•

保险数据•

….管理数据业态生产数据•

互联网数据•

用户行为数据•

活动数据•

….•

运维数据•

网络数据•

….•

….生数据深度拓展:不断丰富和拓展数据湖的数据,包含数据的横向范围和纵向深度p

优p

业补充采集数据•

….缺失的原生态数据•

….其他数据•

….p

先核心后边p

先难后易•….•….•….p

先生态高于业务次高于运营管生态圈入湖建设要求与规范p

生态圈入湖要求ü

立足中国电信企业级视角ü

生产侧与数据侧建设协同•

生产:原生接入保障•

数据:共享服务保障püüüü运营原则前瞻性生态数据运营p

原生数据入湖方案全面性初始化全量上传历史全量同步后续变更采集周期增量采集全量合并整合全量合并整合ü

资料类:ü

交易类:科学性合理性ü

主数据/编码类:实时全量同步p

运营规范要求(联动同步)生产源端规范入湖建设演进ü

业务调整通知:新业务定义,生产约束变更、业务流程变更等ü

数据运营同步:模型结构变更、历史数据调整、口径新增/调整等p

生态入湖步骤p

原生数据规范保障ü

依据数据价值推进生态数据入湖ü

生态圈需求驱动原生数据的入湖ü

业务规范:业务指导、流程、制度等文档ü

主数据:范围、内容及管理规范ü

生产模型建设规范:新增/变更模型遵循大数据湖整体规范要求ü

数据字典:数据模型、编码约束、元数据等ü

数据流图(DFD):生产数据流、加工数据流等ü

指标口径:术语定义、报表指标说明等p

原生入湖演进ü

原则上遵循生态数据原生入湖ü

当原生入湖存在海量采集(性价比低),理解/支撑困难等情况,允许按照如下原则进行非原生数据入湖:①核心和经营入湖:非原生采集,汇入整合层②营销和运营入湖:根据需要采集原生并逐步替换③生态协同入湖:完全实现原生数据入湖p

生态能力入湖规划ü

数据规模:生态全量、核心资料、经营数据等大小ü

更新频率:交易频率、业务变更频率等ü

存储结构:生产数据存储模式、存储周期、分层结构等ü

接入要求:I/O带宽、接入约束、生产备份情况等生态圈入湖ü

生态业务变动大且原生结果滞后数据,允许前瞻性获取生产变化过程表,避免数据模型的大幅调整规范价值灵活生态圈数据整合处理原则及关键点大数据湖整合区建设原则①

基于共性化数据处理,支撑广泛、稳定的共享应用;②

支撑湖标准化的数据规范转换;③

跨域数据的关联性和横向对齐;生态圈数据整合关键点统一ID生态圈自然人实体归集与对齐客户资料归集应具备基于资料信息的规则匹配识别和基于客户海量的通信相关信息的挖掘识别方法:1)通过规则匹配识别技术,高效地完成准确性较高的资料信息自然人识别;2)基于大数据技术构建自然人识别模式,作为规则识别的有效补充,提高自然人识别成功率,减少人工核查确认工作量。实体归集数据流程实体归集过程基于实体完整性原生数据自然人识别自然人沉淀专区应用保证上层覆盖性自然人黑名单信息自然人基本

自然人有效移网自然人用户360信息差异数据下发…信息户数信息智能连接智慧家庭新兴ICT数据整合/加工规则整合归集自然人基本信息自自底证件号码姓名

地址联系人工作单位

…餐自然人扩展信息自然人用户信息自然人用户扩展信息差异数据规则库顶用户向向综合评价上自然人:客户A下编码标准化模型转化/编码统一餐用户自然人用户信息自然人用户扩展属性表自然人基本信息自然人扩展信息大数据识别照片留存交际圈位置轨迹虚拟身份缴费信息终端信息客户接触

…物联网原生数据用户信息表用户产品订购客户信息客户实名认证互联网金融客户联系人信用度用户积分

邮寄信息基于业务逻辑关键能力要求:p

规则识别和大数据技术识别配合完成资料聚合;深度应用大数据识别技术,通过照片留存、交际圈、位置轨迹、虚拟身份等信息,识别出从资料层面不能反映出的同一自然人。p

大数据技术识别应用到的技术:文本分词、文本匹配、似度计算、多音字库、象形字库、网络图谱算法、指纹权重、关系传递等;生态圈数据接入与存储通过对五大生态圈数据采集入湖,统一规范转换后,为各类专区应用提供数据支撑。大数据湖原生数据区整合数据区应用数据区生态收入贡献互金业务订购用户行为轨迹…智能连接智慧家庭互联网金融专区物联网专区p

生态圈入湖互联网金融物联网新兴ICT…根据生态圈系统的建设情况,科学规划多种采集方式入湖生态创新专区…主数据区p

生态圈数据规范围绕大数据湖功能分区,探索各类数据的存储要求和能力建设统一客户信息用户关联信息统一帐户信息生态业务产品标准编码信息新业务采集入湖模式探索数据分区规划对接应用需求湖存储功能定义专区规范制定批量采集实时采集p

生态应用服务生态采集支撑入湖采集能力验证准实时采集针对生态业务应用需求,五大生态确定大数据湖的应用支撑模式,构建专区建设规范智能连接智慧家庭互联网金融新兴ICT物联网圈数据目录12345背

景:大数据湖的发展背景与建设理念体

系:大数据湖体系规划与建设思路生态圈:探索新兴业务入湖建设模式共

享:大数据湖统一访问共享规划运

营:大数据湖一体化运营管理建设大数据场景下数据服务的能力建设要求•

跨底层数据存储平台混搭架构平台,如多种数据存储体系,如关系型DB、KV-DB、文件系统等HDFS、MPP、SMP等•

统一标准化数据查询•

跨数据结构的逻辑化访问通用的数据查询语言,支持跨平台访问,如PL/SQL,HQL等多应用系统的物理结构透明化逻辑封装,如OLTP、OLAP等统一标准化透明化安全•

灵活安全的权限管控机制•

外部应用的便捷接入多种数据服务场景的权限管控,如查询、分析等多种应用接入能力,如JDBC、Socket等高效大数据场景:混搭架构平台、多系统共存、不同数据体系、各种应用场景需求大数据湖统一访问共享建设规划

——

统一目录/透明访问访问共享是湖中数据和应用、能力之间的桥梁,任何功能/应用模块使用湖中数据时,不需要关心数据的存储方式、存储介质、存储位置等信息,只要和访问共享连接既可以实现湖中数据的访问数统一访问共享:管、用、看p

管:基于湖中数据构建统一数据目录,屏蔽湖中数据物理存储地址,提供实现湖中可共享数据的管理据能力数据采集数据加工数据挖掘数据服务封装数据应用可视化数据访问接口数据服务中间件目录管控数据访问接口数据缓存API接口JDBC/ODBC消息数据开放访问共享p用:数据服务中间件为应用提供多样化数据接口访问能力,如API、JDBC/ODBC、消息、订阅等能力数据访问引擎函数计算规则配置接口鉴权数据授权权限申请授权审批内存计算统计分析统一数据目录数据读取p

看:目录视图为开发者提供湖中可共享数据的统一目录视图,并管理湖中数据访问授权数据计算与存储资源计算引擎数据存储文本数据ORACLEHIVEHBASE…统一访问共享典型应用场景专区应用开发者通过统一访问引擎访问湖中共享数据,专区应用直接访问自有专区数据,实现湖中数据统一共享管控和应用访问灵活访问自有专区数据新建系统数据挖掘能力开放(API)3专区应用412服务网关数据探索数据可视化共享数据访问共享数据访问专区数据访问数据加工共享数据访问数据挖掘数据挖掘结果服务封装服务订阅生产系统数据访问数据访问数据访问访问共享数据服务中间件目录管控自有数据接口统一数据目录遵循入湖规范数据计算与存储资源生产数据原生数据整合数据专区数据统一数据目录

——

共享列表/质量保障/安全可控基于湖中具备共享条件的数据构建统一数据目录,通过访问引擎为应用开发者、数据运营者提供湖中数据访问能力,是数据应用、运营和价值实现的基础。访问共享数据服务中间件湖中数据只有经过质量和安全评估,符合应用开发的条件后,在明确开放审批流程的前提下,进入统一数据目录对外共享目录管控审核通过统一数据目录结合元数据及数据统计信息开放流程定义数据描述及统计信息数据稽核开放范围审核人工审核表、视图数据安全审核数据质量审核元数据管理运营者数据存储大数据服务关键能力:统一数据接入/转换/服务对接能力数据应用数据服务能力开放工具报表、应用等Query、API等查询工具、挖掘工具、OLAP工具等统一对外接入(JDBC、Socket、Restful)缓存优先内存转换访问鉴权脱敏加密AQL解释查询数据联邦数据集关联统一数据服务代理Data

Broker格式转换统一维表元数据性能优化数据安全源端连接数据预览性能安全统一数据连接(AgentPL/SQL

HQL

PostgresSQL…connector)SMP数据库Oracle、Mysql、传统文件系统Excel、XML、Json、…大数据系统Hive、Hbase、Impala、…MPP数据库GreenPlum、Vertica、…OLAP引擎ApacheKylin、Cognos、…DB2、…统一数据服务中间件

——

跨域联邦/标准查询/统一访问p

跨底层数据存储平台多种数据存储体系,如关系型DB、KV-DB、文件系统等p

统一标准化数据查询通用的数据查询语言,支持跨平台访问,如PL/SQL,HQL等p

灵活安全的权限管控机制多种数据服务场景的权限管控,如查询、分析等p

跨数据结构的逻辑化访问多应用系统的物理结构透明化逻辑封装,如OLTP、OLAP等p

外部应用的便捷接入多种应用接入能力,如JDBC、Socket等各类跨架构数据源端连接与访问灵活自主的数据服务集定义39DataBroker查询语法AQL语法(类SQL):常用函数:40DataBroker查询示例示例1:在用户增长数据集中,查询2018年10月比9月的入网用户增长比例,按地区分组,按排序字段排序示例2:按照省份,将流量按照100M为步长分档统计,并忽略小于10M的用户数SELETROUND((month_ten-month_nine)/month_nine)as“增长比例”,user_areaas“地区”FROMuser_in_month_detailSELECTarea_no,segm_step(data_flow,100,10)as"流量分档",count(user_id)as"用户数"FROMuser_used_flowGROUPBYuser_areaGROUPBYarea_no,SEGM_STEP(data_flow,100,10)as"流量分档”ORDERBYorder_code示例3:按照省,账期,分组统计指标1,指标2值,同时统计行小计,行总计,列小计,列合计,并将省,账期转为交叉列,省份为河北与甘肃。SELECTgroup_typeAS"分组"FROMBIG_DATA_SETtACROSS(sum(指标1)as“指标1”,sum(指标3)for(PROVINCE,ACCT_MONTH)WHEREt.PROVINCEin('河北','甘肃')ORDERBYgroup_typeASCROLLALL目录12345背

景:大数据湖的发展背景与建设理念体

系:大数据湖体系规划与建设思路生态圈:探索新兴业务入湖建设模式共

享:大数据湖统一访问共享规划运

营:大数据湖一体化运营管理建设大数据湖运营管理体系规划大数据湖运营管理能够为全网提供统一的运营和协同管控,包括运维支撑、运营监控和数据生态评估等多个方面,实现各类数据风险和隐患的快速排查,提升运营效率,为智慧化的运营战略奠定基础。全面性规范化可视化统一运营管理运营监控运维支撑数据生态评估接入用户监控任务状态监控应用稽核问题派单数据分布数据热点冗余评估质量评估采集监控数据分区监控共享服务监控问题跟踪通知管理日志管理价值评估安全评估外围系统交互监控质量探索工具已建设建设中未建设大数据湖统一运营监控

——

全生命周期监控/运营规范显性化运营监控主要为大数据湖提供数据生产监控和数据运营监控两方面的能力。其中数据生产监控主要提供从数据采集、数据分区存储到共享的监控;数据运营监控实现对接入系统的用户信息、任务执行的状态,以及与外围应用系统的交互操作进行监控,并进行全景展示。数据监控视图运营监控视图采集监控:接入用户监控:对从各类数据源采集入湖数据是否符合接入规范进行监控对已接入大数据湖的用户类型、操作权限,并发用户量等信息进行监控数据分区监控:任务状态监控:对大数据湖中的原生数据、整合数据等各类数据是否按分区规范存储进行监控对大数据湖中各类任务运行的异常状态进行实时的监控共享服务监控:外围系统交互监控:对湖中可共享的各类数据是否符合共享标准和规范进行监控提供外围应用系统与大数据湖进行各类交互操作的监控数据生命周期程序任务存储分区用户操作运维支撑:打造闭环的数据质量管控体系通过构建数据质量管控系统,打通数据湖与数据源端的交互,建立起稽核问题任务派发、追踪及结果反馈的保障机制,提升稽核效率,实现闭环的数据质量管控体系。l

工作重点:2.2.责任人通知运营管理系统Ø

异常问题闭环跟踪针对入湖数据开展对账、嵌入稽核和数据稽核。对于源端系统的数据质量问题,实现异常问题派单和处理跟踪反馈。ITSM数据质量管控系统2.1.问题派单3.处理反馈派单管理工单追踪处理反馈源端问题派单1.1.异常1.2.异常Ø

ITSM系统打通实现异常问题快速通知相关人员。4.重传上传共享源端嵌入稽核

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论