大数据湖体系规划与建设方案_第1页
大数据湖体系规划与建设方案_第2页
大数据湖体系规划与建设方案_第3页
大数据湖体系规划与建设方案_第4页
大数据湖体系规划与建设方案_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据湖体系规划与建设方案1122334455数据架构与承载体系的演变过程完整性、一致性、交互稳定性,并发性,异常可恢复性企业级跨域整合、业务扩展性、架构设计合理性、流程规范性存储经济性、高性能、高扩展、高并发、灵活模型适配性11面向主题的,关注用户重点业务背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放u更多企业数据将进入数据湖,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破。u随着大数据分析能力的不断提高,人工智能的重要性被逐步提升。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。大数据发展趋势分析大数据发展趋势分析数据服务数据服务数据应用数据应用数据分析 数据治理数据平台 数据平台数据湖数据服务数据应用数据分析数据治理数据湖产生背景及概念提出企业现在正处于大数据的“焦虑期”存储成本问题:海量数据需要在多环境、多级下重复存储,存储开销大数据形态问题:应用大多聚焦在经过加工后的再生数据,原始数据无法得到充分利用业务响应问题:必须事先进行充分规划和较长周期加工,欠缺运营所需的灵活性和时效性n预先设定问题n使用方式单一n集中存储+无限能力n用户各取所需数据集市数据湖数据湖的定义与特性数据湖核心思想数据湖核心思想把不同结构的数据统一存储,使不同数据有一致的存储方式,在使用时方便连接,真正解决数据集成问题。存储一切,分析一切,创建所需从对比中理解数据湖概念—优势篇对比项数据仓库数据湖从对比中理解数据湖概念—劣势篇对比项数据仓库数据湖数据湖数据沼泽数据沼泽数据湖是大数据概念的延伸数据湖的能力视图数据湖并非是个全新概念1.“1.“数据湖”是关于企业应用大数据的概念,是面向企业的最佳的大数据的解决方案2.“数据湖”不仅是数据存储和处理的单元,也是释放数据价值的过程3.企业大数据应用成功的关键并不是存储所有的数据,而是要创建一个更有意义的“数据湖”,帮助企业加速提取高价值数据的速度4.数据湖是大数据发展方向上的高级阶段,是一种建设理念,而不是一种特定的实施方法5.“数据湖”是个架构概念,是数据仓库的一种演进,是一种数据能力要求多样化的数据存储数据能力要求高效的数据处理存储全部数据处理任何数据访问任何数据n支持所有用户n更容易适应变化n更快的洞悉能力数据湖概念上的甄别数据湖是……1、用户可以访问大量原始数据的环境2、一个开发和验证分析模型的环境,然后将其转化为生产3、用于探索数据以获得洞察力的分析沙箱4、企业级目录,可帮助用户查找数据并将业务术语与技术元数据链接起来5、一个支持重用数据转换和查询的环境数据湖不是……1、用于安置企业所有数据的一个数据仓库或数据集市2、替代运营数据存储(ODS)3、高性能的生产环境4、生产型报表的应用程序5、一个专门建立的系统来解决一个特定的问题(尽管专门建立的数据集市可以从数据湖中提供)VS数据湖体系的架构规划数据湖的逻辑架构数据湖的数据架构数据湖建设的四个阶段协作交互阶段协作交互阶段04030403基础架构阶段基础架构阶段成熟运营阶段01价值挖掘阶段01数据湖体系的建设要点与风险分析数据湖关键点建设难点与风险业界主流公司的数据湖规划—HortonworksHortonworks公司基于Hadoop生态构建的数据湖提出的现代化数据架构(MordenDataArchitecture),从南向北包含四个层面:数据采集层(DataAcquisitionLayer)数据采集层负责从数据源抽取和移动数据,并将数据源包括传统的关系型或事务型系统、用户获取数据监管层(DataCurationLayer)数据监管层负责数据湖中的数据组织、定型并为准化流程制定,数据创建、脱敏、清洗、转换数据供应层(DataProvisioningLayer)数据供应层采用更适用于业务报表和分析的传统数数据消费层(DataConsumptionLayer)数据消费层提供所有最终用户的接口,对于不同业界主流公司对于数据湖的规划—IBM境1122334455大数据湖体系规划应用构建工具交互分析OLAP挖掘工具生态圈应用构建工具交互分析OLAP挖掘工具生态圈系统分析型系统生产型系统生态圈专区省分专区服务对象互联网互联网合作伙伴合作伙伴访问共享同源异构访问APIAPI数据沙箱访问接口(JDBC、ODBC)统一数据接入逻辑化视图数据湖统一目录<统一服务数据集>缓存加速数据安全规范数据安全规范角色权限规范角色权限规范运营管理规范运营管理规范计算处理TB级计算存储计算加速存储计算加速资源池化l弹性伸缩计算资源调度自动调度l按需使用数据存储PB级存储 主数据(1)全网统一生产数据(1+N) 主数据(1)全网统一生产数据(1+N)操作/临时存储整合数据(1)全网/分层支撑应用数据(N)分区建设…原生数据(1+N)原生数据(1+N)就近/分域存储数据接入大吞吐管道 生产直采生产直采可视化定义l即配即用统一接入配置透明化部署l实时接入调度源端系统大数据湖存储能力规划——统一标准/分区存储数据存储数据访问资源池化,弹性技术计算资源管理自动调度,按需使用数据计算互联网金融新兴智慧家庭智能连接物联网……数据存储数据访问资源池化,弹性技术计算资源管理自动调度,按需使用数据计算互联网金融新兴智慧家庭智能连接物联网……营销资源服务自然人客户产品渠道集团横向系统网络/平台生产系统(前置预处理)省份B/O侧生产系统生态圈生产系统OSS原生数据…BSS原生数据生数据集团横向数据生态圈-ICT生态圈数据接入运营管理现数据原生入湖、按需使用的宗旨,为全国1+31省提供应用数据服务能力,注智生产激发生产力。存储分区原则:生产数据区:遵循电信集团数据建模标准及主数据规范要求;规范层面属于大数据湖范畴,物理资源层面可采用湖资源也可自建;原生数据区:分域分类存储生产数据;将非标准数据做标准化转化;整合数据区:采用大数据挖掘等技术进行实体归集补全;构建实体关联视图;主数据区:存储企业级全网主数据,大数据主数据唯一提供者;应用专区:本着数据不出湖,充分挖掘数据价值原则,为使用者提供基于自有、原生、整合数据的处理空间,面向应用开展数据处理工作;大数据湖原生数据区规划——原生入湖/分类存储/按需使用以原生入湖分类存储按需使用为宗旨,分域分类存储按周期存储原生数据,为云公司、集团ODS、省份大数据平台提供原生数据为湖内整合数据区、应用数据区提供原生数据服务。主数据区统…主数据区统… 数据共享原生数据区固网DPI日志留存OIDD移动感知智能网管MR/C4G分组域话单加密通道OD量化集约积分悦商机微信易信PM/CM电渠4G数据终端号百渠道…行业短信政企财务辅助人力工程辅助久其采购辅助视频计费VSOP客户服务…团电渠服务量企业云直采综合资源装维新兴ICT应用爱游戏爱音乐爱动漫CRMPPM外勤助手旅游大数据地产大数据枝繁叶茂类智慧家庭智能连接物联网原生数据专区共享…实体关联视图共享原生数据整合共享原生数据整合共享湖大数据湖整合数据区规划——构建企业级核心实体关联视图整合数据区完成数据清洗、编码转换、实体对齐及构建企业级核心实体关联视图,为应用专区提供整合数据服务。整合数据保存原子性:整合数据区数据不做聚合操作保存原子性:整合数据区数据不做聚合操作,保持数据原子性,不影响专区应用指标加工处理;实体补齐性:对核心实体根据不同原生数据进行属性补齐;实体关联性:面向实体全业务流程数据,整合各域数据实现实体跨域关联视图;共享一致性:按照湖应用的使用需求进行共性提炼,实现统一的公共宽表建设;实体关联视图l开通信息l客户信息l订购信息消费信息服务信息l装维信息l资源数据l报障数据l佣金结算财务收入补贴数据l开通信息l客户信息l订购信息消费信息服务信息l装维信息l资源数据l报障数据l佣金结算财务收入补贴数据l行为数据l质量数据购给务诉护用账CP/SP订购位置信息营客户产品渠道营销资源服务合作伙伴自然人…实体对齐数据清洗冲突管理外部数据管理规则管理实体沉淀聚合管理数据清洗冲突管理外部数据管理规则管理实体沉淀聚合管理政企客户政企客户合作伙伴自然人组织地域员工大数据湖应用数据专区规划——面向应用的自建自维数据专区独立性:保证资源独立性、数据独立性、应用独立性;可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;独立性:保证资源独立性、数据独立性、应用独立性;可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;易用性:提供丰富的可视化开发及专区运营工具;可管理性:大数据湖对专区具备监控、审计能力;数据服务性:专区数据可以数据形式服务,也可开发应用直接链接调用;原生数据区整合数据区应用数据专区原生数据区整合数据区应用数据专区估 专区申请专区审批专……整合区数据 实时采集批量采集消息采集数据接入共享访问 源端生产系统/数据仓库大数据湖主数据区规划——企业级核心/统一运营保障主数据区负责存储全域主数据,并确保与主数据生产者保持同步,为大数据湖各区提供唯一主数据源,以保证湖中企业统一主数据标准:面向全国各域各生产系统提供主统一主数据标准:面向全国各域各生产系统提供主数据标准;统一主数据存储:面向大数据湖提供统一主数据存储能力;统一主数据整合:清洗整标准、唯一主数据;统一主数据服务:为大数据湖中各区提供主数据服务;数据专区数据专区网网…主数据整合数据整合数据区主数据区客户产品渠道订单主数据主数据整合数据整合数据区主数据区客户产品渠道订单主数据原生数据主数据入湖原生数据服务专区原生数据区原生数据区1122334455基于大数据湖的生态圈建设模式 API访问共享 生态圈客户数据生态圈客户数据/特征画像数据/客户感知数据/…生态圈统一共享目录生态圈原生数据/主数据/整合数据/专区数据RR图数据库Sparkstreaming大数据湖计算处理Strom大数据湖计算处理Strom计算需求分类/资源队列管控计算需求分类/资源队列管控/租户任务管理计算资源按需动态调配计算规模/优先级别/时间窗规划原生数据原生数据应用数据专业应用数据生产副本生产正本物联网物联网数据存储整合数据共性基础数据数据接入采集源连接/采集方式(采集源连接/采集方式(FTP/API/流式/…)数据湖采集一站式配置目标驱动入湖原则生态圈入湖指导原则目标驱动入湖原则业务驱动数据分类生态营销数据生态核心生态营销数据生态核心资料开展生态业务数字化营销3开展生态业务数字化营销3了解生态业务关键概念掌握生态整体经营状况2生态协同数据生态生态协同数据实现生态管理运营一体化实现生态管理运营一体化4开拓生态业务智慧创新5价值驱动入湖逻辑数高中低中高高生态圈入湖建设思路与步骤解决生产经营看数:以生态圈应用和价值提升需求为导向,优先将客户、经营、营销、管理、生产方面的核心主数据入湖,满足当前业务发展和管理需求主数据•经营数据•营销数据•管理数据•业态生产数据•开展大数据价值挖掘:将各模块未导入的全量数据入湖,同时丰富生态边际和互联网数据,拓展应用场景,实现大数据精准营销和管理主数据经营数据营销数据管理数据业态生产数据•••••数据深度拓展:不断丰富和拓展数据湖的数据,包含数据的横向范围和纵向深度补充采集数据缺失的原生态数据其他数据•••••运营原则生态数据运营运营原则生态数据运营数据流图(DFD):生产数据流、加工数数据规模:生态全量、核心资料、经营数据存储结构:生产数据存储模式、存储周期、分层 后续变更采集 后续变更采集= 周期增量采集=入湖建设演进生产源端规范入湖建设演进生产源端规范数据运营同步:模型结构变更、历史数据调整、生态圈入湖规范价值灵活理财类型理财类型生态圈数据整合处理原则及关键点大数据湖整合区建设原则①基于共性化数据处理,支撑广泛、稳定的共享应用;②支撑湖标准化的数据规范转换;③跨域数据的关联性和横向对齐;统一手机号码交费助手统一手机号码交费助手用户ID绑卡代金券甜橙白条用户ID代金券用户统一ID手机号码交费助手用户手机号码交费助手用户绑卡用户甜橙白条用户……………①核心实体对齐:跨业务的实体数据一致性关联绑卡用户甜橙白条用户……………支付类型理财产品理财金额统一客户ID②生态业务聚合:聚焦各类业务应用支付类型理财产品理财金额统一客户ID222222324223242生态圈自然人实体归集与对齐客户资料归集应具备基于资料信息的规则匹配识别和基于客户海量的通信相关信息的挖掘识别方法:自顶向下自底向上保证上层覆盖性自然人黑名单信息自然人有效移网户数信息自然人基本信息自然人用户360信息差异数自顶向下自底向上保证上层覆盖性自然人黑名单信息自然人有效移网户数信息自然人基本信息自然人用户360信息差异数据下发…自然人基本信息自然人用户扩展信息自然人扩展信息自然人用户信息差异数据…自然人用户信息自然人用户扩展属性表自然人扩展信息自然人基本信息用户信息表…综合评价综合评价关键能力要求:大数据技术识别应用到的技术:文本分词、文本匹配、似度计算、多生态圈数据接入与存储通过对五大生态圈通过对五大生态圈数据采集入湖,统一规范转换后,为各类专区应用提供数据支撑。生态圈入湖生态圈数据规范生态应用服务大数据湖应用数据区整合数据区原生数据区应用数据区整合数据区原生数据区………主数据区统一客户信息用户关联信息统一帐户信息生态业务产品标准编码信息湖存储功能定义专区规范制定数据分区规划对接应用需求………主数据区统一客户信息用户关联信息统一帐户信息生态业务产品标准编码信息湖存储功能定义专区规范制定数据分区规划对接应用需求新业务采集生态采集支撑入湖模式探索新业务采集生态采集支撑入湖采集能力验证实时采集1122334455大数据场景下数据服务的能力建设要求•跨底层数据存储平台统一•统一标准化数据查询统一标准化•灵活安全的权限管控机制透明化安全•灵活安全的权限管控机制透明化安全高效大数据场景:混搭架构平台、多系统共存、不同数据体系、各种应用场景需求大数据湖统一访问共享建设规划——统一目录/透明访问访问共享是湖中数据和应用、能力之间的桥梁,任何功能/应用模块使用湖中数据时,不需要关心数据的存储方式、存储介质、存储位置等信息,只要和访问共享连接既可以实现湖中数据的访问数据能力数据能力应用加工访问共享访问共享 接口鉴权 计算引擎计算引擎数据计算与存储资源…数据存储…数据存储统一访问共享:管、用、看统一访问共享典型应用场景专区应用开发者通过统一访问引擎访问湖中共享数据,专区应用直接访问自有专区数据,实现湖中数据统一共享管控和应用访问灵活访问自有专区数据413加工-生产系统访问共享413加工-生产系统访问共享原生数据整合数据生产数据专区数据新建系统统一数据目录——共享列表/质量保障/安全可控基于湖中具备共享条件的数据构建统一数据目录,通过访问引擎为应用开发者、数据运营者提供湖中数据访问能力,是数据应用、运营和价值实现的基础。访问共享访问共享 数据服务中间件 数据服务中间件统一数据目录 结合元数据及数据统计信息数据描述及统计信息开放流程定义开放范围审核人工审核数据稽核数据描述及统计信息开放流程定义开放范围审核人工审核数据稽核数据安全审核数据质量审核数据安全审核数据质量审核元数据管理元数据管理大数据服务关键能力:统一数据接入/转换/服务对接能力数据服务拿能力开放工具拿数据应用拿统一对外接入(JDBC、Socket、Restful)脱敏加密缓存优先内存统一对外接入(JDBC、Socket、Restful)脱敏加密缓存优先内存转换访问鉴权统一数据服务代理AQL connector)PL/SQLHQLPostgresSQL… connector)传统文件系统大数据系统传统文件系统大数据系统MPP数据库OLAP引擎等数据数据服务数据计算数据连接SQMED志问各类跨架构数据源端连接与访问灵活自主的数据服务集定义DataBroker查询语法AQL语法(类SQL):常用函数:DataBroker查询示例档”示例1:在用户增长数据集中,查询2018年10月比9“增长比例”,user_areaas“地区”ACROSS(sum(指标1)as“指标1”,1122334455大数据湖运营管理体系规划大数据湖运营管理能够为全网提供统一的运营和协同管控,包括运维支撑、运营监控和数据生态评估等多个方面,实现各类数据风险和隐患的快速排查,提升运营效率,为智慧化的运营战略奠定基础。数据生态评估统一运营管理数据生态评估运维支撑运营监控运维支撑运营监控已建设建设中未建设大数据湖统一运营监控——全生命周期监控/运营规范显性化运营监控视图运营监控主要为大数据湖提供数据生产监控和数据运营监控两方面的能力。其中数据生产监控主要提供从数据采集、数据分区存储到共享的监控;数据运营监控实现对接入系统的用户信息、任务执行的状态运营监控视图数据监控视图数据生命周期

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论