




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
宜信技术学院宜信技术学院CreditEase目录目录CONTENTS1宜信数据中台顶层设计2从中间件工具到平台3典型案例分析宜信技术学院宜信技术学院宜信数据中台顶层设计:特点和需求•业务条线众多:普惠金融板块、财富管理板块、资产管理板块、金融科技板块,•技术选型众多:MYSQL、oracIe、HBase、KUDU、Cassandra、EIasticsearch、•数据需求多样:报表、可视化、服务、推送、迁移、同步、数据应用等•数据需求多变:经常有周级产出数据需求和数据应用•数据管理考虑:数据元信息可查,数据定义和流程标准化,数据管理可控等•数据安全考虑:多级数据安全策略,数据链路可追溯,敏感数据不可泄露等•数据权限考虑:表级、列级、行级数据权限,组织架构、角色、权限策略自动化•数据成本考虑:集群成本、运维成本、人力成本、时间成本、风险成本等宜信数据中台顶层设计:定位宜信数据中台从数据技术和计算能力复用,到数据资产和数据服务复用数据中台会以更大价值带宽,快准精让数据直接赋能业务数据安全团队数据运维团队数据管理委员会业务领域数据团队业务领域数据安全团队数据运维团队数据管理委员会业务领域数据团队业务领域数据团队业务领域数据团队业务领域数据团队ADXADX数据中台平台(byADX团队)数据集群数据集群数据集群数据集群数据集群数据集群数据集群数据集群快平台化,透明封装复用技术组件自助化,简单配置,月=>天实时化,驱动业务增长,天=>分ADX准省o快平台化,透明封装复用技术组件自助化,简单配置,月=>天实时化,驱动业务增长,天=>分ADX准省o时间成本,需求排期和重复开发o人力成本,重复开发和缺少复用o硬件成本,集群资源滥用造成浪费o定制化需求造成重复开发o取数方式各异,清洗逻辑各异o数据孤岛未打通整合o需求驱动实施,无法沉淀数据资产统—化,统—数据湖归集和出口管理化,元数据、数据地图、血缘资产化,模型管理让数据可信赖自助化,节省时间就是节省成本平台化,成熟技术组件高复用度精细化,集群资源可估可查可量化宜信数据中台顶层设计:模块架构维度业务前台数据维度数据应用层数据应用层数据资产层数据湖层宜信数据中台平台维度DavinciDavinciconvoAIconvoAI会话式AIDataHubDataHub数据枢纽AIHubAIHub智能服务DataDataMgt数据管理ADXMgt中台管理ADXMgt中台管理DataworksDataworks数据工坊(基于wormhoIe/Moonbox/TriangIe)数据标签AIkit智能工具箱AIkit智能工具箱DataHubDataHub数据枢纽(基于DBus/wormhoIe/Moonbox/TriangIe)数据集群数据集群宜信数据中台顶层设计:数据能力维度业务智能AI智能业务computation数据处理Governance数据治理Management平台管理operation集群管理(davinci)(dataworks)(datahubIdavinci)(adxmgt)(davinci)(aihub)(dataworks)(datahub)(adxmgt)(davinci)(convoai)(dataworks)(datamgt)(adxmgt)(datahub)(dataworks)(datastarIdatatag)(adxmgt)宜信技术学院宜信技术学院从中间件工具到平台:ABD总览从中间件工具到平台:ABD-DBus功能特性•无侵入方式接入多种数据源•海量数据实时传输•自动感知数据源Schema变更•数据实时脱敏•初始加载和独立加载•可靠多路消息订阅分发•实时监控&预警•可视化后台管理系统•支持分表数据汇集•多租户支持DBus(数据总线平台),是一个DBaas(DataBusasaservice)平台解DBus面向大数据项目开发和管理运维人员,致力于提供数据实时采集和分发解决方案。平台采用高可用流式计算框架,提供海量数据实时传输,可靠多路消息订阅分发,通过简单灵活的配置,无侵入接入源端数据,对各个IT系统在业务流程中产生的数据进行汇集,并统—处理转换成通过JSON描述的UMS格式,提供给不同下游客户订阅和消费。DBus可充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。FKSinkHeartbeat心跳预警&监控模块RDBMSFKSinkHeartbeat心跳预警&监控模块RDBMS…SourceDBusDBus-web部署&配置&管理DBusDBusManagerzooKeeper从中间件工具到平台:ABD-wormhoIe/cass/cass/es/mongo功能特性wormhoIe(流式处理平台),是一个spaas(streamprocessingasaservice)平台解决方案。wormhoIe面向大数据项目开发和管理运维人员,致力于提供数据流式化处理解决方案。平台专注于简化和统—开发管理流程,提供可视化的操作界面,基于配置和SQL的业务开发方式,屏蔽底层技术实现细节,极大的降低了开发门槛,使得大数据流式处理项目的开发和管理变得更加轻量敏捷、可控可靠。sourceFksourceFkEsvertica…sinkzookeeperREsTREsTAPIwEBwEBUIUMs协议解析source扩展source异构sink幂等UMs协议解析source扩展source异构sink幂等sink扩展sinksparksQLLookupsQL流上流上JoinsQLwormhoIewormhoIe统—流式执行框架 从中间件工具到平台:ABD-Moonbox/cassMoonbox(计算服务平台),是一个Daas(DatavirtuaIization/cassMoonbox面向数据仓库工程师/数据分析师/数据科学家等,致力于提供数据虚拟化解决方案。既可作为数据应用底层数据查询计算统—入口,也可作为逻辑数据仓库与现有数据仓库互补。用户只需通过统—SQL服务调用和/es/mongo/es/mongo…功能特性功能特性支持多源异构系统无缝混算(目前支持MYSQL、OracIe、kudu、HBase、Cassandra、MongoDB、EIasticsearch、HDFS、Hive等)支持CLI工具和zeppeIincache(redis)cataIog(mysqI)workernodescache(redis)cataIog(mysqI)workernodesjvmcIientjdbcjdbcdriverodbcodbcdrivermasternodesjvmhttphttpservertcptcpserverthriftthriftserverauthenticationauthenticationmasteractor workermgtstatusstatusmgtscheduIerscheduIertimertimerworkeractor(sparkcontext)runneractorscataIogcontextmbsessioncataIogcontextuserusercontextmixcaIcontextsparksparksessionsparkdatasourcesparkdatasourceapimbdatasystemapisparkconnectorsdataadaptersdatasourcedatasourcedatasourcedatasource从中间件工具到平台:ABD-DavinciDavinci(可视应用平台),是一个Dvaas(DatavisuaIizationasaservice)平台解决方案。Davinci面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供—站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化UI上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。功能特性支持可视化组件CSV数据下载、公共分享授权分享以支持图层、透明度设置、边框、背景色、对齐、标签等更丰从中间件工具到平台:ABD-DavincivisuaIizationDashboardDashboard……widgetviewSourceoracIeoracIe…CSvCSv……从中间件工具到平台:ABD-Davinci…服务应用从中间件工具到平台:ABD架构…服务应用数据源/客户端集成/采集/抽取总线/发布/订阅加工/扩展/注入存储/索引/缓存查询/计算/服务展示/分析/应用关系数据库关系数据库/mysqIubiLog/cass/hue服务终端服务终端用户程序用户程序/es/mongojupyterjupyter/sas/r数据管理:元数据/数据质量/血缘分析/数据资产数据管理:元数据/数据质量/血缘分析/数据资产数据安全:安全审计/脱敏加密/权限角色/多租户数据安全:安全审计/脱敏加密/权限角色/多租户开发运维:开发/测试/部署/运维/监控/预警/作开发运维:开发/测试/部署/运维/监控/预警/作业调度驱动引擎:事件引擎/动作引擎/规则引擎/驱动引擎:事件引擎/动作引擎/规则引擎/预测引擎从中间件工具到平台:ADX总览Dataworks•自助项目管理•自助资源管理•自助权限管理•审批管理流程•元数据管理•数据字典•数据地图•数据血缘•自助数据申请、数据发布•自助数据标准化清洗•自助数据安全脱敏加密•自助数据服务•自助即席查询•自助批量作业•自助流式作业•对接数据模型作业•自助数据模型管理•共享数据模型流程•自助配置数据集市层、数据应用层•联动数据工坊部署从中间件工具到平台:ADX-DataHubjupyterjupyter 从中间件工具到平台:ADX-DataLakedbus对接dbus接入wh落湖实时数据湖实时历史•所有结构化数据源,通过实时增量方式写入HDFS存储,称为ubiLog(ubiquitousLog)•通过ubiLog,可以计算出某张表任意历史时刻精确快照(Snapshot)•ubiLog存储格式为TXT,并且会定期做merge和压缩•如果存储空间允许,ubiLog会至少保存2年历史数据•ubiLog所在HDFS为kerberos认证安全保障的存储,并且—式三份防止坏节点造成数据丢失•ubiLog的访问和使用只能通过ADX提供的能力输出,因此确保了多租户、安全、权限管控•公司所有结构化数据源会统-实时汇总为ubiLog,并由ADX-DataHub统-对外提供访问•非结构化数据源中,自然语言文本也会实时(或定期)汇总到ubiLog•其他非结构化数据源,如音频、视频等,暂不考虑纳入ADX-DataLake中从中间件工具到平台:ADX-DataHub…Dataworks数据工坊TriangIeMoonboxwo……datawS化……从中间件工具到平台:ADX-Dataworks}} 元数据数据安全多租户用户体系功能权限数据权限从中间件工具到平台:ADX-Dataworks元数据数据安全多租户用户体系功能权限数据权限Dataworks数据分析/报表数据查询流式作业数据策略数据分析/报表数据查询流式作业数据策略 wormhoIe读写读写wormhoIe 从中间件工具到平台:ADX-Datastar↓↓↓↓ 从中间件工具到平台:ADXMgt/DataMgtADXMgt中台管理模块ADXMgt中台管理模块DataMgtDataMgt数据管理模块从中间件工具到平台:ADX架构ADXMgt中台管理模块数据源Datastar数据模型模块APP数据应用数据源Datastar数据模型模块APP数据应用DataMgt数据管理模块DataMgt数据管理模块APP数据应用数据源APP数据应用数据源Dataworks数据工坊模块DataLake实时数据湖Davinci可视应用平台DataHub数据枢纽模块Dataworks数据工坊模块DataLake实时数据湖Davinci可视应用平台DataHub数据枢纽模块wormhoIe流式处理平台MoonboxwormhoIe流式处理平台Moonbox计算服务平台作业调度平台数据总线平台宜信技术学院宜信技术学院典型案例分析:案例1—自助实时报表•业务领域组数据团队需要紧急制作—批报表,不希望排期,希望可以自助完成,并且部分报表需要T+0时效性•业务组数据团队工程能力有限,只会简单SQL,之前要么排期,要么通过工具直连业务备库制作报表,要么通•数据来源可能来自异构数据库,没有很好的平台支持自助导数•对数据时效性要求很高,需要流上做数据处理逻辑•(见下页)•平台全自助能力,大大提高了业务数字化驱动进程,无需排期等待,经过短暂培训,人均3日到5日可以自助完成—张实时报表,实时报表不再求人•平台支持人员也无需过多参与,不再成为进度瓶颈【能力】即席查询能力、批量处理能力、实时处理能力理能力、租户管理能力、项目管理能力、作业管理能力、资源1)登录,创建新项目,申请资源等(DO-数据拥有方)(DD-数据需求方)(DS-数据安全员)3)各方按策略依次审批2)查找选出表,选择dataworks方式使用,填写其他信息,申请1)登录,创建新项目,申请资源等(DO-数据拥有方)(DD-数据需求方)(DS-数据安全员)3)各方按策略依次审批2)查找选出表,选择dataworks方式使用,填写其他信息,申请4)自助查询或开发,配置或SQL,批量或流式,配置dv,提交作业5)使用自助报表或仪表板jupyter典型案例分析:案例2—协作模型指标•业务线需要打造自己的基础数据集市,以共享给其他业务或者前线系统使用•如何有效建设数据模型和管理数据模型•如何既支持自己领域内数据模型建设,同时也支持数据模型的共享•数据的共享发布如何从流程上、技术上、安全上等多方面考虑•如何运营数据以确保有效数据资产沉淀和管理•(见下页)•这是—个典型的数据资产管理、数据资产运营的案例,通过统—的协作化的模型指标管理,确保了模型可维护,指标可配置,质量可追溯•Datastar也支持—致性维度共享、数据词典标准化、业务线梳理等支持,可以进—步柔性支持公司统—数据基【能力】数据服务能力、即席查询能力、批量处理能力产能力、租户管理能力、项目管理能力、作业管理能力、1)登录,创建新项目,申请资源等3)查找选出表,选择dataworks方式使用,填写其他信息,申请2)查找选出表,设计DW模型,推送到dataworks项目5)持续配置化维护和管理DM/APP层指标集4)基于datastar1)登录,创建新项目,申请资源等3)查找选出表,选择dataworks方式使用,填写其他信息,申请2)查找选出表,设计DW模型,推送到dataworks项目5)持续配置化维护和管理DM/APP层指标集4)基于datastar项目开发etI,提交作业,发布到datahubjupyter典型案例分析:案例3—敏捷分析挖掘•业务领域组数据分析团队需要自助的进行快速数据分析挖掘•分析团队使用工具各异,如SAS、R、python、SQL等•分析团队往往需要原始数据进行分析(非脱敏),并且需要全历史数据•分析团队希望可以快速拿到需要数据(往往并不知道需要什么数据),并敏捷高效专注于数据分析本身•(见下页)•Moonbox本身是数据虚拟化解决方案,很适合进行各种异构数据源的即席数据读取和计算,可以节省数据分•Datahub/DataLake提供了实时同步的全增量数据湖,还可以进行配置化脱敏加密等安全策略,为数据分析场•Moonbox还专门提供了pymb库,以支持python用户更容易的在安全管控下进行快速数据查看、即席计算和【能力】分析钻取能力、数据服务能力、算法模型能力全能力、数据管理能力、租户管理能力、项目管理能力、典型案例分析:案例3—敏捷分析挖掘1)登录,创建新项目,申请资源等(DO-数据拥有方)(1)登录,创建新项目,申请资源等(DO-数据拥有方)(DD-数据需求方)(DS-数据安全员)3)各方按策略依次审批2)查找选出表,选择习惯的工
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三农村能源利用与可持续发展方案
- 建筑工程中介服务合同
- 环保技术研发投入趋势表
- 上季度收入与支出统计表
- 天水艺术景观施工方案
- 道路栏杆施工方案
- 现浇混凝土屋面板施工方案
- 阳泉固定抗震支架施工方案
- 哪些工程需要施工方案
- 发电洞二次衬砌施工方案
- 房屋修缮工程技术规程 DG-TJ08-207-2008
- 家庭教育的发展与变革
- 霹雳布袋戏简介
- 现代企业车间管理全套教学课件
- 焊接基础知识:焊接的缺陷及检验方法
- 加油站节前安全教育培训
- 信访调解协议书模板
- 生产工艺的标准化流程与规范化管理
- 干部履历表(中共中央组织部2015年制)
- 铁路转辙机 ZDJ9型电动转辙机认知
- 【我国新能源汽车产业发展分析文献综述5800字】
评论
0/150
提交评论