【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第1页
【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第2页
【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第3页
【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第4页
【构建企业级好数据】Dataphin智能数据建设与治理产品白皮书_第5页
已阅读5页,还剩156页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

阿里巴巴数据中台方法论工具化沉淀与5000+数据人交流互动阿里巴巴关注的是建立统一数据体系,同时贴近业务场景打造出体验一流的数据服务与产品;企业管理者会关心同之处,去了解数据中台的技术领先性...企业数据生产环节包括数据治理和分析,其中Dataphin承载了帮助企业治理好数据的使命,为未来数据资产入好数据。当前数据建设与治理所面临的问题构建企业级数据中台的核心诉求企业数据能力建设的三个发展阶段Dataphin:源自阿里巴巴的数据建设、治理、消费一体化平台规划:高屋建瓴,总览企业数据体系研发:高效建设,稳定运行特色研发能力资产治理:高价值数据,助力企业高质量发展数据服务:集中管控,快速服务业务系统自助分析:灵活分析,快速释放数据价值资产目录:主题式的目录,打造精品数据开放能力:自由拓展,满足企业个性化需求产品订购与部署模式产品配套服务04企业实践样板雅戈尔:5年造数据中台,最高节省70%日常精力台州银行携手瓴羊共建数据平台,打造小微金融治理新标杆一汽红旗:“国车老大哥”乘上数字化东风,线索转化率提升超过30%敏实牵手瓴羊加速数字化转型,数据查询效率提升近90%关于瓴羊P08P62数据建设与治理的现状与诉求时技术又觉得没有沉淀与成长;既懂业务又懂数据的人才不足,需求理解到开发实现涉及大量沟通,服务效数据体系化组织数据高效生产数据便捷服务用中台方法论构建与治理企业级好数据用中台方法论打造企业级好数据阿里巴巴在2015年提出全面启动中台战略,并在集团内部开启了一系列数据技术建设探索,沉淀下特有方法论捋清了数据全生命周期的管理思路,将其植入到瓴羊智能数据建设与治理Dataphin产品中,并与QuickBI(智能商业分析)、QuickAudience(智能用户运营)一同形成数据中台建设核心产品体系。自2018年问世以来,Dataphin已发展出了内容丰富的功能大图,到目前为止经历了多轮大版本升级,产品核心的能力模块清晰显现,可以帮助企业高效地完成「好数据」的构建。DataphinDataphin智能数据建设与治理数据建设、治理、消费一体化平台全域数据资产目录领域数据治理多模式数据处理数据服务大规模统一调度与运维隐私计算高效地汇整所有拖拽式标签工厂全域数据资产管理报告全域数据资产盘点全域数据中心数据服务即席分析Dataphin从下而上可分为四个大板块:平台底座:●引擎平台兼容:可支持不同的引擎及部署环境,可纳管不同的引擎,包括但不限于MaxCompute、EMR、及开源版等,也支持不同云平台环境的部署及私有IDC部署。企业自有系统进行对接集成或进行功能个性与定制。全域数据治理:全域数据运营:数据在消费者手中用起来才能发挥数据的价值,全域运营是将数据资产推送到数据消费场景中,让数据在消费者手动实现价值化。全域数据运营板块主要提供以下功能模块:●自助消费:通过打通BI分析系统,面向业务人员运营人员,实现从可见到可用;通过提供即系分析的功能,可通过简单的SQL、Python能力进行数据分析。一站式全链路全域数据资产●多样的计算引擎兼容,可利旧降本:除了支持大数据离线和实时计算主流引擎外,我们还会不断探索和集成更多的计算引擎,以满足不同客户的需求。我们会不断优化引擎的性能和稳定性,以提高计算效率和降低成本。在部署的平台底座上,我们也适配支持了不同的云平台,包括阿里云的公共云多租户、阿里云专有云、阿里云公共云VPC部署,IDC部署,以及其他云平台上进行部署。●资产化驱动构建数据:阿里巴巴多年的内部的实践,我们沉淀了一套完整的方法论,帮助数据资产的构建。这套方法论和产品也在100多家客户中进行了深度的验证。●价值导向、消费驱动的数据治理:我们将进一步完善数据治理体系,包括数据盘点、数据质量管理、数据安全与合规等方面。我们还将借鉴和应用更多的经验和案例,不断提升数据治理的水平和效果。同时,我们也会更加注重数据的价值和消费者需求,以提供更有针对性和可用性的数据治理解决方案。在这个方法论中,某一个完整独立的业务对应一个业务板块,数据建模是基于一个业务板块来进行板块●主题域模型:在数据中台,主题对应一个宏观的分析领域,比如销售分析就是分析“销售”这个主题,联系较为紧密的主题的集合就是主题域。每一个行业都可以拆分为有多个(十个左右不等)主题域组成的主题域模型。●概念模型:在主题域的基础上,每个主题域内增加了实体以及实体之间的关系。●逻辑模型:在概念模型的基础上,增加每个实体的属性以及属性的约束。●业务分析模型:行业中重要的以及常用的分析方法与分析视角。在逻辑模型基础上,将业务分析问题转换为Dataphin特有的派生指标,并进一步提炼出原子指标和业务限定。业务分析模型业务分析模型原子指标主题域1主题域2主题域3业务统计粒度派生公共实业务板块的划分总原则是高内聚,低耦合。可以通过业务活动之间以及业务活动与业务对象之间的关系来厘定数据在消费者手中用起来才能发挥数据的价值,全域运营是将数据资产推送到数据消费场景中,让数据在消费者手动实现价值化。全域数据运营板块主要提供一下功能模块:8%文章(Article)图集(8Lo∈收藏(Collect)评8(Merchandise)地理位置oo概念模型主要由业务实体以及实体关系组成。活动有以下几个关键要素(属性):实体关系释义与举例1.业务对象A是业务对象B的属性,则业务对象B关联如:地址是客户的属性之一,客户实体关联2.业务对象A是业务活动C的参与者,则业务活动C关联了继承普通对象B是普通对象A的一种,但是比普通对象A多一些独有的继承了普通对象A。层级业务活动A有三个处理节点B、C、D,每个节点对应一个业务事件,业务事件发生后,A的状态将发生变化。业务活动A包含业务事件如:销售活动包含销售下单,销售付款,销售完结业务活动A有三个处理节点B,C,D,每个节点对应一个业务事件,事件的顺序发生,则B、C、D之间为流转关系。前后序进入业务活动B之前必须先完成业务活动A,则A是B的前序活动,B是A的后序活动。企业在构建数据中台时,首先就是要将企业内部各个业务系统的数据同步集成到数据中台,然后进行后续的数据研发工作。一句话总结数据集成的能力,就是提供不同数据源之间的通道能力,解决异构数据源之间,读取、转换和写入三个流程。Dataphin中的数据集成模块是一个简单高效的数据同步平台,通过组件拖拽式的方式,提供了丰富的异构数据源间高速稳定的数据同步能力,与强大的数据预处理能力,汇集全域数据,打破数据孤岛,为数据中台的建设打好坚实的数据基座。 数据引入:全域数据可集成丰富实时/离线、全量/增量安全自定义引入字段容错可配置测试数据可便捷生成可过滤输出在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,使得企业在发展过程中积累了大量不同存储方式的业务数据,采用的数据管理系统也大不相同。从简单用中台方法论打造企业级好数据的文件数据库到复杂的网络数据库,构成了企业的异构数据源。Dataphin数据集成支持丰富的异构数据源,包括关系型数据库、大数据存储、文件存储、消息队列、NoSQL、API、应用系统等40+数据库。并支持创建自定义数据源,灵活接入数据,提供了数据源的可扩展性与灵活性。关系型关系型数据库大数据存储文件存储消息关系型数据库大数据存储文件存储消息队列半结构化储存自定义数据源半结构化储存自定义数据源OceanBaseTeradataIMPALAVertiOceanBaseTeradataIM3.1.2强大的数据预处理能力与传输配置在数据集成过程中,对于数据安全、同步配置、数据预处理等都会存在一些诉求。Dataphin数据集成提供丰富的数据预处理能力以及任务中数据传输过程中的可配置项。●字段处理:提供字段选择、条件过滤,与字段计算的能力。帮助在同步过程中过滤掉冗杂数据,提高数据质量。●数据安全:对于敏感字段,比如个人隐私信息,在集成任务中可以结合安全模块,对敏感字段进行加密或解密,进一步保障数据在同步过程中的安全。●传输配置:支持限流配置,可根据数据库性能与任务并发数灵活配置;支持条件分发,一个来源数据源以某个条件,二分发到两个不同的目标数据库中,可避免任务的二次配置;支持容错配置,指定集成任务允许产生的脏数据上限;支持运行参数配置与数据库连接配置:可根据场景灵活调整,提升集成任务的成功率与运维效率。字段处理字段处理●字段计算数据安全●字段加密传输配置传输字段处理在进行数据中台建设时,汇集全域数据,需要集成的表体量较大,大量的任务配置与调试工作量会消耗大量人力与资源。Dataphin的数据集成提供任务配置、调试等各场景下的易用性功能,可提高任务配置与调试的效率。●组件化配置:可通过在画布界面中拖拉拽组件进行集成任务的配置,通过无代码化操作,降低任务配置门槛。●实时/离线整库迁移:支持通过配置化的方式进行实时或离线的整库迁移,高整库数据迁移场景下的配置效率。●运行日志智能诊断:将原始日志提取为结构化的信息,包括任务运行信息(运行时长、CPU负载等)、同步通道信息(读取/写入速度,脏数据条数等)。在任务运行报错后,自动提取日志内的错误信息,根据知识库进行相似度检索,提供可能的报错原因与可参考的解决方案,提高排查与调试的效率。传统的数据中台建设过程中,数据模型需要用限定详细的文档记录设计,再基于文档进行代码研发。经过多轮变更后设计文档与实际代码可能已南辕北辙。Dataphin通过规范化、模块化的低代码配置,在设计的同时生成代码,有效的保证了模型与代码的一致性,提升数据质量。Dataphin模型体系中,主题域模型和概念模型属于规划部分,逻辑模型和业务分析模型则属于研发部分。1属性是用来从各个方面描述实体,是纯粹的业务认知。属性的增减完全跟随业务本身的变化,而不是基于业逻辑模型设置完成后,系统将自动生成相应的调度任务。后续如果业务侧发生了变化,重新设十whereorder_date>='20200620′andorder_date<=′202006统计(分析)粒度发布管控是变更管控的子功能之一(后续可逐步拓展研发管控、运维管控等),变更管控分为更规则和变更新了才能运行指标”自动推算需要纳入基线监控范围的任务:添加需要保障的任务或字段后,系统将基于依赖关系自动推算需关联路径与关键实例识别:基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin提供甘特图功能以快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。例运行过程中可能产生的异常,同时提供单个任务每次运行的执行日志,可快速定位异常信息进行进一步分对于任务配置问题或网络环境问题导致的的运行失败,可以通过重跑快速恢复任务运行。某些特殊场景按需分配:实时采集(增量)全入(调度定时回流(分钟/小时/天数据同步(全量)流批统一存储层澄Dataphin在Flink流批一体的能力之上额外提供了更多的平台能力,如数据源管理、元数据管理、元表使得元数据可显示化定义和可管理,安全可靠,支持一次建表,多次引用,承载了权限管控,上下游血缘资产可查可探。流批存储层的统一管理,实现模型层统一,流批代码统一、在一份代码上可同时进行流和批任务的各自专属配置,生产独立有协同的调度实例。●研发运维提效支持基于代码模板等多种开发方式、编辑器智能提示,任务资源及参数的灵活配置,全面的版本管理,对象的批量管理、容器化调试和开发环境多模式测试等功能;支持任务灵活启停、日志和异常信息分类分级查看、丰富的监控指标及灵活多样的告警配置。●稳定性及质量保障Dataphin实时数据质量主要面向开发者,针对产品中实时产出的数据表,通过对产出结果进行数据质量分析和校验,来保障数据的最终有效与准确。支持流量阈值设置,防止计算资源过度竞争,避免下游系统过载。支持实时元表质量监测,可配置统计趋势监测、实时多链路对比、实时离线数据核对。4.特色研发能力Dataphin除规范建模、离线及实时研发及运维能力外,还提供了两种特色的资产构建能力。标签作为企业数据资产的一部分,在数据应用及业务中扮演着非常重要的角色。不同的企业中对标签有不同的应用。如金融机构中,对私客户经理需要基于客户画像进行理财产品推荐。消费金融领域对用户贷前准入有严格审核,需要基于借贷用户以及设备信息建立画像生成风险评估报告,对高风险客户进行有效识别。在零售营销业务中,需要针对不同的用户进行运营,如为促进高价值新用户留存提高复购,制定运营策略“对当天注册为会员的新用户,且满足注册当日消费总金额满100元条件时,对其进行短信营销,派发优惠券”等。标签资产作为重要的资产,也需要进行有规划的建设和管理,业务部门可便捷高效地使用标签资产用于业务。Dataphin标签平台提供了基于标签类目进行标签的开发、管理、应用、治理,实现数据资产商业价值闭环。标签平台基于Dataphin基础研发版能力,面向成熟期企业,提供企业核心商业要素的标签建设与管理能力,帮助企业沉淀好找好用、易开发、好治理的数据资产。目管理流离线标签标签资产类目查询像查询阅平台管理业务规划/资产治理公共云多租户环境资产开发资产应用营销应用离线服务标签平台面向不同角色的人员提供了全生命周期的标签加工、管理与应用功能:从业务场景和诉求出发,可进行标签市场的规划与管理,标签的实体、ID的管理以及标签属性的前置规划,为后续的标签开发及标签应用做好前置的设计和规划。可对标签和群组进行类目管理、对标签和群组的应用进行统计分析,从而进行标签的运营工作。为标签资产建设者提供标签生产、群组加工的工作空间,在工作台可以进行视图和行为关系的定义,基于视图、事件、行为关系进行标签、群组加工逻辑配置完成资产开发与发布,并上架至资产市场。业务人员也可以基于市场的标签或群组进行再加工,生成衍生标签、衍生群组用于自己的业务。依托于Dataphin资产建设模块强大的数据集成、数据研发及运维能力,以及围绕标签资产建设与运营管理的标签平台有其独特的优势:当前我国数据流通还处在起步阶段,数据价值无法最大化释放。因此,数据的开放共享、交换流通成为大数据产业发展的重中之重,快速发展的隐私计算等数据流通新技术为产业"破局"提供了关键Daphin隐私计算,基于隐私计算技术,为企业提供数据可用不可见的数据安全流通方案,帮助企业实现产业间解决企业/机构间数据流通问题解决企业/机构间数据流通问题安全联邦学习安全联合模型机器学习安全数据特征分析安全联合分析预计算安全模型评估数据使用方本地隐私计算节点A-LSCC合作空间数据数据表创建FL逻辑回归FL线性回归数据保护设置隐私集合求交ID安全匹配非平衡ID安全匹配ID安全匹配预计算安全数据加密安全数据对齐安全数据左对齐隐匿信息查询隐匿信息查询预计算运行实例运行帐期运行状态运行日志数据中心数据表数据源文件源数据审批模型审批区块链存证深度学习模型预测项目审批任务审批免批规则调度规则运行状态在线服务定制方案安全联邦学习数据加持方本地隐私计算节点B-LSCC任务创建任务运行任务锁定ID安全匹配隐匿信息查询安全联合学习安全联合分析安全多方计算模型管理FL决策树同态加密差分隐私联邦学习协调中心FL深度学习合作空间共识审计特征分析任务管理4.2.2隐私计算核心能力功能介绍:在弱匿名化的前提下进行ID安全匹配。用于在不泄漏数据参与多方原始数据的前提下,得出共有ID集,非共有ID不会透出。适用场景:适用于一些数据圈选的场景。例如,某银行期望在某电商平台,对【特定非活跃老客】用户进行老客营销,需要求两边客户交集,但两边客户ID不透出,此处可用ID安全匹配功能完成。求A和B共同交集,但双方都不透露非交集部分隐匿信息查询,也称隐私信息检索,是指查询方隐藏被查询对象关键词或客户ID信息,数据服务方提供匹配的查询结果却无法获知具体对应哪个查询对象。适用于一些查询场景,数据查询方不想向数据服务方透露要查询的内容。例如病患想通过医药系统查询其疾病的治疗药物,如果以该疾病名为查询条件,医疗系统将会得知该病人可能患有这样的疾病,从而病人的隐私被泄露,通过隐私信息查询可以避免此类泄露问题。在原始数据不出域的前提下,通过交换各个参与方的算法训练的中间结果梯度、参数信息,或完全在密文条件下进行计算,从而发挥参与多方数据样本更丰富、更全面的优合建模。其中,纵向联合建模,联合多个参与者的共同样本的不同数据特征进行联合建模,即各个参与者的训练数据是纵向划分的。横向联合建模,联合多个参与者的具有相同特征的多行样本进行联合建模,即各个参与者的训练数据是横向划分的。十十纵向联合建模,适用于参与者训练样本ID重叠较多,而数据特征重叠较少的情况,例如某银行和某电商平台,分别拥有一部分客户数据,拥有的客户特征不一样,银行拥有客户的金融信用数据,电商拥有客户的电商消费数据,期望联合两方数据训练精准营销模型,则适合使用纵向联合建模。横向联合建模,适用于参与者的数据特征重叠较望联合两方数据训练共同训练评分卡模型,则适合使用横安全联合分析功能介绍:在原始数据不可见的前提下,提供SQL模式对多方数据进行联合分析。适用场景:适用于双方数据不共享,但有一些统计分析的需求。例如电商平台在媒体平台进行了营销广告投放,投放结束后,电商平台期望能联合两边的数据,进行全链路的营销活动复盘分析,就可以借助联合分析功能实现。客户A客户B十十原始数据不出域,完成联合分析4.2.3隐私计算核心优势●安全性高Dataphin隐私计算,拥有全链路数据保护和权限管理机制,在数据的数据源调取、算法使用、算法变更环节,隐私计算都会发起授权,需要数据合作方进行确认审批,保证数据的使用不会出现数据合作预期之外的场景,全程清晰可见。另外,Dataphin隐私计算底层加密算法全部自研,自研算法在多个顶会中稿,底层算法能力已开源。并且,瓴羊Dataphin隐私计算已获得工信部、ISO、国家金融评测中心三大类评测。●性能优越Dataphin隐私计算生长于阿里数据中台实践,在解决大数据场景下有优越的性能,支持百亿级别的PSI、亿级别的SQL分析,千维联邦学习,隐匿信息查询秒级返回。安全性和性能是隐私计算领域的两大挑战,想达到很高的安全性,性能必然受到影响。瓴羊Dataphin隐私计算,结合了大量的场景实践,创新性提出了智能计算模式,能保障安全性的前提下,能根据场情况,自动选择最优的协议、最优的计算引擎、最优的算法,自动为该场景匹配最优的计算模式。随着各行各业数字化转型进程的加速,业务数字化的基础日渐扎实,数据驱动业务或数据化运营,不再是传统头部企业及大型互联网公司的专利,越来越多的企业也在拥抱数据、消费数据。因此,数据治理的诉求呈现出日渐强烈的趋势。治理的价值在于构建企业内一份质量可靠、安全可控、服务便捷的好数据,让数据价值得以释放。然而,数据治理并非一蹴而就。一般围绕四大关键领域“成本、质量、安全、服务”开展工作,进行目标设定:●生产经济:以控制甚至节约成本为目标,实际运作则需要拆解到业务线或者不同领域范围的成本控制,比如销●质量可靠:以减少数据质量问题、收窄数据质量风险敞口为目标,实际运作则需要拆解到应用场景或不同数据等级,如优先保障高管数据看板、驱动业务运行涉及的数据质量等;●安全可控:以满足合规要求、防止数据泄漏为目标,实际运作则需要拆解到不同的数据类型或流程环节,如隐私数据、监管报送数据等;●服务便捷:以盘点供给丰富的数据、驱动数据消费为目标,实际运作则需要拆解到不同的业务线、数据类型及数据资产管理:360°全链路数据洞察与管理数据需要资产化管理,而非当做成本表、指标、API等资产对象全景呈现按图索骥确信字段级血缘可追溯物理元数据及逻辑元数据管理数据标准、码表、词根定义及管理o敏感字段脱敏及防泄露资源陈本管控可治理自定义规则扩展及强弱规则阻断告警基于资产元数据的落标关联映射源、表、字段级资产分类分级及数据识别计算存储健康度评估数据质量资产安全资源治理下面,我们就来详细看一下每个具体的功能模块在全链路资产治理中发挥的重要作用。统一元数据业务元数据数据质量数据标准数据安全资源治理针对不同来源的资产数据,Dataphin支持不同的采集方式,以更好地适配使用诉求。Dataphin系统支持自动、定时采集仓内数据资产(即项目绑定的计算源中存储的数据资产)的技术元数据信结合从源端系统采集到的技术元数据和资产盘点过程中丰富的业务管数据,资产管理人员可快速了解数据资产概貌,资产开发和使用人员可快速找到所需要的资产并查看资产详情,大大降低了沟通成本,快速打通资产消费链路。Dataphin支持管理多种类型的资产对象,包括:数据表(8种细分表类型)、字段、指标、数据源、项目、API、标签等。每种资产对象根据使用场景和使用方式,在资产目录展示了不同的信息项,便于消费人员更直接、更快捷的找到自己需要的信息,并评估是否满足使用诉求。如:数据表资产,除了基本的表结构和字段信息,还展示了血缘和影响分析,便于在数据变更时准确评估下游影响并通知到相关人员;可快捷查看已配置的质量监控规则和质量报告,便于了解数据质量,判断是否可用于开发或分析任务;支持快捷发起数据探查以了解数据分布概要、识别是否有主键重复、空值等影响数据准确性的潜在风险等等。基于统一的元数据采集与管理,下游应用也更加灵活丰富。与全链路数据治理的基石。数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,通常从业务、技术、管理三方面进行定作为资产治理的重要一环,Dataphin数据标准模块为数据标准的建设提供统一的产品化能力,支持:数据业解决数据建设管理过程中遇到的规范性、统一性问题,提升企业整体数字能力建设的标准化成熟和资产的健康度。DataphinDataphin支持数据标准定义与应用,同时结合质量、安全的能力,从数据开务和支持。数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程标准模板配置自定义属性引用公共属性标准视角落标评估明显资产视角落标监控评估资产评估推进整改指导消费监控规则业务信息数据开发属性信息数据标准参考数据资产对象修订中④到达生效时间已生效已停用⑥下线发布中标准创建完成后,需要和对应的资产对象关联起来才能真正实现其应用价值,实现对资产的规范性约束。映射条件:标准英文名=字段名称标准集item_id(无法映射)落标映射资产对象落标监控评估的结果统一在“落标评估明细”页面呈现。落标评估明细提供了两种查看视角。针对不满足关联标准定义的资产,标准管理人员可以推动研发人员可以尽早进行整改,从源端保障数据规范性和统一性。内容质量:系统模板/完整性/..目数据标准常常需要和参考数据一起使用,才能更好地适配业务需求。常见的参考数据包括码表、词根。码表可用于约束标准属性字段的取值范围,提升标准定义的准确性。词根常用作词缀并作为数据表、字段等研发对象命名的参考依据,以提升命名规范性减少数据消费时的不一致性和理解误差。Dataphin数据标准模块支持码表和字根的创建和管理,研发链路中也支持基于已定义的词根自动推荐字段规范化命名和关联标准,大大降低了标准管理人员的操作成本。总体来说,作为资产治理的重要一环,Dataphin数据标准功能为标准的统一管理提供了灵活的产品化能力支持,同时也能减少人工监控成本,为标准的落地执行提供了强有力的保障,让数据消费通畅无歧义。Dataphin智能数据建设与治理整体工作提升质量整体工作提升质量·支持异常监控告警、质量整改建议、异常数据归档查询等功能·支持整改工作台跟踪质量问题研发流程质量保障内置模板全面覆盖全域数据质量检验量校验统、数据消费的数据应用进行质量校验数据质量核心能力研发质量校验方式·支持阻断任务,防止质量问题扩散·内置完整新、唯一性、有效性、准确性、覆盖常用业务场景全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控。Dataphin能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:支持范围支持Dataphin上的物理表和100+不同监控指标的质量规则校验支持MySQL、Oracle、Hive、表的质量检测100+不同监控指标的质量规则校验注册到Dataphin上的数据源的稳定实时元表实时指标监控实时离线对比实时多条链路对比5.3.2丰富的内置质量规则模版量模版分类下28个模版共计100+不同监控指标的质量规则校验:分类说明(主要基于DAMA)企业有1000员工只有600人有联系方式唯一性对字段是否唯一进行校验。员工身份证号码在系统看到相关信息员工年龄-1岁,无效比较不同数据表的主键是否相同、单价总监,在销售系统是主管校验数据产出是否稳定,也可以用于校验业务数据是否稳定校验数据总大小/总条数是否稳定,以及数据的汇总值、平均值是否稳定等当一个月波动20%的时候可能存在异常自定义SQL支持自定义指标监控和自定义异常数据提示:此处仅针对模版的整体能力进行说明,每一个分类下都有更多的模质量分大盘全局质量分*日期2023-09-04全局质量分趋势项目质量评估数据源质量评估个人质量分评估00项目质量分排行详情日环比周环比监控资产数数值已选字段(7)日环比周环比234针对已发现的质量问题,提供问题的统一查看和管理、快速发起整改流程并跟进整改进度等功能,助力提升质整改完成后可以重跑校验规则查询最新的校验结果,校验通过后可主动发起验收。整改任务发起人收到整改此外,对于暂时不需要治理的治理项,可以放入“治理白名单”进行统一管理,会正常执行,但不会生成待治理项。在治理白名单页面,可以针对白名单进行统一管理,如修改白名单生效时度数据安全事前-敏感数据识别·全量敏感数据自动识别事前-敏感数据识别·全量敏感数据自动识别·识别记录支持查看与管理·落地企业数据分类分级标准·密钥权限统一管理和审计·敏感字段在权限流程额外·常用加解密/脱敏算法事中-敏感数据保护事后-安全风险与审计·代码任务支持动态脱敏·确保敏感数据不泄露数据分类是安全模块的基础,数据分类的定义包含了业务场景、识别方式、敏感等级的信息。安全的自动识别和脱敏保护都依赖于数据分类。Dataphin内置了“通用”和“金融”两个行业模型,包含了大量行业常用的数据分类信息,用户可以根据自己的需要,一键引入内置的数据分类,并支持根据企业自身特性进行自定义修改,快速实现企业数据安全分类体系的冷启动。全部(212)作业务类(85)账号信息(a)0交易信息(3)合约协议(54)法定数字货币能包信息(1)e客户类(96)▶个人(59)▶单位(37)经营管理类(31)5.4.2智能的敏感数据识别通过自动识别和人工打标,可以快速生成企业的敏感数据清单,该结果可用于后续权限申5.4.3内置丰富的脱敏算法,动/静态脱敏更好保障敏感数据集中管控,快速服务业务系统在数据的消费场景中,除了简单地提供数据表,另一种常见的方式是提供数据服务,也被称为APl或接口,这种方式可以改善用户的使用体验,更加便捷、安全和高效。在企业中,常见的数据服务场景如下:对内的数据服务:企业不同部门之间通过数据服务实现数据共享,实现跨部门的协作;数据部门提供数据服务给业务团队,实现数据赋能业务,用于进一步的商业分析决策;对外的数据服务:企业将部分数据服务开放给合作伙伴或第三方,实现数据变现。但是,在传统的数据服务开发模式中,一般数据服务的需求从提出到交付分为:需求提出-需求分析-需求评估与设计-开发-测试-上线-交付,完整的流程往往需要花费超过2周的时间。而且,在接口上线后,如果业务需求发生变更,则需要重新提交需求,安排迭代和开发。这种开发模式对于不同角色而言存在以下问题:问题管理者业务场景多样,个性化需求多数据接入方式多样,接入效率低多物理表关联查询SQL代码复杂,维护困难没有全局服务市场和详细资料,不知道怎么查找已有服务定制化开发响应缓慢,无法快速满足业务需求市市场与调用服务运维服务开发管理API申请发布系统配置网络配置数据服务市场服务开发Notebook是集文本与SQL查询于一体的交互式数据分析笔记本。在SQL查询任务的功能基础上,支持了7.3Dataphin分析平台使用场景为分析平台绑定专用计算源,分析师可直接在分析平台中使用致最新数据不能及时共享出去。主题式的目录,打造精品数据随着数据量的不断增长以及消费场景的多样化,当前单一的数据目录已经很难满足数据管理者和消费者对于资产管理和查找的需求。对于数据管理者来说,常常遇到以下问题:不同场景有不同的数据分类组织方式,难以使用一套目录承载数据资产多且杂,难以快速识别核心资产,也无法区分业务关心的资产精品资产缺少推广链路,资产价值难以发挥对于数据消费者来说,查找所需资产时也会遇到以下阻碍:无关数据一大堆,真正关心的找不到难以评估资产价值,用资产时小心翼翼种种困难和吐槽的背后,核心原因是缺少一套有效的资产管理及运营体系,数据难以与业务形成有效连接,数据资产价值无法发挥放大。Dataphin的资产专题功能,致力于打造面向主题的精品数据资产建设和运营生态,帮助数据生产者和消费者提升工作效率,持续提升资产价值。Dataphin的资产专题支持三层管理结构:专题分组-专题-专题目录。每个专题分组下可以创建多个资产专题,每个资产专题下可以创建最多五级目录。基于这种结构,可以实现多层级、多视角的资产分类管理。如:创建一个技术视角的专题分组,首先按照数据分层创建专题(如:ODS层、中间层、应用层等);每个专题下,再按照数据来源和存储项目划分目录;再创建一个业务视角的专题分组,按照业务场景划分为不同的专题,每个专题内按照业务实体和活动划分不同的目录。这样一来,数据开发人员和运行分析人员在查找资产时,都可以选择最适合自己使用习惯和诉求的专题,更快捷的查找目标数据。除了基础的分类功能,支持给资产专题增加“是否精品”的标签。针对典型的解决方案相关的数据,或某些高质量、应用范围较广的数据,可以通过添加到精品专题的方式进行主动推广。此外,在专题广场,所有成员都可以对专题进行收藏、点赞;运营管理员可以结合这些反馈,有针对性的进行推广操作。总体来说,数据管理者可以借助资产专题功能打造主题/业务团队等多个精品资产的运营阵地,从多视角切入进行资产盘点并评估资产热度,优化全局资产供需匹配机制,以便提供更好的资产服务;数据消费者也可以更容易地搜索需要的资产,收藏精品资产专题或为其点赞,实现业务数据资产的一站式查找&自助消费。义数据源的开放能力,帮助企业实现各类应用对接Dataphin、结合系统元数据进行二次开发、对接内部审批系统Dataphin提供各模块对应的OpenAPI,通过调用这些支持将Dataphin基础研发平台的部分能力集成到其他系统中,包括离线脚本任务和管道集成任务的查询协助企业构建个性化的运维工具,通过API可完成离线脚本任务和管道集成支持使用部分Dataphin平台级别的功能,包括创建与管理数据源、查询项目信息、管理租户和项目中的成客户可以结合业务场景进行二次开发,以更好地满足对下游业务的适配性;也可以对数仓开发任务等进行更细粒9.3审批与消息集成产品订购与服务说明Dataphin支持公共云共享模式(全托管)、公共云独享模式(半托管)、本地化部署和阿里云专有云这几类订购与部署模式。Dataphin提供多种可售版本,每个版本对应不同的基础功能组合,以满足多样化的企业诉求。每个版本在最小功能合集的基础上,可根据实际需求场景灵活叠加购买增值功能包,以夯实数据建设与治理基础,更好地对接上层应用服务。1.1公共云共享模式(全托管)阿里云公共云环境下,Dataphin支持即买即用的在线服务订购。您可根据需要选购不同的产品功能规格及订购时长,详情如下:●可选地域:华北2(北京)、华东2(上海)、华南1(深圳)、华东1(杭州)●云资源依赖:根据购买版本及规格,Dataphin为每个用户分配一定额度的调度资源,您只需关注开发需要使用的计算引擎(如MaxCompute、FlinkVVP)并进行相关资源配置,无需关心其他产品部署所依赖的底层资源,即可快速开启服务。1.2公共云独享模式(半托管)此外,Dataphin支持阿里云公共云独享模式(半托管)。相比于公共云在线服务,您可以独立掌控软件部署和任务运行所需要的相关云资源,购买后,云平台将基于资源在指定VPC中实现自动化部署,具备更好的安全性和可拓展性,此外,您可以自行控制产品的升级时间,享受更加自由、灵活、自主可控的云上自助体验。·云资源依赖:需要单独购买软件部署依赖的底层资源(如ECS、Redis、RDS等)、任务调度资源和计算资源,可灵活进行资源扩容除公共云服务外,Dataphin支持本地化部署,并可适配多云平台及多种计算引擎,包括MaxCompute、特定诉求。“以客户成功为核心”是Dataphin深植其中的服务理念。Dataphin团队不仅提供技术支持,更倾力构建与客户的深度协同与沟通桥梁。从精细的需求管理、系统变更的策略规划,到个性化的实战培训方案,Dataphin始终致力成为客户在数据转型旅程中的可靠盟友。每一次服务我们都力求为客户的业务创新与增长注入动力,最大化数据资产的价值回报。 客户成功计划:充分发挥Dataphin的能力价值结果智能数据建设与治理好数据、数据智能数据能力客户成功计划先进的平台完备的功能良好的性能持续的迭代稳定的系统及时的支持专业的指导个性的陪伴充分发挥我们的合作之旅始自综合服务矩阵,这是一套解锁数据潜力的全面工具集。无论是依托于阿里云的强大生态系统,还是融入其他云环境,Dataphin均能展现出其高度的灵活性与适配性,确保无缝对接。我们提供专业的部署服务,搭配详实的部署指南及运维手册,加速客户技术团队掌握关键技能。此外,定制化的远程专家培训课程与丰富的在线教育资源,将迅速助力客户成为数据治理领域专家。 支付客户成功计划支付客户成功计划基础服务(标准包、高级包)面向订阅制且订购高级技术支持服务客户、部署的新客户提供标准的软使用产品的必要技术支持和服务。包括软件升级更新、系统监控、在线基础技术支持、在线帮助及答疑响应等。及更高阶技术支持的服务,面向客户提供高阶的技术支持和运维,包括更高时效及更广时间贴合需要的产品培训及实训、个性化专属的需求管理及系统集成、系统护航等高阶服务。构、数据架构、数据开发产品客户成功计划初始化服务是客户成功之旅的起点。我们提供定制化的部署咨询与实施服务,确保Dataphin能够在客户的操作指南和丰富的在线教育资源,我们助力客户团队快速掌握数据管理的核心技

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论