




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融业数据应用发展报告(2022)目录第一章4数据兴与用 4政策标准 7金融数应发特点 11第二章据素值系 20数据产系 21数据理系 42第三章据力设营 47金融数服建设 47金融数产创新 50金融数运管理 52第四章术状安护 69数据集存储 69数据算 77数据析掘 89数据视化 99数据全术 104第五章险战应对 120顶层计政策 120法律规标准 122业、、的合 124数据产理 126数据全合规 127第六章展望保系 130市场体展元化 130数据用业态 132数据用障系 135第七章型例 153数据素值例 153数据力设例 165技术状安防案例 190PAGEPAGE111第一章概述数据的兴起与应用随着大数据、云计算、人工智能等新技术的快速发展,评估、交易欺诈识别、精准营销、供应链金融、运营优化、过程中收集和产生的数据,包括金融机构的用户基本信息、回等。通过基于金融大数据的精细分析,可以优化运营。例如此外,金融大数据与人工智能技术深入融合实现智能金融,贯穿金融机构服务的全流程,包括使得金融机构可以优化业务,例如应用生物识别等技术在手机银行、智能柜台等方面,使得业务流程更为精简高效,同时为人们提供更多样性的优质金融服务,应用智能客服提高与客户的沟通效率、在这些金融大数据的应用中,金融行业数据的共享、开逐步运用到金融数据应用中。融合,探索多方安全计算、联邦学习、可信执行环境等不同隐私计算技术路线的落地应用,在敏感数据或隐私数据不出域的基础下完成跨机构之间的联合计算、联合建模、联合查询等,打破数据孤岛,实现数据的可用不可见,并有效保护数据控制权,挖掘数据价值的同时避免数据的流失与滥用。泛的领域。金融联合风控、联合营销、存客运营、反欺诈、反洗钱等多种金融应用场景均已开展基于隐私计算技术的政策与标准金融数据的技术融合应用目前处于加速探索阶段,各种政策、法令法规、标准在近年来相继制定。20198(2019-2021能力、加大金融审慎监管力度、夯实金融科技基础支撑,发挥金融大数据的集聚和增值作用,推动形成金融业数据融合应用新格局。20204平与数字化水平发展的同时可以深入地探索数据要素化的20205同时,各种数据安全相关的政策法规相继制定和颁发,20157家安全的范畴。201611(2017616(2021年9月1,2021811),将“个人信息受法律保护”上升至公民基本20185融机构数据治理指引》,明确了金融机构的数据治理架构、20211(以下简称监管数据活动处于可用、完整和可审计状态,未发生泄露、篡改、损毁、2021220219主体活力和科技创新能力。金融行业是数据密集型行业,拥有海量的个人敏感数据,是在满足保护个人隐私敏感信息和确保数据安全的基础上。多方安全计算等隐私计算技术继续推动金融跨机构间的数据共享与价值挖掘,以安全、可信、可控的方式实现金融数据的融合应用与创新。金融业数据应用发展特点据安全合规等方面建设,为业务场景提供智能化、实时化、能力平台化三个方面对金融业大数据应用发展特点展开介绍。数据价值要素化元融合新阶段。数据更新快等原则,从企业级视角出发,协同业务和技术,述客户画像的标签体系、用于多维度分析的多维数据模型、用于关联分析的知识图谱等。数据资产化能够提升数据的价安全重要性越来越高。2020410首次将数据定位为新型生产要素,与土地、劳动力、资本、技术并列;2021610数据运营服务化BI计算、知识图谱、OCR推送等增值服务,有效降低交易成本并提升服务体验。5G来,在线业务和相关应用场景呈现井喷式发展,客户需求瞬息万变、对服务的响应速度更为敏感,常规的离线系统已经无法满足业务发展的需求,金融企业应主动变革去提供优质的实时化服务。目前,金融企业正在逐步推进服务实时化。如:在线业务中,系统能够实时地获取用户的行为,并根据当前的情况推荐最契合用户需求的服务;在风控场景中,系统能够实时地感知用户自身和周边环境的变化,实时地进行交易反欺诈、智能反洗钱、信贷风险监控、信用卡逾期预警灵活敏捷的数据处理流程、低代码甚至无代码的开发模式、共享不局限于某一个业务领域。行业务创新的企业架构,对不同层级的通用能力进行沉淀,并对外能力开放。服务中台化是实现这一目标的有效途径。技术能力平台化DevOpsCI/CDDataOps平台通过微服务+容器技术,推进数据加工和服务能力的整SeverlessAPI数据业务化的过程涉及到数据采集、数据治理、数据聚合、发自动化工具,实现数据能力的抽象、共享、复用。同时,数据集成开发环境,帮助应用租户自助式的创建数据服务APIAPI;在标签开放层面,用户标签是业务强相关数据,数据中台通过轻量化标签开发模式支持业务部门自助式进行API第二章数据要素价值体系加快推进数据价值化、发展数据要素市场是数字经济的关经过近些年的理论研究及实践经验证明数据治理和数供一些指导建议。2.1.数据资产体系数据资产分类数据资产分类的概念与价值金融行业的数据资产分类,应当是按照一定分类方式,主要为:形成数据资产目录,有效进行数据管理;便于数据资产检索,方便获取所需数据;实现数据开放共享,释放数据潜在价值。数据资产分类的方法数据资产分类的构建原则系统性原则数据分类宜基于对机构所有数据的考量,建立一个层层划分、层层隶属、从总到分的分类体系,每一次划分应有单一、明确的依据。数据类目的排列宜依据数据类目主体之间的内在联系,遵循概念逻辑,遵循最大效用原则,将全部类目系统地组织起来,形成具有隶属和并列关系的分类体系,以揭示出机构数据不同类别之间的联系和区别。规范性原则所使用的词语或短语能确切表达数据类目的实际内容性。稳定性原则宜选择分类对象的最稳定的本质特性作为数据分类的基础和依据。明确性原则同一层级的数据类目间宜界限分明。当数据类目名称不能明确各自界限时,可以用注释来加以明确。扩展性原则在数据类目的设置或层级的划分上,宜保留适当余地,利于分类数据增加时的扩展。数据资产分类的构建方式按数据来源主体分类按照控制数据的主体进行分类为目前最常见且直观的分类方式。个人数据((据、位置数据等)。企业数据(企业直接交付的数据产品或服务。公共数据政府部门在履行公共管理职能的过程中积累的大量数行的数据之外,都属于公共数据。按业务分类参照《信息安全技术网络数据分类分级要求》中的资料性附录A.2金融行业数据分类分级,根据各金融机构所管辖数据类型、特征、规模以及机构特性等因素进行分类分级。金融数据资产分类的实践及问题过程中,普遍遇到的痛点如下:金融数据资产的范围圈定金融数据资产分类。金融数据资产管理的系统建设在合规的前提下完成高性能的系统运算成为数据治理系统数据资产目录数据资产目录的概念与价值个视角对本行数据资产进行内容开放共享的目录化管理工数据查询效率。数据资产目录建设的方法数据资产目录类型数据资产目录可以分为“基础型数据资产目录”和“服务型数据资产目录”两类。支撑业务部门运营需要。表2-1基础型数据资产主要使用角色和场景主要角色角色举例主要使用场景举例IT部门运维人员数据仓库等运维人员数据模型开发、数据溯源查询业务运营人员零售业务部等业务人员查看分析报表、根据需求取数数据科学家大数据开发人员等数据分析团队查找模型所需数据接参与可衡量经济价值场景的,以数据分析为驱动的应用。表2-2服务型数据资产主要使用角色和场景主要角色角色举例主要使用场景举例数据运营人员数据产品等运营人员企业内部数据产品共享企业管理者行内高层管理人员查看行内数据资产、外部合作业务人员各业务条线人员查看可访问的数据资产数据资产目录的构建原则与方法数据资产目录构建的目标是通过建立统一的数据资产目录和管理流程,让数据资产管理标准化、合规化和透明化,并建立统一、简洁的数据资产管理平台。“可寻找”数据资产在哪里,“可区分”数据资产是什么,“可衡量”数据资产的数量、价值等指标。数据资产目数据资产目录的构建目标、原则与方法数据资产目录的体系构建指引数据资产目录的设计原则建立统一、简洁的数据资产管理平台数据资产管理标准化、合规化、透明化数据资产目录的目标合理的数据资产分类可识别可识别可区分经营管理任务驱动经验结合可寻找可衡量支持外部监管逐步建设图2-1数据资产目录的构建目标、原则与方法金融业数据资产目录建设实践及问题对于数据资产目录实践现状,尚存在一些问题需要完善,具体如下:范围方面:目前大多金融企业构建数据资产目录类型方面:随着对于非结构化数据的探索需求日部门。目录中确保数据安全可控的实践还较少。管理方面:数据资产目录要想长期动态维护和管张Excel配目录数据的查询和使用权限。数据资产定价数据资产定价目的与原则定价目的估与定价。定价原则总结了以下原则:价值相关原则或单独数据资产的切分都会大大影响其原有资产状态下的价值,需要重新对其价值进行定价。应用相关原则其最终应用场景时的数据单元进行定价。动态适配原则规模相关原则效益越高。数据资产定价机制参与主体与职责统筹数据定价机制的总体建设。的重要作用。挥带头作用。不断反馈自身诉求,为数据资产定价机制的施行提供全面的实践基础。定价机制数据资产的定价可以分成数据资产估值与数据资产定价两个阶段。数据资产估值金融机构或大型数据企业在进行自身数据资产估值时,可借通过专业的数据资产评估机构或先进的数字化评估系的特殊性,如具有可复制性、数据可用效果的不确定性等,数据资产估值过程中,除了要以利于数据要素市场化流通利数据资产定价数据资产定价方法对于数据资产的定价可以在参照传统资产的定价的基为以下三种:可能会低估数据资产的价格。于信息熵的定价通过对数据资产的元数据的隐私信息含量、数据资产估值理论方法使用货币度量的估值方法与无形资产的非货币度量的估值方法相结合进行综合应用。货币度量估值方法货币度量的估值方法以传统资产评估方法为代表,主要包括成本法、收益法以及市场法三大类。成本法数据资产的成本法是对数据资产进行生产或购置时所旧贬值后的差额。收益法数据资产的收益法是通过估算数据资产的使用价值以很大程度的不确定性,因此需要清晰把握数据资产与企业经营收益之间的关系,并对所伴随的风险价值进行预测。市场法数据资产的市场法是按市面上同等的数据资产的现行市场价格为参照,通过比较被评估的数据资产与参照的数据资产之间的差异并加以分析评估。由于市场法采用了比较和类比的思路估测数据资产的价值,因此需要有一个充分发育、活跃的数据资产市场,另外就是作为参照物的数据资产与被评估的数据资产之间具有可比较的参数等信息是可搜集到的,否则市场法模型将难以应用。非货币度量估值方法资产的正确性和完整性等方面进行度量的内部价值(IVI,IntrinsicValueofInformation)模型,有从数据资产对业务的实际使用效用方面进行度量的业务价值(BVIValueof业务目标的实现和影响方面进行度量的绩效价值(PVI,PerformanceValueofInformation)模型。内部价值模型重点考虑了数据资产的内在价值,业务价值模型考虑了数据资产与业务的相关性,绩效价值模型从数据资产对组织业务的关键性前后组织的KPI其价值进行评估。控重点,自适应得对计算因子和计算权重进行调整和优化,数据资产定价模型于金融数据资产的定价模型参照实体资产定价模型大致可于博弈论的定价模型。基于经济定价模型模型只考虑生产数据资产的内部因素来决定价格,结构简单。500MB基于博弈论的定价模型弈、斯塔克伯格(Stackelberg)博弈、讨价还价博弈等。数据资产定价当前问题和挑战被复制和传播也就容易造成数据使用者损害数据拥有者权的定价。征数量、记录条数等来衡量都不能准确地反映数据的价值,造成对于数据资产定价的不准确或具有主观性。价者站在从数据使用者的角度和围绕当前的数据资产可以富的市场经验和洞察力。方面需要交易活动的参与方积极主动地进行数据安全保障和投入,这些安全的投入程度对数据定价有着重要影响。2.1.4.数据资产全生命周期管理数据资产全生命周期管理的理论方法数据资产全生命周期管理是用于组织数据资产的设计据生产、使用、治理,实现效益最大化。析和数据资产投资收益分析等方面。数据资产全生命周期管理的主流模型DAMADAMA(国际数据管理协会最后是清除。地理空间模型地理空间数据生命周期模型由联邦地理数据委员会(FGDC)//评估和归档。处理此模型是为了发现具有可接受的质量和业务需求的数据以供将来使用。DataONEDataONE据模型旨在为生物和环境科学研究提供数据保存和再利用,数据生命周期包括收集、保证、描述、存放、保存、发现、集成和分析,可用于存储和检索长期使用的信息。DDI数据文件倡议(DDI)是大学间政治和社会研究联合会数据分析和重新调整用途。金融数据资产全生命周期管理的实践和问题金融数据资产全生命周期管理的实践数据资产管理的组织方式自上而下的顶层设计模式和自下而上的各个击破模式两种自下而上两种方式。步完善。数据资产管理的切入方式在建设策略方面,一般从生产系统入手或数据系统入手。从生产系统入手的常用建设模式包括企业数据模型建设模式以及主数据建设模式,从数据系统入手的常用建设模式包括统一数据平台模式和数据集市模式。为稳妥,也易见成效。三大挑战金融数据资产全生命周期管理体系有待进一步健全数据资产管理最重要的成功要素之一就是重视组织管命周期管理的优势。进一步释放数据价值需要始终聚焦于业务应用数据资产化进程给各类企业带来重生、颠覆和创新,企业应重点关注、顺势而为,建立起符合自身业务和数据特点数据资产全生命周期管理是否成功取决于企业商业模式略资产的商业模式,可以决定企业未来。2.2.数据治理体系数据治理基本框架一致的数据治理体系。基本原则附属机构。匹配性原则。数据治理应当与管理模式、业务规模、风险状况等相适应,并根据情况变化进行调整。持续性原则。数据治理应当持续开展,建立长效机制。有效性原则。数据治理应当推动数据真实准确客观反映金融机构实际情况,并有效应用于经营管理。合规性原则。数据治理应当符合国家、行业法律法规和金融机构自身的内部规章制度中对数据的相关要求。组织架构工。数据管理数据管理是指通过制定和实施系统化的制度、流程和方法,对数据进行管理,包括但不限于数据规范、数据架构、数据需求、数据质量、元数据、数据安全、数据变更、数据生命周期、数据档案和资料管理等工作。数据质量控制时性。数据价值实现精细化程度,发挥数据价值。数据治理的组织架构职责分工,建立多层次、相互衔接的运行机制。效性,对数据治理承担最终责任。金融机构监事会负责对董事会和高级管理层在数据治理方面的履职尽责情况进行监督评价。向董事会报告。置监管数据相关工作专职岗位。价值。金融机构应当在数据治理归口管理部门设立满足工作需要的专职岗位,在其他相关业务部门设置专职或兼职岗位。数据治理的制度建设数据治理制度,及时发布并定期评价和更新。构建金融机构数据治理制度体系,首先应符合监管要求和本机构的数据战略,其次应充分结合数据治理组织架构与管理现状,体现、贯彻和落实数据治理顶层设计要求,逐步将数据治理体系纳入本机构的管理实践中。根据数据治理相关制度的定位、重要程度、管理范围,可分为基本规章、专业管理办法、操作规程。定依据。制度。据治理专业管理办法的进一步细化。数据治理的发展方向素基础,实现数据对数字化转型的赋能。扎实推动数据治理,保障数字化转型。制定数据标准规范,持续提升数据质量。内外数据融合共享。构建快捷、易用、多样的数据服务能力。推动数据资产管理能力建设。制定数据安全策略,强化数据风险管控。提升数据思维能力,普及数据文化。第三章数据能力建设与运营金融业数据服务建设数据服务能力地图(例如元数据添加相应的特征,拟或基于云端的存储卷中。而输出通常是指:(数据库(数据仓库(据湖)源中提取数据。平台。析或机器学习软件的一部分。数据服务标准建设组成的体系,通过这套体系来推广和应用统一的数据定义、技术类应用标准用于指导金融行业开展数据接口服务金融数据服务的标准建设应遵循用户授权、安全合规、分类施策、可用不可见四大原则。金融数据服务也需在数据分布方面制定服务标准。数据分布采取的工作措施包括从企业层面对数据分布关系制定统一的管理系统,统一数据分布关系的表现形式和管理流程。通过数据分布关系的梳理,优化数据的存储和集成关系。实现数据分布关系管理流程的自动优化,提升管理效率。数据服务能力评估体系建设IT相关的成熟度模型,国际上有几套标准:COBIT5、GartnerI&OITScore、CMMI。Gartner的I&OITScoreITIT的成熟COBIT(董事会(CEO)分开,IT国标的IT服务能力成熟度评估模型借鉴了国际上多套需求分析、规划设计、部署实施、评估改进。DCMM数据管理能力成熟度评估的依据是国家标准GB/T36073-2018理情况发展的基础上,整合了标准规范、管理方法论、数据管理模型、成熟度分级等多方面内容。金融业数据产品创新数据产品创新浪潮根据经典的DIKW(DataInformation-信息、KnowledgeWisdom-智慧过清洗、聚合、计算等手段,形成更高阶的数据,即信息、知识和智慧。1.3载体。数据产品创新的方法论随着大数据、云计算、物联网、隐私计算、区块链等信息技术的迅猛发展,以及企业内外部环境变化和消费者需求深度结合,能有效提升服务效率,进行服务模式变革。技术导向与市场导向深度结合,能有效提升服务效率,进行服务模式变革。学习导向与迭代创新产品创新广泛应用的方法。愿景导向与开放心智坚持愿景导向有助于大数据企业明确其目标和使命,以努力达成其共同愿景,促进企业不断完善健全制度机制并寻找合理方法,两者结合促进数据产品创新团队积极主动解决问题。在敢于质疑、敢于采用新技术的同时,数据产品的创新要持续坚持以用户价值为依归、智慧为民、科技向善、公平普惠,切实增强人民群众的获得感和幸福感。另一方面,促使企业不断完善健全制度机制并寻找合理方法,为数据产品的创新提供更适合的企业内部环境。风险意识与监管科技数据产品创新要始终践行安全发展观,时刻考虑风险意识,创新的同时为金融业健康发展提供坚实保障。坚持促进创新与防范风险相统一、制度规范与自我约束相统一。事前运用大数据、人工智能等技术识别潜在风险点和传导路径,增强风险管理前瞻性和预见性;事中厘清关联关系、研判变化趋势,实现对高风险交易、异常可疑交易等事件的动态捕捉和智能预警;事后通过数字化手段实施自动化交易拦截、漏洞补救等应对措施,推动监管科技相关的数据产品创新。金融业数据运营管理数据资产的运营体系,可以从数据资产与产品化运营、组织体系运营两个方面展开。其中,在数据资产与产品化运营方面,包含以下五点:定义数据资产运营目标;要求;持续供给;此框架进行周期性的价值评测;理体系,实现闭环的数据运营体系。数据运营体系建设现状及目标数据运营的现状分析当前,金融机构正处于数字化转型的深水区,尤其是2020年新冠肺炎疫情的突发和国内外经济形势的错综复杂,2020年4月9重大课题。金融机构数据资产运营现状金融机构在数据管理向数据资产管理与运营的转型中,数据资产运营创新要素以金融科技战略为指导,构建相应的数据治理体系。数据治理创新。在金融科技的战略目标和体系框架下,明确支持金融科技战略目标实现的数据治理总体框架,开展数据治理的重构和变革。数据资产管理与运营模式创新。基于数据治理的框架,在数据内容、系统平台和流程机制三个维度进行细化和落地,将数据作为资产进行管理,将释放数据价值作为目标进行运营,开启数据资产管理与运营的新模式。数据资产运营目标加工、分析和挖掘,在满足合规的前提下,促进数据流通、产运营的支撑,二者互为支撑、互为表里。全域数据运营构建长效机制数据资产管理制度与规范数据资产由数据组成,兼具无形资产和有形资产的特标准制定成为当前研究的热点。范围、行动方式,以及相应的工作步骤和具体措施等。下:基本立法《全国人民代表大会常务委员会关于加强网络信息保国数据安全法》《中华人民共和国个人信息保护法》。行政法规《征信业管理条例》《征信业务管理办法》。司法解释《全国人民代表大会常务委员会关于加强网络信息保害人身权益民事纠纷案件适用法律若干问题的规定》。综合立法之个人信息保护条款(九和国消费者权益保护法》。部门规章(24号国家标准(GB/T35273-2020(GB/Z28828-2012)、《个人信息和重要数据出境安全评估办法》(征求意见稿及修订稿)。此外,国际上ISO/IECJTC1SC32、ISO/IECJTC1WG9、国际电信联盟(InternationalTelecommunicationUnion,(NationalInstituteofStandardsandTechnology,NIST)等组织和机构也正在开展数据相关标准的研究工作。划-实施-评估-完善”的持续改进闭环。量化评估持续改进机制的工作抓手。数据资产的量化评估体系,应该从如下几方面着手,根据金融机构自身的情况建设监控和管理指标:常和稳定的状态;的运行时间、更新频率、每日增量是否正常稳定;提供的服务效果,例如用户数、调用量、使用评价等。数据资产的持续改进机制,应覆盖对数据资产运营的参与方以及数据流转过程两个方面的闭环管控:数据资产运营的参与方主要包括数据资产供给方、数据资产运营团队和数据资产消费者。三方在数据资产运营活动中需承担相应的责任:供给方的责任主要是需要为数据资产自身情况负责,数据资产团队主要对数据资产的供给过程负责,数据资产消费者需要保证在消费过程中做出客观、即时的反馈和评价;在数据资产运营过程中,数据资产在相应的量化评估方面的指标产生波动,就需要使用中制定的相关管理制度向对应的数据资产运营角色追责,直到数据资产的量化评估指标改善。数据运营体系建设数据运营体系包括数据查看、选择、使用、治理、评价五个完整运营环节。数据查看数据资产要通过一个合适的资产门户或资产管理场所,可阅读的方式查看资产信息后才能判断其是不是当前业务所需的数据资产对象。数据选择以通过文档的方式或建设数据资产管理系统以方便业务人员简单便捷地反复查看、研究、复用重点的数据资产。数据使用化。治理优化在数据使用过程中,会发现各种各样数据资产本身的问题,需要通过数据治理对数据资产本身进行优化提升。数据评价环,最终实现数据资产价值的最大化。数据运营持续创造用户价值数据资产规划数据资产持续性运营的前提是对数据资产进行整体性的规划,即确定数据资产的准入原则和分类原则。定义数据资产的分类框架。数据资产服务保障为稳定持续地创造用户价值,必须要从组织、制度和技术三个方面建设数据资产的服务保障体系。组织保障:建立数据资产运营相关角色,明确角色的权利和责任;数据资产运营的角色应包括数据资产供给团队、数据资产运营团队和数据资产消费者等。程当中出现各种问题都有相对应的管理机制来指导相关人员进行标准和规范的应对。技术保障:储备相关的技术能力,实现数据资产运营的自动化管理。数据运营宣传推广才能够保证数据资产运营各项活动的顺利开展并取得预期效果。产调用的频率稳步增长,说明数据资产价值逐步体现。兴趣。数据资产价值评估党中央在十九届四中全会上首次公开提出“健全劳动、资本、土地、知识、技术、管理和数据等生产要素按贡献参与分配的机制。”这是中央首次在公开场合提出数据可作为生产要素按贡献参与分配。“数据是资产”已经成为全球共识。2019年6月,中国信息通信研究院与中国通信标准化协会大数据技术标准推进委员会联合发布《数据资产管理实践(4.0版(Data电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。2019年10据资产价值的因素主要从数据资产的收益和风险两个维度考虑。数据资产的收益取决于数据资产的质量和应用价值,2019年129成本法、收益法和市场法三种基本方法及其衍生办法。2021年8瞭和估值的框架和落地实践。数据资产确权数据确权的迫切程度与日俱增。2021年9月1有权,却被告知相关数据已经被服务商出售给其他商业机者与出售者之间关于非法买卖的争议。数据保护带来了挑战。在技术上已经有研究人员提出了基于数字水印技术和区块链技术的大数据确权方案。数据资产交易目前我国的数据交易制度、标准还在不断完善的过程中。2019年1月136343-2018)正式生效。2020年3月1日,《信息技术数据交易服务平台通用功能要求》(GB/T37728-2019)(GB/T37932-2019)正式生效。目前数据资产交易模式主要有3种类型,一是原始数据充当中介通道的角色,中间不沉淀存储数据。的高效利用。数据资产运营工具作模块包括但不限于:和质量改善等;和结果管理、数据资产分析等;监控和运营改善闭环工作流支持。数据资产成本运营优化数据资产存储成本在企业发展初期,存储成本可能不是企业关注的重点,但当数据体量达到一定规模时,数据存储成本会成为企业的包袱,所以需要对数据资产存储成本进行优化,将有限的存储资源最大化地用在高价值的数据资产上,针对原始数据、过程数据和结果数据制定不同存储策略。控制数据资产计算成本企业数据量增加之后,需要不断对数据进行价值挖掘,需要消耗的计算量也随之增加,计算的成本相比存储成本要高很多,CPU、内存都属于稀缺资源,可以通过对计算算法、数据处理加工逻辑优化降低数据资产计算成本。数据开放与共享恪守内部合规底线随着数字化深入业务,数据贯穿上下游的采集、流转、开放与共享,并与业务不断深入融合。数据安全、合规、隐私保护等安全相关管控需求越发迫切。同时,数据资产同样存在被内外部不法组织或个人滥用和泄露的风险,数据安全合规面临严峻考验。如何高效开展数据流通发挥数据价值,兼顾遵循安全合规底线,是长期以来的一把双刃剑,也是广大企业不断思考和亟待解决的问题。等行为,完善数据安全技术,定期审计数据安全。数据安全体系框架通常由四个层面构成,包括政策法规造数据安全合规管理闭环。构建数据开放生态着数据价值可评估、可度量,数据交易也会激发数据开放共享的商业模式落地。的再利用、再加工和再增值。数据共享与开放的实现通过构建数据服务封装能力,如文第四章技术现状与安全防护4.1.数据采集与存储数据采集数据采集是大数据平台数据处理工作流程中的第一个环节,是指将数据从其产生的地方,通过特定的传输通道,抽取或推送至大数据平台(或数据湖来源主要包含各类业务系统、各类设备,以及外部数据源,(如数据库表(如)和半结构化数据(如源系统文件广泛的大数据采集技术主要有ApacheSqoopApacheFlume、ApacheKafkaApacheChangeDataCapture、FlinkCDCOracleGoldenGate。各技术产品基本情况如下表所示:表4-1主要数据采集技术序号技术名称主要功能特点适用场景1ApacheSqoop用于在ApacheHadoop生态存储系统和结构化数据存储系统(如关系型数据库)之间高效传输海量数据的工具Mysql、OracleHDFS、Hive、HBase导入导出批量数据采集2ApacheFlume分布式数据采集工具,主要收集、聚合和移动海量日志数据拥有一套简单灵活的流式架构,支持在日志系统中定制各类数据发送方实现数据采集,自定义拦截器对数据进行简单的预处理并传输到预先定制的HDFS、HBase、Kafka等数据接收方,日志数据采集3ApacheKafka高吞吐量、分布式的流式消息系统存储节点具有故障容错的特分析实时数据采集4ApachePulsar云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体采用计算与存储分离架构设计,支持多租户、持久化存特性实时数据采集5ChangeDataCapture建立准实时数据仓库的关键技术,常用的变化数据捕获方法有时间戳、快照、触发器和日志四种跨平台和异构的数据库环境中实现变化数据的实时复制,能够提供可保持事务完整性的复制整合,数据同以及实时BI分析6OracleGoldenGate结构化数据复制软件归档日志获得数据的增量变目标数据库同步IT结构之间实现大量数据亚秒级的实时复制数据存储按存储介质的不同,现代数据存储主要分为光学存储(CDDVD(和半导体存储三类。作为产生时间最早的数据存储技术,光存储技术目前处于技术更新的瓶颈期,无法突破,在存储容量、存储密度及存取速率等方面都受限制,极易受摩擦等外部作用而损坏。业界普遍认为,光存储技术是冷数据存储最主要的方式,适合归档类数据的长期备份使用,可以与半导体存储介质搭配使用。性能、易于扩展、服务化和智能化等特点。存储介质演进全闪存储Gartner201925.13(ECB)46.822.3市场固态存储市场销售额1.5680比机械越,为底层存储介质的替换提供了客观条件。4-2机械硬盘固态硬盘时延2ms0.02ms5年返还率13.40.8功耗10w3w非易失性内存非易失性内存(non-volatilememory,NVM)是指断电后,存储的数据不会消失的存储器,是存储技术领域近十余年来最革命的创新。依据技术原理,非易失性内存介质可分为以下几类。图4-1非易失性存储介质为开发出比传统非易失性存储介质更高速、更低功耗、表4-3新型非易失性存储简介存储介质存储原理优点缺点铁电随机存储器通过铁电材料的不同极化方向来存储数据读写速度快,低功耗和擦写循环性能好数据保持能力较差磁性随机存储器通化磁化方向的改变来存储数据,并通过磁效应来实现数据读可反复擦写次数高等优点难以小型化阻变存储器利用材料的电阻在电压作用下发生变化的现象来存储数据擦写速度快、存储密度高、具备多值存储和三维存储潜力材料耐久性较差相变存储器以硫属化合物为基础的相变材料在电流的焦耳热作用下,通过晶态和非晶态之间的转变来存储数据重复擦写次数高、存储密度高、多值存储潜力大功耗较高3D-XPoint通过特定的电压差,改变存储\\单元中特殊材料的电阻,实现写操作DRAMDRAM靠近处理器,提升存储系统的整体性能表现。存储协议演进SSDSATAAHCI。AHCIHDDAHCIHDDSSDAHCISSDSSDSSDAHCISATASSDSSDNVMeNVMe16GBps32GBpsIOIOPS500,0001502001000IOPS许多驱动器的速率低于20微秒,有些低于10微秒。2010NVMeNVMe-oFOverFabric推动IPIPNVMe-oFIPNVMe-oF10usSAS分布式存储分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。分布式存储的特点有高扩展性、低成本、易运维、易管理等。分布式存储技术发展趋势:淡化部署形态,基于场景融合和AI运维使能的架构创新,成为引领技术未来的关键产学研重点围绕着对海量数据不同部署模式下(边缘、数据中心和云)AI智能的架构创新,将成为引领技术未来的关键。了大量的workload和可靠性特征数据,经过云端训练和本/对象/HDFSHPC(高性能数据分析HPC-BasedAI方向演进新的业务负载要求存储支持文件、对象及HDFS协议互通,数据仅存份如华为的分布式存储能同时支持文件和对象的不同接入协议在HPDA场景下满足不同阶段数据分析软件的需求进入NVMe SSD时代,介质性能和寿命相比HDD都有了大幅提升,CPU应运而生,他将控制器和存储介质分离,再通过低时延的NVMeoverFabric易于扩展、服务化和智能化等要求。表4-4下一代数据存储技术发展方向技术分类传统存储下一代存储存储介质机械硬盘存储、易失性内存全闪存储、非易失性内存存储架构集中式存储软件定义存储、超融合基础架构存储协议AHCI、SCSI协议NVMe协议应用模式本地部署云服务化运维模式人工运维智能化运维表格来源:中国信息通信研究院,《下一代数据存储技术研究报告(2021年)》数据计算离线计算引擎TB/PB数据仓库和BI数据量巨大且保存时间长;在大量数据上进行复杂的批量运算;数据在计算之前已经完全到位,不会发生变化;能够方便地查询批量计算的结果。目前常见的组件主要有:MapReduce、Hive、Spark、Maxcompute等组件,主要能力如下表所示:表4-5常见组件主要能力汇总组件名称主要能力MapReduceMap间结果,ReduceHive定义了一种类似sql的查询语言(hql)将sql转化为Mapreduce、Spark等引擎任务在Hadoop上执行。Spark开源的数据分析集群计算框架,用于构建大规模,延迟低的数据分析应用。SparkScala布式数据集,优化了迭代式的工作负载以及交互式查询。实时计算引擎现在常见的实时计算有3个主流引擎:Storm、Spark、Flink。表4-6主流引擎介绍计算引擎基本特征处理能力storm开源的分布式实时计算组件可连续、实时地处理流式数据,支持各种编程语言,使用简便SparkSparkAPI数据预处理,形成小批处理的RDD(弹性分布式数据集),可通过任意函数和华东数据窗口进行转换,实现并行操作计算引擎基本特征处理能力Flink统一了流处理和批处理StreamTransformationStream或多个结果Stream实时计算引擎具备三个特点:的数据流且高效的计算实时计算是一种计算任务。且实时的数据集成流数据触发一次实时计算的计算结果,直接写入目的数据存储。(如下图所示ETL。是数据实时传输的可计算通道,成为离线数图4-2实时计算引擎的使用场景查询分析引擎随着各机构数据量快速增行,数据分析场景日益增多,高可靠和低延时的数据分析服务成为企业数字化转型的关键。越来越多的OLAP表4-7主流查询引擎介绍查询引擎基本特征处理能力PrestofacebookSQLprestoMPP(Massivelyparallelprocessing),GB-PB,Hive5-10倍Greenplum基于开源的PostredSQL基础上的MPP架构具有强大的大规模数据分析任务粗粒能力ImpalaCloudera公司主导开发的新型查询系统,开源软件用于处理存储在Hadoop集群中的大量MPPSQL查询引擎查询引擎基本特征处理能力Kylin开源的、分布式的分析型数仓Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持cube式,提供亚秒级响应时间即可获得查询结果ClickHouse俄罗斯第一大搜索引Yandex储存数据库用于联机分析(OLAP)的列式数据库管理系统(DBMS)Hologres阿里巴巴自主研发的一款交互式分析产品兼容PostgreSQL11协议,与大数据生态无缝连接,支持高并发和低延时的分析处理PB级数据DorisMPP型数据库产品主要解决PB级别的数据量,解决结构化数据,查询时间一般在秒级或毫秒级。GaussDB基于华为云的数据仓库服务兼容标准ANSISQL99和SQL2003,PostgreSQL/OraclePB新一代大数据架构趋势存算分离在传统分布式系统常用的存储计算架构有如下三种。图4-3分布式系统存算架构SharedDisk/Storage(共享存储)有一个分布式的存储集群,每个计算节点像访问单机数据一样访问这个共享存储上的数据。这种架构的存储层可以SharedNothingFailover数据RebalanceStorageDisaggregation(存储计算分离架构)存储和Shared Storage类似,有一个分布式的共享存储集群计算层处理数据的模式和SharedNothing类似数据是分片的每个shard只处理自己所在分片的数据每个计算节点还可以有本地缓存主要优势一是一致性问题处理简单计算层只需要保证同一时刻有一个计算节点写入同一分片的数据二是计算和存储分开灵活扩展三是计算节点故障恢复快数据可以按需从分布式的共享存储异步拉取湖仓一体2080展MPP架构也使得系统能够处理更大规模的数据量。数(volume)等特征。数据仓库并不适合这样的场景,而且成本较高。数据的仓库化存储,并以此为多样化的数据分析应用提供承载。大约十年前,数据湖出现了,他被定义为一种可以存储各类格式的原始数据存储库。数据湖虽然适合数据的存储,但又缺少一些关键功能,比如不支持事务、缺乏一致性/隔离性、不保证执行数据质量等,让数据湖来承载读写访问、批处理、流作业是不现实的。图4-4数据仓库、数据湖演进时分析、机器学习等。数据仓库和数据湖对比如下:图4-5数据仓库与数据湖对比定义的schemaschema,schema图4-6数据湖数据管理的问题数据“湖仓一体”具有以下关键特征:)ACID支持,可确保数据并发访问的一致性、正确性,尤其是在SQL的访问模式下。数据的模型化和数据治理:湖仓一体可以支持各类数据模型的实现和转变,支持DataWarehouse模式架构,例如星形模型、雪花模型等。该系统应当保证数据完整性,并且具有健全的治理和审计机制。BI支持:“湖仓一体”支持直接在源数据BI工具,这样可以加快分析效率,降低数据延时。另外相比于在数据湖和数据仓库中分别操作两个副本的方式,更具成本优势。存算分离:存算分离的架构,也使得系统能够扩展到更大规模的并发能力和数据容量。(型的数据仓库已经采用了这种架构)开放性:采用开放、标准化的存储格式(Parquet),提供丰富的API支持,因此,各种工具和引擎(包括机器学习和Python/R可以高效地对数据进行直接访问。支持多种数据类型(结构化、非结构化Lakehouse可为许多应用程序提供数据的入库、转换、分析和访问。数据类型包括图像、视频、音频、半结构化数据和文本等。支持各种工作负载:支持包括数据科学、机器学习、SQL查询、分析等多种负载类型。这些工作负载可能需要多种工具来支持,但他们都由同一个数据库来支撑。端到端流:实时报表已经成为企业中的常态化需求,实现了对流的支持后,不再像以往一样,为实时数据服务构建专用的系统。此外,湖仓一体还需要考虑数据安全和访问控制相关能力,如数据的审计、保留周期、数据血缘管理等。流批一体LambdaBinlog(SpeedHiveSpark或esto对数据做加速查询,BI图4-7Lambda架构Lambda架构的核心痛点是大量在不同计算系统和数据格式中数据协同和转换,造成维护困难和额外成本,BatchLayerStreamLayer/bug果需要通过定制联邦计算来合并数据集,无法通用化输出,灵活性不足。图4-8Kappa架构随着FlinkKappaKappaLambdaKappa很多时候并不是完全规范的LambdaKappaKappa(比如金额相关Lambda图4-9流批一体数据架构查询分析服务。数据分析挖掘标准数据分析工具随着信息技术尤其是计算机及互联网技术的飞速发展,据挖掘与分析技术的需求已经迫在眉睫。业务数据分析中,SAS、PowerBISASSAS(STATISTICALANALYSISSYSTEM)是由美国NORTHCAROLINA州立大学1966年开发的统计分析软件。SAS(StatisticalAnalysisSAS统基本上可以分为四大部分:SASSASSAS数据管理、数据呈现、数据分析。SASSAS果,采取行动。PowerBI分析工具商业智能(BusinessIntelligence)包括企业用于商业前和预测视图。商业智能技术的常见功能包括报告、在线分析处理、分析、数据挖掘、流程挖掘、复杂事件处理、业务绩效管理、基准测试、文本挖掘、预测分析和规定性分析。BI技术可以处理大量结构化数据与非结构化数据,以帮优势和长期稳定。PowerBIVertipaqSQLPowerBIR以及PythonAI后的故事,减轻分析师和决策者的工作负担。机器学习模型风险控制与管理是金融机构的核心能力,借助机器学习和大数据技术,金融机构可以从海量数据中及时甄别风险,并及时处置。机器学习驱动的欺诈检测系统不只是遵循风险因素清单,还能够学习和校准新的潜在(或真实的)安全威胁。应用机器学习技术,系统可以检测特殊或异常的行为,并为安全团队标记他们。度和利率,从而识别和减少在金融交易中存在的交易风险。EDA,数据预处理,到变量筛选,模型的开发和评估,生成评分卡模型以及布置上线和模型监测。SVMSVM(支持向量机)的训练过建模具有优势。对于使用支持向量机建模,其在小样本、非SVM逻辑回归Logistic Regression在风控的工业生产环Regression据预处理、筛选变量、构建逻辑回归模型,以及模型评价等六个步骤。深度学习模型(ML)领域的一个应用更为强大的分支,深度学习(DL)最近也开始得到越来越多的关注,DLMLPCNN、LSTMDL深度学习属于机器学习的范畴,是一种主要以深度神经网络来对数据进行高层次抽象的模型。深度学习在金融中用到的模型主要包括下面几种:多层感知机深度多层感知机是首先提出的一种深度神经网络模型,深度多层感知机相比于浅层结构具有更强的分类和回归效果。对于深度多层感知机的训练通常通过基于梯度的算法,图4-10多层感知机示意图卷积神经网络卷积神经网络是图像识别领域中常用的深度学习技术,2D图4-11卷积神经网络示意图循环神经网络(RNN)训练方式,递归神经网络的训练是通过BackpropagationThroughTime(BPTT)。通过RNNRNNRNN图4-12循环神经网络示意图长短期记忆网络(LSTM)RNNLSTMLSTM单元结构如下图所示。图4-13LSTM示意图受限玻尔兹曼机(RBM)RBM(RBMRBM被用于降维、分类以及特征学习。从结构上看,RBM(偏差通过激活函数传递计算值。RBM图4-14RBM示意图PregelPageRank,API,可以描述各种各样的图Pregel深度学习(DL)在金融领域中的应用:算法交易如通过LSTMRNNDMLPCNN风险管理/欺诈检测研究大多可以看作是进行异常检测或者看作是一个分类问DLMLP、LSTM检测,通过AE客户关系管理通过信息检索和语义识别帮助金融机构对客户对数据进行NLP深度学习在CRM手。精准营销学习模型深入洞察客户行为、客户需求,客户偏好,挖掘潜出在客户,实现可持续的营销计划。数据可视化信息可视化主要包括4类,分别是:层次数据可视化、网络数据可视化、时空数据可视化、多维信息可视化。层次数据可视化在金融领域层次数据可视化主要是指将金融数据按层次与扁平等方式进行数据展示,主要的形式包括固定报表、嵌套报表、钻取报表、树形报表、大屏、报告等形式。目前常见的组件主要有UReport、Echarts等。UReportUReport是一款高性能报表引擎,通过配置单元格可以实现复杂报表的展示。UReport支持常见的报表存储与数据源配置、支持计算模型、表达式、函数、条件属性、参数、UReport计器,可以方便用户在页面中自助完成报表设计。图4-15UReport报表设计模板EchartsEChartsJavaScriptEChartsTreeMap之间的混搭。图4-16Echarts架构图Echarts通过增量渲染技术,配合各种细致的优化,ECharts能够展现千万级的数据量,并且在这个数据量级依然能够进行流畅的缩放平移等交互。EChartsGLWebGL3DECharts3D网络数据可视化网络数据可视化方法按布局策略分为结点链接法、相邻的组件主要有蚂蚁金服的AntVAntVGraph基础设施监控、智慧医疗等领域。Graphin图4-17AntV架构图Graphin图4-18AntV配置的图谱关系图时空数据可视化时空数据可视化方法包括统计图表法、图形对比法、三维显示法、动画方法等。在金融领域时空数据可视化主要应用于总行、支行、网点位置信息的显示、圈选分析、路径检查、关联分析等场景。目前典型的组件主要有百度地图等。百度地图APIJavaScriptAPIWebAPIAndroidSDKiOSSDKSDKAPILBS/地理编码、LBSPC图4-19百度地图接口模式多维信息可视化多维信息可视化一般包括数据解释和数据显示两个阶CBoardCBoardBICBoard20图4-20CBoard多维分析效果数据安全技术数据存储加密技术互联网的高速发展企业的数据安全问题越来越受到重视。一是企业本身需要对自己的关键数据进行有效的保护二是企业从应用服务提供商(Application Service处获得应用支持和服务因此企业的业务数据存放在ASP处其安全性无法得到有效的保障解决这些问题的关键是要对数据本身加密即使数据不幸泄露或丢失,也难以被人破译。(CustomerMasterKey,简称CMK),第二层为数据密钥(DataEncryptionKey,简称DEK)CMKDEKDEK(通过KMSCMK(DEK一同写入永久性存储(Enveope)中。在读取加密数据时,数据密钥的密文也会一同被读取,常用数据库加密技术的数据加密就抓住了信息安全的核心问题。对数据库中数据加密是为增强普通关系数据库管理系以密文方式存储并在密态方式下工作,确保了数据安全。数据库加密技术的功能和特性经过近几年的研究,我国数据库加密技术已经比较成熟。一般而言,一个行之有效的数据库加密技术主要有以下6个方面的功能和特性。身份认证用户除提供用户名、口令外,还必须按照系统安全要求提供其他相关安全凭证,如使用终端密钥。通信加密与完整性保护有关数据库的访问在网络传输中都被加密,通信一次一密的意义在于防重放、防篡改。数据库数据存储加密与完整性保护的非授权访问和修改。数据库加密设置效率与安全性之间进行自主选择。多级密钥管理模式钥加密保护,使用时受主密钥保护。安全备份系统提供数据库明文备份功能和密钥备份功能。对数据库加密系统基本要求字段加密。密钥动态管理。合理处理数据。不影响合法用户的操作。防止非法拷贝。数据加密的算法的产生、传输、存储等工作是十分重要的。数据加密的基本过程包括对明文(即可读信息)进行翻译,译成密文或密码的代码形式。该过程的逆过程为解密,即将该编码信息转化为其原来的形式的过程。DESDES(DataEncryptionStandard)是IBM1970197611美国政府采用,DESNationalStandardInstitute,ANSI)承DES算法把64位的明文输入块变为64位的密文输出块,所使用的密钥也是64位,DES算法中只用到64位密钥中的其中56位。DES,DESDESDESDES56(EDI3112168殊要求时则要采用他。RSA就是发明者的名字:RonRivestAdiShamir和LeonardAdlemanRSA论上证明破译RSARSANPCRSAAESAES而言,AES128DES561021AES10间才可能破译。加密领域主要有国际算法和国密算法两种体系。国密算法是国家密码局认定的国产密码算法。国际算法是由美国国SM1、SM2、SM3、SM4。SM1128128IPIC(SM2ECC法基于ECCRSA256(SM2ECC2562048RSA钥算法,其加密强度为256位。SM3消息摘要。作用类似MD5/SHA系列。该算法已公开。SM4对称加密算法。主要用于软件加密。数据脱敏、去标识化技术数据脱敏定义数据脱敏是指从原始环境向目标环境进行敏感数据交换时,通过一定的方法消除原始环境中数据的敏感性,并保留目标环境业务所需的数据特性或内容的数据处理过程,常用的数据脱敏方法技术见下表。例如在《中华人民共和国个人信息保护法》中,对个人信息的安全处理措施包含加密和去标识化两种。加密是指对数据进行密码变换以产(GB/T去标识化是指建立在(假名(哈希函数(GB/T表4-8数据脱敏方法对照表序号脱敏方法脱敏技术描述举例说明客户产生的业务费用按照金额多少分为高、1规整将数据按照大小规整到预定义的多个档位中、低三个级别如:0-10万、10-30万、30万及以上→低、中、高2泛化偏移取整数据或者日期进行向上或者向下取整10向下取整如:2020032218:08:19→2020032218:08:10保留收集号码前七位,3截断将数据尾部截断,只保留前半部分截断剩余部分如1350001掩盖手机号码的第四位4抑制掩码屏蔽保持数据长度不变,但只保留数据信息到第七位如135****0001将原始数据按照特定的规大数据集合且需要保留则重新排列,对于跨行数待脱敏数据特定特征场5重排据,采用随机互换来打破景下,对数据进行重排其与本行其他数据的关联如:22,31,27→31,关系,从而实现脱敏27,22对脱敏数据进行对称加密常用对称加密算法,如DES、3DES、AES等常用非对称加密算法,如RSA、DSA等如:123456→U2FsdGVkX19yci4oGpXvMfQJmzBfe9jV扰乱算法、非对称加密算法等加密算法处理,使外部用6加密户只能看到无意义的加密后数据,同时在特定场景下,可提供解密能力,使具有密钥的相关方可获得原始数据序号脱敏方法脱敏技术描述举例说明7替换F,对内部人员可完全保持信息完整性,但易破数化替换敏感数据都替换为唯一的常数值;从中间表中随机或按照特定算法选择数据进行替代;以敏感数据作为输入,通过特定函数形成新的替换数据;如:女→F8散列对原始数据取散列值,使用散列值来代替原始数据常用hash算法,如SHA-256、HMAC等如:123456→ebe56e057f20f88310adc3949ba59abe9重写参考原数据的特征,重新生成数据。重写与整体替换较为类似,但替换后的数据与原始数据通常存在特定规则的映射关系,而重写生成的数据与原始数据则一般不具有映射关系对员工工资,可使用在一定范围内随机生成的方式重新构造数据;对手机号码,可在一定范围内按照规则随机生成构造数据10固定偏移n征根据数据值的业务场1量;如:253→125311局部混淆n混淆其余部分保持座机号码区号不变的情况下,对其余部分进行混淆如:0571-123456化针对数值性的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值保持余额的总额不变的情况下,对数据进行脱敏13有损限制行数仅返回可用数据集合中一定行数的数据后台系统不具备开放式查询能力,严格限制批量查询14限制列数仅返回可用数据集合中一定列数的数据查询人员基本信息时,不返回如余额、消费记录等敏感列数据脱敏基本原则数据脱敏要尽可能平衡数据脱敏花费的代价、使用方的业务需求等多个因素。所以,为了确保数据脱敏的过程及代价可控,得到满足业务需要的结果,在实施数据脱敏时,遵循以下原则:经脱敏处理后,原始信息中包含的敏感信息已被消除,无法通过处理后的数据得到敏感信息,防止使用非敏感数据进行推断、重建、还原敏感原始数据。计算机程序实现脱敏自动化,并可重复执行,在不影响有效性的前提下,平衡脱敏的力度和代价,将数据脱敏工作控制在一定的时间和经济成本内。数的情况下,脱敏后的数据具有一致性,随机类的算法除外。数据表中某字段与另外字段有对应关系,如果脱敏算法破坏了这种关系,该字段的使用价值将不复存在,通常在进行数据统计需要参考量的情况下,数据的关联性较高。不同场景下的安全需求不同,数据脱敏的处理方式和处理字段也不尽相同,因此需通过配置的方式,按照输入条件不同,生成不同的脱敏结果,从而可按数据使用场景等因素为不同的需求提供不同的脱敏数据。数据脱敏实施方式根据业界最佳实践,数据脱敏技术在实施方面主要通过两种方式实现,即静态数据脱敏和动态数据脱敏。这两种数据脱敏方式在功能和价值上区别不大,但两者在使用场景、技术路线和部署方式等方面有着显著的区别。静态数据脱敏(StaticDataMasking)静态数据脱敏(下文简称静态脱敏)是提前将生产数据变形后再提供给非生产环境使用的操作,从而可以阻止据的非正当使用。静态脱敏通常是使用脱敏工具,提前在生产环境进行完整数据集的抽取和一次性整体数据变形处理,脱敏后的数据是以脱敏后的形式存储于外部存贮介质中,实际上已经改变了存储的数据内容。动态数据脱敏(DynamicDataMasking)动态数据脱敏(下文简称动态脱敏)是作用于生产数据的实时脱敏。动态脱敏工具针对数据库访问请求或请求结果进行监控和干预,分析用户权限,并运用脱敏规则对访问请求或请求结果进行改写。动态脱敏常用于业务操作、运维管理、监管报送等场景,其主要功效在于一是避免生产环境中暴露敏感数据;二是实现快速响应。经过动态脱敏后,实际存储于生产库的数据未发生任何变化。静态脱敏与动态脱敏的区别综上所述,静态脱敏与动态脱敏在典型使用场景、技术路线、部署方式等方面的区别如下表所示:表4-9数据静态脱敏和动态脱敏对照表静态脱敏动态脱敏技术路线进行完整数据集的抽取和一次性整体数据变形处理针对数据访问请求或请求结果进行监控和干预,分析用户权限,并运用脱敏规则对访问请求或请求结果进行改写技术成熟度相对成熟,有较多产品支持初步发展阶段,成熟产品较少典型使用场景生产数据在研发、测试等环境中的保护生产敏感数据在页面展示方面的保护部署方式生产环境部署脱敏设备,在生产环境完成脱敏后,导入研发、测试环境。在生产应用服务器和数据库之间以代理模式部署脱敏设备,以及在应用服务器部署插件。数据内容产生一个脱敏的数据副本,副本数据已改变仅对展示数据进行脱敏,不产生副本,原始数据本身未改变数据脱敏应用场景4-10。表4-10数据脱敏应用场景序号场景分类脱敏场景场景描述动态脱敏静态过敏1技术场景开发测试应用场景金融行业开发使用的业务系统中存在大量的客户敏感信息,如姓名、年龄、手机号码、银行卡号码、地址、工作信息等,在系统建设前期,往往需要使用上述信息进行开发测试,此时需要使用脱敏技术来保证客户敏感信息不被泄露。√2数据分享应用场景数据分享应用场景在一些特定需求下,部分隐私数据需要提供给其他机构或企业,但对其他隐私数据可进行抑制、扰乱等操作。√3数据科学研究应用场景数据科学研究应用场景,其主要目的是通过数据进行研究,因此需要保留数据本身的一些特征。研究时需要保留的数据特征可能是用户的年龄信息、性别信息、地区信息、行为记录等。但不需要保证保留用户身份信息和全部的敏感字段,只需要保留研究所必需的内容即可。√4生产应用场景下往往采用掩码屏蔽的方式对数据进行脱敏。√5数据交换应用场景API会附带用户信息,需要对部分用户信息进行脱敏。√6运维应用场景采取脱敏的措施。√7业务场景精准营销融合金融业务数据和外部可信数据,借助大数据技术构建金融个人客户画像(人口统计学特征、消费能力数据、兴趣数据、风险偏好等)和企业客户画像(企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据),并有效地开展精准营销,包括根据客户的实时状态来进行营销;不同业务或产品的交叉推荐;根据客户的喜欢进行服务或者产品进行个性化推荐等。这类大数据应用前台一般采用掩码屏蔽的方式对数据进行脱敏,后台一般采用干扰等方式对数据进行脱敏。√√序号场景分类脱敏场景场景描述动态脱敏静态过敏借助大数据手段,保险企业可结合内部、第三方和社交媒体数据进行早期异常值检测,包括了客户的健康状况、财产状况、理赔记录等,通过建8骗保识别√√这类大数据应用前台一般采用掩码屏蔽的方式对数据进行脱敏,后台一般采用干扰等方式对数据进行脱敏。基于企业内外部交易和历史数据,利用客户基本信息、账号基本信息、交易历史、客户历史行为实时或准实时预测和分析欺诈等非法行为,主要9风控管理√√用分析模型、风险客户预警模型、贷后实时监控模型、反欺诈模型等。这类大数据应用前台一般采用掩码屏蔽的方式对数据进行脱敏,后台一般采用干扰等方式对数据进行脱敏。基于客户的风险偏好、海量个人投资者真实投资交易信息的深入挖掘分析、交易行为分析,依靠大数据量化模型,洞悉交易个人投资者交易行为10智能投顾√√大数据应用前台一般采用掩码屏蔽的方式对数据进行脱敏,后台一般采用干扰等方式对数据进行脱敏。联邦学习、隐私计算相关技术隐私增强计算技术(Privacy-Enhancing的前提下,完成对数据的计算分析任务。面向金融行业敏感数据有使用需求而又不能明文出域的情况,隐私计算保障数据的隐私性,并使得数据参与了计算但是所有的参与果。隐私增强计算主流技术多方安全计算多方安全计算(Multi-PartySecureComputation,MPC)1982数据安全地进行计算,而各自又不会得到对方的信息。多方安全计算包含多种底层密码学技术,包括不经意传输(Oblivious(Garbled同态加密(HomomorphicEncryption)等。多方安全计算的定义可以通过下图描述:图4-21多方安全计算示意图可信执行环境(TrustdeectinenvrometTEEIntelSGX、ARMTrustZone联邦学习联邦学习(FederatedLearning,FL),是机器学习的一种延伸,使用分布式的方式让模型在不同数据源进行训练,实现共同建模,而数据又不会离开其生产环境。Google2016一个全局模型,然后分发给终端设备使用。在实践中,联邦学习通常与其他隐私计算技术相结合,中间参数对其他方数据原始信息进行推断,从而保护各参与方的数据隐私。在金融应用中,联邦学习被认为是打破行业数据孤岛的有效工具,赋能金融机构间、金融机构与其他行业机构以安全合规的方式进行数据共享与数据价值挖掘,实现数据的可用不可见。具体到金融场景,联邦学习可应用于智能风控、智能投顾、精准营销、企业信审、金融反欺诈、反洗钱等,解决多个参与方数据进行建模活动的隐私保护和数据安全问题。其他相关技术集合术(PrivateSetIntersection,PSI),实现高效加密的不(ObliviousDiffie-Hellman第五章风险挑战与应对顶层设计和政策风险挑战此后国家相关部门出台了一系列政策鼓励支持大数据产业2019央关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若干重大问题的决定》(首先,在数据统筹方面,我国数据资源开放共享刚刚起立法规定。447608GDP应对措施建议我国加强数据应用方面的顶层设计和政策扶持力度。首先,需要加强数据资源开放共享方面的顶层设计和统筹管理,构建超大规模数据市场所必须匹配得更加专业、更加精细的统筹决策和落地执行细则。段。最后,建议加强在数据安全保障方面的政策扶持力度,法律法规与标准风险挑战法律法规和行业标准尚待完善。6等内容的具体实施工作仍有待落实。5G等重点领域高质量发展的支撑作用有待加强。法律不健全,尚未形成安全、有效的数据共享机制。应对措施加强数据要素的确权、立法工作,引导数据要素安全、有序地互联互通将会成为数据要素市场化发展的下一步工作重点方向。升数据的开发利用效率。化的数据安全治理架构,形成赢得客户、监管和社会信赖的基础。业、技、数的融合风险挑战风险控制等环节,也需要对其收集到的信息进行技术处理。经是大势所趋,在当前产业都在积极探索数字化转型战略,需要利用数字技术对自身的经营活动进行转型升级。深度融合的趋势。在技术影响业务方面,大数据技术从Oraclehadoop联网征信、大数据风控等业务场景;在业务影响技术方面,业务应用场景也将成为驱动技术发展的新动力,比如由数据孤岛现象所引发的数据共享困难问题,其所涉及的用户隐私泄露等业务痛点,促使联邦学习等技术的出现。应对措施和数据的融合。业务和技术中,充分应用好数据,充分发挥数据的价值。其次,通过技术搭建场景的方式吸引客户从而被动收获数据,相比于单一的基于场景主动获取数据,其效果更好,成本更低,可持续性更强。因此,既需要从业务场景中提炼数据,也需要将数据反馈应用到业务场景,实现数据在业务场景中的增值。数据资产管理风险挑战差不齐、应用水平较低等问题。当前金融业仍然存在整体数据质量不高现象,造成数据失数据等脏数据,无法确保数据的完整性和准确性。方面,还需要进一步提高。应对措施建议金融机构和金融科技企业进一步加强和提升对数据资产的管理水平。资产的应用水平。其次,建立科学、统一的数据管控治理体系,形成数据管理和质量控制方面的基础规范、制度流程与技术方案。最后,需要形成数据资产管理的管控工具,通过管控工具,促进数据规范体系的落实,实现有效数据治理。数据安全与合规风险挑战数据在不断创造价值的同时,其安全保护、合规应用等问题也成为政、产、学、研、用等各界关注的焦点。一是数据发挥价值需要融合应用。数据跨层级、跨地域、跨系统、跨部门、跨业务的融合应用才能推动新模式、新应用、新业态的不断涌现,加速数字经济创新发展。二是数据可复制、可传输等特性期待多元创新的安全合规手段。数据的应用会涉及政府、社会、企业、个人等多方主体权益,关系到国家安全、经济运行、社会治理、个人权益等多主体,需要创新安全管理模式。三是数据的价值发挥和安全合规需要寻求动态平衡点。数据治理体系搭建需要兼顾发展和安全的平衡,既要保护数据主体的权益,也要实现公共利益和社会福利的最大化。数据安全和合规仍是多方主体数据协作过程中的痛点问题。一方面缺乏能够兼顾安全合规和数据协作的合作机制与技术路径,无法消除数据主体之间对商业秘密泄露风险、商业利益分配等方面的信任鸿沟,传统的数据保护方案往往应对措施进金融结构的数字转型升级,实现自驱动。需要遵循循序渐渐的原则,充分了解金融行业的合规要求,的数据协作与融合应用,促进金融行业数据价值的最大化。130130第六章发展展望与保障体系市场主体发展多元化为市场做出相应贡献,进一步促进数据市场发展。须由国家进行监管,政府在数据领域的监管不可缺位,如:在疫情防控当中通过三大运营商信号形成的行程轨迹信息,是涉及个人隐私甚至有可能是国家安全的重要数据,只能由B2CC2CPAGEPAGE131(用户台服务使用者”的多重身份加入其中。B2C技术的平台可以以近于零的边际成本与众多开发者/服务提C2C(Data通过算(用户机构将为数据要素市场良性运转提供保障。大数据交易所、场所等将培育更多合格的市场主体,丰富大数据供给侧企业规模,实现数据要素市场多元化发展。数据应用新业态数据应用向着新业态、新模式发展。主要体现在多元场景、无感连接以及数据共享共建。多元场景360金融风险的控制管理。未来银行是智能化、个性化、有温度且无处不在的,永APP深化优质服务,助力客户追寻美好生活。无感连接例如,针对教育信息化的转型升级,中国银行与腾讯微校就高校市场达成深度合作协议,将构建银行、企业和高校师生多方共赢的生态格局,为高等教育的信息化进程树立新的标杆。双方将会同各地高校,以智能化为引领,以数字化为驱动,率先在校园建立起一码通行校园,一卡连接未来的校园服务新体验,在移动教学、智慧办公、便捷生活、金融服务、安全管理等领域持续探索创新,推动数字校园建设,助力教育现代化进程。共建共享通过联合学习技术使得大数据技术实现金融数据应用上的无感连接成为可能。其中许多用户在中央服务器的协调下实现数据的共建共享,同时保持数据的去中心化及分散性。联合学习在不暴露数据的情况下分析和学习多个数据拥有推动金融科技发展进入新阶段。例如,“共建共享”的流通理念及双层运营机制推动数妥推进提供持续的技术支撑和创新活力。数据应用保障体系等措施来完善体系建设,后提出数据应用新业态对数据应用保障体系的新要求。组织保障组织建设包括组织架构、岗位设置、团队建设、数据责任等内容,是各项数据管理职能工作开展的基础。根据《银行业金融机构数据治理指引》,组织架构需要明确董事会、监事会、高级管理层和相关部门的职责分工,建立多层次、相互衔接的运行机制设。表6-1金融业数据治理组织架构组织架构数据责任团队岗位董事会制定数据战略,审批与数据治理相关的重大事据治理承担最终责任监事会负责对董事会和高级管理层在数据治理方面的履职尽责情况进行监督评价高级管理层组织评估数据治理的有效性和执行情况根据实际情况设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大学体育类的活动策划方案(13篇)
- 《宏泰人寿雄鹰计划》课件
- 北师大版七年级上册历史16《兼容进取的秦汉文化》教学设计
- 《演讲艺术》课件
- 烧烤活动策划方案(17篇)
- 全国粤教版信息技术七年级下册第二单元第十三课《设置动态效果》教学设计
- 2025-2026年装卸搬运的智能化与市场趋势
- 信息技术八年级上册任务一 输入数据教案设计
- 井下结构施工方案
- 2025年汉中道路客货运输从业资格证b2考试题库
- 教研项目合同协议
- 腹壁切口疝手术护理查房
- 乡村医生药品管理培训
- 2025年山东交运怡亚通供应链管理有限公司招聘笔试参考题库含答案解析
- 浙江省嘉兴市2025届高三下学期4月教学测试化学+答案
- 私人水源转让协议合同
- 汽车冷却系统课件
- 防脱洗发水培训课件
- 2025年河南省三门峡黄河明珠集团有限公司招聘笔试参考题库含答案解析
- 北京市网球运动管理中心2024年下半年公开招聘工作人员笔试历年典型考题及考点剖析附带答案详解
- 电视台采编岗试题及答案
评论
0/150
提交评论