2024年数据要素化新阶段的数据基础设施白皮书_第1页
2024年数据要素化新阶段的数据基础设施白皮书_第2页
2024年数据要素化新阶段的数据基础设施白皮书_第3页
2024年数据要素化新阶段的数据基础设施白皮书_第4页
2024年数据要素化新阶段的数据基础设施白皮书_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据要素化新阶段的数据基础设施白皮书从车厘子自由到数据自由南京邮电大学数据要素创新实验室安恒信息技术股份有限公司2024年11月我国正在步入数据要素化发展新阶段0202030407新要素新空间新设施新产业新要求1全球数据生产方式正在发生深刻变化091010市场流通的数据只是冰山一角全球公域数据即将完全耗尽数据生产方式正在发生巨变25“

数据自由

释放社会与经济价值36

数由空间赋能城市数据基础设施实践39

数由空间赋能行业数据基础设施实践42

数由空间赋能企业数据基础设施实践42

数由空间赋能跨境数据基础设施实践4数据可信流通利用基础设施赋能

数据自由

”18 数据流通利用基础设施20 数据可信流通利用基础设施架构:

数由

空间32 “

数由空间

赋能

数据自由

”3从“

车厘子自由

到“

数据自由

:技术赋能的数据自由之路121315全流程动态安全下的数据流通“

物流冷链

技术发展赋能

车厘子自由

数据冷链

技术发展赋能

数据自由

”目录6愿景和展望前言自2023年10月国家数据局正式挂牌成立以来,我国数据要素政策法规不断完善,数据资源开发利用进程提速,数据产业生态繁荣发展,数据安全保障能力持续增强。特别是今年7月28日党的二十届三中全会提出“

建设和运营国家数据基础设施,促进数据共享”

后,国家数据局加快研究制定《国家数据基础设施建设指引》,指导部分城市开展数据基础设施建设试点,全国各地区各部门积极开展区域数据流通利用基础设施、行业数据流通利用基础设施和企业数据流通利用基础设施建设,各科研院所和企事业单位积极开展数据流通应用技术创新实践,我国数据基础设施建设已进入发展快车道。当前,我国经济社会正处于数据要素化发展新阶段,在生产要素、空间形态、基础设施、产业形态等方面都表现出新的特点,对数据也提出了既要大规模、高通量、快速率流通,也要保证在流通过程中动态安全的新要求,隐私计算、区块链、数据空间等新兴数据流通利用技术应运而生。国家一方面将大力支持技术创新突破,另一方面将持续推进技术广泛应用,推动这些技术基础设施化,实现既能高效流通又能确保安全的

数据自由

。以安恒信息为代表的一大批数据企业,在数据流通利用基础设施建设和运营方式开展了有益探索。安恒信息采用隐私保护、使用控制、信任保障、互联互通、数据安全、价值发现等数据安全流通技术,自主研发的“

数由器”

,以及依托“

数由器”

打造的“

数由空间”

,有效地实现了“

数据自由”

,构建起了城市数据基础设施、行业数据基础设施、企业数据基础设施和跨境数据基础设施等成熟应用。安恒信息、南京邮电大学数据要素创新实验室联合北京交通大学、南京邮电大学、北京京数智科技开发有限公司等机构,在全面、系统研究国家数据基础设施相关理论、政策、实践的基础上,推出我国第一份数据基础设施白皮书——《数据要素化新阶段的数据基础设施白皮书》,以期为国家数据基础设施建设和运营理论界、政策界和实践界提供借鉴和参考。参与《白皮书》编写的有:涂群、张茜茜、刘世峰、宫大庆、王军、范渊、刘博、陶立峰、王吾冰、聂桂兵、周亚超。图1数据空间正成为数据要素化新阶段的新型空间形态

….……………..……..……..……..……..………..……..……..……………..……..……..图2国家数据基础设施(NDI)总体框架

…………………..…..…..…..…..…..…...………..……..……..……..………..……...…图3数据产业图谱(2023)

…………………..………………..…..………..……...………..……...………..…….....图4数据基础设施新要求

……………………..……………..…..………..……...………..……...………..…….…….图5

流通数据的冰山模型

……………………..…………..…..………..……...………..……...………..…….………图6

公域数据即将耗尽

………………………..…………..……..………..……...………..……...………..…….……图7

冯.诺依曼计算架构

……………………….…..………..……...………..……...………..……..….图8

数由空间架构

……………..….….….….…...………..……...………..……...………..…….…...图9

数由器架构

………………..………..……..………..……...………..……...………..…….…......表

1

数据流通利用基础设施能力类型与技术实现

…………..…..………..………...………..……...………..……...………..……....图10

隐私计算技术

………….....………..………....………..……...………..……...………..……...图11

数据使用控制框架……………………….....………..………...………..……...………..……...………..……....图12

数据加密技术……………………….....………..………......………..……...………..……...………..…….…...图13

数据脱敏技术……………………….....………..………....…..………..……...………..……...………..……....图14

三数一链……………………….....………..………....…......………..……...………..……...………..……......图15

城市数由空间赋能城市交通优化

………..………..………........………..……...………..……...………..……...图16

城市数由空间支撑金融行业发展

………..………..………......………..……...………..……...………..…….....图17

医疗行业数由空间赋能医学模型落地

…………………..………..………......………..……...………..……...………..…….....图18

公安行业数由空间赋能反诈业务

…………………….....………..……….......………..……...………..……...………..……...03040507091012222325262830313437384041图表目录数据基础设施⽩⽪书数据基础设施⽩⽪1.1新要素数据要素具有虚拟性、非稀缺性、原始性、易复制性、多环节性、非消耗性、非排他性、非均质性、边际效应递增性、交易不确定性、时效性、场景依赖性、“阿罗信息悖论”、价值不确定性、功能替代性、协同性、多样性、规模性、可加工性、流动性等20多个不同于传统生产要素的特点。数据作为新兴生产要素不仅对传统经济理论和信息系统理论构成了冲击,也为社会经济生产生活带来了巨大改变。数据要素作为新兴生产要素,一方面通过参与社会生产活动,发挥自身价值潜能,提高社会生产效率,另一方面通过全方位赋能其他传统生产要素,充分发挥数据要素对其他传统生产要素的放大、叠加和倍增作用,实现数据要素的乘数效应。数据要素与劳动力相结合能提高劳动生产率;数据要素与技术相结合能加快技术迭代,促进产研融合;数据要素与资本要素结合能够降低后者的不确定性风险,加强金融服务的广度和纵深。1.2新空间人类社会的空间形态经历了物理空间、网络空间、计算空间和数据空间四个发展阶段。在7000多年的人类文明发展史中,全人类几乎一直生活在一个单一空间—物理空间中,人们所有的生活、工作、学习都在这个物理空间中进行。直到上世纪90年代,互联网的出现使人类第一次在物理空间之外拥有了一个新的空间—网络空间。网络空间起初的功能以连接为主,主要是将不同地区和国家的人连接起来用于传输信息。随着互联网在全球的快速普及,个人、企业、政府等不同主体逐渐将在物理空间中开展的工作、生活、学习等所有活动几乎都迁移到网络空间,个人的购物、会议、学习、办公、交友、订餐、打车、旅游等活动几乎全部在网上实现,企业的人财物产供销生产经营管理业务、政府的公共服务和社会监管等职能的数字化、网络化、智能化程度也越来越高。互联网上日益爆发性增长的各种2C、2B、2G业务对计算能力提出了越来越高的要求,这时网络空间不仅需要更强大的连接功能,而且对计算功能的要求更加强烈,网络空间也随之升级迭代为计算空间。第⼀章我国正在步入数据要素化发展新阶段以2019年党的十九届四中全会首次提出数据是继土地、劳动力、资本、技术以外的第五大生产要素为标志,我国经济社会正步入数据要素化发展新阶段。数据要素化发展新阶段的

“新”,主要体现在新要素、新空间、新设施、新产业、新要求等五方面。0102数据基础设施⽩⽪书数据基础设施⽩⽪近年来,随着移动互联网、工业互联网、物联网的快速发展,我国移动电话用户总数超过17亿户,重点工业企业关键工序数控化率超过62%,楼宇道路监控、智能家居、智能汽车等物联网设施装备日益普及。这些智能设备都成为数据采集装置,每时每刻都在生产数据,快速推动从前的零散、少量、低价值数据碟变为集聚、海量、高价值的大数据,数据的生产要素价值作用日益突显。这时不仅需要更加强大的连接和算力功能,对数据更大规模、更快速率、更高通量流通利用的需求更强烈,算力空间也随之升级迭代为数据空间,而使用控制、隐私计算、区域链、数据沙箱、智能合约、数据标识、语义发现、元数据智能识别等可信安全的数据流通技术正在成为数据要素化发展新阶段的主流技术。数据空间正在成为数据要素化新阶段的新型空间形态图1

数据空间正在成为数据要素化新阶段的新型空间形态国家数据基础设施(NDI)纵向上从顶到底分别是国家数据流通利用基础设施、国家算力基础设施、国家网络基础设施、国家数据安全基础设施等四层架构,横向上覆盖数据采存算管用全生命周期各环节,包括数据采集平台、数据汇聚平台、数据加工平台、数据共享平台、数据开放平台、数据运营平台、数据交易平台和数据存储平台等。国家数据基础设施(NDI)在基础设施形态、数据全生命周期、行业和区域空间三个维度相互融合、相互支撑,形成支持数据全生命周期不同环节、不同行业、不同区域数据要素化的统分结合架构。图2

国家数据基础设施(NDI)总体框架释意:国家数据基础设施:从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体。数据流通利用设施:国家数据基础设施的重要组成部分,为跨层级、跨地域、跨系统、跨部门、跨业务数据流通利用提供安全可信环境,包括可信数据空间、数场、数据元件、数联网、区块链网络、隐私保护计算平台等技术设施。数据基础设施⽩⽪书数据基础设施⽩⽪物理空间物理空间由大型机器设备,交通,通讯设施工程等组成0304网络空间网络空间由光线,卫星,无线网络,交换机,路由器,基站,TCO

/

IP协议,IPV6等组成计算空间计算空间,由计算芯片,存储器,服务器等组成数据空间数据空间由数据安全流通平台,各种协议,标准等组成1.3新设施国家数据基础设施是数据要素化发展新阶段最重要的基础设施,是指从数据要素价值释放的角度出发,在网络、算力等设施的支持下,面向社会提供一体化数据汇聚、处理、流通、应用、运营、安全保障服务的一类新型基础设施,是覆盖硬件、软件、标准规范、机制设计等在内的有机整体。数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪1.4新产业数据产业是数据要素化发展新阶段的主要产业形态,是指利用现代信息技术对数据资源进行产品或服务开发,并推动其流通应用所形成的新兴产业,包括数据采集汇聚、计算存储、流通交易、开发利用、安全治理和数据基础设施建设等。从构成要素来看,数据产业包括数据资源、数据技术、数据产品、数据企业和数据生态等五种要素。从产业主体来看,数据产业主体包括数据资源企业、数据技术企业、数据应用企业、数据服务企业、数据安全企业和数据基础设施企业。数据资源底层基础数据技术内在⼿段数据⽣态核⼼竞争⼒数据产品外在形态数据企业具象载体数据产业构成要素0506数据资源:以电子或者其他方式记录的原始数据及其衍生物。数据技术:围绕

“采存算管用

”全生命周期不同环节的各种技术的总称。数据产品:运用新一代数据技术,加工处理形成的不同级次、不同形态的产品和服务。数据企业:以数据为关键生产要素,运用数据技术,加工处理数据资源,对外提供流通交易和开发利用的企业。数据生态:产业上下游链条、大中小企业之间,相互依存、相互支撑的产业体系。数据基础设施⽩⽪书数据基础设施⽩⽪第⼆章全球数据生产方式正在发生深刻变化1.5新要求从网络空间到计算空间再到数据空间的碟变和升级,对统筹发展和安全提出了不同的要求,数据安全正在经历从静态安全到动态安全的迭代,数据流通也正在发生从公域数据流通到私域数据流通的拓展。在网络空间和计算空间发展阶段,数据作为网络化、数据化的一个必然结果,其要素价值还未被广泛充分认识,数据安全成为关注的重点,即必须确保信息和网络绝对安全,甚至为了保障数据安全,往往采取分级保护、等级保护、认证保护、密码保护、隔离保护等技术手段,限制数据流动,以实现“进不来、看不懂、拿不走、可溯源”等数据静态安全。在数据空间发展新阶段,数据成为新型生产要素,不仅对数据提出大规模、高通量、快速率的流通要求,充分发挥数据的要素价值作用,同时对数据安全也提出了新的、更严格的要求,即要确保数据在大规模、高通量、快速率的流通过程中的安全,数据安全发展到了动态全过程安全阶段。静态安全网络化、数字化发展阶段,采用分级保护、等级保护、认证保护、密码保护、隔离保护等技术手段,限制信息和数据流动,以实现

“进不了、看不懂、拿不走、可溯源

”等数据静态安全。动态安全在数据要素化发展新阶段,要确保数据在大规模,高通量,快速率的流通过程中的安全,数据安全发展到了动态全过程安全阶段。图4数据基础设施新要求0708数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪2.2全球公域数据即将完全耗尽大模型等人工智能技术对于数据需求巨大,预计到2028年公域数据资源面临耗尽。微软公司的数据交易平台Azure

Data

Market

因数据隐私风险,下线其多个开源数据集,考虑到微软与OpenAI的合作关系,这些数据都被应用于ChatGPT系列大模型的训练。2.3数据生产方式正在发生巨变数据生产方式不断向广度和深度拓展是数据要素化发展新阶段的重要标志。传统的数据采集生产主要依赖互联网搜索推荐,即通过网络爬虫等技术手段在合法合规的条件下广泛地抓取互联网上的公开数据,以及融合私域的专有数据为用户提供个性化的服务。人类社会步入数据要素化发展新阶段后,数据生产方式开始向两个方向拓展:第一个方向是向广度拓展,即从互联网爬取数据向物联网自动生成数据拓展。各种可穿戴设备、智能家电、道路监控设备、工业互联网自动感应装置等生成的各种非结构化数据,已成为当前数据来源的主流。专业化的数据标注与合成技术是海量非结构化数据成为高质量数据集的关键核心技术。第二个方向是向深度拓展,即从公域数据领域向私域数据领域拓展。随着人工智能大模型的快速发展,全球可供大模型训练的公域数据即将耗尽,而原先由于涉隐涉密(国家机密、企业秘密、个人隐私)而被尘封的海量私域数据,正在成为人工智能高价值数据集的重要数据源。数据空间、隐私计算、区域链、数联网等可信安全的数据流通技术正在成为数据要素化发展新阶段的主流技术。2.1市场流通的数据只是冰山一角在全球互联网上流通的数据中,可流通数据(即露在水面上的冰山部分)只占全部数据的较小一部分(20%左右),而在万维网上的流通数据只占可全部流通数据的4%,其余96%的数据都没有在万维网上流通;不可流通的数据(即隐藏在水面以下的冰山部分)占全部数据的较大部分(80%左右),其中,深网(Deep

web)中90%以上的数据都是私域数据,暗网(Dark

web)中有6%的数据是非法数据。万维网可通过搜索引擎访问的公共网站(例如维基百科),在万维网上的流通数据只占可全部流通数据的4%。深网受保护的网站、数据库和内联网,无法通过搜索引擎访问(例如电子邮件帐户、政府资源、医疗数据、学术信息等),深网中90%以上的数据都是私域数据。暗网提供完全匿名性的加密网络,需要特殊软件、配置和权限才能访问,充斥着非法的经济活动,暗网中有6%的数据是非法数据。20%可流通数据不可流通数据80%图5:

流通数据的冰山模型0910互联网数据分布图6

公域数据即将耗尽图片来源于:ICML

2024会议:《Will

we

run

out

of

data?

Limits

of

LLM

scalingbased

on

human-

generated

data》数据基础设施⽩⽪书数据基础设施⽩⽪全流程动态安全下的数据流通冯.诺依曼计算架构具有安全功能的先天缺陷现代计算产业架构是美国普林斯顿⼤学教授冯·诺伊曼于1944年提出的。冯·诺伊曼计算架构将计算机构成分为五部分,即控制器、运算器、存储器、输⼊设备和输出设备。在近80年的发展演进中,计算技术已发⽣⽆数次迭代,计算产品形态也发⽣了很⼤变化,但计算架构基本构成仍然是这五部分组成。其中,操作系统主要负责控制功能,CPU和GPU等计算芯⽚主要负责运算功能,由DRAM和NAND等芯⽚构建的存储器主要负责存储功能,PC、服务器、⼿机、云平台、智能汽⻋等各种计算终端主要负责输⼊和输出功能。图7

冯.诺依曼计算架构冯·诺伊曼计算架构的一个先天缺陷是其架构组成中没有安全单元,即由冯·诺伊曼计算架构主导形成的各种计算终端,尽管经过了大型机、小型机、微机、服务器、手机、云平台、智能汽车等形态的演进和变迁,但是,所有计算终端的功能架构中都没有安全单元,安全功能都是外挂的,由此造成计算与安全在技术、产品、产业、管理等各方面的全方位脱节甚至对立,一方面是以操作系统、计算芯片和存储芯片为代表的信息技术、产品和产业发展,另一方面则是以认证、隔离、密码为代表的信息安全技术、产品和产业发展。第三章从

“车厘子自由

”到

“数据自由

”:技术赋能的数据自由之路在数据要素化发展新阶段,人工智能等新技术新应用对数据规模和质量带来新挑战,数据生产方式发生了新变化,在这种背景下,真正统筹数据发展与安全,既要促进数据流通利用又要确保数据可信安全,这一命题被第一次摆到桌面上。0911数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪3.1.2

数据要素化新阶段流通与安全的融合在传统信息化发展阶段,一方面,数据按照可流通性被分成两种类型,一种是可流通数据,即可以在互联网上共享、开放、交换、交易的数据;另一种是不可流通数据,即大量涉隐涉密、不宜在互联网上直接开放、共享、交换、交易的数据。另一方面,数据安全和数据发展是对立的。可以在互联网上自由流通的数据都是公开的、不涉敏不涉密的数据;而涉隐涉密的数据都不容许流通,甚至会采取物理隔离、身份认证、密码加密等手段将数据加固存储在一个

“安全

”的地方,不许流动。在数据要素化发展新阶段,一方面,数据的类型只有一种,都是可以流通的数据,区别之处就在于采用何种流通技术和流通方式进行流通,普通的数据只需要采用各种明文传输、计算方式即可流通,而涉隐涉密数据必须通过隐私计算、区块链、数据空间等可信安全流通技术进行流通。另一方面,数据发展和安全必须统筹,既要发挥数据,特别是海量涉敏涉密高价值数据的要素作用,促进经济社会发展,也要确保数据在流通应用中的安全。因此,确保数据在大规模高通量流通过程中的安全,成为数据要素化发展新阶段的一个核心特点。3.2

“物流冷链

”技术发展赋能

“车厘子自由

”物流冷链技术是指将易腐烂、需要恒温储存的商品或食品,从生产地到消费者手中,整个过程中都要保持恒定的温度和湿度。过去5、6年内,我国一方面支持物流冷链技术持续突破,另一方面促进物流冷链技术快速基础设施化,推动实现了

“车厘子自由”。3.2.1物流冷链技术持续突破冷链技术包括冷链物流技术和冷链保鲜技术。冷链技术的不断完善和提高为冷链物流的发展提供了强有力的技术支撑。冷链物流技术:冷链物流技术包括冷库技术、冷藏车技术、保温盒技术等,其中冷库技术是最基础也是最重要的。——冷库技术是冷链物流中最基础也是最重要的技术之一。它是一种通过制冷设备,将易腐烂、需要恒温储存的商品或食品保持在恒定温度和湿度的仓库。冷库技术需要考虑到如何保持温度和湿度的稳定性、如何提高储存效率、如何进行货物的进出库管理等问题。1314——冷藏车技术是实现冷链物流中“最后一公里”的重要手段。它通过在车辆内部安装制冷设备,将易腐烂、需要恒温储存的商品或食品保持在恒定温度和湿度。冷藏车技术需要考虑到如何提高车辆的保温性能、如何降低能耗、如何进行货物的装卸等问题。——保温盒技术一种便携式的冷藏设备,它通过在盒内安装制冷设备,将易腐烂、需要恒温储存的食品或药品保持在恒定温度和湿度。保温盒技术需要考虑到如何提高盒子的保温性能、如何降低能耗、如何进行盒子的清洗和消毒等问题。——

冷链保鲜技术包括真空预冷保鲜技术、气调保鲜技术、辐照保鲜技术。——真空预冷保鲜技术是一种快速降温的保鲜方法,它通过将易腐烂、需要恒温储存的食品或药品放置在真空环境中,利用气压差使食品或药品快速降温。这种保鲜方法可以有效地降低食品或药品的呼吸强度,抑制微生物的生长和繁殖,从而延长保质期。——气调保鲜技术一种通过调节气体比例来保鲜的方法,它通过改变储存环境中的氧气和二氧化碳比例,来抑制微生物的生长和繁殖,从而延长保质期。这种保鲜方法可以有效地保持食品或药品的色、香、味、形等感官指标。——辐照保鲜技术是一种利用辐射能量来杀死食品或药品中的微生物的方法。这种保鲜方法可以有效地杀死食品或药品中的微生物和虫害,从而延长保质期。辐照保鲜技术的优点是操作简便、不污染环境、安全性高等。——臭氧保鲜技术是一种利用臭氧的强氧化性来保鲜的方法,它通过向储存环境中通入臭氧,与微生物发生反应,从而抑制其生长和繁殖。这种保鲜方法可以有效地杀死食品或药品中的微生物和虫害,延长保质期。臭氧保鲜技术的优点是操作简便、安全性高、不污染环境等。数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪数据提供方(原数据)冷货商品(车厘子)数据需求方(数据产品)末端(商超)数据沙箱数由器数由平台数由器数由器隐私计算使用控制存储冷库冷链温控系统冷链冷链加工冷库配送冷库物流基础设施数据自由车厘子自由一方面将组织国家重大科技专项,对隐私计算、区块链、数据空间等关键核心数据技术开展技术攻关,以期快速实现技术突破;另一方面将通过国家数据基础设施建设试点试验,并行开展各种技术路线的探索实践。争取用三年左右时间,将数据安全流通利用技术的资源消耗降低到明文传输计算的三倍左右,传输计算效率达到明文传输计算的五分之一。淘汰资源消耗大、传输计算效率低的技术路线,围绕一个至多两个资源消耗和传输计算效率达标的技术路线进行提炼总结,研究制定国家推荐的数据安全可信流通技术标准和数据流通利用基础设施建设标准,形成国家安全可信数据流通技术路线。按照国家数据安全可信流通技术标准和数据流通利用基础设施建设标准,在全国各城市、各行业大范围建设城市数据流通利用基础设施和行业数据流通利用基础设施,并鼓励有条件的企业按照国家标准建设企业流通利用基础设施,并在五年内建设形成以城市数据流通利用基础设施和行业数据流通利用基础设施为主体,以企业数据流通利用基础设施为补充,横向打通、纵向贯通、协调有力的国家数据流通利用基础设施。数据流通利用基础设施数据流通利用基础设施3.2.2物流冷链技术基础设施化在技术创新和突破的同时,人们对食品安全和品质的要求也越来越高,物流冷链技术不仅仅限于远程的、高价值的食品运输,也在开始应用在近距离的、普通的食品运输中。技术创新和应用普及的相向而行,使原来成本居高不下、仅供高端食品运输的“物流冷链”技术,成本大大降低,并适合于几乎所有食品的运输,推进了物流冷链的基础设施化,也使

“车厘子

“牛油果

”等高端水果平民化,使用普通大众实现了

“车厘子

”自由。3.3

“数据冷链

”技术发展赋能

“数据自由

”数据冷链是指通过数据技术创新和应用,将涉敏涉密的、不宜直接在互联网上流通的数据,可信安全地、低成本地、大规模快速率高通量地流通起来。数据从数据提供方到数据应用方的

“采存算管用

”全过程都要保持安全可信。3.3.1数据冷链技术突破方向当前,以隐私计算技术、区块链技术、数据空间技术等为代表的数据可信安全流通技术,已经在涉隐涉密高价值数据传输、计算、处理等方面实现了技术突破,部分原先不能流通的数据通过采用这些技术,在确保数据安全的前提下,实现了共享、开放、交换、交易等流通应用。但这类技术当前普遍存在的问题是资源消耗大、处理效率低,还远远不能满足数据大规模、快速率、高通量流通的需求,如当前采用隐私计算方式传输和计算密文数据,其资源消耗是明文传输的100倍,而传输和计算效率不及明文传输的十分之一,距离数据普惠使用、大规模传输还有较大差距。3.3.2数据冷链技术基础设施化策略今后5—10年,国家将采用采用三步走、分三阶段突破数据安全流通关键技术,推进数据冷链技术基础设施化,推动实现数据自由。第一阶段:技术攻关阶段。 第二阶段:技术收敛阶段。 第三阶段:技术推广阶段。1516数据基础设施⽩⽪书数据基础设施⽩⽪第四章数据可信流通利用基础设施赋能

“数据自由

”在推进数据要素市场化和数据价值共创的背景下,构建高效、安全、可信的数据流通利用基础设施至关重要。根据国家数据局于2024年10月发布的《可信数据空间发展行动计划(2024—2028年)(征求意见稿)》[1],可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。可信数据空间须具备数据可信管控、资源交互、价值创造三类核心能力。作为数据流通利用基础设施的一种实践方案,本章将介绍

“数由

”空间体系架构、技术组件与运营模式,探索如何在

“保安全

”的前提下,实现数据

“供得出、流得动、用得好

”。可信数据空间:基于共识规则,联接多方主体,实现数据资源共享共用的数据流通利用设施。4.1

数据流通利用基础设施2024年10月18日,国家数据局发布了《可信数据空间发展行动计划(2024—2028年)》(以下简称《行动计划》)的征求意见稿,旨在通过培育五大可信数据空间,即企业可信数据空间、行业可信数据空间、城市可信数据空间、个人可信数据空间和跨境可信数据空间,推动数据要素的合规高效流通使用,加速构建以数据为关键要素的数字经济。这一举措旨在充分释放数据要素价值,激发全社会内⽣动⼒和创新活⼒,构建全国⼀体化数据市场提供有⼒⽀撑。可信管控能力是可信数据空间核心能力之一,包括对空间内主体身份、数据资源、产品服务等开展可信认证,确保数据流通利用全过程的动态管控,提供实时存证和结果可追溯。4.1.1

三大核心能力(1)可信管控能力(2)资源交互能力资源交互能力是可信数据空间核心能力之一,支持不同来源数据资源、产品和服务在可信数据空间的统一发布、高效查询、跨主体互认,实现跨空间的身份互认、资源共享和服务共用。(3)价值创造能力价值创造能力是可信数据空间核心能力之一,支持多主体在可信数据空间规则约束下共同参与数据开发利用,推动数据资源向数据产品或服务转化,并保障参与各方的合法权益。数据流通利用基础设施三大核心能力可信管控能力数据提供方数据服务方数据使用方可信数据空间监管方资源交互能力价值创造能力四类参与角色数据提供方是可信数据空间中提供数据资源的主体,有权决定其他参与方对其数据的访问、共享和使用权限,并有权在数据创造价值后,根据约定分享相应权益。17184.1.2四类参与角色(1)数据提供方(3)数据服务方数据服务方是可信数据空间中提供各类服务的主体,包括数据开发、数据中介、数据托管等类型,提供数据开发应用、供需撮合、托管运营等服务。(4)可信数据空间监管方可信数据空间监管方指履行可信数据空间监管责任的政府主管部门或授权监管的第三方主体,负责对可信数据空间的各项活动进行指导、监督和规范,确保可信数据空间运营的合规性。(2)数据使用方数据使用方是可信数据空间中使用数据资源的主体,依据与可信数据空间运营者、数据提供方等签订的协议,按约加工使用数据资源、数据产品和服务。数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪数据可信流通利用基础设施架构:

“数由

”空间数据流通的困难与挑战数据可信流通利用基础设施需要解决以下问题:1.数据挖掘与汇聚数据挖掘与汇聚是数据流通的基础,旨在推动各数源方和用数方的数字化转型,实现参与各方域内数据的汇聚。随着数字经济体系以及数据基础设施的逐渐清晰,政企数字化转型过程中需要特别关注的合规、权属、收益、价值等问题也逐渐清晰。数据可信流通利用基础设施,可以辅助企业实现数据的标准化接入和统一管理,从而提高数字化转型的效率,降低成本,为后续的数据流通利用奠定基础。2.数据发现与运营数据发现与运营,旨在推动数据资源的高效配置和利用,确保数据市场的场景发现与供需匹配。当前数字经济中的核心问题之一是数据供需不平衡、资源配置不合理。例如,网约车公司可能因缺乏实时数据支持而导致运力分配不均,影响调度效率,进而降低包括网约车公司、网约车司机以及乘客在内的所有参与方的收益。若有足够的数据,网约车公司可以实时监控运输数据,优化运力调度,确保车辆及时、安全地到达目的地,从而提高整体运营效率和客户满意度。数据可信流通利用基础设施可以辅助数据的发现与交易,加速挖掘数据场景。3.数据流通与处理数据只有流通利用起来才能释放数据价值,因此数据的流通和处理是数据可信流通利用基础设施产生实际社会与经济价值的核心。当前,数据流通和处理的过程中存在流通链路不通畅和数据流通保护难保证这两大问题。数据流通链路建立的成本高昂,许多企业面临每次交易都需要重新建立流通链路的问题,这种一次交易一次建立的方式不仅效率低下,而且增加了数据共享的整体成本。同时,以隐私计算、同态加密、差分隐私等技术为代表的数据流通技术与产品应用的门槛与成本较高,数据流通安全的普及存在着较大障碍。数据可信流通利用基础设施的建立,可以降低链路建立的成本,提高数据流通的效率和可持续性;同时可以以低成本、自动化的方式应用数据流通安全保护技术。4.1.3相关技术(1)使用控制是一种可信管控技术,通过预先设置数据使用条件形成控制策略,依托控制策略实时监测数据使用过程,动态决定数据操作的许可或拒绝。(2)隐私计算是一种可信管控技术,允许在不泄露原始数据的前提下进行数据的分析和计算,旨在保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。隐私计算的常用技术方案有多方安全计算、联邦学习、可信执行环境、密态计算等。(3)数据沙箱是一种可信管控技术,通过构建一个应用层隔离环境,允许数据使用方在安全和受控的区域内对数据进行分析处理。(1)数据标识是一种资源互通技术,通过为数据资源分配唯一标识符,实现快速准确的数据检索和定位,实现数据全生命周期的可追溯性和可访问性。(2)语义发现是一种资源互通技术,通过自动分析理解数据深层含义及其关联性,实现不同来源和类型数据的智能索引、关联和发现。(3)元数据智能识别是一种资源互通技术,将元数据从一种格式转换为另一种格式,包括并不限于对数据的属性、关系和规则进行重新定义,以确保数据在不同系统中的一致性和可理解性。(1)接入认证是一种可信数据空间共性服务,按照统一标准,对接入可信数据空间的主体、技术工具、服务等开展能力评定,确保其符合国家相关政策和标准规范要求。可信数据空间的共性功能需求,可以提供通用化的服务,包括并不限于接入认证、可信存证、资源目录等功能。适宜统一建设,以避免重复建设,提升服务效率和质量。(2)可信存证是一种可信数据空间共性服务,保存数据流通全过程信息记录并不可篡改,为清算审计、纠纷仲裁提供电子证据,确保全过程行为可追溯。(3)资源目录一种可信数据空间共性服务,按照统一接口标准建设,提供数据、服务等资源的发布与发现能力。可同时被多个可信数据空间使用。1.可信管控技术2.资源互通技术3.共性服务技术1920数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪图8

数由空间架构数由空间:一种灵活、可扩展的数据流通利用设施框架与实现,能以低成本、高效的方式实现与多种数据流通利用设施的融合联通。21224.数据安全保障数据安全保障贯穿于数据可信流通利用基础设施的全流程,通过数据脱敏、数据加密和数字身份等技术手段,确保数据在汇聚、处理、流通、应用和运营过程中的可信性、完整性和安全性。以电子商务平台为例,用户在交易时面临个人信息泄露的风险。通过数据加密和数字身份认证,电子商务平台可以确保用户的交易信息安全,防止数据泄露和欺诈行为,从而增强用户对平台的信任。但是,这类数据安全保障方案具有场景定制化程度和成本高的特点。数据可信流通利用基础设施的建立,可以将数据安全技术下沉到数源单位的业务端,有效降低成本,提升数字经济时代的数据安全保护能力。4.2.2

“数由空间

”整体方案数据基础设施通过构建包含接入点、基础能力平台和管理服务平台为核心,配合动态安全和统一服务的能力,实现提升企业的运营效率,还能增强数据的安全性和可信性,推动数字经济的高质量发展。在全球数字化浪潮中,数据基础设施的建设已成为我国发展的重要战略领域。数据基础设施的实现需要具备数据挖掘与汇聚、数据流通与处理、数据发现与运营、以及数据安全保障等能力。为此,在满足数据基础设施基本要求的前提下,

“数由空间

”旨在推动私域空间内和跨空间之间数据的高效流通、安全利用和价值共创。“数由空间”由数由器、基础能力平台、管理服务平台三个层面构成,再辅以动态安全防护以及统一服务对接服务。在提供数据和需求数据的企业、政府和个人侧通过部署数由器,高效地接入“数由空间”,实现数据高通量、低成本的流通。全社会的各类数据资源通过数由器构成的分布式网络安全高效地流通,并依托数据管理服务实现全局目录的构建,以便解决数据流通过程中的供需问题。依托全局数据资源目录,用数主体可以通过数由器轻松地完成数据资源的检索与交易,并根据数据安全和数据价值的判断,通过数由器以合适的技术手段实现数据的交付。数由器对接区块链、数据合规流通数字证书、数据交易所等权威机构和平台,实现用户用数过程全流程的自动存证与备案,降低主体数据在流通过程中的风险与合规成本。数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪2.

基础能力平台基础能力平台的核心作用是为数由空间提供基础技术支撑和能力保障,这些能力包括了可信管控能力、资源互通能力以及如接入认证、可信存证在内的共性能力。例如,隐私计算、数据沙箱等技术能力可以提供可信管控能力,数据资产登记、数据资产地图等技术可以提供资源互通能力,区块链、智能合约、数据合规流通数字证书、大模型等技术可以为共性能力提供技术支撑。数由空间的基础能力平台通过整合这些能力向整个数由平台提供,为数由平台构建了数据可信流通利用的信任基础。举例来说,隐私计算和数据沙箱能够在确保数据安全的前提下实现数据共享和分析,以及数据安全网关、访问控制等在内的使用控制技术可以为数由空间提供可信管控的能力。数据资产登记和数据资产地图技术在确保数据的权属清晰以及流通过程中合规性的前提下,提供了数据供需的撮合以及数据资源的互通能力。此外,通过具备可信存证公信力的数据合规流通数字证书,为数据的流通过程提供不可篡改的记录和可信的交易环境的区块链和智能合约技术,为数据流通过程中的各类决策提供支持的机器学习等技术,为平台的共性能力提供支撑。3.管理服务平台管理服务平台对数由空间也至关重要,它在用户、业务和网络多个层面为数据的安全性、合规性和高效流通提供了支撑。在用户层面,管理服务平台通过身份管理和权限分配,可以精确控制数据的访问权限,防止未经授权的操作,确保数据使用符合规定。在业务层面,智能合约管理则能够自动执行数据共享和交易中的规则和约定;同时,审计清算和运行监测功能提供了数据流通过程的透明性和可追溯性,确保数据在全生命周期内的安全和合规。在网络层面,数由器管理和智能合约管理则能够高效调度数据流通路径和自动执行共享规则,提高数据共享过程的透明度和效率。这些能力的结合,构建了一个可靠、透明、高效的数据可信流通体系。管理服务平台不仅为数据在一个数由空间内的流通起到管理与控制的作用,还负责多个数由空间之间的互联互通,为实现国家以及全球的数据共享流通提供了技术支撑。具体而言,通过统一的身份管理、权限控制和数据流通标准,管理服务平台能够在不同数由空间之间建立安全的连接,实现身份互通、网络互通、数据目录互通以及数据接口互通,从而实现数据跨数由空间的共享与协作。首先,基于联合身份认证机制以及跨平台的信任授权协议构建的身份互通机制,可以实现跨数由空间的统一的身份认证和管理体系,确保不同数由空间之间的用户身份可以被有效识别和认证,从而实现安全和一致的访问控制,防止未经授权的访问。其次,通过统一的数据资产登记和目录管理,可是实现数据目录跨数由空间的互通,使得不同空间中的数据资产可以被高效查找和利用,打破数据孤岛,提高数据资源的可见性和可访问性。具体而言,可以通过建立统一的数据资产管理标准和元数据目录服务,采用标准化的数据描述语言实现。再次,通过使用同一的标准化数据接口,可以数由空间数据接口的互通,使得各空间之间的数据交互和调用变得更加便捷和一致,实现跨空间的数据共享和协作流程。最后,通过虚拟专用网络(VPN)、软件定义网络(SDN)以及跨数据中心的高带宽专线连接等技术手段,可以构建跨数由空间的网络互通能力,确保各数由空间之间的数据和信息可以高效、安全地传输的同事,确保数据传输的低延迟和高可靠性,从而提升数据流通的速度和稳定性。1.

数由器:数由空间的接入点数由器作为数由空间的接入点,对于保障数据可信流通具有重要的必要性。数由器负责将来自多方的数据源安全、稳定地接入整个数由空间,促进数据场景的发现和供需的撮合,这是实现数据互联互通和融合的第一道关卡。同时,通过统一的数据接入标准、严格的认证机制和先进的控制技术,数由器确保了数据的来源可追溯、传输过程可控,从而为后续的数据处理和分析提供了可信的基础保障。数由器的可靠性直接影响着数据可信流通的整体安全性和效率,因此是数由空间中不可或缺的一部分。数由器是以数据资产地图、数据交易、数据交付为核心功能,解决多方主体之间数据供需、流通、利用问题为目的的数据基础设施接入终端。如下图所示,数由器旨在提升辅以零信任、可信根等技术核心的身份认证和访问控制技术,数据脱敏、分类分级、API网关等技术为核心的数据安全技术,隐私计算、差分隐私等技术为核心的数据安全流通技术,数据合规数字证书、区块链等技术为核心的审计监管技术。图9

数由器架构数由器:一种将数据流通利用的参与方接入数由空间的终端设备。2324数据提供方和数据使用方通过数由器的身份认证和权限分配机制接入数由空间,确保了访问行为的合法性。数据提供方将数据目录安全地接入到空间之中,数据使用方则可以通过数由器查找到所需数据。借助统一的数据目录,数据使用方能够高效地发现和定位数据资源,破解数据发现与运营问题。数据提供方和数据使用方通过数由器可以完成数据的交易行为。在数据交付过程中,通过数由器的数据汇聚与标准化转换能力,解决了数据挖掘与汇聚中的格式和标准不一致问题。数由器的网络互通和数据接口互通确保了数据在多方之间的无缝传输和调用,从而有效应对数据流通与处理问题。此外,通过数由器调用数由空间的隐私计算技术、数据安全技术和严格的安全认证机制保障了数据接入和流通过程中的安全性,全面解决了数据安全保障问题,实现了数据的可信共享和高效利用。数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪隐私计算技术的不同技术路线有着不同的优势和不足。如图3-2-1所示,机密计算具有几乎等同于明文计算的性能和通用性,安全性基于可信硬件。安全多方计算的安全性高但普遍存在计算和通信

“瓶颈

”。联邦学习在机器学习领域速度较快,但对于隐私信息保护能力有待提升。图10

隐私计算技术机密计算(TEE)技术是一种基于硬件的安全保护技术。通过使用特定的硬件功能,创建一个被硬件保护且与外部隔离的机密计算环境,为运行的应用程序和被处理的数据提供安全性保护,实现隐私安全。数由空间中,可以将计算数据与交易合约通过安全的方式传入机密计算环境内部,利用机密计算技术安全地完成计算任务,实现数据

“可用不可见

”的安全性防护能力。通过将机密计算环境与交易合约绑定,为每个交易合约创建独立的机密计算环境,实现不同合约之间的数据完全隔离。数由.Cloud为关键数据计算任务创建独立的机密计算环境,所有需要高度保密的操作在硬件机密计算环境中执行,可提供极高的安全保护等级。通过对机密计算环境内的计算任务和操作的记录,可实现对交易合约执行情况的监控,便于安全审计。在实际应用中,为了提高数由空间的易用性与灵活性,平台也可能会向用户提供安全调试沙箱。安全调试沙箱是数据进入机密计算环境进行运算前,数由空间提供给开发人员的用于安全测试的沙箱环境。数由空间会向安全调试沙箱开放部分样本数据进行算法的调试。由于机密计算环境的构建需要占用一定的硬件资源,而测试环境由于不含隐私数据,因此可以向数据需求方或数据加工方提供资源消耗较小的安全调试沙箱用于调试。4.2.3

“数由空间

”关键技术组件数由空间作为一种数据要素流通利用基础设施,提供数据安全合规共享流通能力,围绕其总体功能,主要从保障数据隐私安全、流通过程可控可信、跨平台跨技术互联互通等角度归纳、分析数据流通的关键技术方法,并应用于互联基础层、资源接入层、计算控制层、流通服务层等环节:资源交互价值创造实现数据跨域互联互通密文转换、数据路由查找等高效发现与挖掘数据的应用价 数据资产地图、人工智能、数值,并保障相关方权益 据流通合规数字证书等能力类型技术类型主要功能技术示例可信管控隐私保护技术使用控制技术信任保障技术数据安全技术提供隐私信息安全保障提供数据处理控制措施为各参与方提供信任管理能力提供数据流通过程中安全的保障隐私计算、数据限制发布、数据失真等访问控制、控制策略、智能合约、数据沙箱等身份认证、可验证计算、存证溯源等数据脱敏、数据加密、数据水印、分类分级等2526互联互通技术价值发现技术表

1

数据流通利用基础设施能力类型与技术实现1.隐私保护技术技术手段用于维护隐私,主要涵盖了隐私计算、数据发布控制和数据扭曲等方法。这些方法在数据的接入和处理层级中,为数据的隐私保护提供了必要的安全措施。(1)隐私计算。隐私计算技术并不是单一的技术,而是集计算机体系结构、密码学、计算机网络、大数据、人工智能等众多领域融合的技术体系。中国信息通信研究院发布的《隐私计算白皮书(2021年)》给出了隐私计算技术的定义,即“在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的‘可用不可见’

”。当前阶段,隐私计算技术主流路线包括机密计算、联邦学习、安全多方计算(Multi-Party

secure

Computation,MPC),三者各有优劣,适用于不同的场景。数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪2.使用控制技术数据使用控制技术是指将数据提供方和使用方之间的数据使用的条件和条款,在跨系统、应用等开放、复杂、分布式环境中转化为机器可执行的技术手段,用于管理和约束数据在处理、流通、销毁等各阶段内按约定访问和使用。这确保了条款和条件能够被计算机执行和评估,以实现数据提供方的数据保护和使用方按约定使用数据的目标。具体包括访问控制、使用控制策略、智能合约和数据沙箱等技术,主要在数据处理层面发挥作用。(1)访问控制。访问控制是一种基于用户身份和其所属组的定义,限制对信息访问的传统技术,主要用于防止未授权访问任何资源。(2)使用控制策略。使用控制策略旨在确保数据控制权始终保留在数据提供方手中,通过对数据使用行为的规范和约束来实现,涵盖了使用者、时间、地点、频次、方式等。执行这些控制策略有助于防止数据在流通过程中的泄露和滥用。(3)智能合约。智能合约是一种能够在区块链上运行的自动化程序,无需第三方即可执行自动化的交易托管。通过智能合约,用户可以共同制定并记录到区块链上的合约,自动执行确保了合约条款的安全性和可靠性。(4)数据沙箱。数据沙箱技术通过在封闭或隔离的环境中控制数据的使用,确保数据按照既定策略使用。图11

数据使用控制框架联邦学习(FL)是分布式机器学习的演进,由多个参与方联合起来进行机器学习。核心思想是“数据不出模型出”。由多个参与方在各自本地进行明文数据的模型训练,完成分布式训练。训练结束,将训练出的模型结果或者中间参数在一个中心参数服务器进行交互,以此优化相应的模型参数,完成梯度训练和模型更新的方式,实现最终模型的安全聚合。安全多方计算(MPC)是一种完全基于密码学协议的技术,通过一系列密码学协议来实现多方联合计算的过程。各参与方在运算时,其数据都会被本地MPC模块加密且拆分成若干份,然后系统将所有方拆分的数据进行随机组合分发,最后执行相应的运算任务,以此实现了多个参与方之间基于密文数据的基本运算,可以达到多个互不信任的参与方在不泄露各自私有信息的前提下进行多方合作计算目的。近年来,隐私计算迎来一系列创新与突破,一方面,各主流隐私计算技术路线持续迭代优化,在单点层面提升了能力上限;另一方面,为了适应现实场景,开始探索通过技术融合等方式来突破瓶颈。技术的不断发展,使得隐私计算的可用性进一步提升,为技术大规模落地应用提供了必要条件。随着隐私计算在数据流通中的实践应用逐渐深入,行业对于隐私计算技术的安全可证、流程可控、高效稳定、开放普适等方面均提出了更高要求,隐私计算的概念得到进一步外延,逐步形成了广义隐私计算技术体系。数据发布的限制。通过限制性发布原始数据、不发布或发布低精度的敏感数据,实现隐私的保护,包括数据脱敏和各种去标识化技术,如掩码、压制、泛化、截断、混淆等。这些技术通常在数据接入阶段就开始发挥作用,并在数据提供方本地完成数据的安全处理。数据扭曲技术。通过添加噪声等手段扭曲敏感数据,同时保持数据的某些属性或统计特性不变,主要包括随机扰动和数据合成等方法。这些技术与数据发布的限制技术具有相似的作用,通常也在数据接入阶段使用。2728数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪5.数据安全技术(1)零信任访问控制。零信任访问控制是基于“以身份为中心结合终端环境感知技术,构建可信访问,持续动态鉴权、智能运营”的理念,通过互联网暴露面治理、动态终端身份认证、全周期终端环境安全评估、业务资产动态访问控制、API接口安全等核心能力,帮助用户实现流量身份化、权限最小化、信任度量化、业务安全访问的新一代网络安全架构转型。(2)数据加密。数据加密技术是指将一个信息(或称明文)经过加密钥匙及加密函数转换,变成无意义的密文,而接收方则将此密文经过解密函数、解密钥匙还原成明文。加密技术主要包括对称加密、非对称加密及混合加密三种。图12

数据加密技术静态数据脱敏根据适用的数据脱敏规则并使用类似于ETL技术的处理方法对数据集进行处理,主要目标是对完整数据集中的大批数据进行一次性全面脱敏。动态数据脱敏的主要目标是对外部应用程序访问的敏感数据进行实时脱敏处理,并立即返回处理后的结果。该技术通常会使用类似于网络代理的中间件,根据脱敏规则实现实时失真转换处理,并返回外部访问应用程序的请求。动态脱敏与静态脱敏有着明显的区别,静态脱敏一般用于非生产环境,主要应用场景是将敏感数据由生产环境抽取出来,经脱敏处理后写入非生产环境中使用。而动态脱敏的使用场景则是直接对生产环境数据实时查询,在访问者请求敏感数据时按照请求者权限进行即时脱敏。(3)数据脱敏。数据脱敏是指对某些敏感数据通过脱敏规则进行数据变形,实现敏感数据的可靠保护。主要包括静态脱敏和动态脱敏两种方式。3.信任保障技术以实现数字化交互过程中的信任为目标,重构人们对技术、平台和机器的信任方向,并通过数字信任技术的融合创新来推动数据流通的全流程和全周期的安全可信,包括身份认证、可验证计算、存证溯源等技术。信任保障技术的应用还需结合法律、政策和伦理等规范,以确保数字化的公正、透明和可持续发展。(2)可验证计算可验证计算技术允许用户在不重复进行计算的情况下,通过采用硬件或软件方案,有效地验证服务器上计算的正确性。这种计算的可验证性不仅加强了用户对数据的控制权和使用权,而且通过高效验证减少了无效计算,提升了系统的整体性能。(1)身份认证身份认证过程旨在验证被认证实体的真实性和有效性,包括分布式身份和数字证书等内容,为整个网络的安全提供了重要的基础。其中,分布式身份通过区块链等技术,在分布式网络环境中提供了更安全、便捷和可扩展的身份管理解决方案。(3)存证和审计存证溯源技术提供了数据完整性验证、数据来源追溯等功能,增强了数据的可信度和安全性。监控审计则是对数据使用过程中的日志和关键数据进行监控,提供了全方位的审计能力,以便于监管机构进行全面的监督。(4)区块链技术区块链(Blockchain)是一种按照时间顺序将若干数据区块相连的、不可篡改、不可伪造、全程留下痕迹、交易可以追溯的分布式共享账本。使用隐私计算+区块链相结合的技术手段,可以详实地记录数据提供方和算法模型开发方在数据流通过程中的参与度和贡献值,作为收益产出分配的客观依据。合理倾斜,向数据价值和使用价值的创造者。激励导向,数据价值各环节的投入有相应回报,基于数据价值创造和价值实现。4.互联互通技术互联互通指的是通过技术手段和协议,使不同的网络、系统或设备能够相互连接和交互。例如在应用隐私计算技术时,考虑到现有的产品和系统在算法协议、任务调度等方面存在差异,需要建立统一的技术接口和协议规范以实现互联。在区块链技术的应用中,通过技术工具或统一接口协议,实现跨区块链网络的信息、数据、资产流通以及互操作性。2930数据基础设施⽩⽪书数据基础设施⽩⽪“数由空间

”赋能

“数据自由

”“数由空间

”破解

“数据自由

”障碍“数据自由”的障碍主要包括数据发现与运营问题、数据挖掘与汇聚问题、数据流通与处理问题以及数据安全保障问题。首先,数由空间通过标准化的数据目录和资产登记,解决了数据发现和运营中的资源孤立问题,使得数据可以被有效检索和利用。其次,数由空间提供了数据汇聚、清洗和标准化转换的能力,打破了数据挖掘与汇聚过程中的异构数据壁垒,使不同来源的数据能够无缝融合。针对数据流通与处理问题,数由空间通过标准化的数据接口和高效的数据管理机制,实现了多方数据的共享与协同分析,提高了数据处理的效率。最后,数由空间通过引入隐私计算、智能合约管理以及数据合规流通数字证书等技术手段,全面保障了数据在整个流通过程中的安全性和合规性。(3)人工智能。人工智能,尤其是大模型能够处理海量的异构数据,通过深度学习和自我优化,挖掘出数据中隐藏的模式和关联,从而实现数据价值的最大化。在数由空间中,人工智能不仅能高效处理和分析数据,还能自动识别数据之间的复杂关系,为决策提供科学依据。此外,大模型可以通过对历史数据的学习,预测未来趋势,优化资源配置,助力各行业实现精细化管理和个性化服务。因此,人工智能技术的应用是实现

“数据自由

”生态不可或缺的重要推动力。此外,数据资产地图有助于发现数据要素间的关联关系,挖掘潜在数据价值,通过分析整合数据要素可发现新业务机会和创新点,为组织带来更多经济效益,例如在金融领域,可对客户交易数据、信用数据、行为数据等进行关联分析,为精准营销、风险评估等业务提供支持,实现数据要素价值最大化。(2)数据合规流通数字证书。数据合规流通数字证书即“数据发票”。通过数据发票的方式,解决交易前核验、交易中存证、交易后稽核。“数据合规流通数字证书”

一方面是开展数据交易合规安全监管的制度性工具和软件基础设施,可以有效降低数据合规、验证和交易过程记录存证的成本,保障买卖双方的主体权益,减少企业在数据交易中的顾虑;另一方面,是开展数据交易合规安全监管的制度性工具和软件基础设施,为全流程弹性包容监管机制提供了重要载体,有助于政府对数据交易进行监管,解决数据流通交易的合规问题。数据发票推动了数据交易的规范化进程,引领了数据交易合规监管的新潮流,为数据要素的合规高效可信流通提供了重要基础设施,有望激活数据要素潜力,促进数据要素市场的发展。(5)API网关。API

网关是一种位于客户端与后端服务之间的中间层服务,包括路由和负载均衡、身份验证和授权、加密和签名、

访问控制、监控和日志记录、协议转换和适配等能力,为

API

提供了统一的入口和出口,起到了管理、保护和优化

API

调用的作用。数据资产地图对数据要素具有重要意义。可实现全面梳理组织内的数据资源,通过可视化方式清晰展示数据要素的存储位置、类型、来源等信息,使组织快速了解自身拥有的数据要素及其分布情况,如在大型企业中,可帮助管理层直观了解各业务部门数据资产状况,以便更好地进行资源调配和决策制定。同时,数据资产地图为数据要素管理提供有力支持,明确数据所有者、管理者和使用者的职责权限,确保数据要素安全、准确、合规使用,还能帮助组织建立数据治理框架,进行质量评估、元数据管理、数据标准制定等,提高数据要素质量和可用性,企业可借此快速定位有质量问题的数据要素并追溯来源和责任人进行整改优化。图13

数据脱敏技术(4)数据分类分级。数据分类分级技术是一种对数据进行管理和保护的重要方法。数据分类是根据数据的内容、用途、价值等特征,将数据划分为不同的类别。例如,可以将数据分为客户数据、财务数据、业务数据、技术数据等。数据分级是在分类的基础上,根据数据的重要性、敏感程度等因素,将同一类数据进一步划分为不同的级别。例如,可以将客户数据分为一般客户数据、重要客户数据、核心客户数据等。6.价值发现技术(1)数据资产地图。数据资产地图是组织数据的全景展现,它是组织实现数据要素化、资源化以及可信流通的先决条件与不可或缺的要素。数据基础设施⽩⽪书数据基础设施⽩⽪31324.3.2

“数由空间

”营造

“数据自由

”生态网络资源提供方:负责提供高速、稳定的网络连接,确保各数由空间之间的数据能够实时、高效地传输,支持跨平台的数据共享。网络资源包括了数由器和数由器之间、数由空间和数由空间之间、以及数由器和数由空间之间的网络。数据安全技术提供方:提供数据加密、访问控制和安全监测等技术,确保数据在存储和流通过程中的安全性。通过加密算法、数据防护机制以及安全审计手段,保障数据不被篡改和泄露,从而增强数据的可信性和各参与方对数据安全的信心。智能合约开发方:开发和管理智能合约,实现数据共享和交易的自动化处理,保障数据使用过程中的规则和合约的执行,实现数据价值的高效释放。4.3.3

“数由空间

”联通

“数据自由

”基础设施数据基础设施的互联互通是实现全社会“数据自由”的重要基础。在推动数据流通和共享的过程中,解决数据孤岛问题是关键的一步,但仅仅解决数据孤岛还远远不够。在数据孤岛被打破后,可能会形成更大范围的数据群岛,即数据基础设施之间依然难以实现互联互通,导致不同数据群体之间的协作和共享受限。这种情况阻碍了全社会范围内数据的高效流动和利用,无法充分释放数据的价值。数由空间采用了多种方法实现了互联互通的能力,确保数据在各基础设施间的无缝流动。首先,通过标准化的数据接口技术,建立了一套模块化的、灵活的数据交互接口,使得可以高效、低成本地实现与其他数据基础设施无障碍地调用和整合。其次,数由空间通过引入了跨平台的身份认证机制和权限控制方案,例如基于OAuth2.0的联合认证协议,确保在数据跨基础设施流通时的安全性和用户身份的唯一性。同时,数由空间还建立了开放的数据地图和数据管理模式,使得处于不同基础设施的各方可以方便地查找和利用所需的数据资源,从而实现数据在不同主体之间的高效共享与协作。得益于模块化的架构设计,数由空间高效地实现了与中国数谷

“三数一链

”数据流通利用基础设施框架的互联互通

。在参考“三数一链”开源体系框架的基础上,以插件化、模块化的方式快速满足了与

“三数一链

”数据流通、身份认证、权限控制、数据地图联通的能力,使得数由空间和

“三数一链

”可以自由互通。图14

三数一链数据基础设施⽩⽪书数据基础设施⽩⽪数据基础设施⽩⽪书数据基础设施⽩⽪首先,数由空间的各个参与方都在生态之中有着举足轻重的作用。数据提供方是

“数据自由

”生态的重要参与者,他们需要提供高质量、合规的数据,并确保数据的及时性和准确性。数据服务方负责数据的汇聚、清洗和标准化处理,保证数据在不同系统和平台之间的兼容性和可用性。数据运营方和数据监管方则通过建立和实施数据管理政策,确保数据的合规流通和隐私保护,为数据的可信共享提供制度保障。其次,数由空间的技术提供方也在

“数据自由

”生态中扮演了关键角色

。他们为数由空间提供各类技术支持,包括数据存储技术、算力调度技术、计算技术、隐私保护技术、数据安全技术等等。具体来说,技术提供方包括但不限于以下类别:“

数据自由

是一个宏大的命题。以“数据自由

”为目的构建的数由空间需要多方不同的能力,必须依靠生态伙伴共同合作,

才能打造完整的

数据自由”生态。最后,应用开发者和服务提供方利用数据基础设施和生态系统提供的能力,开发创新应用和服务,充分挖掘数据的价值,推动社会创新和经济发展。数由器数由器数由器数由器数由器企业个⼈政府隐私计算技术提供方:提供可信执行环境、联邦学习、多方安全计算等隐私保护技术,保障数据在流通过程中的安全性,确保各参与方的数据在合作中不会泄露隐私。存算资源提供方:负责提供稳定、安全的数据存储和计算资源,确保数由空间具备足够的存储容量和计算能力,以满足大规模数据的处理需求。数据治理工具提供方:提供数据资产管理、数据质量监控等工具,帮助管理和优化数据资源,确保数据的合规性和可用性。区块链技术提供方:提供分布式账本技术,实现数据流通过程的不可篡改记录,增强数据流通的透明度和信任度。33345.1

数由空间赋能城市数据基础设施实践城市数据基础设施的建设除了基础设施外,还依赖于海量高质量的公共数据供给。目前,公共数据的供给和流通依赖于公共数据授权运营。公共数据授权运营是指将县级以上地方各级人民政府、国家行业主管部门持有的公共数据资源,按照法律法规和相关要求,授权符合条件的运营机构进行治理、开发,并面向市场公平提供数据产品和技术服务的活动。然而,公共数据授权运营场景中存在许多亟待解决的问题,主要体现在数据的供给与获取困难、数据共享流动性差、数据利用效率低下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论