




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
知识与数据共建共享第八章区块链与数据共享01科研范式变革科研范式变革重大的科学发现已经从随机性和偶然性演变成有基础、有计划、有目标的系统工程。展示了由系统工程产生的一系列科学突破,AlphaFold
是基于大型数据库和相关工具进行蛋白结构预测的生物信息工程,对生命科学产生了重要影响。当人工智能与基础科学研究相结合,又带来了新的变革,一些大型互联网公司已在建设系统性的基础人工智能平台,用于数据驱动的基础科学研究,如AIforLifeScience、AIforEarthScience。在达摩院发布的《2022十大科技趋势》中,AIforScience居首位,以机器学习为代表的人工智能技术正在与科学研究深度融合。借助机器学习在高维空间的表示能力,人类可以构建复杂系统,并用于发现潜在的物理新规律。8.1科研范式变革8.1科研范式变革8.1科研范式变革图8-2为DDE
科研基础设施的概念架构,以数据、知识、计算、场景四大中台引擎服
务能力建设为抓手,形成深时探索引擎
(Deep-time
Engine),构建云上数据,驱动地学研
究环境并链接全球科学家在线协作,围绕大科学问题,以数据驱动研究为核心手段,实现
四大演化科学问题的突破;以
D平台为载体,实现科研范式的变革。数据网络层通过暗数据点亮、元数据搜集、科学数据获取与链接等手段,构建数据网络层,为数据服务引擎提供支撑,用来满足平台各类数据的搜集、分类、管理、检索等需求。深时探索引擎4大引擎,分别是数据服务引擎、计算服务引擎、知识服务引擎和场景服务引擎。算力网络层由个人、社区、机构等计算节点共同组成的全球云计算的算力网络层,为计算服务引擎提供支撑,用来满足处理平台大量、快速、高效的计算需求。知识网络层通过专家知识系统、知识图谱构建、众包知识百科等方法,形成知识网络层,为知识服务引擎提供支撑。8.1科研范式变革010302云上服务层基于DDE服务平台,构建一个一站式云上的数据驱动的地球科学科研环境(Data-drivenGeoscienceResearchEnvironment,DDRE),支撑全球科学家开放协作。科研应用层在DDE平台的支撑下,为地学应用场景建立定制化的工作流程,实现多学科的交汇融合,支撑矿产资源预测、古地理重建、地质编图等地学场景。演化赋能层基于DDE平台云上科研基础设施服务能力,推动数据驱动地球科学范式变革的进程,推进人类对深时数字地球物质演化、生命演化、地理演化和气候演化四大科学问题的探索。8.1科研范式变革02知识图谱联邦构建算法知识图谱知识是人类对客观世界认知的结晶,对知识的存储和表示一直是人类研究的方向,这里介绍知识图谱的基本概念。知识图谱(KnowledgeGraph,KG)是知识表示的一个重要分支,以符号形象化表示物理世界中的客观概念及其之间的相互联系以及客观事物的属性。知识图谱的基本构成单位是<实体,关系,实体>三元组,实体之间通过关系联系在一起,以此构成复杂的知识图状网络。知识图谱使用人类能够识别的字符串表示三元组各元素,作为图结构还能被计算机很好地保存和识别。相比于一般的图数据,知识图谱自带语义,实体之间的关系蕴含逻辑含义和规则。2.1知识图谱知识图谱知识图谱的构建一般包含信息抽取、知识融合、知识计算等步骤。信息抽取(InformationExtraction,IE)是一种自动化或者半自动化地从结构化或者非结构化的信息中抽取实体、关系、实体属性等信息的技术。信息抽取是构建知识图谱的基础,首先从各种类型的数据源中抽取出实体、属性和实体之间的关系,才能在此基础上形成本体化的知识表达。知识融合是指在从信息源获取新知识后对知识进行整合,消除实体之间的矛盾和歧义,使得实体表示更加准确,其关键技术包括:实体对齐、指代消减等。知识计算就是将融合后的知识进行质量评估,将质量评估合格的知识添加到知识库中,以此确保知识库的质量,避免在知识库中出现错误知识。下文将从信息抽取的角度,阐述联邦算法在知识图谱构建中的应用。2.1科研范式变革知识图谱信息抽取在知识图谱的构建过程中起到至关重要的作用,主要包含三个过程:实体抽取、属性抽取和实体关系抽取。实体抽取是指从非结构化文本中抽取实体的过程;在得到实体后,需要从文本中抽取实体之间的关系,关系将实体连接起来,构成网状的知识结构;属性抽取目标是从文本中抽取特定实体的相关属性,以此来丰富实体的语义。实体关系抽取主要有两种方法:基于流水线的方法和联合抽取的方法。2.1科研范式变革2.2联邦知识补充介绍联邦学习本质上是一种模型分布式训练框架,在中央服务器的协调下,由多个客户端协同,解决机器学习问题的一种模型构建的方法。假定有n个客户端U,U₂,,U,,均拥有各自的本地数据集D,将所有本地数据集中成为总的数据集D=D₁UD₂U…UD,在D上训练出的模型为Macud。联邦学习不直接将所有数据聚合在一起训练得到模型Mgun,而是由各参与方根据中央服务器传递的初始参数w。训练本地数据得到新的参数w.,再将更新后的参数变化量w。或δ=w₆-w₀传送到中央服务器,中央服务器根据各客户端上传的参数或梯度对联邦全局模型M进行聚合更新。联邦学习还需要保证模型M与模型Mgonl之间的差距足够小即Mra-Moobd|<5其中,ε为任意小的正数,称为联邦学习算法具有ε-精度损失。2.2联邦知识补充介绍横向联邦学习,又称为基于样本的联邦学习,
一般应用在数据的特征空间相同但样本
空间不同的情况。例如,两家处在异地的银行虽然顾客群体分布不同,但是服务种类大致
一样,这种情况适用于横向联邦学习。纵向联邦学习,又称为基于特征的联邦学习,即数据中的特征空间分布不同但样本空
间分布相同。例如,处在同一城市中的两个不同商业机构受众极其相似,但是服务种类不一样。纵向联邦学习将不同的特征进行聚合,并以隐私保护的方式计算训练损失和梯度,
从而用多方的数据协同构建模型。联邦迁移学习应用于数据在特征空间和样本空间均不同的情况。例如,处在中国的银
行和美国的证券交易所,两者的服务对象和服务种类都不相同,可以使用迁移学习技术为
联邦学习的整个样本空间和特征空间提供解决方案,从两个数据集有限的公共样本集中学
习特征空间的公共表示,然后对一侧的特征样本进行预测。局部计算每个选定的客户端通过执行训练程序,在本地数据集上对模型进行训练,完成一定次数的本地训练后。模型更新中央服务器完成本轮聚合后,进行全局模型的更新,并将更新后的全局模型广播给参与的客户端,然后开始新一轮的联邦训练。系统初始化中央服务器发布建模任务并寻求可参与的客户端,持有数据的客户端根据自身的情况提出联合建模的需求。聚合中央服务器对收到的各客户端的模型进行聚合,一旦聚合了足够数量的模型,其余客户端的产生的模型将被中央服务器忽略。2.2联邦知识补充介绍联邦联合抽取模型下面以DDE中的地学知识图谱构建为例介绍联邦联合抽取模型。地球科学知识图谱是识别地壳中自然资源的重要信息来源,这种图状的数据结构可以帮助地质学家分析矿物资源的分布,从而估计未知自然资源的准确位置。构建地学知识图谱首先需要从非结构化文本中抽取实体和关系等基本构成元素,但是在全球科学协作体系中,各数据持有方之间有可能无法直接共享原始数据。2.3联邦联合抽取模型
首先,明确联合抽取的定义。联合抽取任务由两个子任务组成,分别是命名实体识别(NER)和关系抽取(RE)。给定一个输入序列W=[w,W₂,…w,],其中w,表示序列中的第i
个元素,命名实体识别的任务是抽取出序列中所有的实体并组成实体集合E={e},m表示序列中实体的数量。当获得序列中所有实体后,关系抽取旨在识别集合E中任意实体对<e,e,>之间的对应关系re{RUNA},R表示预先定义的关系种类,NA表示实体对之间不具有关系类型。最终抽取得到的实体和关系以三元组<s,r,o>的形式存储在图数据库中,s∈E表示三元组中的主体实体,o∈E
表示三元组中的客体实体,r∈R
表示实体对之间的关系。2.3联邦联合抽取模型
联合抽取模型中的单向编码器用于对文本中每个位置的词元进行编码,以捕获上下文的语义信息。最后将这些信息输入解码器,生成特定任务中对应类别的概率分布,即实体类别的概率分布YNR和关系类别的概率分布YR。对于沉积学中联合抽取模型训练过程中数据不能直接共享的问题,通过联邦联合抽取框架来解决。遵循联邦训练过程中的一般设置,将此框架建模为两部分:控制每轮通信和模型聚合的中央服务器,以及执行本地训练的多个客户端。因此存在两种模型,即本地模型和全局模型。本地模型位于客户端且使用客户端的本地数据进行训练,训练结束后,其参数将上传到中央服务器。2.3联邦联合抽取模型联邦联合抽取模型2.3联邦联合抽取模型通用联邦训练的最终模型由中央服务器生成并且广播给各客户端进行预测任务,所以所有客户端的本地模型都相同,只适用于客户端数据服从独立同分布的情况。如果客户端之间的数据不服从独立同分布或者客户端之间的抽取目标有差别,这种通用的联邦训练方式便不再适用,即通用的联邦训练方法不能满足每个客户端的个性化提取目标,为此借鉴个性化联邦学习,我们设计了个性化联邦联合抽取模型。个性化联邦训练不同于通用的联邦训练过程,目的是满足不同客户端的个性化提取目标,如图8-7所示。与通用联邦训练过程相同,在训练开始前中央服务器首先选定参与训练的m个客户端,然后将全局模型广播到选定的m个客户端。客户端基于本地数据训练模型,并且使用梯度下降的方式更新模型参数。联邦联合抽取模型2.3联邦联合抽取模型同样,嵌入层负责将输入文本转化为低维稠密向量,以便后续计算;编码器负责学习序列的上下文语义信息;解码器对编码器学习到的特征进行解码,获得对应标签的概率。编码器在不同的提取任务上学习不同的上下文语境信息,解码器对不同的特征进行解码,导致编码器层和解码器随着提取任务的变化而变化。嵌入层将输入序列转化为低维稠密向量,不同提取任务中的词嵌入可以相同,这样就提供了一种新的联邦训练方法。因此,可以将嵌入层视为联邦训练中的独立模块,在联邦训练过程中可以收集不同客户端本地数据的语义信息,以提高不同客户端联合抽取模型的性能。联邦联合抽取模型2.3联邦联合抽取模型基于以上分析,训练过程将联合抽取模型分为两个模块:本地模块和更新模块。本地模块包括用于捕获本地数据中特定上下文语义信息的编码器和解码器,因不同客户端的提取目标而异,差异体现为模型参数而不是模型结构。更新模块的目的是捕获不同客户端本地数据的语义信息,并通过联邦训练来丰富嵌入语义,包含其他客户端的本地信息的语义信息。客户端v的模型参数为Q,则本地模块和更新模块的参数分别为0和θ“。两个模块的参数更新过程为:联邦联合抽取模型客户端本地模型训练结束后,将更新模块的参数“上传到中央服务器,而本地模块的参数保存在本地。当所有参与训练客户端的更新模块参数收集后,中央服务器使用参数聚合算法实现全局模型参数的更新,将更新后的参数广播到被选定的客户端,开始新一轮的训练过程。与通用联邦训练过程相比,个性化联邦训练过程只将联合抽取模型的一部分参数进行上传,这将减轻联邦训练过程中的通信负担,从而提升模型的训练速度。各客户端训练速度不一定相同,所以当客户端训练结束将更新模块的参数上传到中央服务器后,中央服务器将上传的参数进行存储。当所有客户端结束训练后,中央服务器对存储的参数进行聚合,以此来更新全局模型。与通用联邦训练过程相同,FedAvg"作为参数聚合算法。参数聚合过程如下:2.3联邦联合抽取模型联邦联合抽取模型2.3联邦联合抽取模型
参数聚合后,形成新的全局模型,该模型仅由嵌入层构成。在下一轮通信中,中央服务器
向每个选定的客户端广播新的全局模型,以进行下一次联合训练,直到全局模型收敛。为了验证联邦联合抽取模型的性能,在标记的沉积学领域数据集上和开放领域数据集
上对模型进行测试。模型在各数据集上的表现如表8-1所示。2.3联邦联合抽取模型2.3联邦联合抽取模型03知识共建共享平台平台目标知识共建共享平台的目标是利用自然语言处理、深度学习、语义网、云计算、区块链等技术,以“协同共建、共享应用”为主线,研发开放协同、智能高效、安全可控的知识图谱构建平台,实现知识图谱持续构建更新与质量控制机制,实现多人协同与人机协同相结合的知识图谱科学高效构建、持续更新管理、有序共享服务和知识演化分析等功能。3.1知识共建共享平台总体设计平台构架根据平台前述定位目标,围绕知识图谱构建管理到应用服务的全生命周期,我们以DDE系统的建设为例,介绍DDE知识图谱平台的总体架构,并描述其与DDE大数据和大平台的关系,如图8-8所示。DDE知识图谱平台总体上由共性的技术中台、知识图谱构建软件、知识图谱共享应用软件三部分组成。知识图谱技术中台为知识图谱构建软件、共享应用软件提供共性技术(工具)的支撑,避免共性技术(工具)的重复研发。知识图谱平台通过统一的知识图谱引擎为DDE大数据、大平台提供知识图谱服务。3.1知识共建共享平台总体设计3.1知识共建共享平台总体设计知识图谱技术中台知识图谱技术中台是为了避免知识图谱平台中不同软件系统所需的共性技术的重复研发,加速软件系统开发,缩短软件系统开发周期,方便共性技术升级,而设置的中间平台。技术中台通常以组件或服务的形式为软件系统提供支撑服务。在DDE中,知识图谱技术中台主要包括:网络信息爬取技术;自然语言处理技术,如中文分词、词性标注、命名实体识别、词向量表示、词义相似度计算、文本分类等;用于回归、分类、聚类、降维的机器学习或深度学习常用算法模型,如k-Means算法、贝叶斯算法、支持向量机(SVM)、随机森林决策树(RF)、卷积神经网络(DNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(BiLSTM)、双向迁移编码器表示模型(BERT)等。3.1知识共建共享平台总体设计3.1知识共建共享平台总体设计知识图谱构建软件系统知识图谱群智协同构建系统(DDEKGEditor):面向地学领域专业科研人员,主要实现自上而下的群智协同的地学知识图谱构建,特别是地学知识图谱模式层(本体)的构建及其更新管理。知识图谱构建软件系统知识图谱知识自动采集与抽取系统(DDEKGExtractor):基于网络文本、科技论文、专著等,实现多模态地学知识语料信息的自动化采集与清洗;利用自然语言处理、知识抽取、对齐融合等技术,主要实现自下而上的地学知识图谱构建。3.1知识共建共享平台总体设计知识图谱共享应用软件知识图谱知识共享服务系统(DDEKGProvider):面向全球地学科研人员及相关政府管理部门和产业部门,通过在线应用、接口访问、文件下载等多种形式,提供分类分级、安全有序的地学知识图谱共享服务功能。知识图谱共享应用软件知识图谱知识应用赋能系统(DDEKGEnabler):面向地学领域专业研究人员,基于全域地学知识图谱,提供学科或主题科技资源智能搜索与关联推荐、知识演化分析、推理计算与预测等应用赋能功能,支撑大数据-大知识两轮驱动的地学创新研究。研发技术DDE知识图谱平台研发涉及的技术主要包括数据库技术(Neo4j、Gstore、Virtuoso和MySQL数据库等)。应用层基于DDE知识图谱技术中台,集约高效研发知识图谱构建管理系统,包括:群智协同构建系统(DDEKGEditor)和知识自动挖掘系统(DDEKGCrawler)。基础设施层DDE知识图谱平台运行在云服务环境下,采用由公有云和私有云共同组成的混合云模式,提供DDE知识图谱的存储、计算能力和安全保障。技术中台面向DDE知识图谱平台各软件系统及其他支撑的应用系统,将上述核心技术进行整合集成,实现知识图谱平台的共性技术,形成统一的技术中台。3.1知识共建共享平台总体设计3.1知识共建共享平台总体设计3.1知识共建共享平台总体设计开发实例为了实现群智协同构建系统,我们开发了GeoscienceKnowledgeGraphCollaborativeEditor(以下简称Editor),2019年10月正式启动,已经顺利迭代至第二版本。Editor系统面向地学领域专业科研人员,主要实现自上而下的群智协同的地学知识图谱协同构建与管理,特别是地学知识图谱模式层(本体)的构建及其更新管理,也包括实例层(事实性知识)的构建管理,如图8-10所示。3.1知识共建共享平台总体设计3.1知识共建共享平台总体设计3.1知识共建共享平台总体设计开发实例Editor系统是一种用于收集、编辑和组织本体和实例的知识工具,首页如图8-11所示,可以将地学领域中最基本的本体、实例及其对应关系进行梳理,形成专业知识图谱。开发实例Editor系统的用户包括在地球科学领域具有一定研究和专业背景的人,特别是学者、专家和科学家。3.1知识共建共享平台总体设计知识图谱共建机制DDE知识图谱涉及学科多、规模大,为了高效推进DDE知识图谱的高质量建设,必须建立“小核心、大网络”的共建模式,即以DDE18个学科工作组及相关任务组为核心,通过良好的激励机制和知识产权保护机制,吸引全球地学科研人员共同参与DDE知识图谱建设,形成DDE知识图谱协同共建的全球大网络。(1)核心团队稳定建设机制按照DDE国际大科学计划的总体分工安排,各学科工作组负责本学科领域知识图谱的建设、质量审核与更新维护工作,平台、数据、标准等相关任务组配合。学科工作组组长总体牵头协调,组织国内外团队,进行学科知识图谱建设工作分工。3.2知识图谱共建共享机制3.2知识图谱共建共享机制全球网络合作共建机制对于国际/国内地学知识图谱应用机构或个人,利用DDE知识图谱及其DDE大数据、云计算等其他资源,支撑其应用研究或合作开展研究,鼓励其将应用研究中形成的知识图谱反哺到DDE知识图谱平台。全球网络合作共建机制对于国际/国内地学科研人员,通过共享DDE资源的机制,鼓励其参与DDE知识图谱的共建。根据其录入的知识数量和质量核定积分,依据积分情况,向其开放共享DDE拥有的数据、知识、云计算及软件工具资源。3.2知识图谱共建共享机制知识图谱审核机制在全球范围邀请本学科领域知名专家作为知识图谱固定的审核编辑。在DDE平台上宣传介绍学科领域知识图谱评审专家,并在知识图谱元数据中注明评审专家,给予专家学术荣誉和知识产权保护。知识图谱审核机制通过计算机系统自动查找建立学科领域知识图谱审核专家库,向学科知识图谱工作组组长推荐审核专家,由组长最终指派审核专家,同样给予专家学术荣誉和知识产权保护。对于评审专家,同样根据其评审的知识数量和质量核定积分,依据积分情况,向其开放共享DDE拥有的数据、知识、云计算及软件工具资源。知识图谱共享机制DDE知识图谱无偿向全球地学科研人员、公益组织及政府管理部门开放使用。任何使用DDE知识图谱的机构和人员应在其应用成果及其相应的出版物上明确标识DDE知识图谱的来源以及知识图谱贡献者要求引用的相关文章。全球地学科研人员、公益组织及政府管理部门可无偿使用DDE知识图谱,但不具有散发权、发布权和转让权。任何计划散发、发布DDE知识图谱的机构和个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内蒙古民族大学《时尚休闲体育》2023-2024学年第二学期期末试卷
- 上海第二初级中学2024-2025学年初三第六次质检(下学期开学考)生物试题含解析
- 三亚中瑞酒店管理职业学院《卫生学》2023-2024学年第二学期期末试卷
- 山东省日照市2024-2025学年中考物理试题模拟试卷解析含解析
- 无锡市南长区重点达标名校2025年初三下学期5月冲刺卷生物试题试卷含解析
- 四川省泸县一中2024-2025学年高三4月19日第12周物理试题考试试题含解析
- 创业企业服务创新重点基础知识点
- DB32/T+5100-2025+江淮地区稻茬小麦绿色综合防倒技术规程
- 教学工作总结个人范文(28篇)
- 实验室的年终工作总结(30篇)
- GB/T 320-2025工业用合成盐酸
- 2024年共青团入团积极分子考试题库(附答案)
- 行政复议法-形考作业3-国开(ZJ)-参考资料
- 2069-3-3101-002WKB产品判定准则-外发
- 项目功能需求调研表通用精选文档
- 技术咨询合同-碳核查
- 电学难题总复习初中物理电学六大专题解析
- 钻孔灌注桩施工方案
- 民用机场飞行区工程质量验收评定标准
- 《诊疗六步》
- 鼻出血护理查房.ppt
评论
0/150
提交评论