




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.080
CCSC07
T/CI
中国国际科技促进会团体标准
T/CIXXX—2023
医疗知识图谱构建技术要求
Technicalrequirementsformedicalknowledgegraphconstruction
(征求意见稿)
2023-XX-XX发布2023-XX-XX实施
中国国际科技促进会发布
T/CIXXX—2023
医疗知识图谱构建技术要求
1范围
本文件规定了医疗知识图谱构建的架构要求、构建要求、系统要求。
本文件适用于指导科研院所、科技企业、第三方机构等,对医疗知识图谱进行设计、开发、测试等。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T5271.17—2010信息技术词汇第17部分:数据库
GB/T22239信息安全技术网络安全等级保护基本要求
GB/T35273信息安全技术个人信息安全规范
3术语和定义
GB/T5271.17—2010界定的以及下列术语和定义适用于本文件。
知识图谱knowledgegraph
一种以结构化的形式描述客观世界中概念、实体及其关系的方式。它将互联网的海量信息表达成更
接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
[来源:YD/T4044—2022,3.1]
医疗知识图谱medicalknowledgegraph
在人工构建的专业知识基础上,通过算法不断扩充实体及关系构建的,包括疾病、症状、药品、手
术等医学概念和多种医学关系的知识图谱。
4缩略语
下列缩略语适用于本文件。
API:应用程序编程接口(ApplicationProgrammingInterface)
NLP:自然语言处理(NaturalLanguageProcessing)
5架构要求
整体架构
医疗知识图谱整体架构如图1所示。
1
T/CIXXX—2023
知识管理层图数据存储全文检索引擎属性数据存储元数据配置管理
知识抽取与加工层知识抽取本体设计实例获取知识融合任务调度
数据源层外部数据内部数据
基础支撑层大数据平台数据仓库NLP
图1医疗知识图谱整体架构图
基础支撑层
基础支撑层是医疗知识图谱构建所需的基础技术支撑,主要包括大数据平台、数据仓库、NLP。
数据源层
数据源层是医疗知识图谱构建所需数据的最初来源。可分为医疗机构内部数据源与外部数据源,其
中的数据形态包括结构化数据、半结构化数据及非结构化数据。
知识抽取与加工层
知识抽取与加工层将数据源层的各类型数据通过知识抽取、本体设计、实例获取、知识融合、任务
调度,加工形成满足要求的数据。
知识管理层
知识管理层将知识抽取与加工层形成的数据作为输入,通过图数据存储、全文检索引擎、属性数据
存储和元数据配置管理等模块化处理,实现知识图谱展现结果的有效管理和高效访问。
6构建要求
构建流程
6.1.1构建流程如图2所示。
开始知识抽取加工知识评估知识存储结束
图2医疗知识图谱构建流程图
6.1.2知识抽取加工是将数据源层结构化、半结构化和非结构化数据转化形成满足知识图谱存储要求
的标准形式,主要包括数据甄别、数据清洗、数据转换和数据融合等步骤。
6.1.3知识评估用于保障新加入医疗知识图谱的知识质量,主要包括远程监督学习与人工核查两种方
式。
6.1.4知识存储是有效管理知识图谱依赖的属性数据、图数据、全文检索数据,高效访问数据动态更
2
T/CIXXX—2023
新后的可视化结果。
知识抽取加工
6.2.1知识抽取
6.2.1.1抽取步骤
6.2.1.1.1宜选择结构化程度相对较高、质量较优的数据源,根据数据来源选择差异化的数据抽取及
加工方式。
6.2.1.1.2知识抽取主要步骤包括数据甄别、数据清洗、数据转换数据融合4个步骤:
a)数据甄别:应明确建立知识图谱的数据来源。数据来源主要为生物银行数据库、医学指南;
b)数据清洗:对数据中的干扰项进行清洗,对表示不规范的数据进行统一与规范;
c)数据转换:将不同形式、不同格式的数据转换成统一的表达形式;
d)数据融合:针对不同来源的数据在字段、元组等层次的融合,不涉及实体、属性、关系的融合。
6.2.1.2标准接口对接
6.2.1.2.1标准接口主要用于对接已完成抽取加工的各种数据,包括实体数据和关系数据。通过实体
接口和关系接口的调用,将数据以实时或非实时的方式接入对应版本的存储层。接口形式主要包括数据
文件和API。
6.2.1.2.2接口格式主要包括JavaScript对象简谱(JSON)、可扩展标记语言(XML)、另一种标记
语言(YAML)等多种形式。
注1:JSON是一种轻量级的数据交换格式。
注2:XML是一种简单的数据存储语言。
注3:YAML是一个可读性高,用来表达数据序列化的格式。
6.2.2知识加工
知识加工以知识抽取阶段形成的高质量基础数据作为输入,输出高质量的知识图谱构建所依赖的
实体、关系数据并形成医疗知识库。主要包括知识加工的步骤如下:
a)本体设计:
1)概念层定义:明确定义医疗知识图谱构建需要的实体类型与关系类型;
2)属性定义:明确医疗知识图谱构建的各类实体需要的属性名称;
3)约束/规则定义:明确需要约定的限定条件与规则;
4)模式精简:对同样范围的实体、关系,宜选择精简的关联与表达方式;
b)实例获取:
1)实体识别:在完成知识抽取后的数据中识别上述已经明确的实体类型对应数据;
2)关系识别:在完成知识抽取后的数据中识别上述已经明确的关系类型对应数据;
3)实体链指:将完成文本解析后的事件关联方链接至对应实体;
4)文本解析:利用NLP技术对文本进行分析,实现事件关联方的提取、实体/关系属性的槽
填充。
注:槽填充即从大规模的语料库中抽取给定实体的被明确定义的属性值的技术。
c)知识融合:
1)共指消解:将具有相同标识的两个实体合并为同一实体;
2)属性融合:将同一标识实体下,相同名称的属性所对应的属性值进行融合;
3)规范化一:将不同实体属性值与不同关系属性值的表达方式进行统一;
3
T/CIXXX—2023
4)跨语言实体对齐:将不同语言的实体通过预训练翻译模型和字符串相似匹配算法进行对
齐。
知识评估
知识评估阶段首先利用远程监督学习筛选出可信度较低的知识,再交由人工核查,确认无误后更新
到知识图谱中。
知识存储
6.4.1属性知识存储
6.4.1.1属性数据存储内容宜包含实体属性和关系属性。
6.4.1.2属性数据存储方式宜根据数据规模决定采用分布式存储或单机存储,主要包括单个和批量属
性数据的增加、更新、删除操作。
6.4.1.3属性数据存储宜主要考虑下列因素:
a)高可用,主要包括:
1)双机热备;
2)双机互备;
3)双机双工;
b)高并发:可提供高并发的读写请求;
c)高性能:数据实时写入和实时读取性能高;
d)可扩展:可按需增加集群的计算能力。
6.4.2图数据存储
6.4.2.1图数据存储内容宜包括实体数据和关系数据,分别以实体表和关系表的形式体现。
6.4.2.2图数据存储方式宜根据数据规模决定采用分布式存储或单机存储。
6.4.2.3图数据存储宜考虑的因素主要包括:
a)数据库维度与表维度均采用逻辑划分和物理存储隔离;
b)各数据分片有多份副本,保证安全、可容灾、高可用等性能要求;
c)通过提高服务器硬件配置或服务器数量提升集群数据处理能力。
6.4.3检索引擎
6.4.3.1检索引擎的功能主要应包括:
a)实时全文检索;
b)实时条件过滤查询;
c)实时复合条件查询;
d)实时聚合查询。
6.4.3.2检索引擎宜根据数据规模决定采用分布式部署或单机部署。
6.4.4知识可视化
知识可视化提供图形化的操作界面,主要功能应包括:
a)属性展示:查看实体和关系的属性详细信息;
b)实体及关系过滤:筛选出关注的实体及关系,隐藏其他实体和关系;
c)前端效果配置:可对实体和关系展示的前端效果进行配置,主要包括:
1)颜色;
4
T/CIXXX—2023
2)形状;
3)尺寸;
d)自适用页面的展示:可支持放大、拖拽、调整结构等操作;
e)爆炸节点的聚合:可防止因展示实体及关系过多而引起的前端崩溃、卡顿等问题。
6.4.5动态构图
6.4.5.1动态构图功能主要包括:
a)新增实体或关系类型;
b)新增实体或关系的属性信息。
6.4.5.2新增实体或关系信息宜根据后续应用的时效性要求决定采用实时或批量方式存储,实现图谱
动态更新。
6.4.6权限管理
权限管理功能主要包括:
a)实现不同应用分区的构建,各分区中实体、关系和属性数据独立管理;
b)支持多用户管理,支持实体、关系和属性数据增加、删除、改动、查询的授权和权限回收等。
7系统要求
基本功能
7.1.1构建的医疗知识图谱系统基本功能要求如下:
a)应支持对知识的管理功能,包括知识采集、知识建模、知识获取、知识融合及知识评估等;
b)应保证模型可用性,无论输入什么样的样本数据,模型都能返回一个结果,供系统进行决策处
理;
c)应支持对算法的管理,采用多种方式提高算法鲁棒性,增强安全性;
注:鲁棒性指在异常和危险情况下系统生存的能力。
d)宜支持机器学习主流算法,包括线性回归、逻辑回归、线性判别分析、朴素贝叶斯、最临近节
点算法、随机森林等;
e)宜支持机器学习模型训练优化,包括支持模型组合和调参,支持加快模型训练和实验调优;
f)宜支持产品化流程,提升模型训练迭代效率,提高模型性能和泛化能力;
g)宜支持对机器学习服务模块的管理,保证据传输过程安全、开发框架安全,支持权限管理和服
务接口规范制定等。
7.1.2知识采集功能要求如下:
a)对于组织内的内部数据,应对数据进行脱敏转换后进行使用;
b)应通过接口采集或数据文件传送采集数据;
c)应将采集到的数据导入到数据库或存储中,用于后续分析。
7.1.3知识建模功能要求如下:
a)应支持通过图谱的模式建模能力将医疗数据抽象成图谱的源实体、关系、目标实体:
b)应支持针对模式的增删改查等操作;
c)应支持自动化建模;
d)应支持针对文本、向量、空间等索引查询召回能力的索引配置能力;
e)宜支持引用其他领域已有的关系、实体定义等;
f)宜支持自上而下和自下而上的途径进行知识构建;
5
T/CIXXX—2023
g)宜支持流、批一体的构建链路,支持医疗知识变更后秒级通过图谱构建链路更新到图谱中;
h)宜支持多人在线协同编辑,且实时更新。
7.1.4知识获取功能要求如下:
a)应支持通过NLP规则结合模型等方式从半结构化、非结构化的文档、pdf等中获取结构化实体,
更新或连接到图谱中;
b)应支持通过图谱的模式建模能力知识抽象成图谱的实体、关系、属性、约束等;
c)应支持使用NLP规则结合模型,结合触发词等策略获取事件分类、事件主体、事件客体等;
d)应支持从不同信息源中采集特定实体的属性信息;
e)宜支持通过有限配置构建事件获取服务,并将获取结果写入图谱。
7.1.5知识融合功能要求如下:
a)在同构环境下,应支持每个实体在全局有唯一实例,如通过实体相似度等能力实现开发少量代
码即可快速发现、消除重复冗余实体;
b)应支持包括异构多源实体、不同图谱下同质异构实体的融合,如通过提供可解释、可回溯的规
则管理能力,方便管理融合策略;
c)应支持为不同领域同实体共享、差异化迭代提供的实体继承能力,宜支持选择深度、浅度继承
公共实体,新增或覆盖已有属性;
d)宜支持多源知识子图的融合,如通过提供子图约简、图嵌入、子图相似度等能力,实现高效地
融合知识图谱间的结构信息与语义信息;
e)宜支持关系分层继承能力,方便概念管理;
f)宜支持多语言的知识融合;
g)官支持新增知识的实时融合。
7.1.6知识评估功能应支持智能评估与人工审核结合,针对知识正确性等进行评估。
7.1.7知识存储功能要求如下:
a)应满足基础的图数据存储需求,设计具备可伸缩性和灵活性的知识存储结构,可满足多种图数
据模型的存储;在此基础上,应具备可扩展性,可实现基于数据增长的弹性扩展;
b)应具备查询、读取、计算和应用需求的支持,可实现和不同存储、计算组件的交互,可满足上
层应用对于存储组件进行增删查改的功能和性能需求;
c)应具备对于安全性、可靠性、维护和管理的支持,可实现基于角色的访问控制、加密、多用户、
高可用性、备份和还原的功能。
可扩展性
对医疗知识图谱系统的可扩展性要求如下:
a)应具备可扩展性,根据需求随时进行扩展和收缩;
b)宜支持自动伸缩机制的可信通道管理方案,简单高效管理可信计算通道;
c)应支持横向扩展,用户可通过API直接接入。
可靠性
对医疗知识图谱系统的可靠性要求如下:
a)应确保数据按约定好的行为进行使用,避免数据滥用;
b)宜支持通过多机房主从协调机制,解决可信执行环境集群跨机房灾备的问题,提升系统容灾能
力;
c)应具备出现故障后系统进行自动容灾恢复的能力,包括数据备份和恢复等。如服务器故障、硬
盘故障、网络故障、关机、重启等。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省三门峡市渑池县2024-2025学年数学三下期末调研模拟试题含解析
- 小学音乐老师教学培训课件
- 家用纺织品的品牌战略与营销策略考核试卷
- 宝石矿区勘探中的地球化学技术考核试卷
- 矿山开采对气候变化的响应考核试卷
- 电子乐器与人工智能结合考核试卷
- 矿山排土场边坡稳定性分析及安全评价考核试卷
- 电声器件在港口物流自动化中的应用考核试卷
- 硅冶炼过程中的能源审计与优化考核试卷
- 现代森林经营管理考核试卷
- 腰椎间盘突出症试讲教案
- 2024-2025年人教版七下语文期中复习-专题01 基础知识积累(考点串讲)
- 2025年华能庆阳煤电有限责任公司高校毕业生招聘152人笔试参考题库附带答案详解
- 2025-2030中国汽车用铝板行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2024年上海市高考英语试题及答案
- 强夯试夯报告(共12页)
- 关于电商平台对入驻经营者的审核要求或规范文件
- 骨优导介绍PPT
- 道场迎请亡魂开五方科仪
- 八下数学19.1.1-第1课时-常量与变量ppt课件
- 变电站混凝土道路施工工艺#流程图
评论
0/150
提交评论