《医学知识图谱质量评价规范》_第1页
《医学知识图谱质量评价规范》_第2页
《医学知识图谱质量评价规范》_第3页
《医学知识图谱质量评价规范》_第4页
《医学知识图谱质量评价规范》_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.020

CCSL70

T/CI

中国国际科技促进会团体标准

T/CIXXX—2023

医学知识图谱质量评价规范

SpecificationforQualityEvaluationofMedicalKnowledgeGraph

(征求意见稿)

2023-XX-XX发布2023-XX-XX实施

中国国际科技促进会发布

T/CIXXX—2023

医学知识图谱质量评价规范

1范围

本文件规定了医学知识图谱质量评价的基本要求、评价步骤、评价指标、评价报告。

本文件适用于医学知识图谱质量评价。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T42131人工智能知识图谱技术框架

3术语和定义

GB/T42131界定的术语和定义适用于本文件。

4基本要求

医学知识图谱质量评价应使用真实、有代表性的数据样本,同时保护涉及个人隐私的数据,遵循

伦理和隐私保护准则。

评价工作应具有一定的灵活性,能够根据医学领域的变化和需求进行调整和调优,与医学领域的

实际需求相符。

应确保评价过程的透明性,详细记录评价步骤、指标和数据。

评价结果应能为医学实践、研究和教育提供实际支持,评价报告应对评价结果进行全面的解释,

明确优缺点和改进建议,为知识图谱的维护和更新提供反馈。

评价过程应与知识图谱的维护团队保持持续的交流和合作。

5评价步骤

评价需求分析

分析用户的需求和期望,明确评价的重点,明确需要进行评估的内容与资源。

选择评价模式

5.2.1采用定性与定量角度结合的评价方法,根据不同指标的侧重及实际应用的倾向,指标判定采用

简单比率法或德尔菲法。

5.2.2结合评价需求选择评价过程中的框架和方法论,选择指标类别并设置指标权重。

评价结果计算

3

T/CIXXX—2023

根据选定的评价模式和指标,收集数据样本,应用相应的计算方法进行指标判定,评价结果计算应

确保数据的准确性和真实性。

评价结果分析

评价结果计算完成后,对评价结果进行分析,通过与原始数据进行比较,找出质量相关问题出现的

原因,并制定合适的优化策略,形成评价报告。

6评价指标

评价设置二级指标体系,一级指标包含准确性、完整性、一致性、安全性、相关性、及时性、可

信性、可达性、互操作性、互联性、复杂性共11个,每个一级指标下设二级指标,共设置二级指标30

个。

表1医学知识图谱质量评价指标

一级指标二级指标含义

知识图谱中的数据值、关系或三元组准确、可靠、无误表示真实世界事实

语义准确性

准确性的程度

语法准确性知识图谱中的数据的句法或结构的合规性

模式完整性一个本体包含的类和属性是否完整

属性完整性一个特定的属性的值是否缺失

完整性

数量完整性一个数据集里对象的数量比例

标签完整性数据集中的所有实体是否都有人类和机器可读的标签

新加入内容的一致性

度量实例数据与模式级别的类

知识图谱中的实体、属性、关系和本体等元素是否符合逻辑规则和语义规

一致性约束的一致性

范,以及知识图谱内部各元素之间是否自洽和一致

度量实例数据与模式级别上指

定的关系限制的一致性

访问控制只有经过授权的用户或系统可以访问知识图谱数据

定期备份知识图谱数据,并确保备份数据的安全存储,建立有效的数据恢

数据备份和恢复

复机制,以便在发生数据损坏或安全事件时能够及时恢复数据

安全性

匿名化和脱敏对于敏感数据,采用匿名化和脱敏技术来保护用户隐私

建立数据治理框架,确保知识图谱的数据遵循相关法规和隐私政策要求,

数据治理和合规性

确保数据的合规性和合法性,防止违规行为和数据滥用

实体和属性能否满足特定任务

是否可以给特定任务提供有价值的数据,是否能够为所提供的数据进行价

相关性执行的需要

值排序,其包含的实体和属性是否足够覆盖特定任务的需求

创建语句排名

更新频率知识图谱中所包含的实体、属性、关系等数据的更新在多大程度上可以满

及时性

时间相关性指数足特定任务的需要

提供元数据且合规具有清晰的来源标识(元数据),并且可通过验证

可信性资源是否来自可信的、合规的(伦理合规、法律合规等)、有权威性或者

数据来源的可靠性

已被广泛认可和验证的来源

可达性数据访问是否正常在日常任务状态下,知识图谱系统保持可用状态的能力

4

T/CIXXX—2023

表1医学知识图谱质量评价指标(续)

一级指标二级指标含义

低延迟知识图谱系统在较短的时间内响应用户的查询请求的能力

可达性

高吞吐量系统在给定时间段内处理大量的请求,支持并发查询,并保持处理的能力

序列化格式

不同的知识图谱或数据源之间进行无缝的集成和交互操作,使用户能够获

互操作性外部词汇

取并利用跨多个知识图谱的数据的能力

等价链接

外部连接比例知识图谱内部的实体与外部知识源或数据源进行链接以建立跨数据源关联

互联性

连通性关系的额能力

图谱规模

知识图谱在结构、规模和内容上的复杂程度,受节点和边的数量、它们之

复杂性演化效率

间的关系类型以及所表示信息的详细程度等因素的影响

层次结构

评价时应对二级指标进行判定,判定方法按附录A执行。

7评价报告

评价报告应由报告摘要、前言、评价内容、评价结论四部分组成。

报告摘要应给出对评价目的、方法、主要结论的简要总结。

前言应说明评价的背景和目的。

评价内容应包含:

——采用的评价模式:评价方法、指标体系、选用的指标及权重分配;

——用于评价的数据样本:数据来源、数据类型、数据规模;

——评价结果:每个指标的判定过程与评价结果、加权后的综合结果。

评价结论应包含:

——结果分析和讨论总结;

——质量问题和发现;

——优化建议和改进策略。

5

T/CIXXX—2023

附录A

(规范性)

医学知识图谱质量评价指标判定方法

A.1准确性

A.1.1语义准确性

按式(A.1)、式(A.2)、式(A.3)进行判定。

푛1

푚푠푡푎푡푒푚푒푛푡=1−································································(A.1)

푁1

式中:

mstatement——陈述语义准确性;

n1——潜在错误陈述或三元组的数量;

N1——所有陈述和三元组的数量。

푛2

푚푙푎푏푒푙푙𝑖푛푔=1−·································································(A.2)

푁2

式中:

mlabelling——标签语义准确性;

n2——不准确的注释、标签或分类;

N2——所有注释、标签或分类的数量。

푛3

푚푝푟표푝푒푟푡푦=1−·································································(A.3)

푁3

式中:

mproperty——属性语义准确性;

n3——存在冲突的属性或属性值;

N3——所有属性或属性值。

A.1.2语法准确性

按式(A.4)、式(A.5)、式(A.6)进行判定。

푛4

푚푙푒푔푎푙=1−····································································(A.4)

푁4

式中:

mlegal——合法值准确性;

n4——知识图谱中非法值;

N4——知识图谱中所有内容。

푛5

푚푟푎푛푔푒=1−···································································(A.5)

푁4

式中:

mrange——合法值范围准确性;

n5——知识图谱中不在合法值范围的内容。

푛6

푚푠푦푛푡푎푐푡𝑖푐=1−·································································(A.6)

푁4

6

T/CIXXX—2023

式中:

msyntactic——违背语法规则的内容;

n6——知识图谱中不在合法值范围的内容。

A.2完整性

A.2.1模式完整性

按式(A.7)进行判定。

푛7

푚ℎ=······································································(A.7)

푠푐푒푚푎푁7

式中:

mschemal——模式完整性;

n7——所表示的类和属性的数量;

N7——类和属性的总数量。

A.2.2属性完整性

利用属性和类型的统计分布表征属性后检测完整性,或按式(A.8)进行判定。

′푛8

푚푝푟표푝푒푟푡푦=····································································(A.8)

푁8

式中:

m’property——属性完整性;

n8——表示特定属性的值的数量;

N8——特定属性的值的总数量。

A.2.3数量完整性

按式(A.9)进行判定。

푛9

푚푝표푝푢푙푎푡𝑖표푛=···································································(A.9)

푁9

式中:

mpopulation——数量完整性;

n9——表示真实世界的对象的数量;

N9——真实世界的对象的总数量。

A.2.4标签完整性

按式(A.10)进行判定。

′푛10

푚푙푎푏푒푙푙𝑖푛푔=··································································(A.10)

푁10

式中:

m’labelling——标签完整性;

n10——数据集中实体标注标签的数量;

N10——数据集中实体的总数量。

A.3一致性

7

T/CIXXX—2023

A.3.1对新加入的内容进行不一致检测按式(A.11)进行判定。

1新加入的内容已经进行格式检测

푚푐ℎ푒푐푘={······································(A.11)

0其他

式中:

mcheck——新加入内容的一致性。

A.3.2度量实例数据与模式级别的类约束的一致性程度按式(A.12)进行判定。

1=1实例数据与所有类约束都一致

퐶퐶

푚푐푙푎푠푠(푔)={퐶······························(A.12)

1<1存在实例数据与某些类约束不一致

퐶퐶

式中:

mclass(g)——实例数据与模式级别的类约束的一致性程度;

c1——知识图谱中包含满足类约束要求的实例数据的类约束集合;

CC——知识图谱中定义的全部类约束集合;

注:当知识图谱中所有定义的类约束的集合为空时,mclass(g)为1。

A.3.3度量实例数据与模式级别上指定的关系限制一致的程度按式(A.13)进行判定。

1

푚(푔)=∑푛푚(푔)·····················································(A.13)

푟푒푙푎푡푛𝑖=1푟푒푙푎푡,𝑖

式中:

mrelat(g)——实例数据与模式级别上指定的关系限制一致的程度。

A.4安全性

A.4.1访问控制按式(A.14)进行判定。

1只有经过授权的用户或系统可以访问

푚푎푐푐푒푠푠={·································(A.14)

0其他

式中:

maccess——访问控制安全性。

A.4.2数据备份和恢复按式(A.15)进行判定。

1数据定期备份并具有有效数据恢复机制

푚푏푎푐푘푢푝={·······························(A.15)

0其他

式中:

mbackup——数据备份和恢复安全性。

A.4.3匿名化和脱敏按式(A.16)进行判定。

1数据可匿名或脱敏来保护隐私

푚푎푛표푛푦푚𝑖푡푦={····································(A.16)

0其他

式中:

manonymity——匿名化和脱敏安全性。

8

T/CIXXX—2023

A.4.4数据治理和合规性按式(A.17)进行判定。

1数据治理合规合法

푚푔표푣푒푟푛푎푛푐푒={··············································(A.17)

0其他

式中:

mgovernance——数据治理和合规安全性。

A.5相关性

A.5.1实体和属性能否满足特定任务执行的需要按式(A.18)进行判定。

1任务所需实体、属性、关系等能够全部满足

푚푟푒푙푒푣푎푛푐푦={························(A.18)

0其他

式中:

mrelevancy——实体和属性特定任务执行需要满足性。

A.5.2创建语句排名按式(A.19)进行判定。

1支持对语句排名

푚푟푎푛푘푖푛푔={··················································(A.19)

0其他

式中:

mranking——语句排名创建性。

A.6及时性

A.6.1知识图谱更新的频率按式(A.20)进行判定。

持续更新

1

0.5周期性更新

푚푓푟푒푞푢푒푛푐푦=·················································(A.20)

0.25非周期性更新

{0其他

式中:

mfrequency——知识图谱更新频率。

A.6.2时间相关性指数按式(A.21)进行判定。

直接提供语句有效期

1

0.5提供知识图谱与数据源的更新时间差

푚푡푒푚푝표푟푎푙=······························(A.21)

0.25提供最后修订时间

{0其他

式中:

mtemporal——时间相关性指数。

A.7可信性

A.7.1提供元数据且合规按式(A.22)进行判定。

9

T/CIXXX—2023

1应用标准化元数据本体

푚푚푒푡푎푑푎푡푎={0.5提供元数据···········································(A.22)

0其他

式中:

mmetadata——合规元数据提供能力。

A.7.2数据来源的可靠性按式(A.23)进行判定。

1权威认证数据(包括伦理法律等合规)或白名单数据

푚푠표푢푟푐푒={0.5未认证数据··················(A.23)

0已经被标注有问题的数据或黑名单数据

式中:

msource——数据来源可靠性。

A.8可达性

A.8.1数据访问是否正常按式(A.24)进行判定。

푛11

푚푟푒푞푢푒푠푡=··································································(A.24)

푁11

式中:

mrequest——数据访问正常性;

n11——成功返回信息的请求数;

N11——所有请求数。

A.8.2低延迟按式(A.25)进行判定。

푛12

푚푎푣푒푑푒푙푎푦=··································································(A.25)

푁12

式中:

mavedelay——平均延迟;

n12——每次查询响应时间之和;

N12——查询次数。

A.8.3高吞吐量按式(A.26)进行判定。

푛13

푚ℎℎ=································································(A.26)

푡푟표푢푔푝푢푡푁13

式中:

mthroughput——吞吐量;

n13——每秒或每分钟成功处理的请求数量;

N13——所有请求数。

A.9互操作性

A.9.1除序列化标准RDF/XML外,是否还支持用于URI解引用的其他序列化格式,按式(A.27)进行判

定。

10

T/CIXXX—2023

1支持RDF/XML和其他格式

푚푓표푟푚푎푡={0.5只支持RDF/XML·········································(A.27)

0其他

式中:

mformat——其他序列化格式支持性。

A.9.2通过谓词位置有外部词汇的三元组的数量设置为知识图谱中所有三元组的数量,来衡量使用外

部词汇的标准,按式(A.28)进行判定。

|{(푠,푝,표)|(푠,푝,표)∈푔∧푝∈푃푒푥푡푒푟푛푎푙}|

푚(푔)=푔···········································(A.28)

푒푥푡푒푟𝑖표푟|{(푠,푝,표)∈푔}|

式中:

mexterior(g)——外部词汇使用的数量比例;

s——主语;

p——谓语;

o——宾语;

g——该知识图谱实例。

A.9.3通过计算类和关系分别与其他数据源的类和关系至少有一个等价链接的比率,来度量模式级别

上的相互链接,按式(A.29)进行判定。

푒푥푡

푚푒푞푢푎푙(푔)=|{푥∈푃푔∪퐶푔|∃(푥,푝,표)∈푔:(푝∈푃푒푞∧(표∈푈∧표∈푈푔))}|/|푃푔∪퐶푔|····(A.29)

式中:

mequal(g)——模式级别上的专有词汇与外部词汇的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论