人工智能 知识图谱 性能评估与测试规范(征求意见稿)_第1页
人工智能 知识图谱 性能评估与测试规范(征求意见稿)_第2页
人工智能 知识图谱 性能评估与测试规范(征求意见稿)_第3页
人工智能 知识图谱 性能评估与测试规范(征求意见稿)_第4页
人工智能 知识图谱 性能评估与测试规范(征求意见稿)_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

准T/CESAXXXX—2024人工智能知识图谱性能评估与测试规范Artificialintelligence-Knowledgegraph-Performanceevaluationandtestingrequirements2024-XX-XX发布2024-XX-XX实施中国电子工业标准化技术协会发布I 29 311GB/T42131-2022人工智GB/T39788-2021系统与软GB/T25000.20-2021系统与软件工程系统与软件质量要求GB/T29831.1-2013系统与软件功能性GB/T29831.2-2013系统与软件功能性API:应用程序编程接口(ApplicationProgrammingInterfaRDF:资源描述框架(ResourceDeSDK:软件开发工具包(SoftwareD知识图谱是以结构化形式描述的知识元素及其联系的集合。根据GB/T42131-2022识维护、系统管理等知识图谱应用相关模块。相应地,知识图谱构建与应用系统的质量评价体系如图1b)知识图谱应用相关模块质量评价指标体系:主要关注于保障知识图谱应用过程中的系统特性,26)场景支撑性:度量系统及其携带的知识图谱对于跨行业和特定行业中知识图谱应用场景该指标体系着重聚焦知识图谱构建和知识图谱应用相关指标,部分基础通用软件相关的质量评价知识图谱构建相关模块质量评价指标体系知识图谱应用相关模块质量评价指标体系场景支撑性成熟性可继承性易维护性场景支撑性成熟性可继承性易维护性可审查性智能问答智能检索辅助决策知识管理领域应用场景可移植性可扩展性3c)应支持数值表示的知识表示形式,如:向量(包括嵌入(embeding)XR_P=(1)XR_P=(2)BR_P——知识表示模型生成的知识表示总数4a)本体模型的语义明确性:衡量构建的本体模型是否对其中包含的术语给出明确和客观语义定Xo_C=(3)Ao_C——给出语义描述或定义的实体类型Bo_C——本体模型中实体类型和关系类型的总数。Xo_I=(4)Bo_I——本体模型中实体类型和关系类型总数。Xo_U=(5)Ao_U——符合一致性要求的实体类型和关系类Bo_U——本体模型中实体类型和关系类型总数。Xo_M=(6)Ao_M——存在定义交叉或重叠的实体类型和关系Bo_M——本体模型中实体类型和关系类型总数。改动的情况下应用于新的任务与数据集。可通过抽Xo_T=(7)Bo_T——本体模型中实体类型和关系类型总数。f)本体模型的兼容性和可扩展性:衡量形成的本体模型是否可实现与已有本体模型的兼容或继5Xo_S=(8)Bo_S——本体模型中实体类型和关系类型总数。6d)知识获取的全面性:););注:对于知识获取的整体能力评估,可考虑实体-属性/关系-实体联合作为一组评测数据来进行精确率、召回率、F1b)可支持创建和存储索引;7(12)M——占用的存储空间。3)K跳邻居查询响应时间:度量系统完成1跳、2跳、K跳等不同展开相连接层级Xi=Reci−sendi,(i~n)(13)Yi=(Xi−XT)(i~n,xi>Xsendi——第i次发出K跳查询请求的时间;yxT——K跳查询的超时时间阈值;实体与关系的总量K跳数量查询响应时间范围小于等于一百万2跳小于0.5秒小于等于一千万2跳小于1秒小于等于一亿3跳小于2秒大于一亿3跳小于10秒Xmax=MAx(Nr[i]15)xmax——K跳查询最大并发请求数;8(16)BR——图谱查询的总次数。Ti=Reci–sendi(i~n)sendi——第i次更新操作发出请求的时间。RPs=(17)CRg——总请求数;注:约束条件为:20并发数下,一度邻居2)数据加载/导入时间:度量系统完成基准数据集加载的时间(),xi=Reci−sendi,(i~n)(18)n——测试的总数。5)事务一致性的指标(并发情况下的数据冲突衡量在并发情况下,系统能够确——事务冲突率(TCR度量事务在执行过程中,因并发导致的冲突的频Nconflict——在并发操作中发生冲突的事务数量;Ntotal——总的事务数量。):9Nrollback——因冲突而必须回滚的事务数量;Ntotal——总的事务数量。RecallF=(20)Hit@kF=(21)tc=tend-tstart(24)tstart——知识计算任务启动时间;tend——知识计算任务结束时间。ConfidenceT=(28)pTPX=NPpTPvv注1:对于属性图,度量属性值;对于时序、Fa)知识覆盖率:评估知识图谱在特定领域或者应用场景内所包含的知识占此范围内所有相关知*100%(32)Daut为领域内的权威证据,如指南、标准、政策等,中实体的数量。Dpra为实践证据,如本地化经验,特殊流程或异常流程等,中实体的数量。RecallF=(34)Nr——知识图谱中的关系总数量;(36)RecallF=(38)FNF——假阴性:反馈结果中未被识别的正确结果数量。(39)5)宜支持通过可视化界面进行数据的导入、导出、的重复建设和浪费,如:4)可支持知识体系/实例集合的引用,并可基于可视化界面、接口和文可用性是指系统在给定时间内可以正常工作的概率,它反映了系统在故障发生后能够及时恢复正常运行的能力。可用性相关测试指标,包括但不限于给定时间内的平均故障时间,如:30天)(40)F——发生故障次数。——SLA:SLA(服务等级协议,ServiceLevelAgreement)是指服务提供者和客户之间的一供的服务的类型和标准。不低于99.9%的可用性,可用性的可靠性成熟度是指一个系统或产品在设计和实现过程中,能够达到预期的可靠性水平和目标的程(41)F——测试中出现的故障数量。(42)TR——系统运行时间;F——系统发生故障数量。TR——系统运行时间。容错性是指一个系统或产品在遇到故障或异常时,能够继续提供服务易恢复性是指在发生中断或失效时,产品或系统能够恢复直接受影响的数据并重建所期望的系统);可移植性是指一个系统或产品从一种环境转移到另一种环境的能力。它反映了系统的适应性和灵XI=(44)1)宜支持防范对抗样本攻击、监测和2)宜支持数据替换、删减造成的知识图谱异1)测试场所的环境温度:15℃~35℃;;(d)确定被抽取结果中定义清晰的实体类型、关系或属性数量AO_C;1)打开知识建模相关模块;2)根据本体知识体系的范围、知识来源的范围等约束条件,确定本体模型中知识的抽样方式和比例,如:均匀抽样、正态分布抽样、随机抽样等;关系或属性数量AO_D1;1)打开知识建模相关模块;2)根据本体知识体系的范围、知识来源的范围等约束条件,确定根据所设计本体模型所抽取的知识图谱中实体、关系、属性的抽样方式和比例,如:均匀抽样、正态分布抽样、随机抽样等;4)确定抽取实体、关系或属性的本体模型与事实相符合的数量AO_D2;5)统计抽取结果中AO_D2与BO_D2的比例。d)确定被抽取结果中语义一致的实体类型、关系或属性数量AO_E;e)统计抽取结果中AO_M与BO_M的c)为b步骤中的结果增加、删除、修改实体类型、关系类型、属e)统计AO_M可实现实体、属性、关系同步修改的实体类型、关系类型、属性数量CO_Mh)统计准确率(TPA/(TPA+FPA))、每秒获取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论