TSAITA 003-2023 工业知识图谱推理决策技术评估规范_第1页
TSAITA 003-2023 工业知识图谱推理决策技术评估规范_第2页
TSAITA 003-2023 工业知识图谱推理决策技术评估规范_第3页
TSAITA 003-2023 工业知识图谱推理决策技术评估规范_第4页
TSAITA 003-2023 工业知识图谱推理决策技术评估规范_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240.50CCSL70

T/SAITA团 体 标 准T/SAITA003—2023工业知识图谱推理决策技术评估规范Specificationforindustrialknowledgegraphreasoninganddecisiontechnologyevaluation2023-12-30发布 2023-12-30实施上市人智能术协  发布 1PAGE\*ROMANPAGE\*ROMANIII目 次前 言 III引 言 IV范围 1规范性引用文件 1术语和定义 1缩略语 2工业知识图谱的推理决策系统评估框架 2工业知识图谱推理决策系统测评指标体系 3概述 3数据集 4系统功能 4功能有效性 4易用性 4兼容性 4可维护性 5系统性能 5系统可信赖 5安全性 5可靠性 5可解释性 5鲁棒性 5工业知识图谱推理决策系统测试评估流程 6确定系统质量目标 6数据集的规范 7构建测试环境 7设计测试项 7开展测试活动 7分析测试结果 7工业知识图谱推理决策系统测评方法 7数据集指标 7系统功能指标 8功能有效性 8易用性 10兼容性 10可维护性 11系统性能指标 11系统可信赖指标 12安全性 12可靠性 13可解释性 13鲁棒性 13附 录 A 15参 考 文 献 18前 言本文件按照《标准化工作导则第1本文件由上海市人工智能技术协会提出并归口。华润江中制药(上海股份有限公司、上海道客网络科技有限公司、上海波士内智能科技有限公司、江西沪赣未来智能技术有限公司。T/SAITA003-2023T/SAITA003-2023PAGE\*ROMANPAGE\*ROMANIV引 言T/SAITA003-2023T/SAITA003-2023PAGEPAGE10工业知识图谱推理决策技术评估规范范围本文件规定了工业知识图谱推理决策系统的技术评估框架、指标体系和测试评估方法。本文件适用于工业知识图谱推理决策系统的规划设计、系统集成、建设实施和测评。规范性引用文件(包括所有的修改单适用于本文件。GB/T42131-2022人工智能知识图谱技术框架术语和定义下列术语和定义适用于本文件。industryknowledgegraph以结构化形式描述工业领域的知识元素及其联系的集合。entity独立存在的对象。【来源:GB/T42131-2022,3.2】knowledgeelement描述某一事物或概念的不必再分且独立的知识单位。注:本文件中谈及的实体、概念(实体类型)、属性、关系、关系类型、事件、规则等统称为知识元素。【来源:GB/T42131-2022,3.4】ontology表示实体类型以及实体类型之间关系、实体类型属性类型及其之间关联的一种模型。【来源:GB/T42131-2022,3.8】datamining从大量的数据中搜索隐藏于其中的有着特殊关系性的信息的过程。knowledgeacquisition从不同来源和结构的输入数据中提取知识的活动。注:知识获取的数据源通常按数据组织结构的维度可分为结构化数据、半结构化数据、非结构化数据。【来源:GB/T42131-2022,3.20】knowledgefusion整合和集成知识单元,并形成全局统一知识标识的活动。【来源:GB/T42131-2022,3.21】reasoning基于已构建的知识图谱和算法,发现或获得隐含知识的活动。decision针对变化的工业生产环境,综合利用多种智能技术和工具,基于既定目标,对相关数据进行建模、分析并得到最优动作的过程。knowledgebase专家系统设计所应用的规则集合。contextuallibrary由情境组成的知识库。rulebase由规则组成的知识库。缩略语下列缩略语适用于本文件。API:应用程序编程接口(ApplicationProgrammingInterface)RPS:单位时间请求数(RequestsPerSecond)工业知识图谱的推理决策系统评估框架工业知识图谱推理决策系统的技术评估框架如图1所示,包括数据采集和预处理、工业知识图谱构建、推理决策系统、工业知识与模型测试评估、工业知识图谱的更新与补全、系统可信赖等评估内容:数据采集和预处理:主要针对采集自声、光、电、磁、热等传感器并进行了数据清洗、数据对齐、数据过滤、数据消歧和数据加工等过程后的数据集的评估。工业知识图谱构建:主要针对构建的知识图谱的功能和性能进行评估,包括知识表示、知识建模、知识存储、知识计算和知识融合等步骤,通过将不同数据源的知识元素整合到知识图谱中,形成全面而有机的知识体系。推理决策系统:主要针对推理决策系统进行评估,包括基于规则库、情境库、算法库、推理模型和决策模型等技术进行数据分析和推理,从而做出准确的决策。系统测试评估:系统更新:系统更新包括知识图谱更新和模型更新。图1 工业知识图谱推理决策系统技术评估框架工业知识图谱推理决策系统测评指标体系工业知识图谱推理决策系统测评的指标体系如表14个二级指标和31个三级指标。表1 指标体系一级指标二级指标三级指标数据集数据集质量数量均衡性多样性系统功能功能有效性相关性易用性易理解性易操作性兼容性不同模态数据的兼容性不同领域数据的兼容性对操作系统的兼容性对API的兼容性可维护性模型的迭代更新频率模型迭代的质量变化一级指标二级指标三级指标系统的可恢复性配置、监控、日志管理功能系统性能性能效率系统响应时间资源需求吞吐率容量系统可信赖安全性可用性可靠性平均修复时间平均故障间隔时间可解释性可解释程度鲁棒性干扰数据对系统的影响数据集分布对系统的影响数据集评估数据集(包括训练数据集和测试数据集),应包括下列内容:数量:通常用样本数量来衡量。标注质量:指数据集标注信息是否准确、完备并符合要求。均衡性:指数据集包含的各种类别的样本数量分布的偏差程度。多样性:指数据集包括不同领域的多样性。系统功能功能有效性根据自动构建与推理系统的任务不同,功能有效性的评估应包括但不限于下列内容:正确性:衡量系统运行是否正常,运行的预测结果的准确率。完备性:根据应用场景评价领域覆盖度,领域覆盖度从领域知识的广度和深度进行评估。冗余性:衡量系统是否存在结构冗余、语义冗余、空节点冗余和节点重复的问题。可行性:衡量决策的可行性和实施难度,包括决策的技术可行性、资源可行性等方面。相关性:相关性评估衡量系统的推理结果与领域知识或已知事实的相关性。易用性易用性表示在指定条件下使用时,系统被理解、使用的能力,应包括下列内容:易理解性:指用户在未接受任何培训的情况下,初次使用系统,能够被用户所认识且知道系统功能的程度。易操作性:用户对系统的使用体验和界面友好程度,及系统的易用性和操作便捷性。兼容性用于评估推理决策系统可适用于各种数据、操作系统以及API的能力,应包括下列内容:不同模态数据的兼容性:衡量系统对于多种类型数据格式的支持和处理能力。不同领域数据的兼容性:衡量系统对于不同领域知识和概念的理解和处理能力。对操作系统的兼容性:衡量系统在不同操作系统环境下的运行和表现。APIAPI可维护性用于评估推理决策系统能够被运维人员修改的有效性和效率以及自身的可恢复性,应包括下列内容:模型的迭代更新频率:评估模型迭代更新的时间周期及模型训练时间。模型迭代的质量变化:评估模型迭代后系统的功能有效性、性能、鲁棒性等变化趋势。系统的可恢复性:评估推理决策发生故障时,恢复功能所需要的时间。配置、监控、日志管理功能:推理决策系统宜支持系统配置、监控告警、日志等管理功能。系统性能性能效率指标用于评估推理决策系统在特定工作负载下执行任务的效率和速度,应包括以下内容:系统响应时间:系统对用户需求的快速响应能力,即用户从发出请求到接收完响应之间的总耗时。容量:度量系统能够存储的最大的知识图谱中关系和实体的数量。系统可信赖安全性用于评估推理决策系统防止非法用户访问、信息篡改和非法资源请求的能力,应包括以下内容:完整性:信息在输入和传输的过程中,不被非法授权修改和破坏,保证数据的一致性。可用性:保证合法用户对信息和资源的使用不会被不正当地拒绝。可靠性用于评估推理决策系统在一定时间范围内保持正常运行的能力,应包括下列内容:平均修复时间(MTTR):指系统从故障发生到系统修复结束平均所需要的时间。平均故障间隔时间(MTBF):系统在两相邻故障间隔期内正确工作的平均时间。可解释性强可解释性:可通过数学证明来说明模型做出推理决策的原因,并给出推理和决策的路径。鲁棒性鲁棒性用于评估系统在面对异常条件、不良输入或不同环境下的表现和稳定性,应包括下列内容:干扰数据对系统的影响:评估异常输入数据集对系统预测准确率、精确率、召回率、真负率、F1测度等指标。数据集分布对系统的影响:统计真实环境下输入数据集的正负例分布或各类别样本分布,评估不同数据集分布情况下系统预测的准确率、精确率、召回率、真负率、F1测度等指标。工业知识图谱推理决策系统测试评估流程工业知识图谱推理决策系统的测试评估流程如图2所示。确定系统质量目标确定系统质量目标构建测试数据集构建测试环境设计测试用例开展测试活动分析测试结果图2 基于工业知识图谱的推理决策技术与测试评估流程确定系统质量目标按照实际工业情境确定系统质量目标,其中包括但不限于:场景分析风险分析由于推理决策系统系统的失效导致造成企业设备故障、生产中断或资源浪费等的威胁;隐私数据的侵犯和泄露的风险;潜在的道德和法律的风险。确定系统质量目标根据系统的应用场景和风险,确定工业知识图谱推理决策系统的质量目标,包括:确定系统功能有效性、性能、兼容性、维护性、训练数据集的质量、对应用场景数据的鲁棒性、可解释性、安全性的指标要求。确定测评指标评价的准则。数据集的规范数据质量:确保测试数据集的质量符合预期标准。这包括数据准确性、完整性、一致性等方面的要求。测试数据应反映真实工业环境中的典型情况。数据范围和覆盖性:测试数据集应涵盖工业应用中的各种情况和场景,包括正常操作、异常情况和边界条件等。确保测试数据能够充分覆盖系统的功能和性能要求。数据干扰样本:数据中宜包含已知干扰样本、对抗性样本或业务不相关样本等异常样本。构建测试环境设计测试项开展测试活动分析测试结果工业知识图谱推理决策系统测评方法数据集指标可靠性测度用于评估系统、产品或组件在指定条件下、指定时间内执行指定功能的程度。在系统/软件产品的开发期间,内部可靠性测度用于预测该系统/软件产品是否满足规定的可靠性要求。外部可靠性测度用于对这样一些属性进行评估,在执行测试过程中,它们与软件作为其一部分的系统的行为有关,以表明在系统运行过程中软件的可靠性程度。在大多数情况下,系统与软件不互相区分。数量标注质量对数据集准确标注的数量占总数据集的比例来衡量数据集标注的质量。X= aa+b

×100%其中,XabX均衡性统计数据集各类别样本数量的标准差与平均值的比例来表示数据集的均衡性。所有类别样本数量平均值计算公式:N=1ΣkN均衡性计算公式:

k i=1i1Σ1Σkki=1(N−N)2iN其中,k表示数据集中的样本类别数;Ni是第i个类别的样本数量。X值越大,表明数据分布相对较广,数据集不够均衡,反之则表示数据分布相对集中,数据集分布均衡。多样性D=1−Σk(i)2i=1N其中,D表示多样性测度;k表示数据集中的样本类别数;N是所有类别样本数量的总和;Ni是第i个类别的样本数量。D值越大表示多样性越低,反之则越高。系统功能指标功能有效性功能有效性测度用于评估产品或系统在指定情况下使用时,提供满足明确和隐含要求的功能的程度。正确性𝑇+𝑇准确率=𝑇+𝑇+𝑇+𝑇×100%𝑇精确率=𝑇+𝑇×100%𝑇召回率=𝑇+𝑇×100%𝑇真负率=𝑇+𝑇×100%F1=2×精确率×召回率精确率召回率完备性对在评价中检测到缺少的功能数进行计数,将其与需求规格说明或其他相关文档中指定的功能数相比较,评估完备性的计算公式如下:C= nn+

×100%其中,C度量完备性;n表示符合完备性要求的实体类型和关系类型总数量;m为缺少的实体类型和关系类型总数量。数据规模过大时可通过抽样局部数据进行统计检测。冗余性空节点冗余率=

冗余空节点数量总节点数量

∗100%重复节点比例=

总节点数量

∗100%𝑇错误接受率=𝑇+𝑇×100%𝑇错误拒绝率=𝑇+𝑇×100%1宏准确率=�

�Σ1

���+������+��+��

×100%¯+¯=¯+¯+¯+¯×0%可行性F=nm

×100%其中,F表示功能可行性测度;n表示在功能测试中通过的功能数量;m为功能总数。X值越大,表示功能可行性越高,反之则越低。相关性原始数据和测试数据的协方差与原始数据的标准差和测试数据的乘积的比值。

Σn(Xi−X)(Yi−Y)Cov(X,Y)=i=1 n−1ΣnΣni=1 n−1(Xi−X)²ΣnΣni=1 n−1(Yi−Y)²

Cov(X,Y)σXY和YiXYi1易用性易理解性通过新用户参照帮助文档在初次使用系统执行一定任务的平均完成时间用以评估。平均完成时间:iΣnTi平均完成时间=i=1 n其中,n表示一共n名新用户;Ti表示第i名用户执行所有任务所需要的时间;平均完成时间越短,表示系统易理解性越强,反之则越弱。易操作性通过评审交互式任务的相类似的外观和操作,确定操作结果及外观具有一致性的任务数量,并与所规定的交互式任务的数量进行比较。易操作性测度=

一致性任务数量总任务数量

×100%兼容性兼容性测度用于评估在共享相同的硬件或软件环境的条件下,系统能够与其他产品、系统或组件交换信息和执行其所需的功能的程度。不同模态数据的兼容性

总共尝试执行功能的次数

×100%不同领域数据的兼容性

总共尝试执行功能的次数

×100%对操作系统的兼容性在不同的操作系统下安装运行,验证系统在某操作系统中的运行情况,可采用系统正常运行情况、流畅度等来评估系统对该操作系统的兼容性。

系统正常运行次数系统尝试运行总次数

×100%APIAPIAPIAPIAPI

成功通讯次数系统尝试通讯总次数

×100%可维护性可维护性测度用于评估产品或系统能够被预期的维护人员修改的有效性和效率的程度。模型的迭代更新频率对系统日志实际存储在稳定存储器中的时间进行测量,并与要求系统日志存储在稳定存储器中的时间相比较。模型迭代的质量变化模型更新前和模型迭代后模型在测试数据上的准确率相比较。模型迭代后的准确率−模型更新前的准确率

模型更新前的准确率

×100%系统的可恢复性系统出现异常时回滚到上一系统无异常状态的时间。配置、监控、日志管理功能对系统的运行参数,运行环境添加配置文档,监控系统资源占用,运行时间等,添加对系统运行、修改、异常的日志打印功能。系统性能指标系统响应时间测量为完成特定用户任务或系统任务而耗费的时间,并进行多次测量,计算平均响应时间。每次测量系统响应时间计算:平均响应时间计算:

T=T1−T0Σ��T=�1 �T表示平均响应时间;n表示测试次数;Ti表示第i次测量记录的系统响应时间。资源需求执行一组给定的具有一定特征的任务,记录处理器所用时间,并进行多次测量,按照给定公式计算处理器的平均耗时和平均占用率。平均耗时计算公式:平均占用率计算公式:

Σ��T=�1 �Σ���X=1 �其中,T表示平均耗时;��表示记录的第i次处理器执行时间。X表示平均占用率;n表示测试次数;Xi表示第i次测量时记录的处理器的占用率。吞吐率在给定观察时间内,施加足够的工作负载,测量完成事务的数量,并计算单位时间内处理事务的数量。RPS=

总请求数处理这些请求的总完成时间

×100%d)容量度量系统能够存储的最大的知识图谱中关系和实体的数量。系统可信赖指标安全性机密性对未经授权可访问的保密数据项的数量进行计数,将其与需求规格说明或其他相关文档中规定的需要访问控制的保密数据项的数量相比较。机密性测度=

未经授权可访问的保密数据项数量需要访问控制的保密数据项总数量

×100%完整性机密性测度=

未经授权被修改或破坏的信息量总信息量

×100%可用性可用性测度=

被不正当拒绝的次数总请求次数

×100%可靠性平均修复时间指系统从故障发生到系统修复结束平均所需要的时间,平均修复时间越短,系统越容易恢复,可靠性越高。平均修复时间=

总修复时间故障次数平均故障间隔时间相邻两次故障之间的平均工作时间,平均故障间隔时间越长,正确工作能力越强,可靠性越高。平均故障间隔时间=

总运行时间故障次数可解释性强可解释性:可通过数学证明来说明模型做出推理决策的原因,并给出推理和决策的路径。弱可解释性:可通过工业知识图谱推理决策系统的输入输出、系统预测的置信度、系统中的部分参数值、提取的特征值或这些数值的可视化来说明系统做出推理决策的可能原因。鲁棒性鲁棒性测度用于评估系统、产品或组件在指定条件下、指定时间内执行指定功能的鲁棒程度。干扰数据对系统的影响ΣnXiΩ= i=1Yin其中,Xi与Yi分别表示第i次测试不存在干扰数据和存在干扰数据的测试准确率;n表示测试次数,Ω表示干扰数据对系统的影响指数;Ω越接近1,干扰数据对系统的影响越小。数据集分布对系统的影响ΣnXiΩ= i=1Yin其中,Xi与Yi分别表示第i表示数据集分布对系统的影响指数;Ω越接近1,数据集分布对系统的影响越小。报告编号:T202205021-YB01软件测试报告报告编号:T202205021-YB01软件测试报告[A3.1]附 录 A资料性附录——某制药行业知识图谱测试应用示例测试对象:工业领域知识图谱推理决策技术及应用测试内容:对软件性能进行测试,主要内容包括:数据集,功能有效性、性能效率、易用性、鲁棒性、可维护性、可解释性、兼容性、可靠性、安全性等。测试环境:本次测试在模拟环境中执行,包括一台服务器和一台测试客户端。环境清单如下:服务器描述应用/数据库服务器标识IP地址:10.8.21.72硬件型号:DellPrecision7560CPU:IntelCorei7-11850H2.50GHz内存:64GB 硬盘:1TB软件操作系统:UbuntuLinux20.04数据库:MySQL5.7.36>Redis5.0.14>MongoDB4.4.2>Neo4j3.5.1其它软件:ApacheKafka2.12-2.4.0>ZooKeeper3.7.0>Elasticsearch7.6.2>Nacos1.3.2、Nginx1.21.4>OracleJDK1.8>Docker10.10>Docker-compose1.29.2客户端描述测试客户端硬件型号:LenovoThinkPadL470CPU:IntelCorei5-7200U2.50GHz内存:8GB 硬盘:256GB软件操作系统:MicrosoftWindows10家庭中文版浏览器:GoogleChrome98.0.4758.82网络类型局域网环境其它无数据集描述:(MES245构建数据集,其中主要包含原料供应商数据、工单数据、opc2157测试项:测试类别测试指标测试说明测试结果测试结果数据集质量数量查询数据集总数据量总数据量达到2157多万条通过报告编号:T202205021-YB01软件测试报告报告编号:T202205021-YB01软件测试报告[A3.1]测试类别测试指标测试说明测试结果测试结果标注质量随机抽样数据集一部分进行人工检查,计算标注准确性大部分样本通过人工检查,标注准确性大于93%通过均衡性统计知识图谱中每个类别实体和关系的数量,计算均衡性比例,确保分布相对均匀数据集均衡比例小于2.5%通过多样性统计数据集中不同来源的样本数多种工业情境和领域数据来源于多个工业情境,多样性指数约为66.3%通过功能有效性正确性知识获取准确率:随机抽取不同类别的数据样本,计算知识获取的正确样本占抽取样本总数的比例应用系统在千万级数据支撑下实现工业知识平均获取准确率达到75%通过决策结果有效性:随机抽样决策结果计算有效决策占抽取决策样本的比例经人为判断,有效决策比例达到86%通过完备性评估系统对制药行业不同领域知识的广度,包括生产、质量控制、研发等,评估知识的深度包括关键概念、流程和规定系统涵盖了制药行业各个领域的深度通过冗余性完成制药等至少1个行业领域2种以上工业情境感知可査询到对应的结果,查看到右侧显示其属于领域和工业情景,其中领域为制药行业、工业情景为物料资源、维修维护、生产产线通过可行性完成制药等至少1个行业领域百万级数据规模的工业语义概念空间(识图谱数量为1,594,625个,规模实现工业语义概念空间搜索功能通过相关性运行系统,计算原始数据和测试数据的相关性指数相关性指数系数0.82,两组数据相关性较大通过易用性易理解性统计多名用户参照帮助文档初次使用系统执行系统各功能的完成时间以及操作错误率,计算平均值统计超过200名新用户使用系统的情况,平均完成时间不超过40分钟,平均操作错误率低于15%通过易操作性软件产品是否包括演示教程、文档或网站的主页信息,帮助用户进行认知软件提供了用户使用手册,包括相应功能的操作说明和截图,帮助用户进行认知通过检查软件或系统核心功能模块是否有对应的帮助文档/操作手册该软件提供了《工业领域知识自动构建与推理决策技术及应用用户使用手册》通过是否有删除确认提示通过统计操作结果及外观具有一致性的任务数量,并与所规定的交互式任务的数量进行比较一致性任务数量占比95%,具有较高的易操作性通过兼容性不同模态数据的兼容性尝试系统输入图像、整形数值、文字等输入,统计功能可正确运行并得出有效结果的比例尝试不同模态数据作为输入,每种模态数据尝试5次,系统均可正常运行并得出有效结论通过不同领域数据的兼容性尝试不同领域数据作为输入,统计功能可正确运行并得出有效结果的比例为输入,每种场景数据尝试5次,系统均可正常运行并得出有效结论通过对操作系统的兼容性尝试在Linux、Windows不同版本系统进行安装运行,统计正常运行比例每种操作系统尝试安装、卸载、使用,重复操作2次,系统均可正常运行通过报告编号:T202205021-YB01软件测试报告报告编号:T202205021-YB01软件测试报告[A3.1]测试类别测试指标测试说明测试结果测试结果对API的兼容性尝试与制药行业的其他软件进行通讯和数据传输,统计成功通讯比例与制药行业4个软件分别进行3次通讯,均成功获取有效数据通过可维护性版本升级软件版本的升级方式软件的版本可手动升级通过数据更新软件版本升级时,数据的更新方式软件的相关数据可手动更新通过模型迭代的质量变化计算模型迭代前后运行结果的准确率模型迭代后,随机选择1000条测试数据,同样测试数据,运行结果准确率提高了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论