T-SAITA 001-2023 自然语言处理系统测评规范

上传人：馒*** IP属地：河北上传时间：2024-03-10 格式：DOCX 页数：32 大小：251.60KB 积分：20 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载

35.080学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载CCS

L77

SAITA

T/SAITA

001—2023自然语言处理系统测评规范Specification

natural

processing

system

test

and

发布

实施上海市人工智能技术协会发

布学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载前言

..........................................................................

III引言

...........................................................................

IV1

范围

................................................................................

规范性引用文件

......................................................................

术语和定义

..........................................................................

符号和缩略语

........................................................................

自然语言处理系统的基本框架

..........................................................

自然语言处理系统测评指标

............................................................

36.1

概述

............................................................................6.2

功能有效性

......................................................................6.3

性能

............................................................................6.4

兼容性

..........................................................................6.5

可维护性

........................................................................6.6

可迁移性

........................................................................6.7

数据集的质量

....................................................................6.8

对抗性样本的影响

................................................................6.9

鲁棒性

..........................................................................6.10

可解释性

.......................................................................6.11

安全性

.........................................................................

346666777787

自然语言处理系统测评流程

............................................................

87.17.27.37.47.57.6

确定系统质量目标

................................................................

8构建测试数据集

..................................................................

9构建测试环境

....................................................................

9选择测试指标

....................................................................

9开展测试活动

....................................................................

9统计、汇总并分析测试结果

........................................................

自然语言处理系统测试方法

............................................................

98.1

准备测试数据集

..................................................................

98.2

功能有效性

......................................................................

98.3

性能

...........................................................................

108.4

兼容性

.........................................................................

108.5

可维护性

.......................................................................

118.6

可迁移性

.......................................................................

118.7

数据集的质量

...................................................................

118.8

对抗性样本的影响

...............................................................

128.9

鲁棒性

.........................................................................

128.10

可解释性

......................................................................

138.11

安全性

........................................................................

13附录 A （规范性）

自然语言处理系统功能有效性评估指标计算方法.....................

15学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载A.1

自然语言理解功能有效性评估指标计算方法

...........................................

15A.2

自然语言生成功能有效性评估指标计算方法

...........................................

16附录 B （资料性）

数据集

........................................................

18附录 C （资料性）

自然语言处理系统评价指南.......................................

22参考文献

.......................................................................

23II学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载本文件按照GB/T

《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。本文件由上海市人工智能技术协会提出。本文件由上海市人工智能技术协会归口。限公司、达观数据有限公司、公安部第三研究所、科大讯飞股份有限公司、复旦大学、上海交通大学、上海乐言科技股份有限公司、澳鹏数据科技（上海）有限公司、上海依图智安人工智能科技有限公司、虎博网络技术（上海）有限公司、上海工程技术大学、木心智能科技集团有限公司。蕾、钱程、曹嘉彦、杨长林、朱俊杰、吴良敏、李媛媛、穆泽林、隋言东。III学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载可解释性、安全性等方面对自然语言处理系统的测评指标进行研究，规定自然语言处理系统测评指标、IV学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载自然语言处理系统测评规范1 范围言处理系统的评价指南。本文件适用于自然语言处理系统的设计、研发、测试、应用与维护。2 规范性引用文件文件。GB/T

25000.10-2016

系统与软件工程

系统与软件质量要求和评价(SQuaRE)

第10部分：系统与软件质量模型GB/T

信息技术

人工智能

术语GB/T

信息技术

人工智能

平台计算资源规范ISO

翻译服务要求（Translation

services

–

for

translationservices）ISO

22300:2021

安全与恢复力

术语(Security

and

resilience

–

T/CESA

1026-2018

人工智能

深度学习算法评估规范3 术语和定义GB/T

41867、

42018、ISO

17100、

22300界定的以及下列术语和定义适用于本文件。3.1自然语言处理系统

language

processing

system基于自然语言理解和自然语言生成的信息处理系统。[来源：GB/T

41867-2022，

3.3.16，有修改]3.2提示工程

行自然语言处理。3.3自然语言理解

language

understanding[来源：

41867-2022，3.3.15，有修改]3.4自然语言生成

language

generation输出端为自然语言的任务。[来源：

41867-2022，3.3.17，有修改]3.5人工智能平台计算资源

platform

computing

学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载在人工智能平台中，用于处理人工智能计算任务的硬件和软件。[来源：

42018-2022，3.2]3.6机器翻译

使用计算机系统将文本从一种自然语言自动翻译为另一种自然语言。[来源：ISO

17100:2015，2.2.2，有修改]3.7错误接受率

False

rate接受不该接受的样本的比率。[来源：ISO

22300:2021，3.91]3.8错误拒绝率

False

rate拒绝不该拒绝的样本的比率。[来源：ISO

22300:2021，3.92]3.9不变性测试

Invariance

3.10方向期望测试

expectation

test对原始输入文本数据作向指定方向变化的扰动，观察系统输出是否按期望的方向变化。3.11可解释性

系统以人能理解的方式，表达影响其（执行）结果的重要因素的能力。[来源：

41867-2022，3.4.3]3.12自解释

Self-explaining系统同时输出决策与对该决策的解释。4 符号和缩略语下列缩略语适用于本文件。ARMAdvanced

）ASIC：专用集成电路（

Integrated

Circuit）AUC：曲线下面积（

Under

Curve）BLEU：双语评估（

Evaluation

）CPU：中央处理器（

Processing ）EM：精确匹配度（Exact

Match）TP：真阳（True

Positive）TN：真阴（True

Negative）FN：假阴（False

）FP：假阳（False

）GPU：图形处理器（ Processing ）LCS：最长公共子序列（

Common

）MAP：平均准确率（

Average

Precision）MIPS：无内部互锁流水级的微处理器(Microprocessor

Interlocked

Piped

Stagesarchitecture)n-gram：N元语法（特殊情况：N为1、2、3时，分别为unigram、bigram、）兔ｗ学兔ｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—兔ｗ学兔ｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载ROCReceiverOperating Characteristic）ROUGE：基于召回率的摘要评估

）WER：词错率（

Error

Rate）5 自然语言处理系统的基本框架出。自然语言处理系统的基本框架如图1所示，输入包括文本输入和针对特定需求使用提示工程输入的在人工智能平台计算资源上进行推理和输出，输出包括判别输出或生成输出。图1 自然语言处理系统基本框架6 自然语言处理系统测评指标6.1 概述本文件给出了一套自然语言处理系统的测评指标体系，如表1所示，包含10个一级指标和36个二级指标。在实施测评过程中，应根据系统的应用场景与质量目标选取相应指标。表

表

1自然语言处理系统测试指标体系THUCNewsRAFTF1ROCAUCChnSentiCorpSST-2Chinese-Literature-NER-RE-DatasetDocREDTitle2EventACE2005Weibo

CoNLL

Shared

C3RACEｗｗ兔ｗ．ｂｚｆ学兔ｘｗ．ｃｏｍ标准下载T/SAITA

—ｗｗ兔ｗ．ｂｚｆ学兔ｘｗ．ｃｏｍ标准下载表

自然语言处理系统测试指标体系表

自然语言处理系统测试指标体系（续）6.2 功能有效性文本到图像、图像到文本等跨模态生成任务，如表2所示。表

表

2 自然语言处理系统测试参照表The

TaskBLEUROUGEWEREMLCSTSCNN/Daily

BLEUROUGEWERCMRC2018TruthfulQAmAPROUGEF1学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载表

2 自然语言处理系统测试参照表表

2 自然语言处理系统测试参照表（续）6.2.2自然语言理解任务测评指标见表2，相关功能有效性评估指标计算方法见附录A.1。情感分析指标见表2，相关功能有效性评估指标计算方法见附录A.1。关系抽取集及测评指标见表2，相关功能有效性评估指标计算方法见附录A.1。事件抽取使用的测试数据集及测评指标见表2，相关功能有效性评估指标计算方法见附录A.1。命名实体识别命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，以及时间、数量、货币、比例数值等文字。使用的测试数据集及测评指标见表2，相关功能有效性评估指标计算方法见附录A.1。阅读理解为答案或是从若干选项中选择正确答案。使用的测试数据集及测评指标见表2，相关功能有效性评估指标计算方法见附录。6.2.3自然语言生成任务机器翻译用的测试数据集及测评指标见表2，相关功能有效性评估指标计算方法见附录。自动摘要及测评指标见表2，相关功能有效性评估指标计算方法见附录。学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载机器问答测评指标见表2，相关功能有效性评估指标计算方法见附录A.2。6.3 性能求，应包括但不限于下列内容：a)

推理效率：1）对于本地计算环境下，对于给定的数据集，自然语言处理系统对给定的

个数据样本进行推断并获得结果的时间开销等指标；2）对于云计算环境下，应记录包括自然语言处理系统本身的推理时间以及执行推理所消耗的资源调度、网络延迟等额外时间开销、、、P100（n

个请求响应时间按从小到大排序，第

百分位、第

百分位或最长的响应时间）等指标。b)

、c)

模型压缩性能：针对不同的压缩比例（如

90%，，70%，60%），比较模型在不同压缩比条件下与压缩前的预测性能差。d)

业务吞吐量：单位时间内系统处理的文本数据量。e)

词汇表大小：自然语言处理系统词汇表中不同语种的词汇、字符的数量和占比。f)

语义表达能力：自然语言处理系统的输出形式、基于字/词的完整性、多语言支持程度。6.4兼容性用于评估自然语言处理系统对不同文本格式的兼容性，应包括下列内容：a)

模型对不同结构化程度文本的兼容性：评估自然语言处理系统能否根据用户需求处理不同格式的结构化、半结构化或非结构化自然语言文本；b)

自然语言处理系统对操作系统的兼容性：评估自然语言处理系统能否根据用户需求兼容不同的操作系统，或兼容同一类型操作系统的不同版本；c)

自然语言处理系统对其他软件的兼容性：评估自然语言处理系统能够根据客户需求兼容同一计算机系统下其他软件；d)

自然语言处理系统对不同字符编码的兼容性：评估自然语言处理系统能否处理不同字符编码的输入。6.5 可维护性内容：a)

模型的迭代更新频率：评估模型迭代更新的时间周期及模型训练时间；b)

模型迭代的质量变化：评估模型迭代后其功能有效性、性能、鲁棒性等的变化趋势；c)

模型的可恢复性：评估模型在自然语言处理系统发生故障时，恢复功能所需要的时间；d)

自然语言处理系统宜支持系统配置、监控告警、日志等基本维护功能。6.6 可迁移性列内容：a)

系统对人工智能平台计算资源硬件设备的可迁移性：评估自然语言处理系统是否拥有跨硬件架构的迁移能力，包括以下内容：1)

模型是否支持在基于至少

种或多种架构处理器的设备上运行，且运行效果保持一致，如

X86、X86-64、、

等；2)

模型是否支持在设备上进行在线或离线方式进行移植。学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载b)

系统中模型、算法对人工智能框架的可迁移性：评估自然语言处理系统是否拥有跨人工智能框架之间的迁移能力，即是否支持在至少

种或多种人工智能框架之间相互转换，且运行效果保持一致，如

，

等。6.7 数据集的质量评估训练数据集、验证数据集的质量，应包括下列内容：a)

数据集规模：通常用样本数量来衡量；b)

数据集语言完整性：数据集应不包含拼写错误、乱码，语句应通顺；c)

数据集标注质量：指数据集标注信息是否准确、完备并符合要求；d)

数据集均衡性：指数据集包含的各种类别的样本数量分布的偏差程度；e)

数据集多样性：指数据集包括不同句子长短、时态表示、主谓关系等情形的多样性。6.8 对抗性样本的影响评估对抗性样本对自然语言处理系统的影响，应包括下列内容：a)

对抗性样本生成测试：用不同尺度生成对抗样本，评估系统的脆弱性。生成方法包括：1) 句子尺度方式生成的样本：利用对句子进行修改的方式生成对抗性样本；2) 词语尺度生成的样本：利用对词语进行修改的方式生成对抗性样本；3) 字符尺度生成的样本：利用对字符进行修改的方式生成对抗性样本；4) 不同尺度生成的对抗性样本：利用以上多种尺度结合的方式生成对抗性样本。b)

对抗性样本的物理可行性：评估生成的对抗性样本在现实中的可实现性，能否通过相关算法生成对人类来说语句通顺、难以辨别的对抗性样本。c)

系统对对抗性样本的防御性，包括：1)

评估系统是否进行过对抗训练；2)

系统防御对抗性样本的成功率：统计一定数量对抗性样本对系统攻击的失败率。6.9 鲁棒性评估实际运行数据对系统的影响，应包括下列内容：a)

干扰数据对系统的影响：评估异常的输入数据对系统准确率的影响，应包括但不限于：不流畅的文字或语句、有间断的文字或语句、含义正确但表达方式不常见的文字或语句、标点符F1

测度等指标；b)

数据集分布对系统的影响：统计真实环境下输入数据集的正负例分布或各类别样本分布，评估不同数据集分布情况下系统预测的准确率、精确率、召回率、真阴率、

测度等指标；c)

业务不相关数据对系统的影响：当输入数据并非系统业务相关数据（比如当前系统处理语言d)

语言功能保持能力：对原始输入数据作一定程度的扰动，扰动后仍为流畅且语义明确的自然语言，评估系统能否识别出扰动前后的数据中的语义差别。6.10 可解释性度，将自然语言处理系统的可解释性分为强、较强、中、弱四个级别，各级别要求如下：a)

可解释性（强）：可通过数学证明来充分说明模型做出决策的原因，并给出推理和决策的路径；b)

可解释性（较强）：可在模型中融入知识，利用结构信息、描述文本、自解释等方法辅助推理并给出过程；c)

可解释性（中）：采用可解释技术，可通过自然语言处理系统的输入输出、系统中的部分参数值（如自注意力参数）、提取的特征值或这些数值的可视化来说明系统做出决策的原因；d)

可解释性（弱）：没有采用可解释技术对系统的推理和决策进行解释。学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载6.11 安全性自然语言处理系统的安全性应符合以下要求：a）GB/T

25000.10-2016中规定的软件系统的信息安全性要求；b）机密性：1)

模型机密性：通过对被测系统的持续访问推测出自然语言处理模型的参数，与原模型的相似度；2)

数据机密性：能否通过成员推理等方式，获取训练数据中包含的敏感信息。c）隐私性：1)

训练数据中脱敏数据占比；2)

系统预测结果中含个人信息数量和种类；3)

系统的单位时间最大查询次数上限；4)

系统模型训练时有无应用隐私技术，如差分隐私等。d）输入防御：系统具备对恶意输入样本的检测机制和防御性预处理。e）伦理符合性：1)

系统对输入中包含的不同国家、地区、性别、种族是否公平对待；2)

系统是否会在没有诱导的情况下主动输出可能违反法律法规的内容；3)

系统是否会产生幻觉输出，即误导性的事实描述内容。7 自然语言处理系统测评流程自然语言处理系统的测评流程如图2所示。图2 自然语言处理系统测评流程7.1 确定系统质量目标应运用以下步骤确定自然语言处理系统的质量目标。7.1.1 场景分析用的情况，也要考虑可预见的不正确使用的情况。学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载7.1.2 风险分析与评估的后果，如对环境或人员是否有伤害、需要完成的任务是否有影响等，风险等级评估表见附录C。于对多个场景的综合性考虑，同时风险严重性等级的确定应基于场景中有代表性的个体样本。7.1.3 确定各指标要求系统功能有效性、性能、兼容性、可维护性、可迁移性、可解释性等的要求。7.2 构建测试数据集按照实际业务的情况，参考表2列出所需测评系统运行的典型场景与常用数据集，以此为基础，收开展测试。7.3 构建测试环境结果的影响。7.4 选择测试指标根据制定的系统质量目标，从表2中选择相关测评指标，记录被测系统对所选数据集和所选指标的计算结果，根据所选任务难度或参考相关基准制定通过准则，测试结果用于对系统的评价提供依据。7.5 开展测试活动在构建的测试环境下，利用已经构建的测试数据集进行测试。即将测试数据集依次输入被测系统，并按照被测系统的正确方法使用数据。7.6统计、汇总并分析测试结果系统质量目标,参考第8符合质量目标。8 自然语言处理系统测试方法8.1 准备测试数据集在对测评指标开展测试活动之前，需要先获取测试数据集，对测试数据集的要求包括但不限于：a)

数据集中包含经过处理的从互联网爬取或是人工构建的自然语言文本；b)

数据集中包含所需格式的自然语言文本；c)

数据集中包含指定类别的样本，且标注正确；d)

对数据集中样本作一定扰动，以提升测试数据集质量；e)

考虑数据集中样本分布与真实业务场景下数据分布的匹配程度；f)

数据集中包含已知干扰样本、对抗性样本或业务不相关样本等异常样本。部分公开数据集见附录B，若采用自建或其它测试数据集，则需将公开数据集上主流的基准模型在测试数据集上进行测试，以供对比。8.2 功能有效性8.2.1 自然语言理解任务指标测试方法推理效率a）收集nn≥测试数据；b）将数据输入被测系统，记录系统对每一条数据进行推理所需的时间；c）计算系统处理全部数据消耗时间T、业务吞吐量n/T，检查是否符合测试要求；d）tc，检查是否符合测试要求；e）95百分位的推理时间、第99百分位的推理时间、耗时最长的推理时间是否符合测试要求。资源占用记录系统推理过程中的CPU、GPU使用状况，内存、显存占用率，检查是否符合测试要求。模型压缩性能a）收集nn≥测试数据；b）为系统配置不同压缩比例的m个模型；c）将数据输入被测系统，记录系统的预测功能有效性指标；d）对比系统中模型在不同压缩比例下的性能损失情况，检查是否符合测试要求。词汇表大小查看模型词汇表，统计其中不同语种的词汇、字符的数量和占比，检查是否符合测试要求。语义表达能力a）查看自然语言处理系统输出形式（判别式或生成式）；b）多少种语言。学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载自然语言理解任务测试方法如下：a）根据第7章及表2确定自然语言理解应用场景及对应的测评数据集、测评指标；b）将测评数据集输入被测系统；c）记录系统输出及计算测评指标所需要的各项中间指标；d）计算并得到最终测评指标，检查指标值是否符合要求。8.2.2 自然语言生成任务若可根据第7章及表2确定可计算的自然语言生成任务测评指标，则按照以下方法测评：a）根据第7章及表2的流程确定自然语言生成应用场景及对应的测评数据集、测评指标；b）将测评数据集输入被测系统；c）记录系统输出及计算测评指标所需要的各项中间指标；d）计算并得到最终测评指标，检查指标值是否符合要求。若无法根据第7章及表2确定可计算的自然语言生成任务测评指标，则按照以下方法测评：e）根据第7章及表2的流程确定自然语言生成应用场景及对应的测评数据集；f）将测评数据集输入被测系统；g）记录系统输出；h）由人类专家评估系统输出是否通过测试，并统计测评数据集的通过率是否满足要求。8.3 性能自然语言处理系统的性能测试方法见表3，语义表达能力评价指南见附录C。表

3 自然语言处理系统性能测试方法8.4表

3 自然语言处理系统性能测试方法8.4 兼容性10指标测试方法不同结构化程度文本兼容性a）准备结构化、半结构化或非结构化自然语言数据；b）将数据输入自然语言处理系统中，检查系统是否能正确处理数据。操作系统兼容性a）准备包含不同操作系统或同类操作系统不同版本的人工智能平台计算资源；b）行。软件兼容性在系统中安装若干其他常用软件，与自然语言处理系统共同运行，检查哪些软件运行时会出现运行异常的情况。字符编码兼容性a）准备n种不同字符编码的数据（n≥2）；b）将数据输入自然语言处理系统中，检查系统能是否能正确处理。指标测试方法数据集规模ndnt）等基本信息是否符合测试要求。语言完整性检查训练数据集、验证数据集中包含拼写错误、乱码、不通顺语句的数据条数（nfd），计算其占比：nfd

×100%nd并检查占比是否符合测试要求。指标测试方法模型的迭代更新频率查看自然语言处理系统日志，检查并记录相关指标项。模型迭代的质量变化模型故障后平均恢复时间基本维护功能指标测试方法硬件可迁移性在X86、X86-64、ARM、等不同架构处理器的设备上部署自然语言处理系统，验证功能有效性，检查是否能正常运行且效果一致。框架可迁移性检查系统模型是否支持在Tensorflow、、PaddlePaddle等不同人工智能框架之间转换或支持转换成格式，验证功能有效性，检查效果是否保持一致。兔兔ｗ学ｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—兔兔ｗ学ｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载表

4 表

4 自然语言处理系统兼容性测试方法自然语言处理系统的可维护性测试方法见表5。表

5 表

5 自然语言处理系统可维护性测试方法自然语言处理系统的可迁移性测试方法见表6。表

6 表

6 自然语言处理系统可迁移性测试方法自然语言处理系统的数据集质量测试方法见表7。表

表

7 自然语言处理系统数据集质量测试方法指标测试方法干扰数据对系统的影响a）根据应用场景模拟日常使用情况，生成n条干扰数据（n≥）；b）据的功能有效性指标是否符合测试要求。数据集分布对系统的影响a）情况的数据集；b）变化情况。业务不相关数据对系统的影响a）收集或生成n条系统不支持的语言数据、系统业务不相关的数据（n≥100）；b）测试要求。指标测试方法对抗性样本生成测试从句子、词语、字符、混合尺度生成nn≥）。对抗性样本的物理可行性评估生成的对抗样本中能被人类辨别的数量比例是否符合测试要求。系统对对抗性样本的防御性a）查看日志，评估自然语言处理系统是否进行过对抗训练；b）将生成的对抗性样本输入系统中，统计系统正确处理对抗性样本的数量c并计算系统防御对抗性样本的成功率:c

×100%nc）检查防御成功率是否符合测试要求。指标测试方法标注质量检查训练数据集、验证数据集各类别标注情况，检查标注错误的数据数量是否符合测试要求。均衡性检查训练数据集、验证数据集各类别样本数量分布是否均衡，如有偏差，是否符合实际应用的情况，或偏差是否在可接受范围内。多样性检查训练数据集、验证数据集是否包含不同句子长短、时态表示、主谓关系等多样化语言表述的语句。学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载表

7 表

7 自然语言处理系统数据集质量测试方法（续）自然语言处理系统的对抗性样本影响测试方法见表8。表

8 表

8 自然语言处理系统对抗性样本影响测试方法自然语言处理系统的鲁棒性测试方法见表9，语言功能保持能力评价指南见附录C。表

表

9 自然语言处理系统鲁棒性测试方法指标测试方法语言功能保持能力a）测试用例t1以考察系统的语言理解能力：1）词法：能够理解对进行正确推断有帮助的关键词的含义，例如情感分析测试集中表达正面或负面情感的词；2）分类：能够理解同义词、反义词，能够区分不同词汇的属性、类别；3）命名实体：替换语料中的人名或地名不影响系统原本的输出；4）时态：能够理解事件发生的顺序与重要性，即在大部分任务中当前发生的事件比过去的事件更重要；5）否定：能够理解否定、双重否定或其他更复杂形式的否定；6）指代消歧：能够理解语料中的代词所指代的对象；7）句法：理解语料中的各个成分与谓词的关系；8）逻辑性：能够理解语言的传递性或对称性；9）拼写：能够理解词汇的拼写，在输入个别错别字或是不影响原意的拼写错误的情况下能够正确理解语义；10）词义消歧：能够根据上下文确定歧义对象具体语义的过程。b）也可对t1t2，结合t1与t21）若生成的t2与t1相比未改变原意，则可进行不变性测试，即测试模型对t2与t1的输出是否保持不变，或在规定的阈值内变化；2）若生成的t2与t1相比改变原意，则可进行方向期望测试，即测试模型对t2的输出与对t1c）统计以上测试任务能够正确处理数据的比例是否符合测试要求。指标测试方法机密性a）查看是否可通过系统提供的操作界面或直接获取或推测模型参数；b）于测试要求。隐私性a）检查训练数据中包含敏感数据的占比是否低于测试要求；b）够输出，检查其包含的隐私数据数量和种类的比例是否符合测试要求；c）文档说明一致；d）查看系统开发日志或其他文档说明，检查系统训练时是否应用隐私保护技术。学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载表

9 表

9 自然语言处理系统鲁棒性测试方法（续）节的描述来确定系统可解释性等级。8.11 安全性除GB/T

25000.10-2016中规定的软件系统的信息安全性要求外，自然语言处理系统还应按照表10的方法测试。表

表

10 自然语言处理系统安全性测试方法指标测试方法输入防御a）查看系统文档说明或操作界面，检查系统是否具备对恶意输入样本的检测机的历史等；b）处理，包括对输入样本进行结构转化、加噪、去噪等。伦理符合性a）测试系统对毒性测试数据集的识别比例是否符合要求；b）占比是否低于测试要求；c）内容；d）试要求。学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载表

表

10自然语言处理系统安全性测试方法（续）PositiveNegativePositive

FNNegative

TNｚｆ．ｂｗｗ兔ｗｘｗ．ｃ学兔ｏｍ标准下载T/SAITA

—ｚｆ．ｂｗｗ兔ｗｘｗ．ｃ学兔ｏｍ标准下载附录 A（规范性）自然语言处理系统功能有效性评估指标计算方法A.1

自然语言理解功能有效性评估指标计算方法自然语言理解功能有效性的评估应包括但不限于下列内容。1）混淆矩阵：在二分类任务中，混淆矩阵是通过样本的采集和模型分类器的输出结果形成的2×2TPFP预测值为假，FNTN），如表。表

A.1 二分类混淆矩阵TP+FP+TN+FN

×100%(1)TP+FP

表

A.1 二分类混淆矩阵TP+FP+TN+FN

×100%(1)TP+FP

×100%(2)TP+FN

×100%(3)TN+FP

×100%(4)FP+TN

×100%(5)TP+FN

×100%(6)精确率召回率

(7)宏准确率

1∑ni=1×100%

(8)�TP�

100%(9)TP微准确率

行第

列的数值表示第

类数据被预测为第

类的数目。2）准确率：对于给定的数据集，正确分类的样本数占全部样本数的比率。准确率

= TP+TN3）精确率：对于给定的数据集，被预测为正样本的集合中正样本的比率。精确率

TP4）召回率：对于给定的数据集，被正确预测的正样本占全部正样本的比率召回率

TP5）真阴率：对于给定的数据集，预测正确的负例样本占所有实际为负例样本的比率。真阴率

TN6）错误接受率：对于给定的数据集，预测错误的负例样本占所有实际为负例样本的比率。错误接受率

FP7）错误拒绝率：对于给定的数据集，预测错误的正例样本占所有实际为正例样本的比率。错误拒绝率

FN8）F1测度：精确率和召回率的调和平均值。F1

测度

2×精确率×召回率9）多分类任务下的指标计算：在n分类任务中，根据表2的多分类混淆矩阵得到了所有种类的预测F1进一步采用宏平均和微平均来评价整个多分类任务的功能有效性。宏平均：对每一个类别分别计算统计指标值，即把每个类别视作二分类情况进行统计，然后再对所有类的结果取算术平均值。如：TPi+TNin TPi+FPi+TNi+FNi微平均：把所有类别的真阳、真阴、假阳、假阴类相加，计算类别预测的统计指标。如：�� 10）ROC曲线：ROC的横轴是假阳率，代表所有负样本中错误预测为正样本的概率。ROC和召回率，即ROC曲线上的一点。将正负判定阈值从0到1取不同的值时，可以得到一系列(假阳率,召回15．ｂｚｆｘｗ学兔兔ｗｗｗ．ｃｏｍ标准下载T/SAITA

—．ｂｚｆｘｗ学兔兔ｗｗｗ．ｃｏｍ标准下载率)ROC曲线。ROC(0,1)也即是左上角坐标对应理想模型。曲线越接近左上角代表模型的效果越好。曲线如图A.1所示：BLEU−N

∑c∈candidates∑n−gram∈cBLEU−N

∑c∈candidates∑n−gram∈cCountclip(n−gram)(10)⎧

max(i,j)

min(i,j)

0a,b(i,j−1)+1a,b−1,j−1)+1ai≠bj

otherwise⎨min⎩min(m,n)

(12)|U|

11）AUC：即为曲线下的面积，越接近于1，分类性能越好。A.2

自然语言生成功能有效性评估指标计算方法自然语言生成功能有效性的评估应包括但不限于下列内容。41）BLEU-Nreferencecandidate，c表示candidate4n-gram指包含nn一般取1至

，Count(n-gram)表示c中n-gram的个数，Count(n-gram)表示c的某个n-gram在reference中的截断计数，即如果candidate中有多个相同的n-gram，选择该n-gram在candidate中出现次数与在reference中出现次数较小的作为最终计数。∑c’∈candidates∑n−gram’∈c’Count(n−gram’)2）编辑距离：定义leva,b表示字符串a中前i个字符和字符串b中前j个字符的编辑距离，则a与ba最少经过多少次编辑可以转换为b指插入一位字符、删除一位字符或是替换一位字符。⎪ a,b(i−1,j)+1a,b(i,j)

=(11)⎪3）mAPCAUk表示每个案例生成的答案集中的第kmn表示被检索出的句子数(答案集的大小)，P(k)表示答案句的真实排名/rel(k)表示给出的排序k的句子是不是真实的答案句。A)

∑(P(k)∙rel(k))mAP

∑u∈UAvePu(13)4）ROUGE-N：假定人工给出的摘要为，机器给出的摘要为candidate，S表示referencen-gram指包含nCountmatch(n-gram)表示n-gram同时在S与candidate中出现的次数，Count(n-gram)表示S中N-gram的总数，ROUGE-N的计算与BLEU-N类似，区别在于它的分母是计算reference中的，而的分母是计算candidate中的n-gram。16学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载

∑S∈reference∑n−gram∈SCountmatch(n−gram)∑学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载

∑S∈reference∑n−gram∈SCountmatch(n−gram)

T/SAITA

—(14)RLCS+β2PLCS

(17)N

×RLCS+β2PLCS

(17)N

×100%

(18)个较大的参数。len(S))len(

))RLCS

len(S))len(

))PLCS

LCS(C,S

(16)ROUGE-L

(1+β2)RLCSPLCS6）EM：与基本事实答案精确匹配的百分比，用T表示与答案精确匹配的预测数量，N表示测试用例总数。EM

T7）WER：衡量系统输出文本H与参考文本RN

(19)

WER

S+D+IS——将R转化为H时需要替换的字符数量；D——将R转化为H时需要删除的字符数量；I——将R转化为H时需要插入的字符数量；N——R中字符总数。17学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载附录 B（资料性）数据集1）THUCNews（话题分类，中文）来源：/。数据量：训练集（），开发集（50,010），测试集（10,000）。示例：{Label:

科技Sentence:

中新社上海十一月七日电(记者

许晓青)第二届中美互联网论坛七日在上海开幕。中美进合作}。2）RAFT（话题分类，英文）来源：。数据量：训练集（），测试集（28,712）。示例：{Sentence:

regional

side

ID:

0Label:

2(not

。3）ChnSentiCorp（情感分析，中文）来源：/open-access/chnsenticorp。数据量：积极（3,000），消极（3,0006000示例：{Sentence:

房间每天都有免费水果赠送,这一点比较好.还有好多书籍和摄影著作摆在房间里,据说都是合庆董事长自己编写拍摄的,太有才了。Label:

pos}。4）SST-2（情感分析，英文）来源：/sentiment/index.html。数据量：训练集（67,349），开发集（），测试集（1,819）。示例：{Sentence:

had

live.Label:

1}。5）Chinese_Literature-NER-RE-Dataset（关系抽取，中文）来源：/lancopku/Chinese-Literature-NER-RE-Dataset。数据量：训练集（），验证集（58），测试集（）。示例：{浪漫的涪江水，水的温柔，水的明净，水的亮丽，是在水的流淌之中实现的。涪江水滋润造就了两岸的形态，茂密的森林，肥沃的田园、土地，这都是你编制的。T8 Location-Nominal

45 两岸的T9 Thing-Nominal

63 茂密的森林，肥沃的田园、土地R1 Located

Arg1:T9

Arg2:T8}。18学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载6）DocRED（关系抽取，英文）来源：/thunlp/DocRED/tree/master/data。数据量：训练集（），验证集（1,000），测试集（1,000示例：{Sentence:

Dwight

Tillery

politician

the

Democratic

Party

active

local

politics

Cincinnati,

Ohio.

[3]

also

holds

degree

from

University

Michigan

Law

[4]

Tillery

served

mayor

Cincinnati

1993.Head:

Dwight

Tail:

University

Michigan

Law

SchoolRelation:

educated

atSupporting

Evidence:

3}。7）Title2Event（事件抽取，中文）来源：https://open-event-hub.github.io/title2event/。数据量：训练集（34,295），验证集（4,286），测试集（4,288示例：{title:新华社推出微视频《永远的牵挂》event_trigger:推出event_triple:(新华社,

推出,

《永远的牵挂》)

}。8）Weibo

NER（命名实体识别，中文）来源：/hltcoe/golden-horse。数据量：训练集（1,350）验证集（）测试集（）。示例：{

Sentence:["普0",

"罗

"旺2",

"斯

"的

"薰

"衣1",

"草2"

]Ner_tage:[

16,

。9）CoNLL

2003

Shared

Task（命名实体识别，英文）来源：https://www.clips.uantwerpen.be/conll2003/ner/。数据量：训练集（14,987）验证集（3,4663,684示例：{Sentence:

"all",

"German",

"car",

"manufacturers",

"posted",

"gains",

"registration",

"in",

"the",

]Ner_tags:

[

]}。10）C3（阅读理解，中文）来源：。数据量：训练集(8,023)，开发集

(2,674)，测试集(2,672)。示例：{context:略question:

第2段中，“黑压压一片”指的是:choice:

教室很暗

听课的人多

学生们发言很积极]answer:

B}。11）RACE（阅读理解，英文）来源：。数据量：训练集(25,137)，开发集

，测试集(1,407)。19学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载示例：{passage:略questions:

postage

stamp

_.A.in

C.by

Alice

D.in

answer:A}。12）The

来源：/~kevinduh/a/multitarget-tedtalks/。数据量：训练集（），验证集（1,958），测试集（1,982BY-NC-ND的作者身份、非商业用途、不利用原始内容制作衍生作品。示例：{zh:

我们将用一些影片来讲述一些深海里的故事。en:

we're

going

tell

stories

。13）LCSTS（自动摘要，中文）来源：/Article/show/139.html。数据量：摘要训练集(2,400,591)，人类评分训练集

(10,666)，测试集。示例：{text：居住证管理办法昨起公开征求意见，明确持有人可与当地户籍人口享有同等的免费接受义高考等权利。summary：以后持居住证有望享有这些权利！}。14）CNN/Daily

Mail（自动摘要，英文）来源：/K16-1028/。数据量：训练集(287,227)，验证集

(13,368)，测试集(11,490)。示例：{

Source:

following

are

the

leading

english

after

matches

-lrbnewcastle

-rrb-

james

.Target:

。15）CMRC2018（机器问答，中文）来源：。数据量：训练集(10,321)，验证集

，测试集(4,895)。示例：{context:略question:

《战国无双3》是由哪两个公司合作开发的？text:

["光荣和ω

"光荣和ω-force"]}。16）TruthfulQA（机器问答，英文）来源：。数据量：未分割(817)。示例：{question:

the

brain

does

human

typically

best_answer:

brain

almost

active

}。17）CivilComments（毒性检测，英文）20学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载来源：/pdf/1903.04561。数据量：训练集，验证集(97,320)，测试集(97,320)。示例：{text:

that

great.toxicity:

0severe

toxicity:

0obscene:

0threat:

0insult:

0identity

0sexual

explicit:

。21基于应用场景所选的运行条件、机密性、隐私性、输入防御、伦理符合性等安全性要素风1-5基于应用场景所选的运行条件、机密性、隐私性、输入防御、伦理符合性等安全性要风险1-5基于应用场景所选的运行条件、机密性、隐私性、输入防御、伦理符合性等安全性要风险1-55-15R=

是各项加权系数。80%>50%>>10<3>5<10ｘｗｗｗ．ｂ学兔兔ｗｚｆ．ｃｏｍ标准下载T/SAITA

—ｘｗｗｗ．ｂ学兔兔ｗｚｆ．ｃｏｍ标准下载附录C（资料性）自然语言处理系统评价指南针对第6章给出的部分无法直接量化的测评指标，本附录给出测评参考表，对自然语言处理系统的部分能力提供分级依据。表C.1

自然语言处理系统的风险等级评估表表表C.1

自然语言处理系统的风险等级评估表表

C.2

自然语言处理系统的语言功能保持能力评估表表

C.3

自然语言处理系统的语义表达能力评估表表

C.4

自然语言处理系统的兼容性评估表学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载T/SAITA

—学兔兔ｗｗｗ．ｂｚｆｘｗ．ｃｏｍ标准下载参考文献[1]T/CESA

1036-2019 信息技术人工智能机器学习模型及系统的质量要素和测试方法.[2]张奇,桂韬,黄萱菁.自然语言处理导论[M].电子工业出版社,2023.[3]赵海.自然语言理解

清华大学出版社,2023.[4]CHE

FENG

al.

大模型时代的自然语言处理:挑战、机遇与发展[J].

2023.[5]Ribeiro

Guestrin

Beyond

accuracy:

Behavioral

modelswith

CheckList[J].

preprint

arXiv:2005.04118,

2020.[6]Wang

Singh

Michael

GLUE:

benchmark

for

arXiv

preprint

2018.[7]Qiu

, Sun

, Xu

al.

Models

for

Natural

Language

Survey[J].

中国科学：技术科学英文版,

2020,

63(10):26.[8]周志华.《机器学习》[J].2018(2):1.DOI:CNKI:SUN:HKGZ.0.2018-02-030.[9]Xu

Zhang

CLUE:

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

T-SAITA 001-2023 自然语言处理系统测评规范

文档简介

温馨提示

最新文档

评论

T-SAITA 001-2023 自然语言处理系统测评规范

文档简介

温馨提示

最新文档

评论

相关文档