YDT 4394.4-2023自然语言处理技术及产品评估方法 第4部分:机器同传系统_第1页
YDT 4394.4-2023自然语言处理技术及产品评估方法 第4部分:机器同传系统_第2页
YDT 4394.4-2023自然语言处理技术及产品评估方法 第4部分:机器同传系统_第3页
YDT 4394.4-2023自然语言处理技术及产品评估方法 第4部分:机器同传系统_第4页
YDT 4394.4-2023自然语言处理技术及产品评估方法 第4部分:机器同传系统_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240

CCSL67

YD

中华人民共和国通信行业标准

YD/T××××—××××

自然语言处理技术及产品评估方法

第4部分:机器同传系统

Naturallanguageprocessingtechnologyandproductevaluationmethod

—Part4:machinesimultaneousinterpretationsystem

(报批稿)

××××-××-××发布××××-××-××实施

中华人民共和国工业和信息化部发布

YD/TXXXXX—XXXX

前言

本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》

给出的规定起草。

本文件是《自然语言处理技术及产品评估方法》系列标准之一,该系列标准的结构和名

称如下:

——第1部分:基础服务平台;

——第2部分:对话系统;

——第3部分:智能翻译机;

——第4部分:机器同传系统;

——第5部分:智能客服系统;

——第6部分:客服质检系统。

请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。

本文件由中国通信标准化协会提出并归口。

本文件起草单位:中国信息通信研究院、南京新一代人工智能研究院有限公司、深圳市

腾讯计算机系统有限公司、科大讯飞股份有限公司、北京百度网讯科技有限公司、北京声智

科技有限公司、北京理工大学。

本文件主要起草人:张学强、董晓飞、张丹、曹峰、王浩、陆铁文、柴华、姚志鹏、刘

俊华、张睿卿、何中军、吴华、李笑如、陈孝良、李良斌、屈少杰。

II

YD/TXXXX—XXXX

引言

0.1编制目的及标准结构

同声传译是指在不打断演讲者的情况下对讲话内容进行实时翻译,通常应用于外交谈判

与国际会议等重要场合,机器同传则是借助计算机实现同声传译。同传最大的挑战在于对效

率和效果的平衡,既要满足译文与原文间隔在规定时间内,也须保证听众及时地获取有效信

息。然而,目前市面上的机器同传系统基础功能并不完善,支持语种和方向不尽相同,翻译

效果和时延也层次不齐,在应用场景定制、演讲人私有资源快速优化等方面存在着较大的差

距,给B端和G端的用户选择产品带来极大的困惑与挑战。为此,拟开展机器同传相关标

准的制定,对其集成功能、技术效果、服务形式、安全可靠等方面进行规范。

自然语言处理技术及产品评估方法系列标准由以下六个部分组成。

——第1部分:基础服务平台。目的在于提供词法分析、句法分析、语义分析等NLP基

础技术,可提供情感分析、机器翻译、对话系统等NLP应用技术的服务平台,从基

础技术、应用技术、服务能力等三个维度对NLP服务平台进行评估。

——第2部分:对话系统。目的在于集成了对话系统功能的产品或服务,从对话类型、

对话功能、对话性能、对话体验四个维度进行评估。

——第3部分:智能翻译机。目的在于可实现语音输入、自动翻译和语音输出的智能翻

译机,从基础功能、AI核心技术支持能力、安全性与可靠性和附加业务功能等四

个维度对智能翻译机进行评估。

——第4部分:机器同传系统。目的在于提供语音输入、自动分句、机器翻译、语音输

出或译文投屏的机器同传系统,从基础功能、AI核心技术支持能力、工程实现能

力、附加业务能力等四个维度对机器同传系统进行评估。

——第5部分:智能客服系统。目的在于提供语音客服机器人、文本客服机器人等多种

产品形态的智能客服系统,从基础功能、AI核心技术支持能力、企业服务能力和

系统成熟度等四个维度对智能客服进行评估。

——第6部分:客服质检系统。目的在提供人工客服和智能客服的质检系统,从智能语

音、自然语言理解、基础能力、质检能力四个维度进行评估。

本文件是“自然语言处理技术及产品评估方法”系列文件第4部分:机器同传系统,是

为机器同传系统的研发者和选型者提供评估参考规范。

0.2相关专利情况说明

本文件的发布机构提请注意,声明符合本文件时,可能涉及到5和7.4.3中如下2项和

机器同传技术相关的专利使用。专利名称如下:

CN201911010911.1,语音合成的评估方法、装置、电子设备及可读存储介质;

CN201810712539.8,用于语音翻译的方法、装置、设备和计算机可读存储介质。

本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。

该专利持有人已向本文件的发布机构承诺,他愿意同任何申请人在合理且无歧视的条款

和条件下,就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案,相

关信息可以通过以下联系方式获得:

专利持有人姓名:北京百度网讯科技有限公司

地址:北京市海淀区上地十街10号百度大厦2层

III

YD/TXXXXX—XXXX

请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识

别这些专利的责任。

IV

YD/TXXXX—XXXX

自然语言处理技术及产品评估方法

第4部分:机器同传系统

1范围

本文件规定了可提供语音输入、自动分句、机器翻译、语音输出或译文投屏的机器同传

系统指标要求和评估方法,主要包括机器同传系统基本框架、评估方法概述和具体指标项及

评估方法,所述机器同传系统不包括只具有转写、听写功能的智能系统。

本文件适用于指导第三方测评机构对机器同传系统的评估、验收等工作。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本

适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T19682-2005翻译服务译文质量要求

GB/T21023-2007中文语音识别系统通用技术规范

GB/T21024-2007中文语音合成系统通用技术规范

3术语和定义

下列术语和定义适用于本文件。

3.1

语音识别speechrecognition

将人类的声音信号转化为文字或者指令的技术。

[来源:GB/T21023-2007,3.1]

3.2

语音合成texttospeech

通过机械的、电子的方法合成人类语言的过程。

[来源:GB/T21024-2007,3.1]

3.3

机器同传系统machinesimultaneousinterpretationsystem

具有同声传译功能的开发工具、软件和应用。

3.4

用户users

使用智能翻译机解决其业务问题的组织或个人。

1

YD/TXXXX—XXXX

4缩略语

下列缩略语适用于本文件:

AI人工智能ArtificialIntelligence

SDK软件开发工具包SoftwareDevelopmentKit

5机器同传系统基本框架

机器同传的基本交互流程如图1所示,主要包括以下步骤:

a)使用者通过自然语言对机器同传系统麦克风说出需要同声传译的内容;

b)机器同传系统通过麦克风阵列采集用户声音;

c)机器同传系统通过使用语音识别、机器翻译等技术,结合服务端资源对用户请求进

行分析;

d)使用语音合成技术进行语音播报或通过客户端(大屏)展示翻译文本;

e)根据业务需求对同传的输出内容做词性、颜色、格式等修改后进行展示(可选)。

图1机器同传系统工作原理图

机器同传系统包括以下模块:

——SDK/API模块:机器同传系统对外调用接口,供客户业务系统调用,实现机器同传;

——核心业务模块:实现机器同传方案的核心业务,包括但不限于语音识别、智能断

句、机器翻译、语音合成;

——基础服务支持模块:提供数据库服务、存储服务、会议预定管理服务、同传定向优

化、干预等。

6评估方法概述

针对机器同传系统的评估方法包括检查和测试两类测评方法,具体为:

2

YD/TXXXX—XXXX

a)材料审查:检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄

清或取得证据的过程。检查主要有评审、核查、审查、观察、研究和分析等,检查

对象是文档等;

b)技术测试:测试是指使用预定的方法/工具使测评对象产生特定的结果,将运行结

果与预期的结果进行比对的过程,主要包括人工评测、工具测试等测试操作。

7具体指标项及评估方法

7.1测试环境设定

测试环境设定见表1。

表1测试环境设定

模块维度参数备注

音源距离≤0.2m-

音源角度麦克风平面成90度夹角-

音源高度与收音端通一高度-

环境参数

安静环境噪音低于20db

环境噪音低于35db

嘈杂环境噪音高于65db

采样率16KHZ-

声道单声道-

音频参数音频采样位数16BIT-

高保真音频或人声实录

信噪比≥70db

(最优)

单人说话(无多人交叉会

说话人数-

话)

中文:普通话二级甲等及以

口音上-

英文:标准美式英语

中文:200~220字/分

语速中等语速

音频质量英文:120~150词/分

音频格式WAV/PCM-

说话人年龄青年/中年/老年30-/30~60/60+

说话人性别男/女-

音频内容科技/经济/政治等-

内容专业程度低/中/高-

专业外置声卡福克斯或其他品牌-

设备

麦克风--

3

YD/TXXXX—XXXX

人工嘴--

网络延迟平均低于200ms-

网络状况

丢包率平均低于0.1%-

7.2机器同传指标体系

机器同传各项指标见表2。

表2机器同传指标项

维度指标结果表示

语种和方向语言对数量

自动语种识别语种数量

基础功能

错误修复机制全面支持/部分支持/不支持

私有资源定制全面支持/部分支持/不支持

机器翻译BLEU/可接受度

AI核心技术支持能语音识别字错率WER

力语音合成MOS

智能断句准确率

实时性识别和翻译延迟时间

稳定性SLA

并发性QPS/吞吐量/并发量

服务成熟度

可干预性全面支持/部分支持/不支持

保密性全面支持/部分支持/不支持

计量准确性准确率

方言同传字错率WER,BLEU/可接受度

离线同传全面支持/部分支持/不支持

附加业务功能

实时投屏全面支持/部分支持/不支持

多角色识别全面支持/部分支持/不支持

7.3基础功能

7.3.1语种和方向

评估目的:评估机器同传系统支持翻译的语种和方向的丰富度。

评估内容:

a)语种:汉语、英语、日语、韩语、德语、西班牙语、意大利语等常见语种的识别和

翻译;

b)方向:中英、英中、中日、日中、中韩、韩中、中德、德中等常见语种的双向翻译。

评估方法:

a)构建多个语种、多个方向的音频模态的测试数据集;

b)依次播放音频测试数据,将其识别为文本及对应翻译结果,判定其是否支持待测

语种和方向。

4

YD/TXXXX—XXXX

7.3.2自动语种识别

评估目的:评估机器同传系统自动识别语种的能力。

评估方法:

a)构建多个语种的音频模态的测试数据集;

b)基于技术验证的方式,依次输入测试数据集并将其识别为相应的语种,以判定机

器同传系统是否支持语种自动识别能力。

7.3.3错误修复机制

评估目的:评估机器同传系统是否具备错误修复机制。

评估方法:

a)构建中文和英文两个语种的音频模态的测试数据集;

b)基于技术验证的方式,依次输入测试数据集,将测试数据集识别为文本及对应翻

译结果,通过观察原始输出和实际输出,判定其是否具备错误修复机制。

7.3.4私有资源定制

评估目的:评估机器同传系统对用户私有资源的定制化利用能力。

评估方法:结合材料审查和技术验证的方式。

a)材料审查:通过审查机器同传系统的产品说明书、技术文档等材料,评估其是否具

备私有资源定制能力。

b)技术验证:

1)构建通讯录、术语库、关键词、专有术语表、双语对照表等作为虚拟用户私

有资源;

2)将测试数据集识别为文本,并进行机器翻译,得到翻译结果;

3)导入虚拟用户私有资源,将测试数据集识别为文本及对应翻译结果;

4)对比导入虚拟用户私有资源前后的译文,判定其是否支持该项功能。

7.4AI核心技术支持能力评估

7.4.1机器翻译

评估目的:评估机器同传系统中的机器翻译能力。

评估内容:

a)单独评估机器同传系统翻译效果,即使用标准人工矫正后识别结果请求翻译能力,

对翻译结果进行BLEU值或可接受度评估计算;

b)不进行人工矫正,直接使用原始识别结果请求翻译能力,对翻译结果进行BLEU值

或可接受度评估计算。

评估方法:

a)由3名评测人员对翻译结果逐句进行可接受度评分,评分准则见表3,其中评分准

则参考GB/T19682-2005;

b)由3名评测人员对单句翻译结果评分的均分即为该句的译文接受度评分;

c)对于单句而言,译文接受度大于等于3分判定该句译文可接受,译文接受度小于3

分则判定该句译文不可接受。参评译文总句数应为译文可接受句子总数与译文不

可接受句子总数之和;

d)以译文可接受率和BLEU值为度量机器同传系统语音识别效果指标,其中译文可接

受率计算方法可参见公式(1):

5

YD/TXXXX—XXXX

W

P=1×100%……(1)

WW

式中:

PW——译文可接受率;

W1——译文可接受句子总数;

W——译文句子总数。

表3机器翻译可接受度评分准则

译文评分评分准则

1分译文晦涩难懂,无法通过译文判断原文表达的内容。

译文不能反映原文语义,存在以下问题:

——译文包含原文主要成分,但因顺序问题、逻辑错误、严重语法错误等原因未能构

2分成流畅译文;

——译文基本流畅,但否定、双重否定等翻译错误、严重漏译、关键词错译、多翻了

原文本没有的内容。

译文能够反映原文语义,基本流畅[主谓宾等语法成分顺序正确],但存在表达语义的

3分

关键词汇翻译不当、非关键词漏译或错译等。

译文基本反映原文语义,基本流畅[主谓宾等语法成分顺序正确],只是存在少量词用

4分

词不当或搭配不地道等。

5分译文忠实反映语义,译文流畅。

7.4.2语音识别

评估目的:评估机器同传系统中语音识别能力。

评估方法:

a)构建中文和英文两个语种的音频模态的测试数据集;

b)使用机器同传系统将测试数据集识别为文本,根据语音识别的识别结果文本与识别

正确文本,按照“最小代价匹配”原则运用动态规划算法,得到正确识别字数、删

除错误字数、插入错误字数和替换错误字数,正确文本字数和识别结果文本字数的

计算方法分别参见公式(2)、(3):

N=Mc+S+D……(2)

式中:

N——正确文本字数;

Mc——正确识别字数;

S——替换错误字数;

D——删除错误字数;

M=Mc+S+I……(3)

式中:

M——识别结果文本字数;

Mc——正确识别字数;

S——替换错误字数;

I——插入错误字数;

6

YD/TXXXX—XXXX

c)计算字匹配率,计算方法参见公式(4):

M

M=c×100%…………………(4)

crN

式中:

Mcr——字匹配率;

Mc——正确识别字数;

N——正确文本字数;

d)计算替代错误率,计算方法参见公式(5):

S

S=×100%……(5)

erN

式中:

Ser——替代错误率;

S——替换错误字数;

N——正确文本字数;

e)计算插入错误率,计算方法参见公式(6):

I

I=×100%……(6)

erN

式中:

Ier——插入错误率;

I——插入错误字数;

N——正确文本字数;

f)计算删除错误率,计算方法参见公式(7):

D

D=×100%……(7)

erN

式中:

Der——删除错误率;

D——删除错误字数;

N——正确文本字数;

g)计算字错误率,计算方法参见公式(8):

PWRE=Ser+Ier+Der………………(8)

式中:

PWER——字错误率;

Ser——替代错误率;

Ier——插入错误率;

Der——删除错误率;

h)计算字准确率,计算方法参见公式(9):

M−I

P=c×100%=100%−P………(9)

WCRNWRE

式中:

PWCR——字准确率;

Mc——正确识别字数;

I——插入错误字数;

N——正确文本字数;

PWER——字错误率。

7

YD/TXXXX—XXXX

7.4.3语音合成

7.4.3.1通则

本指标是为了评测机器同传系统的综合语音合成效果。本指标主要为音频合成质量评估,

可以细分为发音准确率、音节清晰度、语音自然度三部分。

7.4.3.2发音正确率

评估目的:参评单位的语音合成服务发音正确率评估。

评估方法:基于人工评测的方式。参评企业的语音合成服务系统依据评测方提供的测试

数据集,每个句子包含一个无歧义的测试点,依据参评系统产生的合成音频,检查是否正确

合成,统计得分,计算发音正确率。发音正确率的评测点见表4,发音正确率的计算方法参

见公式(10):

X

P=1×100%…………………(10)

XX

式中:

PX——发音正确率;

X1——正确合成声音的用例数;

X——总的用例数。

表4语音合成发音正确率评测准则

评测点描述权重

a)常见多音字:能依据上下文在输出的文本文件中对多音字给出正确的读

音;

多音字30

b)特殊姓氏:可根据上下文区别读音的特殊姓氏,例如“仇”作为姓时应

该读为[qiu2]。

a)进制单位:对测试材料中的数字字符,应按照中文以亿、万、千、百、

十为单位独出,例如“896,500”应展开为“八十九万六千五百”;

数字20

b)数据字符:能区分年代、电话号码、百分比、分数和小数的不同读法,

如“2017/10/27”“23:11”“5pm”等。

a)特殊符号和单位:对测试材料中的符号和单位,有中文法定计量单位的

应给出相应的拼音形式,并按照汉语普通话读音,读音应遵照《关于在

我国统一实行法定计量单位的命令》(1984年)的规定,如“:”“-”

符号20

“#”“*”等需要能根据上下文选择正确的发音;

b)数字符号有全角半角:前端系统应该能正确识别全角半角并发音;

c)中英文混读:常用外语缩略语,如“B超”“ATM机”“QQ”等。

声调发音一/不变调、上声变调、重叠式变调、轻音和儿化音变调等。30

7.4.3.3音节清晰度

评估目的:参评单位的语音合成服务系统的发音清晰度,评估字和词的发音清晰效果。

评估方法:主要基于人工评测的方式。采用语义不可测句(SemanticUnpredictable

Sentence,SUS)测试单词清晰度,将测试集语句中字词打乱,语义的不可测可以避免听音

人的经验猜测,其中测试点都是单个字、词,参评企业的语音合成服务系统依据评测方提供

的测试数据集成为音频。语音顺序交叉打乱,听音评测者依据参评系统生成的音频文件和输

入的文本进行比照,判断字词的发音是否清晰,统计发音清晰得分,计算方法可参见公式

(11):

8

YD/TXXXX—XXXX

Y

P=1×100%…………………(11)

YY

式中:

PY——发音清晰度;

Y1——清晰发音的测试点;

Y——总的测试点。

7.4.3.4语音自然度

评估目的:参评单位的语音合成服务系统合成音频的自然度。

评估方法:主要基于人工评测的方式。采用MOS(MeanOpinionScore)平均主观意见分,

参评企业的语音合成服务系统依据评测方提供的测试数据集,将测试数据集合成为音频。语

音顺序交叉打乱,听音评测者依据参评系统生成的音频文件,从以下三个方面判断合成语音

的整体自然度,各维度满分100分,统计所有评测人员的打分,计算各维度的平均分。

a)情绪饱满度:按照文本语义和情绪,评估合成语音情绪表达是否到位。

b)流畅连贯度:评估合成语音韵律节奏、分词停顿和语速表达是否正常,是否流畅连

贯。

c)拟人舒适度:评估合成语音在人听觉上的感受是否舒适,是否更接近人类发音。

计算语音自然度得分,计算方法可参见公式(12):

Z+Z+Z

P=123×100%………………(12)

Z3

式中:

PZ——语音自然度得分;

Z1——情绪饱满度得分;

Z2——流畅连贯度得分;

Z3——拟人舒适度得分。

7.4.4智能断句

评估目的:评估机器同传系统中语音识别能力。

评估内容:需要预测的标点如下:

a)终止类标点:包括句号、分号、感叹号、问号,终止类标点不得截断断完整语义单

元(如分句、子句、数字、专有名词、人名);

b)非终止类标点:包括顿号、逗号,非终止类标点不得截断完整分词、数字、专有名

词、人名。

评估方法:

a)使用机器同传系统将测试数据集识别为文本并预测对应标点,根据标点预测结果,

统计终止类标点正确结果数、非终止类标点正确结果数、终止类标点错误结果数、

非终止类标点错误结果数,总标点数计算方法见公式(13):

Q=C1+C2+E1+E2………………(13)

式中:

Q——总标点数;

C1——终止类标点正确结果数;

C2——非终止类标点正确结果数;

E1——终止类标点错误结果数;

E2——非终止类标点错误结果数;

9

YD/TXXXX—XXXX

b)计算终止类标点正确率,计算方法可参见公式(14):

C1

PE=×100%…………………(14)

C1+E1

式中:

PE——终止类标点正确率;

C1——终止类标点正确结果数;

E1——终止类标点错误结果数;

c)计算非终止类标点正确率,计算方法可参见公式(15):

C2

PNE=×100%…………………(15)

C2+E2

式中:

PNE——非终止类标点正确率;

C2——非终止类标点正确结果数;

E2——非终止类标点错误结果数;

d)计算标点正确率,计算方法可参见公式(16):

C+C

P=12×100%………………(16)

PREQ

式中:

PPRE——标点正确率;

C1——终止类标点正确结果数;

C2——非终止类标点正确结果数;

Q——总标点数。

7.5服务成熟度

7.5.1实时性

7.5.1.1语音识别实时性

评估目的:依据参评单位机器同传系统实际语音识别能力,在特定服务请求数量下的

语音识别实时响应时间(指从识别请求发起到识别音频首帧播放的时间间隔)。

系统的响应时间统一采用实时系数概念。在系统的标准配置条件下,语音识别实时系数

计算方法可参见公式(17):

(Tτ1−Ts1)

K1=……(17)

(Te1−Ts1)

式中:

K1——语音识别实时系数;

Tτ1——语音识别结束时间点;

Ts1——发音开始时间点;

Te1——发音结束时间点。

评估方法:基于材料检查和技术测试的方式。参评方提供在特定服务请求数量下,五个

测试文本长度区间(≤127、128~1023、1024~4095、4096~16383、≥16383)的系统响应时

间,其中句子长度的计数上,中文等以字符(character)为基本单位,英文符号等西文以

单词为计数单位。评测方在每个区间用获取响应时间,与参评方提供的材料进行比对。

7.5.1.2机器翻译实时性

10

YD/TXXXX—XXXX

评估目的:机器同传系统的个人信息保护能力评估。

评估内容:依据参评单位机器同传系统实际机器翻译能力,在特定服务请求数量下的机

器翻译实时响应时间。

系统的响应时间统一采用实时系数概念。在系统的标准配置条件下,机器翻译实时系数

计算方法可参见公式(18):

(Tτ2−Ts2)

K2=………(18)

(Te2−Ts2)

式中:

K2——机器翻译实时系数;

Tτ2——翻译(稳定态)结束时间点;

Ts2——发音开始时间点;

Te2——发音结束时间点。

评估方法:主要基于材料检查和技术测试的方式。参评方提供在特定服务请求数量下,

五个测试文本长度区间(≤127、128~1023、1024~4095、4096~16383、≥16383)的系统响

应时间,其中句子长度的计数上,中文等以字符(character)为基本单位,英文符号等西

文以单词为计数单位。评测方在每个区间用获取响应时间,与参评方提供的材料进行比对。

7.5.2稳定性

机器同传系统的服务稳定性应≥99.9%,并具备一定的服务可靠性的保障策略。

评估目的:参评单位机器同传系统的稳定性。

评估方法:主要基于材料检查的方式。

a)参评单位应提供自承诺的服务等级材料,并提供服务可靠性保障策略相关材料,

如平均故障间隔时间、用户无感的系统升级、服务状态监测和自动重启、冗余备灾

策略等,测试方检查是否符合稳定性要求。

b)判断机器同传系统SLA指标能否达到全链路2s以内请求占比≥99.9%、全链路1s以

内请求占比≥95.0%的指标。

7.5.3并发性

机器同传系统的并发性能以吞吐量计算,即同时可并发支持会议数量,并具备一定的服

务并发性的保障策略,如动态扩容等。

评估目的:参评单位机器同传系统的并发能力。

评估方法:基于材料检查的方式。

a)检查参评单位提供的自承诺服务等级材料以及服务并发性保障策略相关材料,如

动态扩容、性能报警等。

b)测试机器同传系统性能指标,参评方需提供压测硬件环境配置,对应可支持并发

路数、QPS指标以及并发路数与QPS间换算关系,CPU、GPU、内存、显存使用量。硬

件配置包含GPU型号、CPU型号、内存。

7.5.4可干预性

机器同传系统的干预成功率大于等于95%,并具备一定的服务可靠性的保障策略。

评估目的:参评单位机器同传系统的可干预性。

评估方法:基于材料检查的方式。

评估方法:

a)当前句修改(单人\多人协同修改):

11

YD/TXXXX—XXXX

1)原文重复片段修改(句首、句中、句尾);

2)原文非重复片段修改(句首、句中、句尾);

3)译文重复片段修改(句首、句中、句尾);

4)译文非重复片段修改(句首、句中、句尾)。

b)历史句修改(单人\多人协同修改):

1)原文重复片段修改(句首、句中、句尾);

2)原文非重复片段修改(句首、句中、句尾);

3)译文重复片段修改(句首、句中、句尾);

4)译文非重复片段修改(句首、句中、句尾)。

c)句子合并及拆分(单人\多人协同修改)。

7.5.5保密性

保密性是网络信息不被泄露给非授权的用户、实体或过程,或供其利用的特性。即防止

信息泄漏给非授权个人或实体,信息只为授权用户使用的特性。

评估目的:参评单位机器同传系统的内容保密性。

评估方法:基于材料检查的方式。

检查参评单位保密技术相关的材料,包括:

a)防侦收(使对手侦收不到有用的信息)技术的材料;

b)防辐射(防止有用信息以各种途径辐射出去)技术的材料;

c)信息加密(在密钥的控制下,用加密算法对信息进行加密处理)技术的材料。

7.5.6计量准确性

评估目的:机器同传系统整体服务计量准确度。

评估方法:主要基于材料检查和技术测试的方式。

a)材料检查:检查参评单位提供的与承诺相符的服务计量的材料,包括:

1)检查计费单位、计费算法、计费周期;

2)检查计量日志。

b)技术测试:测试机器同传系统的计费准确度,抽取计量日志中若干计费条目,按参

评单位提供的计费方式审查是否与实际使用情况一致。

7.6附加业务功能

7.6.1方言同传

评估目的:评估机器同传系统对东北话、四川话、广东话等方言的识别、翻译、合成

(可选)能力。

评估方法:基于材料检查和技术测试的方式。

a)材料检查:检查参评单位提供的与承诺相符的方言的识别与翻译的相关材料。

b)技术验证,包括:

1)评估语音识别能力,如将东北话、四川话、广东话等方言语音实时识别为文

本的能力;

2)评估机器翻译能力,如将东北话、四川话、广东话等方言文本实时翻译为目

标语言文本的能力;

3)评估语音合成能力,如将东北话、四川话、广东话等方言文本实时合成为语

音的能力(可选)。

12

YD/TXXXX—XXXX

7.6.2离线同传

评估目的:评估机器同传系统是否具备离线语音识别、机器翻译、语音合成(可选)的

能力。

评估方法:主要基于材料检查和技术测试的方式。

a)材料检查:检查参评单位提供的与承诺相符的离线识别与翻译的相关材料。

b)技术验证:包括:

1)在机器同传系统离线的情况下进行语音输入,验证能否准确识别出文字;

2)在机器同传系统离线的情况下输入文本,验证能否准确翻译为目标语言文本;

3)在机器同传系统离线的情况下输入目标语言文本,验证能否合成为目标语言

语音。

7.6.3实时投屏

评估目的:评估机器同传系统是否具备将识别结果、翻译结果实时投屏的能力。

评估方法:

a)材料审查:查看机器同传系统的产品说明书、技术文档,评估是否具备原文、译文

实时投屏的功能;

b)技术测试:构建音频模态的测试数据集,运行机器同传系统并播放音频,观察是否

具备实时投屏能力。

7.6.4多角色识别

评估目的:评估机器同传系统是否具备区分多个说话人并进行识别、翻译和合成的能力。

评估方法:

a)材料审查:查看机器同传系统的产品说明书、技术文档,评估是否具备多角色识别

的功能;

b)技术测试:构建覆盖男、女、老、少等多个说话人的音频模态的测试数据集,运行

机器同传系统并播放音频,观察是否具备区分多角色识别的能力。

13

YD/TXXXX—XXXX

目次

前言.....................................................................II

引言....................................................................III

1范围......................................................................1

2规范性引用文件.............................................................1

3术语和定义.................................................................1

4缩略语.....................................................................2

5机器同传系统基本框架.......................................................2

6评估方法概述...............................................................2

7具体指标项及评估方法.......................................................3

7.1测试环境设定.........................................................3

7.2机器同传指标体系.....................................................4

7.3基础功能.............................................................4

7.4AI核心技术支持能力评估..............................................5

7.5服务成熟度..........................................................10

7.6附加业务功能........................................................12

I

YD/TXXXX—XXXX

自然语言处理技术及产品评估方法

第4部分:机器同传系统

1范围

本文件规定了可提供语音输入、自动分句、机器翻译、语音输出或译文投屏的机器同传

系统指标要求和评估方法,主要包括机器同传系统基本框架、评估方法概述和具体指标项及

评估方法,所述机器同传系统不包括只具有转写、听写功能的智能系统。

本文件适用于指导第三方测评机构对机器同传系统的评估、验收等工作。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本

适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T19682-2005翻译服务译文质量要求

GB/T21023-2007中文语音识别系统通用技术规范

GB/T21024-2007中文语音合成系统通用技术规范

3术语和定义

下列术语和定义适用于本文件。

3.1

语音识别speechrecognition

将人类的声音信号转化为文字或者指令的技术。

[来源:GB/T21023-2007,3.1]

3.2

语音合成texttospeech

通过机械的、电子的方法合成人类语言的过程。

[来源:GB/T21024-2007,3.1]

3.3

机器同传系统machinesimultaneousinterpretationsystem

具有同声传译功能的开发工具、软件和应用。

3.4

用户users

使用智能翻译机解决其业务问题的组织或个人。

1

YD/TXXXX—XXXX

4缩略语

下列缩略语适用于本文件:

AI人工智能ArtificialIntelligence

SDK软件开发工具包SoftwareDevelopmentKit

5机器同传系统基本框架

机器同传的基本交互流程如图1所示,主要包括以下步骤:

a)使用者通过自然语言对机器同传系统麦克风说出需要同声传译的内容;

b)机器同传系统通过麦克风阵列采集用户声音;

c)机器同传系统通过使用语音识别、机器翻译等技术,结合服务端资源对用户请求进

行分析;

d)使用语音合成技术进行语音播报或通过客户端(大屏)展示翻译文本;

e)根据业务需求对同传的输出内容做词性、颜色、格式等修改后进行展示(可选)。

图1机器同传系统工作原理图

机器同传系统包括以下模块:

——SDK/API模块:机器同传系统对外调用接口,供客户业务系统调用,实现机器同传;

——核心业务模块:实现机器同传方案的核心业务,包括但不限于语音识别、智能断

句、机器翻译、语音合成;

——基础服务支持模块:提供数据库服务、存储服务、会议预定管理服务、同传定向优

化、干预等。

6评估方法概述

针对机器同传系统的评估方法包括检查和测试两类测评方法,具体为:

2

YD/TXXXX—XXXX

a)材料审查:检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄

清或取得证据的过程。检查主要有评审、核查、审查、观察、研究和分析等,检查

对象是文档等;

b)技术测试:测试是指使用预定的方法/工具使测评对象产生特定的结果,将运行结

果与预期的结果进行比对的过程,主要包括人工评测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论