




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CCSL70团体标准Artificialintelligence—Technicalspecificationfordeepsyntheticimagesy中国电子工业标准化技术协会发布T/CESA1197—2022前言 III 2规范性引用文件 3术语和定义 4缩略语 5深度合成图像系统框架 6深度合成图像系统技术要求 6.1深度合成图像系统通用要求 6.2深度合成2D人像系统要求 6.3深度合成3D人像系统要求 6.4深度合成人像防伪检测性能要求 227深度合成图像系统测试评价方法 7.1深度合成图像系统通用测试 7.2深度合成2D人像系统测试 7.3深度合成3D人像系统测试 7.4深度合成人像防伪检测方法 T/CESA1197—2022本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国电子技术标准化研究院提出。本文件由中国电子技术标准化研究院、中国电子工业标准化技术协会归口。本文件起草单位:中国电子技术标准化研究院、腾讯云计算(北京)有限责任公司、上海计算机软件技术开发中心、上海商汤智能科技有限公司、北京旷视科技有限公司、深圳市矽赫科技有限公司、四川云从天府人工智能科技有限公司、西安深信科创信息技术有限公司、美的集团(上海)有限公司、海信集团控股股份有限公司、深圳云天励飞技术股份有限公司、马上消费金融股份有限公司、西安交通大学、西北工业大学、北京百度网讯科技有限公司、京东科技信息技术有限公司、上海人工智能研究院有限公司、武汉精测电子集团股份有限公司。本文件主要起草人:董建、马珊珊、刘海涛、刘晶、樊华、刘嘉怡、许元博、周磊、汪铖杰、徐洋、杨雨泽、邰颖、罗栋豪、朱俊伟、陈敏刚、陈文捷、赵代平、高瑞声、吴庚、梅敬青、付英波、洪鹏达、洪宝璇、李军、李继伟、翟军治、蒋泽锟、脱立恒、蔡亚森、高雪松、方静、郑文先、陈斌、杨春勇、王洪斌、蔺琛皓、张磊、岳海潇、李笑如、李博、宋海涛、王资凯、张胜森。T/CESA1197—20221人工智能深度合成图像系统技术规范本文件确立了深度合成图像(含视频)系统的框架,规定了系统技术要求,描述了对应的测试评价方法。本文件适用于深度合成图像系统的设计、开发、测试、评估、管理等。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.29—2000信息技术词汇第29部分:人工智能语音识别与合成GB/T21023—2007中文语音识别系统通用技术规范GB/T36464.3—2018信息技术智能语音交互系统第3部分:智能客服3术语和定义GB/T5271.29—2000界定的以及下列术语和定义适用于本文件。3.1深度合成技术deepsynthesistechnology利用以深度学习、虚拟现实为代表的生成合成类算法,在制作文本、图像、音频、视频、虚拟场景等过程中合成内容的技术。3.2深度合成图像系统deepsyntheticimagesystem采用AI技术用于人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等对图像、视频中人脸等生物特征进行生成或者编辑的技术系统。3.3图像生成imagegeneration从现有数据集生成图像的过程。2T/CESA1197—20223.4图像合成imagecomposition把来自一张图片或者不同图片的多个视觉元素前景剪切下来,粘贴到另外一张背景图片上,得到一张合成图像。3.5语音合成speechsynthesis人工语音的生成。[来源:GB/T5271.29—2000,12.01.53]3.6深度合成2D人像deepsynthesisof2Dportraits基于深度合成技术生成的二维人像,包括图像、视频和语音。3.7深度合成3D人像deepsynthesisof3Dportraits基于深度合成技术生成的三维人像,包括图像、视频和语音。4缩略语下列缩略语适用于本文件。AI:人工智能(ArtificialIntelligence)API:应用程序编程接口(ApplicationProgrammingInterface)DS:深度合成(DeepSynthesis)EAO:平均重叠期望(Expectedaverageoverlap)FID:距离得分(FrechetInceptionDistancescore)GAN:对抗式生成网络(GenerativeAdversarialNetwork)IoU:交并比(IntersectionoverUnion)mAP:平均精确度均值(meanAveragePrecision)MIoU:平均交并比(MeanIntersectionoverUnion)NeRF:神经辐射场(NeuralRadianceFields)NLP:自然语言理解(NatureLanguageProcess)PGAN:渐进式增长生成对抗网络(ProgressiveGenerativeAdversarialNetwork)PSNR:峰值信噪比(PeakSignal-to-NoiseRatio)SDK:软件开发工具包(SoftwareDevelopmentKit)SSIM:结构相似性(StructuralSimilarityIndexMeasure)StarGAN:星型生成对抗网络(StarGenerativeAdversarialNetwork)StyleGAN:风格生成对抗网络(StyleGenerativeAdversarialNetwork)TTS:从文本到语音(TextToSpeech)VAE变分自编码器(VariationalAuto-Encoder)2D:二维(2-Dimensional)3D:三维(3-Dimensional)T/CESA1197—202235深度合成图像系统框架深度合成图像系统框架包括AI能力层、管理层和接入层,见图1。图图1深度合成图像系统框架图1中各层组成模块如下:a)AI能力层:主要分为图像模块、人像模块和防伪检测模块。1)图像模块包括图像生成、图像合成、图像修复和图像增强能力,能对一般图像进行深度合成处理;2)人像模块包括2D/3D人像合成、语音模块、NLP对话和音频同步能力,其中2D/3D人像合成模块用来制作人像;语音模块包括使用TTS技术语音合成能力,和语音识别能力;NLP对话则赋予了系统交互能力,够做到理解输入问题,做出符合语境、语法正常、语义连贯的回答;音频同步则是用来同步人像模块中的音视频;3)防伪检测模块:主要是对系统输入的人像(人脸、人体)图像进行鉴别,判断数字内容的真实性、完整性和原始性。b)管理层:主要是对深度合成图像系统的媒体资源和人像进行管理与调度。1)媒体资源管理平台:用以提供视频超分和老片修复等功能;2)人像管理平台提供两类人像管理,一类是播报式人像管理,主要是对人物形象和语音信息进行管理;与播报式人像管理相比,对话式人像管理对NLP对话能力和语音识别能力的需求更为明显,对话场景要求系统具有优秀的语音识别能力,做到语音信息准确的转换为文本信息,并传递给NLP对话能力模块,对问题进行语义理解,并做出答复,接下来与播报式人像管理的流程类似,对回答的内容做视频输出即可。c)接入层:深度合成系统框架主要以三种方式接入目标系统:API、小程序插件、SDK。1)API的方式提供了轻量化的部署方式,但对网络环境提出了较高的要求,因为深度合成图像系统最终向目标系统提供内容视频或内容视频流。因此目标系统的网络环境应作为第一考量。API服务的优点是部署简单,不需要考量服务环境中的算力问题与运行环境问题;2)小程序插件可以有效的缩短开发的周期,可以节约大量的开发成本,而且还可以给用户带来多样化的服务,但使用插件通常要先进行申请;T/CESA1197—202243)SDK部署的优点是减少了对网络环境的依赖,可在网络环境较差的情况下正常运行深度合成图像系统框架,但对工作环境有一定的要求,比如环境上的图形计算能力、图形处理器在生产环境下的稳定性等。6深度合成图像系统技术要求6.1深度合成图像系统通用要求6.1.1功能图像生成图像生成功能应支持根据指定的场景特征(包括特定目标、特定主题、特定风格等)生成对应图像,生成的图像应符合场景要求。图像合成.1目标检测目标检测功能应支持识别常见物体和特定目标在图像中的位置(以方框形式给出目标轮廓)及其类型,用以分析该图像是否能与其他图像的内容进行融合。.2目标分割目标分割功能应支持给出图像中常见物体和特定目标的精细化边缘(像素级别区分度)及其类型,用以分离特定目标以及处理融合过程中出现的物体间遮挡的情况,使得融合后图像更加合理。.3位置跟踪位置跟踪功能应支持持续跟踪视频画面中特定目标的位置变化,用以处理视频融合中目标位置的变化情况,使得视频中目标的运动状态符合物理规律。.4图像和谐化图像和谐化功能应支持调节多个融合部分的亮度、颜色、光线等特征,使得融合后的图像作为一个整体的观感更加自然。图像修复.1概述图像修复功能即通过一定的算法修复低质图像中存在的多维度问题。图像修复主要包括图像缺陷修复、图像内容缺失补全和图像颜色缺失补全及修复。.2图像缺陷修复图像缺陷修复功能应支持修复图像中的典型缺陷问题,该类问题会影响用户对成像内容的正常视觉感知,问题包括但不限于:模糊问题、噪声问题、划痕问题、隔行问题等。修复后较修复前,缺陷问题得到明显改善,用户视觉观感得到明显提升。T/CESA1197—2022.3图像内容缺失补全功能图像内容缺失补全功能应支持修复图像部分内容缺失的问题或修复因去除非必要遮挡而造成的图像内容缺失的问题,根据缺失图像块周围仍保留的图像内容恢复出缺失部分的内容,并保证补全部分与周围图像的和谐过渡,补全后图像的整体观感自然不违和。.4图像颜色缺失补全及修复对图像颜色缺失补全及修复功能要求如下:a)应支持针对黑白图像的颜色补全功能,能将黑白图像恢复成为彩色图像,并保证补全后彩色图像的观感合理性和舒适度;b)应支持针对色彩不合理图像的颜色修复功能,能将观感不合理、不舒适的图像色彩调整为更加合理、更加舒适的色彩,提升用户视觉观感。图像增强.1概述图像增强功能,即通过一定的增强算法使图像具有更强的信息表达能力,增强后的图像较增强前在清晰度、流畅度、丰富度等各维度有明显提升。图像增强功能主要包括图像分辨率提升功能、视频帧率提升功能、图像动态范围提升功能。.2图像分辨率提升图像分辨率提升功能应支持将图像分辨率提升至原先的数倍或提升至某一特定的高分辨率(目标分辨率),并且提升后图像较提升前具有更丰富的细节信息,在视觉观感的清晰度上有明显提升。.3视频帧率提升视频帧率提升功能应支持将视频帧率提升至原先的数倍,即单位时间内的帧数较提升前有明显增加,播放时单帧画面视觉停留时间减少,能提升用户视觉观感的流畅度。.4图像动态范围扩大图像动态范围扩大功能应支持将图像像素的亮度表达范围提升至原先的数倍,将图像像素的颜色表达范围提升至原先的数十倍,使得提升后视频的对比度增大,画面更富层次感,色彩更加丰富。6.1.2性能图像生成.1场景匹配度场景匹配度指对于系统生成的图像,用户判断该图像与场景要求的匹配程度,该指标为主观性评估指标。场景匹配度应达到让用户感到比较匹配的程度,场景匹配度主观评分规则见表1。T/CESA1197—20226表1场景匹配度主观评分规则生成图像中的物体与场景要生成图像的主题与场景要求生成图像的风格与场景要求.2视觉自然度视觉自然度指系统生成的图像让用户视觉上感到自然和谐的程度,视觉自然度应达到让用户感到比较自然的程度。该指标为主观性评估指标,评分规则见表2。表2视觉自然度主观评分规则整体自然度该图片整体观感是否自然十分自然完全没有伪纹理伪纹理较少有一些伪伪纹理较多图像合成.1目标检测性能mAP为各类别平均精度(AP)的均值,AP是在不同召回率下的最高精确率的均值(一般会对各类别分别计算各自的AP)。在包含常用类别及特定类别的自定义数据集上目标检测平均精确率均值mAP应大于0.5。召回率和精确率定义如下:a)IOU:真实框与预测框之间交集面积与并集面积的比值;b)真阳性(TP正确的检测,即预测的边界框中分类正确且边界框坐标正确的数量,检测的IOU≥threshold(一般取0.5);c)假阳性(FP错误的检测,即预测的边界框中分类错误或者边界框坐标不达标的数量,也就是预测出的所有边界框中除去预测正确的边界框,剩下的边界框的数量,检测的IOU<threshold(一般取0.5);d)假阴性(FN没有被检测出来的真实框。所有没有预测到的边界框的数量,即正确的边界框中除去被预测正确的边界框,剩下的边界框的数量;e)召回率:TP/(TP+FN):模型给出的预测结果最多能覆盖多少真实目标;f)精确率:TP/(TP+FP):模型给出的所有预测结果中命中真实目标的比例。.2实例分割性能MIoU即预测区域和实际区域交集除以预测区域和实际区域的并集,这样计算得到的是单个类别下的IoU,然后重复此算法计算其它类别的IoU,再计算它们的平均数即可。计算公式如式1:T/CESA1197—20227式中:i——真实值;j——预测值;Psy——将i预测为j。在包含常用类别及特定类别的自定义数据集上实例分割MIoU应大于0.5。.3目标跟踪EAO是用于衡量目标追踪方法准确性和鲁棒性的指标,表示每个跟踪器在一个短时图像序列上的非重置重叠的期望值。考虑一个用于目标追踪的视频,其包含NS帧,待测试的跟踪器在此序列的开始处初始化,并一直跟踪至最后一帧。如果跟踪器在某帧预测的矩形框偏离目标,则追踪停止。每一帧的准确率定义为:式中:Af——第t帧的真实框;——跟踪器对第t帧的预测框。之后进行平均,得到该序列上的准确率,在长度为N,的多个序列上求平均值,这样就得到了跟踪器在长度为N,序列上的EAO值。在自定义视频数据集上位置跟踪EAO应大于0.4。.4和谐化.4.1融合视觉合理性融合视觉合理性指系统融合得到的图像或视频让用户视觉上感到合理的程度,该指标为主观性评估指标。融合视觉合理性主观评分规则见表3,融合视觉合理性应达到让用户感到比较合理的程度。表3融合视觉合理性主观评分规则十分不合理.4.2融合视觉自然度融合视觉自然度指系统融合得到的图像或视频让用户视觉上感到自然和谐的程度,该指标为主观性评估指标。考融合视觉自然度主观评分规则见表4。融合视觉自然度应达到让用户感到比较自然的程度。T/CESA1197—20228表4融合视觉自然度主观评分规则以正常帧率播放融合视频,判断视频自然度十分不自然融合图片整体观感是十分不自然融合图片局部过渡是十分不自然图像修复.1图像缺陷修复.1.1量化指标PSNR给定一张大小为m*n正常无缺陷图像I作为参考图像,与之相对应的有缺陷图像K作为待评测图像,均方误差(MSE)定义为式3:PSNR(dB)定义为式4:式中:Maxf——图片可能的最大像素值。以上为针对灰度图的PNSR计算方式,如果是彩色图像,通常计算RGB三个通道的MSE,然后计算PSNR。.1.2量化指标SSIM给定一张正常无缺陷图像x作为参考图像,与之相对应的有缺陷图像y作为待评测图像,SSIM基于x和y之间的三个比较衡量:亮度(luminance)、对比度(contrast)和结构(structure)。,一般取cs=c2/2为x的均值,y为y的均值,为x的方差,为y的方差,Ox为x和y的协方差,cy=(k1L)2,为两个常数,避免除零,为像素值的范围,k=0.01,h2=0.03为默认值,则T/CESA1197—20229将a,B,设为1,则得到式5:.1.3视觉缺陷程度视觉缺陷程度指系统对图像修复前后,用户判断缺陷的程度。修复后应达到让用户感到缺陷比较轻微甚至感知不到缺陷的程度。该指标为有参考主观性评估指标,评分规则见表5。表5缺陷修复程度有参考主观评分规则54321对比划痕参考图像评估图像的划痕十分划痕比较划痕程度对比噪声参考图像评估图像的噪声十分噪声比较噪声程度对比横纹参考图像评估图像的横纹十分横纹比较横纹程度对比模糊参考图像评估图像的模糊十分模糊比较模糊程度.2图像内容缺失补全.2.1量化指标PSNR、SSIM选取一组内容完整无缺失的图像作为原图像;将原图像的部分内容随机按照一定比例(如10%~60%)置为全黑,作为内容缺失图像;将内容缺失图像送入系统进行图像内容补全,得到补全后图像。量化指标计算同.1.1、.1.2中的量化指标,参考图像选取为内容完整的原图像,待评测图像选取为经系统修复的补全后图像。.2.2视觉自然度视觉自然度指系统将内容缺失图像补全后让用户视觉上感到自然和谐的程度。该指标为主观性评估指标,评分规则如.2表2所示。视觉自然度应达到让用户感到自然、基本无伪纹理的程度。.3图像颜色缺失补全及修复.3.1量化指标FIDFID距离是一种用于评估生成模型(如生成对抗网络)生成图片的度量。其衡量生成图片的分布和真实图片分布之间的差异性。T/CESA1197—2022FID计算两个多维高斯分布之间的平方Wasserstein距离。给定颜色缺失补全后的图像集合经神经网络提取出来特征的多维高斯分布和真实彩色图像集合经同一神经网络得到特征的多维高斯分布,该神经网络一般是在ImageNet数据集上训练的Inceptionv3网络。FID具体计算方式为式5:其中表示各自的均值和协方差。.3.2量化指标PSRR、SSIM选取一组有正常颜色的图像作为原图像;将原图像的颜色去除,得到的黑白图像作为颜色缺失图像;将颜色缺失图像送入系统进行颜色补全,得到补全后图像。量化指标PSNR和SSIM的计算同.1.1、.1.2中的量化指标,其中参考图像选取为有正常颜色的原图像,待评测图像选取为经系统补全颜色后的图像。注:量化指标FID、PSNR和SSIM仅适用于图像颜色缺失补全功能的测试,不适用于颜.3.3颜色视觉合理性颜色视觉合理性指系统将颜色缺失图像补全及修复后让用户视觉上感到合理的程度。该指标为主观性评估指标。颜色视觉合理性应达到让客户感觉比较合理的程度。评分规则见表6。表6颜色视觉合理性主观评分规则.3.4颜色视觉舒适度颜色视觉舒适度指系统将颜色缺失图像补全及修复后让用户视觉上感到舒适的程度。该指标为主观性评估指标。颜色视觉舒适度应达到让客户感觉比较舒适的程度。评分规则见表7。表7颜色视觉舒适度主观评分规则T/CESA1197—20图像增强.1图像分辨率提升.1.1量化指标PSNR、SSIM选取一组高分辨率(如4k分辨率)的图像作为原图像;将原图像进行下采样,得到的低分辨率(如2k分辨率)图像作为待提升分辨率的图像;将待提升分辨率的图像送入系统进行分辨率提升,得到分辨率提升后的图像。量化指标PSNTR和SSIM的计算同.1.1、.1.2中的量化指标,其中参考图像选取为高分辨率的原图像,待评测图像选取为经系统提升分辨率后的图像。.1.2视觉清晰度视觉清晰度指系统对图像分辨率提升后,用户判断分辨率提升前后图像的清晰程度。该指标为有参考主观性评估指标。视觉清晰度应达到让用户感到比较清晰的程度。评分规则见表8。表8视觉清晰度有参考主观评分规则.1.3视觉自然度视觉自然度指系统将分辨率提升后让用户视觉上感到自然和谐的程度。该指标为主观性评估指标。评分规则如.2表2所示。视觉自然度应达到让用户感到比较自然的程度。.2视频帧率提升性能.2.1量化指标PSNR、SSIM选取一组高帧率(如120fps)的视频作为原视频;将原视频的帧率进行下采样,得到的低帧率(如30fps)视频作为待提升帧率的视频;将待提升帧率的视频送入系统进行帧率提升,得到帧率提升后的视频。量化指标PSNR和SSIM的计算同.1.1、.1.2中的量化指标,其中参考图像选取为在原视频中存在,而待提升帧率视频中不存在的帧,待评测图像选取为经系统提升帧率所生成的图像。.2.2视觉流畅度视觉流畅度指系统对视频帧率提升后,用户判断帧率提升前后视频的流畅程度。该指标为有参考主观性评估指标。视觉流畅度应达到让用户感到比较流畅的程度。评分规则见表9。表9视觉流畅度有参考主观评分规则顿.2.3视觉自然度T/CESA1197—2022视觉自然度指系统将帧率提升后让用户视觉上感到自然和谐的程度。该指标为主观性评估指标,评分规则如.2表2所示。视觉自然度应达到让用户感到比较自然的程度。.3图像动态范围提升.3.1量化指标PSNR、SSIM选取一组高动态范围(如10bit)的视频作为原视频;将原视频的动态范围进行下采样,得到的低动态范围(如8bit)的视频作为待提升动态范围的视频;将待提升帧率的视频送入系统进行动态范围提升,得到提升后的视频。量化指标PSNR和SSIM的计算同.1.1、.1.2中的量化指标,其中参考图像选取为原视频中的图像,待评测图像选取为经系统提升动态范围所生成的对应图像。.3.2视觉丰富度视觉丰富度指系统对视频动态范围提升后,用户判断提升前后视频的丰富程度。该指标为有参考主观性评估指标。视觉丰富度应达到让用户感到比较丰富的程度。评分规则见表10。表10视觉丰富度有参考主观评分规则54321高对比度一般低6.2深度合成2D人像系统要求6.2.1功能感知感知即深度合成交互媒体系统对外界听觉信息、视觉信息的处理能力。听觉信息处理主要指语音识别,声纹识别,声纹确认,视觉信息处理主要包括人脸检测,追踪定位,情感识别,动作识别等。.1语音识别识别出输入的语音音频内容,转写成文本。根据使用场景,应具备:a)全双工语音交互:支持系统与用户进行全双工语音交互,即一次唤醒后在一段时间内无需再次唤醒即可进行多轮语音交互,模拟人与人自然交流方式;b)免唤醒语音交互:支持无语音唤醒关键词启动语音交互功能,支持该功能开启、关闭;同时系统也支持传统语音唤醒词交互。.2声纹识别&声纹确认T/CESA1197—2022a)声纹识别能力:从注册的声纹库中,识别出输入的人声音频对应的声纹;b)声纹辨别能力:辨别两段人声音频是否属于同一个人声。.3人脸检测根据输入图像,采用一定的策略对其进行搜索以确定其中是否含有人脸,如果是则返回人脸的位置坐标。.4追踪定位根据输入的视频及音频阵列,在初始位置给定后,返回之后每一帧说话人在图像中的位置坐标。应包括:a)单模态追踪定位能力:仅根据视频文件返回说话人在图像中的位置坐标;b)多模态追踪定位能力:根据视频及音频阵列,返回说话人在图像中的位置坐标。.5面部表情及头部动作识别根据输入的视频,返回视频中人脸的预先定义的面部表情及头部动作。二者可根据使用场景分别识别或统一识别。a)面部表情识别:返回视频中人脸的表情,例如开心、不开心等,表情的范围根据使用场景定义;b)头部动作识别:返回视频中人像的头部动作,例如点头、摇头等,头部动作的范围根据使用场景定义。.6手势识别根据输入的视频,返回视频中人像手势的动作,手势范围根据使用场景定义。认知认知是指深度合成交互媒体系统结合感知能力的输入,通过多模态的理解和决策,进而产生表达反馈的能力。认知能力包括自然语言理解,多模态情感交互,多模态动作交互等。.1自然语言理解(单轮)单轮对话是指一问一答的交互模式,即问答均不依赖上下文语境。支持按照厂商拟定的业务流程通过单轮对话方式,完成用户需求或任务。.2自然语言理解(多轮)多轮对话是指依赖上下文语境的多次对话,通过多轮询问、澄清或确认等来收集多维度信息从而为用户提供准确的结果。支持按照厂商拟定的业务流程通过多轮对话方式,完成用户需求或任务。表达.1形象深度合成2D图像系统的渲染风格包括2D卡通风格和2D写实风格,形象表达功能应包括:a)形象合成:支持人像、配饰、背景等图像合成;b)形象编辑:支持人脸、躯干等图像参数编辑;c)形象定制:支持个性化形象定制。T/CESA1197—20.2语音深度合成2D图像系统的语音表达功能应包括:a)语音合成:支持多情感、多语种、多方言、唱歌、变声等;b)语音编辑:支持语速、音色、音量、情感、发音等;c)语音定制:宜支持定制化语音音频实时转换。.3动作深度合成2D图像系统的动作表达功能应包括:a)动作驱动方式:支持文本、语音、视频、动作捕捉设备等多种动作驱动方式;b)动作驱动范围:支持披露口型、面部表情、肢体动作等动作驱动范围。.4情感2D图像系统的情感表达功能应支持面部情感,包括喜,怒,哀,乐等情感表达方式。6.2.2深度合成2D人像系统性能要求感知.1语音识别指系统对用户进行语音识别的性能表现。其性能表现依据系统中语音识别用途的不同,分别按照GB/T21023-2007中的5.2.1、5.2.2、5.2.3进行评估。.2声纹识别及声纹辨别声纹辨别按照以下指标进行评估:a)错误拒绝率(FalseRejectionRate,FRR):若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例。FRR为错误拒绝案例在所有同类匹配案例的比例;b)错误接受率(FalseAcceptanceRate,FAR):若两个样本为异类(非同一个人),却被系统误认为同类(同一个人),则为错误接受案例。FAR为错误接受案例在所有异类匹配案例的比例;c)等错误率(EqualErrorRate,EER):调整阈值,使得误拒绝率(FalseRejectionRate,FRR)等于误接受率(FalseAcceptanceRate,FAR),此时的FAR与FRR的值称为EER;d)准确率(Accuracy,ACC):调整阈值,使得FAR+FRR最小,1减去这个值即为AAC,即ACC=1-min(FAR+FRR)。.3人脸检测人脸检测的评估分为两个步骤:a)根据IOU判断单张图片人脸检测是否正确。IOU即标注图片人脸坐标区域与机器识别人脸坐标区域交叠面积除以并集面积。当IOU值大于0.5时,则判定为识别正确;b)根据IOU对于是否识别正确的定义,在整个评测集上计算机器识别的准确率、召回率及F1值,作为人脸检测评测的指标。.4追踪定位T/CESA1197—2022追踪定位的评估方式参考.3中人脸检测的评测方式,以视频中的每一帧作为图像进行评估。.5面部表情及头部动作识别F1、macro-F1以及micro-F1,其中精确率(Precision)、召回率(Recall)定义参见.1,其它指标定义如式7:F1=(2xprecisionxRecall)/(precision+Recall)……(公式7)式中:macro-F1——分别计算每个类比的precision和recall,以此计算相应的F1,然后再用类别数平均一下F1,即为macro-F1;micro-F1——以样本为基本单位,直接计算全局的precision和recall。.6手势识别手势识别的指标参考分类算法评估指标,即精确率(Precision)、召回率(Recall)、F1、macro-F1以及micro-F1,详细定义见.5。认知性能.1自然语言处理(单轮)意图识别率:指系统在单轮会话过程中领域意图槽位的精确识别能力。精确识别:a)领域/意图识别正确;b)参数/槽位识别正确;c)回复正确。意图识别率:精确识别正确的测试数量/总的测试数量.2自然语言理解(多轮)3D人像系统的自然语言理解(多轮)性能依据具体的用途应符合GB/T36464.3—2018中5.6.4的要表达.1形象.1.1完好性完好性指系统提供图像的完好程度。若出现下列情况中任意一种或几种则视为不完好:——存在严重的扭曲;——存在严重的马赛克;——其他破损情况。.1.2形象舒适度形象舒适度指系统提供的数字图像形象让用户生理上感到舒适的程度。形象舒适度应包括以下信a)形象好感度:3D人像的形象设计应基本满足主流用户需求,用户基本接受;T/CESA1197—2022b)形象自然度:形象语音、动作交互自然,整体自然度良好,与目标人设相符;c)形象使用愿景:形象设计应考虑用户的使用愿意,用户基本愿意使用形象所服务的业务。该类指标为主观性评估指标,用户根据看到的数字形象质量,在李克特量表中给出一个主观评分评价质量优劣,1最差~5最优,具体评分规则见表11,宜成立≥15人的非专家组进行评估。表11形象舒适度主观评分表54321.2语音.2.1发音错误率发音错误率指系统从文字合成语音过程中的发音错误率,发音错误包括漏音吞音、多余发音、音素错误、音调错误等,相应的性能指标定义如下:假设WN代表文本总字数,EN代表发音错误句数,N代表文本总句数,PE代表发音错误字数(多种发音错误字数之和)。则:——发音字错率:——发音句错率:——准确率总分:.2.2韵律准确率韵律准确率指系统语音合成过程中的韵律准确率。韵律包括停顿断句、音高、音长、音量、重音位置焦点位置等因素,对应了焦点发音、问句语调、感叹句语调等自然发音规律,此处只考察停顿断句,具体可参考ACL“黄金”标准分词文件。相应的性能指标定义如下:假设N代表总用例数,CN代表停顿正确用例数。则:.2.3语音舒适性语音舒适性指系统合成语音让用户生理上感到舒适的程度。该指标为主观性评估指标,用户根据听到的数字人声音质量,在李克特量表中给出一个主观评分评价质量优劣,1最差~5最优,具体评分规则见表12,宜成立≥15人的非专家组进行评估。T/CESA1197—2022表12语音舒适性主观评分规则准晰然然完全不一样悦意.3动作.3.1动作契合度动作契合度指系统中数字人动作与当下语境的契合度。数字人动作类型及其契合度体现见表13所示。T/CESA1197—2022表13数字人动作类型及契合度体现1下拉、下唇下拉、下唇上推、噘嘴、嘴角拉伸、嘴唇外翻、嘴唇收紧、2););2)涉及眼皮的基础表情动作单元包括上眼睑上扬、脸颊提升并眼轮外圈收紧、3a)作为生理需求,眼球能自主地模仿真实b)作为语义表达渠道,眼球动作能自主地反映出内心状态(比如:情绪4a)作为非语义表达渠道,头的旋转动作能自主地表达模仿真实人类的生理动作;在倾斜、头右倾斜、头前倾、头后仰、头上下摆动、头左右摆动、头5上身肢体动作a)作为韵律节奏动作,在数字人说话时,上身肢体动作符合语音b)作为指示功能性动作,数字人能自主地通过上身肢体动作表达人物关系、空间位c)作为符号功能性动作,数字人能自主地通过上身肢体动作比划出实体的属性或行d)作为比喻功能性动作,数字人能自主地通过上身肢体动作6下身肢体动作a)作为平衡功能性动作,数字人能模拟真实人类下半身肌肉对抗地球重力,有效且b)作为位移功能性动作,数字人能模拟真实人类下半身肢体动作(如:走、跑、跳的情绪状态(如:不同情绪状态下,走路/7.3.2动作舒适性T/CESA1197—2022动作舒适性指系统中的数字人动作让用户生理上感到舒适的程度。该指标为主观性评估指标,用户根据看到的数字人形象质量,在李克特量表中给出一个主观评分评价质量优劣,1最差~5最优,具体评分规则见表14,宜成立≥15人的非专家组进行评估。表14动作舒适性主观评分规则54321完全不自然面部表情自十分不自然十分不自然.4情感情感指系统中的数字人面部表情与当前场景的匹配程度。指标为主观性评估指标,用户根据看到的数字人形象质量,在李克特量表中给出一个主观评分评价质量优劣,1最差~5最优,具体评分规则见表15,宜成立≥15人的非专家组进行评估。表15情感表达主观评分规则54321配配6.3深度合成3D人像系统要求6.3.1功能感知.1语音识别3D人像系统的语音交互功能应包括:a)单轮对话:支持按照厂商拟定的业务流程通过单轮对话方式,引导用户完成任务;b)多轮对话:支持按照厂商拟定的业务流程通过多轮对话方式,引导用户完成任务;c)全双工语音交互:支持系统与用户进行全双工语音交互,模拟人与人自然交流方式;d)免唤醒语音交互:支持无语音唤醒关键词启动语音交互功能,支持该功能开启、关闭;同时系统也支持传统语音唤醒词交互。.2视觉识别3D人像系统宜支持人脸检测交互功能,其视觉识别功能应包括:a)主动招揽交互:当检测到人体时,可主动招揽用户,获得关注;T/CESA1197—2022b)动作表情配置:可通过语义配置系统形象作出对应的动作,如挥手,鞠躬等;c)手势交互:当检测到特定手势时,系统可对应语音或动作反馈。认知.1自然语言理解3D人像系统的自然语言理解功能应包括:a)内容理解:应支持简称、别称、代码、数字理解;b)容错理解:应支持对典型错别词的容错理解;c)概念间语义理解:应支持概念间语义理解、部分整体关系理解、地理位置关系理解、因果关系理解、时序关系理解、近义关系理解。表达.1形象3D人像系统的渲染风格包括3D卡通风格、3D写实风格与3D超写实风格,形态包括人形与非人形。3D卡通系统为用户提供轻量的,适用于一般移动设备的渲染形象。3D写实系统为用户提供近似真人比例的渲染形象。3D超写实系统为用户提供严格参照真人比例的渲染形象。.2语音3D人像系统的语音表达功能应包括:a)语音合成能力:支持多情感、多语种、多方言、唱歌、变声等语音合成能力;b)语音编辑能力:支持语速、音色、音量、情感、发音等多项语音编辑能力;c)语音转换能力:宜支持定制化语音音频实时转换的能力。.3动作3D人像系统的动作表达功能应包括:a)动作驱动方式:支持文本、语音、视频、动作捕捉设备等多种动作驱动方式;b)动作驱动范围:支持披露口型、面部表情、肢体动作等动作驱动范围。.4情感3D人像系统的情感表达功能应支持面部情感,包括喜,怒,哀,乐等情感表达方式。6.3.2性能感知.1语音识别3D人像系统的语音识别性能应依据具体的语音识别用途符合GB/T21023-2007中5.4的要求。.2视觉识别3D人像系统的人脸检测性能应符合以下要求:a)人脸检出率应不低于90%;b)人脸误检率应不高于5%。注1:人脸检出率为人脸检测结果中正确检测为人脸图像的数量占人脸图像T/CESA1197—2022注2:人脸误检率为人脸检测结果中非人脸图像数占认知.1自然语言理解3D人像系统的自然语言理解性能应符合GB/T36464.3—2018中的要求。表达.1形象.1.1完好性3D人像系统中3D人像若出现下列情况中任意一种或几种则视为不完好。——存在严重的变形;——存在严重的穿插;——存在没焊接的点;——存在破面;——其他破损情况。.1.2形象舒适性3D人像形象舒适度应包括以下信息:a)形象好感度:3D人像的形象设计应基本满足主流用户需求,用户基本接受;b)形象自然度:形象语音、动作交互自然,整体自然度良好;c)形象使用愿景:形象设计应考虑用户的使用愿意,用户基本愿意使用形象所服务的业务。.1.3精细度3D人像精细度应包括以下信息:a)人物模型的面数;b)人物面部细节建模情况,如眼球,晶状体,睫毛,口腔内部结构及毛发等;c)人物面部布线结构;d)人物贴图分辨率;e)人物身体及服饰绑定层级和复杂度;f)人物身体、面部及服饰的模型点数;g)人物身体、面部及服饰的骨骼数量。.2语音.2.1发音准确率3D人像系统的文本发音准确率应不低于95%,包括汉字、英文字母、数字等。.2.2韵律准确率3D人像系统的韵律准确率应不低于90%,包括但不限于标点停顿、语气停顿等。.2.3语音舒适性T/CESA1197—2022系统合成语音应让用户生理行感到舒适;其中,语音语调应基本标准、表达自然连贯、情绪比较自然。.3动作.3.1动作契合度系统的动作应与语境基本契合,动作契合度类型和指标见表16。表16动作契合度类型和指标1b)作为语义表达渠道,嘴唇动作能自主地根据内心表达需要(比如:情绪或意图)22眉毛与眼皮动作a)作为非语义表达渠道,眉毛与眼皮动作能自主地展示模仿真实人类的生理需求);b)作为语义表达渠道,眉毛与眼皮动作能自主地展示与内心状态一致的情绪或意图3b)作为语义表达渠道,眼球动作能自主地反映出内心状态(比如:情绪或意图)45a)作为韵律节奏动作,在系统形象说话时,e)作为操作功能性动作,系统形象能自主地通过上身肢体动作有效且自然地操作物6b)作为位移功能性动作,系统形象能模拟真实人类下半身肢体动作(如:走、跑、.3.2动作舒适性动作舒适性指系统中的动作应让用户生理上感到舒适;口型与发音应基本匹配,面部表情和肢体动作应基本自然。评分规则参见.3.2表14。6.4深度合成人像防伪检测性能要求6.4.1检测结果T/CESA1197—2022真阳性(TP):将合成媒体文件检测为合成文件的数量;真阴性(TN):将真实媒体文件检测为真实文件的数量;假阳性(FP):将真实媒体文件检测为合成文件的数量;假阴性(FN):将合成媒体文件检测为真实文件的数量。6.4.2正确率检测分类正确的图像文件占全部输入图像文件的比例。计算公式为式8:6.4.3错误率检测分类错误的图像文件占全部输入图像文件的比例。计算公式为式9:…………………..(公式9)…………………..6.4.4召回率正确检测出的合成图像文件占全部正确检测文件的比例。计算公式为式10:6.4.5精确率正确检测出的合成图像文件占全部被检测分类为合成图像文件的比例。计算公式为式11:6.4.6合成区域精度预测合成区域与真实合成区域之间的交并比。计算公式为式12:……………………..式中:A——预测合成的区域;B——真实合成的区域。6.4.7平均检测时间针对输入的多个媒体文件,统计每个文件的检测时长,计算平均检测时间。计算公式为式T'=sys'-sys0'…………..…………….T/CESA1197—2022式中:Ti——第i条数据的检测时间;sys0'——第i条数据输入结束的时间点;sys1'——第i条数据输出检测结果的时间点;N——输入数据的总条数;Tavg——测试集上所有数据的平均检测时间。6.4.8F1分数衡量二分类模型精确度的一种指标,是模型精确率和召回率的一种调和平均。计算公式为式15:式中:precision——准确率;recall——召回率。6.4.9稳定性检测系统连续测试7天(云端)/3天(嵌入式)后:物理内存:应平稳无明显增长;虚拟内存:应平稳无明显增长;CPU占用:应平稳无明显增长;句柄数:应平稳无明显增长;GPU占用:应平稳无明显增长。7深度合成图像系统测试评价方法7.1深度合成图像系统通用测试7.1.1图像生成性能场景匹配度指对于系统生成的图像,用户判断该图像与场景要求的匹配程度。该指标为主观性评估指标。测试对象:系统生成的图像内容测试方法:主要通过技术测试的方法进行评估。将系统生成后的图像统一分配给K(K≥15位测试人员,依据.1表1进行主观打分,最后取均值。评价方法:场景匹配度达到让用户感到比较匹配的程度。视觉自然度指系统生成的图像让用户视觉上感到自然和谐的程度。该指标为主观性评估指标。测试对象:系统生成的图像内容;测试方法:主要通过技术测试的方法进行评估。将系统生成后的图像统一分配给K(K≥15)位测试人员,依据.2表2进行主观打分,最后取均值。T/CESA1197—2022评价方法:视觉自然度达到让用户感到比较自然的程度。7.1.2图像合成性能目标检测性能MAP测试方法:对数据集进行标注得到其各个类别物体的真实框,通过系统预测得到预测框,按照.1中的方法计算系统的MAP。实例分割性能MIoU测试方法:对数据集进行标注得到其各个类别物体的真实边缘,通过系统预测得到预测边缘,按照.2中的方法计算系统的MIoU。位置跟踪性能EAO测试方法:对视频中每一帧的目标位置进行标注,通过系统在给定初始目标位置的情况下得到目标的跟踪结果,根据.3中的方法计算系统的EAO值。和谐化性能.1融合视觉合理性测试对象:系统融合不同图像内容后得到的图像测试方法:主要通过技术测试的方式进行评估。将系统融合后的图像统一分配给K(K≥15)位测试人员,依据.4.1表3进行主观打分,最后取均值作为融合后图像的合理性得分。评价方法:视觉合理性达到让用户感到比较合理的程度。.2融合视觉自然度测试对象:系统融合不同图像内容后得到的图像测试方法:主要通过技术测试的方式进行评估。将系统融合后的图像统一分配给K(K≥15)位测试人员,依据.4.2表4进行主观打分,最后取均值作为融合后图像的自然度得分。评价方法:视觉自然度达到让用户感到比较自然的程度。7.1.3图像修复性能图像缺陷修复.1量化指标PSNR、SSIM根据.1.1、.1.2提出的计算方式计算PSNR和SSIM,PSNR应高于30dB,SSIM指标应高于0.7。.2视觉缺陷程度指系统对图像修复前后,用户判断缺陷的程度。该指标为有参考主观性评估指标。测试对象:深度合成通用图像系统对有缺陷图片修复前后的图像。测试方法:主要通过技术测试的方式进行评估。各缺陷维度(如划痕、噪声、横纹、模糊等)均准备一组不同程度(缺陷程度由弱到强划分为5档,最弱为无缺陷,最强为缺陷很严重)的缺陷图像,提供给K(K≥15)位测试人员作为参考图像。另提供一组有不同程度、不同缺陷的图像及其对应的通过系T/CESA1197—2022统修复后的图像,由测试人员依据.2表5所示评分标准相互独立地对修复前后的缺陷程度进行有参考主观打分,最后取平均值作为修复前后的缺陷程度。评价方法:修复前的程度减去修复后的程度即为修复所带来的提升程度,为正则代表修复带来缺陷减弱画质取得提升,为零则代表缺陷未减弱画质未得到提升。图像内容缺失补全性能.1量化指标PSNR、SSIM测试对象:系统修复的补全后图像。测试评价方法:根据.1.1部分计算PSNR和SSIM指标,PSNR应高于25dB,SSIM应高于0.5。.2视觉自然度测试对象:系统对内容缺失图像补全后的图像测试评价方法:主要通过技术测试的方式进行评估。将系统补全后的图像统一分配给K(K≥15)位测试人员,依据表2进行主观打分进行主观打分,最后取均值。图像颜色缺失补全及修复性能.1量化指标FID、PSNR、SSIM测试对象:经系统补全颜色后的图像,其中参考图像选取为有正常颜色的原图像。测试方法:根据.1.1部分计算PSNR和SSIM指标,根据.1(a)部分计算FID指标,系统补全颜色后的图像集与imagenet数据集的FID应低于3,PSNR应高于21dB,SSIM应高于0.5。.2颜色视觉合理性测试对象:对不合理颜色进行修复前后的图像测试评价方法:主要通过技术测试的方式进行评估。将系统修复前后的彩色图片统一分配给K(K≥15)位测试人员,依据.3.3表6进行主观打分,最后分别取修复前后的均值作为修复前后的得分,修复后得分减去修复前得分即为修复带来的主观合理性提升。.3颜色视觉舒适度测试对象:系统对颜色缺失图像补全后的图像。测试方法:主要通过技术测试的方式进行评估。将系统补全颜色后的图像统一分配给K(K≥15)位测试人员,依据.3.4表7进行主观打分,最后取均值作为补全后的舒适度得分。测试对象:对不合理颜色进行修复前后的图像。测试评价方法:将系统修复前后的彩色图片统一分配给K(K≥15)位测试人员,依据.3表7进行主观打分,最后分别取修复前后的均值作为修复前后的舒适度得分,修复后得分减去修复前得分即为修复带来的主观舒适度提升。7.1.4图像增强性能图像分辨率提升性能.1量化指标PSNR、SSIM测试对象:经系统提升分辨率后的图像,其中参考图像选取为高分辨率的原图像。T/CESA1197—2022测试评价方法:选取一组高分辨率(如4k分辨率)的图像作为原图像;将原图像进行下采样,得到的低分辨率(如2k分辨率)图像作为待提升分辨率的图像;将待提升分辨率的图像送入系统进行分辨率提升,得到分辨率提升后的图像。根据.1.1计算PSNR和SSIM指标,PSNR应高于29dB,SSIM应高于0.7。.2视觉清晰度测试对象:深度合成通用图像系统提升分辨率前后的图像。测试评价方法:主要通过技术测试的方式进行评估。准备一组不同清晰程度(清晰程度由弱到强划分为5档,最弱为十分模糊,最强为十分清晰)的图像,提供给K(K≥15)位测试人员作为参考图像。另提供一组低分辨率图像(通过双线性插值等方法提升至目标分辨率及其对应的通过系统提升至目标分辨率后的图像,由测试人员依据.1.2表8相互独立地对提升分辨率前后的清晰程度进行有参考主观打分,最后取平均值作为提升分辨率前后的清晰程度。提升后的程度减去提升前的程度即为修复所带来的提升程度,为正则代表分辨率提升带来清晰度的提升,为零则代表清晰度未得到提升。.3视觉自然度测试对象:系统对图像进行分辨率提升后的图像测试评价方法:由测试人员依据.2表2相互独立地对提升分辨率后的图像自然度进行有参考主观打分,最后取平均值作为提升分辨率后的图像自然度。视频帧率提升性能.1量化指标PSNR、SSIM测试对象:经系统提升帧率所生成的图像,其中参考图像选取为在原视频中存在,而待提升帧率视频中不存在的帧;测试评价方法:选取一组高帧率(如120fps)的视频作为原视频;将原视频的帧率进行下采样,得到的低帧率(如30fps)视频作为待提升帧率的视频;将待提升帧率的视频送入系统进行帧率提升,得到帧率提升后的视频。根据.1.1计算PSNR和SSIM指标,PSNR应高于29dB,SSIM应高于0.6。.2视觉流畅度测试对象:深度合成通用图像系统提升帧率前后的视频。测试评价方法:主要通过技术测试的方式进行评估。准备一组不同流畅程度(流畅程度由弱到强划分为多档,最弱为十分卡顿,最强为十分流畅,此处以5档为例)的图像,提供给K(K≥15)位测试人员作为参考图像。另提供一组低帧率视频,及其对应的通过系统提升至目标帧率后的视频,由测试人员依据.2.2表9相互独立地对提升帧率前后的流畅程度进行有参考主观打分,最后取平均值作为提升帧率前后的流畅程度。提升后的流畅程度减去提升前的流畅程度即为帧率提升所带来的流畅度提升程度,为正则代表帧率提升带来流畅度的提升,为零则代表流畅度未得到提升。.3视觉自然度测试对象:系统对视频进行帧率提升后的视频测试评价方法:主要通过技术测试的方式进行评估。准备一组低帧率视频,及其对应的通过系统提升至目标帧率后的视频,由测试人员依据.2表2相互独立地对提升帧率前后的自然度进行有参考主观打分,最后取平均值作为提升帧率前后的自然度。提升后的自然度减去提升前的自然度即为帧率提升所带来的自然度提升程度,为正则代表帧率提升带来自然度的提升,为零则代表自然度未得到提升。T/CESA1197—20图像动态范围提升性能.1量化指标PSNR、SSIM测试对象:经系统提升动态范围所生成的对应图像,其中参考图像选取为原视频中的图像。测试评价方法:选取一组高动态范围(如10bit)的视频作为原视频;将原视频的动态范围进行下采样,得到的低动态范围(如8bit)的视频作为待提升动态范围的视频;将待提升帧率的视频送入系统进行动态范围提升,得到提升后的视频。根据.1.1计算PSNR和SSIM指标,PSNR应高于29dB,SSIM应高于0.6。.2视觉丰富度测试对象:深度合成通用图像系统提升帧率前后的视频。测试评价方法:主要通过技术测试的方式进行评估。各维度(细节、对比度、色彩丰富度)均准备一组不同程度(程度由弱到强划分为多档,最弱为无缺陷,最强为缺陷很严重,此处以5档为例)的高动态范围视频,提供给K(K≥15)位测试人员作为参考视频。另提供一组由系统提升动态范围前后的视频,由测试人员依据.3.2表10在HDR显示器上相互独立地对动态范围提升前后的视觉丰富度进行有参考主观打分,最后取平均值作为修复前后的视觉丰富度。提升后的丰富度减去提升前的丰富度即为动态范围提升所带来的丰富度提升程度,为正则代表动态范围提升带来视觉丰富度的提升,为零则代表丰富度未得到提升。7.2深度合成2D人像系统测试7.2.1测试方法概述针对2D真人形象类虚拟数字人应用系统的评估方法包括材料检查和技术测试两类测评方法,具体如下:a)材料检查:对指标的说明文档或证明文档进行查看;b)技术测试:指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与预期的结果进行比对验证的过程。7.2.2感知语音识别指系统对用户进行语音识别的性能表现。其性能表现依据系统中语音识别用途的不同,分别按照GB/T21023—2007中的5.2.1、5.2.2、5.2.3进行评估。声纹识别及声纹辨别测试方法:a)声纹识别评测方法:建立声纹库,建立声纹评测集,对于声纹评测集中的每条声纹,从声纹库中找到对应的声纹,计算.2中的指标;b)声纹辨别评测方法:建立声纹评测集,包含正例(两条音频属于同一声纹)以及反例(两条音频不属于同一声纹),计算.2中的指标。人脸检测测试方法:建立人脸评测集,取得模型检测结果,分别计算每张图片的IOU值,再计算准确率、召回率及F1。T/CESA1197—20追踪定位测试方法:建立视频或视频+音频的评测集,取得模型追踪定位结果,计算准确率、召回率及F1。面部表情及头部动作识别测试方法:建立评测集,取得模型识别结果,计算精确率、召回率、F1、macro-F1以及micro-F1。手势识别测试方法:建立评测集,取得模型识别结果,计算精确率、召回率、F1、macro-F1以及micro-F1。7.2.3认知自然语言理解(单轮)测试方法:通过发起唤醒操作,采用单轮对话数据集测试系统的对话和问题回答效果,判定是否精确识别意图;计算意图识别率。自然语言理解(多轮)测试方法:通过发起唤醒操作,采用多轮对话数据集测试系统的对话和问题回答效果,判定是否完成多轮任务;计算任务完成率。7.2.4表达形象.1完好性测试对象:2D真人形象类虚拟数字人应用系统中数字人的形象完好性。.2测试评价方法:主要通过技术测试的方式进行评估。使用普通文本数据集合成数字人视频,考察数字人形象是否存在.1.1中描述的情况。形象舒适性测试对象:2D真人形象类虚拟数字人应用系统中数字人的形象舒适性。测试方法:主要通过技术测试的方式进行评估。使用普通文本数据集合成数字人视频,通过参考表1等主观评分规则针对形象好感度、形象自然度、形象使用愿景分别进行主观打分,考察数字人形象是否满足.2的要求。评价方法:形象上达到让用户生理上感到舒适的程度。语音.1发音准确率指系统从文字合成语音过程中的发音准确程度,发音不准确的表现包括漏音吞音、多余发音、音素错误、音调错误等,相应的性能指标包括发音字准确率和发音句准确率。测试对象:2D真人形象类虚拟数字人应用系统中数字人的发音准确性。测试方法:主要通过技术测试的方式进行评估。构建包含普通文本和特殊文本的文本测试集,生成对应视频,统计发音错误的字符数(英文记录发音错误的单词数),以及发音错误的句数,计算发音字准确率和发音句准确率。注1:普通文本数据是指除了常见字以外,不存在多音字、数字、符号、声调发T/CESA1197—2022注2:特殊文本数据是指存在多音字、数字、符号、声调发音等特.2韵律准确率指系统语音合成过程中的韵律准确程度。韵律包括停顿断句、音高、音长、音量、重音位置焦点位置等因素,对应了焦点发音、问句语调、感叹句语调等自然发音规律,此处只考察停顿断句。测试对象:2D真人形象类虚拟数字人应用系统中数字人的韵律准确性。测试方法:主要通过技术测试的方式进行评估。使用普通文本测试数据,输入一段文本,生成对应视频,记录文字停顿、断句位置与标准答案比对,一个句子为一个用例,统计停顿正确用例数,计算韵律准确率。.3语音舒适性指系统合成语音让用户生理上感到舒适的程度。该指标为主观性评估指标。测试对象:2D真人形象类虚拟数字人应用系统中数字人的语音舒适性。测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.2.3的要求。将系统生成的视频统一分配给K(K≥15)位有专业背景知识的测试人员,依据表12进行主观打分,最后取均值。动作.1动作契合度指系统中数字人动作与当下语境的契合度。该指标为主观性评估指标。测试对象:2D真人形象类虚拟数字人应用系统中数字人的动作契合度。测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.3.1的要求。将系统生成的视频统一分配给K(K≥15)位有专业背景知识的测试人员,通过参考表17评分规则对不同动作类型进行主观打分,最后取均值。评价方法:动作契合度达到让用户生理上感到舒适的程度。表17动作契合度主观评分规则十分不契合眉毛与眼皮眉毛与眼皮的动作是否与语音十分不契合十分不自然头部动作是否自然?能够自然十分不自然上身肢体动作上身肢体动作能否与语音契十分不契合下身肢体动作下身肢体动作能否与语音契十分不契合.2动作舒适性指系统中的数字人动作让用户生理上感到舒适的程度。该指标为主观性评估指标。T/CESA1197—2022测试对象:2D真人形象类虚拟数字人应用系统中数字人的动作舒适性。测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.3.2的要求。将系统生成的视频统一分配给K(K≥15)位有专业背景知识的测试人员,通过参考表14评分规则对舒适度进行主观打分,最后取均值。评价方法:动作舒适性达到让用户生理上感到舒适的程度。情感指系统中的数字人面部表情与当前场景的匹配程度。该指标为主观性评估指标。测试对象:2D真人形象类虚拟数字人应用系统中数字人的情感匹配度。测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.4的要求。将系统生成的视频统一分配给K(K≥15)位有专业背景知识的测试人员,依据表15进行主观打分。评价方法:情感匹配度达到让用户生理上感到舒适的程度。7.3深度合成3D人像系统测试7.3.1测试方法概述针对3D人像系统的评估方法包括材料检查和技术测试两类测试方法,具体如下:a)材料检查:对指标的说明文档或证明文档进行查看;b)技术测试:指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与预期的结果进行比对验证的过程。7.3.2感知能力语音识别3D人像系统的语音识别性能依据系统中语音识别用途的不同,按照GB/T21023—2007中第7章的方法进行评估。视觉识别3D人像系统的人脸检测性能测试方法如下:a)根据业务需求设置人脸检测区域,对视频进行人脸图像提取,并作为系统输入数据;b)根据系统输出数据,统计检出人脸图像的人次数A1、检出的人脸图像中非人脸图像数A2和应检出的人脸图像人次总数A0,根据以下公式计算人脸检出率与误检率;1)人脸检出率计算公式如式8:式中:A1——标注为人脸图像的总数;A0——人脸检测样本库中的人脸图像数量。2)人脸误检率计算公式如式89:T/CESA1197—2022式中:A1——标注为人脸图像的总数;A2——人工确认A1中非人脸图像总数A2。7.3.3认知能力自然语言处理3D人像系统的自然语言理解能力应按照GB/T36464.3—2018中6.3.6的方法进行测试。7.3.4表达能力形象.1完好性3D人像系统的完好性主要通过技术测试的方式进行评估。使用普通文本数据集合成3D人像视频,考察3D形象是否满足.1.1中的要求。.2形象舒适性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45478-2025汽车轮胎性能等级标识通用要求
- 股票市场投资心理的试题及答案
- 课题申报书格式
- 理清注册会计师考试整体框架与思路试题及答案
- 内科课题申报书
- 微生物检验技师证书考试项目总结与试题
- 绿化劳务分包合同草案
- 廉洁从业案例
- 2025年注会考试知识盲点试题及答案
- 课题立项申报书制作
- 设计(技术)变更申报审批单
- (高清稿)DB44∕T 2515-2024 水利工程水文化设计导则
- Unit 3 They are playing.(教学设计)-2023-2024学年湘鲁版英语四年级下册
- DB3502T 090-2022 居家养老紧急事件应急助援规范
- 仓库物料储存、搬运操作指导书
- GB/T 23587-2024淀粉制品质量通则
- 珠子参免疫调节作用及其应用
- DB32T 4793-2024 球墨铸铁管排水系统应用技术规程
- 2022-2023学年河南省南阳市宛城区人教版五年级下册期中测试数学试卷【含答案】
- 盐城市盐都区2023-2024学年四年级语文第二学期期末模拟检测卷
- Academic English智慧树知到答案2024年杭州医学院
评论
0/150
提交评论