信息技术 客服型虚拟数字人基础能力技术要求 征求意见稿_第1页
信息技术 客服型虚拟数字人基础能力技术要求 征求意见稿_第2页
信息技术 客服型虚拟数字人基础能力技术要求 征求意见稿_第3页
信息技术 客服型虚拟数字人基础能力技术要求 征求意见稿_第4页
信息技术 客服型虚拟数字人基础能力技术要求 征求意见稿_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1GB/TXXXXX—XXXX信息技术客服型虚拟数字人基础能力技术要求本文件规定了客服型虚拟数字人参考框架、功能要求和性能要求。本文件适用于指导客服型虚拟数字人的设计、开发、测试、应用、管理等。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.13-2008信息技术词汇第13部分:计算机图形GB/T21023-2007中文语音识别系统通用技术规范GB/T21024-2007中文语音合成系统通用技术规范GB/T36341.1-2018信息技术形状建模信息表示第1部分-框架和基本组件GB/T36464.1-2020信息技术智能语音交互系统第1部分:通用规范GB/T36464.3-2018信息技术智能语音交互系统第3部分:智能客服GB/T36464.4-2018信息技术智能语音交互系统第4部分:移动终端GB/T34083-2017中文语音识别互联网服务接口规范GB/T38247-2019信息技术增强现实术语GB/T38665.1-2020信息技术手势交互系统第1部分:通用技术要求GB/T41864-2022信息技术计算机视觉术语GB/T41772-2022信息技术生物特征识别人脸识别系统技术要求GB/T44020-2024信息技术计算机图形图像处理和环境数据表示混合与增强现实中实时人物肖像和实体的表示SJ/T11380-2008自动声纹识别(说话人识别)技术规范3术语和定义下列术语和定义适用于本文件。3.1数字人digitalhuman通过计算机图形学、计算机视觉和语音交互等技术,进行形象、声音、动作等模型训练后,借助真人或计算驱动、在多模态输出设备呈现的虚拟人物。3.2客服型虚拟数字人servicedigitalhuman2GB/TXXXXX—XXXX面向特定行业应用,具有开展客户服务功能的数字人。3.32D数字人2Ddigitalhuman以二维平面形式呈现的数字人,包括2D拟真人、2D卡通等不同风格。注2:2D卡通数字人形象通常基于手绘或图像处理软3.43D数字人3Ddigitalhuman以三维立体形式呈现的数字人,包括3D超写实、3D拟真人、3D卡通等不同风格。3.5语音唤醒speechwakeup;voicetrigger处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别、连续语音识别等其他处理状态的过程。[GB/T36464.1-2020,3.17]3.6端点检测voiceactivitydetection一种用于分析、判断连续音频流中有效语音起始点和结束点的语音处理技术。[GB/T36464.1-2020,3.22]3.7语音增强speechenhancement当有效语音信号被各种噪声干扰,甚至淹没后,从含有噪声背景的声音信号中提取有效语音信号,抑制、降低噪声干扰的技术。[GB/T36464.1-2020,3.24]3.8语音识别speechrecognition将人类的声音信号转化为文字或者指令的过程。[GB/T21023—2007,3.1]3.9语义理解semanticcomprehension理解数据符号的语义信息,或在具体业务场景下的需求表达,并按照要求输出正确反馈结果的过程。3GB/TXXXXX—XXXX[GB/T36464.3—2018,3.6]3.10语音合成speechsynthesis通过机械的、电子的方法合成人类语言的过程。[GB/T21024—2007,3.1]3.11人脸识别facerecognition基于自然人的面部特征对该个体的自动识别。[GB/T44248-2024,3.1]3.12手势识别gesturerecognition从输入的手势数据判别出手势。[GB/T38665.1-2020,3.5]3.13肢体动作识别limbrecognition从输入的肢体数据判别出肢体动作。3.14情感交互affectiveinteraction利用用户情感或满足用户情感需求的人机交互过程。[GB/T40691-2021,3.3]3.15建模geometricmodeling以能加以操纵的形式创建表示三维形状的模型的做法。[GB/T5271.13-2008,13.01.08]3.16渲染rendering从2D/3D模型中生成数据、更新模拟并渲染给定显示设备的呈现输出的过程。[GB/T44020-2024,9.1]3.17纹理texture4GB/TXXXXX—XXXX物体表面细节的一幅或几幅二维图形。[GB/T36341.1-2018,3.7]3.18光场重建lightfieldreconstruction基于光场相机对场景进行观测并构建三维模型的过程。[GB/T41864-2022,3.8.4]3.19虚拟环境virtualenvironment由计算机生成的具有动态感官信息表现(如双眼立体视觉、三维听觉、力触觉、味觉及嗅觉等)的、多虚拟对象构成的环境。[GB/T38247-2019,2.2.2]3.20动作捕捉actioncapture通过对视频序列中目标动作进行跟踪采样,并利用该采样信息对连续动作进行表示的方法。[GB/T41864-2022,3.6.3.11]4缩略语下列缩略语适用于本文件。ASR:自动语音识别(AutomaticSpeechRecognition)CG:计算机图形(ComputerGraphics)FPS:每秒传输帧数(FramesPerSecond)MOS:平均意见得分(MeanOpinionScore)NLP:自然语言处理(NaturalLanguageProcessing)STA:语音动画合成(SpeechtoAnimation)TTS:语音合成(TexttoSpeech)VAD:端点检测(VoiceActivityDetection)5参考框架客服型虚拟数字人系统包括数字人形象、视觉交互、语音交互、情感交互和运营维护模块,其a)数字人形象模块包括形象生成、形象驱动等功能,其中形象生成包括2D形象生成和3D形象生成,形象驱动分别按照驱动方式和驱动范围进行划分;b)视觉交互模块包括视觉采集、视觉唤醒、主体人识别、手势识别、肢体动作识别等功能;c)语音交互模块包括语音采集、语音唤醒、前端处理、语音识别、语义理解、语音合成等功d)情感交互模块包括情感采集、情感识别、情感决策与表达等功能;5GB/TXXXXX—XXXXe)运营维护模块包括后台接入、关键词维护、语料维护、服务流程维护等功能。客服型虚拟数字人系统参考框架见图1。注:虚线表示的模块单元为可选项图1客服型虚拟数字人系统参考框架6功能要求6.1数字人形象6.1.1形象生成6.1.1.12D形象生成2D形象生成包括以下功能要求:a)2D拟真人形象通常基于真人形象采集,借助人工智能技术训练生成:1)应保证生成的数字人以半身或全身的形态完整呈现;2)应保证生成的数字人形象脸部、嘴巴、牙齿等五官细节完整、清晰可见且静态表情自然,光线均匀无阴影,并支持准确的口型驱动、面部表情模拟、自然肢体动作;3)应支持对数字人形象美颜、服饰更换、装饰添加、背景替换等二次编辑,宜支持基于语义的二次编辑。b)2D卡通形象通常基于手绘或图像处理软件等方式绘制而成:1)应使用手绘或图像处理软件,通过造型设计、绘制线稿、上色、添加细节编辑来创造;6GB/TXXXXX—XXXX2)生成的数字人形象应符合角色的年龄、性别、性格、职业等身份设定,具备自然的面部表情和肢体动作。6.1.1.23D形象生成3D数字人形象通常基于3D建模软件创建,并通过复杂的建模、材质贴图、绑定等操作生成,主要包括以下功能要求:a)应支持3D超写实、3D拟真人、3D卡通等不同风格中的一种或多种,并支持形象个性化定制;b)应支持人物建模,通过CG建模、静态扫描建模、动态光场重建等建模方式,在虚拟环境中,根据数字人的风格特征确定拓扑结构建立虚拟人的形状;c)应支持面部骨骼绑定,通过面部骨骼与关键特征点进行绑定,控制角色的五官的位置和形状,实现基于面部五官的调整的面部表情和口型驱动;d)应支持肢体骨骼绑定,通过搭建肢体骨骼、创建骨骼联动、绘制骨骼蒙皮,实现半身或全身的肢体驱动和手势驱动;e)应支持材质匹配,针对不同形象风格的数字人模型,匹配相符的皮肤、毛发、妆容、服饰等材质;f)应支持光线制作,模拟自然界光线和人工光线;g)宜支持真实感效果渲染,包括数字人皮肤、毛发、妆容、服饰等逼真效果的渲染,以及各种特效的渲染等;h)宜支持智能生成,基于人工智能技术,通过采集目标对象的脸部、躯体、肢体等信息,生成不同形象风格的数字人模型。6.1.2形象驱动6.1.2.1驱动方式数字人形象应支持以下一种或多种驱动方式:a)文本驱动:基于目标文本生成对应的语音、口型、表情、手势、肢体动作,将合成音视频呈现给用户;b)语音驱动:基于语音信息生成对应的语音、口型、表情、手势、肢体动作,并合成音视频呈现给用户;c)真人驱动:基于摄像头捕捉真人的口型、表情、手势、肢体动作,并迁移到数字人形象上,并合成音视频呈现给用户;d)视频驱动:基于真人的视频输入进行数字人的驱动,捕捉视频中的真人的口型、表情、手势、肢体动作,并迁移到数字人形象上,并合成音视频呈现给用户;e)动画驱动:应支持基于提供的脸部表情和肢体动作等动画文件信息迁移到数字人形象上,进行对应的表情和动作的展示;f)穿戴设备驱动:支持通过穿戴设备进行数字人的驱动,通过传感器获得肢体动作和脸部捕捉的相关信息,迁移到数字人形象上,可以进行对应的表情和动作的展示。注:数字人系统可支持一种或多种类型真人动作捕捉设备或技术,6.1.2.2驱动范围数字人形象驱动范围涉及口型、表情、手势、肢体等,具体功能要求如下:7GB/TXXXXX—XXXXa)应支持口型驱动:应支持基于文本、语音和口型数据进行模型训练的STA口型驱动,实现口型与语音同步;b)宜支持表情驱动,通过眉毛,眼皮、眼睛、眉毛、鼻子、嘴巴和脸部的肌肉组例如苹果肌、法令纹、抬头纹等局部表情细节联动实现的面部表情驱动,实现表情与语音同步;c)宜支持手势驱动:通过手指骨骼关键点联动实现手势驱动,包含手腕,五指所有关节的旋转和位置信息,实现手势动作与语音同步;d)宜支持肢体动作驱动:通过肢体骨骼关键点联动实现肢体驱动,实现肢体动作与语音同步。6.2视觉交互6.2.1视觉采集应支持通过摄像头采集用户的人脸、手势、肢体动作,并将其转换成计算机能处理的图像或视频数据信息。6.2.2视觉唤醒视觉唤醒包括以下功能要求:a)应支持人体感知,通过人体感知实现系统唤醒,当感知到人体接近时,能够主动招揽用户,开启语音交互;b)应支持人脸感知,通过人脸感知实现系统唤醒,当感知到人脸注视时,能够主动招揽用户,开启语音交互。6.2.3主体人识别主体人识别包括以下功能要求:a)应支持主体人检测,通过对用户口型进行识别,判断当前用户是否说话,保证对话主体人的准确性;b)应支持主体人追踪,通过对主体人目标进行追踪,当主体人移动、转动时,系统能够保持与主体人的交互状态;c)应支持主体人分离,能够在复杂声音环境下分离不同主体人的不同语言;d)应支持主体人属性识别,例如性别、年龄,是否佩戴口罩,是否戴眼镜等,并根据不同属性提供相应的问候接待以及后续服务。6.2.4手势识别手势识别包括以下功能要求:a)宜支持手势数据集预置,通过预先设置手势数据集,定义每个手势所代表的含义,手势数据集应满足以下要求:1)手势集中任意两个手势之间的相似程度应尽可能低,以便区分;2)手势集中的手势宜简单易行;3)手势集中手势易于被输入设备感知,应适应于不同输入设备,设计不同手势集合数据集;b)宜支持提供与手势数据集对应的识别算法的程序集,使系统能对用户输入的手势进行识6.2.5肢体动作识别8GB/TXXXXX—XXXX肢体动作识别包括以下功能要求:a)宜支持肢体动作数据集预置,通过预先设置肢体动作数据集,定义每个肢体动作所代表的含义,肢体动作数据集应满足以下要求:1)肢体动作集中任意两个肢体动作之间的相似程度应尽可能低,以便区分;2)肢体动作集中的肢体动作宜简单易行;3)肢体动作集中肢体动作易于被输入设备感知,应适应于不同输入设备,设计不同肢体动作集合;b)宜支持提供与肢体动作数据集对应的识别算法的程序集,使系统能对用户输入的肢体动作进行识别。6.3语音交互6.3.1语音采集语音采集应符合GB/T36464.1-2020中5.1的要求。6.3.2语音唤醒语音唤醒应符合GB/T36464.1-2020中7.1的要求。6.3.3前端处理前端处理应符合GB/T36464.1-2020中第7章和第8章的有关要求。6.3.4语音识别语音识别包括以下功能要求:a)应支持中文语音识别,面向特定场景和对象,提供中文关键词语音识别和连续语音识别服b)宜支持多语种识别,面向特定场景和对象,提供英语、法语、西班牙语等多语种识别服务;f)宜支持多方言识别,面向特定场景和对象,提供粤语、沪语、闽南语等多方言识别服务;g)宜支持多语种混读识别,针对中文语句中包含其它语种单词、数字的进行识别服务;h)宜支持自定义识别,提供自定义语法、自定义热词、个性化识别等识别服务,并符合GB/T34083-2017中4.2和4.3的要求;i)宜支持识别结果处理,提供识别结果多候选、识别结果进阶等服务,符合GB/T34083—2017中4.3的要求;j)宜支持语言信息识别,能够给出语音所对应的语言信息,如语种、方言种类等;k)宜支持说话者信息识别,能够给出说话者信息,如性别、年龄段等。6.3.5语义理解语义理解包括以下功能要求:a)应支持意图理解,包括模糊识别、语义抽取、语义排序、意图分类,能够理解说话人的意b)宜支持命名实体识别,能够对人名、地名、机构名、专有名词、简称、别称、缩写等具有特定意义的实体进行识别;c)应支持敏感信息识别,能够根据上下文对输入文本中的敏感内容进行分辨;d)应支持语义拒识,能够对无法处理或不应当处理的无效文本输入内容进行分辨和拒识;9GB/TXXXXX—XXXXe)应支持对话引导,能够根据说话人的意图和场景需求动态生成引导提示用语,引导用户对其最终目的进行陈述;f)应支持多轮对话,包括对话状态跟踪、对话策略管理、对话意图切换、跳转及历史信息继承,具备上下文相关的多轮会话的功能;g)应支持自然语言生成,能够根据语义理解结果生成自然语言文本,并符合说话人的意图、满足语音交互响应;h)宜支持信息检索,具备个性化词典检索、第三方信源检索、自定义知识库检索等信息检索的功能;i)宜支持文本相似度计算,能够根据输入的文本数据,计算其与已有文本的语义信息一致性程度;j)宜支持检索结果排序,可利用信息检索和文本相似度分别计算关联系数,并对结果进行排序;k)宜支持文本修改,能够对对话中的前一句文本进行修改;l)宜支持语义修正,能够对语义理解错误的结果进行自动校正;m)宜支持逻辑推理,能够对文本内容的逻辑计算和推导。6.3.6语音合成语音合成包括以下功能要求:a)应支持中文语音合成,能够将规定格式的中文合成文本转换成对应的语音;b)应支持流式语音合成,能够将多次连续合成音频进行拼接后得到完整的合成音频;c)应支持多种合成文本编码,能够提供多种字符编码格式的合成文本;d)宜支持多语种合成,能够提供其他语种的语音合成,如英语、法语、西班牙语等;e)宜支持多方言合成,能够提供指定方言的语音合成,粤语、沪语、闽南语等;f)宜支持多语种混读合成,能够提供中文语音与英语的语音合成;g)宜支持多音色合成,能够提供多种音色的音频特征库供用户选择,如青年男声、青年女声、童声等;h)宜支持个性化合成,能够提供训练个性化音色库并使用个性化音色库进行语音合成;i)宜支持用户自定义分词,能够按照用户指定的合成文本分词方式进行语音合成;j)宜支持用户自定义读音,能够按照用户指定的读音或方式进行语音合成。6.3.7知识管理宜支持接入本地和在线的预置知识库、知识图谱、语言模型,由用户自主配置触发条件,具备知识调用、知识推理、知识检索、知识维护、知识统计等功能,满足符合业务场景需要。6.4情感交互6.4.1情感采集情感采集包括以下功能要求:a)宜支持表情采集,通过摄像头采集用户的表情,如微笑、皱眉等,并将其转换成计算机能处理的图像或视频数据信息;b)宜支持姿态情感采集,通过摄像头采集用户的姿态情感,如点头、摇头等,并将其转换成计算机能处理的图像或视频数据信息;c)宜支持语音情感采集,通过系统的拾音设备采集用户语音情感,如语气、语调、音量等,GB/TXXXXX—XXXX并将其转换成计算机能处理的语音特征信息;d)宜支持文本情感挖掘,通过对用户的语音对应的文本信息,对用户表达内容的情感进行挖掘。6.4.2情感识别情感识别包括以下功能要求:a)宜支持表情识别,预先设置表情数据集,通过识别用户输入的表情信息,识别用户的情感状态,表情数据集应满足以下要求:1)表情数据集中任意两个表情之间的相似程度应尽可能低,以便区分;2)表情数据集中的表情宜简单易行;3)表情数据集中表情易于被输入设备感知。b)宜支持姿态情感识别,预先设置姿态情感数据集,通过识别用户输入的姿态数据,识别用户的情感状态,姿态情感数据集应满足以下要求:1)姿态情感数据集中任意两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论