T-AHAI 009-2024 面向文旅场景的语音交互应用服务软件规范_第1页
T-AHAI 009-2024 面向文旅场景的语音交互应用服务软件规范_第2页
T-AHAI 009-2024 面向文旅场景的语音交互应用服务软件规范_第3页
T-AHAI 009-2024 面向文旅场景的语音交互应用服务软件规范_第4页
T-AHAI 009-2024 面向文旅场景的语音交互应用服务软件规范_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS01.110CCSL62AHAI面向文旅场景的语音交互应用服务软件规范Specificationofvoiceinteractiveapplicationservice 2规范性引用文件 3术语和定义 3.1 4缩略语 5软件框架 6技术要求 6.1输入输出 6.2文旅场景导览数据库 6.3文旅场景位置识别 6.4文旅场景语音识别 6.5文旅场景语音应答 6.6文旅场景语音播报 6.7文旅场景多轮对话 6.8观众咨询反馈 6.9维护功能 6.10可移植性 7测试方法 7.1环境条件 7.2测试准备 7.3输入输出 7.4文旅场景导览数据库 7.5文旅场景位置识别 7.6文旅场景语音识别 7.7文旅场景语音应答 7.8文旅场景语音播报 7.9文旅场景多轮对话 7.10观众咨询反馈 7.11维护功能 7.12可移植性 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由合肥工业大学等单位提出并由安徽省人工智能协会归口。本文件起草单位:合肥工业大学、科大讯飞股份有限公司、中国科学技术大学、北京理工大学、天津恒达文博科技股份有限公司、安徽财经大学、凤阳县博物馆、浙江大学。本文件主要起草人:唐益明、刘晓平、宋维涛、李琳、陈仁杰、李权、徐勇、郜静文、何永春、刘颖、程鸣、谢文军、曹力、李世杰、唐更生、赵洋、刘越、胡开拓、张举勇、傅孝明、杨磊、王勇超、赵磊。1T/AHAI009—2024面向文旅场景的语音交互应用服务软件规范本文件规定了应用于文旅场景时语音交互服务软件的框架、技术要求和测试方法。本文件应用于文旅场景的语音交互应用服务软件的开发和测试。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB3096-2008声环境质量标准GB/T21023-2007中文语音识别系统通用技术规范GB/T21024-2007中文语音合成系统通用技术规范GB∕T36464.2-2018信息技术智能语音交互系统第2部分:智能家居GB/T36464.3-2018智能语音交互系统第3部分:智能客服3术语和定义下列术语和定义适用于本文件。3.1语音识别speechrecognition将人类的声音信号转化为文字或者指令的过程。[来源:GB/T21023-2007,3.1]3.2语音合成speechsynthesis通过机械的、电子的方法合成人类语言的过程。[来源:GB/T21024-2007,3.1]3.3多轮对话multi-rounddialogue在人机对话中,机器和用户之间进行多次的问答交流,机器初步明确用户意图之后,获取必要信息以最终得到明确用户指令的方式。3.4噪声noise语音采集过程中,采集到的由非目标语音信号源发出的,能干扰、影响对目标语音信号的识别、理解或处理的声学信号。[来源:GB∕T36464.2-2018,3.16]3.5问答对question&answerpair在人机对话中,机器和用户之间进行的一次完整的提问和回答。3.6导览数据库navigationdatabase2T/AHAI009—2024引导游览的地图、导览点分布、区域结构等各种信息汇集形成的数据库。4缩略语下列缩略语适用于本文件。GPD:全球定位装置(GlobalPositioningDevice)。5软件框架面向文旅场景的语音交互应用服务软件系统可以基于文旅场景位置识别、文旅场景语音识别、文旅场景语音应答、文旅场景多轮对话技术,在文旅场景的应用服务领域为用户提供机器替代人工的服务。面向文旅场景的语音交互应用服务软件系统本身包括文旅场景语音交互应用服务的软件和相关硬件(比如音频采样设备、传声器设备、回放设备)。面向文旅场景的语音交互应用服务软件系统应包括总控模块、输入输出模块、文旅场景导览数据库模块、文旅场景位置识别模块、文旅场景语音识别模块、文旅场景语音应答模块、文旅场景语音播报模块、文旅场景多轮对话模块和观众咨询反馈模板。其应用服务软件系统框架见图1。此外,还需要考虑到应用服务软件系统的维护功能和可移植性。图1文旅场景语音交互应用服务软件系统7——总控模块将语音信息传递给文旅场景语音识别模块;3T/AHAI009—20246技术要求6.1输入输出面向文旅场景的语音交互应用服务软件应具有说明书描述的语音或文本数据的输入能力和语音播报的输出能力。6.2文旅场景导览数据库文旅场景导览数据库应包括说明书描述的位置信息、关键词、导览描述、问答描述等4个部分。具体要求如下:a)位置信息应提供文旅场景的景点区域、房间及其展品的具体位置,可给出相应的编号,位置信息提供数据量应不少于1000条;b)关键词应给出与景点、展品相关的核心词条,关键词提供数据量应不少于2000条;c)导览描述应给出相应景点、区域、房间、展品的详细描述,可为用户展示其历史渊源、典故、文化知识等,导览描述的数据量应不少于1000条;d)问答描述应给出问答对,针对各类常见问题,通过不同的问答方式可给出答案,问答描述的数据量应不少于5000条。e)导览数据库中的内容不应该有领土主权问题、政治或某些歧视倾向问题,且应保证准确性、科学性。6.3文旅场景位置识别6.3.1景点识别准确率针对说明书中的景点,识别准确率应不低于90%。6.3.2位置识别准确率针对说明书中的位置,室外位置识别准确率应不低于90%,室内位置识别准确率应不低于90%。6.4文旅场景语音识别6.4.1关键词语音识别字正确率针对说明书中的关键词,语音识别的字正确率应满足表1要求。关键词语音输入应采用标准普通话的输入语音。其中,涉及到的环境噪声等级划分参见GB3096-2008的表1。表1不同噪声环境下的字正确率的要求6.4.2连续语音识别字正确率软件应具备连续语音识别的能力,连续语音识别的字正确率应满足表2要求。连续语音输入应采用标准普通话的方式进行。4T/AHAI009—2024表2不同噪声环境下的连续语音识别的字正确率的要求6.4.3数字识别正确率软件应具备识别数字的能力,宜支持不同数字表达方式的识别,正确率应不低于99%。数字语音输入应采用标准普通话的方式进行。6.5文旅场景语音应答针对用户信息的语音识别结果,应给出相应的语音应答预制文字。6.6文旅场景语音播报6.6.1景点播报用户到了说明书中的指定位置后,应以标准普通话的方式进行自动播报当前景点的预存内容。景点播报成功率应不低于95%。6.6.2应答播报应将语音应答预制文字利用语音合成的技术通过语音设备以标准普通话的方式播报出来。播报的时间应小于3分钟,或播报的词数量应不超过500。6.7文旅场景多轮对话6.7.1文旅场景多轮对话要求用户可针对文化旅游领域以标准普通话的方式提出问题,系统应给出语音应答,应至少可实现4个轮次的问答。6.7.2交互响应时间交互响应时间是指单次的用户输入语音结束后获得回应结果的时间,平均交互响应时间应满足表3的要求。如果是多轮交互,则每一轮次的平均交互响应时间应满足表3的要求。表3平均交互响应时间的要求ss1234566.7.3交互成功率交互成功率应满足表4的要求。表4不同噪声环境下的交互成功率的要求5T/AHAI009—20246.8观众咨询反馈软件在对话结束后应向观众征集反馈意见,并应将收集到的意见汇总到后台。6.9维护功能应具备如下的维护功能:a)可增加、删除、修改服务的文旅场景语音交互服务的关键词。b)可增加、删除、修改文旅场景语音交互服务的静态引导提示用语。c)可增加、删除、修改文旅场景语音交互服务的语法。d)可增加、删除、修改文旅场景语音交互服务的流程。e)可增加、删除、修改文旅场景语音交互服务的场景。f)可增加、删除、修改导览数据库的信息。6.10可移植性面向文旅场景的语音交互应用服务软件系统中的软件宜考虑对不同环境的可移植性:a)被移植的面向文旅场景的语音交互应用服务软件系统中的软件宜在新的硬件、操作系统、支撑软件环境下易于安装,功能宜可以正常实现,其他软件或设备运行宜不受影响;b)移植过程中软件的开发修改工作量与原软件的开发工作量占比宜小于10%。7测试方法7.1环境条件除另有规定外,测试均在下述正常大气条件下进行:a)温度:15℃—35℃;b)相对湿度:25%—75%;c)大气压:86kPa—106kPa。测试时拾音距离默认小于40cm。被测系统的网络环境应包括离线、2G、3G、4G、5G和Wlan等情形。7.2测试准备环境噪声取自真实的环境噪声或模拟真实的环境噪声,环境噪声等级划分参见GB3096-2008的表1,环境噪声录制要求噪声频谱维持稳定,同时噪声与关键词无类似发音。典型环境噪声的录制场景应满足表5的要求。表5典型噪声环境的录制场景音频采样设备、传声器设备、回放设备应符合表6、表7、表8的环境要求。表6音频采样设备的要求6T/AHAI009—2024表7传声器设备的要求值---- 1--反向衰减≥15dB,最佳接受范围为母线同咪头在传声器拾音方向中垂线呈60度夹角的圆锥面内部 表8回放设备的要求-推荐在无人工嘴的条件下功率放大器和人工嘴-7.3输入输出用户在面向文旅场景的语音交互应用服务软件系统中输入语音数据或文本数据,包括:a)语音数据:在语音采集端可通过说话的形式输入语音,或在系统上输入录音文件;b)文本数据:可在系统上输入文本资料。用户在面向文旅场景的语音交互应用服务软件系统中输出的数据应为语音数据。在面向文旅场景的应用服务软件系统中,应将语音识别、语音合成和文本处理结果返回到系统中,应以语音播报的形式输出结果。7.4文旅场景导览数据库分别统计位置信息、关键词、导览描述、问答描述4个部分的数据量,符合既定要求则判定为成功,否则视为失败。7.5文旅场景位置识别7.5.1景点识别准确率在交互过程中,系统识别的用户所在景点和用户的实际所在景点相同,则视为识别成功;反之,则判定为识别失败。景点识别准确率的公式如下:Qacc=×100%................................................................其中,Qacc——景点识别准确率;Qsuc——景点识别成功的次数;Qfa——景点识别失败的次数。景点识别准确率的测试应按照以下步骤:7T/AHAI009—2024a)选择不少于30个普通用户,其中男女分别不少于15人,随机游览景区的某个景点;b)系统利用GPD定位用户位置,由此发现其所处的景点;c)通过系统给出的景点和用户真正的景点进行比对,按照公式(1)计算位置识别准确率,应达到既定要求。7.5.2位置识别准确率在交互过程中,系统识别的用户位置和用户的实际位置相同(误差允许在1米以内则视为识别成功;反之,则判定为识别失败。识别准确率的公式如下:(2)Lacc=×100%.........................................................(2)其中,Lacc——位置识别准确率;Lsuc——位置识别成功的次数;Lfa——位置识别失败的次数。室外位置识别准确率的测试应按照以下步骤:a)选择不少于30个普通用户,其中男女分别不少于15人(包括60岁以上5人、18-60岁之间5人、18岁以下5人随机游览景区的某个室外景点;b)系统利用GPD定位用户位置;c)对比系统给出的位置信息和用户真正的位置信息,按照公式(2)计算室外位置识别准确率。室内位置识别准确率的测试应按照以下步骤:a)选择不少于30个普通用户,其中男女分别不少于15人(包括60岁以上5人、18-60岁之间5人、18岁以下5人随机游览景区的某个室内景点;b)系统利用GPD定位用户位置;c)通过系统给出的位置信息和用户真正的位置信息进行比对,按照公式(2)计算室内位置识别准确7.6文旅场景语音识别7.6.1关键词语音识别字正确率该特性的测试应按照以下步骤:a)使用回放设备播放文旅场景语音识别测试语料,或人工进行文旅场景语音测试语料的输入;b)记录智能客服的识别结果;c)与预期结果进行比对,对室外、室内场景在表5的测试场景下分别统计结果并给出正确率。7.6.2连续语音识别字正确率字正确率的定义见GB/T21023-2007的5.2.1的内容。该特性的测试应按照以下步骤:a)使用回放设备播放文旅场景连续语音识别测试语料,或人工进行文旅场景连续语音测试语料的输入;b)记录智能客服的识别结果;c)与预期结果进行比对,对室外、室内场景在表5的测试场景下分别统计结果并给出正确率。7.6.3数字识别正确率该特性的测试应按照以下步骤:a)使用回放设备播放文旅场景语音识别测试语料,或人工进行文旅场景语音测试语料的输入,其中包括一定数量的数字;b)记录智能客服的数字识别结果;c)与预期结果进行比对,统计结果并给出正确率。7.7文旅场景语音应答8T/AHAI009—2024文旅场景语音应答测试应按照以下步骤进行:a)根据用户提问的语音识别结果,给出相应的理解;b)在导览数据库中进行模糊搜索;c)计算用户问题和问答对输入的相似度,找到相应的最佳答案;d)在最佳答案作为语音应答预制文字。7.8文旅场景语音播报7.8.1景点播报在交互过程中,系统识别的用户位置和用户的实际位置相同(误差允许在1米以内则视为景点播报成功;反之,则判定为景点播报失败。景点播报成功率的公式如下:(3)×100%........................................................(3)其中,SC——景点播报成功率;Ssuc——景点播报成功的次数;Sfa——景点播报失败的次数。文旅场景景点播报的测试应按照以下步骤进行:a)参照GB/T36464.3-2018中6.3.5的做法,选择不少于30个普通用户,其中男女分别不少于15人(包括60岁以上5人、18-60岁之间5人、18岁以下5人参加测试;b)用户到达指定位置后,系统通过位置识别来判断用户位置;c)确认位置后,通过语音设备自动播报该位置对应景点的预存内容;d)按照公式(3)计算,景点播报成功率应达到既定要求。7.8.2应答播报文旅场景应答播报的测试应按照以下步骤进行:a)对语音应答预制文字进行语音合成;b)通过回放设备播报出语音合成的结果;c)监控播报的时间、播报的词数量。7.9文旅场景多轮对话7.9.1文旅场景多轮对话针对文旅场景,事先存储大量的问答对,机器和用户之间可以进行多轮问答。测试应按照以下步骤进行:a)用户针对文旅场景提出问题;b)系统从问答对中进行模糊匹配;c)系统找到答案后以语音合成的方式播报出来;d)用户可以继续围绕该领域进行提问;e)如此循环,直到用户结束对话过程为止。7.9.2交互响应时间交互响应时间的公式见GB/T36464.3-2018的5.5的内容,具体如下:(4)Tack=trte......................................................................(4)其中,Tack——响应时间;tr——给出结果的时间点;te——语音输入结束的时间点。9T/AHAI009—2024注:如果交互支持的结果需要多次返回,为第一部分识别结果返回的时刻。对于交互响应时间的测试应按照以下步骤进行:a)选择不少于30个普通用户,其中男女分别不少于15人(包括60岁以上5人、18-60岁之间5人、18岁以下5人参加测试;b)针对特定场景、特定地点,用户与系统进行多轮对话;c)系统记录语音输入结束的时间点、给出结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论