DB34T4554-2023儿童智能语音识别技术规范

上传人：I*** IP属地：安徽上传时间：2023-12-02 格式：DOCX 页数：7 大小：84.97KB 积分：7.2 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ICS35.24034CCSL7734安徽省地方标准DB34/T4554—2023儿童智能语音识别技术规范Specificationforintelligentspeechrecognitiontechnologyofchildren20232023100720231107安徽省市场监督管理局发布DB34/T4554DB34/T4554—2023前言本文件按照GB/T1.1—2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由安徽淘云科技股份有限公司提出。本文件由安徽省经济和信息化厅归口。院、江苏理工学院、合肥师范学院、合肥智能语音创新发展有限公司。雪、胡连峰、宋若淼、高群、谢秀琴、姜志文、孙艳、张泽之、武方芳。IIDB34/T4554DB34/T4554—2023DB34/T4554DB34/T4554—2023儿童智能语音识别技术规范范围本文件规定了儿童智能语音识别技术的术语和定义、技术路线和要求。本文件适用于儿童智能语音识别技术的应用。规范性引用文件（包括所有的修改单适用于本文件。GB/T21023-2007中文语音识别系统通用技术规范术语和定义下列术语和定义适用于本文件。语音智能识别技术Speechintelligentrecognitiontechnology通过人工智能技术识别声音，并将声音信号转化为文字或指令的过程。声学模型Acousticmodel音频数据转换为特征向量；标注是将音频数据上的文本与其对应的特征帧对齐。注1：声学模型的训练过程包括：数据录制、数据标注、特征提取和模型训练。注2：声学模型训练过程中提取特征通常使用Mel频率倒谱系数（MFCC）等特征提取方法。注3：长短时记忆网络（LSTM）等模型。语言模型Languagemodel统计等多种因素，以概率形式估计一个给定文本的出现概率，并根据这个概率来确定识别结果。技术路线儿童语音智能识别的技术路线见图1。1图1儿童语音智能识别技术路线要求语音信号采集16KHz，16bit。音频采集应保证完整，避免截断或缺失情况的发生。10dB。GB/T21023-20076.1（b）的要求。3～14信号处理和特征提取语音信号中有回声存在，应对语音信号进行回声消除处理。语音信号中有较大混响存在，应对语音信号进行去混响处理。语音信号中存在较大周围噪声，应对语音信号进行降噪处理。语音信号中存在特定波段频率的干扰，应对其进行滤波处理。在采集特定方向的语音信号时，应对语音信号进行增强处理，从而起到加强特定方向的语音信号，并抑制其他方向的语音信号。（时间段或者采样数进行分段处理。将语音信号从时域转换到频域，提取语音信号中的特征向量。识别概述以最大概率输出该信号的词序列。声学模型220％。1语言模型识别解码过程中的语言模型的训练数据文本应包含儿童说话的习惯。训练语料数据量应达到千万级以上的句子、亿级以上的词级别语料。文本输出声纹识别的输出结果是本次语音的注册人身份信息，并且含有可信度衡量。语音唤醒

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

DB34T4554-2023儿童智能语音识别技术规范

文档简介

温馨提示

最新文档

评论

DB34T4554-2023儿童智能语音识别技术规范

文档简介

温馨提示

最新文档

评论

相关文档