人工智能安全:原理与实践 课件 第14章 语音合成原理与实践_第1页
人工智能安全:原理与实践 课件 第14章 语音合成原理与实践_第2页
人工智能安全:原理与实践 课件 第14章 语音合成原理与实践_第3页
人工智能安全:原理与实践 课件 第14章 语音合成原理与实践_第4页
人工智能安全:原理与实践 课件 第14章 语音合成原理与实践_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第14章语音合成原理与实践14.1语音合成原理简介本章介绍

语音合成指的是一种能够利用给定输入合成语音的技术,即文本到语音(Text-to-Speech,TTS)或语音到语音转换(VoiceConversion,VC)方法。本章主要介绍了人工智能合成音频技术、Tacotron模型、梅尔谱图、长短记忆网络、混合注意力机制等,在实践环节主要介绍基于Tacotron2的语音合成系统。1.人工智能合成音频技术介绍2022年江苏卫视跨年晚会上,一身优雅红色裙装的邓丽君与周深一起演绎了《小城故事》,《漫步人生路》,《大鱼》3首歌,让不少观众直呼感动。1.人工智能合成音频技术介绍人工智能合成音频技术是一种深度伪造技术,它可以克隆一个人的声音,并生成该人从未说过的话。具体来说,语音合成指的是一种能够利用给定输入合成语音的技术,即文本到语音(Text-to-Speech,TTS)或语音到语音转换(VoiceConversion,VC)方法。TTS方法可以从给定的输入文本中合成自然的说话人声音,而VC方法则通过修改源说话人的音频波形,使其听起来像目标说话人的声音,同时保持语音内容不变。1.人工智能合成音频技术介绍音合成技术主要包括两个步骤:文本分析和声音合成。文本分析阶段涉及将输入的文本转换为语音合成的内部表示,包括文本规范化、词性标注、语义解析等。声音合成阶段则是将这些内部表示转换为声音波形,最终输出为人类可听的语音。目前主流的方法是基于深度学习的语音合成方法。1.人工智能合成音频技术介绍

语音合成流水线包含文本前端(TextFrontend)、声学模型(AcousticModel)和声码器(Vocoder)三个主要模块。语音合成基本流程图:2.Tacotron模型介绍在人工智能合成音频技术领域,目前应用较为广泛的是Tacotron系统。2017年3月,Google提出了一种新的端到端的语音合成系统:Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给Griffin-Lim重建算法直接生成语音。2.Tacotron模型介绍Tacotron后来研究出了改进版Tacotron2。Tacotron2系统去除了CBHG模块,更改为使用长短期记忆网络(LongShort-TermMemory,LSTM)和卷积层来代替CBHG。3.梅尔谱图

梅尔谱图通过模拟人耳对频率的感知方式,将音频信号从线性频率尺度转换为梅尔频率尺度,从而更好地反映人类对不同频率的感知。它主要用于处理音频信号,帮助分析和识别音频内容。3.梅尔谱图梅尔谱图生成过程:‌(1)预处理音频信号‌:首先,音频信号会被采样,并分成多个重叠的短时间帧。每个帧通常持续20-40毫秒,并对每一帧施加窗函数以减少频谱泄露。‌(2)短时傅里叶变换(STFT)‌:对每一帧进行傅里叶变换,得到频谱图。这一步将信号从时间域转换为频率域,表示为频率和时间的二维数组。‌(3)计算功率谱‌:从STFT的复数矩阵中计算功率谱,即将每个频率成分的幅度平方,得到频率成分的能量。‌(4)应用梅尔滤波器组‌:使用梅尔滤波器组将功率谱从线性频率尺度转换到梅尔频率尺度。这些滤波器是三角形的,覆盖频谱的不同频率区域,每个滤波器的中心频率根据梅尔刻度均匀分布。4.长短期记忆网络在语音合成领域,由于输入语句的某处发音通常决定于其上下文内容,因此建模时需要关注长时间跨度的序列信息。卷积神经网络属于前向神经网络,即是单向的输入到输出映射,无法很好地获取时序相关信息。因此在建模具有时间跨度的序列特征时,通常使用的结构是RNN。但一般的RNN结构,由于梯度消失问题,能捕获到的上下文内容是有范围限制的,故使用长短期记忆网络LSTM。LSTM网络内部的核心构件记忆细胞单元如图14.5所示。记忆细胞单元内部由胞状态(CellState)、输入门(InputGate)、输出门(OutputGate)、遗忘门(ForgetGate)这四个部件构成。4.长短期记忆网络

LSTM网络内部的核心构件记忆细胞单元如图所示。记忆细胞单元内部由胞状态(CellState)、输入门(InputGate)、输出门(OutputGate)、遗忘门(ForgetGate)这四个部件构成。5.混合注意力机制

注意力机制是一种人类大脑信号处理方法,被人类大脑用来快速筛选关键信息,它可以提高人类对信息处理的效率与准确性。注意力机制也常被用于深度学习中的序列到序列模型中,使得模型能够关注到输入序列的关键信息。

注意力机制的有很多种,在Tacotron2中使用的是混合注意力机制(HbridAttention),它基于内容的注意力机制(Content-basedAttention)与基于位置的注意力机制(Location-basedAttention)有效地结合起来。

6.编码器-解码器结构在语音合成系统中,输入序列(文本)与输出序列(音频)的长度往往是不一致的,不能直接将输入序列的每个字符与目标发音进行一一对应,为此需使用编码器-解码器(Encoder-Decoder)结构。7.声码器声码器(Vocoder)在人工语音合成中经常被用于将生成的语音特征转换为所需要的语音波形。在Tacotron2中,由于前端的神经网络所预测出的梅尔谱图只包含了幅值信息而缺乏相应的相位信息,系统难以直接通过短时傅里叶变换(STFT)的逆变换将梅尔谱图还原为相应的声音波形文件;因此,系统需要使用声码器进行相应的相位估计,并将梅尔谱图转换为语音波形。小结

人工智能合成音频技术(简称语音合成技术)是一种深度伪造技术,它可以克隆一个人的声音,并生成该人从未说过的话。TTS方法可以从给定的输入文本中合成自然的说话人声音,而VC方法则通过修改源说话人的音频波形,使其听起来像目标说话人的声音,同时保持语音内容不变。本小节主要介绍人工智能合成音频时用到的相关技术。祝同学们学习进步!致谢李剑博士,教授,博士生导师网络空间安全学院lijian@January23,2025第14章语音合成原理与实践14.2基于Tacotron2的语音合成实践本章介绍本实践能够克隆一个人的声音,并利用这个声音说一些指定的话,但事实上这个人从来没有说过。项目特别关注零样本学习设置,即仅使用几秒钟未转录的目标说话人的参考音频生成新的语音,而不需要更新任何模型参数。1.系统结构基于Tacotron2的语音合成主要由三个独立的神经网络组成:(1)说话人编码器网络

在包含数千名说话人的带噪声数据集上进行训练,不需要文本数据。它可以利用几秒钟的语音生成一个代表说话人特征的向量。说话人编码器用于生成一个固定维度的嵌入向量(d-vector),这个向量表示了说话人的特征。它可以从目标说话人的几秒钟参考语音中提取出这些特征。1.系统结构(2)基于Tacotron2的序列到序列合成器

利用说话人特征向量,从文本生成梅尔频谱图(MelSpectrogram),用来表示音频信号的频率内容的图像。合成器根据输入文本和说话人编码器生成的嵌入向量生成高质量的梅尔频谱图。梅尔频谱图(MelSpectrogram)是音频信号的频率域表示,显示音频信号在不同时间点上的频率强度。1.系统结构(3)基于WaveNet的自回归声码器将梅尔频谱图转换为时域波形(时域波形表示音频信号随时间变化的图形,是音频信号的原始形式),生成最终的语音信号。声码器将合成器生成的梅尔频谱图转换为时域波形,生成最终的语音信号。2.实验目标(1)学习和理解语音合成模型的基本原理(2)实现和理解TTS系统(3)了解模型训练3.实验环境(1)学习4.实践过程(1)下载安装包(2)编写Encode(编码器)文件夹下的inference.py文件该文件用于执行音频嵌入的推理任务,特别是对语音进行特征提取和生成嵌入向量。该代码使用了预训练的SpeakerEncoder模型,输入音频片段,生成用于说话人识别等任务的嵌入向量。4.实践过程(3)编写Synthesizer(合成器)文件夹下的inference.py文件该文件实现了一个基于Tacotron模型的文本到语音合成器类TextToSpeechSynthesizer。它主要负责加载训练好的Tacotron模型并使用它将文本输入转换为音频的梅尔频谱图。该文件还提供了多个辅助函数来加载模型、处理音频文件、生成梅尔频谱图、以及处理输入数据的填充操作。4.实践过程(4)编写vocoder(声码器)文件夹inference.py文件。该文件加载并使用WaveRNN模型来生成语音波形。它通过`load_wave_rnn_model`函数加载模型权重,并根据设备选择在CPU或GPU上运行。`is_wave_rnn_model_loaded`用于检查模型是否已加载,`generate_waveform`函数根据输入的梅尔频谱图生成语音波形,支持归一化和批处理选项。4.实践过程(5)编写demo.py文件。该文件的功能是执行文本到语音的合成,具体是通过加载语音编码器、文本合成器和声码器模型,从输入的语音文件生成语音特征文件,并根据用户提供的文本进行语音合成。代码支持通过命令行参数指定模型路径,并控制是否播放生成的音频。5.实践结果在实验中,克隆samples文件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论