多媒体应用技术4-音频采集编辑合成语音识别课件_第1页
多媒体应用技术4-音频采集编辑合成语音识别课件_第2页
多媒体应用技术4-音频采集编辑合成语音识别课件_第3页
多媒体应用技术4-音频采集编辑合成语音识别课件_第4页
多媒体应用技术4-音频采集编辑合成语音识别课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本节内容音频信息采集编辑音频采集噪音MIDI音乐语音识别技术语音合成技术降噪操作变速变调操作回声效果淡入淡出混音效果格式转换本节内容音频信息采集编辑音频信息采集:方法:windows自带录音机进行采集Audition软件录制手机录制音频信息采集:噪音音高和音强变化混乱、听起来不谐和的声音是由发音体不规则的振动产生的,从物理学的角度来看:噪声是发声体做无规则振动时发出的声音。噪音音高和音强变化混乱、听起来不谐和的声音是由发音体不规则的噪声的分类和产生白噪声是指一段声音中的频率分量的功率在整个可听范围(0~20KHZ)内都是均匀的。是一种无规噪声,瞬时值是随机变化的。具有连续的噪声谱,包含有各种频率成分的噪声。频率能量的分布是均匀的。噪声的分类和产生白噪声是指一段声音中的频率分量的功率在整个可噪声的分类和产生粉红噪声的频率分量功率主要分布在中低频段。在一定的范围内音频数据具有相同或类似的能量。噪声的分类和产生粉红噪声的频率分量功率主要分布在中低频段。在噪声的分类和产生褐色噪声的频率分量功率主要集中在低频段。噪声的分类和产生褐色噪声的频率分量功率主要集中在低频段。MIDI乐器数字接口(Musical

Instrument

Digital

Interface)是一个工业标准的电子通信协定,为电子乐器等演奏设备(如合成器)定义各种音符或弹奏码,容许电子乐器、电脑、手机或其它的舞台演出设备彼此连接,调整和同步,得以实时交换演奏数据MIDI乐器数字接口Midi音乐的合成MIDI产生的方法:频率调制合成法,波表合成法MIDI播放的方法:计算机根据按键音量节奏等指令合成还原出乐器声音MIDI音乐的特点:文件小,可编辑性强,处理语音的能力和效果差。30minMIDI音乐200kWAV音乐300MMidi音乐的合成MIDI产生的方法:频率调制合成法,波表合3.6语音识别技术1.语音识别的基本原理3.6语音识别技术语音识别系统的实现主要分为三大阶段:连续语言信号的预处理特征提取模式匹配语音识别系统的实现主要分为三大阶段:2.语音识别系统的类型⑴按照输入方式可分为三种:孤立字(词)、连接词以及连接语音的识别。⑵按照发音者可分为特定人、限定人和非特定人语音识别系统三种。⑶根据可识别的词汇量多少可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。2.语音识别系统的类型3.语音识别技术的应用⑴教育应用⑵信息处理与电子商务领域的应用⑶消费娱乐产品的应用3.语音识别技术的应用3.常见语音识别技术百度:百度的语音识别技术研究项目,名为“DeepSpeech”。据介绍,在噪音较大的背景下,百度语音识别技术的正确率高于谷歌10%。中国科技大学:科大讯飞公司在语音识别技术上占有优势地位,该公司已经推出了成熟的语音输入法等产品。三星语音引擎3.常见语音识别技术3.7语音合成3.7.1语音合成的概念语音合成包含两种可能实现的途径。一种是录音/重放模式,使机器再生一个预先存入的语音信号,采用数字存储技术。另一种可能是采用数字信号处理的方法。3.7语音合成

按照人类语言功能的不同层次,语音合成可分为三个层次:从文字到语音的合成从概念到语音的合成从意向到语音的合成

语音数据的存储形式可分为两大类:波形存储参数存储

按照人类语言功能的不同层次,语音合成可分为三个层次:3.7.2文语转换技术语音合成系统包括三个主要的组成部分:文本分析模块:让计算机认识文字,和词语,进而知道怎么发音韵律生成模块:音节的声调、语气、停顿、发音长短声学模块:根据要求让计算机发声3.7.2文语转换技术声音素材的基本操作实例1.降噪处理2.回声效果3.变速变调效果4.拨号声效果5.混音效果6.淡入淡出效果7.音频文件的类型转换声音素材的基本操作实例1.降噪处理本节内容音频信息采集编辑音频采集噪音MIDI音乐语音识别技术语音合成技术降噪操作变速变调操作回声效果淡入淡出混音效果格式转换本节内容音频信息采集编辑音频信息采集:方法:windows自带录音机进行采集Audition软件录制手机录制音频信息采集:噪音音高和音强变化混乱、听起来不谐和的声音是由发音体不规则的振动产生的,从物理学的角度来看:噪声是发声体做无规则振动时发出的声音。噪音音高和音强变化混乱、听起来不谐和的声音是由发音体不规则的噪声的分类和产生白噪声是指一段声音中的频率分量的功率在整个可听范围(0~20KHZ)内都是均匀的。是一种无规噪声,瞬时值是随机变化的。具有连续的噪声谱,包含有各种频率成分的噪声。频率能量的分布是均匀的。噪声的分类和产生白噪声是指一段声音中的频率分量的功率在整个可噪声的分类和产生粉红噪声的频率分量功率主要分布在中低频段。在一定的范围内音频数据具有相同或类似的能量。噪声的分类和产生粉红噪声的频率分量功率主要分布在中低频段。在噪声的分类和产生褐色噪声的频率分量功率主要集中在低频段。噪声的分类和产生褐色噪声的频率分量功率主要集中在低频段。MIDI乐器数字接口(Musical

Instrument

Digital

Interface)是一个工业标准的电子通信协定,为电子乐器等演奏设备(如合成器)定义各种音符或弹奏码,容许电子乐器、电脑、手机或其它的舞台演出设备彼此连接,调整和同步,得以实时交换演奏数据MIDI乐器数字接口Midi音乐的合成MIDI产生的方法:频率调制合成法,波表合成法MIDI播放的方法:计算机根据按键音量节奏等指令合成还原出乐器声音MIDI音乐的特点:文件小,可编辑性强,处理语音的能力和效果差。30minMIDI音乐200kWAV音乐300MMidi音乐的合成MIDI产生的方法:频率调制合成法,波表合3.6语音识别技术1.语音识别的基本原理3.6语音识别技术语音识别系统的实现主要分为三大阶段:连续语言信号的预处理特征提取模式匹配语音识别系统的实现主要分为三大阶段:2.语音识别系统的类型⑴按照输入方式可分为三种:孤立字(词)、连接词以及连接语音的识别。⑵按照发音者可分为特定人、限定人和非特定人语音识别系统三种。⑶根据可识别的词汇量多少可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。2.语音识别系统的类型3.语音识别技术的应用⑴教育应用⑵信息处理与电子商务领域的应用⑶消费娱乐产品的应用3.语音识别技术的应用3.常见语音识别技术百度:百度的语音识别技术研究项目,名为“DeepSpeech”。据介绍,在噪音较大的背景下,百度语音识别技术的正确率高于谷歌10%。中国科技大学:科大讯飞公司在语音识别技术上占有优势地位,该公司已经推出了成熟的语音输入法等产品。三星语音引擎3.常见语音识别技术3.7语音合成3.7.1语音合成的概念语音合成包含两种可能实现的途径。一种是录音/重放模式,使机器再生一个预先存入的语音信号,采用数字存储技术。另一种可能是采用数字信号处理的方法。3.7语音合成

按照人类语言功能的不同层次,语音合成可分为三个层次:从文字到语音的合成从概念到语音的合成从意向到语音的合成

语音数据的存储形式可分为两大类:波形存储参数存储

按照人类语言功能的不同层次,语音合成可分为三个层次:3.7.2文语转换技术语音合成系统包括三个主要的组成部分:文本分析模块:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论