音频处理技术ppt课件.ppt_第1页
音频处理技术ppt课件.ppt_第2页
音频处理技术ppt课件.ppt_第3页
音频处理技术ppt课件.ppt_第4页
音频处理技术ppt课件.ppt_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第4章多媒体音频处理技术 4 1音频信号及其概念4 2模拟音频的数字化过程4 3声卡的组成和功能4 4音频文件的格式与处理软件4 5乐器数字接口 MIDI4 6数字音频的应用 2 3 4 1 1声音处理技术历史回顾记录 19世纪 爱迪生 留声机 电声技术 研究可听声频率范围内声音的产生 传播 存储 重放和接收的技术 依靠电来记录并播放声音 通过电压产生模拟声波变化的电流信号是模拟信号 随着计算机技术和存储设备的发展 数字化音频处理技术也得到了发展 4 图4 2用磁带记录声音的录音机 5 4 1 2声音信号的形式任何声音都是物体振动产生的现象 其在介质中的传播称为声波 声源所引起的空气压力变化 被耳朵的耳膜所检测 然后产生电信号刺激大脑的听觉神经 从而使人们能感觉到声音的存在 6 4 1 2声音信号的形式语音信号 语言的物质载体 具有复杂的语法和语义 难于识别 非语音信号 音乐 自然界的声音 信息量低 识别简单 7 图4 4在自然界 声波与水波一样都是一种振动波 8 图4 5用声音录制软件记录的英文单词 Hello 语音的实际波形 9 4 1 3模拟音频信号的物理特征频率 体现音调的高低 单位Hz幅度 体现声音的强弱 单位dB语音信号频率范围 300Hz 3000Hz可听频率带宽 音频 20Hz 20kHz 10 11 图4 6声波的频率 周期与振幅 12 教学进程 13 声音质量分级与带宽 图4 8四级声音质量的频率范围 14 声音的质量与声音的频率范围有关 一般说来 频率范围越宽声音的质量就越高 对语音而言 常用可懂度 清晰度 自然度来衡量 而对音乐来说 保真度 空间感 音响效果都是重要的指标 15 第4章多媒体音频处理技术 4 1音频信号及其概念4 2模拟音频的数字化过程4 3声卡的组成和功能4 4音频文件的格式与处理软件4 5乐器数字接口 MIDI4 6数字音频的应用 16 17 借助于A D或D A转换器 模拟信号和数字信号可以互相转换 18 19 4 2 1采样为实现A D转换 需要把模拟音频信号波形进行分割 每隔一定的时间间隔测一次模拟音频的值 如电压 以转变成数字信号 这种方法称为采样 Sampling 每秒钟采样的次数称为采样率 数字音频是离散的 而模拟音频是连续的 数字音频质量的好坏与采样率密切相关 数字音频信息可以被计算机存储 处理和播放 Nyquist采样定理 只有采样频率高于声音信号最高频率的两倍时 才能把数字信号表示的声音还原为原来的声音 20 图4 9声音的采样和量化示意图 21 4 2 2量化用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小称为量化 采样后的信号按照整个声波的幅度 幅度轴 划分称有限个区段的集合 把落入某个区段内的样值归为一类 并赋予形同的量化值 采用二进制 以16位或256位等的方式来进行 22 均匀量化 非均匀量化 23 数字音频等级 24 25 教学进程 数据量 采样频率 量化位数 8 声道数 声音持续时间 例1 对于调频广播级立体声 采样频率为44 1kHz 量化等级为16位 即2字节 声道形式为双声道 则转换后每秒以千字节为单位的数据量为 44100 Hz 16 8 B 2 176400B s 172kB s 例2 用44 1kHz的采样频率对声波进行采样 每个采样点的量化位数选用16位 则录制3分钟的立体声节目 其波形文件所需的存储容量为 44100 Hz 16 8 B 2 3 60 31752000B s 31007 8kB s 30 28MB s 26 例3 一般播音员的播音频率是 kHz 采用8bit的采用精度进行采样的时候 计算该播音员播音 分钟的数据量为 kHz bit 例4 以cd激光盘音质 44 1kHz的采样频率 16位立体声形式 记录一首 分钟的乐曲所需的存储容量为 44100 Hz 16 8 B 2 60 51600kb 27 4 2 3声音采样与量化过程示例 28 图4 10采样频率为1000Hz 10个量化等级的波形 29 图4 11经过D A转换器得到的信号波形 直线段的波形 有较大的失真 30 图4 12采样率为2000Hz 量化等级为20的采样量化过程 31 图4 13采样率为4000Hz 量化等级为40的采样量化过程 32 4 2 4压缩编码依据 声音信息中存在着多种冗余听觉器官的不敏感性采样的标本中存在着相关性压缩算法通常应能满足下列需求 压缩倍数高 压缩后的数据率低 解码后的信号失真小 质量高 算法简单 执行速度快 延迟时间短 编码器 解码器的成本低 33 压缩方法 compressionmethod 有损压缩无损压缩编码选择 codeselection 机常用的声卡上有自适应差分脉冲码调制方案 律 a律等 format structure 34 音频信息的压缩技术 有 损 压 缩 混合编 码 码本激励线性预测 CELP 35 图4 14音频信号处理过程 36 第4章多媒体音频处理技术 4 1音频信号及其概念4 2模拟音频的数字化过程4 3声卡的组成和功能4 4音频文件的格式与处理软件4 5乐器数字接口 MIDI4 6数字音频的应用 37 4 3 1声卡的工作原理 图4 16声卡工作原理框图 采用大规模集成电路设计 将音频技术范围的各类电路以专用芯片的形式集成在声卡上 并可直接插入计算机的扩展槽中使用 38 1 主芯片 数字信号处理器声音信息处理 特殊音效过滤与处理 语音识别 实施压缩等等任务 2 混音芯片 CODEC负责调节各声音来源的音量 混音与调整录放音的音量大小 图4 18SoundBlasterPCI64声卡的混音器设置界面 39 3 合成器负责MIDI乐曲的合成可以及时创造各种音乐MIDI合成器有两种 频率调制合成器 FM合成器 波形表 Wavetable合成器 4 总线接口和控制器总线接口和控制器由数据总线双向驱动器 总线接口控制逻辑 总线中断逻辑和DMA控制逻辑组成 5 外部输入输出口声卡外部输入输出口均为3 5mm规格插口 MIDI Joystick除外 40 41 4 3 2声卡的性能指标1 音频技术指标2 MIDI音频3 声道数 DolbyAC 3等 图4 195 1声道系统的布局图 42 4 多音频流输出5 I O设备接口6 声卡软件7 总线结构 图4 20支持5 1声道系统的声卡接口 43 44 45 46 杜比与DTS 1 DolbyDigitalMono 杜比数字单声道音效只有单声道的效果 并不足以构成立体声 2 DolbyDigitalStereo 杜比数字双声道音效将双声道的立体讯号储存为AC 3格式 3 DoblyDigitalSurround 杜比数字环绕音效4 DolbyDigital4 0 杜比数字环绕音效4 05 DolbyDigital5 0 杜比数字环绕音效5 06 DolbyDigital5 1 杜比数字环绕音效5 1以DolbyDigital来表示DolbyDigital5 1 也就是5 1声道的DolbyDigital或AC 3 7 Dolbydigital7 1 11 1等等 47 杜比与DTS PCM高音质数字音效 DVD利用PCM格式储存未经压缩的双声道讯号 由于DVD具有庞大的空间与速度优势 可以大胆使用更高的取样率与解析度 因此可以提供远高于传统CD的表现DTS数字环绕音效 属于5 1声道的环绕效果 DTS采用与AC 3不同的压缩技术将环绕音效储存至DVD 播放时必须采用具有dts译码能力的系统 DTS跟DolbyDigital5 1最大的差别在于两者使用不同的 算法 48 4 3 3声卡的主要功能 录制与播放声音通过接在声卡上的话筒录制声音 并以文件形式保存在计算机中 随时可打开声音文件进行播放 声音文件的格式可因使用不同的软件而不同 音乐合成利用声卡上的合成器将存储在计算机内存中的MIDI文件合成为音乐乐曲 通过混合器混合和处理多个不同音频源的声音 控制和调节音量大小 最后送至音箱或耳机播放 49 压缩和解压缩音频文件目前 大多数声卡上都固化了不同标准的音频压缩和解压缩软件 常用的压缩编码方法有ADPCM 自适应差分脉冲编码调制 和ACM 微软音频压缩管理器 等 压缩比大约为2 1 5 l 与MIDI设备和CD驱动器的连接通过声卡上的MIDI接口 计算机可以同外界的MIDI设备相连接 如连接电子琴 电吉他等 使MPC具有创作电脑乐曲和播放MIDI文件的功能 游戏杆也可通过MIDI接口与计算机相连接 使游戏玩起来得心应手 50 第4章多媒体音频处理技术 4 1音频信号及其概念4 2模拟音频的数字化过程4 3声卡的组成和功能4 4音频文件的格式与处理软件4 5乐器数字接口 MIDI4 6数字音频的应用 51 4 4 1数字音频的文件格式 图4 21常用音频格式 52 1 WAV文件 wav2 MP3 mp33 MP4 mp44 RealAudio文件 ra rm ram5 APE文件 ape 图4 22MP3是Internet上流行的音乐格式 53 6 MIDI文件 midi7 CD文件 cda8 AAC文件 m4a mp4等9 PCM文件 pcm10 WMA文件 wma11 VOC文件 voc12 AIFF文件 aif aiff13 HDTA文件 hdta 54 HDTA 可变结构高解析度音频 Hi DefinitionTransformableAudio 是一种结合了互动性和高解析度音频的新一代音频格式 HDTA按照不同的标准 主要分为以下几种 TA 只支持16Bit 44 1KHz传统音频 HDTA立体声 只支持高解析度的双声道 HDTA环绕声 支持6 8 16个声道的环绕声 新一代的HDTA格式音乐 是彻头彻尾的数字格式 它不以任何光盘为载体 而是作为一种计算机数据格式存在 55 4 4 2音频制作与处理软件1 CoolEdit 图4 25CoolEditPro的界面 56 2 SoundForge 图4 26SoundForge音频处理软件 57 第4章多媒体音频处理技术 4 1音频信号及其概念4 2模拟音频的数字化过程4 3声卡的组成和功能4 4音频文件的格式与处理软件4 5乐器数字接口 MIDI4 6数字音频的应用 58 4 5 1什么是MIDIMIDI是数字音乐接口 MusicalInstrumentDigitalInterface 的缩写 或者说 MIDI是用来將电子乐器相互连接 或将MIDI设备与电脑连接成系统的一种通讯协议 通过它 各种MIDI设备都可以准确传送MIDI信息 不属于数字音响技术的范畴Midi数据不是数字的音频波形 而是音乐代码或电子乐谱 4 5乐器数字接口 MIDI 59 4 5 2MIDI系统的组成 60 1 合成器 图4 28具有USB接口的MIDI键盘 使用振荡器来产生声乐的一种电子乐器 通过振荡器的电流震荡产生各种波形并进行处理 合成出新的音乐 合成器中的音序器和音色分别由软件和独立音源来代替 因此产生控制键盘 61 2 音源 图4 29硬件音源产品 RolandJV1080 音源音色的数量 品种和质量都将对最终音乐作品的效果产生重要的影响 音源内部是不同音色的样本波形 由音序器来决定何时调用 分为软硬件两种 专业硬件音源 多媒体声卡上包含GM音色库 以插件形式的软音源 62 3 音序器 Sequencer 记录 编辑和播放midi文件的设备 硬件音序器又称为编曲机 软件音序器是音乐创作 编辑软件 比如Cakewalk等 4 采样器对声音进行采样 然后编辑成多种的音色 5 其它设备如录音设备 监听设备 音箱功放等 YamahaQY100音序器 63 4 5 3MIDI的工作过程midi消息实际上是对一段音乐的描述 或理解为对乐谱的数字描述 包括音符 节拍 乐器种类等信息 消息分为状态信息和数据信息 状态信息描述音符被演奏或是声音被加强等数据信息描述那个音符被演奏了 或被加强的声音的强度如何这类可以用量来表示的信息 64 图4 31MIDI的工作过程 65 66 4 5 4FM与波表合成方式1 FM合成法FM称为 数字式频率调制合成法 简称FM合成法 FM合成法生成音乐的基本原理是 用数字信号来表示不同音乐的波形 然后把它们组合起来 再通过数模转换器 生成音乐播放 2 波表合成法为了能真实地再现音乐 目前的声卡一般采用音乐样本合成法 即波表合成法 把真实乐器发出的声音以数字的形式记录下来 存放在 波表文件 中 播放时根据命令生成各种音阶的音符 产生的声音质量比较高 67 FM合成法 比如MIDI音乐 用符号描述的乐器演奏的音乐声音 合成语音 用声母 韵母或清音 基音频率等参数描述的语音 等 符号化的声音表示方法所产生的声音虽然没有自然声那么真实 逼真 但数据量要比波形声音小得多 2 3个数量级 而且能产生自然界中不存在的声音 其编辑处理也比波形声音更加方便一些 68 4 5 5GM 标准MIDI乐器排序表4 5 6MIDI音乐创作软件与音序软件 图4 33CakeWalkProAudio音序软件主界面 69 图4 34在CakewalkProAudio能容易地对MID乐谱进行编辑和创作 70 第4章多媒体音频处理技术 4 1音频信号及其概念4 2模拟音频的数字化过程4 3声卡的组成和功能4 4音频文件的格式与处理软件4 5乐器数字接口 MIDI4 6数字音频的应用 71 语音识别语音合成 72 语音识别 指机器收到语音信号后 如何模仿人的听觉器官辨别所听到的语音内容或讲话人的特征 进而模仿人脑理解出该语音的含义或判别出讲话人的过程 分类 按讲话者分类 1 特定人的语音识别系统 其特点是依赖于说话者只有在用特定单词组形成的词汇表系统训练后 它才能识别 2 非特定人识别系统 此类系统可识别任何用户的语音 73 按识别词的性质分类 1 孤立词 语音 识别系统 一次只提供一个单一词的识别 2 连接词语音识别 连接词的语音由所说的短语组成 而短语又是由词序列组成 连接词语音识别可用于命令和控制应用 3 连续语音识别 这种方法比孤立单词或连接词语音识别都复杂许多 74 75 连续语音识别系统分成三部分 数字化 幅度归一化 时间归一化和参数表示 分割并把语音段标记成在基于知识或基于规则系统上的符号串 识别词序列并进行语音段匹配 76 语音识别系统的组成 采样 量化 语音端点检测 计算语音谱 估价音调轮廓图 分解 鉴定语音特征 单词识别 识别后的语音 语音输入 参考村料库 语义分析 理解后的语音 语义库 77 语音识别难度大 语音变化大 不同人不一样 同一人也会有变化 语音有模糊性 不同词语听起耒很相似 同一字和词的发音受上下文影响而有不同 语音的同化 异化 换位 弱化 脱落等音变现象 环境噪声的干扰 例如墙壁与物体对声波的反射会与主声波重迭 连续语音流不易把单字 词 区分出来 端点检测 例如 若单字 词 识别正确率为0 95 则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论