




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章 音频的数字化与语音编码学习内容第一节 音频的数字化1、 声音2、模拟音频与数字音频3、音频的采样、量化和数字化(重点)4、数字音频的格式学习内容第二节 语音编码1、人耳的听觉特性2、脉冲编码调制(PCM)3、G.711标准、G.721标准、G.722标准(重点)学习目标1、了解声音相关概念及要素2、掌握音频采样、量化和数字化原理3、了解数字音频的文件格式4、掌握常见的音频压缩编码方法 5、理解G.711、G.721、G.722标准 第一节 音频的数字化一、声音声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上音调的高低体现在声音的频率上一、声音有关概念复合信号:
2、声音信号由许多频率不同的信号组成分量信号:单一频率的信号带宽:描述组成复合信号的频率范围。如:高保真声音的频率范围为10 Hz20K Hz,它的带宽约为20K Hz。一、声音三要素 音强(volume) 音调(pitch) 音色 响度,由振幅决定 由频率决定 指声音频率组成成分一、声音分类 次音频信号20kHZ(人听不到,有很强的方向性,可以形成波束)二、模拟音频与数字音频模拟信号 数字信号二、模拟音频与数字音频模拟音频:在时间和幅度上都是连续变化的数字音频:在时间和幅度上都是离散、不连续的三、音频的数字化 模拟音频数字音频采样、量化、编码三、音频的数字化(采样)音频采样:当把模拟声音变成数字
3、声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值。 信号转换示意图三、音频的数字化(采样)采样:将时间上连续的取值变为有限个离散取值的过程 三、音频的数字化(采样)奈奎斯特采样定理: 设连续信号X(t)的最高频率分量为Fm,以等间隔Ts(Ts称采样间隔,fs=1/Ts称为采样频率)对X(t)进行采样,得到Xs(t)。如果Fs=2Fm,则Xs(t)保留了X(t )的全部信息(从Xs(t)可以不失真地恢复出X(t))。 只要采样频率高于信号中最高频率的2倍,就可以从采样中完全恢复原始信号的波形。三、音频的数字化(量化)音频量化:将经采样后幅度上无限多个连续的样值变为有限个离散值的过程三、音
4、频的数字化(量化)量化过程:先将整个幅度划分成为有限个幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。量化等级的划分三、音频的数字化模拟信号采样量化编码A/D转换中,影响质量及数据量的主要因素:每秒钟需要采集多少个声音样本即采样频率每个声音样本的位数(bps)应该是多少即量化位数三、音频的数字化例子:每个声音样本用16位表示,测得声音样本值是在065536的范围里,它的精度就是输入信号的1/65536声音质量与数据率三、音频的数字化质量采样频率kHz样本精度(b/s)单/立体声数据率(kB/s)频率范围电话88单道声82003400AM11.0258单道声11201
5、5000FM22.05016立体声88.2507000CD44.116立体声176.4202000DAT4816立体声192.0202000四、数字音频的文件格式1、WAV文件 声音是随着时间连续变化的物理量,并且是一种能借助介质传播的波。四、数字音频的文件格式1、WAV文件字节数/秒=采样频率(HZ) * 量化位数(BIT)* 声道数/8特点:数据量大 音质好 不适合网络传播或播放文件数据量计算:? 1分钟单声道,采样频率为11.025kHz,8位采样位数四、数字音频的文件格式2、MP3文件MPEG Audio Layer-3特点:数据量较小,压缩率10:120:1 音质较好 是目前最为流行
6、的音频格式文件四、数字音频的文件格式3、MIDI文件数字乐器接口标准特点:midi文件中存储的是产生声音指令 数据量小适用于:需要播放长时间高质量音乐四、数字音频的文件格式3、MIDI文件四、数字音频的文件格式3、MIDI文件四、数字音频的文件格式4、ASF、WMA文件微软开发的网上流式数字音频文件格式特点:音质好 数据量小 适合网络流式传输四、数字音频的文件格式5、RAM、RA文件RealNetworks开发的网上流式数字音频文件格式特点:能随带宽的不同而改变音质,在保证大多数人听到流畅声音的前提下,带宽宽裕的听众获得较好的音质 适合低网速的实时传输四、数字音频的文件格式6、AIF、AU文件
7、Apple公司开发的音频文件格式四、数字音频的文件格式7、CD-DA数字音频光盘44.1khz、16Bit量化位数、双声道四、数字音频的文件格式8、MDMini DiscSony推出的便携式音乐格式MD汽车音响、随身听五、音频文件的读取工具: UltraEdit Debug 其他反汇编软件WAVE文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标准的。RIFF是英文Resource Interchange File Format(资源互换文件格式 )的缩写,每个WAVE文件的头四个字节便是“RIFF”。对应的十六进制是52 49 46 46。五、音频文件的读取文件头数据体WAVE文
8、件RIFFWAV文件标识段声音数据格式说明段标志符(RIFF)数据大小格式类型(WAVE)fmtSizeof(PCMWAVEFORMAT)PCMWAVEFORMATdata声音数据大小声音数据五、音频文件的读取WAV文件结构文件头数据体五、音频文件的读取五、音频文件的读取例:sound.wav44.1kHz 16位 双声道12.68秒 2236752字节数据量00h:52 49 46 46 82 21 22 00 57 41 56 45 66 6D 74 20 RIFF标志 总数据块大小 格式类型 fmt标志 2236802字节 WAVE 10h:12 00 00 00 01 00 02 00
9、 44 AC 00 00 10 B1 02 00 音频格式数据块大小 编码格式 双声道 采样频率 每秒数据量 18 waveformatPCM 44.1kHz 17640020h:04 00 10 00 00 00 66 61 63 74 04 00 00 00 54 88 区块对齐单位 量化位数 4 16位30h:08 00 64 61 74 61 50 21 22 00 00 00 00 00 FF FF data标志 声音裸数据长度 声音数据内容 2236752字节40h:00 00 FE FF FE FF 00 00 00 00 FE FF FE FF 01 00五、音频文件的读取六、
10、声音质量的度量1、客观质量度量:信噪比 信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好。2、客观质量度量:带宽2003.4KHz电话声音范围507KHz调幅广播声音范围2015KHz调频广播声音范围1020KHz高保真立体声音范围六、声音质量的度量2、客观质量度量:带宽六、声音质量的度量音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好六、声音质量的度量3、客观质量度量:动态范围 声音的动态范围即声音从最弱变到最强的范围。声音的动态范围还与频率有关。动态范围最大的频率区间是1000-6000HZ
11、,计量单位是分贝(dB)。 动态范围越大,信号强度的相对变化范围越大,音响效果越好六、声音质量的度量3、客观质量度量:动态范围动态范围20log(信号的最大强度/信号的最小强度)(dB)六、声音质量的度量4、主观质量度量:MOS分数Mean Opinian Score分数质量级别失真级别5优不觉察4良刚刚觉察、不讨厌3中觉察、有点讨厌2差讨厌而不反感1劣极讨厌、令人反感作业1、你认为多媒体技术发展的八大技术基础中哪一个是最重要的技术基础?并说明原因。2、请简述音频数字化过程。3、计算:三分钟的采样频率为22.05kHz,量化位数为16位的立体声音频数据量为多少?第二节 语音编码一、人耳的听觉特
12、性 人耳对各频率的灵敏度是不同的 频域掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。 时域掩蔽效应在时间上相邻的声音之间也有掩蔽现象二、脉冲编码调制(PCM)二、脉冲编码调制(PCM)1、均匀量化的PCM二、脉冲编码调制(PCM)2、非均匀量化的PCMCCITT国际电话电报咨询委员会Consulative Committee for International Telephone and Telegraph)原始信号F=8khzB=14bitF=8khzB=8bit压缩采用的方法:对数PCM编码 律压扩(北美、日本) A 律压扩(西欧、中国)64Kbps112Kbps三、 G.
13、711标准三、 G.711标准律压扩F(x) = sgn(x)Ln(1+ |x|)Ln(1+ )x为输入信号幅度,规格化成-1=x=1 F(x)为量化输出数据Sgn(x)为x的极性 反映最大量化间隔与最小量化间隔之比,100= =500具体取值为255三、 G.711标准A律压扩FA(x) = sgn(x)A|x|1+ lnA0=|x|=1/AFA(x) = sgn(x)1+ln(A|x|)1+ lnA1 /A =|x|=1x为输入信号幅度,规格化成-1=x=1Sgn(x)为x的极性A 反映最大量化间隔与最小量化间隔之比,具体取值87.56四、G.721标准原始信号F=8khzB=14bitF
14、=8khzB=8bit或A律F=8khzB=4bit112Kbps64Kbps32KbpsADPCMAPCM (自适应脉冲编码调制)DPCM (差分脉冲编码调制)ADPCM (自适应差分脉冲调制)四、G.721标准四、G.721标准APCM (自适应脉冲编码调制)能随信号幅度的大小自动地改变量化阶距的编码制式。改变量化阶距的方法: 前向自适应APCM (Forward Adaptation) 后向自适应APCM (Backward Adaptation)四、G.721标准改变量化阶距的方法一:前向自适应APCM 根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶距的大小,并对其
15、电平进行编码作为边信息(Side Information)传送到接收端。逆量化器缓冲器量化器量化阶适配器S(k)S r(k)(边信息)信道信道四、G.721标准改变量化阶距的方法二:后向自适应APCM 根据从量化器刚输出的过去样本中来提取量化阶信息。这种自适应能在发收两端自动生成量化阶,所以不需要传送边信息。量化器S(k)S r(k)信道量化阶适配器逆量化器量化阶适配器四、G.721标准DPCM (差分脉冲编码调制) 根据过去的样本去估算(estimate)下一个要量化编码的样本信号幅度有多大,这个值称为预测值,编码器仅对实际信号值与预测值之差进行量化编码。四、G.721标准+量化器逆量化器+
16、预测器S(k)S r(k)d(k)+-Se(k-1)预测器Se(k-1)+逆量化器dq(k)S(k)输入信号 Se(k-1) 是对S(k)的预测值S r(k)译码的输出信号 dq(k)是量化差分信号d(k)差分信号四、G.721标准ADPCM (自适应差分脉冲编码调制) ADPCM = APCM + DPCM32kbps输出+预测器差分量化器64KBPSA或u律PCM输入+逆量化器+-预测PCM样本量化阶调整五、 G.722标准(子带编码)原始信号F=8khzB=14bitF=8khzB=8bit或A律F=8khzB=4bit112Kbps64Kbps32KbpsADPCMF=16khzB=4bitSBC64KbpsG.711标准G.721标准G.722标准SBC(子带编码)分接器复接器Xn+X r(n)BPF1BPF2BPFN编码器编码器编码器译码器译码器译码器BPF1BPF2BPFN编码信道译码五、 G.722标准(子带编码)根据不同频段的重要性来分配位数根据不同频段的能量电平来改变量化阶距五、 G.722标准(子
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年海洋潜标系统合作协议书
- 如何充分发挥时间优势备考信息系统项目管理师试题及答案
- 2025年社交媒体平台舆情监测与危机公关舆情处理流程优化报告
- 公共政策对教育公平的实现路径探讨试题及答案
- 企业风险预测模型的构建与应用
- 机电工程创新技术开发试题及答案
- 项目启动前的准备工作试题及答案
- 公共图书馆服务提升方案评估报告:2025年图书馆读者服务体验优化研究
- 公共政策的管理与评估框架试题及答案
- 2025年能源与资源行业能源系统优化配置技术研究报告
- 澳大利亚建筑规范
- 2024年紫金矿业集团股份限公司校园招聘历年高频500题难、易错点模拟试题附带答案详解
- 消化道出血护理查房7
- 太阳能光伏发电设备采购合同
- 江苏省常州市教育学会2023-2024学年下学期八年级数学考试卷
- DZ∕T 0214-2020 矿产地质勘查规范 铜、铅、锌、银、镍、钼(正式版)
- 2024年新教科版六年级下册科学期末综合测试卷(十九)
- 精神科进修汇报
- 2023年新高考天津卷历史高考真题解析(参考版)
- 人工智能在文化遗产数字化保护中的应用
- GB/T 41666.4-2024地下无压排水管网非开挖修复用塑料管道系统第4部分:原位固化内衬法
评论
0/150
提交评论