版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 音频(ynpn)处理共八十五页第4章 音频(ynpn)处理音频信号(xnho)音频数字压缩MPEG-1音频MPEG-2音频MPEG-4音频电子音乐合成与MIDI语音识别3D音频音频应用2共八十五页 声音是指人耳能识别的音频信息.如人发出的话音,乐器声,动物发出的声音,机器产生(chnshng)的声音,自然界的雷声,风声、雨声、闪电声等,也包括各种人工合成的声音。 声音涉及到声波的物理传播特点和电声信号处理技术。多媒体技术的发展使计算机处理音频信息已达到较成熟的阶段。声音(shngyn)3共八十五页声音(shngyn)的特征指标 声音是由于空气振动(zhndng)引起耳膜的振动(zhnd
2、ng),由人耳接收,最后被大脑所感知。因此,声音的特征体现为物理特征和认知属性。这两类特性的基本对比见表:物理特征认知属性强度(Intensity)响度(Loudness)基频(Fundamental Frequency)基音(Pitch)谱形状(Spectral Shape)音色(Timbre)开始/结束时间(Onset/Offset Time)定时(Timing)相位差(双耳听)(Phase DifferenceBinaural Hearing)位置(Location)4.1 音频信号4共八十五页人的听觉响应与强度成对数关系。只有在强度适中时才最灵敏。 一般的人只能察觉出3 分贝的音强变化
3、。 常用音量或响度来描述声音(shngyn)强度,以分贝(dB)为单位。 在处理音频信号时,相对强度更有意义。 动态范围定义: 动态范围20 log(信号的最大强度 / 信号的最小强度)(dB) 动态范围越大,信号强度的相对变化范围越大,音响效果越好。 音质效果AM广播FM广播数字电话CDDA动态范围(dB)406050100表4.1.2 几种(j zhn)音频业务的动态范围动态范围5共八十五页分贝(fnbi)示例6共八十五页 基频:O ,决定音调 泛音:nO 称为(chn wi)基频的高次谐波分量 音色:由混入基音的泛音所决定的 高次谐波越丰富,音色就越有明亮感和穿透力 不同的谐波具有不同的
4、幅值和相位偏移,产生各种音色效果 能够用来描述乐器声的区别 频率特性7共八十五页频率特性如果一个(y )物体振动所发出的泛音为基音的整数倍,这个音就会具有清晰可辨的音高,我们称之为乐音,如钢琴,小提琴等发出的都是乐音;如果泛音是基音的非整数倍,这个音就不具备清晰可辨的音高,我们称之为噪音,如汽车发动机、计算机风扇等发出的都是噪音。8共八十五页音色(yns)因为声音的波形绝大多数都不是简单的正弦波,而是一种复杂的波。分析表明这种复杂的波形,可以分解为一系列的正弦波,这些正弦波中有基频f0,还有与f0成整数倍关系(gun x)的谐波:f1、f2、f3、f4,它们的振幅有特定的比例。这种比例,赋予每
5、种乐器以特有的“色彩”音色。如果没有谐波成分,单纯的基音正弦信号是毫无音乐感的。 比如:大提琴音色、黑管音色不同虽然演奏同一音高(基频)的音符,但人们能够明确分辨出是哪个乐器 9共八十五页频率特性带宽:用来描述复合声音信号的频率(pnl)范围。如高保真音信号(high-fidelity audio)的频率(pnl)范围为10Hz20,000Hz,带宽约为20kHz10共八十五页信噪比(SNR,Signal to Noise Ratio)是有用信号与噪声(zoshng)之比的简称是衡量声音质量的一种指标噪音可分为环境噪音和设备噪音信噪比越大,声音质量越好信噪比11共八十五页其他(qt)音频质量指
6、标感觉上的、主观上的测试是评价(pngji)声音质量不可缺少的部分。可靠的主观度量值是较难获得的。 12共八十五页听觉(tngju)生理人耳最容易听到的就是4000Hz的频率,不管频率是增高或降低,即使是响度相同的情况下,大家都会觉得声音在变小。当响度降到一定程度时,人耳就听不到了,每一个频率都有着不同的值,当频率超过15000Hz时,人耳的会感觉(gnju)到声音很小,很多听觉不是很好的人,根本就听不到20000Hz的频率,不管响度有多大。 当人耳同时听到两个不同频率、不同响度的声音时,响度较小的那个也会被忽略13共八十五页采样频率:采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎
7、斯特(Harry Nyquist)采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半。量化位数:量化位是对模拟音频信号的幅度轴进行数字化所采用(ciyng)的位数,它决定了模拟信号数字化以后的动态范围声道数:有单声道、双声道、多声道之分。双声道在硬件中要占两条线路,音质、音色好,但数字化后所占空间比单声道多一倍。数字音频技术指标量化位等份动态范围(dB)应用825648 - 50数字电话166553696 -100CD-DA14共八十五页声音(shngyn)质量与数据率数据(shj)率 = 取样频率 x 量化位数 x 通道数目例: 电话语音 =8k x 8b
8、x 1 = 64kbps =8kB/s=28MB/h 例:CD的数据率44.1KHz, 16bits, 2,15共八十五页编码算法作用采用一定的格式来纪录数字数据采用一定的算法来压缩数字数据以减少存贮空间和提高(t go)传输效率包括有损压缩和无损压缩有损压缩指解压后数据不能完全复原,要丢失一部分信息。基本指标之一是压缩比压缩越多,信息丢失越多、信号还原后失真越大应根据不同的应用选用不同的压缩编码算法 数字音频技术指标(续)16共八十五页音频(ynpn)压缩编码技术主要依据(yj)是人耳的听觉特性: 1. 人的听觉系统中存在一个 听觉阈值电平 ,低于这个电平的声音 信号人耳听不到 . 2. 人
9、的听觉存在 屏蔽效应 。当几个强弱不同的声音同时存在时,强 声使弱声难以听到,并且两者之间的关系与其相对频率的大小有 关。4.2音频数字压缩17共八十五页熵编码 如Hufman编码、算术编码以及行程编码等。波形编码 全频带编码如PCM、自适应差分PCM等,子带编码如自适应变换编码ATC、心理学模型等,以及向量量化等在音频中均常常采用。波形编码的特点是在高码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。参数编码 参数编码的方法是将音频信号以某种模型表示,再抽出合适(hsh)的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。参数编码压缩比很高,但计算量
10、大,而且不适合高保真度要求的场合。 主要的音频压缩(y su)编码类型18共八十五页混合编码 是一种吸取波形和参数编码的优点,进行综合的编码方法。感知编码 感知编码利用心理声学分析原理来实现音频压缩。例如MPEG Audio Layer 3 采用的算法ASPEC(Adaptive Spectral Perceptual Entropy Coding of high quality musical signal,高质量音乐信号自适应谱感知熵编码),将原始音频信息数据压缩率达到10:1 甚至(shnzh)12:1。当然这是一种有损压缩,但是人耳却基本不能分辨出失真来。主要的音频压缩(y su)编码
11、类型(续)19共八十五页波 形 编 码 算法 名称 数据率 标准 应用 质量 PCM 脉冲编码调制 公共网SDN配音 4.04.5 -law,A-law -律,A-律 64kbps G.711 APCM 自适应脉冲编码调制 DPCM 差分脉冲编码调制 ADPCM 自适应差分脉冲编码调制 32kbps G.721 SB-ADPCM 子带-自适应差分脉冲编码调制64kbps G.722 5.3kbps 6.3kbps G.723 参数编码 LPC 线性预测编码 2.4kbps 保密话声 2.53.5 混 合 编 码 CELPC 码激励LPC 4.6kbps 移动通信 4.03.7 VSELP 向量
12、和激励LPC 8kbps 语音邮件 RPE-LTP 规则码激励长时预测 13.2kbps ISDN LD-CELP 低延时码激励LPC 16kbps G.728 G.729 MPEG 多子带,感知编码 128kbPs CD 5.0 Dolby AC-3 感知编码 音响 5.0 音频数字压缩编码算法及其特性(txng)比较20共八十五页实际应用中为了得到高的压缩率和好的声音质量,常常要同时利用(lyng)时域-频域分析与心理声学分析,并使用多种编码方法实际应用(yngyng)考虑21共八十五页实际(shj)应用考虑(续)时-频分析可以包含下述技术:单元变换时不变均匀带通滤波器组时变边、临界采样的
13、非均匀带通滤波器组混合变换/滤波器组信号分析器谐波/正弦波分析器源系统分析(LPC/多脉冲激励等)心理声学分析模块根据听觉绝对门限、临界带频率分析、掩蔽(ynb)效应等心理声学原理估计出信号掩蔽(ynb)功率,使量化和熵编码模块可以充分利用时-频分析得到的参数集中的感知不相关性。 量化和编码模块同时也采用经典技术如差分脉冲码调制(DPCM)或自适应DPCM(ADPCM)等来压缩信号的统计冗余。熵编码可能使用RLE、算术编码、赫夫曼编码以及LZW等。 22共八十五页电话质量(zhling)的音频压缩编码技术标准 电话质量语音信号频率规定在300Hz至3.4kHz,采用标准的脉冲(michng)编
14、码调制(PCM),当采样频率为8kHz,进行8bit量化时,所得数据速率为64kb/s。G.711(1972年,CCITT):PCM标准,速率为64kbit/s,采用非线性量化,其质量相当于12bit线性量化G.721 (1984年,CCITT ):ADPCM,32kb/sG.728(1992年,CCITT):LD-CELP,16kb/s,质量与32kb/s的G.721相当GSM(1988年,欧洲数字移动特别工作组): RPE-LTP,13kb/sVSELP(8kb/s)、LPC(2.4b/s)、CELP(4.8kb/s)(美国)音频编码技术标准23共八十五页调幅广播质量的音频压缩(y su)
15、编码技术标准 频率在50Hz至7kHz范围。将输入音频信号经滤波器分成高子带和低子带两个部分(b fen),分别进行ADPCM编码,再混合形成输出码流。可以在窄带综合服务数据网N-ISDN中的一个B信道(64kbits)上传送调幅广播质量的音频信号。高保真度立体声音频压缩编码技术标准 频率范围是50Hz至20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbits。音频编码技术标准24共八十五页 MPEG-1音频(ynpn)MPEG-1音频(ynpn)标准 MPEG-1音频编码标准包括三部分(Layer 1, 2, 3) 层1的编码器最为简单,编码器
16、的输出数据率为384 kbps,主要用于小型数字盒式磁带。 层2的编码器的复杂程度属中等,编码器的输出数据率为256 kb/s192 kb/s,其应用包括数字广播、数字音乐、CD-I和VCD。 层3的编码器最为复杂,编码器的输出数据率为64 kbps,是目前最为流行的一种音乐格式。25共八十五页声音编码系统基本(jbn)结构 在编码器中,输入声音信号(xnho)经过一个“时间-频率多相滤波器组”变换到频域里的多个子带中。 输入声音信号同时经过“心理声学模型”,计算掩蔽特性。 “量化和编码”部分用信掩比(SMR,signal-to-mask ratio)来决定分配给子带信号的量化位数,使量化噪声
17、低于掩蔽域值。 通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧(frame)”的格式组装成数据流。 解码器对数据流进行解码,恢复被量化的子带样本值以重建声音信号。由于解码器无需心理声学模型,因此解码器就比编码器简单得多。26共八十五页(a)编码器 (b)解码器 MPEG音频(ynpn)编解码器基本框图27共八十五页第1层和第2层编码(bin m)在这两层中,用有32个等间距子带的滤波器组将输入声音PCM信号子带分离,再由生理声学模型导出动态比特分配,然后进行子带样值的块压缩和比特流打包。三层音频系统28共八十五页 使用的滤波器组是多相混合滤波器组 使用了心理声学模型来评估掩蔽
18、门限。为了增加编码增益(zngy),采用了非均匀量化和Huffman编码。并且使用了称为比特池的缓存技术来维持编码效率和使量化噪声保持在掩蔽门限以下。第3层编解码29共八十五页 MP3(MPEG-1 Layer 3),是当今较流行的一种音频格式,全称为MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3。MP3是一种有损压缩,它利用了人耳的听觉特性来提高(t go)压缩率的算法。在基本上保持CD音质的前提下,MP3能将音频数据压缩到原有的1/10甚至更少。 MP3格式最早由德国弗朗霍夫研究院和法国汤姆生公司在1993年合作研制成功。但当时的
19、MP3格式并不完善,由于MP3的编码方式开放,人们可以选择不同的原理进行压缩,所以就出现了CBR、VBR、ABR等一批不同的编码方式,并导致了当今MP3编码方式较为混乱的局面,但现在通用的编码器为运用VBR或ABR编码方式的LAME。MP3编解码30共八十五页两种声音数据压缩格式:MPEG-2 Audio,或者称为MPEG-2多声道(Multichannel)声音,又称为MPEG-2 BC(Backward Compatible,后向兼容),与MPEG-1 Audio是兼容的。MPEG-2 AAC(Advanced Audio Coding,先进的音频编码(bin m)),通常称为非后向兼容M
20、PEG-2 NBC(Non-Backward-Compatible,非后向兼容)标准,与MPEG-1声音格式不兼容。 MPEG-2音频(ynpn)31共八十五页MPEG-2音频(ynpn)特点 MPEG-2 Audio是MPEG为多声道声音开发的低码率编码方案,它是在MPEG-1音频标准(biozhn)基础上发展而来的。和MPEG-1音频相比,MPEG-2音频主要增加了三个方面的内容: 增加了声道数,支持5.1声道和7.1声道的环绕声。 扩展了编码器的输出速率范围,由32kbps至384kbps扩展到8 kbps至640kbps。 增加了低取样和低码率。在保持MPEG-1音频的单声道和立体声的
21、原有取样率32/44.1/48kHz的情况下,MPEG-2又增加了三种取样率,即把MPEG-1的取样率降低了一半(16kHz、22.05kHz、24kHz),以便提高码率低于64kbits/s时的每个声道的声音质量。32共八十五页 MPEG-2音频标准把多声道中的中心声道C、左右环绕Ls、Rs及低音效果增强声道LFE等多声道扩展信息看做(kn zu)是MPEG-1左右声道的辅助数据而传送。而多声道扩展部分包含了与MPEG-1声音帧结构相似的信息类型。 MPEG-2音频(ynpn)码流的帧结构 MPEG-2音频多声道扩展部分的数据结构MPEG-2音频特点 33共八十五页MPEG-2 的AAC是M
22、PEG-2标准中的一种非常灵活的声音感知编码标准: 使用听觉系统的掩蔽特性来减少(jinsho)声音的数据 量 通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉 AAC支持的采样频率可从 8kHz到 96kHz AAC编码器的音源可以是单声道的、立体声的和多声道的声音。 MPEG-2的AAC34共八十五页 MPEG-2音频还支持Dolby公司的数字声音数据压缩算法AC-3(Audio Code Number 3)。 AC-3的主要特点是利用人的听觉系统特性来压缩声音数据,并支持5个声道(左、中、右、左环绕、右环绕和0.1 kHz以下的低音音效声道),声音样本的精度为20比特,每个声道的采
23、样率可以是32kHz,44.1kHz或者48kHz。 AC-3系统具有100的自适应比特分配能力,允许(ynx)数据传输率在32kbps至640kbps之间变化。AC-3质量高,编码器的复杂度也高,时延达到100ms。 AC-3编码(bin m)35共八十五页 MPEG-4音频标准分为自然音频编码和合成音频编码两大类。 自然音频编码提供三种编码方案,即参数编码,码本激励线性预测编码,时间/频率(T/F)编码。 合成音频编码提供两种编码方案,即结构音频(和文语转换(TTS,text-to-speech)。 每个编码方案都按照两部分来组织标准的内容:标准部分描述(mio sh)解码的语法和解码过程
24、,附录部分描述(mio sh)编码器和接口。 MPEG-4音频(ynpn)36共八十五页 MPEG-4(ISO/IEC 14496)已建立了两个版本,正在开发第3版。MPEG-4音频(ynpn)部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频(ynpn),从自然声音到合成声音。它支持下述成分组成的音频(ynpn)对象: 语音信号:能通过使用语音编码工具实现位速在2kbps到24kbps间的语音编码。 合成语音:可缩放的TTS编码器的位速在200bps到1.2kbps之间。它允许一个文本或带有韵律参数的文本(基音轮廓,音素持续期等等)MPEG-4音频(ynpn)37共八十五页MP
25、EG-4 ALS2005年7月形成了MPEG-4 ALS的最终规格,并被国际标准组织接纳成为标准ISO/IEC 14496-3:2005/Amd 2:2006 Audio Lossless Coding (ALS) MPEG-4 ALS 同时面向专业应用和消费应用而定义了高效、快速的无损音频压缩技术。它提供了许多其它无损压缩方案所缺乏的特性:对几乎所有未压缩数字音频格式的通用性支持,包括wav、aiff、au、bwf以及raw格式;支持PCM格式音频最大采样位数32位以及任意采样频率的任意组合,包括最常见的 16位/44.1kHz、16位/48kHz、24位/48kHz、24位/96kHz和2
26、4位/192kHz;支持多声道/多音轨,最高支持65536个声道,包括5.1环绕方式(fngsh);支持32位IEEE浮点数音频数据;可快速地随机访问已编码数据的任何部分;可选择以MP4文件格式保存,支持与视频复合。高度灵活的编解码参数,可适应各种场合的应用。38共八十五页mp3HD 在各种开放源码的无损音频压缩格式流行了多年之后,mp3也终于搭上了这趟车。mp3专利的持有人之一,纽约期货市场上市公司Thomson于2009年3月19日发布了mp3格式的最新技术:mp3HD。 mp3HD与mp3相比是完全不同的技术:mp3HD是无损压缩格式,也即从压缩的音频中可以还原出与原始音频一模一样的数据
27、。 使用mp3HD技术可以把音频数据的大小缩减为在最好情况下是原来的37%的大小,而在最坏情况下也能达到原数据大小的65%左右 由于有着mp3这个被广泛使用的有损音频压缩格式,因此(ync)mp3HD保留了对旧格式的兼容能力,包括:mp3HD本身的解码器将会向后兼容原来的mp3格式;对于旧有的mp3播放器,mp3HD文件可以通过内嵌有损压缩的mp3文件来达到兼容播放的目的;mp3HD文件也同样使用mp3作为文件扩展名;依旧使用ID3标记来在音频文件中存储与音频相关的文本信息。保持兼容型既是mp3HD的优点,也是mp3HD的历史包袱。39共八十五页 文-语转换是将文本形式的信息转换成自然语音的一
28、种技术,其最终目标是使计算机输出清晰而又自然的声音,也就是说,要使计算机像人一样,根据文本的内容可带各种情调来朗读任意的文本。TTS是一个十分复杂的系统(xtng),涉及到语言学、语音学、信号处理、人工智能等诸多的学科。文本合成语音理解韵律生成韵律控制语音生成文本-音素转换 TTS系统(xtng)方框图文-语转换40共八十五页电子音乐合成 产生乐音的方法(fngf)很多,现在用得较多的方法(fngf)有模拟合成和数字合成两大类。模拟合成法,包括减法合成(滤波器 )和加法合成。数字合成法,包括频率调制合成(FM),波表合成(Wavetable),线性形合成(LA),先进集成式合成(AI),先进向
29、量合成(AV),可变结构合成技术(VAST)。 计算机中采用数字音乐合成技术,主要采用两种方法: 频率调制合成法(Frequency Modulation Synthesis) 波表合成法(Wavetable Synthesis,也称为乐音样本合成法) 电子音乐(din z yn l)合成与MIDI41共八十五页频率调制(FM,Frequency Modulation)合成 是通过硬件产生正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起,理论上可以(ky)有无限多组波形。每一个FM声音最少需要两个信号发生器,一般称为“操作器(operators)”。复杂的FM系统每一个音可以使用4或6
30、个操作器。 频率调制(tiozh)合成42共八十五页使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。波表合成(乐音样本合成)法是将每种真实乐器发出的声音抽样,加以适当的处理后存储成声音样本(音色文件),记录在合成器的内存当中,需要时,调用相应样本来合成该乐器的乐音。内存器的容量(rngling)越大,合成效果越好,价格也越贵。波表合成合成器所需要的输入控制参数比较少,可控的数字音效也不多,产生的声音质量比FM合成方法产生的声音质量要高。波表合成(hchng)43共八十五页 Wavetable合成器的工作(gngzu)原理Wavetable合成器的工作(gngzu)原理44
31、共八十五页MIDI(Musical Instrument Digital Interface,乐器数字接口)20世纪80年代早期问世MIDI提供一种标准的方式实现与音乐控制器如键盘之类到声音生成器如合成器和鼓声合成器等的接口MIDI并不传输(chun sh)声音,而是传输(chun sh)非常简单的消息MIDI概述(i sh)45共八十五页从电气(dinq)角度看,MIDI是一个半双工的5ma电流回路,以31.25 K波特(kilobaud)的位率运载8-bit的序列数据流经由MIDI “交谈”的两个装置能够用光隔离器(opto-isolators)被电气地隔离,确保硬件系统的安全和无干扰运行
32、音频卡连结到一个外部的声音生成器或MIDI控制器时需要特定的电缆从信息的角度,MIDI是一种描述音乐上重要实时事件的语言通过16个信道通信 ,一个接口允许多达16个MIDI乐器播放,16个乐器能够从一个装置同时地播放增加第二个MIDI接口则连通另外的 16个MIDI信道一些MIDI接口提供多达16个输出,使它能够在同一时间存取256个信道。MIDI概述(i sh)(续)46共八十五页MIDI并不传输声音,而是传输接收装置回应的非常简单的消息乐器经由一个标准的5-DIN插头连接起来例如:当在键盘上压一个键的时候,它向MIDI电缆送一个音符响(Note On)消息,命令接收装置播放一个音符。消息由
33、三种元素所组成:一个状态字节:关于事件(shjin)类型(在这种情况时是Note On)的信息以及它要被送往的信道 (1至16号信道)一个音符号:描述被压的键,例如是中C调速度值:指出打击键的力量接收装置将会播放这一个音符直到收到包含相同数据的一个音符停止(Note Off)消息。合成器根据正在被播放的声音将以不同速度回应例如,当更激烈地击键时,钢琴声将更大声。音调的质量也要改变。专业的合成器时常引入额外的音色来模仿槌敲击弦的声音。连续控制器 (CC,Continuous Controllers)通常用来控制设定音量、效果水平和改换声道(pan,即横过一个立体声场的声音的定位)等。许多MIDI
34、装置可以分配内部参数到 CC,有128种选择。MMA(MIDI Manufacturers Association,MIDI制造业者协会)为合成器开发了规范,称为通用MIDI。MIDI概述(i sh)(续)47共八十五页MIDI电子乐器通过MIDI接口与计算机相连计算机可采集MIDI电子乐器发出的一系列指令并记录到以 .MID为扩展名的MIDI文件(wnjin)中计算机可对MIDI文件进行编辑和修改。最后,将MIDI指令送往音乐合成器合成器将MIDI指令符号进行解释并产生波形,然后送往扬声器播放出来用PC构成(guchng)的MIDI系统MIDI音乐的产生48共八十五页MIDI的新进展包括:
35、新MIDI接口 多工MIDI操作系统 网络音乐 可下载(xi zi)声音(DLS,downloadable sounds) MIDI的新进展49共八十五页语音识别一直是人类的梦想,其最终目标是实现人与机器进行自然语言通信 。最早的机器自动语音识别研究工作开始于20世纪50年代。当时的Bell实验室实现了第一个可识别十个英文孤立数字的语音识别系统Audry系统。20世纪60年代,计算机的应用推动了语音识别的发展。提出了动态规划和线性预测分析技术。20世纪70年代,取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代,语音识别研究进一步走向深入。HMM模型和人工
36、神经元网络(ANN)在语音识别中成功应用。进入20世纪90年代,随着多媒体时代的来临,许多著名公司都为语音识别系统的实用化开发(kif)研究投以巨资。我国语音识别研究工作一直紧跟国际水平,国家也很重视。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。语音(yyn)识别50共八十五页 按说话方式分:孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。 根据对说话人的依赖程度分:特定人和非特定人语音识别系统。 根据词汇量大小(dxio)分:小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。 面向任务(rn wu)的语音识别系统的一般方块图语音识别系统的分类51共八十
37、五页语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。 语音识别单元有单词(句)、音节和音素三种,具体选择哪一种(y zhn),由具体的研究任务决定。 单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有1300多个音节,但若不考虑声调,约有410来个无调音节,数量相对较少。 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越
38、多地采用。虽然增加了模型数目,但提高了易混淆音节的区分能力。如何获得稳定的音素单元,还有待研究。 语音(yyn)识别技术52共八十五页 语音的多变性,表现在讲话(jing hu)风格(例如,字斟句酌)、语音质量(例如,伴有呼吸声,窃窃私语等)、讲话(jing hu)速率、上下文环境和重读等的变化性很大。 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在该环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。 高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找
39、新的信号分析处理方法。困难(kn nn)与对策53共八十五页困难(kn nn)与对策(续)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术细节要解决。为了解决这些问题,研究人员提出了各种各样的方法(fngf),如自适应训练,基于最大互信息准则(MMI)和最小区别信息准则(MDI)的区别训练和
40、“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络,等等。所有这些努力都取得了一定成绩。综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。54共八十五页目前世界各国都加快了语音识别应用系统的研究开发,并已有一些实用的语音识别系统投入商业运营。典型而成功的语音识别系统:VRCP系统。ATT于1992年开发。五个单词(collect,person,third number,operator和calling card)、非特定人小词汇量语音识别系统,现已应用于ATT通信网上,可以(ky)实现自动话务员协助式呼叫,代替话务员完成五种呼叫类
41、型,即 collect call(受话人付费电话),命令字col1ect person-person-call(定人呼叫),命令字person third-party-billing-call(第三方付费电话),命令字third number operator-assisted call(话务员协助呼叫),命令字operator credit card call(信用卡呼叫),命令字calling cardAT T 800语音识别服务系统NTT ANSWER语音识别银行服务系统Northen Telecom股票价格行情系统语音识别(shbi)的应用55共八十五页随着软、硬件的不断发展,传统的双
42、声道单层面立体声音场,已经不能满足人们的需要。为了得到更好的立体感受和空间感受,科学家借助数字化音频生成了一种全新的声音-仿真3D音效。日常生活中,我们用两只耳朵来听东西,从各处音源中获得信息,再通过人脑的计算来定位声音。计算机仿真人脑的3D音效计算,通过数字音源播放出来,让我们感到自己(zj)处身于虚拟的世界。3D音频(ynpn)56共八十五页人耳的基本声音定位原理是IID (Interaural Intensity Difference,两侧声音强度差别(chbi))和ITD (Interaural Time Difference,两侧声音时间延迟差别(chbi)) 。IID指距离音源较近
43、的那一只耳朵,所收到的声音强度比另一侧高。ITD指方位的不同,使声音到达两耳的时间有差别,人们会觉得声音位于到达时间早些的那一边IID+ITD的结果是把音源定位到以听者两耳之间连线为轴线的锥体范围之内。耳廓(外耳):作用是滤波器反射:许多时候,人听到的声音并不是直线进入耳朵,而是通过了几次反射才进入大脑。仿真3D音效需要还原以上定位效果:IID、ITD、耳廓、反射,并分析不同角度声音发生的变化,通过计算机仿真合成来建立一种称为数字化音场的虚拟声音系统。人类(rnli)的听觉57共八十五页HRTF(Head Related Transfer Function,头部关联传送功能)是一种依靠听到的声
44、音来判断它发出位置的系统每个人的HRTF都不尽相同,还可以进行交换。如果有一套HRTF能够很好地对声音进行定位,那么此系统也能让位于虚拟世界的人获得同样准确的声音信息。HRTF的检测:先在人的耳道内放置两个(lin )微型麦克风,再在听者附近放一个音箱,播放确定的信号,同时记录麦克风收到的信号。比较源信号和麦克风的脉冲特性曲线就可以得到其中一个滤波效果。最后于听者附近的所有位置重复上述过程。HRTF58共八十五页视听协同作用:在现实世界(shji)中,我们不仅是靠耳朵来获得声音的位置,有时还按照视听协同作用来定位声音。 头部运动也对HRTF有影响:例如,不能判断声音位于前方还是后方时,只需把头
45、部向左或向右转动一些就可以定位了。 科学家设计出相应的数字信号处理软件和算法有效地依据声学和心理学产生的特定滤波效果,实时地运用于音频信号上。HRTF的应用非常广泛,包括视频会议、游戏、战斗机座舱警报和空中交通管制。HRTF59共八十五页 3D音效的两个最重要因素是定位和交互。定位即让人们准确地判断出声音的来源。实时的定位就是交互,声音并非预先录制好的,而是按照你的控制来决定声音的位置。1、Extended Stereo(扩展式立体声) 它使用声音延迟技术对传统的立体声进行额外处理,使声音延展到音箱以外的空间。这是一种被动技术,只能称之为3D定位音效。2、Surround Sound(环绕立体
46、声) 它采用音频压缩技术(如杜比AC-3)把多通道音源编码成一段程序,再以一组多扬声器系统来进行解码,实现多区域环绕效果。最适合于电影播放。环绕立体声的主要工作是编/解码。3、Interactive 3D Audio(交互式3D音效) 交互式3D尽量地复制了人耳在真实世界中听到的声音,并使用一定的算法(sun f)来播放出来,让我们感到整个三维空间的所有地方都可能产生声音,并随听者的移动而作出相应改变。它是最接近实际生活的3D音效,通常应用于第一人称3D游戏。3D音效(yn xio)分类60共八十五页音频卡的应用音频卡(Audio Card)即语音卡(Sound Card),其功能是使计算机能
47、够处理音频信号。除了产生声音,音频卡同时还作为CD-ROM接口。早期的音频卡是一种可插拔的卡,现在很多主板生产商已经把它集成在计算机主板上了。音频卡不但使游戏和多媒体应用中的声音质量更好,而且越来越丰富的软件可以(ky)让用户写作、编辑和混合他们自己的音乐,学习演奏自己选择的乐器,以及记录、编辑和播放各种数字音频。音频(ynpn)应用61共八十五页音频(ynpn)卡的基本组件62共八十五页音频(ynpn)卡Platinum 5.1版本音频卡的连接(linji)特性63共八十五页Creative公司2000年末上市的音频卡Platinum 5.1版本安装了下述插座和连接器:模拟/数字输出插座:6
48、通道或压缩的Dolby AC-3 SPDIF输出,用于连接外 部数字设备或数字扬声器系统;还支持中心和超低音扩音器(subwoofer)模拟通道,用于连接到5.1模拟扬声器系统线路输入插座:连接到外部设备如磁带、DAT或MiniDisc播放器麦克风输入插座:连接到外部麦克风,作声音(shngyn)输入线路输出插座:连接到有功率放大的扬声器或外部放大器,作语音输出;还支持耳机后背输出插座:连接到有功率放大的扬声器或外部放大器,作语音输出操纵杆/MIDI连接器:连接到操纵杆或MIDI设备;能自适应同时连接到这两者D/SPDIF连接器:连接到CD-ROM或DVD-ROM驱动器上的SPDIF(数字音频
49、)输出AUX(辅助)连接器:连接到内部音频源如TV调谐器,MPEG或其他类似的卡CD音频连接器:使用CD音频电缆连接到CD-ROM或DVD-ROM上的模拟音频输出电话问答设备连接器:提供高一个到标准声音调制解调器的连接并传送麦克风信号到调制解调器音频扩展(数字I/O)连接器:连接到数字I/O卡或Live! Drive音频卡的连接(linji)特性64共八十五页1SoundBlaster AdLib音频卡的硬件配置是第一个重要的标准,而Creative Labs的SoundBlaster则引领着在个人计算机上为数字音频建立非常必需的标准。当SoundBlaster 单声标准(8-bit的产品)成
50、为成熟的标准,现实世界改进了立体声的能力 (SoundBlaster Pro),而且(r qi)质量提高到CD清晰度 (SoundBlaster 16),一直引领着音频卡的发展,而使用者友好的AWE32实现了老用户多年的宿愿。 在今天市场上出售的大多数的音频卡都支持 SoundBlaster和通用MIDI标准,而且能够记录和播放44.1 kHz的立体声。这是CD-audio的清晰度,这也就是为什么音频卡常常被称为具备“CD-质量”声音的原因。音频(ynpn)卡的标准65共八十五页微软首先(shuxin)在Windows 95中推出的 DirectX 标准,其思想是提供被称为API(Applic
51、ation Programming Interfaces)的命令引导。 DirectX 1和 2 的声音部分称为 DirectSound,提供基本的左和右立体声的改变效果(panning effects)。当与其他的 DirectX 组件配合时,这就使软件开发者能够直接将多个音频流写到任何与DirectX兼容的音频卡,同时利用 3D声效。 DirectX 3 引入DirectSound3D(DS3D),提供多种指令在 3D空间中的任意地方放置一种声音。 DS3D的位置声音是最新一代PCI音频卡支持的特性之一。通过简单地放置,位置声音操纵声音的特性使他们来自一个特定的方向,比如在左后或远离左边之
52、处。 DirectX66共八十五页DirectX 6的DirectMusic组合MIDI,支持硬件加速和软件合成,并具备(jbi)一个用于采样样本的一体化的递送系统,提供了一种经济的方法来递送专业质量的音乐演出,并用缓冲的、加时戳的事件和全球时间参考等技术解决了困难的定时问题。DirectX 8将DirectSound 和 DirectMusic整合进DirectX 音频组件之内,为以用处理正常的声轨一样的方式处理合成音乐碎片铺平了道路。DLS2(Downloadable Sounds Level 2,第2级可下载声音)标准使下述成为可能:将原本为合成的(MIDI)音乐而设计的效果如混响之类应
53、用到标准的WAV 格式声文件上。藉由DirectX 8 ,使用者能合成声音,用正常的声轨混合它,然后在一个公共的 3D音频接口里处理该统一的音轨。DirectX67共八十五页 EAX(Environmental Audio Extensions,环境音频扩展)是Creative Technology公司于1998年在其SoundBlaster Live!声卡在中1998年第一次引入的,用一个简单的方法把混响(reverberation)加入 DS3D中。1999年发布的公告(gnggo)介绍了EAX 3.0在环境之间的“变换(morph)”的能力,允许开发者放置并且控制早期反射群,和反映子弹弹
54、回效果的一次快射反射(one-shot reflections),并充分利用HRTF之类的技术在一对单一的扬声器上合成位置声音。EAX68共八十五页PCI 音频芯片在1996年开始出现的时候,其形式或者是以集成在母版上,或者是集成在插入于一个 PCI 扩充槽中的一块卡上。PCI 总线理论上可支持(zhch)快达132 MB/s的数据传输。由于PCI卡具有更好的交付性能,能够为像混合多音频流和处理3D位置流等先进应用提供必要的性能。总的来说,PCI可能以比ISA高10至20倍的效率处理音频流。 PCI 音频(ynpn)69共八十五页 USB声音是瑞士半导体公司 Micronas 开发的一种技术。
55、USB(声音控制器把DSP(数字信号处理器)、DAC(数字-模拟转换)、运算放大器和一个USB控制器集成到一个外部单元,平衡一个扬声器所需的附件以及不用声卡而直接连接扬声器到个人计算机所必需的一切都包含在此单元中。除减少花费外,该技术提供许多终端用户利益,比如在单元上改变扬声器音量和单元本身(bnshn)上的平衡的能力,以及声音专业人士通过Excel表单接口对单元进行编程的能力。 USB声音(shngyn)70共八十五页在2002年早些时候,Creative Labs发布了另一个基于USB的产品,以及一个继续最大连接性的方案的产品,此方案与他们的Live!Drive概念一起非常流行。在该公司的
56、成功Audigy声卡的一个外部版本基础上,Extigy优于传统PCI声卡之处在于它的普适性,原因在于它的连接性以及它能被任何类型的个人计算机(桌面机,笔记本计算机或膝上型电脑(dinno))使用的能力。USB声音(shngyn)71共八十五页 数字音频的存储格式有多种。其中,WAVE格式是一种Windows 下通用的数字音频标准,支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。波形文件由许多不同类型的文件构造块组成,其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述(mio sh)波形的重要参数,例如
57、采样频率、样本精度等等,数据块则包含有实际的波形声音数据。WAVE文件(wnjin)结构 groupID = RIFFriffType = WAVE格式块ckID = fmt声音数据块ckID = data4.9.2 音频文件格式72共八十五页WAVE格式(g shi)在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以(ky)达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。73共八十五页mp3P
58、RO 编码(bin m)2001年6月14日,美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute) 发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案。mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。SBR最大的优势就是在低数据速率下实现非常高效的编码,可以改善低数据流量下的高频音质,改善程度约为30%,可以事先预知(y zh)这种改善可以
59、让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的)。74共八十五页WMAWMA就是Windows Media Audio编码后的文件格式,由微软开发,WMA针对的不是单机市场,是网络!竞争对手就是网络媒体市场中著名(zhmng)的Real Networks。微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质。和以往的编码不同,WMA支持防复制功能,她支持通过Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。WMA
60、支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。 75共八十五页RARA就是RealAudio格式,这是网上用得非常多的一种格式,大部分音乐网站的在线试听都是采用了RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码,包括(boku)ATRAC3。和WMA一样,RA不但支持边读边放,也同样支
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金融服务外包案例
- 幼儿期口腔护理常规
- 方案策划范文集合六篇
- 6.6爱眼日活动工作总结10篇
- 西班牙课件教学课件
- 学生道歉信(汇编15篇)
- 大学生社会实践心得体会【5篇】
- 升职申请书范文集合7篇
- 植树节倡议书模板集合七篇
- 2022秋季学校工作计划10篇
- 小儿全麻患者术后护理
- 理论力学(浙江大学)知到智慧树章节答案
- 云南省普通高中2023-2024学年高一上学期1月期末学业水平考试技术试卷
- JGJ-T490-2021钢框架内填墙板结构技术标准
- 2024年移动解决方案经理认证考试题库大全-中(多选题)
- 破碎锤项目营销计划书
- DB11T 715-2018 公共汽电车场站功能设计要求
- 挖掘机技术培训
- 2024秋期国家开放大学专科《管理学基础》一平台在线形考(形考任务一至四)试题及答案
- LED电子显示屏投标书三篇
- 森林康养 课件
评论
0/150
提交评论