第2章音频信号处理技术

上传人：a*** IP属地：湖北上传时间：2023-02-05 格式：PPT 页数：104 大小：1.06MB 积分：28 举报 版权申诉

已阅读5页，还剩99页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第二章:音频信号处理技术

教学建议以介绍多媒体计算机中声音的特性、类型与处理等音频信号处理技术的基本原理为主，并讲述常用软件的使用以及应用前景。本章需6~8学时。2/5/2023第二章:音频信号处理技术教学提示

声音是携带信息的极其重要的媒体,音频信号处理技术是多媒体信息处理中的核心技术之一，它是多媒体技术和多媒体产品开发中的重要内容。本章主要介绍多媒体计算机中音频信号处理技术的基本原理、硬件、软件以及应用前景。教学目标

通过学习本章内容，要求大家掌握计算机声音处理的常用技术与原理，了解声音处理硬件的基本构成、常用的声音合成方法、声音的编码与压缩技术、数字音频的合成以及数字声音的应用知识。

2/5/2023教学内容1声音的特性、类型与处理2声卡的构成与功能3声音信号的数字化4声音文件的存储格式5电子乐器数字接口(MIDI)系统

2/5/2023

MultimediaTechnology&Application教学内容6音频信息的压缩技术7数字语音的应用语音识别语音合成8声音媒体编辑软件的应用

Windows的录音机软件声音编辑软件CoolEdit9本章小结

2/5/2023

MultimediaTechnology&Application

2.１声音的特性、类型与处理

2.1.1声音的特性

自然界中声音是靠空气传播的声音在空气中能引起非常小的压力变化声源所引起的空气压力变化，被耳朵的耳膜所检测，然后产生电信号刺激大脑的听觉神经，从而使人们能感觉到声音的存在。自然界的各种声音大都具有周期性的强弱变化的特性，因而也使得输出的压力信号周期变化

2/5/2023

MultimediaTechnology&Application声音的正弦波特性

2/5/2023

MultimediaTechnology&Application2.1.1声音的特性有关的名词术语将曲线上的任一点再次出现所需时间间隔称为周期。而一秒钟内声音由高(压力强)到低(压力低)再到高(压力强)，这样一个循环出现的次数称为频率。频率越高，声音越高，以赫兹(Hz)为其度量单位。一个系统能够接收的频率是有限的，人们把系统能够接受的最低的听觉和最高频率之间的范围称为系统的带宽(Bandwidth）。人类能够接受的听觉带宽是从20Hz到20KHz。

2/5/2023

MultimediaTechnology&Application2.1.1声音的特性声音的三要素即为音调、音强、音色。音调与声音的频率有关，频率快则声音高，频率慢则声音低。音强又称响度，取决于声音的幅度，即振幅的大小和强弱。而音色则由混入基音的泛音所决定的，每个基音又都有其固有的频率和不同音强的泛音，从而使得每个声音具有特殊的音色效果。

2/5/2023

MultimediaTechnology&Application2.1.1声音的特性声音的连续谱特性声音是一种弹性波，声音信号可以分成周期信号与非周期信号两类。周期信号即为单一频率音调的信号，其频谱是线性谱；而非周期信号包含一定频带的所有频率分量，其频谱是连续谱。真正的线性谱仅可从计算机或类似的声音设备中才能听到，这种声音听起来十分单调。

2/5/2023

MultimediaTechnology&Application2.1.1声音的特性声音的方向感特性声音的传播是以声波形式进行的。由于人类的耳朵能够判别出声音到达左右耳的相对时差、声音强度，所有能够判别出声音的方向以及由于空间使声音来回反射而造成声音的特殊空间效果。现在的音响设备都在竭力模拟这种立体声效果和空间感效果。

2/5/2023

MultimediaTechnology&Application2.1.1声音的特性声音的时效性声音具有很强的时效性，没有时间也就没有声音，声音适合在一个时间段中表现。声音常常处于一种伴随状态，如伴音、伴奏等，起一种气氛渲染的作用。由于时间性，声音数据具有很强的前后相关性，因而，数据量要大得多，实时性要求也比较高。

2/5/2023

MultimediaTechnology&Application2.1.1声音的特性声音的质量声音的质量与声音的频率范围有关。一般说来，频率范围越宽声音的质量就越高。对语音而言，常用可懂度、清晰度、自然度来衡量；而对音乐来说，保真度、空间感、音响效果都是重要的指标。

2/5/2023

MultimediaTechnology&Application2.1.2声音的类型与处理不同种类声音频宽次声（Infra-sound） 0-20Hz 电话语音 200Hz—3.4KHz 调幅广播 50Hz—7KHz 调频广播 20Hz—15KHz 音响 20Hz—20KHz 超声（Ultrasound）20kHZ-1GHz特（强）超声（Hypersound) 1GHz-10THz

2/5/2023

MultimediaTechnology&Application2.1.2声音的类型与处理声音质量评价标准级别评价失真级别

1优（Excellent）感觉不到声音失2 良（Good）

刚察觉但不讨厌3 中（Fair）

声音有些失真，有点讨厌4 差（Poor）

声音失真，不令人反感5 劣（Bad）

严重失真，令人反感

2/5/2023

MultimediaTechnology&Application2.1.2声音的类型与处理自然界中的声音可分为四种类型：次声、可听声、超声与特超声（1GHz—10THz）人类的听觉能范围是20Hz—20KHz,次声、超声与特超声均非可听声。多媒体计算机主要处理的是人类听觉范围内的可听声。声音的处理主要有：声音的录制、回放、压缩、传输和编辑等

2/5/2023

MultimediaTechnology&Application2.1.2声音的类型与处理模拟音频和数字音频（1）模拟音频(Analogaudio)

模拟音频是一种连续的模拟量，以电的、磁的等形式表示。例如当我们对着麦克风讲话时，麦克风能根据它周围空气压力的不同变化而输出相应连续变化的电压值，这种变化的电压值便是一种对我们讲话声音的模拟，是一种模拟量，称为模拟音频。计算机不能直接处理模拟音频

2/5/2023

MultimediaTechnology&Application2.1.2声音的类型与处理模拟音频和数字音频（2）数字音频(Digitalaudio)数字化音频的获得是通过每隔一定的时间间隔测一次模拟音频的值(如电压)并将其数字化。这一过程称为采样，每秒钟采样的次数称为采样率一般地，采样率越高，记录的声音就越自然，反之，若采样率太低将失去原有声音的自然特性，这一现象称为失真。由模拟量变为数字量的过程称为模—数转换。由上述可知：数字音频是离散的，而模拟音频是连续的，数字音频质量的好坏与采样率密切相关。数字音频信息可以被计算机存储、处理和播放。

2/5/2023

MultimediaTechnology&Application2.1.2声音的类型与处理多媒体计算机中录音/放音的处理过程

2/5/2023

MultimediaTechnology&Application2.2声卡的构成与功能

声卡可分为三类：第一类为低档声卡，此类卡仅提供比较单一的声音，音质较差，无录音功能第二类为中档声卡，这类声卡具有立体声音质，ＭＩＤＩ音乐、录音、播放等功能，能满足一般的多媒体应用需求。第三类为高档声卡，此类声卡除具有中档声卡的所有特点外，一般都带有专用的数字信号处理器DSP，可用于高级音乐编辑、创作，实时语言识别等功能。

2/5/2023

MultimediaTechnology&Application2.2声卡的构成与功能2.2.1声卡的组成

声卡的结构声卡主要有四个组成：AD/DA转换器AD/DA转换器负责录音及播放*.WAV格式的波形文件。电子合成器（Synthesizer）电子合成器负责MIDI乐曲的合成可以及时创造各种音乐。混音器（Mixer）混音器（Mixer）它是一个处理音效控制的芯片，负责调节各声音来源的音量、混音与调整录放音的音量大小。CD音频连接器(CD-Audioconnector)CD音频连接器可以接收光盘机中的音乐信号。

2/5/2023

MultimediaTechnology&Application2.2声卡的构成与功能声卡的基本结构

2/5/2023

MultimediaTechnology&Application2.2声卡的构成与功能声卡的基本结构

2/5/2023

MultimediaTechnology&Application2.2声卡的构成与功能

2.2.2声卡的主要功能

（1）录制与播放声音通过接在声卡上的话筒录制声音，并以文件形式保存在计算机中，随时可打开声音文件进行播放。声音文件的格式可因使用不同的软件而不同。（2）音乐合成利用声卡上的合成器将存储在计算机内存中的MIDI文件合成为音乐乐曲。通过混合器混合和处理多个不同音频源的声音，控制和调节音量大小，最后送至音箱或耳机播放。

2/5/2023

MultimediaTechnology&Application2.2声卡的构成与功能

2.2.2声卡的主要功能

（3）压缩和解压缩音频文件目前，大多数声卡上都固化了不同标准的音频压缩和解压缩软件，常用的压缩编码方法有ADPCM(自适应差分脉冲编码调制)和ACM(微软音频压缩管理器)等，压缩比大约为2:1~5:l。（4）与MIDI设备和CD驱动器的连接通过声卡上的MIDI接口，计算机可以同外界的MIDI设备相连接，如连接电子琴、电吉他等，使MPC具有创作电脑乐曲和播放MIDI文件的功能。游戏杆也可通过MIDI接口与计算机相连接，使游戏玩起来得心应手。

2/5/2023

MultimediaTechnology&Application2.2声卡的构成与功能声卡与其它设备连接（图2.3）

2/5/2023

MultimediaTechnology&Application2.2声卡的构成与功能声卡中的插孔连接方法声卡中的linein插孔可连接录音机、袖珍CD播放机和合成器等，将其播放的音信息输入计算机；Microphone插孔与麦克风相连，用于录音；Lineout可与喇叭、耳机或功放相连Joystick/MIDIAdapter可与游戏操纵竿,MIDI设备相连。

2/5/2023

MultimediaTechnology&Application2.2.3声卡的性能指标

声卡的性能指标决定了声卡声音采集、合成与播放的质量，主要取决于以下几个方面：

(l)采样分辨率

(2)采样速率

(3)

声道数

(4)兼容性

(5)功能接口

2/5/2023

MultimediaTechnology&Application声卡的技术标准具有常用多媒体功能的声卡，一般应具备下列技术标准：ＰＣＭ播放和录音数字音频格式乐器数字接口MIDI

其他标准

2/5/2023

MultimediaTechnology&ApplicationPCM播放和录音PCM(PulseCodemodulation:脉冲编码调制)是一种数字化音频的处理技术,该技术被目前大多数声卡所采用。提供播放和录制PCM音频文件的功能对任何一个实用的声音装置都是必须的。因为有大量的数字语音的应用需要用到PCM播放和录音功能,在这些应用中,包括语音注释、语言识别、语音合成、语音邮件、语音剪辑、娱乐软件的声音效果等。

2/5/2023

MultimediaTechnology&Application数字音频格式对大多数应用而言,声卡应能支持下列每一种播放和录音格式。11.025KHz,22.05KHz和44.1KHz的8位/16位单声道/立体声采样。自适应增量脉冲编码调制(ADPCM)4:1压缩/解压缩u律/a律2:1压缩/解压缩

上述第一条软件所构成的格式直接由多媒体Windows95/Windows98/Windows2000提供支持。

2/5/2023

MultimediaTechnology&Application乐器数字接口MIDI声卡中的MIDI（MusicalInstrumentDigitalInterface）及音乐合成功能也是一个声卡最基本的性能指标。作为一个用于控制电子音乐设备的标准化的串行通讯协议于1983年提出来的。MIDI音乐的制作与播放

MIDI键盘实时演奏计算机键盘输入乐谱音序器软件MIDI文件媒体播放器MIDI合成器MIDI音乐乐器数字接口MIDI

MIDI协议允许电子合成器之间相互通讯,而不管是谁家生产的。具有这种功能的声卡能够和MIDI乐器相连,供作曲家或专业音乐人员演奏音乐,并转换成专用的MIDI代码存贮在计算机中,同时这种声卡也能根据计算机存放的MIDI代码,合成各种电子乐器声音。可具有多种旋律、音调、速度,并可多种乐器合奏。2.3声音信号的数字化为什么要将声音数字化？自然界的声音是一种模拟的音频信息，是连续量。而计算机只能处理离散的数字量，这就要求必须。优点：传输时抗干扰强，存储时重放性能好，易处理，能进行数据压缩，可纠错，容易混合，bitsaboutbits...音频信息数字化，其关键的步骤是采样、量化和编码。

方法（即数字化有3个步骤）：1.采样（Sampling）2.量化(quantization:ADconversion）3.编码(Encoding）2.3声音信号的数字化采样量化编码模拟音频数字音频01101001……

2/5/2023

MultimediaTechnology&Application

2.3.1

采样

数字化音频的获得是通过每隔一定的时间间隔测一次模拟音频的值(如电压)并将其数字化。这一过程称为采样原理:用一定速率的离散采样序列可以代替一个连续的频带有限的信号而不丢失任何信息奈奎斯特采样定理“Forlosslessdigitization,thesamplingrateshouldbeatleasttwicethemaximumfrequencyresponse.”

即：我们要获得一个无损的采样，就必须以波形最高允许频率的两倍作为采样率。

2/5/2023

MultimediaTechnology&Application采样率每秒钟采样的次数称为采样率取样频率的大小决定带宽例如：人类能够接受的听觉带宽是：２０Ｈｚ--２０ＫＨｚ。按照这个理论，要产生听得见的频率范围需要大于40KHz的采样率。所以，菲利浦和索尼公司在设计光盘(ＣＤ)时，选择了44.1KHz的采样率。这个采样频率也是Windows所支持的较高采样率。在Windows下所支持的其它采样率还有11.025KHz和22.05KHz，

2/5/2023

MultimediaTechnology&Application采样精度

采样精度:在数字化系统中，样本大小是用每个声音样本的位数bit/s(即bps)表示的，它反映度量声音波形幅度的精度。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。通常，采样率越高，记录的声音就越自然，反之，若采样率太低将失去原有声音的自然特性，这一现象称为失真。

2/5/2023

MultimediaTechnology&Application声音的采样（a）与量化(b)量化采样图2.5

2/5/2023

MultimediaTechnology&Application2.3.2

量化（Quantization）what?：将采样后得到的音频信息数字化的过程称为量化A/Dconversion？：由模拟量变为数字量的过程称为模—数转换。methods：均匀量化，非均匀量化

resolution(4,6,8,12,16bits)量化位数决定了动态范围和噪声大小输入输出输入输出均匀量化非均匀量化

2/5/2023

MultimediaTechnology&Application量化器的分类：标量量化器（无记忆量化器）：每次只量化一个取样值。矢量量化器（有记忆量化器）：每次量化一组取样值。

2/5/2023

MultimediaTechnology&Application2.3.3

编码（Encoding）

见2.6音频信息的压缩技术

数据编码技术又称压缩技术由于声音的数字化,将有大量的数据需要计算机存贮，如果对这些音频数据不加编码压缩，则很难在个人计算机上实现多媒体功能。实时地压缩音频信号的数据量是多媒体计算机不可回避的关键技术问题之一。数据压缩是可以实现的

2/5/2023

MultimediaTechnology&Application数字化声音的基本参数

（BasicParametersofDigitalSounds）采样率（samplingfrequency）量化位数（quantizationbits）声道数（numberofsoundchannels）编码方法（encodingmethod/compressionmethod)

2/5/2023

MultimediaTechnology&Application

2.3.4

声音的重构

（ReconstructionofSound）若要播放数字化声音，就要经过解码、DA转换和插值。数字音频模拟音频

2/5/2023

MultimediaTechnology&Application2.3.4

声音的重构

（ReconstructionofSound）解码（Decoding）：编码的逆过程，又称解压缩数模转化De-quantization(D/Aconversion)：将数字量再转化为模拟量插值Interpolation：是为了弥补在采样过程中引起的语音信号失真而采取的一种补救措施，使得声音更加自然。

2/5/2023

MultimediaTechnology&Application2.4声音文件的存储格式

如同存储文本文件一样，存储声音数据也需要有存储格式。在因特网上和各种机器上运行的声音文件格式很多，但目前比较流行的有以.wav(waveform)，au(audio)，.aiff(AudioInterchangeableFileFormat)和.snd(sound)为扩展名的文件格式。.wav格式主要用在PC上，.au主要用在Unix工作站上，.aiff和snd主要用在苹果机和美国视算科技有限公司(SiliconGraphics，Inc.，SGI)的工作站上。表2-3给出了常见的声音文件扩展名

2.5电子乐器数字接口(MIDI)系统

2.5.1

MIDI

（MusicalInstrumentDigitalInterface）简介

MIDI可译成“电子乐器数字接口”。用于在音乐合成器、乐器和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始，MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言，是一套指令(即命令的约定)，它指示乐器即MIDI设备要做什么，怎么做，如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。2.5电子乐器数字接口(MIDI)系统

2.5.2

FM合成声音

FM合成器生成乐音的基本原理如图2.8所示。它由5个基本模块组成：数字载波器、调制器、声音包络发生器、数字运算器和模数转换器。

2.5电子乐器数字接口(MIDI)系统

2.5.2

FM合成声音

在乐音合成器中，数字载波波形和调制波形有很多种，不同型号的FM合成器所选用的波形也不同。图2.9是YamahaOPL-III数字式FM合成器采用的波形。图2.9声音合成器的波形2.5电子乐器数字接口(MIDI)系统

2.5.3乐音样本合成声音

乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符，选择44.1kHz的采样频率、16位的乐音样本，这相当于CD-DA的质量，把不同音符的真实声音记录下来，这就完成了乐音样本的采集。通常乐音样本放在ROM芯片上，ROM是超大规模集成电路(verylargescaleintegrated，VLSI)芯片。2.5电子乐器数字接口(MIDI)系统

2.5.3乐音样本合成声音

原理：图2.10是乐音样本合成器的框图。乐音样本合成器所需要的输入控制参数比较少，可控的数字音效也不多，大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数，产生的声音质量比FM合成方法产生的声音质量要高。2.5电子乐器数字接口(MIDI)系统

2.5.4

MIDI系统MIDI协议提供了一种标准的和有效的方法，用来把演奏信息转换成电子数据。MIDI信息是以“MIDImessages”传输的，它可以被认为是告诉音乐合成器(musicsynthesizer)如何演奏一小段音乐的一种指令，而合成器把接收到的MIDI数据转换成声音。MIDI数据流是单向异步的数据位流(bitstream)，其速率为31.25kbps，每个字节为10位(1位开始位，8位数据位和1位停止位)。MIDI乐器上的MIDI接口通常包含3种不同的MIDI连接器，用IN(输入),OUT(输出)和THRU(穿越)。MIDI数据流通常由MIDI控制器

2.5电子乐器数字接口(MIDI)系统

2.5.4

MIDI系统图2.11简单的MIDI系统

2.5电子乐器数字接口(MIDI)系统

2.5.4

MIDI系统图2.12复杂MIDI系统

2.5电子乐器数字接口(MIDI)系统

2.5.5

MIDI消息

MIDI文件的内容被称为MIDI消息(MIDImessages)。

一个MIDI消息由1个8位的状态字节并通常跟着2个数据字节组成。

MIDI消息可分成通道消息(ChannelMessages)和系统消息(SystemMessages)两大类。2.5电子乐器数字接口(MIDI)系统

2.5.5

MIDI消息

MIDI文件的内容被称为MIDI消息(MIDImessages)。

一个MIDI消息由1个8位的状态字节并通常跟着2个数据字节组成。

MIDI消息可分成通道消息(ChannelMessages)和系统消息(SystemMessages)两大类。MIDI的一些基本概念MIDI音源相当于一个电子乐队，它划分成16个

Channel（通道），每个通道相当于一个声部（组），各个声部演奏不同的乐器和不同的乐谱。每个通道能演奏不同乐器(最多128种)，称为音色。不同乐器有不同编号（Program或Patch号）。每个通道在同一时间内只能演奏一种乐器，可随时改变；但声部数可以有若干个。即，每个MIDI通道在某一时间里可进行一种音色的独奏、齐奏或合奏。音序器是乐队的指挥，它发出的是MIDI消息，对整体起作用的是systemmessage，对个体起作用的是channelmessage.

2/5/2023

MultimediaTechnology&ApplicationMIDIMessage作用：每个message对应一个音乐事件。（如键压下、键释放等)数据格式：1个状态字节(最高位为“1”)+

n个数据字节(最高位为“0”)分类：Channelmessage(带channel号，只对对应的MIDI通道起作用)voicemessage实际的演奏数据,控制乐器的发声modemessage决定乐器对声音消息如何响应Systemmessage（不带channel号,对所有通道起作用）commonmessagereal-timemessageexclusivemessage（独占消息）

2/5/2023

MultimediaTechnology&ApplicationPolyphony(复音),同时演奏多个音符称为Poly(如钢琴，吉他)，一次只演奏1个音符称为Mono(单音)。Multi-timbre（多音色）一个MIDI接收器可同时演奏多种乐器，称为“多音色”。MIDI合成器的4种接收模式:Mode1:Omnion/PolyMode2:Omnion/MonoMode3:Omnioff/PolyMode4:Omnioff/MonoOmnion----MIDI设备响应所有的channelmessageOmnioff---MIDI设备只响应自己的channelmessagePoly----一次可同时演奏多个音符Mono---一次只能演奏一个音符

2/5/2023

MultimediaTechnology&ApplicationMIDImessage举例noteon:noteoff:

音符#01224364860728496108120127音阶C-1C0C1C2C3C4C5C6C7C8C9C10

击键力度01,,,,,,,64,,,,,,,127

offppppppmpmfffffff903c40003c90key#CH#speed

2/5/2023

MultimediaTechnology&Application2.5电子乐器数字接口(MIDI)系统

2.5.6

MIDI文件规范

标准MIDI文件(StandardMIDIFile)规范定义了3种MIDI文件格式，MIDI音序器能够管理文件标准规定的多个MIDI数据流，即声轨(tracks)。MIDI文件格式0(Format0)规定所有MIDI音序数据(MIDIsequencedata)必须存储在单个声轨上，它仅用于简单的单声轨设备；MIDI文件格式1(Format1)规定数据以一个声轨集的方式存储；MIDI文件格式2(Format2)可用几个独立模式存储数据。2.5电子乐器数字接口(MIDI)系统

2.5.7合成器的音序、音调和音色

合成器或者声音发生器能够产生的不同声音一般用配音(patche)、指令(program)、算法(algorithm)、声音(sound)或者音色(timbre)来表示。现代合成器通常使用指令号(programnumber)来表示它们产生的不同声音。使用指令号(programnumber)或者配音号(patchnumber)来指定想要获得的声音(sound)。

2.5电子乐器数字接口(MIDI)系统

2.5.8通用MIDI(GM)

通用MIDI规范(GeneralMIDISpecification)是由国际MIDI协会(InternationalMIDIAssociation)颁布的，用于通用MIDI乐器(GeneralMIDIInstruments)。该规范包括通用MIDI声音集(GeneralMIDISoundSet)即配音映射(patchmap)、通用MIDI打击乐音集(GeneralMIDIPercussionSet)即打击乐音与音符号之间的映射、以及一套通用MIDI演奏(GeneralMIDIPerformance)能力，包括声音数目和MIDI消息类型等。

2.5电子乐器数字接口(MIDI)系统

MIDI软件

4种类型：Musicrecordingandperformance（音乐录制和演奏）Musicalnotationsandprinting（乐谱生成和打印）Synthesizerpatcheditorsandlibrarians（合成器编辑和管理）Musiceducation（音乐教育软件）音序器软件MIDI键盘作曲软件MIDI文件管理MIDI编辑器MIDI合成器输出MIDI小结

优点数据量少（比CD-DA少3个数量级）。可以与波形声音同时播放。易于编辑修改。缺点音乐质量与硬件有关。尚不能用于描述语音。2.6音频信息的压缩技术

数据编码技术又称压缩技术

压缩方法（compressionmethod）有损压缩无损压缩编码选择（codeselection）ＰＣ机常用的声卡上有自适应差分脉冲码调制方案,μ律／a律等，format(structure)

2/5/2023

MultimediaTechnology&Application2.6音频信息的压缩技术

2/5/2023

MultimediaTechnology&Application2.7数字语音的应用

2.7.1语音识别数字语音的应用主要在语音识别和语音合成两个方面。语音识别：指机器收到语音信号后，如何模仿人的听觉器官辨别所听到的语音内容或讲话人的特征，进而模仿人脑理解出该语音的含义或判别出讲话人的过程。分类1.按讲话者分类

(1)特定人的语音识别系统:其特点是依赖于说话者只有在用特定单词组形成的词汇表系统训练后，它才能识别。

(2)非特定人识别系统:此类系统可识别任何用户的语音。2.7数字语音的应用

2.7.1语音识别2.按识别词的性质分类

(1)孤立词(语音)识别系统:一次只提供一个单一词的识别。

(2)连接词语音识别:连接词的语音由所说的短语组成，而短语又是由词序列组成

。连接词语音识别可用于命令和控制应用。

(3)连续语音识别:这种方法比孤立单词或连接词语音识别都复杂许多。

2.7.1语音识别

2.7.1语音识别连续语音识别系统可以分成三部分：①数字化、幅度归一化、时间归一化和参数表示。②分割并把语音段标记成在基于知识或基于规则系统上的符号串。③识别词序列并进行语音段匹配。

2/5/2023

MultimediaTechnology&Application2.7.1语音识别

语音识别系统的组成采样、量化语音端点检测计算语音谱估价音调轮廓图分解、鉴定语音特征单词识别识别后的语音语音输入参考村料库语义分析理解后的语音语义库

2/5/2023

MultimediaTechnology&Application

2.7.1语音识别——有困难语音变化大，不同人不一样，同一人也会有变化。语音有模糊性，不同词语听起耒很相似。同一字和词的发音受上下文影响而有不同（语音的同化、异化、换位、弱化、脱落等音变现象）。环境噪声的干扰，例如墙壁与物体对声波的反射会与主声波重迭。连续语音流不易把单字（词）区分出来（端点检测）例如，若单字（词）识别正确率为0.95，则：3个单字（词）组成的句子识别正确率为0.8578个单字（词）组成的句子识别正确率为0.663单字（词）与库中的模板比较之前，必须进行复杂的“时间归一化”处理。

2/5/2023

MultimediaTechnology&Application

2.7.2语音合成

(TexttoSpeech)（1）引言（2）语音基础（3）汉语语音（4）语音生成过程的两类方法（5）文语转换器

2/5/2023

MultimediaTechnology&Application语音合成（Speechsynthesis）是指人们根据语言学的知识，在语音分析技术和语音存储技术的基础上，利用适当方法和手段，重构语音的过程。有两种情况：第一种是语音再现。这是一个声音的还原过程。第二种是模仿人说话。首先形成要说的内容；其次转成基本发音编码序列；然后进行判断理解，决定声调、重音和语气，形成“言语码”；最后控制并输出语音。（1）引言

2/5/2023

MultimediaTechnology&Application语音合成的要求与应用：要求：可理解，自然（understandable,natural）应用：自动报警,自动应答,有声校对,有声电子邮件,残疾人服务等

2/5/2023

MultimediaTechnology&Application（2）语音基础音素(phoneme)是语音的最小单位。音素分为：元音(vowel)（浊音），不受声道阻碍的音。辅音(consonant)（浊音或清音），受声道阻碍的音。英语语音每字(词)一个或几个音节(syllable)（多音节字）音节由一个或几个音素组成英语的音素（元音20个，辅音28个）汉语语音每字一个音节(syllable)（单音节字）音节由一个或几个音素组成汉语的音素（元音42个，辅音22个；或者分为：声母21个，韵母39个）

2/5/2023

MultimediaTechnology&Application语音基础语音信号在30ms左右的持续期内，是一种准周期(静态)信号。语音信号的频谱中有3~5个峰值，称为共振峰（formant）。语音信号最重要的参数：基频、共振峰。共振峰是语音信号频谱包络线的峰值，从低频到高频方向记为F1,F2,F3…。不同的音素各有其不同的参数。

2/5/2023

MultimediaTechnology&Application（3）汉语语音汉语语音的三要素是声母(21)、韵母(39)和音调(4)。这三要素都是由音素组成的，汉语共有4种音素:辅音音素22个，单元音音素13个，复元单音素13个，复鼻尾音音素16个，总计共有64个音素。通常把含有声调（阴平、阳平、上声和去声）的韵母合称“调母”，再由调母或由声母加调母组拼为音节。一个音节就是一个汉语语音。汉语语音的数目：无声调的音节数目：412个带声调的音节数目：1282个

2/5/2023

MultimediaTechnology&Application（１）音系简单。即音节少、音素少。汉语普通话每个字的语音都是单音节字，每个字音虽为多音素。音素是语音的最小单位。（２）听感清亮、柔和。这是因为：清辅音多，所以没有快促之感；没有入声短促发音，所以使高频成份较多；开口音节多，所以听感好。（３）含有鲜明的轻重音和儿化韵。从而使字词分隔清楚，语言表达准确而丰富。汉字比其它国家的文字复杂，但汉语语言却比其它国家的语音简练得多。汉语语音的特点

2/5/2023

MultimediaTechnology&Application（4）语音生成过程的方法（两类）Time-dependentSoundConcatenation音素——音节——字——词——词组——句(可以在不同级别的语音单位上进行,最低级是音素。)(难点在于语音单位之间怎样自然过渡)Frequency-dependentSoundConcatenation(参数——)音素——音节——字——词——词组——句脉冲序列发生器随机噪声发生器基音周期(声带振动)(声带不振动)音源幅度音源幅度浊音清音线性滤波器声道参数音素、音节

2/5/2023

MultimediaTechnology&Application两类方法对比较波形合成法规则合成法语音单位字、词、短语等音素(元音,辅音;声母,韵母等)存储形式波形形式特性参数（基频,幅度,共振峰等）合成方法波形连接优缺点存储量大；可懂度、自然度受语音单元大小的影响由音素组成音节，音节组成字和词，然后再组成句子在储量小，但很难得到高质量的语音波形合成法规则合成法语音单位字、词、短语等音素(元音,辅音;声母,韵母等)存储形式波形形式特性参数（基频,幅度,共振峰等）合成方法波形连接优缺点存储量大；可懂度、自然度受语音单元大小的影响由音素组成音节，音节组成字和词，然后再组成句子在储量小，但很难得到高质量的语音

2/5/2023

MultimediaTechnology&Application语音生成困难困难如下：语音单元的自然连接问题语气、语调问题多音字（词）问题

趋势：Sound-specificmethods(两种方法相结合)

2/5/2023

MultimediaTechnology&Application语音合成方法（三种）①基于波形编码的合成；②基于分析-合成法的合成；③按规则合成。见如图2.14

2/5/2023

MultimediaTechnology&Application语音合成方法（三种）波形编码分析合成按规则合成波形特性参数语言符号存储器（模拟/数字）存储器（参数）合成规则（参数转换）存储单元波形连接存储器（参数）参数连接存储器（参数）参数序列的生成存储器（参数）信息的基本形成输入数据语音语音语音见如图2.14

2/5/2023

MultimediaTechnology&Application（5）文语转换器文—语转换：与录音的重放不同，它是从输入的任何文本产生合成语音输出，这就相当于人去读书面文章的过程。这个过程既包含有很高级的信息处理，又包含发音器官复杂的生理控制。

2/5/2023

MultimediaTechnology&Application（5）文语转换器文—语转换系统由两个部分组成：1、发音器，这里主要是指语音合成器，它相当人的发音系统。2、是发声的驱动器，它的输入是要发声的文本串或其它语言信息，而它的输出用来驱动发声器发音。这两个部件都可用软件实现。

2/5/2023

MultimediaTechnology&Application（5）文语转换器语法规则词库发音词典文本分析语音控制韵律控制(节奏,音调)语音合成器音素库韵律规则库语音输出文本音标韵律音长，加重，声调，停顿综合谱，形状反射，声道特性图2.15文语转化系统结构

2/5/2023