6超低速率的语音编码翻译汇编_第1页
6超低速率的语音编码翻译汇编_第2页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、超低速率的语音编码 M.J.Ovens, K.M.Ponting and M.E.Turner 摘要 在很多情况下, 短波无线设备用于长距离或者大范围的通信。 在强调短波信 道的条件下, 现有的低比特率语音编码算法可支持把数据速率降低到要求以下。 本文介绍的是在 DERA Malvern 研究开发一个运用自动语音识别( ASR)和 合成技术来实现把语音编码数据率低于 300bpS 勺实时语音编码系统。一个持续的 语音识别器是用来转录进来的以字为单位声音片断的讲话。 韵律信息(音调和音 长)结合在语音片断识别码里以形成适合传输的持续的数据流。 在接收端一个并 行结构的语音识别器利用特定的人的语音

2、建立讲话者的模型来识别语音。 1 引言 本文介绍的是在 DERA Malvern and 20120 Speech Ltd 研究开发一个运用自动语 音识别(ASR)和合成技术来实现把语音编码数据率低于 300bpS 勺实时语音编 码系统。 论文结构如下: 第二部分描述研究如此低数据率的动机; 第三和第四部分分别概述在 300 和 75bps 超低比特率编码器的结构; 第五部分描述该体系是基于隐藏的Markov模型; 第六部分分析迄今所达到的效果。 2 为什么要对语音进行超低速率编码? 什么是语音编码? 在很多情况下, 短波无线广播设备用于长距离或者大范围的通信。 应用范围 从遥远的两个城市之间

3、的点对点联系到地对高速的喷气式飞机之间的军事通信。 在许多情况下, 首选的通信方式是通过语音的, 这就要求语音编码算法能够使语 音在有效带宽内通信。 短波数据通信 目前这一代短波数据调制解调器的运作的数据传输速率高达 2400bps(4800bps 无差错保护编码)。最近技术的发展,使得通信的数据传输速率最高可达 9600bps, 随着研究工作的深入,现在已经可扩展到和超过 16kbps=这些高数据传输率的调 制解调器用于提高短波通信管理( AHFCM )系统是可行的。 对于数字语音系统,考虑 ARQ 协议和长交换技术引入的时间延迟是不可接受 的,因此在用高数据率调制解调时只会考虑用最多原始信

4、道。 在另一端的数据传输率的频谱,技术进步已使调制解调器变得相当的强劲。 这些调制解调器可用在低数据传输率(75bps),但在拥挤的短波条件下提供高 可用性信道。 它大致可显示调制解调器性能 (即鲁棒性),是直接关系到数据传输速率, 增 加了在数据速率从而减少在鲁棒性渠道的条件。 在大多数情况下, 增加了鲁棒性 将导致增加通信的可用性。因此,这是不可取的,以减少数据传输速率的要求, 一数字语音系统,以增加系统可用性,如果可以这样做,同时保留可懂度。 2.3 传统的语音编码器 其中一种压缩语音信号的方法是利用已知性能的讲话, 只传送信息本质内 容信号。例如,如果只关心讲话的内容,那么就没有必要对

5、个人特定的发音信 号进行编码。 传统的基于模型的语音编码器利用线性预测编码的或相似的分析来从语音 信号中识别声音部分把音调和音长分离出来。 这两部分的信号是独立编码的,这 更为有效。 利用不同编码方法成功的开发出一种广泛的基于 LPC 的语音编码方案。数 据传输率低至600-800bps的方法已经提出来, 但目前基于 LPC的语音编码器是 运作在2400 bps 或更高的速率。 3 300bps 的编码合成识别 图一所描述的是超低比特率编码系统的数字部分,输入语音是用音调估测和 连续语音识别分析以获得连续语音序列的描述(音节),包括相应的音调和音长 长短等信息。这些参数将在通信通道中被传输出去

6、,并用于接收端的语音合成。 图 1 300bps 音频编码器的流程图 3. 1 音节 在许多语音自动识别(ASR)系统中,语音被识别成一连串的音素,音素是 特定语言中声音的实现对比的最小单兀。比如,/p/和/t/是英文音素,因为它们在 成对的单词钢笔 pen 十 ten 中相反,当一个谈话者读出这些单词的自然声音就是 音素p和t。为了从一系列可识别的音素中重新合成可理解的语音,之前的叙 述已经表明,一个音素 80%85%的准确识别是必须的。 然而,本文描述的系统像语音片音节串一样描述话,音节是适合描述音素产 生事件的声音的微小单元。本文描述的系统使用音节而不是音素去识别和重新合 成语音,那是因

7、为这两种发音中更容易实现编码, 例如使用更小的单元的可变的 吸气模式。举例说,单词 ten 的首音素/t/可以作为一系列三音节的原型,相当 于闭气、释放再吸气的步骤。实际上 44 个音素中的 28 个仅仅被组成一个音节, 而其它则由语音的长短分为两个或者三个音节,如表 1 所示。 声音类型 音节数 发音分类 浊音 n 2 Bee den gon 清音 3 Pea ten key 塞擦音 2 Chin judge 双元音 2 Hay high toy hoe how here there moor 表格 1 音韵要求多余一个音节 3.2 信号处理 语音波形采用 8KHz 采样,512 点的窗口的

8、快速傅氏转换(FFT),有 472 点采样重叠用于给出的 200 帧 8KHz 数据每秒,这些都直接为音调提取所用。语 音识别每隔一定丢失的帧后,会产生一个速率为 100Hz 的帧。 基于对数的语音提取由每 5ms 语音估值和语音可信值的形成发展而来, 这些 信息将被编码区缓存。 3.3 语音识别 用采样率下降到 100Hz 的 FFT 表示的语音识别,由变帧率的分析进一步决 定。变帧率分析的输出被转换成 20 个线性频率余弦系数(Ifccs),这些参数集 中了语音练习和识别的的能量、变帧率数目和特征向量的特性等信息。 这一阶段 噪声跟踪算法也开始实现了。 语音识别器是 AURIX 语音有限公

9、司连续语音识别的 20/20 的标准版本。它 使用了定向搜索与部分追踪技术,支持编码系统最小延时得到的尽可能快的识别 结果的连续操作和实时报道。追踪进程反映的是跟音节序列一样的时间信息, 支 持音节被观测。对于超低比特率的编码,系统被配置成前后三音节的模型以用于 语音语境对声音变化的强烈影响。 为防止概念表达进行中推导过程中的干扰,已经强制添加了一些限制。所用 的模型都是对训练要求的简单性的说话依赖和任务依赖, 进一步说,现在的识别 是间接字,就是说所识别的音节序列是局限于符合已知词汇 (500 单词)词时序。 同样很可能字时序又局限于匹配某个语法模型识别的任务。而这些局限有系统成 功操作中没

10、有一个是固定需要的。 3.4 传输 对于每个已经识别的音节,5ms 语音估测的平均值是通过所有那些语音可信 度高于某个门限值的帧来计算得到的。适当的选择这些门限值是为了防止使用无 声时的寄生语音音调。任何没有经过语音简单估计的音节需要从前面的音节中重 新估测。 语音抽取器和识别器的输出被编码成一个十八位数的音节。每位数有三个部 分,每六位中的一位反映所识别音节的类型和时间长短, 这些都综合在一个音节 中。现在,不管音素有没有被传送,音节都是有声的,即使音素没有在无声音节 合成中用到。请注意,发声的程度来自合成模型而不是输入信号。 译码过程就不用细说了,把那十八位数据音节值、音长和音素。 3.5

11、 合成 本合成系统是基于如图二所示的联合语音研究单元和并行共振语音合成器 的。它通过模拟激励源声道的滤波效应进行工作。 如何选择恰当的激励信号,取 决于声音中声带振动和摩擦的数量。这种激励信号要先经过一组并行的能模拟最 先三个共振峰和低频和高频频带的效果滤波器,这些滤波器的每个输出接着合成 一起得出一个最终输出信号。只要给定合适的参数,这个系统就能产生极高质量 的语音。 图 2 平行共振合成器 音节编码系统的初始工具来自每个音节的控制参数, 而这些参数又来自由一一 个说话者辛苦所得的典型参数表“说话者表”。目前系统的一个主要优点是基于 遵守这些参数的马尔可夫隐藏模型的自动训练机理的应用,如第五

12、段所述。 该模型使用了三阶的马尔可夫模型, 每一阶均值向量的参数都根据需要被简 单复制很多次(与音长相对应的阶)来确保合成的音长与传输的音长相匹配。 表 面上这种简单的线性复制会很原始的出现,纠正这种用时差异的一种方法是调查 研究。共振轨道上出现平滑滤波的结果,但重新合成的信号中没有出现可察觉的 差异,很可能因为如图二所示的最终参数波形合成系统的平滑作用。 4 比特率的进一步降低 在音节编码框架中,仍有很多进一步减少比特速率的可能。 还没有研究过的一个 主要领域是利用熵编码以及数据代表什么的知识的更成熟的策略的应用。例如: 随着时间的推移音调以及音长可以被增量编码; 无声音节中的音调信息是多余

13、的,因此可以省略; 随时间推移的音高可以被相应的小数位分层和描述。 当前,爆破音部分,如t,被编码成三个音节段,因为一个甚至多个爆破音 在某些说话者的语境中可能会被省略掉。这给更匹配特定语音的实现上留有余 地。然而,仅爆破音就足够传输到接收端,那些音节用于从前后声音中识别出来 的并且音节的音长关系可以从模型得出的地方。这点对比特率的最高值是很重要 的,因为三部分都是很短的。 通过从合成模型导出音长的估算值而不是传输音长信息来更进一步减少数 据速率也是可行的,同理音调信息也可以由模型或已经用过的单调音调导出而不 是传输音调估值。综合这些方法,一个 75bps 的语音传输系统正在酝酿中。 5 制备

14、模型 无论是识别还是合成,原始数据的培训过程代表当前任务的 15 分钟语音。 在标签语水准和字典的数据将用于转换音相到重估时序的音节。 5.1 特征向量 特性识别模型包含 FFT 的 20 个线性频率余弦系数, 集合了能量和 VFR 的 帧数量。 合成模型的特征是共振分析器的输出, 包括:固定的低频带宽功率;前三个 共振峰的中心频率和振幅;固定高频带宽功率和声带振动次数。 75bps 的模型有 十分之一的元素包含在代表音调的向量中。 5.2 重新估算无论是识别不是合成,每个马尔可夫隐藏模型都有三个发射状态, 除此没有 别的捷径。这些单音节模型的案例都被三十个 Baum-Welch 迭代算法训练

15、。然后 这些模型将用于生成前后相关的单一 Baum-Welch 迭代算法的三音节的规律。特 殊状态方差一直都被使用,除非当三段识别模型重估时,那些主要方差被用于减 轻数据少带来的问题。 6 性能 6.1 数据速率 因为编码器使用音长可变的音节,传输要求的数据速率也是可变的。 通过一 组十个空载探测任务报告产生 262bps 的平均数据速率。 在一定条件下,这是几乎没有可能发生的条件,理论上最大的比特率为 600bps。这种数据速率只有在说话者又快又清晰时才能达到, 因此每个音节占有 可能的最小时间为 30ms。通常语音的音长都是极易变化的,但它们还比这个时 间要长得多。一个辅音音素的典型音长为

16、 60ms 左右(爆破音和塞擦音的音节会 比这个短是因为各个单音有多于一个音节的存在),但它可能短至 20ms 或者长 达 200mso 对兀音音节的音长估算将更为困难,但 200ms 音长的兀音并不常见。 窗口时间点砂) 报告中 6 个斜线表示四二折线(脉冲 A);图中相关的目标重复积分即积分 增量 1088 (脉冲 B);视觉时间为 2112 (脉冲 C);新的逻辑范畴(误差 D-可认 作“ 23 “)一个音调码没有明显变化(停顿 E) 些没有卸载的被隐藏(误差 F-可认作”否定码“)防卫(停段 G)o 图 3 数据速率为测试提供的空载探测任务报告 图 3 显示一些在传输空载探测任务的样本

17、中的数据传输速率变化相对迅速。 数据传输率是通过一个窗口计算并且每 100ms 更新一次。平均数据率超过整份 报告是 255.3bps 文本发音的是空载任务的报告 102 -识别输出包含两项误差和 7 个重要的停顿作为显示评论楷体字。 对比图 3 中文字识别与数据传输速率, 这是明确表示暂停对应局部极小和该 识别错误对应的局部极大值。 在这种情况下, 识别字节顺序错误部分包含了若干 连续阶层的最低可能的周期。最近开发出在 20/20 语音中不仅应提高识别的准确 率,但也要通过丢弃减少高峰期的比特率。 6.2 清晰度 合声的清晰度依赖于辨识度的精确性,但是一般给定了一个不错的噪声比 率。高级别的

18、噪声可能会使辨识能力下降,结果会导致修改重新合成的语音的清 晰度。 6.3 噪声补偿 除了作为标准执行的 AURIX 噪声追踪算法外,通过结合使用一种合适的噪 声补偿技术可以减轻高级别的噪声影响。 6.4 质量 目前还没有完成针对该系统的评价。然而,非正式的听众测试暗示,特定的 讲话者的特性得到了保留,并且再合成的声音比基于使用 2400vbps 的 LPC 系统 更加自然。 7 结论 根据合理的非正式的听力测试结果,低于 300bps 的可理解的语音传输已经 得到证实。由于正常的技术拓展,75bps 的传送技术已经得到发展。 参考文献 1. J. S. Bridle, M. D. Brown

19、, and R. M. Chamberlain. -pass a“lgoAritohnme for connected word recognition ” In Proc. ICASSP, pp-8-9092, Paris, 1982. 2. J. N. Holmes. “ Formant synthesis: Cascade or parallel? ” Speech Communication, 2, 1983. 3. M. R. Ismail. “ Sub300bitslsec speech processing M”aster tshesis, University of Surrey, Department of El.ectronicand Electrical Engineering, September 1998. 4. D. P. Kemp, J. S. Collura and T. E. Tremain. “ Mult-iFrame Coding Of LPC Parameters At 600- 800

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论