(电路与系统专业论文)基于midi的汉语普通话语音合成算法.pdf_第1页
(电路与系统专业论文)基于midi的汉语普通话语音合成算法.pdf_第2页
(电路与系统专业论文)基于midi的汉语普通话语音合成算法.pdf_第3页
(电路与系统专业论文)基于midi的汉语普通话语音合成算法.pdf_第4页
(电路与系统专业论文)基于midi的汉语普通话语音合成算法.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(电路与系统专业论文)基于midi的汉语普通话语音合成算法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音合成是人机语音交互的一个重要组成部分。 语音合成研究的目的是制造 一种会说话的机器, 使一些以其它方式表示和存储的信息能转化为语音, 让人们 能通过听觉而方便地获得这些信息。 语音合成的基本方法, 可以归纳为三大类: 波形合成方式、 参数合成方式和 规则合成方式。 数字乐器接口( mi d i ) 设备是目前一切p c和音频设备的标准配置, 利用它 来做语音合成可以最大限度地节省系统成本和减少运算量。 本文提出了基于mi d i 的语音合成算法。该算法属于波形合成方式, 通过对 标准的可下载声音( d l s ) 波表的语音扩展, 以实现象合成乐音一样地合成语音。 在实现上述算法过程中,本文完成了以下工作: 1 、 在分析了汉语普通话语音学特征的基础上提出了利用语谱图和短时过 零分析从音节中切分普通话声母和韵母的方法。 2 、 将所有的声母和韵母波形制作成符合d l s 结构的语音波表, 并通过保 留韵头段和对韵腹段波形的重复达到压缩存储空间的效果。 3 、 利用a d s r修正结构对阴平波形的频率进行修正以得到其它的三个声 调,这样使得每一个韵母只需要存储一套波形数据和四套 a d s r结合参数就可 以合成出所有声调。 4 、 将所有的语气、韵律和节奏控制信息统一用 mi d i 消息实现,以合成 不同语境下的语音。 本算法把音乐合成与语音合成统一到一个标准工业规范下面, 这使得算法的 可移植性和可扩展性得到了充分的保证, 同时也为音频信号的统一处理提供了保 证 。 关键词:语音合成,mi d i ,波表,a d s r修正 ab s t r a 以 ab s t r a c t s p e e c h s y n t h e s i s i s a n i m p o rt a n t c o m p o n e n t o f t h e h u m a n c o m p u t e r i n t e r a c t i o n t e c h n i q u e s . r e s e a r c h e s o n t h i s f i e ld a i m a t p r o d u c i n g a k i n d o f s p e a k a b l e r o b o t , w h i c h c a n c h a n g e i n f o r m a t i o n d e s c r i b e d o r s t o r e d i n o t h e r f o r m s i n t o s o u n d , s o a s t o m a k e p e o p l e e a s il y o b t a i n t h e s e p i e c e s o f i n f o r m a t i o n t h r o u g h a u d i t i o n . c o n s i d e r i n g t h e b a s i c m e t h o d s o f s o u n d s y n t h e s i s , t h re e s p e c i e s a r e c o n c l u d e d a s f o l l o w s : wa v e f o r m s y n t h e s i s t e c h n i q u e , p a r a m e t e r s y n t h e s i s t e c h n i q u e a n d r u l e - b a s e d s y n t h e s i s . mu s i c i n s t r u m e n t d i g i t a l i n t e r f a c e ( mi d i ) d e v i c e i s n o w s t a n d a r d c o n f i g u r a t i o n o f a l l p c s a n d a u d i o d e v i c e s . i t p r o v i d e s a c o s t - e f f i c i e n t w a y o f s o u n d s y n t h e s i z e w h i l e t h e o p e r a t i o n q u a n t i t y i s s m a ll . t h i s p a p e r r e f e r r e d t o a m i d i - b a s e d s o u n d s y n t h e s i z e a l g o r it h m w h i c h b e l o n g s t o t h e wa v e f o r m s y n t h e s i s t e c h n i q u e . b y m e a n s o f e x t e n d i n g t h e s t a n d a r d d o w n l o a d a b l e s o u n d w a v e t a b l e , i t s p o s s i b l e t o s y n t h e s i z e s o u n d i n t h e w a y j u s t a s t o n e d o e s i n t h e p r o c e s s o f i m p l e m e n t in g t h e a l g o r i t h m , f o l l o w i n g w o r k w a s c o m p l e t e d : 1 s t , o n t h e b a s i s o f a n a l y z i n g o f p h o n e t i c s c h a r a c t e r s o f m a n d a r i n , b r o u g h t f o r w a r d t h e w a y o f s y n c o p a t i n g c o n s o n a n t a n d v o w e l fr o m s y l l a b l e u s i n g s p e c t ro g r a m a n d s t f t . 2 n d , m a d e a l l t h e c o n s o n a n t s a n d v o w e l s w a v e f o r m s i n t o w a v e t a b l e a c c o r d i n w i t h d l s s t ru c t u r e . me a n w h i l e , b y r e t a i n i n g t h e h e a d o f t h e v o w e l a n d b y i t e r a t i o n o f t h e b o d y o f t h e v o w e l w a v e f o r m , a c h i e v e d t h e e ff e c t o f s to r a g e s p a c e c o m p r e s s i o n 3 r d , m a d e u s e o f t h e a d s r a r t i c u l a t i o n t o c o r r e c t t h e fr e q u e n c y o f y in p i n g s w a v e f o r m , t h u s o b t a i n t h e o t h e r t h r e e t u n e s . i n t h i s w a y , w e c o u l d s y n t h e s i z e e v e r y t u n e o n l y b y s t o r i n g o n e s e t o f w a v e f o r m d a t a a n d f o u r s e t s o f a d s r a r ti c u l a t i o n p a r a m e t e r s e a c h v o w e l . 4 th , a c t u a l i z in g a l l t o n e s a n d r h y th m c o n t r o l i n f o 而a t io n b y m i d i m e s s a g e u n i f o r m l y , t h e n s y n t h e s i z e s o u n d i n d i ff e r e n t e n v i r o n m e n t s . t h e a l g o r i t h m r e f e r e d u n i f i e s t o n e s y n t h e s i z e a n d s o u n d s y n t h e s i z e i n t o a s t a n d a r d i n d u s t r y c r i t e r i o n , w h i c h f u l l y e n s u r e s i t s p o r t a b i l i t y a n d e x p a n s i b i l i t y , a t t h e s a m e t i m e a s s u r e s u n i o n i z i n g t r a n s a c t o f a u d io s i g n a l . k e y w o r d s : s p e e c h s y n t h e s iz e , mi d i , w a v e t a b l e , a d s r a r ti c u l a t i o n 引言 引言 由人工制作出语音称为语音合成。 语音合成是人机语音通信的一个重要组成 部分。 早在2 0 0 多年前人们就开始研究会说话的机器了, 当时人们利用模仿人的 声道做成的橡皮声管, 人为地改变其形状来合成语音。 近代随着半导体集成电路 技术和计算机技术的发展, 从2 0 世纪6 0 年代后期开始到2 0 世纪7 0 年代后期, 实用的英语语音合成系统首先被开发出来, 随后各种语言的语音合成系统也相继 被开发出来。现在的语音合成技术己经能够实现任意文本的语音合成。 语音合成研究的目的是制造一种会说话的机器, 使一些以 其它方式表示和存 储的信息能转化为语音, 让人们能通过听觉而方便地获得这些信息。 语音合成系 统是一个单向系统, 由机器到人。 用语音合成传递语言不用特别注意和专门 训练, 任何人都可以理解, 可以直接使用电话网和电话机, 不用消耗纸张等资源。 因此 语音合成的应用领域十分广泛, 例如:自 动报时、 报警、 公共汽车和电车自 动报 站、 电话查询服务业务、 语音咨询应答系统, 打印出版过程中的文本校对等。 这 些应用都已经发挥了很好的社会效益。 还有一些应用, 例如电子函件及各种电子 出版物的语音阅读、语音合成型声码器, 前景也是十分光明的。 机器说话或者计算机说话, 包含着两个方面的可能性: 一是机器能再生一个 预先存入的语音信号, 就像普通的录音机一样, 不同之处只是采用了数字存储技 术。为了 节省存储容量2 8 , 在存入机器之前,总是要对语音信号先进行数据压 缩。 例如通过波形编码技术5 2 、 声码技术3 0 等都可用来完成数 据压缩的 要 求。 这种语音合成不能解决机器说话的问题,因为它在本质上只是个声音还原过程, 即原来存入什么音, 讲出来仍是什么音, 它不能控制声调、 语调, 也不能根据所 讲内 容上下文来变音、 转调或者改变语气等。 另一种是让机器像人类一样地说话, 按照人的言语过程模型, 可以设想在机器中首先形成一个要讲的内容, 它一般以 表示信息的字符代码形式存在; 然后按照复杂的语言规则, 将信息的字符代码形 式, 转换成由基本发音单元组成的序列,同时检查内容的上下文, 决定声调、重 音、 必要的 停 顿 等 韵 律 特性, 以 及陈 述、 命 令、 疑问 等语气 , 并 给出 相应 的 符号 代码表示。这样组成的代码序列相当于一种 “ 言语码” 。从 “ 言语码”出发,按 照发音规则生成一组随时间变化的序列,去控制语音合成器发出声音。 第一章语音合成方法现状 第一章语音合成方法现状 1 .语音合成方法简介 语音合成的基本方法, 或者说基本策略, 可以归纳为三大类: 波形合成方式、 参数合成方式和规则合成方式4 3 1 波形合成方式是采用语音编码技术对语音合成基元进行压缩编码, 然后用这 些基元经解码、 波形编辑拼接、 平滑处理等输出所需的短语、 语句或段落。 这类 方法在合成语音段时所用的基元是不做大的修改的, 最多只是对相对强度和时长 做一些简单的调整。 因此这类方法必须选择比较大的语音单元作为合成基元, 例 如选择词、 词组、 短语、甚至语句作为合成基元, 这样在合成语音段时基元之间 的相互影响很小, 容易达到很高的合成语音质量。 但是, 这类方法存储合成基元 所需存储容量较大, 通常只能合成有限词汇的语音段。 这种方法能够很好的保持 合成基元的音段特征, 因此用以合成出可懂度和音质都很好的语音, 目 前许多专 1 7 用途的语音合成系都采用这种方式。 参数合成方法实际上就是语音参数分析的逆过程, 它把分析得到的每一帧语 音参数, 包括浊音清音判别、 声源参数、能量、 声道参数按时间顺序连续地输入 到参数合成网络中, 则参数合成器即可输出合成的语音。 参数合成方式一般选用 更小的语音单位 ( 如音素或音节) 作为合成基元, 根据各种各样的韵律规则来合 成词语和语句。 参数合成方法一般有发音器官参数合成3 5 和声道模型参数合成 ( 1 8 1 。 发音器官 参数合 成 方法是 对人的 发音过程直接进行模拟。 它定义了 唇、 舌、 声带的相关参数, 用发音参数估计声道界面及函数, 进而计算声波。 由于人的发 音过程生理的复杂性和理论计算与物理模拟的差别, 合成语音的质量暂时还不理 想。声道模型参数语音合成是基于声道界面及函数或声道谐振特征合成语音的。 早期语音合成系统的声学模型多通过模拟人的日腔的声道特性来产生。 其中比较 著名的有k l a tt的共振峰合成系统。 规则合成方式的代表是基音同步叠加方法。 它的提出使基于时域波形拼接方 法合成的语音的音色和自 然度大大提高。基音同步叠加技术的主要特点是: 在拼 接语音波形片断之前, 首先根据上下文的要求, 用基音同步叠加算法对拼接单元的 韵律特征进行调整, 使合成波形既保持了原发音的主要音段特征, 又能使拼接单元 的韵律特征符合上下文的要求, 从而获得很高的清晰度和自 然度。这些系统的自 然度比以 前基于线性预测方法或共振峰合成器的文语合成系统的自 然度要高 , 并 且基于基音同步叠加方法的合成器结构简单易于实时实现, 有很大的商用前景。 第一章语音合成方法现状 z .共振峰合成法 共振峰 语音合 成器模型 2 j 是把声道 视为 一 个谐振 腔, 利 用腔体的 谐 振特性, 如共振峰频率及带宽, 以此为参数构成一个共振峰滤波器。 因为音色各异的语音 有不同的共振峰模式, 以每个共振峰频率及其带宽为参数, 可以构成一个共振峰 滤波器。 将多个这种滤波器组合起来模拟声道的传输特性, 对激励声源发生的信 号进行调制, 经过辐射即可得到合成语音。 这便是共振峰语音合成器的构成原理。 实际上, 共振峰滤波器的个数和组合形式是固定的, 只是共振峰滤波器的参数随 着每一帧输入的语音参数而改变,以表征音色各异的语音的不同的共振峰模式。 下图所示的是共振峰合成器的系统模型, 从图中可以看出激励声源发生的信 号, 经过模拟声道传输特性的共振峰滤波器的调制, 再经过辐射传输效应后即可 得到合成的语音输出。 由于发声时器官是运动的, 所以上面模型的参数应该是随 时间变化的。一般要求共振峰合成器的参数逐帧修正。 a -t冲 击 发 生 器卜声 门 波 形 成 级联型调制器 幅度 噪声发生器 辐 射效 应卜 语音 幅度 基音 调制 级联型调制器 幅度 图 i 共振峰合成器的系统模型 简单地将激励分成浊音和清音两种类型是有缺陷的, 因为对浊辅音, 尤其是 其中的浊擦音, 声带震动产生的脉冲波和湍流同时存在, 这时噪声的幅度要被声 带振动周期性地调制。 因此为了得到高质量的合成语音, 激励源应具备多种选择, 以适应不同的发音情况。 上图中激励源有三种类型: 合成浊音语音时用周期冲激 序列; 合成清音语音时用伪随机噪声; 合成浊擦音时用周期冲激调制的噪声。 激 励 源 对 合 成 语 音 的自 然 度 有明 显的 影 响。 发 浊 音 时 , 最 商 单 的 是 三 角 波 脉 冲, 但 这种模型不够精确,对于高质量的语音合成,激励源的脉冲形状是十分重要的, 可以采用其它更为准确的形式,如多项式波、滤波成形波等。 合成清音时的激励源一般使用白噪声,实际实现时用伪随机数发生器来发 生。但是实际清音激励源的频谱应该是平坦的,其波形样本幅度服从高斯分布。 而伪随机数发生器产生的序列具有平坦的频谱, 但幅度为均匀分布。 根据中心极 限定理, 互相独立具有相同分布的随机变量之和服从高斯分布。因此,将若干个 第一章语音合成方法现状 ( 例如典型值为1 4 -1 8 ) 随机数叠加起来, 可以得到近似高斯分布的激励源。 对于声道模型, 声学原理表明, 语音信号谱中的谐振特性 ( 对应声道传输函 数中的极点) 完全由声道形状决定, 和激励源的位置无关; 而反谐振特性 ( 对应 于 声道传输函数的零点)在发大多数辅音 ( 如摩擦音) 和鼻音 ( 包括鼻化元音) 时存在。 因此对于鼻音和大多数的辅音, 应采用极零模型。 所以 在上图中使用了 两种声道模型, 一种是将其模型化为二阶数字谐振器的级联; 另一种是将其模型 化为并联形式。 级联型结构可模拟声道谐振特性, 只需用一个参数来控制共振峰 的幅度。 采用二阶数字滤波器的原因是它对单 个共振峰特性提供了良 好的物理模 型; 同时在相同的频谱精度上, 低阶的数字滤波器量化位数较小, 所以在计算上 也十分有效。 而并联型结构能模拟谐振和反谐振特性, 所以被用来合成辅音。 事 实上, 并联型也可以 模拟元音, 但效果不如级联型好。 并联型结构中的每个谐振 器的幅度必须单独控制,因此,它有可能产生合适的零点。 一般共振峰合成器模型中, 声源和声道间是互相独立的, 没有考虑它们之间 的相互作用。 然而, 研究表明, 在实际语言产生的过程中, 声源的振动对声道里 传播的声波有不可忽略的作用。 因此提高合成音质的一个重要途径, 是必须采用 更符合语音产生激励的语音生成模型。 高级共振峰合成器可合成出高质量的语音, 几乎和自然语音没有差别。 但关 键是如何得到合成所需的控制参数, 如共振峰频率、 带宽、 幅度等。 而且, 求取 的参数还必须逐帧修正,才能使合成语音与自 然语音达到最佳匹配。 在以音素为基元的共振峰合成参数, 可以存贮每个音素的参数, 然后根据连 续发音时音素之间的影响, 从这些参数内查得到控制参数轨迹。 尽管共振峰参数 理论上可以计算, 但实验表明, 这样产生的合成语音在自 然度和可懂度方面均不 令人满意。 理想的方法是从自 然语音样本出发, 通过调整共振峰合成参数, 使合成出的 语音和自 然语音样本在频谱的共振峰特性上最佳匹配, 即误差最小, 此时的参数 作为控制参数, 这就是合成分析法。 实验表明, 如果合成语音的频谱峰值和自 然 语言的频谱峰值差别能保持在几个分贝之内, 且其基音和声强变化曲线也能比 较 精确的吻合, 则合成语音在自 然度和可懂度方面均和自 然语音没什么差别。 为了 避免连续时邻近音素的影响, 对于比较稳定的音素, 如元音、 摩擦音等, 控制参 数可以有孤立的发音来提取: 而对于瞬态的音素, 如塞音, 其特性受前后音素影 响很大,其参数值应对不同连接情况下的自 然语句取平均。 第一章语音合成方法现状 3 .线性预测合成法 线性预测是一种新的、 也是目 前比较简单和实用的语音合成方法。 线性预测 的广泛应用是由于首先除了基音周期外, 它可提取语音信号的全部谱特征, 如共 振峰、 带宽和振幅等。 其次, 它把具有音高和振幅的激励源和控制因素发音的声 道滤波器分离开来, 即把语音的许多韵律特征从分段语音信息中分离出来。 它提 供了单词连接产生声音所需的总音调轮廓, 增强了语音存储的灵活性, 也容易进 行己存储语音的合成。 声道参数 浊音睛 音控制 时变数字滤波器 语音输出 图 2 线性预测语音合成器12 1 线性预测合成的 形式有 两种: 一 种是用预 测器系数a 直接构成的 递归型 合成 滤波 器 。 7 1 , 这种结 构简 单而 直观, 为了 合 成一个 语 音 样本, 需要 进行p 次 乘 法 和p 次 加 法。 另 一 种 是 采 用反 射系 数气 构 成的 格 型 合 成 滤 波 器 2 0 1 。 合成 一 个 语音 需 要( 2 p 一 1 ) 次 乘 法 和( 2 p - 1 ) 次 加 法。 无 论 选 用 哪 一 种 滤 波 器 结 构 , 线 性 预 测 合 成模型中的所有的控制参数,都必须随时间不断修正。 预测系数的直接形式滤波器结构的优点是简单、 易于实现, 所以曾 广泛被采 用; 其缺点是合成语音样本需要很高的计算精度。 这是因为这种递归结构对系数 的变化非常敏感, 其微小变化可导致滤波器极点位置的很大变化, 甚至出现不稳 定现象。 而 采用反射系 数k , 的格型合成 滤波器结构, 虽然运算量大于直接结 构, 却 具 有 一 系 列 优 点 : 其 参 数 k ; 具 有k , 卜1 的 性 质 , 因 而 滤 波 器 是 稳 定 的 ; 同 时 与 直 接 结构形式相比, 它对有限字长引起的量化效应灵敏度较低。 实用语音合成产品中 绝大多数都采用这种格型滤波结构。 第一章语音合成方法现状 4 .基音同步叠加合成法 2 0 世纪7 0 年代末,由f . c h a r p e n t i e r 和e . m o u l i n e s 等提出的基音同步叠加 技术19 1 和早期的 波形合成有原则性的差别, 它既能保持原始 语音的 主要音段特 征, 又能在音节拼接时灵活调整其基音、 能量和音长等韵律特征, 因而很适合于 汉语语音的规则合成。 同时汉语是声调语言系统, 词调模式、 句调模式都很复杂, 在以音节为基元合成语音时, 单音节在句子中声调、 声强和音长等参数都要按规 则进行调整。 基音同步叠加技术是用于波形编辑合成语音技术中对合成语音的韵律进行 修改的一种算法。 决定语音波形韵律的主要时域参数包括: 音长、 音强、 音高等。 音长的调节对于稳定的波形段是比较简单的, 只需以基音周期为单位加/ 减即可。 但对于语音基元本身的复杂性, 实际处理时采用特定的时长缩放法; 音强改变只 要加强波形即可。 但对一些重音有变化的音节, 有可能幅度包络也需改变; 音高 的大小对应于波形的基音周期。 对于大多数通用语言, 音高仅代表语气的不同及 话者的更替。 但汉语的音高曲 线构成声调, 声调有辨义作用, 因此汉语的音高修 改比较复杂。 下图 是利 用基音同 步叠加算法的 语音合 成系统的 基本结构 17 1 。 由 于 利 用基音 同步叠加算法合成语音在计算复杂度、 合成语音的清晰度、自 然度方面都具有明 显的优点, 因而受到国内外很多学者的欢迎, 国内外很多系统都有该算法的具体 应用。 语音 图 3 利用基音同步叠加算法的语音合成系统 本质上说,基音同步叠加算法是利用短时傅立叶变换重构信号的叠结相加 法。 信 号x ( n ) 的 短 时 傅 立 叶 变 换 为 : x ( e ) 一 y x ( m ) a o ( n 一 m ) e - , n e z 由于语音信号时一个短时平稳信号, 因此在时域每隔若千个 ( 例如r个) 样 第一章语音 合成方法现状 本 取 一 个 频 谱函 数 就 可以 重 构 信号: ( n), 即 可 令 y r e - ) 一 x (e l n=rr ,r , n “ z 其傅立叶逆变换为 夕 r ( m ) = 2 ;c 皿 y r ( e ) e - d t ), m “ z 然后就可以通过叠加得到原信号,即: y m = 艺 y . ( m ) 基音同步叠加技术的实现一般有三种方式。它们分别为时域基音同步叠加 ( t d - p s o l a ) 9 i ; 线性 预测基音同 步叠 加 ( l p c - p s o l a ) ; 频 域基音同 步 叠加 ( f d 一 p s o l a ) s e o 时域基音同步叠加技术作为基音同步叠加技术的一种, 通过以下步骤实现语 音的合成: 1 )对语音合成单元设置基音同步标记。 同步标记是与合成单元浊音段的 基音保 持同步的一系列位置点,它们必须能准确反映各基音周期的起始位置。 p s o l a技术中,短时信号的截取的叠加,时间长度的选择,均是依据同步 标记进行的。浊音有基音周期,而清音的波形接近于白噪声,所以在对浊音 信号进行基音标注的同时,为保证算法的一致性, 可令清音的基音周期为一 常数。 2 ) 以 语音合成单元的同步标记为中心, 选择适当长度( 一般取两倍的 基音周期) 的时窗对合成单元做加窗处理,获得一组短时信号。 3 )在合成规则的 指导下, 调整步骤1 ) 中 获得的同 步标记, 产生新的 基音同 步 标 记。 具体地说, 就是通过对合成单元同步标记的插入、 删除来改变合成语音 的时长;通过对合成单元标记间隔的增加、减小来改变合成语音的基频等。 4 )根据步骤3 ) 得到的合成语音的同步标记, 对步骤2 ) 中 得到的短时信号进行叠 加,从而获得合成语音。、. 概括起来说,用p s o l a法实现语音合成时主要有三个步骤。分别为基音同 步分析、基音同步修改和基音同步合成。 第一章语音合成方法现状 5 .文语转换系统 一个成功的文语转换系统 1 5 ,5 2 输出的语音应当音质清晰,自 然流畅。因 此, 一个文语转换系统应当具有一个性能优良的语音合成模块。 但是仅仅将一个个单 字的发音机械地连接起来, 这样合成的语音缺乏自 然度。 语音的自 然度取决于其 发音声调的变化,而在连续语流中一个字的发音不仅与这个字本身的发音有关, 而且还要受到它前后与其相邻字的发音的影响。 所以 在文语转换系统中, 必须事 先对文本进行分析, 根据上下文的关系来确定每个字发音的声调应如何变化, 然 后用这些声调变化参数去控制语音的合成。 因此, 文语转换系统还应当具有文本 分析和韵律控制功能的模块。 文本分析、 韵律控制和语音合成这三个模块是文语 转换系统的三个核心部分。其结构如下图所示。 图 4 文语转换系统 5 . 1 .文本分析 文本分析的主要功能是使计算机能够识别文字, 并根据文本的上下文关系在 一定程度上对文本进行理解, 从而知道要发什么音、怎么发音, 并将发音的方式 告诉计算机, 另外还要让计算机知道文本中哪些是词, 那些是短语、 句子, 发音 时到哪里应该停顿, 停顿多长等等。 文本分析的工作过程可以分为三个主要步骤: 1 )将输入的文本规范化, 在这个过程中处理用户可能的 拼写错误, 并将文本中 出 现的 一 些不规范 或无 法发音的字 符过滤 掉; 2 )分析文本中的词或短语的边界, 确定文字的 读音, 同时在这个过程中 分析文 本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式; 3 )根据文本的结构、 组成和不同 位置出 现的 标点符号, 来确定发音时 语气的 变 换以及不同音的轻重方式。 4 )文本分析模块将输入的文字转换成计算机能够处理的内部参数, 便于后续模 块进一步处理并生成相应的信息。 第一章语音合成方法现状 传统的文本分析,主要是基于规则 ( r u l e -b as e d )的实现方法。比较具有 代表性的有: 最大匹配法、 反向最大匹配法、 逐词遍历法、 最佳匹配法、 二次扫 描法等等。 近几年来, 随着计算机领域中数据挖掘技术的发展, 许多统计学的方 法以及人工神经网络技术在计算机数据处理领域中获得了成功的应用, 在此背景 下,出现了基于数据驱动 ( d a t a - d r i v e n )的文本分析方法。 具有代表性的有:二 元文 法法 ( d i - g r a m m a r m e t h o d ) 、 三元文 法法 ( t r i - g r a m m a r m e t h o d ) . 隐 马尔可夫 模型法( h m m m e t h o d ) 和神经网 络法( n e u r a l n e t w o r k m e t h o d ) 等等。 5 .2 .韵律控制 任何 人说话都 有韵 律特征 6 , 有不同的 声调、 语 气、 停顿 方式, 发 音长短也 各不相同, 这些都属于韵律特征。 而韵律参数则包括了能影响这些特征的声学参 数,如:基频、音长、音强等。 最终系统能够用来进行语音信号合成的具体韵律参数, 还要依靠韵律控制模 块。 与文本分析的实现方法类似, 韵律控制的方法也分为基于规则的方法和基于 数据驱动的方法。 较早期的韵律控制的方法均采用规则的方法。 目 前, 通过神经网络或统计驱 动的方法进行韵律控制的方法已获得了成功的应用。 5 3 .语音合成 文语转换系统的合成语音模块一般采用波形拼接来合成语音的方法, 其中最 具代表性的是基音同步叠加法 ( p s o l a ) 。其核心思想是,直接对存储于音库的 语音运用p s o l a算法来进行拼接,从而整合成完整的语音。然而, 基于波形拼 接方法的系统, 也存在一些问 题, 就是它的音库往往非常庞大, 需要占 据较大的 储存空间。这对系统推广到掌上型电脑或一些小的终端设备上非常不利。另外, 在拼接时, 两个相邻的声音单元之间的谱的不连续性, 也容易造成合成音质下降。 目 前, 解决这些问题较好的途径是把基于规则的波形拼接技术和参数语音合成方 法结合起来。 在此基础上诞生了一些新的模型, 如基音同步的s i n u s o i d a l 模型等, 这些对进一步改善系统的性能提供了帮助。 但目前, 这些工作还主要处于研究或 实 验 室 阶 段。 第二章mi d i 合成技术 第二章mi d i 合成技术 1 . m i d i 简介 m i d i ( 1 0 l i 的 全称是乐器数字接口( m u s i c a l i n s t ru m e n t d i g i t a l i n t e r f a c e ) 。 成 立于1 9 8 3 年的m i d i 制造联合会 ( m i d i m a n u f a c t u r e r s a s s o c i a t i o n, m ma ) 于 同 年制定 并推出 了 第一 个m i d i 标准 ( m i d i s p e c i f i c a t i o n 1 ) a 1 9 9 1 年m m a以 r o l a n d 公司的通用合成器标准 ( g e n e r a l s y n t h e s i z e r , g s ) 为基础制定了 更加细 致的通用mi d i 标准 ( g e n e r a l mi d i , g m) . y a ma h a公司根据自己产品情况 制订了扩展mi d i 标准 ( e x t e n d e d g e n e r a l mi d i , x g) o mi d i 使得人们可以利用 多媒体计算机和电子乐器去创作、 欣赏和研究音乐。它是目 前一切个人电脑、电 子合成器和绝大多数移动通信设备的标准音频配置。 mi d i 之所以能够流行的一个原因是它与数字音频文件 ( w a v , .a i f f 等) 、 c d或录音带都不同,它记录的是 “ 方法”而不是 “ 结果” 。普通数字音频文件 是计算机直接把声音的模拟信号经过采样和量化处理变成与其波形对应的数字 信号, 然后经过一定的压缩, 记录在储存设备中。 通常音频文件都比较大, 例如 记录一分钟c d音质的音乐需要1 0 . 5 m的储存空间。 即使是压缩率非常高的m p 3 格式文件,也需要 1 m左右。 一个mi d i 文件不需要捕捉和存储实际的声音, 取而代之的是,它可以仅仅 是一个事件的列表。mi d i 文件描述了一个键盘、吉它或其它演奏设备要产生某 种声音的 特定的步骤, 如用哪一种乐器, 什么时候按某个键, 力度怎么样等。电 子合成器在得到这些事件后以 预定的方式合成音乐。基于这一原因, m i d i 文件 比数字音频文件小得多,并且事件是可以编辑的, 音乐可以重排, 编辑,甚至交 互式作曲,随心所欲。严格地说mi d i 的合成就是一种波形拼接,它通过 mi d i 消息的控制把各个音符的波形修正后拼接在一起。 因此mi d i 文件通常比声音文 件小得多,一首乐曲,只有十几 k或几十 k ,只有声音文件的千分之一左右, 便于储存和携带。 mi d i由三个部分组成,分别是:通信协议,连接器及其传播格式即标准 mi d i 文件 ( s t a n d a r d mi d i f i l e s , s mf ) o 第二章 mi d i 合成技术 2 .标准mi d i 协议 2 . 1 . mi d i 消息 标准m i d i 协议规定了所有可能事件在数字乐器接口中的标识方法, 它们被 统一表示成mi d i 消息。 mi d i 设备之间的通信都通过多字节的mi d i 消息实现的。 传输时采用标准异步通信,波特率3 1 .2 5 k , 一个起始位,8 个数据位,一个停止 位,传输一个字节需要3 2 0 微秒。一个mi d i 消息是由一个字节的状态字开始, 后接数据段结束。一些特殊的实时控制消息可能具有更长的数据段。 状态字总是以“ 1 ”开头的,接下来的三个比 特表示消息类型。一共有8 种 mi d i 消息,它们可以表示所有的mi d i 事件,并且具有可扩展性。状态字的低 半字节表示mi d i 通道( c h a n n e l ) 。 一个物理链路上可以同时有 1 6 个mi d i 通道, 一个通道对应一个实际的mi d i 乐器,在任意时刻,通道上的乐器都可以改变。 数据段字节总是以0 开头的, 一般的消息数据段只有一到两个字节, 某些特 殊的系统控制消息可以有可变字节的数据段。 2 . 2 . mi d i 乐器 在一个mi d i 消息中只有7 个比特用来表示乐器种类, 即只能表示1 2 8种乐 器,所以在 mi d i 协议中乐器是分区 ( b a n k )的。mi d i 设备通过控制变化消息 来确定当前分区,然后从中 确定具体的乐器。区的总数是1 6 3 8 4 个, 这样m i d i 一共可以定义2 0 9 7 1 5 2 种乐器。 事实上到目 前为止,大部分区都没有被定义。 g m标准中规定通道 1 0始终用于打击乐器,其它通道始终用于旋律乐器。 由于打击乐器不存在音阶的问题, 所以 用这个通道的键值来表示乐器的种类。 也 就是说,通道 1 0上可以同时存在 1 2 7 种打击乐器。g m标准详细定义了0区中 3 5 - 8 1 号键值对应的打击乐器,其它键值为扩展保留。 g m标准详细定义了0 区中旋律乐器种类。 其中, 0 - 7 表示不同的钢琴: 8 - 1 5 表示不同的打击乐器;1 6 - 2 3表示不同的管风琴;2 4 - 3 1 表示不同的吉他;3 2 - 3 9 表示不同的贝司; 4 0 - 4 7 表示不同的弦乐器; 4 8 - 5 5 表示不同的重奏; 5 6 - 6 3 表示 不同的铜管乐器;6 4 - 7 1 表示不同的簧乐器;7 2 - 7 9 表示不同的笛;8 0 - 1 0 3表示 不同 的合成声效;1 0 4 - 1 1 1 表 示不同的民 族乐器; 1 1 2 - 1 1 9 表示不同的 打 击乐 器; 1 2 0 - 1 2 7 表示不同的音效。 第二章m i d i 合成技术 表 1 mi d i 消息 状态字数据段描述 通道声音消息 1 0 0 0 n n n n o x 8 x o k k k k k k k o v v v vvv v键释放 ( n o t e o ff ) o k k k k k k k 键值0 - 1 2 7 o v v v v v v v 键释放速度0 - 1 2 7 1 0 0 1 n n n n o x 9 xo k k k k k k k o v v v v v v v键按下 ( n o t e o n ) o k k k k k k k 键值 0 - 1 2 7 o v v v v v v v 键按下速度 1 一 1 2 7 o v v v v v v v = 0 键释放 1 o 1 o n n n n o x a xo k k k k k k k o v v v v v v v 复 音力度 ( p o l y p h o n i c k e y p re s s u r e ) o k k k k k k k 键值 0 - 1 2 7 o v v v v v v v 键力度值0 - 1 2 7 1 o l l n n n n o x b x o c c c c c c c o v v v v v v v控制变化 ( c o n t r o l c h a n g e ) o c c c c c c c 控制器编号0 - 1 2 1 o v v v v v v v 控制器值 0 - 1 2 7 1 1 0 0 n n n n o x c x o p p p p p p p乐器变化 ( p ro gr a m c h a n g e ) o p p p p p p p 乐器号0 - 1 2 7 1 1 0 1 n n n n o x d x o v v v v v v v 通道力度 ( c h a n n e l p r e s s u r e ) o v v v v v v v 通道力度值0 - 1 2 7 1 1 1 0 n n n n o x e xo v v v v v v v o p p p p p p p音调变化 ( p i t c h b e n d c h a n g e ) o v v v v v v v 音调值低位 0 - 1 2 7 o p p p p p p p 音调值高位0 - 1 2 7 通道控制消息 1 1 1 0 n n n n o x b xo v v v v v v v o p p p p p p p o v v v v v v v 控制号 1 2 2 - 1 2 7 o p p p p p p p 控制值0 - 1 2 7 系统控制消息 1 1 1 1 0 0 0 0 o x f o 1 1 1 1 0 1 1 1 o x f 7 * 系统控制消息 以o x f o开始,o x f 7 结束, 中间的字节数不限。 1 1 1 1 0 s s s o x f x0 - 2 字节 系统公共消息 o x f 2 , o x f 3 , o x f 6 , o x f 8 l l l l l t tt o x f x 0系统实时消息 o x f b, o x f c , o x f e , o x f a 第二章mi d i 合成技术 2 . 3 . mi d i 控制器 mi d i 音乐的表情变化,真实感的创造,音色的明暗、强弱和混响变化等均 离不开控制器的作用。控制器共有 1 2 8个。每个控制器可输入的参数范围均为 0 - 1 2 7 。迄今为止,这 1 2 8个控制器还没有完全标准化。但是,一些控制器的作 用类别己经标准化,即 0 -6 3号为持续类控制器,6 4 - 9 5号为开关型控制器 1 2 2 - 1 2 7号由通道方式信息专用。其中,0 和 3 2号控制器控制乐器区段选择;7 号控制器控制通道音量;1 0 号控制器控制左右声道音量等。 2 . 4 . mi d i 键值 mi d i中规定了 1 0个八度音阶,其中中音 c为 0 x 6 0 ,它对应的频率是 2 6 1 . 6 h z a 表 2 mi d i 键值 八度音阶键值 cc#dd#eff #gg#aa#b 0 8 . 2 hz0123 4567891 01 1 1 1 6 . 4 hz1 21 31 41 51 61 71 81 9 2 02 1 2 22 3 12 3 2 . 7 hz 2 42 52 62 72 82 93 03 1 3 23 33 43 5 3 6 5 ahz3 63 7 3 83 94 04 1 4 2 4 34 44 54 64 7 4 1 3 0 . 8 hz4 84 95 0515 25 35 45 55 65 75 8 5 9 5 2 6 1 . 6 hz 6 06 1 6 26 36 46 56 66 7 66 97 07 1 6 5 2 3 . 3 hz 7 2 7 37 47 57 67 77 87 98 0 8 18 28 3 7 1 0 4 6 . 5 hz8 48 58 68 78 88 99 09 1 9 2 9 39 49 5 8 2 0 9 3 . o hz9 3 9 79 8 9 91 0 01 0 11 0 2 1 0 3 1 0 4 1 0 5 1 0 61 0 7 9 4 1 8 6 . o h z 1 0 8 1 0 91 1 0 i i i 1 1 2 1 1 3 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论