(毕业论文)信道鲁棒的说话人识别(2013年优秀毕业设计论文)_第1页
(毕业论文)信道鲁棒的说话人识别(2013年优秀毕业设计论文)_第2页
(毕业论文)信道鲁棒的说话人识别(2013年优秀毕业设计论文)_第3页
(毕业论文)信道鲁棒的说话人识别(2013年优秀毕业设计论文)_第4页
(毕业论文)信道鲁棒的说话人识别(2013年优秀毕业设计论文)_第5页
已阅读5页,还剩56页未读 继续免费阅读

(毕业论文)信道鲁棒的说话人识别(2013年优秀毕业设计论文).pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信道鲁棒的说话人识别 Channel Robust Speaker Recognition 信 道 鲁 棒 的 说 话 人 识 别 吴 畏 摘 要 摘 要 在说话人识别中,说话人模型的训练语音与测试语音的信道差异是导致说 话人识别系统性能下降的重要因素之一。在应用于电话网络的说话人识别中, 说话人识别系统处理的语音不仅来自不同类型的传输信道,同时也来自不同类 型的话机麦克,因此使信道差异问题尤为显著。本文针对说话人识别的信道差 异问题,提出了基于 Cohort 的说话人模型合成算法,该算法利用测试信道下采 集的开发集数据作为信道的先验知识,当说话人模型的训练语音与测试语音的 信道不匹配时为其合成出适合该测试信道的说话人模型。在该算法中,信道的 先验知识从说话人的 Cohort 子集中分析提取。该算法可以作用在说话人模型一 级,也可以作用在说话人模型中包含的高斯混合一级。在 CCPC 跨信道说话人 识别数据集上的实验表明,该算法的信道鲁棒性能优于基于通用背景模型的说 话人模型合成算法与 Htnorm 算法。 关键词: 说话人识别 信道鲁棒 Cohort 说话人模型合成 Abstract Abstract Mismatch between enrollment and test data is one of the top performance degrading factors in speaker recognition applications. This mismatch is particularly true over public telephone networks where input speech data is collected over different handsets and transmitted over different channels from one trial to the next. In this paper a cohort-based speaker model synthesis (SMS) algorithm, designed for synthesizing robust speaker models without requiring channel-specific enrollment data, is proposed. This algorithm utilizes a priori knowledge of channels extracted from speaker-specific cohort sets to synthesize such speaker models. The cohort selection in the proposed new SMS can be either speaker-specific or Gaussian component based. Results on the China Criminal Police College (CCPC) speaker recognition corpus, which contains utterances from both landline and mobile channel, show the new algorithms yield significant speaker verification performance improvement over Htnorm and UBM-based speaker model synthesis. Keywords: Speaker recognition Channel-robust Cohort Speaker model synthesis 目 录 目 录 第 1 章 引言.1 1.1 说话人识别的应用背景1 1.2 说话人识别的评价标准2 1.3 说话人识别的跨信道问题3 第 2 章 信道鲁棒的说话人识别综述.5 2.1 说话人识别的系统构架5 2.1.1 综述5 2.1.2 混合高斯模型背景模型的说话人识别系统6 2.2 说话人识别的信道鲁棒算法7 2.2.1 综述7 2.2.2 特征域的信道鲁棒算法9 2.2.3 模型域的信道鲁棒算法12 2.2.4 分数域的信道鲁棒算法16 第 3 章 基于 Cohort 的说话人模型合成.18 3.1 说话人模型合成18 3.2 基于通用背景模型的说话人模型合成18 3.3 基于 Cohort 的说话人模型合成的基本思路21 3.4 说话人语音相似程度的度量22 3.5 基本假设的验证24 3.6 说话人模型的构建结构26 3.7 说话人模型的合成算法26 3.8 合成模型的误差估计29 3.9 高斯混合级的合成算法30 第 4 章 实验结果与分析.32 4.1 综述32 目 录 4.2 实验数据与实验环境32 4.3 特定说话人 Cohort 子集大小对算法性能的影响33 4.4 Cohort 全集大小对算法性能的影响.37 4.5 高斯混合级的合成算法的性能比较38 4.6 与其它信道鲁棒算法的比较40 4.7 与其它信道鲁棒算法的融合45 第 5 章 总结与展望.47 参考文献.49 致谢与声明 错误!未定义书签。错误!未定义书签。 个人简历、在学期间发表的学术论文.54 第 1 章 引言 1 第 1 章 引言 1.1 说话人识别的应用背景 生物特征认证技术,包含人脸识别、虹膜/视网膜识别、指纹/掌纹识 别、说话人识别、签名识别、步态识别等技术,具有不易仿冒、可靠性高、 使用方便等特点,目前已得到了较为充分的研究并取得了一定的进展,有 一些适用于特定条件的系统已经投入到实际应用中。在各种生物特征身份 认证技术中,说话人识别技术由于其自身独特性质而具有不可替代性:首 先,说话人识别技术对生物特征的采集不涉及指纹等在法律上和使用者心 理上敏感的个人隐私信息,法律适用性和用户接受性强;其次,说话人识 别所需的生物特征采集设备与人脸识别、 虹膜/视网膜识别等技术所需的设 备相比成本低廉,易于推广;最后,在电话通信网络等一些特定的应用场 景中,说话人的语音特征是当前唯一可以轻易获取的生物特征。说话人识 别技术的这些特点,使得其可以广泛地应用于国防侦听、刑事侦查、庭审 证据、出入境管理、安全认证,以及个性化服务等领域。 说话人识别根据应用的范畴可分为两类:(1)说话人辨认(Speaker Identification):给定一段测试语音与 N 名目标说话人,判断该段测试语 音来自 N 位目标说话人中的哪一位,是多选一的问题;(2)说话人确认 (Speaker Verification):给定一段测试语音与一名目标说话人,判断该 段测试语音是否来自该名目标说话人。说话人辨认通常假设测试语音只来 自于于给定的 N 名目标说话人,不能处理集外说话人的语音;而说话人确 认则无此假设,可以处理集外说话人的语音,因此其在实际应用中的灵活 性和应用性一般优于说话人辨认,是说话人识别系统广泛采用的应用模 式:在实际应用中,对于出入境管理、安全认证等与身份认证相关的应用 中,通常使用者会宣称自己为某一名说话人,系统判断其语音是否来自于 该宣称的说话人,这种应用模式自然采用说话人确认的方式;对于国防侦 听、刑事侦查等与语音侦听相关的应用中,一种应用场景为给定一段被侦 听的语音,需要判断该段语音说话人的身份,这类应用通常采用利用数据 库中的每一名目标说话人分别对该段语音进行说话人确认的方式完成;另 第 1 章 引言 2 一种应用场景为给定一名被侦听的目标说话人,需要在大量的被侦听语音 中选择出该名目标说话人的语音,这类应用通常采用利用该名目标说话人 分别对这些语音进行说话人确认的方式完成。 说话人识别根据其对语音内容的限制可以分为三种模式:(1)文本 相关(Text-dependent):要求训练语音和测试语音所对应的文本完全一致 的说话人识别。这类识别模式的建模方式相对简单,要求的训练语音与测 试语音的长度较短, 但由于对文本内容的限制, 一般只应用于出入境管理、 安全认证等与身份认证相关的应用。(2)文本无关(Text-independent): 不要求训练语音和测试语音所对应的文本一致的说话人识别。由于对文本 内容要求不高,用户使用方便,可应用范围较宽,特别适合国防侦听、刑 事侦查等与语音侦听相关的应用。一般来说,文本相关的说话人识别性能 要高于文本无关的说话人识别,但是后者使用的灵活性要好于前者。(3) 指定文本(Text-prompt):要求测试语音所对应的文本为系统所指定文本 (不一定与训练语音的文本相同)的说话人识别。指定文本的说话人识别 主要应用于出入境管理、安全认证等与身份认证相关的应用,可以防止通 过预先盗取或录制说话人的语音等方式非法闯入系统的情形发生。指定文 本的说话人识别可以为以下的两种方式:方式 1 为在进行识别时,系统会 随机地指定要求说话人说出的文本,只有说话人说出的文本与指定的文本 一致且说话人确认的结果为接受时该说话人才可以被系统接受;方式 2 为 在进行识别时,系统随机提问说话人某个或某些预先设定的问题,只有说 话人回答的文本与预先设定的答案的文本一致且说话人确认的结果为接 受时该说话人才可以被系统接受。指定文本的说话人识别一般要与语音识 别技术结合使用。 本文主要研究在电话信道下的说话人识别。通常电话信道下应用的说 话人识别系统的测试语音是文本内容不定、发音随意的语音;测试语音可 能来自目标说话人(系统存储的集内说话人),也可能来自集外的假冒说 话人,因此本论文的研究集中在文本无关的说话人确认。 1.2 说话人识别的评价标准 说话人识别的性能主要使用两类错误率来衡量,即错误接受率(False 第 1 章 引言 3 Acception Rate,FAR;又称 False Alarm Probability)和错误拒绝率(False Rejection Rate,FRR;又称 Miss Probability)1。错误接受率指说话人识 别系统对来自冒名者的语音的接受概率,该值越低,说明系统越安全,不 易被冒名者闯入;错误拒绝率指说话人识别系统对来自目标说话人的语音 的拒绝概率,该值越低,说明目标说话人越容易进入系统。这两类错误率 与说话人识别系统的判决阈值有关,阈值越低,系统的错误拒绝率越低, 相应的错误接受率就越高;阈值越高,系统的错误拒绝率越高,相应的错 误接受率就越低。错误接受率与错误拒绝率相等时的错误率称为等错误率 (Equal Error Rate)。通常说话人识别系统的等错误率越低,系统的识别 性能就越好。但不同的应用场合对错误接受率与错误拒绝率的权衡有不同 的要求,仅凭等错误率不能表现说话人识别系统的整体性能,目前被广泛 使用的一种对说话人识别系统的评价方式是检测错误权衡曲线(Detection Error Trade-offs Curve,DET Curve)1。在 DET 曲线上,曲线越接近原 点,系统的识别性能越好。 1.3 说话人识别的跨信道问题 随着近年来说话人识别技术研究的逐步深入,虽然目前在限定条件下 说话人识别已经可获得较为满意的识别效果,但是与实际应用的要求仍有 一定距离,尚有一些问题亟待解决,包括:跨信道问题;背景噪声问题; 说话人自身情感、健康状况的变化对说话人语音的影响。这三类问题对说 话人识别的影响都非常显著,本课题将针对跨信道问题进行深入研究。跨 信道问题的成因在于语音的传输信道或语音采集设备会对说话人的语音 产生畸变。对于语音信号的传输信道,其压缩编码损失、传输误码损失等 原因会使语音产生畸变,如目前中国国内电信常用的电话网络中含有 CDMA、GSM、小灵通等移动传输信道,也有 PSTN、IP 电话等固定电话 传输信道,同时也包括无绳电话的短距离传输信道,不同类型的传输信道 对语音造成的畸变是各不相同的;同时不同的语音采集设备本身的硬件特 性也会使语音产生一定的畸变,如不同型号的手机、座机的电话话筒,不 同型号、质量的麦克风等,这些不同型号的采音设备对语音产生的畸变也 是各不相同的2-4。因此,来自同一名说话人的语音信号,在经过不同的 第 1 章 引言 4 传输信道或语音采集设备后,得到的语音信号也是有所不同的。在实际应 用中,通常一名说话人的模型只使用在一种传输信道下的一种特定设备采 集的语音训练,但识别语音经常会来自于不同的传输信道或语音采集设备 (为叙述方便,下文中对传输信道与语音采集设备通称为“信道”),由 此造成识别语音与模型训练语音中信道畸变的不匹配,即说话人识别的跨 信道问题,这种不匹配会对说话人识别的性能产生很大的负面影响1。 一种解决的方式是为说话人分别采集在不同信道下的语音信号训练 信道相关的说话人模型,在识别时使用与识别语音匹配的信道下训练的说 话人模型进行识别。但是由于实际应用条件的限制,简单地采用为一名说 话人训练不同信道下的多个模型的策略是比较困难甚至是不可行的。首 先,传输信道种类较多,如上文所举仅中国国内的移动电话网就有 GSM、 CDMA、小灵通三种传输信道,而同一种传输信道下手机的型号又种类繁 多,在操作成本和使用者的可接受程度上不可能要求每个说话人在每类信 道下都训练一个说话人模型;另外,在诸如国防侦听、刑事侦查等领域的 应用中,采集侦听对象语音的环境往往是不可控的,更不可能要求侦听对 象有对应不同信道的多个模型。因此,必须寻找一种信道鲁棒的说话人识 别方法,减轻或消除跨信道对说话人识别的负面影响,使说话人识别的性 能达到实用中要求的水平。 本文针对说话人识别中的跨信道问题,提出基于 Cohort 的说话人模型 合成算法,利用从不同信道下采集的开发集数据提取出对应信道下说话人 相关的信道先验知识,为目标说话人合成出其在该信道下对应的说话人模 型,从而提高说话人识别的信道鲁棒性。本文的结构安排如下,第二章简 介说话人识别的系统构架与基本算法,同时综述当前主流的说话人识别信 道鲁棒算法;第三章系统介绍基于 Cohort 的说话人模型合成算法;第四章 介绍本文主要的实验结果与分析;第五章对本文的工作进行总结并对下一 步的研究方向提出建议。 第 2 章 信道鲁棒的说话人识别综述 5 第 2 章 信道鲁棒的说话人识别综述 2.1 说话人识别的系统构架 2.1.1 综述 说话人识别从说话人的语音中提取反映说话人发音器官的生理特性与 行为习惯的特征,用以识别测试语音中说话人的身份。说话人识别系统的 应用分为两个过程:训练过程和识别识别(如图 2.1 所示)。在训练过程 中,系统提取目标说话人的语音特征,分析语音特征的统计规律,为目标 说话人训练出说话人模型; 在识别过程中, 系统提取测试语音的语音特征, 并将其与目标说话人的模型进行比对打分,根据一定的相似性准则来判断 测试语音中说话人的身份。 图 2.1 说话人识别系统结构 说话人识别系统包含特征提取、模型训练与模型打分三个主要部分。 说话人识别系统的特征提取部分中,反映说话人身份特点的语音特征 包含多个层次:一类是主要体现说话人发音器官生理特性的低层特征,主 要为传统的语音频谱特征,如梅尔倒谱特征(Mel-Frequency Cepstral Coefficient, MFCC),线性预测倒谱系数( Linear Predictive Cepstral 特 征 提 取 特 征 提 取 模 型 训 练 说 话 人 模 型 (GMM-UBM) 模 型 打 分 . . 训 练 语 音 识 别 语 音 特 征 向 量 (MFCC/LPCC) 识 别 分 数 特 征 向 量 (MFCC/LPCC) 说 话 人 训 练 过 程 说 话 人 识 别 过 程 说 话 人 训 练 过 程 说 话 人 识 别 过 程 第 2 章 信道鲁棒的说话人识别综述 6 Coefficient, LPCC),感知线性预测(Perception Linear Predictive, PLP) 等5;另一类是主要体现说话人用语习惯、发音特点的高层特征6-7,如 反映说话人语音抑扬顿挫的规律的韵律特征(Prosodic Features)8-13, 反映说话人习惯用语中音素统计规律的音素特征 (Phone Features) 14-21, 以及反映说话人习惯用语中用词统计规律的词特征(Lexical Features) 1921-22等。 说话人识别系统的模型训练与模型打分部分中,对目标说话人的建模 方式目前以统计模型为主。其中,对于几类低层的语音频谱特征,主要采 用混合高斯模型-背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)23或使用高斯混合模型超向量的支持向量机(GMM Supervector SVM)24-25的方式建模;对于不同类型的高层特征,往往采 用不同类型的建模方式, 常用的方式有高斯混合模型、 支持向量机、 N-gram 模型、决策树等。 总的来讲,基于低层的语音频谱特征的说话人识别系统对训练语音与 测试语音的长度要求较低,取得的识别精度较高,是目前主流的说话人识 别方式;基于高层特征的说话人识别系统对训练语音与测试语音的长度要 求较高,取得的识别精度较基于低层的语音频谱特征的说话人识别系统 低,主要作为后者的补充与后者识别的结果进行融合。 本文中提出基于 Cohort 的说话人模型合成算法的主要针对基于低层 的语音频谱特征的混合高斯模型背景模型的说话人识别系统的信道鲁 棒性问题。 2.1.2 混合高斯模型背景模型的说话人识别系统23 2.1.3.1 高斯混合模型 对于 D 维高斯混合模型,其概率密度函数定义为 ()( ) = = M m mm xpwxp 1 | (2-1) 该概率密度函数为M个D维单高斯概率密度函数以wm为权重的加权 和,每一个单高斯概率密度函数定义为 第 2 章 信道鲁棒的说话人识别综述 7 ( ) () ()() = mm T m m D m xxxp 1 2/1 2/ 2 1 exp 2 1 (2-2) 其中m为第m个单高斯概率密度函数的均值,m为其协方差矩阵,记 wm,m, m。 2.1.3.2 通用背景模型 通用背景模型为使用来自多名说话人的大量语音训练的高斯混合模 型,用来描述人类语音的共性特征。在说话人识别系统中,其作用主要体 现在为说话人模型的训练提供人类语音共性特征的先验信息,同时也在说 话人识别的打分过程中用于识别打分的归一化处理。通用背景模型通常采 用EM算法26进行训练。 2.1.3.3 说话人模型 说话人模型采用目标说话人的训练语音从通用背景模型中利用最大后 验概率(Maximum a Postieri,MAP)算法27自适应得到。这种训练方式 的优点在于利用通用背景模型作为先验知识,可以在说话人的训练数据较 少的情况下取得比较好的训练效果。 2.1.3.4 识别过程 在识别过程中,分别使用目标说话人的模型与通用背景模型对测试语 音的特征进行打分,系统输出的分数这两个分数的差。 ()() ubmispki xpxp N S|log|log 1 = (2-3) 其中 i x为测试语音中的语音特征,N为测试语音中语音特征的帧数, () spki xp|为目标说话人的模型,() ubmi xp|为通用背景模型。系统根据设 定的阈值判断该段测试语音的说话人是否为宣称的目标说话人。 2.2 说话人识别的信道鲁棒算法 2.2.1 综述 如前文所述,说话人识别的跨信道问题的本质在于训练说话人模型的 第 2 章 信道鲁棒的说话人识别综述 8 语音所承受的信道畸变与测试语音所承受的信道畸变的不匹配,从而造成 原有说话人模型不能准确描述在另一信道下说话人的语音特征,导致说话 人识别系统性能的下降。如何处理这种模型与测试语音的不匹配,是提高 说话人系统信道鲁棒性的关键。 从解决说话人识别跨信道问题的思路上,说话人识别的信道鲁棒算法 主要可以分为“规避”与“补偿”两类。“规避”类信道鲁棒算法试图分 析出语音特征、说话人模型参数或识别打分中受信道影响的部分,将这部 分分离出来加以规避,只利用不受信道影响的部分进行说话人的建模、识 别,从而提高说话人识别系统的信道鲁棒性;“补偿”类信道鲁棒算法也 对语音特征、说话人模型参数或识别打分中受信道影响的部分进行分析, 但其并不对这一部分进行规避,相反其对这一部分随信道变化的规律进行 分析,利用这种规律对语音特征、说话人模型参数或识别打分在不同的信 道下的变化进行补偿,尽量将其转化为测试语音信道下的语音特征、说话 人模型参数或识别打分。这两类跨信道鲁棒算法各有所长,各自都有一些 具有代表性的效果良好的信道鲁棒算法。 由于说话人识别系统含有特征提取、模型训练与模型打分三个主要部 分,从算法的作用域上,说话人识别的信道鲁棒算法也可以分为特征域、 模型域与分数域三类: (1)特征域的说话人识别信道鲁棒算法 该类算法主要目标是消除语音特征中的信道影响,使用消除了信道畸 变的特征进行说话人模型的训练与说话人识别。 这一类常用的算法有倒谱均值减 (Cepstrum Mean Subtraction, CMS) 、 倒谱方差归一(Cepstrum Variance Normalization, CVN)28、特征弯折 (Feature Warping)29、RASTA滤波30、特征映射(Feature Mapping) 31等。这类算法的优点在于由于作用在特征域,可以通用于各种不同的 说话人模型建模方式的说话人识别系统。 (2)模型域的说话人识别信道鲁棒算法 该类算法的主要研究信道对说话人模型参数变化的影响,或采用“补 偿”的方式为不同的信道调整说话人模型的参数,或采用“规避”的方式 建立不受信道作用影响的说话人模型。前一类的代表算法为建立在高斯混 合模型通用背景模型的系统上的基于通用背景模型的说话人模型合成 第 2 章 信道鲁棒的说话人识别综述 9 (UBM-based Speaker Model Synthesis)32以 及 因 子 分 析 (Factor Analysis,FA)33-34;后一类的代表算法为建立在高斯混合模型超向量 支持向量机模型(GMM Supervector SVM)的系统上的有害分量投影 (Nuisance Attribute Project, NAP)35。这类算法的优点在于便于针对不 同说话人模型建模方式的特点组织、利用先验的开发级数据,对信道影响 进行更精确的“补偿”或“规避”。 (3)分数域的说话人识别信道鲁棒算法 该类算法主要通过一定的先验知识对说话人识别系统的打分进行归 一化处理,将其对冒名者语音的打分转化为()1 , 0N正态分布,从而矫正说 话人模型对来自不同的信道的在分布上的偏差。这一类常用算法的有 Hnorm36、Htnorm37、Atnorm38等,该类算法虽然对消除说话人识别 信道作用的效果有限,但算法复杂度低,实现简单。 本节的剩余部分将以这种分类方式为主线,简介目前主流的说话人识 别信道鲁棒性算法。 2.2.2 特征域的信道鲁棒算法 2.2.2.1 倒谱均值减 倒谱均值减是用来消除说话人的频谱特征中信道产生的平稳卷积噪 音干扰,公式如下: ( )( )( ) 1 1 ;1,2,., N ddd i CtCtCidD N = = (2-4) 其中,Cd(t)是第t帧第d维特征分量,D是特征的维数,N是特征的 总帧数。通常,倒谱均值减是作用于整段语音上的。 2.2.2.2 倒谱方差归一 倒谱方差归一是用来消除说话人的频谱特征中信道带来的偏移误差, 算法定义如下: ( ) ( ) ;1,2,., d d d Ct CtdD = (2-5) 第 2 章 信道鲁棒的说话人识别综述 10 其中 d 是倒谱特征估计得到的标准方差的第d维系数。通常,倒谱方 差归一化是作用于整个语音文件上的,但是对于电话信道的语音来说,由 于有较多的背景噪音干扰,在整段语音上做倒谱方差归一效果不是很好, 因此一般选择在有效语音上进行。另外可以将倒谱均值减和倒谱方差归一 合在一起,作用于有效语音段上,来提高系统的信道鲁棒性,公式如下: ( ) ( )( ) 1 1 ;1,., N dd i d d CtCi N CtdD = = (2-6) 2.2.2.2 特征弯折 特征弯折的思想是将说话人语音的频谱特征序列通过累积分布函数 (Cumulative Distribution Function,CDF)变化为符合标准正态分布的特 征序列,来提高特征对不同信道和噪音的鲁棒性。特征弯折假设倒谱特征 各维独立,因此可以对各维单独来处理。首先给定滑动窗的窗长N(即窗 内有N帧倒谱特征),对一窗内同维的倒谱系数值按照从小到大的顺序进 行排序,如果原来处于窗中心位置的倒谱系数值(设为x)排序后的位置 为r(在1和N之间),那么对应的CDF值 可以按照下式得到: () 1/2 /rN = (2-7) 那么原中心位置的倒谱系数值x在特征弯折后变为 x ,这里 x 满足: ( ) x f z dz = (2-8) 其中( )zf是标准正态分布的概率密度函数,定义如下: ( ) 2 1 exp 22 z f z = (2-9) 特征弯折是近些年在说话人识别中提出来的特征归一化方法,在单人 跨信道识别中取得了较好的效果。它与CMS相结合,能够进一步降低系 统的等错误率。 与特征弯折类似的还有短时高斯化39,异方差归一化等算法40, 第 2 章 信道鲁棒的说话人识别综述 11 也取得了比较好的效果。这些算法与倒谱均值减、倒谱方差归一等算法共 同的优点是不依赖额外的开发集数据用于提取信道的先验信息,实现方 便,因此被说话人识别系统广泛采用;其缺点是由于信道对说话人语音的 影响比较复杂,仅使用这种不使用信道先验信息的特征归一化算法不能完 全消除信道对语音的畸变。 2.2.2.4 特征映射 特征映射利用额外的开发集数据分析说话人语音的频谱特征在不同信 道下的变化规律,利用这些规律将特征映射到一个信道无关的空间中,利 用这些信道无关的特征为说话人训练模型和识别。特征映射算法由基于通 用背景模型的说话人模型合成算法发展而来,其目的是将说话人的语音特 征映射到一个信道无关的空间中,利用得到的信道无关的特征进行说话人 的建模与识别。根据特征映射算法,说话人识别系统也维护与通用背景模 型的说话人模型合成算法相同的一组基础通用背景模型与特定信道通用 背景模型(如图2.2所示)。对于测试语音,首先判断其来自哪个信道。 对于测试语音的每一帧语音特征x,利用该信道的特定信道通用背景模型 中的每个高斯混合为其打分,选择打分最高的高斯混合记为m,然后将该 帧语音特征做如下变换, () ubm iroot ubm ic ubm irootubm icii xy , , , , += (2-10) 其中 i x与 i y分别为变换前后该帧语音的第i维分量, ubm iroot, 与 ubm ic, 分别为基 础通用背景模型与特定信道通用背景模型中第m个高斯混合的均值中的 第i维分量, ubm iroot, 与 ubm ic, 分别为基础通用背景模型与特定信道通用背景模 型中第m个高斯混合的协方差矩阵(对角阵)中的第i维分量。特征映射 假设语音特征在信道间的变化规律服从多高斯分布。由于特征映射作用在 特征域,具有更为灵活的优点,是目前最常用的说话人识别信道鲁棒算法 之一。 第 2 章 信道鲁棒的说话人识别综述 12 图 2.2 特征映射 2.2.3 模型域的信道鲁棒算法 2.2.3.1 基于通用背景模型的说话人模型合成 基于通用背景模型的说话人模型合成算法的基本思路是利用额外的 开发集数据分析不同信道的特性,使用目标说话人的原始模型和分析出的 测试信道的特性为目标说话人合成出其在测试信道下的模型。如果测试语 音来自于为目标说话人训练原始模型的信道,则使用原始模型对测试语音 进行识别;如果测试语音来自于不同于为目标说话人训练原始模型的信 道,则使用目标说话人在该信道下的合成模型为对测试语音进行识别。基 于通用背景模型的说话人模型合成算法的本质是对说话人模型的参数在 不同信道下的变化进行补偿。对该算法的细节将在第3章中进行介绍。 2.2.3.2 因子分析 因子分析是近年提出的信道鲁棒算法,其应用在高斯混合模型通用 背景模型的说话人模型识别系统上。因子分析认为对于不同的语音段应对 应一组不同的说话人模型参数,影响说话人模型参数变化的主要来源为信 目 标 说 话 人 模 型 信 道1的 特 定 信 道 通 用 背 景 模 型 信 道2的 特 定 信 道 通 用 背 景 模 型 基 础 通 用 背 景 模 型 特 征 映 射特 征 映 射 训 练/识 别 第 2 章 信道鲁棒的说话人识别综述 13 道畸变的差异以及同一说话人在不同的语音段中的由于发音变化或语音 文本内容不同引起的差异。该算法利用额外的开发集数据分析影响说话人 模型参数变化的因子,利用分析结果总结出的规律为针对测试语音的特点 调整说话人模型参数,使用最适合测试语音的说话人模型对其进行识别。 因子分析的对象是高斯混合模型的超向量(Super-vector),其定义如 下, = N M M 2 1 (2-11) 其中 i 为高斯混合模型的第i个高斯混合的均值,N为高斯混合模型含有 的高斯混合的数目,超向量的维度为L (L=ND,D为高斯混合的维度)。 高斯混合模型的超向量实际上就是将高斯混合模型的所有均值向量拼接 得到的向量。 因子分析认为某目标说话人的第s段语音对应的模型的超向量( )sM可 以分解为如下因子的和 ( )( )( )( ) suxsdzsvymsM h += (2-12) 其中( )( )sdzsvym+为该目标说话人的说话人因子,m为超向量中与信道以 及说话人的发音方式、文本内容无关的部分,即该目标说话人的模型超向 量中对于不同的语音段不变的部分;( )( )sdzsvy+为该目标说话人的模型超 向量中受说话人的发音方式、文本内容所影响的部分,其中d为一个L维 的对角阵,( )sz为L维的服从()IN, 0正态分布的随机向量,v为一个RL的 矩阵(RL ),( )sy为R维的服从()IN, 0正态分布的随机向量,其中( )sz 与( )sy独立;( )suxh为信道因子,表示超向量中受信道影响的部分,这一部 分与说话人无关,只与信道有关,其中u为UL(UL)维矩阵,矩阵 uu*描述超向量中的信道空间,( )sxh为U维的服从()IN, 0正态分布的随机 第 2 章 信道鲁棒的说话人识别综述 14 向量,其分别与( )sz与( )sy独立。其中( )sz,( )sy与( )sxh即为说话人模型超 向量中所包含的因子。 因子分析利用额外的开发集数据训练出m,v,d与u;在训练目标说 话人模型时,保持u不变,利用训练语音为目标说话人在原有的m,v,d 利用后验概率的方式重新估计m,v,d;对于不同的测试语音,线形因子 分析通过估算出该段语音的( )sz,( )sy与( )sxh,得到适合该段语音的超向 量( )sM。然后根据估算的超向量对应的说话人模型对测试语音进行识别。 因子分析同时考虑到了说话人发音方式、语音内容与信道对说话人语 音的影响,并为不同的测试语音“量身定做”合适的说话人模型参数,在 应用中取得了非常好的效果,是当前说话人识别领域研究的热点之一。但 是,由于超向量的维度过高(以采用32维特征向量与2048个高斯混合的 说话人模型的说话人识别系统为例,其超向量有322048维),训练说 话人模型中m,v,d与u的所需的开发集数据量很大,训练算法复杂,实 现难度较高,其训练的计算量相当大;同时在为识别阶段,需要根据测试 语音的特点估计( )sz,( )sy与( )sxh,该估计算法往往需要多布迭代,计算 量较大。为克服这些缺点,出现了一些改进的算法,也取得了很好的效果, 如简化的因子分析(Simplified Factor Analysis,SFA)41,在特征域进 行 补 偿 的 信 道 因 子 分 析42, 信 道 子 空 间 投 影 (Channel Subspace Projection,CSP)43等。 2.2.3.3 有害分量投影 有害分量投影的信道鲁棒算法主要针对高斯混合模型超向量支持向 量机模型的说话人识别系统,该算法也是由因子分析发展,与后者不同的 是,该算法处理信道差异的思路是“规避”,而后者的思路是“补偿”。 高斯混合模型超向量支持向量机模型的说话人识别系统的前端与高 斯混合模型通用背景模型相似,也是利用说话人语音的频谱特征作为系 统的输入特征,并利用开发集数据训练通用背景模型;但在后端该系统使 用高斯混合模型的超向量作为特征,使用支持向量机对说话人进行分类。 在训练目标说话人模型时,该系统使用训练语音利用MAP自适应算法在 通用背景模型的基础上自适应均值,并提取得到的高斯混合模型的超向 第 2 章 信道鲁棒的说话人识别综述 15 量,如果有多段训练语音,则可以得到目标说话人多个超向量,作为该目 标说话人得类内样本;同时系统预测一批大量说话人的超向量,这些超向 量使用这些说话人的语音利用MAP自适应算法在通用背景模型的基础上 自适应均值得到,作为目标说话人的类外样本;对于该目标说话人,使用 其类内样本与类外样本训练支持向量机(使用线性核或K-L散度核),作 为该目标说话人的模型。在识别时,使用测试语音利用MAP自适应算法 在通用背景模型的基础上自适应均值,并提取得到的高斯混合模型的超向 量,并将该超向量送入该目标说话人的支持向量机进行识别。 有害分 量投影 m (I-P)m Pm 原始超向 量m 超向量在信 道子空间 的投 影向量Pm; P是 信道子空 间的投影 矩阵 进行有害分量投影处理之 后的超 向量(I-P)m 图 2.3 有害分量投影 有害分量投影对超向量空间进行分析,得到超向量空间中受信道影响 变化的信道子空间,在利用超向量进行模型训练与识别之前将其在信道子 空间投影从超向量中减去,利用超向量中与信道无关的部分进行模型训练 与识别(如图2.3所示), ()mPIm= (2-13) 其中m为原始超向量,矩阵P是超向量的信道子空间的投影矩阵,I为单 位矩阵。 信道子空间的投影矩阵P使用开发集中大量说话人的语音数据训练, 要求开发集每名说话人在多个信道下均有语音。描述信道子空间的自相关 矩阵R可如下计算, 第 2 章 信道鲁棒的说话人识别综述 16 ( ) ( ) () ( ) = = sK i ism sK sm 1 , 1 (2-14) ()( )() ( ) ()( )() = = N s T sK i smismsmism N R 11 , 1 (2-15) 其中()ism,为开发集中说话人s的第i段语音的超向量,( )sK为说话人s所 拥有的语音段数目;N为开发集中的说话人数目。对描述信道子空间的自 相关矩阵R进行PCA分析,选取其特征值最大的n个特征向量对应的特 征值经单位正交化后组成信道子空间的投影矩阵P。 有害分量投影方法与因子分析相比计算量相对较小,在高斯混合模型 超向量支持向量机模型的说话人识别系统上取得了显著的效果,也是目 前的研究热点之一。 2.2.4 分数域的信道鲁棒算法 2.2.4.1 综述 分数域的信道鲁棒算法的目标是通过归一化处理矫正说话人模型对来 自不同信道的测试语音打分的偏差。该类算法其通过对开发集数据的分 析,得到分数归一化参数,将说话人模型对冒名者语音的打分归一化为 ()1 , 0N正态分布, = S S (2-16) 其中S为说话人语音对测试语音的原始打分,S为分数归一化后的打分, (),为分数归一化参数。不同类别的分数域信道鲁棒算法的主要区别就 在不同对分数归一化参数估计的算法不同。 分数域的信道鲁棒算法由于实现简单,计算量小,是目前常用的信道 鲁棒算法。 第 2 章 信道鲁棒的说话人识别综述 17 2.2.4.2 Hnorm 根据Hnorm算法,系统为不同的应用信道预存一批在该信道下录制的 大量说话人的语音作为开发集中的冒名者语音。当一个目标说话人的模型 训练完成后,用其分别对不同信道下预存的说话人语音打分,统计对同一 信道下的说话人语音打分的均值与标准差,作为该目标说话人的模型在该 信道下的分数归一化参数; 在识别过程中, 首先判断测试语音来自的信道, 然后使用目标说话人模型在该信道下的分数归一化参数对其对测试语音 的打分进行归一化处理。 2.2.4.4 Htnorm 根据Hnorm算法,系统为不同的应用信道预存一批在该信道下采集的 语音训练的大量说话人的模型作为该信道下的Cohort说话人模型。 在识别 过程中,首先判断测试语音来自的信道,然后使用该信道下的Cohort说话 人模型对测试语音进行打分,统计打分的均值与标准差作为该段测试语音 的分数归一化参数,对目标说话人对测试语音的打分进行归一化处理。 2.2.4.5 Atnorm Atnorm与Hnorm算法相似, 系统预存一批在各个信道下采集的大量的 说话人的模型作为Cohort说话人模型。但是,Atnorm算法并不简单根据 Cohort说话人模型的训练语音采集的信道作为选择计算分数归一化参数 的Cohort说话人模型集合的标准。Atnorm算法为不同的目标说话人选择 不同的Cohort说话人模型集合为其进行打分的分数归一化。Atnorm算法 衡量目标说话人模型与Cohort说话人模型的相似程度, 选择与目标说话人 模型最相似的前N个Cohort说话人模型组成其Cohort说话人模型集合。 在识别过程中, 首先使用目标说话人的Cohort说话人模型集合中的Cohort 说话人模型对测试语音进行打分,统计打分的均值与标准差,作为目标说 话人模型对该段测试语音打分的分数归一化参数。 第 3 章 基于 Cohort 的说话人模型合成 18 第 3 章 基于 Cohort 的说话人模型合成 3.1 说话人模型合成 说话人模型合成算法的基本思路是利用额外的开发集数据分析不同 信道的特性,使用目标说话人的原始模型和分析出的测试信道的特性为目 标说话人合成出其在测试信道下的模型。如果测试语音来自于为目标说话 人训练原始模型的信道,则使用原始模型对测试语音进行识别;如果测试 语音来自于不同于为目标说话人训练原始模型的信道,则使用目标说话人 在该信道下的合成模型为对测试语音进行识别。说话人模型合成算法的本 质是对说话人模型的参数在不同信道下的变化进行补偿。 3.2 基于通用背景模型的说话人模型合成 基于通用背景模型的说话人模型合成算法利用不同信道下的通用背 景模型作为信道的先验知识。由于这些通用背景模型使用对应信道下大量 的说话人语音数据训练,其描述了对应信道下人类语音的平均特性;因此 这些通用背景模型的参数在不同信道间的变化体现了人类语音在不同信 道变化的平均特性。 根据该算法,系统训练一个基础通用背景模型,该模型使用各个信道 下数据量平衡的大量说话人的语音数据训练,其代表了与信道无关的部分 的说话人模型; 对应不同的信道, 利用该信道下的大量说话人的语音数据, 从基础通用背景模型使用MAP自适应的算法训练出特定信道通用背景模 型;每个目标说话人的原始模型以训练语音所在的信道对应的特定信道通 用背景模型为基础使用训练语音利用MAP自适应得到(如图3.1所示)。 这种说话人模型构建的方式保证了所有通用背景模型、说话人模型的各个 高斯混合存在一一对应关系。在识别时,如果测试语音来自于与训练目标 说话人原始模型不同的信道,则利用目标说话人的原始模型与特定信道通 用背景模型为目标说话人合成出测试信道的模型。假设存在两个应用信 道:信道1与信道2,其中目标说话人的原始模型采用信道1下的语音训 第 3 章 基于 Cohort 的说话人模型合成 19 图 3.1 基于通用背景模型的说话人合成算法的模型构成结构 练,测试语音来自与信道2,目标说话人在信道2下的合成模型的模型参 数估计算法如下: = ubm cm cm ubm cmcm w w ww 1, 1, 2,2, (3-1) () ubm cmcm ubm cmcm1,1,2,2, += (3-2) () 1 1 ,1 ,2,2, = ubm mm ubm cmcm (3-3) 其中为() 2,2,2, , , cmcmcm w为目标说话人在信道2下合成模型的第m个高斯混 合的参数,() 1,1,1, , cmcmcm w为目标说话人在信道1下原始模型的第m个高 斯混合的参数,() ubm cm ubm cm ubm cm w 1,1,1, ,与() ubm cm ubm cm ubm cm w 2,2,2, ,分别为信道1与信道2 的特定信道通用背景模型的第m个高斯混合的参数。 由于目标说话人模型在训练时通常只在对应信道的特定信道通用背景 模型的基础上通过自适应高斯混合均值的方式得到,因此公式(3-1) (3-3)可以简化为 基 础 通 用 背 景 模 型 信 道1的 特 定 信 道 通 用 背 景 模 型 信 道2的 特 定 信 道 通 用 背 景 模 型 目 标 说 话 人 在 信 道 1下 的 模 型 目 标 说 话 人 在 信 道2 下 的 模 型 模 型 参 数 的 变 化 模 型 参 数 的 变 化 第 3 章 基于 Cohort 的说话人模型合成 20 ubm cmcm ww 2,2, = (3-4) () ubm cmcm ubm cmcm1,1,2,2, += (3-5) ubm cmcm2,2, = (3-6) 注意公式(3-5)可以改写为, ubm cmcmcm1,1,1, = (3-7) ubm cmcmcm2,2,2, = (3-8) 2,1, cmcm = (3-9) 这组公式很好地体现了基于背景模型地说话人模型合成算法中合成模型 参数估计所依赖地一个假设:目标说话人模型中高斯混合的均值与特定信 道通用背景模型中对应高斯混合的均值的差向量在不同的信道下不变(如 图3.2所示)。 在实验中,我们发现如果对(3-5)采用如下的方式归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论