智能信息感知技术 课件 第七章 智能语音传感技术_第1页
智能信息感知技术 课件 第七章 智能语音传感技术_第2页
智能信息感知技术 课件 第七章 智能语音传感技术_第3页
智能信息感知技术 课件 第七章 智能语音传感技术_第4页
智能信息感知技术 课件 第七章 智能语音传感技术_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能传感技术——第七章

智能语音传感技术目 录27.1

智能语音传感技术基础常见的智能语音传感技术智能语音数据处理技术智能语音传感技术典型应用7.1

智能语音传感技术基础7.1.1

传统语音传感器技术声音是空气或其他介质的波动,是物体的撞击、摩擦、运动产生的振动以波的形式向外传播的。根据物体振动所产生波的频率高低,分为声波和超声波。超声波20k

Hz声波3声音传感器是一种可以检测、测量并显示声音波形的传感器。7.1

智能语音传感技术基础7.1.1

传统语音传感器技术声音传感器(话筒、麦克风),根据声波引起的物体振动(比如振动膜)将其转化为电信号,从而实现声波的检测。纯压力式话筒速率式话简混合式话筒全方向性(振动膜两侧开放)一定方向性(振动膜单侧开放)结构分类47.1

智能语音传感技术基础7.1.1

传统语音传感器技术常用声音传感器原理介绍变磁阻式话筒5声波使振动膜发生振动,导致衔铁在两磁极之间运动,衔铁的运动将改变回路中的磁通,从而使磁铁上缠绕的线圈产生感应电压。如果气隙和衔铁的形状设计合理,则输出感应电压具有很好的线性特性。7.1

智能语音传感技术基础7.1.1

传统语音传感器技术动圈式话筒动圈式话筒是一种更加专业的话筒,它将振动膜和线圈整合在一条窄金属条中,并放置在卡形磁铁的两个磁极之间。其输出电压和阻抗都很低,一般这种话筒都内建变压器或前置放大器。动圈式话简具有很好的方向性,广泛应用于嘈杂场合的广播系统中67.1

智能语音传感技术基础7.1.1

传统语音传感器技术驻极体话筒驻极体话筒是一种电容式声音传感器。驻极体相当于永磁体,其中存在永久的静电荷。话筒主要由一块驻极体材料(一侧镀金属膜用于连接引线)和单独的振动膜构成。驻极体话筒具有体积小、结构简单、电声性能好、价格低的特点,广泛用于盒式录音机、无线话筒及声控等电路中。77.1

智能语音传感技术基础87.1.1

传统语音传感器技术压电陶瓷片话筒压电陶瓷片话筒是利用压电陶瓷作为压力敏感元件,进行压电转换,实现对声波振动的感知。压电陶瓷是一种人工合成材料,收到外界压力时可以在两面产生电荷,电荷量与压力成正比。压电陶瓷片的压电效应是可逆流的,在压电陶瓷片上多加一个交变的电场,陶瓷片就会时而变薄时而加厚,还会产生振动以及发射声波(压电陶瓷蜂鸣器)。7.1

智能语音传感技术基础7.1.1

传统语音传感器技术硅微传声器(MEMS)微机电系统(MEMS,

Micro-Electro-Mechanical

System)MEMS麦克风是利用硅薄膜来检测声压的,MEMS麦克风能够在芯片上集成一个模数转换器,形成具有数字输出的麦克风。MEMS麦克风具有半导体产品的种种优点,最为重要的一个特性是,MEMS麦克风容易实现数字化,从而削除了传输噪音。目前主要应用在手机中,

数码相机、MP3播放器和PDA、耳机和助听器等领域也正在从驻极体式麦克风向MEMS过渡。97.1

智能语音传感技术基础7.1.1

传统语音传感器技术主要技术指标声音传感器的技术指标主要包括:灵敏度、频率响应、动态范围、指向性、重复性和何尺寸等。驻极体声音传感器的灵敏度有自由场灵敏度、声压灵敏度和扩散场灵敏度之分。(1)自由场灵敏度是声音传感器输出端的开路电压和置人前所在处的自由声场声压之比。(2)声压灵敏度采用的是作用在声音传感器膜片上的实际电压,同一个声音传感器,声压灵敏度小于自由场灵敏度,且在高频时下降明显。(3)扩散场灵敏度则是指声音传感器受到来自各不同方向,无规则场声压的均匀激励,其输出与声音传感器所处的方位无关。107.1

智能语音传感技术基础7.1.2

智能语音传感技术智能语音传感技术系统在传统的声音传感器的基础上加入智能语音处理的相关技术,实现的功能不仅仅是将语音捕捉下来,而是感知到语音中包含的有用信息并将其应用于实际问题。117.1

智能语音传感技术基础7.1.2

智能语音传感技术127.1

智能语音传感技术基础137.1.2

智能语音传感技术(1)语音信号采集:通过声音传感器捕获语音信号,输入后端的处理器中。此时,获得的语音信号为模拟信号,需要在下一阶段进行必要的处理,才能进行进一步的智能分析。(2)语音预处理:初步获取的语音信号是连续的时序信号,其中可能包括采集过程中引入的噪声,并且连续信号不方便我们进行后续的数字化处理过程。因此,在智能语音分析之前必须对采集的语音信号进行预处理步骤,其中主要包含:预加重处理、加窗分帧处理、端点检测等。7.1

智能语音传感技术基础7.1.2

智能语音传感技术预加重处理

:信号传输线表现出来的是低通滤波特性,传输过程中信号的高频成分衰减大,低频成分衰减少。预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。我们知道,信号频率的高低主要是由信号电平变化的速度决定的,所以信号的高频分量主要出现在信号的上升沿和下降沿处,预加重技术就是增强信号上升沿和下降沿处的幅度。为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分,并且能凸显高频的共振峰。预加重处理一般通过加高通滤波实现。147.1

智能语音传感技术基础157.1.2

智能语音传感技术加窗分帧:傅里叶变换要求输入的信号是平稳的,语音信号在宏观上是不平稳的,在微观上是平稳的,这就可以把语音信号分为一些短段来进行处理,每一个短段称为一帧。分帧可通过可移动的有限长度窗口进行加权的方法实现。每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,最后得到由每一帧参数组成的语音特征参数的时间序列。7.1

智能语音传感技术基础167.1.2

智能语音传感技术不同的窗函数在频域的响应的不同对导致处理信号频谱时也不近相同,常用的有矩形窗、汉明窗、汉宁窗等。窗函数的选择会对语音信号的频谱的泄露产生不同的影响,也会对后面的特征提取的参数的保真性有很大影响。选择的窗函数尽可能满足减少语音信号的频谱侧漏,而频谱的泄漏取决于窗函数频谱两侧主瓣和旁瓣。7.1

智能语音传感技术基础7.1.2

智能语音传感技术端点检测(语音活动检测)

:一段语音信号可以分为无声段(包含背景噪声)和语音段(包含清音和浊音)。端点检测的目的是检测出一段语音信号的起点和终点,去掉静音的部分,去掉噪声的部分,找到一段语音真正有效的内容。177.1

智能语音传感技术基础187.1.2

智能语音传感技术基于阈值的方法:通过提取时域(短时能量、短期过零率等)或频域(MFCC、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的。

端点检测,

也叫语音活动检测,

Voice

ActivityDetection,这是传统的

VAD

方法VAD,它的目的是对语音和非语音的区域进行区分。通俗来理解,端点检测就是为了从带有噪声的语音中准确的定位出语音的开始点,和结束点,去掉静音的部分,去掉噪声的部分。7.1

智能语音传感技术基础197.1.2

智能语音传感技术基于分类模型的方法:可以将语音检测视作语音/非语音的两分类问题,进而用机器学习的方法训练分类器,达到检测语音的目的。基于声学模型的方法:可以利用一个完整的声学模型(建模单元的粒度可以很粗),在解码的基础,通过全局信息,判别语音段和非语音段。7.1

智能语音传感技术基础7.1.2

智能语音传感技术语音增强:较强的噪声会严重影响语音信号的质量,对语音信号的特征提取带来较大误差,所以在预处理阶段会对语音信号进行增强。常用方法有谱减法、维纳滤波法、小波去噪法、子空间法等。207.1

智能语音传感技术基础217.1.2

智能语音传感技术语音增强:谱减法顾名思义,谱减法,就是用带噪信号的频谱减去噪声信号的频谱。谱减法基于一个简单的假设:假设语音中的噪声只有加性噪声,只要将带噪语音谱减去噪声谱,就可以得到纯净语音,这么做的前提是噪声信号是平稳的或者缓慢变化的。提出这个假设就是基于短时谱(25ms),就是频谱在短时间内是平稳不变的。维纳滤波法Wiener滤波是第二次世界大战中,为了解决火力控制系统精确跟踪问题,Wiener相继提出了平稳随机过程的最优线性滤波理论,首次将数理统计知识和线性系统理论联系起来,形成了对随机信号作平滑,滤波和预测的最新估计理论。在此后的发展中,Wiener滤波被应用于更多的领域,并沿用至今。7.1

智能语音传感技术基础7.1.2

智能语音传感技术语音增强:小波去噪法在数学上,小波去噪问题的本质是一个函数逼近问题,即如何在由小波母函数伸缩和平移版本所展成的函数空间中,根据提出的衡量准则,寻找对原信号的最佳逼近,以完成原信号和噪声信号的区分。

也就是寻找从实际信号空间到小波函数空间的最佳映射,以便得到原信号的最佳恢复。从信号学的角度看,小波去噪是一个信号滤波的问题,而且尽管在很大程度上小波去噪可以看成是低通滤波,但是由于在去噪后还能成功地保留信号特征,所以在这一点上又优于传统的低通滤波器。由此可见,小波去噪实际上是特征提取和低通滤波功能的综合,其流程框图如图所示。227.1

智能语音传感技术基础237.1.2

智能语音传感技术语音增强:子空间法子空间法是先对每个麦克风阵元的信号使用单通道子空间或利用输入信号的相关矩阵子空间构建信号子空间,然后采用固定波束形成或自适应波束形成实现语音增强。这种算法分别由Hansen和Asano于1997年提出,并在之后的几年里被其他学者不断完善,比如Doclo等提出的基于广义奇异值分解的波束形成法。 子空间法最大的缺点是计算复杂度太大,难于实时应用于数字信号处理。7.1

智能语音传感技术基础247.1.2

智能语音传感技术(3)智能语音分析:广义上来讲智能语音技术有各种各样的定义,一般来说有语音识别、声纹识别、语音合成和智能翻译等。语音识别:通过特征提取得到的声学模型,在搜索空间中与词典或语言模型进行匹配。声纹识别:通过声音来做对人的识别和认证,应用于需要人的发声媒介来控制命令的场景。语音合成:把文字转化成拟人化的声音,完成人机语音交互的闭环,满足多种场景对不同声音的需求。智能翻译:通过分析句子语法和结构,以及单词和词组进行翻译工作。7.1

智能语音传感技术基础7.1.2

智能语音传感技术(4)系统输出: 将结果输出到各个应用终端,来实现诸多功能。257.2

常见的智能语音传感技术267.2.1

智能语音问答系统智能语音问答系统综合运用了知识表示、信息检索、自然语言处理等技术。智能语音问答系统能够使用户以自然语言提问的形式而不是关键词的组合,提出信息查询需求,系统依据对问题进行分析,从各种数据资源中自动找出准确的答案

这里加入概述性的描述性文字(总述功能及应用)从系统功能上讲,智能语音问答系统分为开放域自动问答和限定域自动问答。7.2

常见的智能语音传感技术7.2.1

智能语音问答系统智能语音问答系统总体架构277.2

常见的智能语音传感技术7.2.1

智能语音问答系统语音识别功能模块构建流程287.2

常见的智能语音传感技术系统终端7.2.1

智能语音问答系统语义理解功能模块构建方法语义理解主要提供一种问答句式解析功能,能够将语音识别模块生成的文本信息与语义模板进行匹配,得到使用者关心的重要信息。语义模型语义标注+语义预测系统终端语义PK语义信息关键词及类型297.2

常见的智能语音传感技术关键词信息关键词类型数据库界面展示实体关键词实体关键词7.2.1

智能语音问答系统关键词检索功能模块构建方法关键词检索功能主要是将从语义理解模块获得的关键词信息及其类型对应到具体的实体及其关系的名称,并与对应的实体模型相匹配,最后到数据库中查询并展示相应的信息。307.2

常见的智能语音传感技术7.2.2

智能语音情感分析系统智能语音情感分析是人机交互中的重要研究领域,能使机器理解人类的情感状态,增强人机交互过程中的准确性及舒适性。如何理解语音中的情感因素?如何通过语音表达不同情感?317.2

常见的智能语音传感技术327.2.2

智能语音情感分析系统智能语音情感分析方法类别直接利用语音特征进行情感分析常用语音特征包括能量、音高、过零率、共振峰、语谱图、梅尔倒谱系数等。将语音转换为文本进行情感分析语音+文本进行情感分析7.2

常见的智能语音传感技术7.2.2

智能语音情感分析系统(1)建立情感分析语料库(问题导向)(2)基于情感分析语料库训练模型(svm、神经网络、统计模型、决策树等)(3)

利用模型对语音数据进行情感分析语音资料数据清洗语音情感特征提取文本情感特征提取语音文本转换情感分类模型情感分析结果337.2

常见的智能语音传感技术347.2.2

智能语音情感分析系统智能语音情感分析系统“青鸾”——中国移动“青鸾”系统基于海量热线语音数据进行智能情感分析,输出关键标签和结构化情感分类,生成个性化语音理解分析报告,提供语音结构化检索、情感语义理解、认知方案生成、业务运营决策辅助等能力,面向分析、推荐、维系、预测四大类场景进行应用,并通过数据可视化运营分析界面方式进行展示。精益运营潜在客户挖掘、推荐解释感知监控面向无线和家宽场景,实现智能评测预警和效果跟踪主要实现功能满意度提升从资费、无线、宽带各方面来进行满意度精确调查用户体验分析综合语音分析、文本分析、准确获得用户体验信息7.2

常见的智能语音传感技术7.2.3

智能语音控制系统智能语音控制系统在目前很多场景中被应用,例如智能驾驶、智能家居、智能机器人控制等。执语 指 指 行音

相输 抽 匹 应入 取 配 操作357.2

常见的智能语音传感技术7.2.3

智能语音控制系统福特领界语音控制功能实测小度音箱+智能家居367.3

智能语音数据处理技术377.3.1

语音特征提取语音特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。特征提取是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信、语音合成和语音识别等处理,并且语音合成的好坏语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。7.3

智能语音数据处理技术387.3.1

语音特征提取目前流行的语音学特征提取方法主要有两类:1)采用传统特征,从原始音频文件中提取信号特征,捕获最原始的不同类型的声学特征,从而判定该特征所属的语音学任务类型;2)将传统特征与深度学习模型相融合, 在交叉领域中突出特征的重点,由于不同任务的侧重点不同,融合的方式体现出了多样化、个性化的特点。7.3

智能语音数据处理技术7.3.1

语音特征提取常见声学特征39频谱类特征MFCC(一阶差分和二阶差分的MFCC参数组)MFCC:

/xmdxcsj/article/details/51228791线性预测倒谱系数(LPCC)梅尔刻度滤波器组过滤(logMel)……7.3

智能语音数据处理技术7.3.1

语音特征提取基于深度学习的语音特征提取深度学习方法可以从不同层次的输入中学习有效的语音信号的非线性表现形式,目前已经被广泛应用于声纹识别、语音识别和情感识别。407.3

智能语音数据处理技术417.3.2

语音增强语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。语音增强涉及的应用领域十分广泛,包括语音通话、电话会议、场景录音、军事窃听、助听器设备和语音识别设备等语音增强方法的分类按照其运用方法的不同可以分成两大类:数字信号处理的语音增强方法和基于机器学习的语音增强方法按照其通道数目的不同可以划分为:单通道语音增强方法和麦克风阵列的语音增强方法7.3

智能语音数据处理技术7.3.2

语音增强427.3

智能语音数据处理技术7.3.2

语音增强麦克风阵列的语音增强由于利用了更多的麦克风,考虑了信号的空间信息,因此在抑制特定方向的干扰、进行语音分离等方面,比单通道的语音增强更有优势。主流的麦克风阵列方法有:固定波束形成的方法和自适应波束形成的方法。437.3

智能语音数据处理技术7.3.2

语音增强基于掩码的深度学习法447.3

智能语音数据处理技术7.3.3

语音识别语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的一种技术。457.3

智能语音数据处理技术467.3.3

语音识别20世纪50年代,AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。60年代末70年代初,语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,解决了语音信号的特征提取和不等长匹配问题。(主要模板匹配法)20世纪80年代末,突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。(统计模型及神经网络模型被应用于语音识别)7.3

智能语音数据处理技术477.3.3

语音识别20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。IBM公司推出的ViaVoiceDragonSystem公司的NaturallySpeakingNuance公司的NuanceVoicePlatform语音平台Microsoft的Whisper,Sun的VoiceTone等语音识别技术前世今生7.3

智能语音数据处理技术487.3.3

语音识别我国语音识别研究工作起步于五十年代,但近年来发展很快。目前,我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。2002年,“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品被外国公司垄断的历史。7.3

智能语音数据处理技术497.3.3

语音识别语音识别技术分类按词汇量大小,可以分为小词表、中词表和大词表以及无限词汇量语音识别;按发音方式,有孤立词、连接词和连续语音的语音识别;按说话人适应范围,有特定说话人、限定人和非特定说话人的语音识别;按照任务的不同:说话人识别、关键词检出、语音辨识,和连续语音识别。7.3

智能语音数据处理技术507.3.3

语音识别常用语音识别的方法有三种:基于语音学和声学的方法、模板匹配的方法以及利用人工神经网络的方法。(1)基于语音学和声学的方法在语音识别技术提出开始就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。① 分段和标号,把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号。② 得到词序列,根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。7.3

智能语音数据处理技术517.3.3

语音识别(2)模板匹配的方法模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。动态时间规整(DTW)把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。7.3

智能语音数据处理技术527.3.3

语音识别隐马尔可夫法(HMM)HMM方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。7.3

智能语音数据处理技术537.3.3

语音识别矢量量化(VQ)与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。其中最关键的就是设计矢量量化器。矢量量化器的设计就是从大量信号样本中训练出好的码书。7.3

智能语音数据处理技术547.3.3

语音识别(3)神经网络的方法利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。深度学习最早应用于语音识别问题时的作用是替代GMM-HMM框架中的高斯混合模型,负责声学模型的建模,即DNN-HMM结构。在这种结构里,深层神经网络负责计算音频帧属于某一声学状态的概率或者是提取出声音的特征,其余的部分和GMM-HMM结构相同。目前,常用于语音识别的深度学习模型有自动编码器(

Auto-encoder,AE)

、深度神经网络(

Deep

Neural

Network,DNN)

、卷积神经网络(

Convolutional

Neural

Network,CNN)

和递归神经网络(

Recurrent

Neural

Network,RNN)

等。7.3

智能语音数据处理技术7.3.3

语音识别CTC(Connectionisttemporal

classification)CTC模型常与深度学习结合进行端到端的语音识别。传统的语音识别的声学模型训练,对于每一帧的数据,需要知道对应的label才能进行有效的训练,在训练数据之前需要做语音对齐的预处理。采用CTC作为损失函数的声学模型训练,是一种完全端到端的声学模型训练,不需要预先对数据做对齐,只需要一个输入序列和一个输出序列即可以训练,并直接输出序列预测的概率,不需要外部的后处理。557.3

智能语音数据处理技术7.3.4

声纹识别56每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。声纹识别的优点:易采集非接触式声纹辨认和确认的算法复杂度低准确度高。声纹识别(VoiceprintRecognition,

VPR),也称为说话人识别(Speaker

Recognition)。包括说话人辨认(Speaker

Identification)

和说话人确认(Speaker

Verification)。声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。7.3

智能语音数据处理技术577.3.4

声纹识别两个人的声纹图谱的差异性主要体现在如下方面:共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣嗓音纯度特征:不同人的嗓音,纯度一般是不一样的,粗略地可分为高纯度(明亮)、低纯度(沙哑)和中等纯度三个等级平均音高特征:平均音高的高低就是一般所说的嗓音是高亢还是低沉音域特征:音域的高低就是通常所说的声音饱满还是干瘪不同人的声音在语谱图中共振峰的分布情况不同,声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人,从而实现“闻声识人”的功能。7.3

智能语音数据处理技术7.3.4

声纹识别587.3

智能语音数据处理技术597.3.4

声纹识别声纹识别系统根据是否规定输入语音文本可以分为:文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。文本相关声纹识别系统:要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。文本无关的声纹识别系统:不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。7.3

智能语音数据处理技术607.3.4

声纹识别典

template model

和stochastic

model,即模板模型和随机模型(非参数模型和参数模型)。模板模型(非参数模型)将训练特征参数和测试的特征参数进行比较,两者之间的失真(

distortion

作为相似度。

例如VQ

Vectorquantization矢量量化)模型和动态时间规整法DTW(dynamic

timewarping)模型。随机模型(参数模型)用一个概率密度函数来模拟说话人,训练过程用于预测概率密度函数的参数,匹配过程通过计算相应模型的测试语句的相似度来完成。例如(GMM和HMM)高斯混合模型和隐马尔科夫模型。7.3

智能语音数据处理技术617.3.5

语音情感识别自动语音情感识别则是计算机对人类上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系。语音情感识别相关研究出现在20世纪80年代中期,它们开创了使用声学统计特征进行情感分类的先河。1985年Minsky教授提出“让计算机具有情感能力”观点。在20世纪80年代末至90年代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器”。1999年,Moriyama提出语音和情感之间的线性关联模型。进入21世纪以来,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快,国际期刊、会议及相关赛事也不断增加。7.3

智能语音数据处理技术627.3.5

语音情感识别国际著名的研究组织:贝尔法斯特女王大学Cowie和Douglas-Cowie领导的情感语音小组;麻省理工大学Picard领导的媒体研究实验室;慕尼黑工业大学Schuller负责的人机语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论