![语音的产生机理_第1页](http://file4.renrendoc.com/view/a7db2009c08dcecce42a3add5bb1b65a/a7db2009c08dcecce42a3add5bb1b65a1.gif)
![语音的产生机理_第2页](http://file4.renrendoc.com/view/a7db2009c08dcecce42a3add5bb1b65a/a7db2009c08dcecce42a3add5bb1b65a2.gif)
![语音的产生机理_第3页](http://file4.renrendoc.com/view/a7db2009c08dcecce42a3add5bb1b65a/a7db2009c08dcecce42a3add5bb1b65a3.gif)
![语音的产生机理_第4页](http://file4.renrendoc.com/view/a7db2009c08dcecce42a3add5bb1b65a/a7db2009c08dcecce42a3add5bb1b65a4.gif)
![语音的产生机理_第5页](http://file4.renrendoc.com/view/a7db2009c08dcecce42a3add5bb1b65a/a7db2009c08dcecce42a3add5bb1b65a5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物认证技术Biometrics语音的产生机理第1页第五章 声纹识别语音的产生机理第2页内容历史2.语音产生机理 3.语音特征4.系统架构5.引言1.语音的产生机理第3页引言声音是携带信息极其主要媒体(20)声音是经过空气传输一个连续波,叫声波,也含有反射、折射和衍射现象。声音信号是由许多频率不一样分量信号组成复合信号。复合信号频率范围称为带宽。带宽为20Hz20kHz信号称为音频(audio)信号,能够被人耳朵感知。声音是时基类媒体。语音的产生机理第4页说是什么内容?是谁在说话?计算机去说话?怎么把话说好?语音识别声纹识别文语转换说话水平评定说是什么语言?语种识别引言语音处理研究基本内容语音
2、的产生机理第5页引言Speaker, or voice, recognition is a biometric modality that uses an individuals voice for recognition purposes. 说话人识别(声纹识别)是一项依据语音波形中反应说话人生理和行为特征语音参数,自动识别说话人身份技术。It is a different technology than “speech recognition”, which recognizes words as they are articulated, which is not a biometric
3、.声纹识别利用是语音信号中说话人信息,而不考虑语音中字词意思,它强调说话人个性;而语音识别目标是识别出语音信号中言语内容,并不考虑说话人是谁,它强调共性。语音的产生机理第6页引言The speaker recognition process relies on features influenced by both the physical structure of an individuals vocal tract and the behavioral characteristics of the individual.声音是个复杂信号,说话人相关差异是声道在解剖学上差异和后天说话习惯差异
4、综合结果。在说话人识别中,全部这些差异都能够被用来区分不一样用户。它包括到说话人发音器官上个性差异、发音声道之间个性差异、发音习惯之间个性差异等不一样级别上差异。说话人识别是交叉利专心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能综合性研究课题。语音的产生机理第7页引言说话人识别特殊优势对用户干扰少,易被用户接收最经济方法之一,输入设备造价低廉 语音获取非接触,具备卫生方面安全性适用基于电信网络应用中 所以,说话人识别研究含有巨大应用前景语音的产生机理第8页引言声纹分析技术应用领域:信息查询领域应用在电话交易应用在PC以及手持式设备上面应用在保安系统以及证件防伪中应用与二维条码技
5、术相结合防伪应用语音的产生机理第9页挑战说话人发音经常与环境、情绪、健康状态有亲密关系。语音信号或者称为“声纹(voiceprint)”与指纹(fingerprint)不一样,指纹是静态、固定不变生理特征,而说话人特征含有长时变动特征,会随时间、年纪改变而改变。如感冒、声道管疾病,都有可能使发出声音改变。情绪改变也是一个原因,大声喊叫时候,声道形状显然同正常状态有很大不一样。语音的产生机理第10页挑战声音往往是能够模仿,还能够预先录制起来,怎样区分真假声音也是很头痛事情。尤其是对于远程电话身份认证,不能采取同用户其它特征相结合方法。语音的产生机理第11页挑战线路传输所带来线路噪声,包含不一样线
6、路噪声情况可能不一样、同一线路在不一样时期噪声情况也会不一样,噪声处理也很有难度。噪声可能造成语音信号在整个时域空间上污染,甚至有可能也对频域特征造成污染,这就给提取出正确反应说话人特征,造成了很大困难。语音的产生机理第12页内容历史2.语音产生机理 3.语音特征4.系统架构5.引言1.语音的产生机理第13页历史以人们语音作为身份认证伎俩,听说是从1660 年英国查尔斯一世之死判决开始,首次利用语音作为推断犯人作案线索。其后伴随技术发展,电话克服了距离障碍,录音伎俩克服了时间障碍,从而使得对语音说话人个性分析得到了关注。语音的产生机理第14页历史从1937 年开始,以C. A. Lindber
7、gh 先生儿子拐骗事件为开端,对语音说话人个性开展了科学测量和研究。1945 年,美国贝尔试验室R. K. Pooter 创造了语音频谱图,能把所谓声纹(voiceprint)动描述出来。1962 年,贝尔试验室L. G. Kersta 第一次介绍了采取上述方法进行说话人识别可能性。1966 年,美国法院第一次采取此方法进行了取证。语音的产生机理第15页历史原先说话人识别,往往是用视觉来判断声音频谱图,或者用听觉判断是谁声音。伴随计算机发展,自动说话人识别(ASR)研究得到了快速发展。自动说话人识别是指利用计算机技术,不需要人们干预,自动进行身份认证。语音的产生机理第16页内容历史2.语音产生
8、机理 3.语音特征4.系统架构5.引言1.语音的产生机理第17页语音产生机理众所周知,发声从肺部挤出空气开始,空气经过振动声带造出振动波。因为这个振动波在自声带到口为止“3个箱子”各自振动,深入强化共振,最终组成声音。这3个箱子是“咽头”、“口腔”、和“鼻腔”。在制造语音3个箱子中,口腔饰演了主要角色。因为经过舌头能够改变空间容积。假如容积改变,则发音也改变了,3个频率组合产生声音。 语音的产生机理第18页语音产生机理语音产生器官发声器官语音合成肺、气管、喉(包含声带)、咽、鼻、口。它们共同形成一条形状复杂管道声带和声门喉与气管接口处称为声门声道其中喉以上部分称为声道,伴随发出语音不一样其形状
9、是改变语音的产生机理第19页语音产生机理产生语音能量,绝大多数起源于正常呼吸时肺部呼出稳定气流有极少数语种,如一些非洲语言,是利用吸气气流来发音声带最主要发声器官既是一个阀门又是一个振动部件呼吸时左右两声带打开(声门开)在说话时候合拢,肺部气流经气管形成冲击“打开-闭合-打开-闭合-”声门,从而冲击声带产生振动,然后经过声道响应变成语音语音的产生机理第20页声道调制声道咽、口腔和鼻腔从声门延伸至口唇非均匀截面声管,约17cm功效谐振腔:放大某一频率而衰减其它频率分量谐振频率:由每一瞬间声道外形决定,又称为共振峰,是声道主要声学特征语音的产生机理第21页语音频率性质音调周期/基音周期声门开启-闭
10、合一次时间即振动周期基频基音周期倒数,声带振动基本频率音调声带振动频率(即基音)决定了声音频率高低,频率快则音调高,不然音调低人基音范围70350HZ,儿童和青年女性偏高,男性偏低语音的产生机理第22页语音产生机理浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音激励源被等效为准周期脉冲信号。如发/U/、/d/、/i/等音清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速经过产生湍流,再经过主声道(咽、口腔)调整最终形成清音。清音激励源被等效为一个白噪声信号。如发/音爆破音(plos
11、ive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出声音。如发/ t/音时语音的产生机理第23页语音的产生机理第24页发声过程小结人发声过程包含两个步骤声门/声带产生不一样频率声音准周期气流脉冲或白噪声声道对声源调制作用 激励过程(声门)调制过程(声道)语音辐射语音的产生机理第25页语音产生机理肺中空气受到挤压形成气流,气流经过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。 气流、声门能够等效为一个激励源,声道能够等效为一个时变滤波器(共振峰)。 话音信号含有很强相关性(长久相关、短期相关)。语音的产生机理第26页语音产生机理语音的产生机理第27页语音信
12、号产生数学模型激励模型声道模型辐射模型语音的产生机理第28页激励模型激励模型非常复杂声门脉冲模型浊音声带振动,声门脉冲如:斜三角形脉冲串随机白噪声清音声带不振动,随机白噪声语音的产生机理第29页内容历史2.语音产生机理 3.语音特征4.系统架构5.引言1.语音的产生机理第30页声纹识别流程图1 说话人识别模型 语音的产生机理第31页声纹识别系统组成声纹识别系统主要包含两部分,即特征检测和模式匹配。特征检测任务是选取唯一表现说话人身份有效且稳定可靠特征.模式匹配任务是对训练和识别时特征模式做相同性匹配。 语音的产生机理第32页特征Speech samples are waveforms with
13、 time on the horizontal axis and loudness on the vertical access. Voice Sample: The voice input signal (top of image) shows the inputloudness with respect to the time domain. The lower image (blue) depicts thespectral information of the voice signal. This information is plotted bydisplaying the time
14、 versus the frequency variations语音的产生机理第33页特征特征提取是指用各种模拟和数字处理技术、利用软件和硬件伎俩,处理语音信号,选择和提取表征语音信号特征。特征提取任务是提取并选择对说话人声纹含有可分性强、稳定性高等特征声学或语言特征。与语音识别不一样,声纹识别特征必须是“个性化”特征,而语音识别特征对说话人来讲必须是“共性特征”。很好特征,应该能够有效地域分不一样说话人,但又能在同一说话人语音发生改变时保持相正确稳定;不易被他人模仿或能够很好地处理被他人模仿问题;含有很好抗噪性能。 语音的产生机理第34页特征提取信息起源是说话人所说话,其语音信号中既包含了说
15、话人所说话信息,也包含了说话人个性信息,是话音特征和个性特征混合体。当前还没有将说话人个性特征从所发语音语音特征中分离出来很好方法,从而给有效特征提取带来了很大难度。全部提取出来特征向量中,即使在一定程度上表征了说话人个性特征,不可防止包含有特定话音特征。语音的产生机理第35页语音信号分析方法分类时域特征直接从时域信号计算得到,反应了语音信号时域波形特征。如短时平均能量、短时平均过零率、共振峰、基音周期等。频域及倒谱域特征由时域信号进行频谱变换得到,反应语音信号频域特征包含傅里叶频谱、倒谱以及利用了语音信号时序信息时频谱听觉特征不直接对声道模型进行研究,而是从人类听觉系统对语音感知特征来刻画语
16、音信号特征如感知线性预测(PLP)分析语音的产生机理第36页 依据所分析参数类型,语音信号分析能够分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观方法,它直接对语音信号时域波形进行分析,提取特征参数主要有语音短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。语音的产生机理第37页短时分析技术语音信号是非平稳时变信号语音信号特征是随时间而改变幸运是含有短时平稳性短时间范围内其特征基本保持不变(迟缓变换),即短时相对平稳准平稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号分析方法对每一分段进行处理每一分段成为一“帧”
17、:普通1030ms为一帧短时分析不足对语音识别,应采取HMM来分析,以处理语音信号瞬变和非平稳特征语音的产生机理第38页语音信号预处理 在对语音信号进行数字处理之前,首先要将模拟语音信号s(t) 离散化为s(n). 实际中取得数字语音路径普通有两种,正式和非正式。 正式是指大企业或语音研究机构公布被大家认可语音数据库,非正式则是研究者个人用录音软件或硬件电路加麦克风随时随地录制一些发音或语句。语音的产生机理第39页 语音信号频率范围通常是3003400Hz,普通情况下取采样率为8kHz即可。 有了语音数据文件后,对语音预处理包含:预加重、加窗分帧等。语音的产生机理第40页语音信号预加重处理 预
18、加重目标:为了对语音高频部分进行加重,去除口唇辐射影响,增加语音高频分辨率。可经过一阶FIR高通数字滤波器来实现:设n时刻语音采样值为x(n) ,经过预加重处理后结果为 语音的产生机理第41页高通滤波器幅频特征和相频特征以下 语音的产生机理第42页预加重前和预加重后一段语音信号时域波形 语音的产生机理第43页 预加重前和预加重后一段语音信号频谱 语音的产生机理第44页语音信号加窗处理 因为发音器官惯性运动,能够认为在一小段时间里(普通为10ms30ms)语音信号近似不变,即语音信号含有短时平稳性。这么,能够把语音信号分为一些短段(称为分析帧)来进行处理。 语音的产生机理第45页说话人识别(9/
19、14)语音的产生机理第46页语音信号分帧实现方法: 采取可移动有限长度窗口进行加权方法来实现。普通每秒帧数约为33100帧。 分帧普通采取交叠分段方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧交叠部分称为帧移,帧移与帧长比值普通取为01/2。 语音的产生机理第47页图3.3给出了帧移与帧长示意图。 语音的产生机理第48页加窗惯用两种方法:矩形窗,窗函数以下:汉明(Hamming)窗,窗函数以下 语音的产生机理第49页矩形窗及其频谱以下语音的产生机理第50页汉明窗及其频谱以下思索:两种窗效果有何异同?语音的产生机理第51页加窗方法示意图: 语音的产生机理第52页窗长选择 普通选
20、取100200。原因以下: 当窗较宽时,平滑作用大,能量改变不大,故反应不出能量改变。 当窗较窄时,没有平滑作用,反应了能量快变细节,而看不出包络改变。 语音的产生机理第53页 语音信号分帧处理,实际上就是对各帧进行某种变换或运算。设这种变换或运算用T 表示,x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n)相关滤波器,则各帧经处理后输出能够表示为: 语音的产生机理第54页几个常见短时处理方法是:1.对应于能量;2.,对应于平均过零率;3.对应于自相关函数 ;语音的产生机理第55页短时平均能量 1短时平均能量定义定义n时刻某语音信号短时平均能量En为: 当窗函数为矩形窗时,有语音的
21、产生机理第56页若令 则短时平均能量能够写成: 语音的产生机理第57页2. En特点:En反应语音信号幅度或能量随时间迟缓改变规律 。3. 窗长短对于能否由短时能量反应语音信号幅度改变,起着决定性影响。 假如窗选得很长,En不能反应语音信号幅度改变。 窗选得太窄,En将不够平滑。 通常,当取样频率为10kHz时,选择窗宽度N=100200是比较适当。语音的产生机理第58页不一样矩形窗长N时短时能量函数 语音的产生机理第59页 短时平均能量主要用途以下: 1)能够作为区分清音和浊音特征参数。 2)在信噪比较高情况下,短时能量还能够作为区分有声和无声依据。 3)能够作为辅助特征参数用于语音识别中。
22、语音的产生机理第60页MATLAB详细实现以下 :1、用Cooledit读入语音“我到北京去”。2、将读入语音文件wav保留为txt文件,设置采样率为8kHz,16位,单声道。3、把保留文件zqq.txt读入Matlab。fid=fopen(zqq.txt,rt); x=fscanf(fid,%f);fclose(fid);4、对采集到语音样点值进行分帧。语音的产生机理第61页3.4 短时平均幅度函数 为了克服短时能量函数计算x2 ( m ) 缺点,定义了短时平均幅度函数:语音的产生机理第62页 Mn与En比较: 1. Mn能很好地反应清音范围内幅度改变; 2. Mn所能反应幅度改变动态范围比
23、En好; 3. Mn反应清音和浊音之间电平差次于En。 语音的产生机理第63页短时平均幅度函数随矩形窗窗长N改变情况语音的产生机理第64页短时平均过零率 1. 定义 在离散时间语音信号情况下,假如相邻采样含有不一样代数符号就称为发生了过零。单位时间内过零次数就称为过零率。短时平均过零率定义为 语音的产生机理第65页在上式中,用1/2N 作为幅值,是考虑了对该窗口范围内过零数取平均意思。 语音的产生机理第66页 考虑到w(n-m)非零值范围为n-m0,即mn,以及 n-mN-1,故mn-N+1,所以短时平均过零率能够改写为:(定义式)语音的产生机理第67页2. 实现短时平均过零率语音的产生机理第
24、68页女声“我到北京去”短时平均过零次数改变曲线:语音的产生机理第69页3. 应用 清音过零率高,浊音过零率低。 不足:浊音和清音重合区域只依据短时平均过零率不可能明确地判别清、浊音。语音的产生机理第70页端点检测 端点检测目标:从包含语音一段信号中确定出语音起点及结束点。 有效端点检测不但能使处理时间减到最少,而且能抑制无声段噪声干扰,提升语音处理质量。语音的产生机理第71页时域特征短时平均能量N为分析窗宽度,St(n) 表示第t 帧中第n个采样点信号值短时平均过零率语音的产生机理第72页过零率tS(t)One frame20msOne frame20ms语音的产生机理第73页时域特征能量和
25、过零率参数缺点对于说话人和背景噪声鲁棒性较差当前时域参数多用在语音预处理上如端点检测,判断语音开始与结束也有些人把它作为模型参数进行使用语音的产生机理第74页频域分析为何要进行频域分析?稳态语音生成模型由线性系统组成,其被一随时间做周期改变或者随机改变源所激励,因而系统输出频谱反应了激励与声道频率响应特征语音信号频谱含有非常显著语音、声学意义,能够取得主要语音特征,如共振峰共振峰是指在声音频谱中能量相对集中一些区域共振峰不不过音质决定原因,而且反应了声道(共振腔)物理特征。声音在经过共振腔时,受到腔体滤波作用,使得频域中不一样频率能量重新分配,一部分因为共振腔共振作用得到强化,另一部分则受到衰
26、减,得到强化那些频率在时频分析语图上表现为浓重黑色条纹。因为能量分布不均匀,强部分如同山峰普通,故而称之为共振峰。在语音声学中,共振峰决定着元音音质 语音的产生机理第75页广义频域分析广义频谱分析频谱倒频谱功率谱频谱包络惯用频谱分析方法傅里叶变换法线性预测法带通滤波器组法语音的产生机理第76页频域分析基本工具傅里叶变换标准傅里叶变换适合用于周期、平稳随机信号不适合于非平稳语音信号短时傅里叶变换短时谱,有限长度傅里叶变换即对某一帧语音进行傅里叶变换窗选语音信号标准傅里叶变换尤其适合用于“语音分析和语音合成”因为其能够准确恢复语音波形语音的产生机理第77页反卷积问题定义语音信号产生模型线性非移变系
27、统输出,即声门激励信号和声道冲激响应卷积A = L * R问题已知A,怎样求解L和R?解卷(反卷积)由卷积结果求得参加卷积各个信号分量语音的产生机理第78页反卷积方法倒谱(同态)分析线性预测分析语音的产生机理第79页同态分析基本思绪,三步走:Z变换: 卷积信号乘积信号对数运算:乘积信号加性运算逆Z变换: 得到满足加性时域信号分析得到逆Z变换结果称为复倒频谱Complex Cepstrum倒谱 同态分析/同态滤波/倒谱分析 Spectrum语音的产生机理第80页倒谱(同态)分析应用倒谱分析能够得到一些参数近似表示声门激励基音周期声门振动特征区分浊音与清音浊音:声带振动,声门开闭清音:声带不振动声
28、道响应共振峰频率声道(咽、口腔和鼻腔)特征语音的产生机理第81页反卷积方法倒谱(同态)分析线性预测分析语音的产生机理第82页线性预测分析概况线性预测 Linear Prediction, LP1947年,维纳首次提出1967年,板仓等人应用于语音分析和合成中LP是首次得到成功实用语音分析技术功效预计基本语音参数包含基音、共振峰、谱、声道面积函数用于低带宽传输和存放语音优势准确预计参数;参数少但能够有效而准确表示语音波形及其频谱性质;速度快,效率高。语音的产生机理第83页线性预测分析基本思绪基本概念一个语音采样能够用过去若干个语音采样线性组合来迫近分析思绪经过使实际语音采样和线性预测采样之间差值
29、平方和到达最小值,即进行最小均方误差迫近,能够决定唯一一组线性预测系数语音的产生机理第84页线性预测分析基本思绪语音的产生机理第85页线性预测分析模型将信号看作某一模型(系统)输出将语音生成激励、声道和辐射模型全部谱效应简化为一个时变数字滤波器用模型参数来描述信号,其参数包含:浊音/清音判决,浊音基音周期增益常数,数字滤波器参数等语音的产生机理第86页语音信号线性预测分析求解数字滤波器参数和增益常数过程即语音信号线性预测分析输出LPC, LP coefficients线性预测系数:参数、增益常数注意语音信号含有时变性,所以系数预测一样要按帧进行语音的产生机理第87页线性预测系数(LPC)计算方
30、法问题转化最终问题转化求解线性方程组问题LPC计算方法自相关法格型法引入正向预测/反向预测概念协方差矩阵法对协方差矩阵进行特征分解语音的产生机理第88页LPC+倒谱 = LPCC基于LP倒谱分析LPC是语音信号基本表示参数,能够变换为其它形式参数在求得LPC 后,使用下面递推公式能够计算出该帧语音LPC 倒谱(LPCC)系数语音的产生机理第89页基于LPC 倒谱系数LPCC语音的产生机理第90页基于Mel频率倒谱MFCC生理支持依据人类听觉系统特征,人耳分辨声音频率过程如同一个取对数功效,基于此,出现了Mel 频率倒谱系数(MFCC)MFCC: Mel-Frequency Cepstrum C
31、oefficients特点MFCC 比LPCC 更能反应听觉特征,在语音识别系统中有着广泛应用,是当前公认性能最好特征参数之一语音的产生机理第91页Mel-频率目标模拟人耳对不一样频率语音感知人耳朵由外耳、中耳和内耳组成,起主要作用是内耳耳蜗。对于不一样声音频率,耳蜗内基底膜运动幅度也不一样。通常在几百赫兹以上声音信号,频率沿基底膜是对数分布;几百赫兹以下是线性分布。经过耳蜗处理,把时域语音信号分解成在不一样空间轴位置上有不一样频率特征信号,这就是耳蜗频率分解。语音的产生机理第92页Mel-频率人类对不一样频率语音有不一样感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Me
32、l频率将频谱转换到基于Mel频标非线性频谱在Mel频域内,人对音调感知能力为线性关系假如两段语音Mel频率差两倍,人在感知上也差两倍语音的产生机理第93页Mel-频率公式:频率Mel-频率:- 频率- Mel-频率Mel-频率频率(Hz)语音的产生机理第94页MFCC计算过程计算流程:DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC语音的产生机理第95页Mel带通滤波利用D 个三角带通滤波器分别与离散谱St(k) 做卷积,其中三角滤波器中心频率和边界频率与对应Mel频标对齐(带宽在Mel标度上是相等)语音的产生机理第96页倒谱系数计算求出每个频段对数能量输出三角滤波器
33、输出最终用DCT将这些系数变换到倒谱域倒谱系数维数通常取DCT系数前12维语音的产生机理第97页声学特征小结短时平均能量/幅度/功率短时平均过零率线性预测系数(LPC)LPC倒谱特征(LPCC)Mel 倒谱参数(MFCC)语音的产生机理第98页内容历史2.语音产生机理 3.语音特征4.系统架构5.引言1.语音的产生机理第99页说话人识别(10/14)说话人识别模型主要有三类:基于模板模型:K-NN (K近邻法)DTW(动态时间规整)VQ(矢量量化)随机模型:GMM(高斯混合模型)HMM(隐马尔可夫模型)基于人工神经网络模型NN(神经元网络)SVM(支持向量机)语音的产生机理第100页说话人识别
34、(11/14)Feature 1Feature 2: class-A point: class-B point: point with unknown classCircle of 3-nearest neighborsThe point is class B via 3-NNR.K近邻法 (K-NNR):1. 对给定点找到前K个最近邻居. 2. 对这K个最近邻居经过投票法决定这个特征点属于哪个类.语音的产生机理第101页说话人识别(12/14)一维高斯混合模型语音的产生机理第102页二维高斯混合模型说话人识别(13/14)语音的产生机理第103页三维高斯混合模型说话人识别(14/14)语音的
35、产生机理第104页情感和情感语音(1/7)普通心理学/当代心理学简明牛津英语词典从心理学角度给情绪下定义是:“情绪是一个不一样于认知或意志精神上情感或感情。”情绪(emotion)是人对客观事物态度和体验。这是从最广泛意义上给情绪下定义。情绪是人(包含动物)所含有一个心理形式。它与认识活动不一样,含有主干体验形式(如喜怒悲剧惧等感受色彩)、外部表现形式(如面部表情),以及独特生理基础(如皮层下等部位特定活动)。语音的产生机理第105页情感和情感语音(2/7)情绪能够分为基本情绪和复合情绪,口语中情绪表示普通不强烈,更多是复合情绪而不是某一个基本情绪。当前用最多基本情绪分类为:害怕、生气、高兴、
36、难过、诧异、厌恶。语音的产生机理第106页情感和情感语音(3/7)研究热点情感语音库情感语音分析情感语音识别情感语音合成语音的产生机理第107页语音产生语音了解生理过程语音的产生机理第108页图1 中性语音“你是个好人”语音特征 情感和情感语音(4/7)语音信号中情感特征基音频率发音连续时间能量韵律结构音质 世间问题, 原来极复杂,能够用极简单事例, 加以说明语音的产生机理第109页情感和情感语音(5/7) 情感与语音参数之间关系 汉语语速稍快较快,但有时较慢稍慢很快非常慢平均音高非常高很高稍低非常高非常低音高范围很宽很宽稍窄很宽稍宽音节基频高线改变陡峭,在重读音节处平滑,上升改变下降改变正常
37、宽,下降终端改变音节基频低线改变没有太多改变平滑,上升改变下降改变正常下降终端改变音强较高较高较低正常较低音质有呼吸声,胸腔声调有呼吸声,响亮共鸣声不规则发声嘟囔胸鸣声清楚度焦虑正常含糊准确正常语音的产生机理第110页情感和情感语音(6/7)语音的产生机理第111页情感和情感语音(7/7)传统说话人识别面临挑战中性语音低层短时声学特征人机交互中情感计算加强说话人发声状态情感变异语速音高音长所以,需要情感鲁棒说话人识别模型 语音的产生机理第112页内容情感和情感语音2.情感与说话人识别3.说话人识别技术1.语音的产生机理第113页情感语音对说话人识别系统性能影响(1/4)识别率语音的产生机理第114页情感语音对说话人识别系统性能影响(2/4)与训练语音文本相关性文本情感建模方式得分选择策略语音的产生机理第115页情感语音对说话人识别系统性能影响(3/4)训练文本情感对于中性语音,诱发情感信息对于情感语音,更加好地表示情感情感语料越多越好,不过情感语料增加破坏了系统友好性,普通每种情感可录10s;与训练语音文本相关性文本内容丰富,文本相关系统性能要好语音的产生机理第116页情感
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年全球及中国游戏人工智能NPC行业头部企业市场占有率及排名调研报告
- 2025年全球及中国三靶磁控溅射镀膜机行业头部企业市场占有率及排名调研报告
- 餐馆员工劳动合同范文
- 监控安装承包合同范本大全
- 2025凉水井煤矿搅拌站彩钢房围护结构工程施工合同
- 商务服务合同
- 电力劳务外包合同样本
- 政策执行与合规情况报告
- 2025村集体小产权房屋买卖合同
- 探索技能培训的个性化学习路径
- 2025-2030年中国清真食品行业运行状况及投资发展前景预测报告
- 广东省茂名市电白区2024-2025学年七年级上学期期末质量监测生物学试卷(含答案)
- 《教育强国建设规划纲要(2024-2035年)》全文
- 山东省滨州市2024-2025学年高二上学期期末地理试题( 含答案)
- 2025年河南洛阳市孟津区引进研究生学历人才50人历年高频重点提升(共500题)附带答案详解
- 2025年度军人军事秘密保护保密协议与信息安全风险评估合同3篇
- 数字化转型中的职业能力重构
- 运用PDCA降低住院患者跌倒-坠床发生率
- 2025届高中数学一轮复习专练:椭圆(含解析)
- 立春气象与生活影响模板
- 中国服装零售行业发展环境、市场运行格局及前景研究报告-智研咨询(2025版)
评论
0/150
提交评论