唇形合成语音与唇形语音识别_第1页
唇形合成语音与唇形语音识别_第2页
唇形合成语音与唇形语音识别_第3页
唇形合成语音与唇形语音识别_第4页
唇形合成语音与唇形语音识别_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

唇形唇唇唇位于口腔的最前端,分上唇和下唇,两唇共同围成口裂,口裂两端称口角。唇是言语器官中唯一可以从外部被观察到的部分,因此在发音过程中唇形的变化被聋哑人用来作为识别对方讲话的依据。唇由口轮匝肌组成。轮匝肌又称为唇内肌,它的作用在于关闭双唇,发出唇音p、b、m等;唇外肌中上唇肌和颧肌司提升上唇;下唇肌和三角肌管降低下唇,而笑肌和颊肌主绷紧双唇。口唇解剖图基本知识基本知识下唇与上齿接近能产生唇齿音f、v。在元音发音中,圆唇的结果能发出圆唇元音。此外,舌尖元音加上圆唇的作用,能发出【ʮ】等圆唇舌尖元音。元音:和唇形的关系,区别特征,圆唇和展唇,共振峰的关系辅音:主要的发音部位之一。国际音标表

唇读(lip-reading/speech-reading),是指通过观察说话者的口型变化,“读出”或“部分读出”其所说的内容.研究唇读目的是利用视觉信道信息补充听觉信道的信息,以提高计算机系统的理解力.

唇读计算机唇读计算机唇读是指通过建立口型模型和分析运动参数,定量地处理唇动信息辅助进行语音识别,或者是直接对序列图像进行分类和识别,以提高语音识别技术的准确率和鲁棒性。

鲁棒性就是系统的健壮性。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持某些性能的特性。根据对性能的不同定义,可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。唇读的识别方法★唇读识别中较常使用的方法是基于特征向量法

把提取的特征作为向量进行HMM的状态匹配。这样做的缺点是状态不确定,搜索的时间和空间规模较大,很难做到识别的实时性。★另一种方法是基于口型分类法

人在发相同的音时,口型是基本不变的,发相似的音时口型上也存在很大的相似性,所以将汉语发音的变化口型进行聚类是可行的。明确了口型的种类也就明确了发音时的状态,在这些状态的基础上进行唇读的识别,就可以去掉直接使用特征向量识别时状态变化的不确定性,缩小状态空间,提高最佳状态匹配的收敛速度。交叉学科唇形研究是对语音研究和图像处理的交叉学科的探索,内容涉及语言学、图像处理、模式识别、计算机视觉、自然语言理解等多个领域,他的进步可以促进许多学科的进步。国外研究现状

国际上目前语音学基础理论研究的前沿正从过去单一的语音学转向语音学科的整体研究,这种多学科整体研究的集中体现就是“语音多模态(multi-modalofspeech)”研究。由于语音多模态研究的基础理论成果能够促进相关信息科学的发展,因而许多国家都将语音多模态研究作为支持的重点,著名的研究机构有瑞典皇家理工学院(KTH)、美国哈斯金斯语音实验室(Haskins)、加州大学洛杉矶分校语音实验室(UCLAPhoneticsLab)、日本东京大学言语生理系等,并在英语和日语的言语产生和多模态人机交互方面取得了大量的研究成果。应用语言学就是通过各种现代技术着重解决现实当中的语言问题,是把理论语言学和现代应用技术有机结合的学科,其中人机的语言情感交互研究是近几年的研究热点。其研究内容从最早的机器翻译到现今的多模态之一的视位研究。而唇位研究正是可视化研究的重要组成部分。国外的研究现状最早的唇读系统是1984年由(伊利诺伊大学)UIUC大学patajan构建,系统中采用的方法是对每一个词对应一个特征矢量序列,识别时,将输入唇读序列图中得到特征矢量序列依存与词库中的每一个词模板进行相似度距离测度计算。将相似度最高的作为结果输出。由于它没有使用自动时间归正处理,因此方法有训练时的语速与识别时语速完全一致这一不可能的苛刻要。后来Mase和Pentland采用了线性时间归正技术(LTW)改进了效果,Patajan也加入了动态时间归正算法(DTW)对原系统做了改进。加利福利亚大学UCSC的Michael.M.Cohen博士也是最早从事唇读模拟和研究的研究者之一,他所在的实验室PerceptualScienceLab完成了多项唇语模拟的项目,为聋哑人创造了良好的人机交互环境,一种虚拟语言模拟系统为聋哑儿童提供学习和交互的环境。MIT媒体实验室的学术带头人Pentland教授将光流技术引入唇读特征的提取工作。福罗里达中心大学计算机系的GlennA.Martin也于1992年采用光流技术解决唇读问题,对光流序列进行了时间归正,提出了相关匹配算法。

各种唇读系统比较各种唇读系统比较

国内言语工程方面比较关注多模态的人机交互研究,包括语音和情感的合成识别等相关方面的研究。做的比较好的有:清华大学电子工程系和计算机系、北京大学言语听觉研究中心,中科院自动化所、科大讯飞、微软亚洲研究院等。国内的进展唇读流程图像采集检测与定位特征提取识别方法图像采集1)正面采集在拍摄获取发音者的口型图像序列时,通过在紧靠面部侧面放置一面镜子的方法,同步记录发音时的正面和侧面图像。但是在实际应用中放置镜子的方法有时带来不便。2)不规则人脸对称模型

获取人脸图像时,摄像头从人脸正面转过一个角度θ,这样既能保证一半正面嘴唇轮廓的图像,又能反映出嘴唇突出度和下腭突出度的投影信息。既有人脸正面图像中嘴唇的内外轮廓动态变化信息,又包含人脸侧面图像反映出来的嘴唇突在出度和下腭突出度动态变化信息。3)正面、侧面采集采用两个摄像装置采集图像,图像序列间的同步会带来很大的问题

检测与定位降低图像处理的难度,检测唇的边缘设计平台矩形框第一列是表示原始唇区域,第二列表示别分类出的唇区域和非唇区域,第三列代表根据唇模型画出的唇线边缘。特征提取基于模型方法混合特征基于像素基于模型1)主动轮廓模型(Snake算法):Snake是一条变形的曲线,主要靠两个函数来提取特征。2)可变模型:特定的主动轮廓模型特点:数据量小、较为准确基于像素1)直接像素法2)矢量量化3)主成分分析4)基于光流:脸部采集、光的速度看唇动基于像素优点:可以采集到所有的数据缺点:数据量大、运算量大、收到光线的影响混合特征目前有以下的结合方法:1)主成分+snake2)多尺度空间分析3)主动面模型识别方法1)模板匹配2)隐马尔科夫模型(HMM):通过概率,寻找近似性匹配3)TDNN(延迟神经网络)德国的斯图加特大学和美国的CMU合作对唇形研究内容分为四个部分:1)建立语音多模态库;语音、唇位、采集图片、语音(资源库)2)建立唇形处理平台;矩形框、边缘、修改3)对语音、唇位参数提取和数据分析,建立统计模型;4)研究不同生理信号之间的关系,进行语音产生各相关层面的理论与方法研究,并建立语音驱动的唇型模型合成。(长远目标)用参数驱动合成研究内容研究内容(1)建立语音、唇型数据库模态数据库包括:音位、单音节(解决协同发音)的语音和视频信号。1)文本设计:音位、单音节和双音节文本设计。2)使用两架摄像机进行信号的同步采集,以保证人脸正面和侧面信号被同时采集,最终获得包含三种单位的语音和唇型参数数据库。研究内容(2)建立信号处理平台 生理信号的采集设备一般都不带有分析功能,需要根据不同的信号类型编写各自的信号处理和分析程序,包括信号的读取、剪切、保存、拟定参数的自动提取、数据的自动保存和统计分析等功能。该平台主要完成内外唇线及唇线参数的设定与自动提取和批量分析等,主要包括以下功能: ①手动框出包含唇的矩形区。 ②利用支持向量机对唇区域和非唇区域进行分类。 ③对分类出的唇区域利用EILAN提出的唇边缘检测模型自动标记出唇边缘,对自动标记错误处具有手动修改功能。研究内容(3)对语音、唇型的参数提取和数据分析 根据不同的信号库和研究目的,选择适当的参数,设计提取算法,进行数据分析建立统计模型,并进行相关理论领域的探讨。 ①语音主要的参数有:时长、基频(F0)、辅音强频区、振幅、谱倾斜率、共振峰的音轨、辅音和元音之间共振锋的过度段、VOT等等。在技术上,提取声学参数是采用比较经典和成熟的算法,共振峰和带宽用基音同步协方差(co-variance)LPC提取,基频用倒谱的方法提取。 ②唇型信号参数:内外唇线、唇宽度、唇高度、唇突度等。唇线特征提取主要是对已经提取的矩形区域进行唇区域和非唇区域的分割,然后对唇区域用已有唇模型分别检测出唇边缘。(13个参数) ③总结语音学唇位,根据每一个音的唇型变化(根据关键点运动轨迹描述唇线的变化),基于统计学上的归纳和分类,建立唇形数据库,从而得出唇位的类型。研究内容(4)建立语音驱动的唇位模型 根据统计数据建立语音和唇型之间的关联模型,建立语音驱动的唇位模型。首先对文本进行国际音标的转换,使其成为音位序列,然后按音节为单位,声韵母分别调用各自对应的唇位图像组进行拼接,可用内插法解决语音和唇位的时间对应。对每一个视频文件,使用非线性编辑器对采集的图像进行分帧(每秒24帧),对每一帧建立唇线自动匹

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论