下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
4/4手语研究的方向与现状手语研究的方向与现状
手语研究的方向与现状
提高计算机对人类语言的理解水平;(3)利用手势控制VR中的智能化;(4)机器人的示范学习;(5)虚拟现实系统中的多模式接口等。
从手语输入设备来看,手语识别系统主要分为基于数据手套的识别和基于视觉(图像)的手语识别系统。基于数据手套的手语识别系统,是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息。这种方法的优点是系统的识别率高。缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。利用数据手套等典型传感设备的方法,台湾大学的Liang等人利用单个VPL数据手套作为手语输入设备,可识别台湾手语课本中的250个基本词条,识别率为90.5%。CMU的ChristopherLee和Xu在1995年完成了一个操纵机器人的手势控制系统。Kadous用PowerGloves作为手语输入设备,识别有95个孤立词构成的词汇集,正确率为80%。基于视觉的手势识别是利用摄像机采集手势信息,并进行识别。该方法的优点是输入设备比较便宜,但识别率比较底,实时性较差,特别是很难用于大词汇量的手语录的识别。在基于视觉的方法方面,具有代表性的研究成果包括:1991年富士通实验室完成了对46个手语符号的识别工作。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入,可识别7种手势。Starner等在对美国手语中带有词性的40个词汇随机组成短句子识别率达到99.2%。Grobel和Assam从视频录像中是取特征,采用HMM技术识别262个孤立词,正确率为91.3%。此外,Vogler与Metaxas将两种方法结合用于美国手语识别,交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备,完成了53个孤立词的识别,识别率为89.9%。
从识别技术来看,以往手语识别系统主要采用基于人工神经网络(ANN)及基于隐Markov模型(HMM)等方法。神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能力不强,目前广泛用于静态手势的识别。著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。对于分析区间内的手语信号,通常采取HMM方法进行模型化。HMM是众周知并广泛使用的统计方法,一般拓扑结构下的HMM具有非常强的’描述手语信号的时空变化能力,在动态手势识别领域一直占有主导地址,如卡内基·梅隆大学的美国手语识别系统及台湾大学的台
湾手语识别系统等均采用HMM作为系统的识别技术。另外,Grobel与Assam利用HMM识别由戴有色手套的用户通过摄像机输入的262个孤立手语词,正确率为91.3%。然而正是由于HMM拓扑结构的一般性,导致这种模型在分析手语信号时过于复杂,使得HMM训练和识别计算量过大。尤其是在连续的HMM中,由于需要计算大量的状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢。因而以往手语识别系统所采用的HMM一般为离散HMM。
在我国,哈尔滨工业大学的吴江琴、高文等给出了ANN与HMM的混合方法作为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数。将ANN-HMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手语识别系统中,孤立词识别率为90%,简单语句级识别率为92%。接下来高文等又选取Cyberglove型号数据手套作为手语输入设备,并采用了DGMM(dynamicGaussianmixturemodel)作为系统的识别技术,即利用一个随时间变化的具有M个分量的混合GaussianN-元混合密度来模型化手语信号,可识别中国手语字典中274个词条,识别率为98.2%。与基于HMM的识别系统比较,这种模型的识别精度与HMM模型的识别精度相当,其训练和识别速度比HMM的训练与识别速度有明显的改善。他们为了进一步提高识别速度,识别模块中选取了多层识别器,可识别中国手语字典中的274个词条,识别率为97.4%。与基于单个DGMM的识别系统比较,这种模型的识别精度与单个DGMM模型的识别精度基本相同,但其识别速度比单个DGMM的识别速度有明显的提高。2000年在国际上他们首次实现了5000词以上的连续中国手语识别系统。另外,清华大学祝远新、徐光等给出了一种基于视觉的动态孤立手势识别技术,借助于图像运动的变阶参数模型
和鲁棒回归分析,提出一种基于运动分割的图像运动估计方法。基于图像运动参数,构造了两种表现变化模型分别作为手势的表现特征,利用最大最小优化算法来创建手势参考模板,并利用基于模板的分类技术进行识别。对12种手势的识别率超过90%。在进一步研究中,他们又给出了有关连续动态手势的识别,融合手势运动信息和皮肤颜色信息,进行复杂背景下的手势分割;通过结合手势的时序信息、运动表现及形状表现,提出动态手势的时空表现模型,并提出基于颜
色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参数。最后,提出动态时空规整算法用于手势识别。对12种手势,平均识别率高达97%。
尽管已经实现了一些手语识别系统,但中国手语识别仍然面临许多挑占性课题,如手势不变特征的提取、手势之间的过度模型、手语识别的最小识别基于、自动分割识别基元、词汇量可扩展的识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。
手语的合成是使聋哑人理解正常语言表达的最有效手段,在手语合成中涉及以下几个方面的问题:本文输入部分、文本切分部分、文本的分析与手语码转换、手语库的建立与基于手语词的手语合成和手语的显示。
文本输入部分的功能是编辑输入汉语句子。文本的切分将句子分成词,标点符合单独成词。系统的分词过程首先采用最大匹配发切分,然后利用第一步分词结果通过查找词条的歧义标志位调用词规则,进而进行歧义校正。文本分析与手语码转换是手语合成的重要部分。虽然中国手语是参考汉语制定的,但是两种语言的差别主要体现在四个方面:语言表达形态、基本词汇、句子结构和构词方法。在语言表达形态上:汉语是靠语音/听觉交际的有声语言。中国手语是一种靠动作/视觉交际的可视化语言。在基本词汇上:汉语的词汇大约有近五万多个字组成,总的词汇量可达十万多个。中国手语的词汇仅由3330个手势语组成。中国手语的手势词语与汉语的词语不完全存在一一对应的关系。在句子的语法结构上:手语句子与汉语句子的词序有所不同,此外还省略了日常语言的某些词如量词。因此从汉语转换到中国手语,主要解决的基本词汇上的差别,同时考虑部分词汇的差别。手语词库记录了每个手语词的手语运动信息,是手语合成的重要基础。建立手语词库不仅工作量大,而且其质量也直接影响合成手语的结果。目前建立手语词库的方法有两种:运动跟踪方法和手工编辑方法。也有人综合使用这两种方式。运动跟踪的方法是对腕关节及各手指关节的运动由数据手套获取,肩关节与肘关节的运动由位置跟踪传感器获取。而手工的方法是通过手工实验来获取手势的参数。手语是一种可视语言,合成的手语只有显示出来,观察者才能“读”取
手语的信息与意义。手语的合成与显示的实现的方法是:在VRML中有一部分是专门用于描述三维人体模型H-Anim标准,根据此标准对虚拟人的定义,一个虚人有47关节96个自由度,只要确定这96个自由度的角度值,应用运动学的方法和计算机图形学的方法,就可以计算出虚拟人每个肢体的位置和方向,由此确定虚拟人的一个姿态。一个手语运动是一个人体手势的序列,按照预定的时间间隔连续显示一个手语运动中的每一个手势,既可以生成对应的手语运动。
当今,网络通讯已经成为一种重要的通讯手段。研究哑语通讯,使聋哑人更好地融入网络社会,感受科技的进步,更好地为他们服务并且方便了他们的生活。而手语作为一种动作语言,从广义上讲,它的应用不仅仅局限于聋哑人之间,聋哑人与非聋哑人之间,以及异语种间健常人的交流都可能应用到动作语言。从这个意义上,研究哑语的表达与通讯,具有更加广泛的社会意义和实际应用前景。
更实现手语的网络通讯,必须采用一种恰当的技术,它既能完成手语图像动画表示,它既能完成手语图像的三维动画表示,产生的数据、文件应该尽可能地短小,且便于压缩,以利于网络传输,提高网络传输速度,避免网络拥塞,实现实时反应。可以使用三维动画技术来实现手语动画,但一般的三维动画技术形成的图像虽然可能满足生动逼真的要求,却不适合网络应用。因为它们用于图像和动画的文件格式是基于像素的,大小和行为都是固定的,为了得到特体的三维印象,至少需要两幅图解,这使传输量巨大且不能实现交互。同时,基于HTTP、HTML标准的只能表示和传递二维信息,不能满足对三维环境和三维显像具有特定要求的应用需求。鉴于这种应用的特殊要求,提出采用VRML技术。VRML(VirtualRealityModelingLanguage)是一种可以在上操作的三维图形可视化工具,VRML2.0发布于1996年8月,它能够灵活有效的方式,将二维、三维图形和动画、影片、声响和音乐等多种效果调和在一起,形成一个综合性的单一媒体,在环球网上创建动态世界。VRML本身不是一种传统的编程语言,它是一种建模语言,有它自己的文件格式,人们可以用它描述三维场景。它不但能满足图像质量的要求,而且存储和传输的只是物理的三维坐标,图像本身是在本地生成的,这就大大减少了网络传输量,也便于进行交互操作。同时,使用VRML技术生成的
文件格式是ASCII码,能被有效地压缩,这就进一步减轻了网络压力,提高了传输效率,能够实现手语图像在网络上高速传输。
另外,日本北海道大学的青木由直教授是研究手语通讯的倡导者,他通过建立一个不同语言的手语翻译字典在Internet实现了日语和韩语的手语的聊天系统,进一步又研究了日本与中国的手语变换,手语手成的二维及三维动画,以及带有面部表情和嘴唇形状的日语和韩语的手语聊天系统等。
人手的组成是一个非常复杂的结构。手是由骨头,连接骨头的韧带,作为拉力动力服务的肌肉,运动时连接肌肉与骨头的腱,以及覆盖着保护的软组织和皮肤。骨头通过关节连接起来并且不能改变大小,肌肉产生扭矩和关节通过拉力运动都存在一块或更多的肌肉群为其服务。因此,手的运动极其复杂的。由于真实手的生理特点,手的运动受到一些限制和约束。分析手的运动约束,就可以更好研究虚拟三维人手的运动。这样一来就可以在有关手的动画片中避免一些不真实的动作,使其更加拟人化。
手的运动约束主要体现在关节的运动的约束上。有以下四种情况:(1)关节角度限制和运动类型的约束。第二到第五手指的
第三关节的运动仅能弯圣诞节/伸直或一方向运动,并且第一和第二关节也仅能在同一方向上弯曲/伸真。因此,第二到第五手指的四个手指在同一平面。(2)指骨之间的关节弯曲的约束。对人的手指运动来说,在没有外力作用下,不可能存在第一关节弯曲而第二关节不弯曲的情况。经研究发现,第一关节弯曲的角度大约是第二关节弯曲角度的2/3。(3)掌骨与手之间的弯曲的约束。当第三个关节弯曲时大约角度是90°,而对于第二个手指却少于90°,第三到第五个手指弯曲的角度超过90°。这是因为独立的一个手指的弯曲要受到指状组合型韧带的限制,这样一个手指的弯曲可能导致其它附近的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学门卫招聘流程
- 办公室设计施工一体化合同范本
- 网络安全招投标投诉处理规范
- 石材加工招投标监督技巧
- 内部通讯稿收发规定
- 船只租赁终止协议范本
- 矿区安全围墙施工合同
- 养老机构财务危机应对策略
- 建筑行业货款回收措施
- 电力工程安全生产培训管理办法
- 《1+X幼儿照护(中级)》课件-气管异物急救处理
- 《部门介绍模板》课件
- 如何审查合同的培训课件
- 船舶消防安全知识
- 2024下半年江苏苏州城市学院招聘管理岗位工作人员27人历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 金属废料再利用技术介绍
- 风险投资在我国的发展课件
- 小学四年级数学面积应用题及图形面积题
- 国际经济与贸易职业规划报告
- 沙画手工课件
- 读书好书开启智慧之门
评论
0/150
提交评论