基于多传感器信息检测融合手语识别研究[1]_第1页
基于多传感器信息检测融合手语识别研究[1]_第2页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、29卷5期中国生物医学工程学报Vol.29No.52018年10 月ChineseJournalofBiomedicalEngineeringOctober2018基于多传感器信息检测和融合的中国手语识别研究王文会陈香*阳平李云杨基海(中国科学技术大学电子科学与技术系,合肥230027>摘要:有效融合加速计、摄像头和表面肌电3种低成本传感器在手势动作信息捕获上的优势,是提高手语手势识别率和种类的重要研究内容。提出一种基于多传感器信息检测和融合的中国手语识别方法:先利用表面肌电的幅值信息,对3类传感器信号进行手势分割,并实现单双手词的划分。然后借助视觉信号,完成有遮挡和无遮挡双手词的划分。

2、最后利用Sugeno模糊积分,实现不同特征匹配结果的决策融合。结果表明,对4位受试者、201个高频手语词开展手势识别实验,其识别率均在99%以上,证明该基于多传感器信息检测和融合的手势识别方法在中国手语识别上的有效性。关键词:手语识别。多传感器融合。隐马尔科夫。模糊积分中图分类号TP391.4文献标识码A文章编号0258-8021(2018>05-0665-07ChineseSignLanguageRecognitionBasedonMultipleSensorsInformationDetectionandFusionWANGWen-HuiCHENXiang*YANGPingLIYun

3、YANGJi-Hai(DepartmentofElectronicScienceandTechnology,UniversityofScienceTechnologyofChina,Hefei230027,China>Abstract:Theefficientfusionofhandgestureinformationcapturedbyathree-axisaccelerometer,awebcamandfoursurfaceelectromyographysensorsisanimportantresearchfieldforimprovingtheperformanceofsign

4、languagerecognitionsystem.Inthispaper,amulti-sensorinformationdetectionandfusionmethodwasproposed.Firstly,theamplitudeinformationofmyoelectricsignalwasutilizedtoextractactivesegmentsofhandgesturesanddividesigngesturesintosingle-handtypeanddouble-handtype.Thendouble-handsignwordswerefurtherclassified

5、intoocclusionornon-occlusionclassbyvisionsignal.Lastly,decision-levelfusionapproachwithSugenofuzzyintegralwasappliedonlocalmatchingresultsofmultipleclassifiersforimprovingclassificationperformance.Experimentalresultsfor201high-frequencysignwordsfrom4signersobtainedtheclassificationaccuracyofmorethan

6、99%,indicatingtheeffectivenessoftheproposedmethodforChinesesignlanguagerecognition.Keywords:signlanguagerecognition。multi-sensorfusion。hiddenMarkovmodel。fuzzyintegral引言手语识别研究的目的,是使计算机能够正确理解手语,并将手语转换成容易理解的语音或者文本信息,以增进聋哑人与健听人之间的无障碍交流1。同时,手语手势识别研究有助于促进智能人机交互技术、虚拟现实和机器学习等研究的发展2。doi:10.3969/j.issn.0258-8

7、021.2018.05.005收稿日期2018-05-18,修回日期2018-08-24根据输入设备的不同,手语识别主要分为基于穿戴式输入设备和基于计算机视觉两个方面。基于穿戴式输入设备的手语识别使用的输入设备,主要有数据手套、加速计和表面肌电传感器等34,7。由于手势运动伴随着肌肉活动,表面肌电信号(surfaceelectromyography,SEMG可用于检测手势运动引起的肌肉活动状态变化。如Du利用7导表基金工程:国家自然科学基金资助工程(60703069>。国家高技术研究发展(863>计划(2009AA01Z322>*通讯作者。E-mail:sch666中国生物医

8、学工程学报29卷面肌电对11 个手势采用基于灰度相关分析的方法,获得了95.9%的识别率3。Rehm采用HMM技术,借助1个三轴加速计对8个手势动作达到了97.2%的识别率4。基于计算机视觉的手语识别,通过各种成像设备,实现对手势动作的捕获。根据采用的成像设备个数不同,一般可分为单目视觉和立体视觉。单目视觉方面,Nandy采用基于图像的二维方向直方图作为手语特征,针对22个印度手语词,用K-近邻分类器得到了100%的识别率5。在立体视觉方面,Vogler等利用1个位置跟踪器和3 个互相垂直的摄像机,针对由53个手语词组成的486个句子,在上下文相关的情况下得到了89.91%的识别率6。不同传感

9、器在捕获手势信息方面有着独特的优势,但同时也存在各自的缺点。例如:计算机视觉可提供丰富的朝向、手形手姿、运动以及手与身体相对位置信息,但易受到摄像机视角和背景光照等环境因素影响。SEM(能够反映手的形态、关节的伸屈状态和伸屈强度,对精细手指动作有着独特优势,但由于是一种微弱的电生理信号,对传感器安放位置敏感,可识别手势动作种类有限3。加速计(accelerometer,ACC河检测手势的大尺度运动信息,但无法检测小幅度运动手势和静态手势。当前很多有关手语手势的识别研究是采用单一种类的传感器,可检测和识别的手语词汇量和准确性具有一定的局限性。为有效利用不同类型传感器在捕获手势动作信息上的优势,多

10、传感器检测和融合技术逐渐被引入到手语识别中。Kosmidou综合5导SEM(与三维ACC信号,采用样本熵特征,对60个孤立的希腊手语词取得了高达99%的识别率7。邹伟等利用数据手套、视觉和肘部弯曲传感器作为输入设备,对中国手语中的32个单手静态词汇进行了识别研究8。Zhang把4 导表面肌电与1 个加速计作为输入设备,对18个自定义的手势取得了91.7%的实时识别率,并将其应用于虚拟场景中魔方游戏的实时控制9。以上研究成果表明,多传感器信息检测和融合技术在手语识别中具有很大的潜力。本研究利用表面肌电、加速计和网络摄像头作为输入设备,充分结合这3种低成本、便携式传感器在捕获手语信息方面的优势,提

11、出了一种基于多传感器信息检测和融合的中国手语手势识别方法。在有效手语动作的时序分割环节,利用SEMG勺幅值变化信息,并结合移动窗技术和阈值检测方法来获得3种传感器勺同步活动段信号。在分类融合环节,采用一种多级分类融合策略,在决策级对不同角度勺手语动作信息进行融合:首先,利用SEMGt有无动作情况下勺幅值变化信息,将手语词区分为单手词和双手词。然后,根据获得勺手语图像序列中肤色连通区域勺个数不同,将双手词细分为无遮挡词和有遮挡词。最后,在决策融合中利用Sugeno模糊积分,将表面肌电信号、加速计信号和视觉信号进行融合,得出最终判决结果。实验结果表明,该方法可有效地融合不同传感器提供勺信息,实现优

12、势互补,获得较高勺识别率。1 基于多传感器信息检测和融合勺手语识别方法图1 所示为基于多传感器信息检测和融合勺中国手语分类识别实现框图。图1基于多传感器信息检测和融合勺中国手语识别整体框图Fig.1Theflowdiagramofmulti-sensorinformationdetectionandfusionmethod5 期王文会等:基于多传感器信息检测和融合的中国手语识别研究1.1 手势分割为得到每个传感器对于手语动作的同步描述,需要从肌电、加速计和视觉传感器采集的连续手势输入信号中分割出动作开始到结束的有效手势活动段。对于视频和加速度信号而言,如何从连续信号中自动分割出含有有效手势动作

13、的活动段信号,还没有比较完善的算法。由于SEM(直接体现了肌肉的活动强度,其幅值变化可用于判断手势是否在执行状态,且不受手臂其他无意识动作的影响。因此,利用SEMG勺幅值变化信息来实时提取活动段,具体实现过程如下:先按式(1>计算右手勺S导SEMC在t时刻勺平均绝对值,再按式(2>计算移动窗内64点勺平均绝对值勺平均平方和,有SEMGave(t>1S艺Ss1 SEMGs(t>(1>SEMGMA(t>1艺SEMG2ave(i>(2>Wti=tW+1当肌电信号加窗平均幅值SEMGMA(t>大于开始阈值fH时,表示手语动作开始执行,此时开始同步保

14、存3种传感器信号。当肌电信号的加窗平均幅值小于结束阈值fL时,表示手语动作结束,此时停止保存这3种传感器信号。fL<fH是避免无意识的抖动被错认为有效手势,而且可以防止手势执行过程中信号帧断裂。1.2 手势特征提取对于ACC信号,将降采样的原始信号作为特征,就可以得到比较好的识别效果4。因此,先将ACC活动段信号降采样为32个点,然后进行归一化调整,对于三轴加速度信号,形成一个3X32的时间序列作为特征向量。semGw号常采用多导电极进行采集。由于不同手势所涉及的肌肉群及其用力强度均不一样,导致各导的SEMG言号幅度也有所不同,信号幅值的平均绝对值MAV可以作为区分不同手语的有效特征。同

15、时,SEMG1肌肉收缩时产生的随机非平稳的生物电信号,而AR模型系数是在SEM毋类识别方面效果比较好的频域特征。因此,本研究采用MAV和四阶AR模型的前3 个系数来作为每导SEMG言号的特征参数9。将各导SEMGf征串联,作为手语词的特征。手势图像特征提取一般是基于轮廓信息或手势分割后的二值化图像,本研究采用几何矩10和方向直方图5提取视觉特征。因在打手语过程中存在一些不确定因素,比如手势与摄像头之间相对距离、角度的不惟一会导致不同人或者同一个人在不同时刻手语获得的图像有偏转或移动等缺陷。将几何矩用于提取不同手语的特征,可以做到不随手势图像的平移、旋转和大小变化而变化,具有良好的适应性和稳定性

16、。有些手语词的手姿表达基本一样,区别仅仅在于手指的指向不同,几何矩对于这些词不能有效区分。而方向直方图考虑的是手势的边缘轮廓信息,可以提供手指的朝向信息。因此,采用几何矩和方向直方图作为手势图像特征,既利用了手势的整体形状信息,又保留了轮廓细节信息。常用的几何矩有7个特征分量10,实验表明使用前4 个不变矩特征量的效果比7个都用效果要好,所以使用前4个分量作为一帧手势图像的几何矩特征。几何矩特征向量中各特征分量的数量级差异比较大,实验中分别取100、101、102、103作为分量调节系数。将各帧几何矩组合在一起,形成一个手语词的特征。将边界方向量化成36柄,形成方向直方图特征向量。1.3多级分

17、类融合策略图2 为本研究采用的基于多传感器信息检测和融合的手语分类策略。为有效融合多传感器信息,该分类策略充分利用不同传感器可从不同侧面捕获手势动作信息的特点,同时考虑手语词的整体信息和细节信息,采用由单双手词划分、有遮挡和无遮挡双手词划分、模糊积分融合构成的多级分类方法,以提高中等词汇量手语的识别率。1.3.1 基于EMG勺单双手词区分图2 基于多传感器信息检测和融合勺手语多级分类策略Fig.2Multi-levelclassificationstrategybasedonmulti-sensorinformationdetectionandfusion668中国生物医学工程学报29卷中国手

18、语词汇共有5600余个单词手势动作1,可分为单手词和双手词两大类。单手词在执行时一般只需要使用右手(或称主手表达手势所蕴涵的信息,双手词则需要左右手相互配合。单双手词的划分采用semG言号来完成:SEMG的幅度可以直接反映肌肉的活动强度,在手语动作执行期间的信号幅度较大,词与词之间的停顿时期的信号幅度较小,故可依据左手的SEMG畐度来判断左手有无动作(设定阈值,从而实现单双手词的划分。1.3.2 基于视觉信号的有遮挡和无遮挡双手词区分双手词又可分为有遮挡和无遮挡两种。双手有遮挡词的主要特点是:在整个动作执行过程中,左右双手有接触,或者由摄像头获得的图像帧序列中左右手有部分重叠。如图3 所示,手

19、语词“元旦为无遮挡词,而“信”为有遮挡词。在对双手词的手势帧图像(IMG进行背景去除和肤色检测后,可以发现手部连通区域为1个或者2 个。因此,依据视觉上手部连通区域个数的不同,对双手词进行双手有遮挡和双手无遮挡的划分。图3 遮挡和无遮挡双手词举例Fig.3 Samplesofdouble-handsignwordwithandwithoutocclusion1.3.3 基于模糊积分的决策级融合鉴于手语词在表达的过程中存在着大量的不确定因素,而模糊理论中的模糊积分在处理不确定因素方面具有一定的优越性,本研究采用Sugeno模糊积分综合SEMGACG方向直方图和几何矩4种特征通过相应的分类器所提供

20、的局部决策,消除它们之间的数据冗余和矛盾,做出最终识别判决。在3类传感器信号的特征描述中,有些特征是一维向量(EMG和方向直方图,而有些特征是连续的观察值时间序列(ACC,几何矩图像帧序列,所以需用不同结构的分类器(简称异构分类器进行分类处理。根据各传感器信号特征的特点,采用隐马尔科夫模型(HMM9和最近邻分类器(NN11来分别处理时间序列和一维向量。HMMH种统计学模型,具有较强的时序建模能力。受到HMM在连续语音识别领域有着成功应用的启发,众多研究者将HMWI入手语识别领域,同样取得了比较好的效果6,9。考虑到手语的运动特点,采用HMM模型为直观left-right形式的Bakis模型9,

21、设定HMM有5 个状态3个混合项。不管是HM泌是NN待识别词的特征输入后,都会给出待识别词与词库中各词的似然概率或距离测度,后续处理中将这些数据归一化后当做模糊隶属度,以表明待识别词与词库中某个词的相似程度。模糊积分是定义在模糊测度上的非线性函数,它运用模糊集合的知识,用模糊测度取代了加权值,从多个分类器的结果中找出最大一致性的结果。模糊测度的类型有可能性测度、信任度和入-模糊测度g入等12,本研究在手语识别中用的是入-模糊测度g入。X(x1,x2,,x>是一有限集合,p(X>是Xn的幂集,定义在p(X>上的集合函数g:p(X>0,1 称为模糊测度,满足条件g(0>

22、;=0,g(X>=1。A,Bp(X>。若AB,则g(A>Wg(B>。g入模糊测度除满足上述两个基本条件外,同时满足下面的附加条件,即g(AUB>=g(A>+g(B>+入g(A>g(B>(3>A,BXAnb=0式中,参数入为实数,入>-1且入工0,存在惟一的入满足(n>(1+入gi>(4>i=1设a为待识别的对象,CC1,C2,,Cm表示m个类别集合,A(s1,s2,,sN是N个分类器集合。设fj(si表示分类器i中手势a属于类别Cj的支持度或者称之为置信度,即待识别词a与手势词库中第j个HMM或NN模型之间的似

23、然概率。设有限集合Ai(s1,s2,,si,i=1,2,,N。若fj(si>按降序排列,即fj(s1>>fj(s2>fj(sN>,则g入可由单点上的模糊测度(即模糊密度>gig(si>依据下列公式递推求得g入(A1>=g(s1>=g1(5>g入(Ai>gi+g入(Ai1>+入gig入(Ai1>(6>在手语识别中,可将Sugeno模糊积分简化为Ej/f(s>°g(>maxmin(fj(si>,g入(Ai>>i=1A5期王文会等:基于多传感器信息检测和融合的中国手语识别研究(

24、j=1,2,,m>(7>然后,使用最大隶属准则,得到对象a的隶属类别。C=argmax(Ej>(9>j=1,m在基于模糊积分的分类器融合中,模糊测度对最终输出的融合结果有着很大的影响。计算模糊测度时,需要先确定模糊密度。模糊密度可以理解为信息源对于整个决策的重要性,不合适的模糊密度可能使得融合精度非常不稳定,有时甚至会使融合精度低于单分类器的分类率。在多传感器手语识别中,各个传感器所提供的信息是不同的,各个信息源对手语识别的重要性也不同。为避开单分类器所能达到的性能限制,有效利用各个子分类器的互补性,定义每个分类器对不同手势类别的分类率为模糊密度gi,然后由gi递推,得

25、到模糊测度g入。加权平均、D-S证据理论和模糊积分是比较常用的决策融合方法1213。为验证所提出方法的有效性,同时开展了基于前2 种决策融合方法的手势识别实验,并对3 种方法得到的结果进行了对比分析。加权平均是一种简单直观的方法,它将各个分类器提供的匹配结果进行加权平均后作为融合结果。D-S证据理论将每个传感器的每一次测量值作为一条证据,不同特征经过分类器后得到匹配结果,以此作为该证据对各个手语词的基本概率赋值,然后利用基于Dempster的正交规则对基本概率赋值进行组合。在多个证据合成时,可以两两递归组合来实现融合13。2 实验及结果分析2.1实验方案基于实验需要,构建了一个基于OpenCV开放源代码和多线程技术的3 类传感器数据采集平台。8个自制的表面肌电电极、2个自制的三轴加速计和1个普通的USB接口的网络摄像头,用于实时采集手势动作信号。图4 为表面肌电电极和加速计安放示意图,左右手的前臂上分别安置4 个表面肌电电极和一个加速计电极,其中4 个肌电电极的第一导安放于上肢前臂靠近腕关节的拇伸肌和食指固有肌对应位置处,其他三导分别安放于靠近肘关节的伸指总肌、尺侧腕伸屈肌等处,加速计和参考电极安放于腕关节附近。为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论