已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得西南科技大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:窃l 缸迕 日期:如o 二f 关于论文使用和授权的说明 本人完全了解西南科技大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文的复印件,允许该论文被查阅和借阅;学校可以公布该论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:舌t f 地 翩虢渤胁 导师签名:少互p 日期: l j 西南科技大学硕士研究生学位论文第1 页 摘要 人机交互( h u m a n c o m p u t e ri n t e r a c t i o n ,h c i ) 技术作为一个独立的研究 领域自诞生以来一直影响着计算机科学的发展。随着计算机的普及,人们对 交互方式的要求也越来越高。以往人去适应计算机的交互方式已不能满足人 们的要求。人机交互技术正向着计算机不断去适应人的方向发展。普适计算 ( p e r v a s i v ec o m p u t i n g ) 时代是一个交互手段多样化的时代,基于视觉的手势交 互( v i s i o n b a s e dg e s t u r ei n t e r a c t i o n ) 是其中不可或缺的一项关键技术。但是视 觉手势交互在技术和应用方面都存在着诸多挑战,本文对单目视觉下的手势 交互技术的实现及应用做了尝试性的研究。主要工作如下: ( 1 )在变形手势跟踪方面:为了解决复杂背景下( 如有肤色干扰的背 景) 的变形手势跟踪问题,研究了现存的大量跟踪算法。提出了 一个基于均值移动和k a l m a n 滤波器的变形手势跟踪框架。 ( 2 )在跟踪自动初始化方面:同时讨论了跟踪开始以及跟踪失效时的 初始化解决方案。提出了一种变形手势跟踪过程中自动初始化的 层次模型并基于该模型提出了一种有效的系统状态检测方法。 ( 3 )在静态手势识别研究方面:基于快速原型系统开发的背景提出了 一种基于p g h ( 成对几何直方图) 的静态手势识别方法。并在其 基础上采用一种基于肤色统计的辅助算法进行改进,形成一种基 于少量手势模板的高效静态手势识别方法。 ( 4 )在系统应用方面:基于以上研究开发了一个手势工具箱 i e t o o l k i t ,这是一个屏蔽了计算机视觉底层技术的快速原型系 统。在交互应用方面提供了高层语义映射,实现了与互动游戏界 面的较好集成。并基于该工具箱开发了一些互动娱乐系统。 本文提出的各种算法简单易于实现,实验表明,本文方法能在在复杂运 动下有效地对多手势进行识别和跟踪,能够满足基于视觉的实时人机交互的 要求,并能用于基于视觉的互动娱乐领域。 关键词:人机交互;变形手势;手势跟踪;静态手势识别;视觉工具箱 i e t o o l k i t 西南科技大学硕士研究生学位论文第1 i 页 a b s t r a c t h u m a n c o m p u t e ri n t e r a c t i o n ,a sa ni n d e p e n d e n tr e s e a r c hf i e l d ,a l w a y s i n f l u e n c e st h ed e v e l o p m e n to fc o m p u t e rs c i e n c ea f t e ri t sb o r n w i t hw i d e w i d e s p r e a d u s eo f c o m p u t e r s ,p e o p l e r a i s em o r e r e q u i r e m e n t o f h u m a n c o m p u t e ri n t e r a c t i o nt e c h n i q u e i n t e r a c t i o n ,w h i c hn e e d sh u m a nt o a d a p t t o c o m p u t e ri nt h ep a s tt i m e ,c a n n o ts a t i s f yh u m a n sd e m a n dn o w h u m a n c o m p u t e ri n t e r a c t i o nt e c h n i q u ei sd e v e l o p i n gi nt h ed i r e c t i o nt h a t c o m p u t e rc o n t i n u o u s l ya d a p t st oh u m a n v i s i o n b a s e dg e s t u r ei n t e r a c t i o ni sa n i n d i s p e n s a b l ek e yt e c h n i q u e i nt h ep e r v a s i v e c o m p u t i n ge r a ,i nw h i c h i n t e r a c t i o nt e c h n i q u ei sd i v e r s i f i e d h o w e v e r , v i s i o n b a s e dg e s t u r ei n t e r a c t i o n f a c e sm a n yc h a l l e n g e si nt h e t e c h n i q u e a n da p p l i c a t i o n t h i sp a p e rg i v e s r e s e a r c ho nt h ei m p l e m e n ta n da p p l i c a t i o no fv i s i o n b a s e dg e s t u r ei n t e r a c t i o n u n d e rm o n o c u l a rv i s i o n t h em a i nw o r k so ft h i sp a p e ra r ea sf o l l o w : ( 1 ) i nt h er e s p e c to fd e f o r m a b l eh a n dg e s t u r et r a c k i n g ,i no r d e rt os o l v e p r o b l e m s o fd e f o r m a b l eh a n d g e s t u r et r a c k i n g i n ,c o m p l e x b a c k g r o u n d s u c ha s b a c k g r o u n dw i t h s k i nc o l o ri n t e r r u p t i o n , s t u d ye x i s t i n gt r a c k i n ga l g o r i t h m ,a n dg i v et h ed e f o r m a b l eh a n d g e s t u r et r a c k i n gf r a m e w o r kb a s eo nm e a ns h i f ta n dk a l m a nf i l t e r ( 2 ) i nt h er e s p e c to fa u t o m a t i c a l l yi n i t i a l i z a t i o n ,d i s c u s si n i t i a l i z a t i o n s o l u t i o nw h e nt r a c k i n gs t a r t sa n df a i l s p u tf o r w a r dal e v e lm o d e l w h i c hc a na u t o m a t i c a l l yi n i t i a li nt h e p r o c e s so fh a n dg e s t u r e t r a c k i n g ,a n db a s eo nt h i sm o d e l ,g i v eae f f i c i e n ts y s t e ms t a t e c h e c k i n gm e t h o d ( 3 ) i nt h er e s p e c to fs t a t i ch a n dg e s t u r er e c o g n i t i o n ,p u tf o r w a r ds t a t i c g e s t u r er e c o g n i t i o nm e t h o db a s eo np g hf o rt h er a p i dp r o t o t y p e d e v e l o p m e n t t h e nu s ea na s s i s t a n ta l g o r i t h m sb a s eo ns k i nc o l o r s t a t i s t i c st oi m p r o v et h em e t h o d ,a n dg i v ea ne f f i c i e n ts t a t i ch a n d g e s t u r er e c o g n i t i o nm e t h o db a s eo naf e wh a n dg e s t u r et e m p l a t e s ( 4 ) i nt h er e s p e c to fs y s t e ma p p l i c a t i o n ,s t u d ya n dd e v e l o pav i s i o n i n t e r a c t i o nt o o l k i t ,i e t o o l k i t ,w h i c hi sar a p i dp r o t o t y p es y s t e mt h a t s h i e l d st h el o wl e v e lt e c h n i q u eo fc o m p u t e rv i s i o n p r o v i d eh i g h ! ! ! ! 墨! 堡垒里垡里翌垒旦旦! 呈曼i 望! 璺! ! ! 璺里垒旦望垒旦旦! ! 竺垒垒竺翌:! 垒! 竺垒i 兰! ! ! ! i n t e g r a t e dw i t hi n t e r a c t i v eg a m ei n t e r f a c e d e v e l o ps o m ei n t e r a c t i v e e n t e r t a i n m e n ts y s t e m sb a s eo ni e t o o l k i t a l g o r i t h m sp u tf o r w a r di nt h i sp a p e rc a nb ee a s i l yi m p l e m e n t e d t h e e x p e r i m e n td e m o n s t r a t et h a tm e t h o do ft h i sp a p e rc a ne f f e c t i v e l yr e c o g n i z ea n d t r a c km u l t ih a n dg e s t u r e ,s a t i s f yt h ed e m a n do fr e a l t i m e h u m a n c o m p u t e r i n t e r a c t i o nb a s eo nc o m p u t e rv i s i o na n dc a nb eu s e di ni n t e r a c t i v ee n t e r t a i n m e n t f i e l db a s eo nc o m p u t e rv i s i o n k e yw o r d s :h u m a n c o m p u t e ri n t e r a c t i o n ;d e f o r m a b l eh a n dg e s t u r e ;h a n d g e s t u r et r a c k i n g ;s t a t i ch a n dg e s t u r er e c o g n i t i o n ;v i s i o nt o o l k i ti e t o o l k i t 西南科技大学硕士研究生学位论文第页 目录 摘要i a b s t r a c t i i 目 录一i v 1 绪 仑1 1 1研究背景2 1 1 1 人机交互技术2 1 1 2 用户界面简介一3 1 1 3 视觉用户界面4 1 2 手势交互技术简介5 1 2 1 手势交互技术的定义和分类5 1 2 2 视觉手势交互技术的优点7 1 3 本文所做的工作8 1 4 本文的组织结构9 2 视觉手势交互研究综述“ 2 1 引言1 l 2 2 视觉手势交互的特点1 1 2 3 视觉手势交互技术的相关研究1 2 2 3 1 视觉手势交互技术的发展现状1 2 2 3 2 视觉手势交互系统简介1 5 2 4 视觉手势交互领域面临的挑战1 9 2 5 基于视觉的手势交互框架1 9 2 6 小结2 0 3 肤色干扰下的变形手势跟踪2 2 3 1 引言2 2 3 2 手势分割2 3 3 3 变形手势跟踪2 4 3 3 1 基于c a m s hif t 算法的手势定位2 4 3 3 2 基于k a i m a n 滤波器的手势预测跟踪2 6 3 3 3 变形手势跟踪结果2 8 3 4 跟踪的自动初始化2 9 3 4 1 系统状态检测2 9 西南科技大学硕士研究生学位论文第v 页 3 4 2 自动初始化的层次模型3 0 3 5 小结3 2 4 静态手势识别3 4 4 1 引言3 4 4 2 不规则物体的形状匹配3 5 4 2 1 基于轮廓特征的形状匹配一3 5 4 2 2 基于区域特征的形状匹配3 9 4 2 3 匹配方法间的比较4 0 4 3 静态手势分类4 2 4 3 1 基于b h a t t a c h a r y y a 距离的静态手势分类一4 2 4 3 2 基于肤色统计分类的辅助算法4 3 4 4 静态手势识别结果及评估4 4 4 5 本章小结4 6 5 基于视觉的手势开发工具及系统应用一4 8 5 1 引言4 8 5 2 相关研究工作4 9 5 3 基于视觉的手势开发工具ie t o oikit 5 1 5 3 1le t o oikit 的设计目标一5 1 5 3 2l e t o o l k i t 的体系结构5 2 5 3 3ie t o o l ki t 的界面反馈机制5 3 5 3 4 基于ie t o oikit 的系统开发过程一5 4 5 4 基于ie t o olkit 工具箱的互动娱乐应用实例5 5 5 5 j 、结6 1 结论6 2 致谢6 4 参考文献6 6 支持本文的项目目录7 2 攻读硕士学位期间发表的学术论文及研究成果7 3 西南科技大学硕士研究生学位论文第1 页 1 绪论 计算机的诞生使人们的工作和生活产生了巨大的变化,计算机作为一种 工具已被应用到现实中的各行各业。特别是伴随着互联网的普及,这一变化 更加深刻。然而,几十年来,尽管计算机的处理能力已经有了很大的发展, 但是人们使用计算机的方式并没有发生本质的改变,计算机本身吸引了我们 太多的注意力【1 1 。这是它在使用方式上存在的一个最大弊端。 人机交互技术伴随着计算机的诞生而产生。从以键盘交互为主的命令语 言用户界面时代到以鼠标交互为主的w l m p ( w i n d o w s ,i c o n s ,m e n u sa n da p o i n t i n gd e v i c e ,w i m p ) 界面时代,人机交互的发展历史就是一个从人适应计 算机到计算机不断适应人发展史。更加自然、和谐、高效的人机交互方式不 断涌现出来,基于桌面隐喻( d e s k t o pm e t a p h o r ) ,采用w i m p 界面范式的图 形用户界面( g r a p hu s e ri n t e r f a c e ,g u i ) 也在向着p o s t w i m p 或n o n w i m p 界面时代过渡。 最自然的人机交互技术是指那些能够利用人类自然地认知和感知能力、 社会技能以及我们从小就养成的行为习惯 2 1 。基于p o s t w i m p 的可感知用户 界面( p e r c e p t u a lu s e ri n t e r f a c e ,p u i ) 正是这样的一种交互方式。我们除了使 用键盘、鼠标等设备进行叫户外,还可以使用笔、语音、手势等自然的交互 方式。而p u i 下基于视觉的用户界面( v i s i o nb a s e di n t e r f a c e ,v b i ) 或基于 摄像头的用户界面( c a m e r ab a s e du s e ri n t e r f a c e ,c b u i ) 是近年来出现的新 型交互技术之一,并且受到了广泛的关注。基于视觉的手势交互( v i s i o n b a s e d g e s t u r ei n t e r a c t i o n ) 是新一代人机交互技术家族中不可或缺的一项关键技 术,也是一个极富挑战性的多学科交叉研究课题,它将推动更加自然的人机 交互技术的发展。 手势是一种自然而直观的人际交流模式,它包含了丰富的信息。基于单 目视觉的手势交互技术( i n t e r a c t i o nt e c h n o l o g yu s i n gg e s t u r eb a s e do ns i n g l e c a m e r a ) 在视觉交互领域应用广泛。与基于其他人体特征( 头部特征、脸部 特征、人眼特征等等) 的交互相比具有更大的灵活性和更丰富的语义表示。 本文是对作者在基于单目视觉的手势交互领域中所做研究工作的总结,主要 研究内容包括手势跟踪( g e s t u r et r a c k i n g ) 、跟踪初始化( t r a c k i n g i n i t i a l i z a t i o n ) 、静态手势识别( s t a t i cg e s t u r er e c o g n i t i o n ) 以及视觉手势工 具箱系统( at o o l k i tf o rv i s i o nb a s e dg e s t u r ei n t e r a c t i o n ) ,同时也涉及到在手 势分割( g e s t u r es e g m e n t a t i o n ) 方面的一些思考,并基于上述研究成果设计 西南科技大学硕士研究生学位论文第2 页 开发了一些典型的视觉手势交互系统。 1 1 研究背景 1 1 1 人机交互技术 人机交互c h i ( c o m p u t e rh u m a ni n t e r a c t i o n ) ,人类工效学领域多使用 h c i ( h u m a nc o m p u t e ri n t e r a c t i o n ) 是一个涉及计算机、人类工效学、认知科学、 心理学等所学科的领域,2 0 世纪9 0 年代初人机交互技术日趋成熟,对人机 交互有了学术的定义与解释。美国a c m 组织下的人机交互特别兴趣小组 a c ms i g c h i 给出的定义为:人机交互是一个关于人类对交互式计算系统的 涉及、评估与实现以及相关领域研究的学科【”。 人机交互的广泛研究,提供了人们对人的交互意图和相应的生理限制、 计算机性能和限制以及相关知识的描述,以帮助人们来完成以前无法做到的 任务。人机交互的另一个主要目的是提高用户与计算机之间的交互质量,使 用户更加容易掌握和使用这种技术。同时,它的研究范畴也非常广泛,包括 人机交互模型、计算机使用的上下文、人的属性、交互设备和交互技术、计 算机系统和交互架构、开发过程和方法、可行性设计和评估等。 人机交互的发展历史,是从人适应计算机到计算机不断地适应人的发展 史。它经历了早期的手工作业、作业控制语言及交互命令语言、图形用户界 面( g u i ) 、网络用户界面和多通道、多媒体的智能人机交互等阶段。目前我 们所熟知的人机交互方式是基于图形用户界面( g u i ) 的交互,它以传统的 鼠标键盘交互为主,其特点是基于d e s k t o p 隐喻,采用了w i m p 界面范式。 这种可视化的交互方式给我们的生活所带来便利,因此也是目前占主要地位 的人机交互方式。 建立自然化、人性化的人机界面已成为当今信息社会研究的主课题。在 人机交互界面中,计算机可以使用多媒体而用户只能同时使用有限数量的交 互通道,从计算机到用户的带宽与用户到计算机的带宽呈现出极大的不对称 性,这是一种不平衡的人机交互。目前,人机交互正朝着从精确向模糊、从 单通道到多通道以及从二维交互向三维交互的方向转变,致力于发展用户与 计算机之间快捷、低耗的多通道界面。而视觉作为一个感知通道有很多的优 点。在人一人交流过程中,大部分的信息都是通过视觉通道获得的,比如可以 通过个人身份、面部表情、手势、姿势和其他可视化的线索来表达一些视觉 西南科技大学硕士研究生学位论文第3 页 的信息。通过摄像头感知和获取到这些信息并正确地传输到交互环境中能够 引发相应的交互。视觉是一种最有潜力、用途最为广泛的输入通道,能够通 过该通道获取到大量的信息。因此,基于视觉的用户界面作为可感知用户界 面的一个重要研究分支受到了广泛的关注。 1 1 2 用户界面简介 一般而言,人机交互和用户界面可以分别定义为用户与计算机系统的通 信及相互通信的介质。这样,交互是人与机之间信息的双向交流,而界面则 是支持交互的软件和硬件系统【a 】。 用户界面的发展到现在经历了三个主要的时代。批处理界面、命令行界 面和图形用户界面分别代表了三个时代中主流的用户界面。在所对应的时代 中,这三种用户界面能够最大限度地拓展人际交流的带宽,方便用户同计算 资源的交流,提高用户的生产力。其中,图形用户界面的w i m p 界面范式具 有对象可视化、语法极小化和快速语义反馈等优点,使得这种界面成为近二 十年中占统治地位的界面。但是随着计算机的发展,这种界面已不能满足人 们的交互要求。所以又涌现出了一批新的界面形式,如可感知用户界面 ( p u i ) 、实物用户界面( t a n g i b l eu s e ri n t e r f a c e ,t u i ) 以及p o s t w i m p 用 户界面( p o s t w i m pu i ) 等。表1 1 1 2 给出了交互界面的发展过程。 表1 1 用户界面范式的发展过程 t a b l e1 - 1t h eh i s t o r yo fi n t e r f a c ep a r a d i g m 可感知用户界面是一种不同于图形用户界面的界面形式,它是为了适应 交互设备的发展而提出的。当前的设备在朝着两个相反的方向发展,一个是 小型化和可移动化方向,设备体积缩小使人们的携带更加方便;另一个是大 型化方向,大型的显示设备现在随处可见,大屏幕投影或显示器不仅出现在 公共场所,而且已经开始走入普通人的家庭。 西南科技大学硕士研究生学位论文第4 页 可感知用户界面有两个主要的特征: 交互的高效性。可感知用户界面不同于传统的用户界面。它可以主动 地感知到用户及其周围环境的变化,并且通过处于不同层次上的目标和知识 推理出用户的意图,从而自发执行特定的交互命令完成相应的交互任务。而 传统的用户界面则需要被动地接收用户显性的输入命令后才能触发一定的系 统行为。 多通道。这种交互方式模仿了人与人交流时的情形,能够充分利用视 觉、听觉和触觉等多种交互通道。 可感知用户界面的目标是提供给用户一种更加自然和直观的体验,更好 地匹配用户的交互能力。 1 1 3 视觉用户界面 视觉用户界面( v b i ) 是具有p u i 交互特点的交互技术,但它更加强调 视觉信息在用户交互意图理解中的作用。v b i 是建立在计算机视觉技术基础 上的,它使计算机可以感知到用户的位置、姿态、朝向甚至是目光、手势和 表情等等。它的本质就是在人机交互上下文环境中,使用计算机视觉技术来 感知用户,这也是t u r k 给v b i 的定义【5 】。 v b i 试图解决如下的一些问题:物体的存在和位置。反映到实际问题可 能会是:有人在那里么? 有多少人? 他们在哪里? 和这些方面有关的技术有 人脸检测、身体检测、头部和身体跟踪等;被关注对象的身份。反映到实际 问题可能会是:他们是谁? 和这些方面有关的技术有人脸识别、步态识别等; 被关注对象的表情。反映到实际问题可能会是:被关注对象正在微笑、皱眉、 大笑还是说话? 有关的技术有面部表情识别、表情建模和分析等;被关注对 象的注意焦点。反映到实际问题可能会是:用户正在看什么? 和这些方面有 关的技术有头部或面部跟踪,目光跟踪等;被关注对象的身体姿势和运动。 它试图回答的问题可能是用户的整体姿势和运动是什么? 这关系到身体建模 和跟踪等技术;被关注对象的行为。它试图回答用户正在做什么事情? 和此 有关的技术有人体运动分析等;最后一个是用户的手势。它表达了用户的头 部、手、身体的运动表达了什么样的语义信息? 这和手势识别、头部跟踪等 技术相关。 就是说,v b i 试图自动获取用户的信息来描述其外在或隐含的“自然 的身体运动命令。 学位论文第5 页 视觉用户界面是一个多学科交叉的研究领域,包括计算机视觉、图像处 理、模式识别、人机交互、行为心理学等。由于视觉交互更加自然,能够在 很大程度上使用户摆脱对鼠标键盘的注意力,所以视觉交互更能引起用户的 使用兴趣,提供便捷快速的交互方式。在许多领域可以代替人完成自动监控 及检测等工作。如在智能交通方面,基于v b i 的智能交通灯系统可以自动检 测交通流量实现智能交通控制;在肉类检测方面,可以自动检测肉类的品质; 在互动娱乐方面可以自动跟踪识别人体形态等等。与传统的g u i 下的工程应 用相比,基于v b i 的工程应用在应用程序和操作系统间具有更灵活的连接方 式。图1 1 和图1 2 分别是g u i 下工程应用与v b i 下工程应用的结构图。 匿l 豳圈 鬣瑟因誓翟圈 图1 1g u i 下工程应用 豳圆圈四 露溢圈露溢四 图1 2v b i 下工程应用 f i g 1 1p r o j e c ta p p l i c a t i o nb a s e do ng u if i g 1 2p r o j e c ta p p l i c a t i o nb a s e do nv b i 1 2 手势交互技术简介 1 2 1 手势交互技术的定义和分类 手势交互技术就是一种利用手的姿势、位置、方向和运动来与计算机进 行交互的交互方式,它是一种自然高效的交互方式,是一种只需用户的手就 能实现同计算机交互的强有力的方法。 手势可以分为静态手势和动态手势,静态手势指的在某一时刻点上手的 空间姿态,包括手形、朝向、与身体的相对位置,动态手势强调的是动作过 程,表现为手在一个时间段上的姿势序列。根据手势的表达意义比较合适的 手势分类r e i 如图1 3 所示。手或者手臂的运动被划分为两种情况,一种是无意 义的动作,另一种是有意义的手势。这个划分过程需要有手势模式库的支持, 只有预定义的手势才被认为是有意义的手势。得到的手势将进一步被划分为 符号手势和操作手势。操作手势用来与周围环境中的物体交互,如对虚拟物 西南科技大学硕士研究生学位论文第6 页 体进行平移、缩放、旋转等操作。交流手势用于传递信息,它进一步可分为 符号手势和动作手势。符号手势具有语言描述的作用,分为指示手势( 如用 食指的圆圈运动来表示一个车轮) 和语气手势。在交互过程中,这些手势往 往由一些不同的静态手势来表示。动作手势又可分为模仿手势( 如模仿动作) 和指向手势( 如指点动作) 。 操 手臂运动 图1 - 3 手势分类 f i g 1 - 3 g e s t u r ec l a s s i f i c a t i o n 根据输入信息方式的不同,手势交互技术可以分为三类: 基于视觉的手势交互( v i s i o n b a s e dg e s t u r ei n t e r a c t i o n ) 基于视觉的手势交互可分为单目视觉手势交互和多目视觉手势交互。系 统通过摄像机或摄像头采集图像序列,交由视觉处理算法处理,识别出手势 的位置、姿态以及运动轨迹等信息,然后通过语义映射转化为相应的命令。 基于手套的手势交互( g l o v e b a s e dg e s t u r ei n t e r a c t i o n ) 数据手套是一种可以测量出手或手臂的关节角度和位置等信息的机械 装置。基于传感器技术的数据手套能够获得充分的用户信息,具有较高的识 别率,而且对不同的手势的辨别能力比较强,可以识别较大的手势集,可以 识别上万个单词的手语。 基于表面的手势交互( s u r f a c e b a s e dg e s t u r ei n t e r a c t i o n ) 显示屏、触摸屏或者其他的平面表面可以用来识别手势【7 j 。通常,一个 类似笔的设备可以用来在平面表面上产生手势。这里的手势并不指整个手的 姿势,而是指通过笔画构成的。 西南科技大学硕士研究生学位论文第7 页 就输入方式而言,基于数据手套的手势交互方式定位准确,对手指关节 的弯曲度感应灵敏,能够识别的手势自由度要高于基于视觉的手势交互。但 是由于采用这种交互方式时用户必须带上麻烦的数据手套,和基于视觉的手 势交互相比,在交互的自然性上要大打折扣。基于表面的手势交互应用最广 泛的就是笔手势交互,这种交互方式在现实生活中随处可见,可以对笔手势 进行高效的识别。但是由于触摸设备的硬件原因,这种技术对于人手势的识 别往往不是那么有效。 1 2 2 视觉手势交互技术的优点 与人体其他部位的交互方式相比,手势的表达更加方便灵活,能够表示 更多的语义信息。 在v b i 中,输入的视觉信息按照来源的不同可分为手势、面部表情以及 目光等可视化信息,我们称之为视觉通道下的子通道( s u b m o d a l ) ,例如手 势通道、面部表情通道、目光通道等。这些子通道可以作为输入通道单独存 在,也可以与其他子通道结合为更复杂的视觉通道,例如表情通道和体姿 ( b o d yg e s t u r e ) 通道进行结合。在常用的视觉通道中,头部信息通道、脸部 面部表情通道、目光通道和手势通道是最长用的几种子通道形式。 头部信息通道用于头部交互技术【8 】。这种交互方式的优点是用于交互的 目标较大,交互过程简单,系统开发的难度低。这种系统可以用于残疾用户 和计算机的交互。但是它的缺点也是显而易见的,头部的可用信息很少( 常 用的如位置信息和倾斜角信息等) ,语义表达范围有限;目标过大,交互范围 有限;头部的运动不方便,交互频度有限。 脸部面部表情通道可用于人脸跟踪或表情识别【9 - ,o 】。在实际应用中,表 情识别更为常见。如现在的微笑相机,这种相机可以自动识别人脸表情,当 检测到人脸处于微笑状态时才触发拍照按钮。这种交互方式充分利用了人脸 的特征信息,但这也对硬件设备提出了较高的要求,而且面部表情特征的提 取具有很大的不稳定性,可以用于交互的状态非常有限。 目光通道用于人眼的交互过程中】。使用这种交互技术,用户必须在眼 睛前方戴上用于捕获眼球运动信息的高清摄像头。这使得交互过程很不自然, 而且,通过眼球的不断运动进行交互对于用户来说应该是一件很累的事。 尽管在基于v b i 的交互中存在着以上多种交互途径,但手势却是最容易 被采用的方式f 1 2 】。这是由人的行为习惯以及手势本身的特点所决定的。人手 西南科技大学硕士研究生学位论文第8 页 的结构是非常复杂的,由于具有非常多而小的关节,手的灵活性相当高一一 足有2 7 个自由度,所以它所能表达的信息也就多种多样。与人体其他部位的 语义表达相比较,手势具有更强、更灵活的语义表达能力。利用手完成操作 动作,例如指点、抓取、旋转等对虚拟对象进行控制的动作,都比鼠标键盘 或其他交互方式要方便快捷很多。 手势通道作为一种应用较为广泛的输入通道,对其交互技术的研究是非 常具有现实意义的。随着计算机的发展,基于单目视觉的手势交互技术越来 越受到研究者的重视,甚至出现了商品化的研究成果,如东芝的q o s m i og 5 5 笔记本便携带了手势识别功能。用户可以通过简单的静态或动态手控制计算 机的虚拟对象( 如播放器的播放等) 。本文的主要研究内容也是围绕着单目视 觉下的手势交互技术而展开的。 1 3 本文所做的工作 在前人研究的基础上,本文就单目视觉手势交互技术及应用做了一些尝 试性的研究工作,主要内容如下: ( 1 )在手势分割方面:采用了一种基于贝叶斯理论的肤色分割方法, 这种方法在h s v 空间的h s 空间对肤色进行建模。在很大程度上减 小了光照条件对肤色分割的影响。 ( 2 )在变形手势跟踪方面:为了解决复杂背景下( 如有肤色干扰的背 景) 的变形手势跟踪问题,研究了现存的大量跟踪算法。提出了 一个基于均值移动和k a l m a n 滤波器的变形手势跟踪框架。 ( 3 )在跟踪自动初始化方面:同时讨论了跟踪开始以及跟踪失效时的 初始化解决方案。提出了一种变形手势跟踪过程中自动初始化的 层次模型并基于该模型提出了一种有效的系统状态检测方法。 ( 4 )研究了现存的典型形状匹配算法,并对这些算法进行了分类和比 较。这对后续的研究有着重要的意义。 ( 5 )在静态手势识别研究方面:基于快速原型系统开发的背景提出了 一种基于p g h ( 成对几何直方图) 的静态手势识别方法。并在其 基础上采用一种基于肤色统计的辅助算法进行改进,形成一种基 于少量手势模板的高效静态手势识别方法。 ( 6 )研究了现存的一些典型原型系统,分析了这些系统的交互机制和 优缺点。 西南科技大学硕士研究生学位论文第9 页 ( 7 )在系统应用方面:基于以上研究开发了一个视觉手势工具箱 i e t o o l k i t ,这是一个屏蔽了计算机视觉底层技术的快速原型系 统。在交互应用方面提供了高层语义映射,实现了与互动游戏界 面的较好集成。并基于该工具箱开发了一些互动娱乐系统。 1 4 本文的组织结构 第一章是全文的综述,首先介绍本文的研究背景和动机以及视觉交互技 术当前所面临的一些挑战;然后介绍了手势交互技术的定义及分类,并充分 探讨了手势交互的优点。 第二章分两个层面对基于视觉的手势交互进行了综述。首先2 2 节介绍 了视觉手势交互的特点;2 3 节从视觉手势交互的技术层面和应用层面介绍 了视觉手势交互的发展现状、典型系统,并分析了该领域存在的一些问题; 2 4 节介绍了基于视觉的手势交互目前所面临的挑战;基于以上的研究,2 5 节给出了本文的研究框架。 第三章讨论变形手势跟踪,3 2 节介绍了一种基于贝叶斯决策的肤色分割 算法;3 3 节详述了本文提出的基于均值移动和k a l m a n 滤波的变形手势跟踪 框架和跟踪细节,并对跟踪结果进行了评估;3 4 针对跟踪过程的初始化问 题详述了本文提出的跟踪初始化方法。包括系统状态的实时检测以及一个用 于自动初始化的层次模型。 第四章主要研究了静态手势识别方法,4 2 节介绍了本文提出的静态手势 识别算法在形状匹配方面的相关研究。介绍了形状匹配方法的分类并对常用 的匹配方法进行了比较,并详述了静态手势的p g h 编码法;4 3 节提出了一 种基于p g h 的静态手势识别算法以及一种基于肤色统计的静态手势识别辅 助算法;4 4 节对本文静态手势识别算法的识别结果进行了评估。 第五章主要介绍了一个我们开发的基于视觉的手势开发工具箱i e t o o l k i t 以及一些系统应用实例。5 2 节介绍了快速原型系统,分析了它的特点,介 绍工二些典型丕统;5 :三莹企绍工l 基旦q ! 堑! 的遮让耳拯:生丕结构,昼画厦 西南科技大学硕士研究生学位论文第1 0 页 馈机制以及基于i e t o o l k i t 的系统开发过程;5 4 节介绍了一些基于i e t o o l k i t 工具箱的互动娱乐应用实例。 第六章是结论部分,首先总结本文在基于单目视觉的手势交互方面所做 的工作,然后分析了下一步的工作思路和研究方向。 西南科技大学硕士研究生学位论文第1 1 页 2 视觉手势交互研究综述 本文研究的主要是视觉手势交互的交互技术和交互应用两个方面,所以 本章从这两个方面讨论基于视觉的手势交互问题。 2 1 节介绍安排这一章内容的目的和意义;2 2 节简单介绍了视觉手势交 互技术的特点;2 3 节介绍当前基于视觉的手势交互技术的发展现状,包括 手势分割技术、手势跟踪技术、跟踪自动初始化技术以及静态手势识别技术。 同时还介绍了目前存在的一些典型视觉手势交互系统,以及这些系统存在的 一些问题。针对以上的讨论,2 4 节讨论了目前视觉手势交互技术面临的挑 战;2 5 节给出了本文的研究框架。 2 1 引言 近年来随着计算机技术的迅速发展,用户对人机交互要求也越来越高。 传统g u i 下的基于鼠标键盘的交互方式已不能满足人们的需求。为此,需要 寻求一种更友好的人机交互手段,手势交互技术应运而生。在人机交互方面, 它为使用者提供了虚拟环境之间进行自然交互的手段,这是人们最渴望的人 机接口技术。 手势交互作为视觉交互技术中新兴的研究领域正吸引着国内外的许多 研究学者。其中也涌现出许多优秀的技术理论和典型的交互系统。但是手势 交互领域也面临着许多挑战,想让其广泛应用于人类社会还需要我们继续努 力。了解视觉手势交互技术的现状,认识视觉手势交互面临的困难,对于指 导我们的研究有着深远的意义。 2 2 视觉手势交互的特点 文献【4 4 】指出,“v b ii n c o r p o r a t i n gg e s t u r er e c o g n i t i o nr e p r e s e n tp e r h a p s t h em o s tn a t u r a le v o l u t i o no fc u r r e n tg u i s ”。在我们的同常人人交流过程中, 使用手势能够使我们更好地表达我们的思想,从而有助于交流。在人机交互 中利用视觉手势可以有效地完成以下任务1 4 3 1 : ( 1 ) 代替鼠标完成指点和勾画任务; ( 2 ) 虚拟环境中漫游以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西省中小学教师招聘考试小学数学学科专业知识考试大纲(2022年版)
- 七年级语文楚才杯获奖作文家在长江新城3
- 网络销售电商行业供应链规划方案
- 网络行业网络数据安全与隐私保护方案
- 网络营销策划与执行服务合同
- 网络直播平台版权交易合同
- 移动通信行业基站维护与升级技术方案
- 环保行业工业废弃物处理与资源综合利用方案
- 物流企业供应链管理系统优化合同
- 智能招聘管理系统开发服务合同
- 关爱青少年心理健康 课件(共18张ppt) 心理健康
- 放射科技能考核评分表
- isae3402如何做--dmla访问控制
- 部编版三年级语文(上册)标点符号专项训练题(含答案)
- 《劳动关系协调员》教学计划及教学大纲
- 中国历史文化名城-南京课件
- 城市桥梁安全性评估规程DB50-T 273-2021
- 《人物的千姿百态》初中美术教学课件
- 渗透现象-课件完整版
- 水利工程单位工程外观质量评定标准报备
- 空白教案模板(表格形式-已排版)
评论
0/150
提交评论