




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)基于单目视觉的静态手势交互技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于单目视觉的静态手势交互技术研究 摘要 普适计算( p e r v a s i v ec o m p u t i n g ) 时代的交互手段将是多种多样的,基于视觉 的手势交互l ( v i s i o n b a s e dg e s t u r ei n t e r a c t i o n ) 是其中不可或缺的一项关键技术。手 势本身具有多样性、多义性、以及时间和空问上的差异性等特点,人手是复杂的 变形体,视觉本身具有不适定性,尤其交互语义需要综合考虑手势识别结果、上 下文信息和具体的交互任务特点来确定,因此基于视觉的手势交互是一个极富挑 战性的多学科交叉研究课题。基于单目视觉的静态手势交互技术( i n t e r a c t i o n t e c h n o l o g yu s i n gs t a t i cg e s t u r eb a s e do ns i n g l ec a m e r a ) 是基于视觉的手势交互 技术中最基础的部分,其研究对研究其他各种手势交互技术都具有一定的指导意 义。 总结了基于视觉的手势交互技术的四层体系结构:手势分割( g e s t u r e s e g m e n t a t i o n ) 、手势表示( g e s t u r er e p r e s e n t a t i o n ) 、手势识另1 ( g e s t u r er e c o g n i t i o n ) 、 交互应用( i n t e r a c t i o n a p p l i c a t i o n ) 。并提出了实现各层功能的技术方案。 1 分割层:使用模糊集合( f u z z ys e t ) 来描述视频流时域和空域上的背景、 运动、肤色信息,然后使用模糊形态学算子( f u z z ym o r p h o l o g yo p e r a t o r ) 对这些信息进行加工处理,分割出人手。 2 表示层:从低到高逐次分析手势图像金字塔( h a n di m a g ep y r a m i d ) 中各分 辨率的图像,以获取手势的整体和局部结构特征。将该过程形象化地描 述成手势图像的染色过程。然后使用标记图等方法实现了手势的数字化 描述。 3 识别层:使用手掌和各手指的中心点的坐标、手势方向和可见的手指个 数来表示一个2 d 手势,称为平面结构模型。利用该模型实现了手势识 别。 4 交互层:设计了一种用于2 d 桌面交互应用的交互技术,定义了四条语 义规则,利用它们和各种交互任务含有的潜规则,实现2 d 桌面应用里 的选择、平移、旋转、状态转换功能。 设计并实现了一个利用静态手势进行交互的演示系统。该系统采用四层体系 结构设计,以及模糊手势分割、染色处理和平面结构模型等技术,实现了2 d 平 面里的选择、平移、旋转、状态转换功能。 文中提出的各种算法,实现了基于单目视觉的静态手势交互,算法简单直观, 运算量也不大,能够较好地描述出手势特征。试验结果表明:能够实现丰富的交 互功能,手势丢失现象较少。 基于单目桃觉的静态手势交互技术i j 究 关键词:手势交互,手势分割,手势表示,模糊集合论,数学形态学,图像 金字塔。 i i r e s e a r c ho ni n t e r a c t i o nt e c h n o l o g i e su s i n gs t a t i cg e s t u r e b a s e do ns i n g l ec a m e r a z h u j i y u ( c o m p u t e ra p p l i e dt e c h n o l o g y ) d i r e c t e db yd a ig u o z h o n g a b s t r a c t t h e r ew i l lb e m a n y i n t e r a c t i o n s t y l e s i n p e r v a s i v ec o m p u t i n ge r a ,a n d v i s i o n b a s e dg e s t u r ei n t e r a c t i o nw i l lb eo n eo ft h em o s ti m p o r t a n ti n t e r a c t i o n t e c h n o l o g i e s v i s i o n b a s e d g e s t u r ei n t e r a c t i o ni sa u e x t r e m e l yc h a l l e n g i n g i n t e r d i s c i p l i n a r yp r o j e c td u et of o l l o w i n gt h r e er e a s o n s :( 1 ) h a n dg e s t u r e sa r er i c hi n d i v e r s i t i e s ,m u l t i m e a n i n g s ,a n ds p a c e t i m ev a r i e t i e s ;( 2 ) h u m a nh a n di sac o m p l e x n o n r i g i do b j e c t ;( 3 ) c o m p u t e rv i s i o ni t s e l fi sa ni l l p o s ep r o b l e m ;( 4 ) e s p e c i a l l yt h e i n t e r a c t i v ea c t i o ni sd e c i d e db yt h eg e s t u r er e c o g n i t i o n ,t h ec o n t e x to ft h ei n t e r a c t i o n s y s t e ma n dt h ec h a r a c t e r i s t i c so ft h ei n t e r a c t i o nt a s k s i n t e r a c t i o nt e c h n o l o g yu s i n g s t a t i c g e s t u r eb a s e do ns i n g l ec a m e r ai s t h ef o u n d a t i o no fv i s i o n b a s e dg e s t u r e i n t e r a c t i o nt e c h n o l o g y , a n dt h er e s e a r c ho nt h i sf i e l dc a nb eg u i d a n c eo no t h e rg e s t u r e i n t e r a c t i o nt e c h n o l o g i e st os a m ed e g r e e a f o u r - l a y e rs y s t e ms t r u c t u r eo fv i s i o n b a s e dg e s t u r ei n t e r a c t i o nt e c h n o l o g yi s p r e s e n t e d ,i n c l u d i n gg e s t u r es e g m e n t a t i o n ,g e s t u r er e p r e s e n t a t i o n ,g e s t u r er e c o g n i t i o n , a n di n t e r a c t i o na p p l i c a t i o n a n ds e v e r a lt e c h n o l o g i e st of u l f i l lt h ef u n c t i o n so fa l lt h e l a y e r sh a v e b e e np u tf o r w a r d 1 s e g m e n t a t i o nl a y e r :t h eb a c k g r o u n d ,m o t i o n ,a n dc o l o ri n f o r m a t i o no ft h e v i d e oa r ed e s c r i b e db yf u z z ys e t s ,a n da r ep r o c e s s e dw i t hf u z z ym o r p h o l o g y o p e r a t o r s ,a n dt h e nt h eh a n di ss e g m e n t e dh o m t h e e n v i r o n m e n t 2 r e p r e s e n t a t i o nl a y e r :b e c a u s ed i f f e r e n tp a r t so ft h eh a n dh a v ed i f f e r e n t s i z e s ,s oi m a g ep y r a m i di su s e dt oa n a l y s i st h eh a n di m a g e st oo b t a i nt h e g l o b ea n dl o c a lc h a r a c t e r i s t i c so ft h eg e s t u r e t h i sp r o c e s si sv i s u a l i z e da sa c o l o r i n gp r o c e s s t h e nt h eh a n di sd e s c r i b e da sad i g i t a lg e s t u r eu s i n gs i g n g r a p ha n do t h e rm e t h o d s 3 r e c o g n i t i o nl a y e r :a2 dg e s t u r ei sd e s c r i b e dw i t ht h ec e n t e rc o o r d i n a t e so f p a l ma n df i n g e r s ,t h eg e s t u r eo r i e n t a t i o na n dt h en u m b e ro ft h ef i n g e r s t h i s i sc a l l e dp l a n es t r u c t u r em o d e l ,a n dt h eg e s t u r ei sr e c o g n i z e du s i n gi t 4 i n t e r a c t i o nl a y e r :a ni n t e r a c t i o nt e c h n o l o g yu s e di n2 dd e s k t o pi n t e r a c t i o n i n 挂于单目视觉的静态于势交互技术研究 a p p l i c a t i o ni sd e s i g n e d s e l e c t i o n ,m o v e ,r o t a t i o n ,a n ds t a t ec h a n g i n g c a nb e f u l f i l l e dw i t ht h i st e c h n o l o g y ,a ni n t e r a c t i o na p p l i c a t i o nd e m ou s i n gs t a t i cg e s t u r ei sd e s i g n e da n dd e v e l o p e d t h i sd e m oi sd e s i g n e dw i t hf o u r - l a y e rs y s t e ms t r u c t u r e ,f u z z yg e s t u r es e g m e n t a t i o n , c o l o ra n a l y s i s ,a n dp l a n es t r u c t u r em o d e l o b j e e l sc a nb es e l e c t e d ,m o v e d ,r o t a t e d , a n dc h a n g e di t ss t a t e sb yg e s t u r e si nt h i sd e m o w i t ht h ea l g o r i t h m sp r e s e n t e di n t h i st h e s i s ,h u m a nc a ni n t e r a c tw i t hc o m p u t e r u s i n gg e s t u r eb a s e do nas i n g l ec a m e r a t h e s ea l g o r i t h m sa r ee a s yt ou n d e r s t a n d ,a n d d o n tn e e dal a r g em a s so fc o m p u t i n g s h o w e di ne x p e r i m e n t s ,ap l e n t yo fi n t e r a c t i o n f u n c t i o n sc a nb ef u l f i l l e d k e y w o r d s :g e s t u r ei n t e r a c t i o n ,g e s t u r es e g m e n t a t i o n ;g e s t u r er e p r e s e n t a t i o n , f u z z y s e tt h e o r y ;m a t h e m a t i c a lm o r p h o l o g y ;g r a p hp y r a m i d 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特另t i ) j h 以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明。 签名:盗坦 日期:2 1 埤翅 坦: 关于论文使用授权的说明 本人完全了解中国科学院软件研究所有关保留、使用学位论文的 规定,即:中国科学院软件研究所有权保留送交论文的复印件,允许 论文被查阅和借阅;中国科学院软件研究所可以公布论文的全部或部 分内容,可以采用影印、缩印或其它复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 繇一翩虢触嗍一 第一章绪论 第一章绪论 计算机的发展历史,不仅是处理器速度、存储器容量飞速提高的历史,也是 不断改善人机交互( h u m a n c o m p u t e ri n t e r a c t i o n ,h c i ) 技术的历史。人机交互技 术,如鼠标、窗口系统、浏览器等,已对计算机的发展产生了巨大的影响,而且 还将继续影响全人类的生活。 目前,计算机的硬件性能己经不是制约计算机的应用和发展的主要障碍。随 着计算技术的飞速发展和计算机应用领域的不断扩大,人们对于人机交互设备和 系统的环境适应性、交互的自然和谐与高效性的要求和期望越来越高,从而推动 着交互技术( i n t e r a c t i o nt e c h n o l o g y r ) 和用户界面( u s e ri n t e r f a c e ,u i ) 的不断发 展。人机界面正在从图形用户界面( g r a p hu s e ri n t e r f a c e ,g u i ) 一统天下的时代 向多种表现形式、自然、高效、多通道的p o s t w l m p ( w i n d o w s ,i c o n s ,m e n u sa n d a p o i n t i n gd e v i c e ,w i m p ) 界面 d a m1 9 9 7 时代过渡。 p o s t w i m p 界面时代的交互手段将是多种多样的,除了键盘、鼠标等现有设 备外,还包括笔、语音、手势等自然的交互方式。手势是一种自然而直观的人际 交流模式。基于视觉的手势交t i ( v i s i o n b a s e dg e s t u r ei n t e r a c t i o n ) 是新一代人机交 互技术家族中不可或缺的一项关键技术,它将会促使基于摄像机的用户界面 ( c a m e r ab a s e du s e ri n t e r f a c e ,c b u i ) 的发展。然而,由于手势本身具有的多样性、 多义性、以及时间和空间上的差异性等特点,加之人手是复杂变形体及视觉本身 的不适定性,因此基于视觉的手势交互是_ 个极富挑战性的多学科交叉研究课 题。 基于单目视觉的静态手势交互技术( i n t e r a c t i o nt e c h n o l o g yu s i n gs t a t i c g e s t u r eb a s e do ns i n g l ec a m e r a ) 是基于视觉的手势交互技术中最基础的一部分, 其研究对研究其他各种手势交互技术都具有一定的参考意义。本文是对作者在基 于单目视觉的静态手势交互领域中所做研究工作的总结,主要研究内容包括手势 分割( g e s t u r es e g m e n t a t i o n ) 和手势表示( g e s t u r er e p r e s e n t a t i o n ) ,同时也涉及 到在手势建模( g e s t u r em o d e l i n g ) 和识别( g e s t u r er e c o g n i t i o n ) 方面的一些思 考,并完成了一个基于2 d 桌面交互应用( 2 dd e s k t o pi n t e r a c t i o n a p p l i c a t i o n ) 的 手势交互演示系统。 堆十甲目视觉的静态手势交互技术研究 1 1 研究背景 1 1 1 人机交互技术是计算机应用的重要阻碍 现代计算机用户对于专业的交互组件都已经非常熟悉了,包括鼠标和键盘这 样的输入设备,显示器终端这样的输出设备,点击一拖拽这样的交互技术,以及 下拉式菜单这样的交互器具,和基于桌面的隐喻手法。 这些交互组件,对于新的计算机环境和现如今不完善的应用软件来醴常常是 不适当的。例如,一个便携式汁算机用户走在街上的时候使用键盘是不切实际的。 一个虚拟现实( v i r t u a lr e a l i t y , v r ) 的应用程序可以允许用户在3 d 空间的任意位 置摆放物体,可以从任意的角度来观看使用2 d 鼠标实现这样的任务是不适 当的。在聋哑人与计算机之间,键盘、鼠标就不能使他们达到交互的目的,而对 于盲人来说,利用现有的交互方式,就更难以使用计算机了。 另一方面,计算机的芯片仍按m o o r e 定律发展,即计算机的运算速度、存 储能力、以至整体计算能力一直在成倍翻新。计算机在提高硬件性能的同时,并 没有提高它的认知能力,而人的认知能力( 包括记忆、理解能力) 是不随时间成 倍增长的,那么人和计算机的交互就会存在严重的不平衡。这就会使人在交互过 程中的认知负荷不断增加,从而限制了计算机应用的发展。针对m o o r e 定律的 挑战,我们必须使用某些手段或工具来扩展计算机的认知能力,减轻人在交互应 用中的认知负荷。人机交互( h c i ) 技术从本质上讲是为了提高计算机的认知能 力,减轻人的认知负荷,增强人类利用感觉通道和动作通道同计算机进行交互的 能力。 因此,这些新的系统需要一种新的交互界面:新的设备、新的技术、新的隐 喻手法。这就对我们研究新的交互技术提出了客观需要。 1 1 2 以用户为中心的交互方式 计算模式在2 0 世纪8 0 年代经历了从主机计算( m a i n f r a m ec o m p u t i n g ) 至1 桌面 计算( d e s k t o pc o m p u t i n g ) 的革新,极大地推动了计算机技术和产业的发展。但是 桌面计算的交互理念同时也给用户造成了诸多限制,使计算机仍然难以真正融入 人们的工作和生活。这是当前计算机产业和应用领域进一步发展的主要障碍f 徐 光祜2 0 0 3 1 。因此,计算技术进一步发展迫切需要全新的计算模式,这就是“普 适计算”( p e r v a s i v e c o m p u t i n g ) 【w e i s e r l 9 9 1 】【徐光祜2 0 0 3 1 和“无所不在的计算” ( u b i q u i t o u s c o m p u t i n g ) 。它们的目标是使计算设备和技术“消失”在用户的日常 生活和工作当中,保证用户在得到计算服务的同时无需觉察到计算机的存在和为 此而分心,从而使其注意力回归到要完成的任务上来。 在普适计算的计算模式下,传统的以机器为中心的交互方式( c o m p u t e r 2 笫一章绪论 c e n t e r e di n t e r a c t i o n ) 将得到改变,计算机的使用将越来越人性化,虽然当前的 图形用户界面( g u i ) 在某些办公室应用中仍然存在,并将得到加强,但它已经 不再是一统天下的交互界面,未来的交互方式将是以用户为中心的交互方式 ( u s e r - c e n t e r e di n t e r a c t i o n ) ,计算机和交互界面都将在人们的应用体验中消失。 这种看不见的交互界面需要使用多种交互方式,语音交互、笔式交互、行为 理解等概念都被提了出来,新的智能化人机交互界面成为目前计算机相关学科中 的一个热点。 1 1 3 行为理解和c b u l 人的行为和动作,是人际之间自然的交互方式,如果计算机能够感知识别这 些行为和动作,那么我们就可以像和人交互那样和计算机自然方便地进行交互。 行为理解( a c t i o nu n d e r s t a n d i n g ) 就是让计算机能够理解日常生活中的人的行为 动作,并使人能够直接利用行为与计算机进行交互的技术。比如,将来我们翻一 下手,计算机大屏幕上的文件就可以自动翻过一页:我们做个举手抬头喝水的动 作,机器人将给我们送来一杯水:我们对计算机笑一笑,计算机就能理解我们的 快乐。这无疑将会“给人机交互带来一场革命”。 为了让计算机能够感知人的行为动作,一种是侵入式的主动方法,就是在人 的身上放置很多传感器,利用这些传感器传回的数据来判断理解人的行为。比如, 为了获得人手的精确动作,戴上数据手套,并加上感知手的空间位置的传感器。 但是,这种主动感知方式因为它的侵犯性和不易操作以及代价昂贵,很难在实际 应用中使用。另一种方法是非侵入式的被动方式,主要是基于视觉的行为理解, 即通过视频采集设备拍摄人的行为序列,然后采用计算机视觉技术来分析理解人 的行为。这种基于视觉的被动感知方式就是基于视觉的用户交互,简称c b u i ( c a m e r a b a s e du s e ri n t e r a c t i o n ) ,具有非侵犯性、代价小,方便使用等优点。 计算机能够“看”“瞳”人的行为动作,将使自然、直观、方便、快捷的人 机交互成为可能。 1 1 4 使用手势的优点 手势是人们的一种重要的交流行为,是人与人之问的一种非口头交流形式, 它包括从用手指示方向和移动物体的简单动作到能够表达感情以及允许我们彼 此交流的复杂手势。它既可以伴随口语一起使用又可以单独作为表达媒体。人们 从孩提时代就获得了使用手势的技巧。婴儿在他们使用语言、文字之前就能够用 手势表达意愿。他们通过用手搬动或触摸物体来操作或探索所处的环境,而且使 用手势的技能随着年龄的增长而提高。 考虑到人们拥有做手势的大量经验知识,如果人们能够把这些技能从日常的 经验中转换过来并用在人机交互方面,那么我们就可以期盼直观的、操作简便的、 3 拈于译h 视觉的静态下势交互技术1 i j 究 并且功能强大的人机接口。比如,人们对机器人摆摆手,机器人就能够知道人们 在召唤它。因而,如何实现基于视觉的手势交互,近年来f 逐渐成为一个研究热 点。 1 2 手势交互技术简介 1 2 1 - 人机交互技术 人机交互c h l ( c o m p u t e rh u m a ni n t e r a c t i o n ) ,国际上也称h c i ( h u m a n c o m p u t e ri n t e r a c t i o n ) 是一门跨学科的研究,它的研究内容很广,包括心理学领域 的认知科学、心理学;软件工程领域的系统构架技术:信息处理领域的语音处理 技术和图像处理技术;人工智能领域的智能控制技术等。 总的来说,人机交互本质上是认知过程,人机交互理沦是以认知科学为理论 基础;人机交互系统是一个闭环系统,人机交互研究是以系统科学作为人机交互 研究的框架的方法学;同时,人机交互是以信息技术作为用户界面的技术基础, 通过信息系统的建模、形式化描述、整合算法、评估方法以及软件框架等信息技 术最终实现和应用人机交互理论。 用户界面( u i ) 是人与计算机之间传递、交换信息的媒介和对话接口,是计 算机系统的重要组成部分。人机交互和用户界面有紧密的联系,但又是两个不同 的概念:前者强调的是技术和模型,后者是计算机的关键组成部分。也可以说, 人机交互是人与计算机交互的一个过程,而用户界面是一种体系结构。 人机交互的发展历史,是从人适应计算机到计算机不断地适应人的发展史。 它经历了早期的手工作业、作业控制语言及交互命令语言、图形用户界面( g u i ) 、 网络用户界面和多通道、多媒体的智能人机交互等阶段。 以虚拟现实为代表的计算机系统的拟人化和以手持电脑、智能手机为代表的 计算机的微型化、随身化、嵌入化,是当前计算机的两个重要的发展趋势,而以 鼠标和键盘为代表的w l m p ( w i n d o w s ,i c o n s ,m e n u s ,a n dap o i n t i n gd e v i c e ) 技术是 影响它们发展的瓶颈。利用人的多种感觉通道和动作通道( 如语音、手写、姿势、 视线、表情等输入) ,以并行、非精确的方式与计算环境( 可见或不可见的) 进 行交互,可以提高人机交互的自然性和高效性,减轻人的认知负荷。多通道、多 媒体的智能人机交互对我们既是一个挑战,也是一个极好的机遇。 1 2 2 手势交互技术的分类 利用手的姿势、位置、方向和运动来与计算机进行交互,是一种自然高效的 交互方式,是一种只需用户的手就能实现同计算机交互的强有力的方法。手势可 以分为静态手势( s t a t i cg e s t u r e ) 和动态手势( d y n a m i cg e s t u r e ) 两类。静态手 4 笫一章绪论 势是指手的一个外形,也叫手形( p o s t u r e ) ,而动态手势是指手的一个动态变化 有时简称为手势。将手指摆成“v ”字形( “和平”标志) 是一种典型的手形, 而挥挥手( 表示再见或者致意,根据语境决定) 是一个典型的动态手势。 避蔑 图1 1 :数据手套( 来自文 献 l a v i o l a1 9 9 9 1 1 图1 2 :基于视觉的手势交互系统f 来 自文献【b u c h m a n n2 0 0 4 】) 手势交互技术和输入设备有密切的联系,根据输入信息方式的不同,可以分 为三类: 基于表面的手势交互( s u r f a c e b a s e dg e s t u r ei n t e r a c t i o n ) 显示屏、触摸屏或者其他的平面表面可以用来识别手势 r e k i m o t o2 0 0 2 。通 常,一个类似笔的设备可以用来在平面表面上产生手势。这里的手势并不指整个 手的姿势,而是指通过笔画构成的。 基于手套的手势交互( g l o v e b a s e dg e s t u r ei n t e r a c t i o n ) 从数据手套中获得原始数据,根据一定的算法进行分析,利用分析结果进行 交互应用。手可以被用作按钮、计算器、定位器或拾取设备f z i m m e m a n 1 9 8 7 s t u r m a n1 9 8 9 1 。掐捏手套也可以用来捕获一些有限的手形,而数据手套通 过使用关节角测量提供手形和手势。 基于视觉的手势交互( v i s i o n b a s e dg e s t u r ei n t e r a c t i o n ) 使用一台或多台摄像机来捕获手或手指的姿势、运动序列图像,通过计算机 视觉算法来识别出特定的手形和手势 s t a m e r1 9 9 8 1 。它是c b u i 的一个典型实例。 图1 3 :手势交互技术的分类 虽然基于手套的手势交互系统能非常容易的获得精确的手势信息,识别率和 准确性都比较高,但它需要使用者佩戴复杂的设备,给使用者带来不便,泪比而 撼于甲日视觉的静态于势交互技术1 i j | _ 究 言,基于视觉的手势交互系统更加方便自然。 基于视觉的手势交互技术根据使用的摄像机个数和识别的手势种类的不同, 还可以分为三类,如图1 3 所示。本文的研究内容主要是基于单目视觉的静态手 势交互技术,但在各章节的安排中,仍然涉及了其他种类的手势交互技术的一部 分内容。 静态手势( 也叫手形) 不仅可以用来表达某个概念,还可以作为动态手势的 中间转变状态,因此识别和评估静态手势,并不是一件微不足道的小事,它是手 势谚 别的一个重要课题。因此,研究基于静态手势的交互技术对于其他各种手势 交互技术的研究都有重要意义,它是手势交互技术的主要内容和基础。 1 2 3 基于视觉的手势交互技术面临的挑战 一种技术能够成功,能够得到广泛的应用,它必须找到一种“招人喜爱的应 用”。对于个人计算机来说,最初的“招人喜爱的应用”是电子表格,这使得复 杂的、令人讨厌的商业和计算机任务变得简单、自动可视化。i n t e m e t 在大多数 人知道它以前,已经存在了很长时间了,是万维网和w e b 浏览器才。使i n t e m e t 成为日常生活的一部分。而对于基于视觉的手势交互来说,什么是“招人喜爱的 应用”哪? 只有出现这种应用,基于视觉的手势交互才会走进大多数人的日常生 活。 如果用户界面在某种程度上没有标准化,很难想象计算机能够在普通人群中 推广开来。由于今天所有的个人计算机都使用w i m p 交互风格和桌面隐喻 ( d e s k t o pm e t a p h o r ) ,也由于所有应用都使用这些标准的界面元素,用户不需要 长时间的训练,甚至无须阅读手册便可以马上使用这些应用。目前笔式用户界面 的使用越来越广泛,这也得益于在笔式用户界面中,纸笔隐喻( p e n p a g e m e t a p h o r ) 和p i b g ( p a p e li c o n ,b u t t o n ,g e s t u r e ) 范式田丰2 0 0 4 正在变成一种 标准。 对于基于视觉的手势交互,是否也能提出一种标准用户界面哪? 在技术实现方面,由于手势本身具有多样性、多义性、差异性等特点,基于 视觉的手势交互正处于刚刚起步的阶段,因此面临着诸多挑战,包括手势分割、 手势模型、手势识别、交互应用等方面。 手势分割( g e s t u r es e g m e n t a t i o n ) 需要解决的主要问题是如何从视频序列图 像中将人手精确地分割出来。该领域还没有很好的解决方案,目前该问题主要有 两个解决思路,一是有限制的手势交互,包括限制背景、前景和限制交互动作, 限制背景就是限制在白色( 或其他颜色) 的“墙壁”前进行交互,限制前景通常 是戴上某种颜色的手套,或者在手上做标记,限制交互动作如限制手只能平行于 摄像机移动:二是无限制的手势交互,即对人手、环境光照条件等不做限制,手 也可以在摄像机能捕获的范围内自由移动。 第一章绪论 现有的手势模型( g e s t u r em o d e l ) 可以分为两大类:基于3 d 手( 臂) 模型 的手势模型和基于表观的手势模型。原理上,基于3 d 手( 臂) 模型的手势模型 适合于给所有手势建模,而基于表观的手势模型通常只适用于交流性手势。然而, 一方面,基于3 d 手( 臂) 模型的手势模型不仅模型参数多,计算复杂性高,而 且为抽取模型参数而使用的许多近似过程导致模型参数的估计很不可靠。 手势识别( g e s t u r er e c o g n i t i o n ) 就是把模型参数空问里的轨迹( 或点) 分 类到该空问里某个子集的过程,它包括静念手势识别和动态手势识别两类。由于 手势的复杂多变,以及用户做手势的速度变化非常大,导致手势识别的算法非常 复杂。成功的手势识别策略应该考虑手势的时问和空间上下文,即考虑手势的语 法规则。语法规则既要反映手势的语言特征,又要反映手势的空问特征。然而, 到目前为止只有很少数量的系统使用语法规则。 交互应用( i n t e r a c t i o na p p l i c a t i o n ) 需要使用某些规则根据识别结果驱动相 应的语义动作。如何将手势的识别结果、交互系统的上下文信息( 时问和空问上 下文) 、具体的交互任务特点以及其他通道的交互内容结合起来,选择驱动正确 的交互动作,是一个非常有挑战性的问题。 1 3 。本文所做的工作 如前所述,基于视觉的手势交互技术具有广阔的应用前景,计算技术的进一 步发展也迫切需要这样的自然和谐的交互方式。本文在吸收前人工作成果的基础 上,在基于单目视觉的静态手势交互技术方面做了一些有益的尝试和研究工作, 取得了一些可喜的研究成果。主要工作包括以下几个方面的内容: 1 总结了基于视觉的手势交互技术的四层体系结构 经过分析总结,得出了基于视觉的手势交互技术的四层体系结构:分割、表 示、识别、交互应用。每一层完成种基本功能,相互之间没有重合,各层之间 功能相对独立、结构相互隔离,一层发生改变时,其他各层可以保持功能、结构 的相对稳定。 2 提出了一种基于模糊集合论的手势分割算法 使用模糊集合( f u z z ys e t ) 的概念来描述视频流时域和空域上的不同信息, 使用模糊算子和模糊形态学算子对这些信息进行加工处理。在手势图像的视频序 列中,任何一种信息,都无法精确地描述手势,它们对手势的描述,实际上都是 一个模糊概念,如我们说人的肤色色调基本不变,人手和背景的明暗不相同等都 是模糊概念,所以,本文以模糊集合论为基础进行手势分割。该算法能实时处理 视频流,高效地分割手势。 3 提出了利用手势图像金字塔进行手势分析的方法 人手的不同部分在几何尺寸上具有较大变化,从低到高逐次分析手势图像金 7 幂于甲目视觉的静态于势交互技术研究 字塔中各种分辨率的图像,就可以获取手势的整体和局部结构特征。将利用手势 图像金字塔进行手势图像分析的过程形象化地描述成一个手势图像的染色过程, 该过程用一种形象易懂的方式,实现了手势的特征提取。 4 实现了平面手势的数字化描述 真j 下可以用于手势分类识别的应该是数字化手势( d i g i t a lg e s t u r e ) ,就是在 完成手势分割和染色处理后,还需要将结果用计算机易于处理的数字形式表示出 来。实现了手掌、手指的数字化,另外使用一种标记图方法实现了轮廓的数字化, 该方法与链码等方法相比,计算简单,形象直观,易于理解。 5 提出了一种手势的平面结构模型 手势的平面结构模型将人手划分成手掌、手指和轮廓三部分,使用手掌和各 手指的中心点的坐标、手势方向( 从手掌中心到所有手指的中心的方向) 和手指 的个数来表示一个2 d 手势。平面结构手势模型是一种简化的直板模型,但与直 板模型相比,算法简单、运算量小,且对手势分割精度的要求较低。 6 设计了用于2 d 桌面交互应用的交互语义规则 设计了一种用于2 d 桌面交互应用的交互技术,定义了四条语义规则,利用 它们和各种交互任务含有的潜规则,就可以实现2 d 桌面应用里的选择、平移、 旋转、状念转换功能。 7 设计和实现了一个基于静态手势交互的演示系统 设计和实现了一个利用基于单目视觉的静态手势进行交互的演示系统。该系 统采用四层体系结构进行设计,用模糊手势分割、手势染色处理和平面结构手势 模型等技术实现。它实现了2 d 桌面应用里的选择、平移、旋转、状态转换功能。 1 4 本文的组织结构 第一章是全文的综述,首先介绍本文的研究背景和动机;然后撇开具体的技 术细节,从总体上介绍手势交互技术的分类、现状、和面临的挑战;最后两节分 别介绍本文已做的工作和组织结构。 第二章从技术层面上讨论基于视觉的手势交互技术,2 1 节介绍安排这一章 内容的目的和意义;2 2 节介绍当前基于视觉的手势交互技术的发展现状,国内 外在这方面出现的原型或者应用系统,充分讨论该技术领域的特点,在此基础上, 抛弃传统的交互隐喻和交互范式的概念,提出该技术属于面向对象的交互理念, 并分析适于这种交互模式的计算环境;2 3 节提出一种应用于基于视觉的手势交 互技术实现的层次体系结构。 第三章讨论手势分割,3 1 节讨论目前常见的手势分割算法,以及国内外在 这方面的研究现状:3 2 和3 3 节分别介绍视频序列中各种信息的模糊表示法和 模糊形态学算子,模糊形态学算子是本章以数学形态学为基础提出的一种模糊集 8 第一章绪论 合的形态学处理方法;3 4 节首先介绍模糊手势分割算法中简单分割的数学表达 形式和基本算法流程,然后在此基础上提出了一些启发策略,得到了启发式分割 算法。 第四章主要研究手势的表示和描述方法,提出种手势染色处理的分析方法 来构造数字化手势。首先介绍当前常见的图像表示方法和描述子,以及图像处理 中的多分辨率分析理论,它是手势染色过程的理论基础:然后详细讲解了手势的 染色过程;最后讲述平面数字化手势,并讨论了生成立体数字化手势的一些想法。 第五章主要讲述手势建模和基于静态手势的交互技术,首先介绍了当前文献 中常见的手势模型、手势识别算法和交互任务的种类:然后讲述手势的平面结构 模型和一种基于2 d 桌面交互应用的手势交互算法,并简单讨论了交互语义定义 和可用性评估的问题。 第六章介绍手势交互演示系统,首先介绍了现有的手势交互应用领域和原型 系统;然后介绍手势交互演示系统,包括它的功能简介和交互语义定义、系统设 计和实现方法、试验结果等内容,该系统使用四层体系结构设计,完成了2 d 桌 面应用中的选择、平移、旋转、状态转换功能。 第七章是结论部分,首先总结本文在基于单目视觉的静态手势交互方面所做 的工作,然后分析了下一步的工作思路和研究方向。 9 第二章幕十视觉的手势交综述 第二章基于视觉的手势交互综述 尽管本文的研究内容是基于单目视觉的静态手势交互技术( i n t e r a c t i o n t e c h n o l o g yu s i n gs t a t i cg e s t u r eb a s e do ns i n g l ec a m e r a ) ,但它是基于视觉的手势 交互( v i s i o n b a s e dg e s t u r ei n t e r a c t i o n ) 的一个特例,所以本章从整体上讨论基 于视觉的手势交互技术。 2 1 节介绍安排这一章内容的目的和意义:2 2 节介绍当前基于视觉的手势交 互技术的发展现状,国内外在这方面出现的原型或者应用系统,充分讨论该技术 领域的特点,在此基础上,抛弃传统的交互隐喻和交互范式的概念,提出该技术 属于面向对象的交互理念,并分析适于这种交互模式的计算环境:2 3 节提出一 种应用于基于视觉的手势交互技术实现的层次体系结构。 2 1 引言 当前使用键盘、鼠标的主流交互界面采用桌面隐喻( d e s k t o pm e t a p h o r ) 和 w i m p 交互范式;笔式用户界面也正变得越来越普及,它通常采用的是纸笔隐喻 ( p e n p a p e rm e t a p h o r ) 和p i b g ( p a p e li c o n ,b u t t o n ,g e s t u r e ) 交互范式田丰 2 0 0 4 1 。基于视觉的手势交互是一种不同于鼠标和笔的全新的交互方式,显然, 无论是桌面隐喻和w l m p 范式,还是纸笔隐喻和p 1 b g 范式对于基于视觉的手势 交互来说,都是不适合的。基于视觉的手势交互技术还远没有成熟,没有出现一 种设计指导思想,也没有形成一套公认的交互理念,更没有什么东西可以称之为 标准。 交互理念是本章提出的一个新概念,它是一种指导思想,或者说是一种引导 设计交互技术的思路。它不是一个框架,也不是一种系统结构或实现范式,交互 理念的作用是从宏观上指导对交互技术的研究。 这里提出交互理念的初衷是为了从本质上描述基于视觉的手势交互的特点, 把握它与当前主流交互方式的区别。正如纸笔隐喻和p i b g 交互范式描述了笔式 交互的主要特点及和传统交互方式的区别。这些隐喻和范式对基于视觉的交互来 说并不适用。在研究基于视觉的手势交互的过程中,开始时我们不得不基于已有 的这些隐喻和范式来进行研究,在它们的基础上做些变形,但随着研究的不断深 入,提出一种为基于视觉的手势交互量身定做的交互理念是非常必要的。 目前主要的计算环境有桌面计算( d e s k t o pc o m p u t i n g ) 、纸笔计算( p e n p a p e r c o m p u t i n g ) 、虚拟现实( v r ) 、增强现实( a u g m e n t e dr e a l i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院行政人员工作计划
- 2025-2030中国防火防烟执行器行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国防水蓝牙扬声器行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国防弹玻璃行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国镇流器市场行情监测及发展趋势前景分析研究报告
- 2025-2030中国锚固连接器行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国银喷涂设备行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国铝型材行业深度调研及投资前景预测研究报告
- 2025-2030中国钐过滤器行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国都市休闲农业行业市场发展现状及发展前景与投资经营研究报告
- 小学语文整本阅读指导课《城南旧事》教学案例
- (机械创新设计论文)
- GB/T 39802-2021城镇供热保温材料技术条件
- GB/T 2792-2014胶粘带剥离强度的试验方法
- GB/T 21566-2008危险品爆炸品摩擦感度试验方法
- GB/T 215-2003煤中各种形态硫的测定方法
- GB/T 17492-2012工业用金属丝编织网技术要求和检验
- GB/T 17207-2012电子设备用固定电容器第18-1部分:空白详细规范表面安装固体(MnO2)电解质铝固定电容器评定水平EZ
- GB/T 16886.7-2001医疗器械生物学评价第7部分:环氧乙烷灭菌残留量
- 国开电大《人员招聘与培训实务》形考任务4国家开放大学试题答案
- 铁路职工政治理论应知应会题库
评论
0/150
提交评论