（计算机应用技术专业论文）人体行为识别方法的研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：77 大小：2.67MB 积分：0 举报 版权申诉

已阅读5页，还剩72页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要人体行为识别指对人体运动的模式进行分析和识别，是计算机视觉领域被广泛关注的研究热点。人体行为识别是人体运动分析的重要组成部分，属于高级视觉分析。它在智能监控、高级人机交互、视频会议、医疗诊断及基于内容的图像存储与检索等方面具有广泛的应用前景和潜在的经济价值。在人体行为识别中，为了描述人体运动的模式，采用运动历史图像的方法进行运动的表示。本文中的运动历史图像是从人体行为图像序列中提取出来的，是一种时空模型，既能表明行为发生的区域，又能表示行为是如何发生的，其中每个像素值都是运动历史的函数。基于h u 矩描述的信息冗余性，本文提出了基于z e r n i k e 矩的人体行为识别方法。利用图像的重建过程来确定分类时用到的z e r n i k e 矩的最高阶次。为了充分反映特征图像的局部信息，提出了基于w a v e l e t 矩的人体行为识别方法。根据特征的类间距离和类内距离来衡量特征的分类识别能力，选取最优的w a v e l e t 矩组。经规范化处理后，提取的矩特征对尺度、位移和旋转具有不变性。实验中，对不同的人体行为进行了测试，应用z e r n i k e 矩和w a v e l e t 矩特征的分类精度高于用规则矩和h u 矩作为特征的方法，从而证明了基于z e r n i k e 矩和w a v e l e t 矩的人体行为识别方法的有效性。为了能有效地处理运动遮挡问题，本文提出了基于运动光流特征的人体行为识别方法。采用基于图像的方法描述人体运动的模式。根据规范化特征图像中灰度的层次分布特点，搜索实际运动区域，从中提取出基于梯度的运动特征。在特征提取中加入多分辨率思想形成了分等级的特征提取方法。最后利用极坐标的运动方向直方图进行分类的匹配。对具有遮挡的人体行为序列进行了实验，都能得到有效的识别结果。本文介绍的两类人体行为识别方法，一种是全局的特征提取，一种是局部的运动分析，都能有效地应用到合适的运动分析场合。关键词：人体行为识别、运动历史图像、z e r n i k e 矩、w a v e l e t 矩、运动光流北京工业大学 _ 学硕士学位论文 a b s t r a c t h h m a na c t i o nr e c o g n i t i o ni st oa n a l y s i sa n dr e c o g n i z et h ep a t t e r no fh u m a n m o t i o mw h i c hi st h ew i d e l yi n t e r e s t e dr e s e a r c hf o c u si nc o m p u t e rv i s i o nf i e l d s h u m a na c t i o nr e c o g n i t i o ni st h ei m p o r t a n tc o m p o n e n to fh u m a nm o t i o na n a l y s i s ， b e l o n g i n gt oh i 曲v i s i o na n a l y s i s t h er e s e a r c hi nt h i sf i e l dh a sf o u n daw i d er a n g eo f a p p l i c a t i o n s a n dp o t e n t i a le c o n o m i cv a l u e s ，i n c l u d i n gi n t e l l i g e n ts u r v e i l l a n c e ， p e r c e p t u a li n t e r f a c e ，m o t i o na n a l y s i s ，v i r t u a lr e a l i t y ，i m a g em e m o r ya n ds e a r c ho nt h e b a s i so f t h ec o n t a n ta n de t c t or e p r e s e n tt h ep a t t e r no fh u m a nm o t i o n , t h em e t h o du s i n gm o t i o nh i s t o r y i m a g ei su s e di nh u m a na c t i o nr e c o g n i t i o nf i e l d s m o t i o nh i s t o r yi m a g ei se x t r a c t e d f r o mn o r m a l i z e di m a g es e q u e n c e so fh u m a nm o t i o n w h i c hj sas p a c e t e m p o r a l t 锄p l a t er e p r e s e n t i n gn o to n l yw h e r em o t i o nh a so c c u r r e di na ni m a g es e q u e n c e ，b u t a l s oh o wm o t i o ni sm o v i n g w h a t sm o r e m o t i o nh i s t o r yi m a g ei sas c a l a rv a l u e d i m a g ew h e r ei n t e n s i t yi sa f u n c t i o no f r e c e n c yo f m o t i o n a i m i n ga tt h er e d u n d a n c ei nh um o m e n td e s c r i p t i o n ，n e wm e t h o do f r e c o g n i t i o n o fh u m a na c t i o nu s i n gz e r n i k em o m e n t s b a s e df e a t u r e si si n t r o d u c e di n 廿1 ep a d e r a s y s t e m a t i cr e c o n s t r u c t i o n b a s e dm e t h o df o rd e c i d i n gt h eh i g h e s to r d e i o fm o m e n t s r e q u i r e di nae l a s s i f i c a t i o np r o b l e mi sd e v e l o p e d i no r d e rt oe m p h a s i z et h el o c a l i n f f ) r r n a t i o no ff e a t u r ei m a g e n e wm e t h o do fr e c o g n i t i o no fh u m a na c t i o nu s i n g w a y e l e tm o m e n t s - b a s e df e a t u r e si sp r o p o s e di nt h ep a d e l t oc h o o s eo p t i m i z e d m o m e n t s ，r e c o g n i t i o nc a p a b i l i t yo ft h ef e a t u r e si sw e i g h e da c c o r d i n gt od i s t a n c e w i t h i ne l a s s e sa n dd i s t a n c eb e t w e e nc l a s s e s a t i e rs t a n d a r d i z a t i o n ，t h em o m e n t f e a t u r e se x t r a c t e da r ei n v a r i a n tt os c a l e t r a n s l a t i o na n dr o t a t i o n i ne x p e r i m e n t s ，t 1 1 e s u p e r i o r i t yo fz e m i k em o m e n tf e a t u r e s a n dw a v e l e tm o m e n t sf e a t u r e sf o r t h e r e c o g n i t i o no f h u m a na c t i o no v e rr e g u l a rm o m e n t sa n dh um o m e n t si sv e r i f i e d i no r d e rt od e a lw i t ht h ep r o b l e mo fm o v e m e n ts h e l t e re f f e c t i v e l y t h em e t h o do f h u m a na c t i o nr e c o g n i t i o nb a s e dm o t i o nf l o wf e a t u r e si sp r o p o s e di nt h ep a p e r t l l i s m e t h o dc a na d d r e s sp r o b l e m sr e l a t e dt og l o b a la n a l y s i sa n dl i m i t e dr e c o g n i t i o n n l c m e t h o db a s e do nf e a t u r ei m a g ei su s e dt or e p r e s e n tt h ep a t t e r no fh u m a na c t i o n a c c o r d i n gt ot h eh i b e r a r c h yd i s t r i b u f i o nc h a r a c t e r i s t i co fg r e y l e v e l si nn o r n l a l i z e d f e a t u r ei m a g e m o t i o nf e a t u r e sb a s e dg r a d i e n ta r ee x t r a c t e df r o mi t i nf e a t u r e e x t r a c t i o n ，m u l t i r e s o l u t i o ni d e ai si o i n e dt o f o f i nah i e r a r c h i c a lm e t h o d t o c h a r a c t e r i z et h er e s u l t i n gm o t i o nf i e l d ，ap o l a rh i s t o g r a mo fm o t i o no r i e n t a t i o n si s d e s c r i b e d i n e x p e r i m e n t s ，h u m a n a c t i o ns e q u e n c e sa r e t e s t e da n de f f e c t i v e r e c o g n i t i o nr e s u l t sa r er e c e i v e d 1 1 1 em e t h o d sp r o p o s e di nt h ep a p e r , o n eo fw h i c hi st oe x t r a c tf e a t u r e si ng l o b a l a l l a l y s i s o n eo fw h i c hi sf o e l l s e do n1 0 c a lr e s e a r c h t h e yc a na 1 1u s e di na p p r o p r i a t e f i e l d so f m o t i o na n a l y s i s k e y w o r d s ：h u m a na c t i o nr e c o g n i t i o n ，m o t i o nh i s t o r yi m a g e ，z e r n i k em o m e n t ， w a v e l e tm o m e n tm o t i o nf l o w 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名关于论文使用授权的说明期：生堕：兰：三z 本人完全了解北京工业大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名：二茸垡牡导师签名：耋睡日期：垒坐第1 章绪论第1 章绪论 1 1 课题研究的目的和意义人类在推动社会进步的过程中，面临着自身能力、能量的局限性，因而发明和创造了许多机器来辅助或代替人类完成任务。智能机器人是最理想的形式，它能模拟人类的功能，能感知外部世界并有效地解决人需要解决的问题。因此，赋予智能机器人以人类视觉功能对发展智能机器人是极其重要的，是人类科学研究中所面临的最大挑战之一。如何让计算机自动甚至是主动地识别与判断外界信息已经成了当今计算机科学研究的重要课题，这样计算机就能主动地给人类提供各种有用的信息和服务。有数据表明，人类约7 5 的信息来自于视觉，这些信息也构成了人类感知和理解周围环境的基础。计算机视觉正是通过电子感知和理解图像来模拟人类的视觉功能，是研究用计算机来模拟生物宏观视觉功能的科学和技术。其中人体运动分析已经成为当今计算机视觉科学的一个很活跃领域。人体行为识别指对人体运动的模式进行分析和识别，是人体运动分析的重要组成部分，属于高级视觉分析。人体运动分析 t - 3 是近年来计算机视觉领域中备受关注的前沿方向，属于图像分析和理解的范畴。人体运动的视觉分析主要是针对包含人的运动图像序列进行分析处理，它通常涉及到运动检测、目标分类、人的跟踪及行为理解与描述几个过程，其一般性处理框架如图卜1 所示。图卜1 人体运动分析的一般处理框架 f i g u r ei - iag e n e r a lf r a m e w o r ko f h u m a nm o t i o na n a l y s i s 其中，运动检测、目标分类、人的跟踪属于视觉中的低级( l o w - l e v e ll 疗l s i o n ) 和中级处理部分( i n t e r m e d i a t e 1 e v e lv i s i o n ) ，而行为理解和描述则属于高级处理 ( h i g h l e v e lv 西i o n ) 。当然，它们之间也可能存在交叉( 比如跟踪过程中运动检测的使用) 。从技术角度而言，人体运动分析的研究内容相当丰富，主要涉及到北京二业大学工学硕士学位论文模式识别、图像处理、计算机视觉、人工智能等学科知识；同时，动态场景中运动的快速分割、人体的非刚性运动、人体自遮挡和目标之间互遮挡的处理等也为人的运动分析研究带来了一定的挑战。人体行为识别的研究具有广泛的应用前景，下面针对一些主要应用领域，对其典型应用做出介绍。 ( 1 ) 智能监控( i n t e j i g e n ts u r v e i l l a n c e ) = 动态场景视觉监控是计算机视觉领域一个新兴的应用方向。视觉监控区别于传统意义上的监控系统在于其智能性，它不仅用摄像机代替人眼，而且用计算机代替人、协助人，来完成监视或控制任务，从而减轻人的负担。智能监控系统需求主要来自那些对安全要求敏感的场合，如银行、商店、停车场、军事基地等【4 5 】。目前监控摄像机在商业应用中已经普遍存在，但并没有充分发挥其实时主动的监督作用，因为它们通常是将摄像机的输出结果记录下来，当异常情况( 如停车场中的车辆被盗) 发生后，保安人员才通过记录的结果观察发生的事实，但往往为时已晚。而我们需要的监控系统应该是实时地监视，并自动分析摄像机捕捉的图像数据，当盗窃发生或发现到具有异常行为的可疑人时，系统能向保卫人员准确及时地发出警报，从而避免犯罪的发生，同时也减少大量人力、物力和财力的投入。另外，人的运动分析在自动售货机、a t m 机、交通管理、公共场所行人的拥挤状态分析及商店中消费者流量统计等监控方面也有着相应的应用 8 。这项技术由于具有广泛的应用前景而受到重视。特别是“9 1 l ”事件后，人们反恐意识的不断提高，更使智能视觉监控显得e l 益迫切，世界各国纷纷将其列入重要研究计划。 ( 2 ) 感知接口( p e r c e p t u a li n t e r r a c e ) ：在高级用户接口应用领域中，我们希望未来的机器能像人一样与我们更加容易和便捷地交流，如行为驱动控制等。人与人之间的信息交流主要是依靠语言，并适当结合肢体行为和面部表情等，因此视觉信息可以作为语音和自然语言理解的有效补充来完成更加智能的人机交互。这就要求未来的计算机必须具备感知外部环境的能力，即代替传统的键盘或鼠标输入模式，独立地提取周围环境的重要 2 第1 章绪论信息( 如检测到人的存在等) ；更进一步的能力是进行人的识别和行为理解，结合面部表情、肢体语言等纠的分析来与人进行相应的交流。对于机场等高噪声的场合，基于视觉的高级用户接口能够提供比语音识别更加准确的信息输入。 ( 3 ) 运动分析( m o t i o na n a l y s i s ) ：在体育运动、舞蹈等训练中，通常我们关注于人体某部分的关节运动，这就需要进行人体运动分析，建立人体的几何模型、解释人体的运动行为机制，从而对于提高运动性能有着积极的推动作用。目前的医学步态分析【10 】是一个旨在提供诊断和治疗支持的研究领域，它可以提供人体正常步态建模的线索，有助于开发生物反馈系统来分析病人的步态，判断其腿步受伤情况或者畸形程度，从而做出积极的整形补偿或有效的治疗：另外，人的行为识别也可以应用于从大量的体育活动数据库中进行基于内容的快速搜索等。 ( 4 ) 虚拟现实( v i r t u a lr e a l i t y ) ：目前许多电脑游戏中人的形体、运动和行为交互的设计逼真性实际得益于物理空间中人的运动分析，包括人体模型和关节运动机制的获取及行为的恢复等；基于互联网络的交互式空问的开发刚刚起步，如虚拟聊天室，它在通过文本交流的同时可以通过二维图标来导航用户，如果增加人体行为、面部表情等线索，将会给参与者们提供更加丰富的交互形式；另外，人的运动分析在视频会议、人物动画、虚拟工作室等其它虚拟现实场合也有着相当广泛的应用。鉴于人体行为识别在智能监控、感知接口、运动分析及虚拟现实等方面具有广泛的应用前景和潜在的经济价值，所以开展这方面的研究有着重大意义。 1 2 国内外研究状况及分析人体行为识别在智能监控、高级人机交互、视频会议、医疗诊断及基于内容的图像存储与检索等方面具有广泛的应用前景和潜在的经济价值，从而激发了世界上广大科研工作者及相关商家的浓厚兴趣，尤其在美国、英国等国家已经开展了大量相关项目的研究“。3 1 。例如，美国国防高级研究项目署设立了以卡内基梅隆大学为首、麻省理工学院等高校参与的视觉监控重大项目v s a m ( v i s u a l 北京工业大学工学硕士学位论文 i i s u r v e i l l a n c e a n d m o n i t o r i n g ) ，主要研究用于战场及普通民用场景进行监控的自动视频理解技术：英国的雷丁大学已开展了对车辆和行人的跟踪及其交互作用识别的相关研究；i b m 与m i c r o s o f t 等公司也正逐步将基于视觉的手势识别接口应用于商业领域中。人体行为识别可以简单地被认为是时变数据的分类问题，即将测试序列与预先标定的代表典型行为的参考序列进行匹配。因此它的关键问题是：如何从学习样本中获取参考行为序列；学习和匹配的行为序列必须能够处理在相似的运动模式类别中空间和时间尺度上轻微的特征变化。到目前为止，匹配时变数据的技术已经很多，主要有下面几种： ( 1 ) 动态时间规整d t w ( d y n a m i ct i m ew a r p i n g ) d t w 1 具有概念简单、算法鲁棒的优点，早期被广泛地应用于语音识别中，并且最近才被用于匹配人的运动模式；对d t w 而言，既使测试序列模式与参考序列模式的时间尺度不能完全一致，只要时间次序约束存在，它仍能较好地完成测试序列和参考序列之间的模式匹配。 ( 2 ) 隐马尔可夫模型h m m s ( h i d d e nm a r k o vm o d e l s ) h m m s 纠是更加成熟的匹配时变数据的技术，它是随机状态机器。h m m s 的使用涉及到训练和分类两个阶段，训练阶段包括指定一个隐马尔克夫模型的隐藏状态数，并且优化相应的状态转换和输出概率以便于产生的输出符号与在特定的运动类别之内所观察到的图像特征相匹配。对于每一个运动类别，一个h m m 是必须的。匹配阶段涉及到一个特定的h m m 可能产生相应于所观察图象特征的测试符号序列的概率计算。h m m s 在学习能力和处理未分割的连续数据流方面比d t w 有更好的优越性，当前被广泛地应用于人的运动模式匹配中 1 6 , 17 。 ( 3 ) 神经网络n n ( n e u r a ln e t w o r k ) 神经网络同样也是目前比较感兴趣的匹配时变数据的方法，如g u o 等用其分析人的运动模式 1 8 1 。时延神经网络t d n n ( t i m ed e l a yn e u r a ln e t w o r k ) 也是一种分析时变数据的有趣的方法。因为当有效数据集越大时，在神经网络上的时 d 第1 章绪论间信息就被强调得更充分。t d n n 已经被成功的运用于手势的识别和人说话时的嘴唇的形状的识别上了。 ( 4 ) 句法技术( s y n t a c t i ct e c h n i q u e s ) 机器视觉中的句法识别方法已被广泛运用到序列图像中上下相关的静态图片的模式识别中。最近，语法识别的方法经常用于视觉行为识别。基本思想是把识别问题分为两层：底层通过标准的独立的瞬时事件概率检测方法，提供底层瞬时特征的候选检测部分。检测的输出作为随机上下文无关语法分析程序的输入流。语法和语法的分析器提供了更大范围的时间限制，消除不确定的底层检测，在某些给定的情况下允许包含关于瞬时事件结构的先验知识。 ( 5 ) 非决定论有限自动机n f a ( n o n - d e t e r m i n i s t i cf i n i t ea u t o m a t o n ) n f a 是一种简单的方法，且具有即时性和完全不确定性，w a d a 和m a t s u y a m a 把n f a 用作为一种序列分析器，提出了一种新颖的通过事件判断的多目标识别的方法。 1 3 人体行为识别系统正如上文所述，人体行为识别有着诸多重要和实际的应用。因此，对于该问题科学家们作了不少有益的工作。然而到目前为止，还没有任何一套系统可以真正鲁棒地从视频序列中得到或恢复人体的运动信息和三维结构。究其原因主要有：人体运动是一个复杂的运动系统，人体的运动具有很大的自由度和高度的非线性特点；人体是非刚体，而且结构复杂，在运动中存在着严重的遮挡现象；人体的外表由于穿着服装，因此其外观表现出极大的差异，很难用统一的模型加以表达。正是由于上述问题的存在，目前对于人体运动分析的研究工作，都是从各种不同的角度着手，采取各类不同的约束与前提条件来简化研究工作。人体行为识别方法，也往往随着应用领域的不同变化而不同，存在着多种分类的方法。根据采用摄像机的数目可分为基于单目的方法和基于多目的方法。单目方法指的是采用一台摄像机获取图像，只对从某一角度的视频序列进行分析。而多目指的是采取多台摄像机，对从多角度获得的视频序列进行处理。单目方法，应用北京t 业大学工学硕士学位论文范围比较普遍，但信息量不足；多目方法，可较好地获得深度信息，但其往往需要在实验室条件下进行，与单目相比增加了许多限制条件。另一类分类标准是是否准备从视频序列中提取人体的三维运动信息并从中恢复人体三维结构。诸如在视频监控领域中，所关注的一般是人的整体行为与位置，因此不需要人体各个肢体部分的详尽信息，一般只需二维图像信息即可。而在类似角色动画中，获取人在三维空间的精确位置是应用成功的关键，因此一般采取在实验室环境中，使用昂贵的运动捕捉系统，主要研究三维运动恢复。根据人体不同的运动形式分类。人体运动的形式多种多样，要提出一个一般的技术分析框架来容纳所有的人体运动，达到普遍的适应性，从目前而言很难现实。而不同的运动，往往有不同的运动模式，可以从中总结获得不同的运动模型，而这些运动模型往往可以在特殊的人体运动研究中作为先验知识，起到关键性的指导工作。而且，就某种具体的应用目标而言，其所涵盖的人体运动形式往往有限，因此这类方式有其实际意义。根据是否采用形状模型，可分为特征对应的方法和基于模型的方法。基于特征的方法一般通过基于位置、形状、纹理等相关的特征进行特征匹配；而基于模型的方法主要是模型数据与图像之间的匹配工作。在计算复杂度上，基干特征的方法利用较低层次的视觉特征，计算简单，速度一般较快；而基于模型的方法利用较高层次的模型，需要在匹配和搜索上花费大量时间，计算代价较高。下面介绍几种典型的人体行为识别方法： ( 1 ) 模板匹配方法( t e m p l a t ek f 丑t c m n g ) 基本思想：首先将图像序列转换为一组静态形状模式，然后在识别过程中和预先存储的行为标本相比较。 ”埘】 p o l a n a 等人的方法f l 明是一种基于运动的低级特征的方法。所谓低级特征就是直接针对像素进行处理，称之为b o t t o m u p t e t h o d o 具体地，利用二维网格的特征进行人的运动识别，首先计算连续帧间的光流场，并将每个光流帧在空间栅格上沿x 和y 方向分解，每个单元格的幅度被累加，从而形成一高维特征向量用于识别；为了归一化运动的持续时间，他们假设人的运动是周期性的，并将整个序列分解为该行为的许多循环过程；采用最近邻算法进行行为识别。 b o b i c k 等人【2 0 】采用运动能量图像( m o t i o ne n e r g yf m a g e s ) 和运动历史图第1 章绪论像( m o t i o nh i s t o r yf m a g e s ) 来解释图像序列中人的运动。序列中的运动图像首先经差分运算并二值化：而后这些包含运动区域的二值化运动图像随着时间累加形成m e i ；最后m e i 增强为m h i ，m h i 中每个像素的值与该位置的持续运动时间成比例。每个行为由其图像序列的m e i 和m h i 所组成，从中提取出基于h u 矩的行为特征用于识别阶段的模式匹配。模板匹配技术的优点：是计算复杂度低、实现简单，然而它对于噪声和运动时间间隔的变化是敏感的。 ( 2 ) 状态空间方法( s t a t es p a c ea p p r o a c h e s ) 基本思想：定义每个静态姿势作为一个状态，这些状态之间通过某种概率联系起来。任何运动序列可以看作为这些静态姿势的不同状态之间的一次遍历过程，在这些遍历期间计算联合概率，其最大值被选择作为分类行为的标准。目前，状态空间模型已经被广泛地应用于时间序列的预测、估计和检测，最有代表性的是隐马尔可夫模型( h m m s ) 。图1 2 描述了h m m s 的基本结构。每个状态中可用于识别的特征包括点、线或二维小区域。 b 1 | 1 ，h 但b 【句b 2 0 ib 2 仁瞠1 3 ) 8 马1 8 r v i v v 3 b 3 1 】b 3 仁岬， h 1 1 ，h 1 2 b 幛抛8 驷坶 v iv t 砷 v iv 2v 3 o ，q ，岛，o , , o s o r t i m et - - 图卜2h m m 的基本结构 f i g u r e1 - 2t h e b a s a lf r a m e w o r ko f h i d d e dm a r k o vm o d e l s 北京1 业大学_ 学硕十学位论文例如y a m a t o 等 16 1 利用二维小区域块的运动、彩色、纹理等特征进行人的行为识别：人的运动区域块的网格特征被用作学习和识别的低级特征；学习是利用 h m m s 为每个类别产生符号模式；模型参数的优化是利用b a u m w e l c h 算法实现的；识别是以给定序列图像下前向计算( f o r w a r d c a l c u l a t i o n ) 的结果而确定。状态空间方法的优缺点：虽然能克服模板匹配的缺点，但通常涉及到复杂的迭代。 ( 3 ) 基于模型的方法( m o d e lb a s e dm e t h o & 基于模型的方法需要建立2 d 或3 d 的人体模型。一般将三维人体看作由关节点连接的刚体的集合，如上肢是由肘关节连接的上下臂两个刚体，上臂与躯干是由肩关节连接的等等，这样用三维的人体骨架来描述人体运动。通常需要3 d 模型的重建来进行识别。基于模型方法的优缺点：对计算量和设备的要求都高，因而准确性好，3 d 能很好的处理遮挡问题。在实际的应用场合下，必须要根据实际情况，具体情况具体分析，合理选择方法。一般情况下，人体行为识别系统的大体结构如图卜3 所示。图卜3 人体行为识别的基本过程 f i g u r e1 3t h eb a s a l 的m e w o r ko f h u m a na c t i o nr e c o g n i t i o n 第1 章绪论 1 4 本文主要研究内容本文对人体行为识别方法进行了一定的研究，实现了基于不同方法的人体行为识别系统。利用计算机进行系统实现，并比较各类方法进行性能评估。系统的主要功能是对于输入的包含人体行为的图像序列，进行运动检测与分割得到人体行为的二值化图像序列，图像序列的规范化( 针对不同的方法可省略) ，由图像序列生成特征图像，基于不同方法对特征图像进行特征提取，设计分类器，进行识别。此系统的实现，使用了图像处理、模式识别和计算机视觉的技术，它能对 1 0 类一般的人体行为( 例如坐、蹲、跳、四肢运动等) 进行识别。对输入的包含人体行为的图像序列，能够准确的识别图像序列中的人的行为是否是标准行为库中的行为或是库中的哪一种行为。考虑到人体运动的特殊复杂性，做如下前提假设：静态背景；单一固定摄像头；无主要遮挡。系统结构图如图卜4 所示。至口、 f测试人体行为序列、一识别蕾训练厂而丽。矿、 ! 型堂! 、- ，图1 - 4 人体行为识别系统结构 f i g u r e1 - - 4t h es y s t e mf r a m e w o r k & h u m a na c t i o nr e c o g n i t i o n 在人体行为识别方法的设计中，为了更完备地描述行为序列，提高识别的准确率，主要就以下几个方面展开工作： 1 行为特征的空间信息和时间信息相结合。生成的特征图像既能表明行为发生的区域，又能表示行为是如何发生的，这样就不需要进行明显的时间分析和 9 北京丁二业大学工学顾十学位论文各个序列帧间的匹配了。 2 在行为特征的矩描述上，针对h u 矩和规则矩表示的冗余性，提出了利用 z e r n i k e 矩用于行为描述的方法，并提出了一种利用图像的重建过程来确定分类时用到的矩的最高阶次的方法。 3 为了能更好地描述行为的局部运动特征，引入小波分析的理论，利用小波矩不变量来描述行为特征。在特征选择中，根据特征的类间距离和类内距离来衡量特征的分类识别能力，选取最优的小波矩组。 4 为了能处理小范围的遮挡问题，采用提取局部运动光流的方法，引入梯度算子来计算运动的方向和速率，并采用极坐标直方图的方法进行匹配。其中，为了弥补特征图像中损失的时间信息，更好地描述运动的速率，采用金字塔图像的方法进行不同等级的梯度计算。 5 模板匹配的方法对视角很敏感，解决方案主要有：a 对系统性能加以限制，只能处理给定的某一视角的行为：b 针对每种行为建立多个视角下的表示，使用统计的模型既能识别行为的视角，又能识别行为。 6 分类器设计方面，每种分类器都有不同的复杂度，但并不是说，越复杂的分类器就有越好的分类效果。分类器的复杂度与问题是如何描述的有密切关系。由于实验中样本有限，我们采用最近邻分类器进行识别。目前用于行为识别的方法通常在计算代价和行为识别的准确度之间进行折中，故仍需用寻找和开发新的技术以利于在提高行为识别准确度的同时，又能有效地降低计算的复杂度。本文分为五章：第1 章：绪论，对人体行为识别的研究背景以及发展状况进行简要的介绍；第2 章：阐述了矩技术在模式识别中的应用；第3 章：详细介绍基于矩特征的人体行为识别方法；第4 章：详细介绍基于运动光流特征的人体行为识别方法；第5 章：实验结果与分析；最后结论部分是对本文研究工作的总结及今后工作的展望。第2 章娟技术在模式识别中的应用第2 章矩技术在模式识别中的应用利用矩不变量进行图像识别是模式识别中的一种重要的方法。矩在统计学中用于表征随机量的分布，在力学中用于表示物质的空间分布。若把二值图像或灰度图像看作是二维密度分布函数，就可以把矩技术应用于图像分析中。这样，矩就可以用于描述一幅图像的特征，并提取为与统计学和力学相似的特征。近年来，由二维和三维图像所求取的矩值的不变特性己引起的图像界人士的重视。矩技术类型很多，现已被应用于图像分类与识别处理的许多方面。 h u 2 6 】在1 9 6 1 年首先提出了矩不变量的概念。l i 2 7 谰f o u r i e r - - m e 1 i n 变换的不变性推导出一种构造任意阶矩不变量的方法，并指出h u 矩就是它的一个特例。t e a g u e 2 8 建议利用正交多项式构造正交矩来克服h u 矩不变量包含大量冗余信息的缺点，z e r n i k e 矩不变量就是一种正交矩不变量。k h o t a n z a d 2 ，t e h 3 0 等人指出正交矩在信息冗余度、图像表达以及在识别效果方面比其它类型的矩要好。以上提到的矩特征都是在整个图像空间中计算的，得到的是图像的全局特征，且能反映目标的不变性特征。o s h e n 和h h si p 【3 i 】提出的利用小波变换来构造的目标旋转不变性的特征小波矩，不仅可以得到图像的全局特征，也可以得到图像的局部特征，因而在识别相似形状的物体时有更高的识别率。 2 1 规则矩 2 1 1 规则矩的定义：概率密度分布函数为f ( x ，y ) 的二维连续随机函数的( p + g ) 阶规则矩( 也称几何矩) m 。的定义为： m p q = 二二x v y 9 m ，y ) d 睇d y ( 2 1 ) 二维( n m ) 数字化图像g ( i ，) 的二维矩的定义为： m l _ 】 m 。= f 9 _ ，4 9 ( f ，) ( 2 2 ) = 0i = o 阶次为7 , 的规则矩的完备集包括所有满足p + gs ”的条件的牌。，因而共有 ( n + 1 ) 丰( n + 2 ) 2 个元素。单项式乘积x y 。是这种矩定义的基底函数。北京工业大学工学硕上学位论文 h u 的唯一性定理( u n i q u e n e s st h e o r e m ) 。：如果f ( x ，y ) 是分段连续的，并且只有在( x ，y ) 的平面的有限区域内具有非零值，那么所有阶的矩都存在。由f ( x ，y ) 可唯一确定矩集研。，反之，由矩集 m 。) 可唯一确定f ( x ，y ) 。既然一幅图像具有有限的面积，并且在最坏的情况下也是分段连续的，那么所有阶的规则矩都存在，所求得的矩集可唯一描述该幅图像所描述的信息。要将一幅图中的信息全部表征出来需要无限多的矩值，对于实际应用来讲，需要选取矩值的一个子集，只要这个子集对于某个特定的应用包含表征该图像的足够有用信息就可以了。用无穷矩集 m 。，矽+ g = 0 ，1 ，) 表示f ( x ，) 的公式如下： ( x ，庐仁e 印h 2 ，r ( u x + 训荟荟m 。等等出咖 2 1 2 低阶规则矩的性质：低阶规则矩值可表征一个分布或目标的基本几何性质，下面以二值连续分布函数( 也就是目标的剪影图) 的规则矩值为例来进行说明。零阶矩 f ( x ，y 1 的零阶矩的定义为： m 2 。f ( x ，dx dy 它表示给定分布函数或图像的总质量( i i i s s s ) 。目标的剪影图的零阶矩表示该目标的总面积。一阶矩：质心两个一阶矩伽l o ，川0 1 ) 用来确定目标的质心( c e n t e r o f m a s s ) ，质心的坐标 ( ；，了) 给出了两条分别平行于x 轴和y 轴的直线工= ；和y = 歹的交点。质心坐标由下式计算：一一i i 1 0一一m 0 1 z 一，y 一一 0 0m 。如果目标的质心与坐标系的原点重合，即；= o 和7 = 0 ，那么由此求得的矩值称为中心矩( c e n t 2 - a m o m e n t ) ，由- z p q 来表示： 1 2 “。= ( x j ) ，( y - y ) a 饰，y ) d ，办中心矩“。可由规则矩m 。来表示，例如： “0 0 = m o o ， “l o = 0 ， “o l = 0 1 2 2 0 2 7 2 0 一z 9 1 0 0 2 2 f t 0 2 y0 1 0 1 1 2m l i ym 1 0 3 0 = m 3 0 一3 ；m 2 0 + 2 j 2 州1 0 “1 2 = m 1 2 2 了r r t l l 一；m 0 2 + 2 7 2 m 1 0 2 i = r t 2 i 一2 ；r n i l 一歹m 2 0 + 2 ；2 7 。】 “= m 0 3 3 歹m 0 2 + 2 y 2m o i 二阶矩：二阶矩f m 。，m i l ，m ：。又q 惯性矩，表征图像的大小和方向。事实上，如果仅考虑阶次为2 的矩集，则原始图像完全等同于一个具有确定的大小，方向，和离心率，以图像质心为中心且具有恒定辐射度的椭圆。假定坐标原点与图像质心重合，图像椭圆如图2 - 1 所示。 1 、、。，4 1 硝，7 ) h ，弋，一眵?、。，一 k ；图2 - l 图像椭圆 f i g u r e2 - 1t h ee l l i p s eo f t h ei m a g e 该图像椭圆的参数如下：长半轴：口- ( 业出嚣坦监) l ，2 北京工业大学工学硕士学位论文短半轴： b = ( 麴堑二睦二型：堡、 ! - 1 0 0 2 。椭圆倾角：：( 1 2 ) t a n l f 上ll l “2 0 一“0 2 图像椭圆的辐射度在椭圆内为：f 一。翮6 ；在椭i 童i # 1 - 为零椭圆倾角矽的取值是不确定的，因此，规定庐为半长轴与x 轴之间的夹角 ( d 拍) 。椭圆倾角庐的取值由表2 1 给出，该倾角值取值范围为于一9 0 。，9 0 。) 内，该取值可确定主轴所在直线的方向，但若要唯一确定图像内目标的方向，还存在1 8 0 。的模糊性。三阶中心矩可用于解决这个问题，根据实际应用硬性规定图像的三阶矩“，。的符号，就可以确定主轴的唯一方向。袁2 一l 二阶矩各取值情况下的椭圆倾角 t a b l e2 - 1t h ee l l i p s eo b l i q u i t yi nt h ec a q eo f 2o r d e rm o m e n t s 柏芦 l l l卜一地2 ，jj 零零 0 岑n ： + 叠5 零负 4 5 t 1 零 0 爱零 9 0 1 卫：l l ： ( 1 1 2 ) m “吾( o 妒 4 5 。) l 佼 ( 1 ，2 ) t 赫一毒( - 4 5 。砖负止 ( 1 2 ) t 8 n 于螂( 4 5 。妒 9 0 。) 扭韭 ( i 2 ) 【a n f 一9 0 。0 9 0 。妒叫5 。) 三阶矩及三阶以上矩对于三阶或三阶以上矩，使用图像在工轴或y 轴上的投影比

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）人体行为识别方法的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）人体行为识别方法的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档