(计算机应用技术专业论文)人体视觉分析中特征提取与分类算法的研究.pdf_第1页
(计算机应用技术专业论文)人体视觉分析中特征提取与分类算法的研究.pdf_第2页
(计算机应用技术专业论文)人体视觉分析中特征提取与分类算法的研究.pdf_第3页
(计算机应用技术专业论文)人体视觉分析中特征提取与分类算法的研究.pdf_第4页
(计算机应用技术专业论文)人体视觉分析中特征提取与分类算法的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)人体视觉分析中特征提取与分类算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人体视觉分析中特征提取和分类算法的研究 摘要 人体视觉分析是近年来计算机视觉领域中备受关注的前沿方向,它在虚拟现 实、视觉监控等领域均有着广阔的应用前景。本文的研究工作是人体视觉分析 中的基于单帧图像的姿态识别与分析,目的是使计算机从单目视频中捕获完整 的前景运动人体后,在一帧二值映射图中提取出人的姿态特征,通过模式识别 达到认知人类常规姿态的智能效果。本文首次提出了种基于角度的人体姿态 特征提取算法( a n g l e b a s e df e a t u r ee x t r a c t i o n ,a f e ) 和一种适用于姿态分类的扩 大类间离散度的相似距离( s i m i l a r i t yo f l a r g e rs c a t t e rb e t w e e ns o r t s ,s l s s ) 。 在特征提取部分,本文首先研究了基于空间变换的特征提取算法( f e e t ) , 分析了它在特征空间变换过程中的计算复杂性:然后对r o b e r tt c o l l i n s 的基于 极点信息的特征提取方法( f e e p ) 进行了算法设计与描述,并阐述了其特征向 量维数不统一可能造成的识别局限性;总结以上方法的不足,本文设计了a f e 算法。该算法思想是基于人体特征角度对原始特征向量进行统一和降维,从而 减省归一化和特征空间变换的计算。它的优点是能够有效地识别到对应的人体 部位,保证姿态的识别分类的鲁棒性:在目标边界象素数目较大的情况下,具 有较小的计算代价。同时,基于单帧的a f e 也为基于序列帧的人的行为理解提 供了一种新的时变特征的可行方案。a f e 算法的局限性是对噪声比较敏感,并 且要求前景移动物体的完整性,即遮挡处理( o c c l u s i o nh a n d l i n g ) ,这是也是迄 今为止大部分人体视觉系统不能很好解决的问题之一。 在分类识别部分,本文对传统的欧式距离( e u c l i d e a nd i s t a n c e ) 进行改进, 提出了一种扩大类间离散度的相似距离s l s s ,即在类间距的计算中对n 个类鼬 的向量分别赋予所属类的权向量,以突出类别之间的特征差异,使得n 类之间 的可分性最大化( 即类间距离的最大化) 。不同的是,线性判别函数是采用唯一 的最佳权向量进行操作,而s l s s 则通过n 个不同类别的权向量来扩大类间离散 度,保证了分类识别的最大有效性。该算法无需进行样本训练,操作简单,易 于实现,但是它要求样本指标具有多峰性质且互相交错,这恰恰适用于人体不 同姿态分类的情况。 关键词:姿态特征,单帧,模式识别,a f e ,s l s s 体视觉分析中特征提取和分类算法的研究 a b s t r a c t v i s u a la n a l y s i so fh u m a ni sc u r r e n t l yo r l eo ft h em o s ta c t i v er e s e a r c ht o p i c si n t h ed o m a i no f c o m p u t e rv i s i o n t h i ss t r o n gi n t e r e s ti sd r i v e nb y aw i d es p e c t r u mo f p r o m i s i n ga p p l i c a t i o n s i n m a n ya r e a s s u c ha sv i r t u a l r e a l i t y , s m a r ts u r v e i l l a n c e , p e r c e p t u a l u s e ri n t e r f a c e ,c o n t e n t b a s e d i m a g es t o r a g e a n d r e t r i e v a l ,a t h l e t i c p e r f o r m a n c ea n a l y s i s ,e t c a na n g l e - b a s e d f e a t u r ee x t r a c t i o na l g o r i t h m ( a f e ) o f h u m a n s h a p e a n da s i m i l a r i t y o f l a r g e r s c a t t e rb e t w e e n s o r t s ( s l s s ) f o r c l a s s i f i c a t i o na r ep r o p o s e di nt h i s p a p e r t h ep u r p o s ei s t o r e c o g n i z ea n da n a l y z e n o r m a lh u m a n p o s t u r e sb yp a t t e r nr e c o g n i t i o nf r o ms i n g l ev i d e oi m a g e , a sf a ra sh u m a nf e a t u r ee x t r a c t i o ni sc o n c e r n e d ,t r a d i t i o n a la l g o r i t h mi so f m u c h c o m p u t a t i o nc o m p l e x i t y b e c a u s eo fe i g e n s p a c et r a n s f o r m a t i o n a n o t h e r 角a t u r e e x t r a c t i o nm e t h o db a s e do ne x t t e m ep o i n t sp r o p o s e db yr o b e r tt c o l l i n sr e s u l t so f f e a t u r ev e c t o r sw j 也u n e q u a ld i v i s i o n s c o n s i d e r i n gt h e s e ss h o r t c o m i n g s w ed e s i g n e d t h ea f e a l g o r i t h m w h i c hc a nr e d u c et h ed i m e n s i o n a l i t yo f t h e o r i g i n a lf e a t u r e v e c t o r s b a s e do nf i d u c i a lj o i n ta n g l e s t h ea f ec a r le x t r a c tf e a t u r e sw i t h o u tc a l c u l a t i n g “1 e d g ep i x e l s ,w h i c h d e c r e a s e st h e c o m p u t i n gc o m p l e x i t y o fn o r m a l i z i n ga n d e i g e n s p a c e t r a n s f o r m a t i o nd r a m a t i c a l l y m o r e o v e r , i te a r la n a l y z eh u m a np o s t u r ea n d m o t i o n sw i t h o u t c a l c u l a t i n gg e o m e t r y c h a r a c t e r ss u c ha st h ec u r v eo f t h ec o n t o u r b u t i ti ss e n s i t i v eo fn o i s ea n do c c l u s i o nh a n d l i n g ,w h i c hi sa l s ot h ep r o b l e mo fm o s t v i s u a l a n a l y s i ss y s t e m i nr e c o g n i t i o np a r t ,w em o d i f i e de u c l i d e a nd i s t a n c ea n d p r o p o s e dt h es i m i l a r i t y o f l a r g e rs c a t t e rb e t w e e ns o n s ( s l s s ) t h e m a i nt h o u g h ti st ou s ew e i g h t e dv e c t o r s o no r i g i n a lf e a m r ev e c t o r so f c o r r e s p o n d i n g c l a s s e sa n dt om a k et h es c a t t e rb e t w e e n s o r t s l a r g e s ti nt h ee i g e n s p a c e d i f f e r e n t l y , l i n e a rd j s c r i m i n a n c ef u n c t i o nu s e st h e b e s tw e i g h m dv e c t o r , b u ts l s su s e snw e i 【g h t e dv e c t o r sw h i c hn o to n l yl e a v e so u tt h e c o m p u t a t i o no f s a m p l et r a i n i n g ,b u ta l s o e n s u r e sr o b u s tr e c o g n i t i o no f h u m a n p o s t u r e s l s si ss i m p l ea n dw i e l d y , b u ti lr e q u e s t ss a m p l e sw i t hi n t e r l a c e dp e a kv a l u ew h i c h i sf i tf o rr e c o g n i t i o no f h u m a n p o s t u r e k e y w o r d s :p o s t u r e f e a t u r e ,s i n g l ef r a m e ,p a t t e r nr e c o g n i t i o n ,a f e ,s l s s 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电 子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所傲的任何贡献均已在论文中作了明确的说明并表示 谢意。 签名: 至堡盐 日期:劢d r 年6 月3 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 至竺蛰 导师签名:型i 至刍 日期:z , o o 年6 月3 e t 人体视觉分析中特征提取和分类算法的研究 第一章绪论 人体视觉分析是近年来计算机视觉领域中最活跃的研究主题之一,其核心 是利用计算机视觉技术从图象序列中检测、识别、跟踪人体并对其行为进行理 解和描述,属于图像分析与理解的范畴。从技术角度而言,人体视觉分析的研 究领域相当广阔,主要涉及到图像处理、模式识别、人工智能等学科知识。它 在虚拟现实、视觉监控、感知接口等领域均有着广阔的应用前景。尤其在美国 受到恐怖袭击之后,全球日益关注安全问题,基于计算机视觉的智能安全监控 系统不但能够高效地完成保障安全的任务,还能节省大量的人力物力。 基于单帧的人体识别与分析是人体视觉分析系统中的重要组成部分,它建 立在目标分类基础之上,为人体跟踪和实时行为理解提供必要的单帧信息。它 能弥补基于序列帧的动态识别的不足,在信息匮乏的情况( 如遥感获取的一幅 图象) ,也能进行人体的识别与分析,同时还为研究时变序列帧中的人的行为理 解提供新的可行方案。 1 1 人体视觉分析 人体视觉分析系统包括运动检测( 背景模型栩始化、前景运动物体检测) 、 目标分类、运动跟踪、行为理解与描述几个过程i “。它们之间可能存在交叉,比 如有时娠踪过程中包含了运动检测的使用。 i ) 运动检测 运动检测包括背景模型初始化、前景运动物体检测,它的目的是在图象序 列中将前景运动区域从背景中提取出来。运动检测是运动物体的识别与跟踪的 基础,该阶段处理结果的质量将直接影响到以后处理的效果,所以运动检测在 人体视觉分析中的作用非常重要。 2 ) 目标分类 前景运动区域里面可能包含不同的运动目标,如行人、车辆、飞鸟、流云、 摇动的树枝等运动物体,或者是较大面积的噪声。所以为了便于进一步对行人 进行跟踪和行为分析,需要对运动目标进行识别和分析。它的首要任务和基本 人体视觉分析中特征提取和分类算法的研究 问题是获取人体特征和设计相应的分类决策,即获取人体的特征参数,对其特 征进行优化重组,利用适当的分类决策判别运动物体是人类与否,或进一步展 开相关的分析,如判别相应姿态类别等,以达到对人体姿态等的理解和描述。 3 ) 人的跟踪 人体运动的跟踪即在目标分类后,对连续的图像帧问创建基于位置、速度、 形状、纹理、色彩等相关特征的对应匹配问题。 4 ) 行为理解与描述 行为理解与描述是指对人的运动模式进行分析和识别,并用自然语言等加 以描述。行为理解可以简单地被认为是时变数据的分类问题,即将测试序列与 预先标定韵代表典型行为的参考序列进行匹配。 人体视觉系统的框架如图1 1 所示,其中重点细化了目标分类( 包含特征提 取、样本训练、分类决策和姿态描述) ,这是本文的研究重点。方框表示处理模 块,括号与箭头表示数据与流向。 1 2 研究意义与国内外进展 人体视觉分析具有广阔和重要的应用范围。目前,人体视觉分析主要应用 领域有智能视觉监控、智能人机接口和人体运动的细节分析以及虚拟现实等l 。 1 ) 智能视觉监控 传统的视觉监控系统是由一个或多个摄像机及与之相连的套电视监视器 组成的1 9 o l ,它主要用于对安全敏感地点的j 监控( 例如停车场、车站、银行、军 事禁区等) 。需要人员连续监视屏幕,这种工作不但非常枯燥,而且随着监控区 域的日渐广阔,想要对这些场景进行2 4 小时监控就需要增多人手,并且人长期 监视屏幕很容易疲劳,因而可能造成漏警。所以传统系统不但浪费大量的人力 而且有时监控效果并不好。而智能视觉监视系统可以自动地滤除大量多余信息 而只对与安全相关的信息进行处理,一旦发现异常现象立即报警,这样监视人 员就可以对突发事件及时进行处理。 2 ) 智能人机接口 智能人机接口可自动地对人的动作进行捕获和识别( 比如对人的手语进行 翻译并调用相应的功能) ,响应人的指令,可以代替传统的输入和控制设备完成 人机交互”。 l 。由于它通过非接触视觉控制设备和控制接口完成人机交互,所以 人体视觉分析中特征提取和分类算法的研究 它的应用领域极其广泛,n - i j 羽于残疾人使用的某些设备、游戏控制或用于高噪 音环境等情况。 视 = 罴篙毛 - - j j l l 2 l 母, 。= 一 图1 - 1 系统框架 3 ) 人体运动的细节分析 人体运动的细节分析即分割图象中的人体部分,在图象序列中跟踪并分析 感兴趣的运动细节【1 3 。“,比如分析人体的运动机制用以辅助运动员的训练或舞蹈 训练,或对人的步态进行分析用以辅助进行人的身份识别。 4 ) 视频会议 当前由于带宽限制,视频信号由于数量很大,所以很难在i n t e m e t 上实时播 放,而人体的运动分析可以把个场景的前景区域从背景区域中分割出来m “1 。 如果用于视频会议,可以首先把背景区域传导接受点,以后只传输前景区域及 状态信息,这样可以大大减小数据的传输量,使实时的视频会议成为可能。类 人体视觉分析中特征提取和分类算法的研究 似可用于基于物体的视频压缩。 由于人体视觉分析在虚拟现实、视觉监控、感知接口等领域均有着广阔的 应用前景和潜在的经济价值,所以开展这方面的研究有着重大的意义。 研究动态 美国、英国等国家已经开展了大量相关项目的研究。1 9 9 7 年美国国防高级 研究项目署( d e f e n s e a d v a n c e d r e s e a r c h p r o j e c t s a g e n c y ) 设立了以卡内基梅隆 大学( c a r n e g i e m e l l o nu n i v e r s i t y ) 为首、麻省理工学院( m a s s a c h u s e t t si n s t i t u t e o f t e c f m o l o g y ) 等高校参与的视觉监控重大项目v s a m ( v i s u a ls u r v e i l l a n c ea n d m o n i t o r i n g ) ,主要研究用于战场及普通民用场景进行监控的自动视频理解技术; 实时视觉监控系统w 4 1 1 3 】不仅能够定位人和分割出入的身体部分,而且通过建立 外观模型来实现多人的跟踪,并可以检测人是否携带物体等简单行为;英国的 雷丁大学( u n i v e r s i t yo f r e a d i n g ) 已开展了对车辆和行人的跟踪及其交互作用识 别的相关研究:i b m 与m i c r o s o f t 等公司也正逐步将基于视觉的手势识别接口应 用于商业领域中 叫6 】。当前,国际上一些权威期刊如1 j c v ( n t e m a f i o n a lj o u r n a l o f c o m p u t e rv i s i o n ) 、c v i u ( c o m p u t e r v i s i o na n di m a g eu n d e r s t a n d i n g ) 、p a m i ( i e e et r a n s o np a t t e r na n a l y s i sa n dm a c h i n ei n t e l l i g e n c e ) 、i v c ( i m a g ea n d v i s i o n c o m p u t i n g ) 和重要的学术会议如i c c v ( i n t e r n a t i o n a lc o n f e r e n c e o n c o m p u t e r v i s i o n ) 、c v p r ( i e e e c o m p u t e rs o c i e t yc o n f e r e n c eo nc o m p u t e rv i s i o n a n dp a t l e r n r e c o g n i t i o n ) 、e c c v ( e u r o p e a nc o n f e r e n c eo nc o m p u t e r v i s i o n ) 、i w v s ( i e e ei n t e r n a t i o n a lw o r k s h o po nv i s u a ls u r v e i l l a n c e ) 等已将人的运动分析研究 作为主要研究领域之一。 下面是人体视觉分析领域的研究进展及常用技术。 1 、运动检测方面,国际上常规的应用技术有 1 ) 背景减除( b a c k g r o u n d s u b t r a c t i o n ) 背景减除方法是目前运动分割中最常用的一种方法,它是利用当前图像与 背景图像的差分来检测出运动区域的一种技术1 7 q 甜。它一般能够提供最完全的 特征数据,但对于动态场景的变化,如光照和外来无关事件的干扰等特别敏感。 2 ) 时间差分( t e m p o r a l d i f f e r e n c e ) 时间差分方法是在连续的图像序列中两个或三个相邻帧间采用基于像素的 时间差分并且闽值化来提取出图像中的运动区域 1 9 “2 t 】。例如l i p t o n 等利用两帧 差分方法从实际视频图像中检测出运动目标,进而用于目标的分类与跟踪。 人体视觉分析中特征提取和分类算法的研究 3 ) 光流( o p t i c a l f l o w ) 基于光流方法的运动检测采用了运动目标随时间变化的光流特性【2 ”,如 m e y e r 等通过计算位移向量光流场来初始化基于轮廓的跟踪算法,从而有效地提 取和跟踪运动目标。该方法的优点是在摄像机运动存在的前提下也能检测出独 立的运动目标。然而,大多数的光流计算方法相当复杂,且抗噪性能差,如果 没有特别的硬件装置则不能被应用于全帧视频流的实时处理。 2 、目标分类与识别方面,国际上常规的应用技术有 1 ) 基于形状信息的识别( s h a p e b a s e d c l a s s i f i c a t i o n ) 基于形状信息的分类是利用检测出的运动区域的形状特征进行目标分类的 方法【2 “。例如v s a m 采用区域的分散度、面积、宽高比等作为特征,利用三层 神经网络方法将运动目标划分为人、人群、车和背景干扰;l i p t o n 等利用分散度 和面积信息对二维运动区域进行分类,主要是区分人、车及混乱扰动,时间一 致性约束使其分类更加准确;k u n o 与w a t a n a b e 使用简单的人体轮廓模式的形状 参数从图像中检测运动的人。 2 ) 基于运动特性的识别( m o t i o n - b a s e dc l a s s i f i c a t i o n ) 基于运动特性的分类是利用人体运动的周期性进行目标分类的方法1 2 3 纠。例 如c u t l e r 与d a v i s 通过跟踪感兴趣的运动目标,计算出目标随着时间变化的自相 关特性,而人的周期性运动使得其自相关也是周期性的,因此通过时频化方法 分析目标是否存在周期性的运动特性而将人识别出来;l i p t o n 通过计算运动区域 的残余光流( r e s i d u a lf l o w ) 来分析运动实体的刚性和周期性,非刚性的人的运 动相比于刚性的车辆运动而言具有较高的平均残余光流,同时它也呈现了周期 性的运动特征,据此可以将人区分出来。 上述两种常用的目标特征参数有时可以结合起来使用,甚至可以考虑运动 物体色彩或速度等特征,以期得到更加准确的分类结果。另外,s t a u f f e r l 2 5 1 提出 了利用时间共生矩阵进行分层分类的方法,该方法不仅可以用来区分物体,还 可以用来区分行为。 3 、人体跟踪 常用的数学工具有卡尔曼滤波1 2 6 1 ( k a l m a nf i l t e r i n g ) 、c o n d e n s a t i o n 算法1 2 8 及动态贝叶斯网络【2 9 1 ( d y n a m i cb a y e s i a nn e t w o r k ) 等。其中k a h n a n 滤波是基 于高斯分布的状态预测方法,可实时地进行跟踪预测。c o n d e n s a t i o n 算法是以 因子抽样为基础的条件密度传播方法,结合可学习的动态模型,可完成鲁捧的 人体视觉分析中特征提取和分类算法的研究 运动跟踪。目前,就跟踪对象而言,有跟踪如手、脸、头、腿等身体部分 叫】 与跟踪整个人体的;就跟踪视角而言,有对应于单摄像机的单一视角、对应于 多摄像机的多视角和全方位视角;当然还可以通过跟踪空间( 二维或三维) 、 跟踪环境( 室内或户外) 、跟踪人数( 单人、多人、人群) 、摄像机状态( 运动 或固定) 等方面进行分类。 4 、行为理解与描述方面,匹配时变数据的技术通常有 1 ) 动态时间规整d t w ( d y n a m i c t i m e w a r p i n g ) :d t w 具有概念简单、算 法鲁棒的优点,早期被广泛地应用于语音识别中,并且最近才被用于匹配人的 运动模式【3 0 】。 2 ) 隐马尔可夫模型h m m s ( h i d d e n m a r k o v m o d e l s ) :h m m s 是更加成熟的 匹配时变数据的技术f 3 2 】,它是随机状态机器。h m m s 的使用涉及到训练和分类 两个阶段,训练阶段包括指定一个隐马尔克夫模型的隐藏状态数,并且优化相 应的状态转换和输出概率以便于产生的输出符号与在特定的运动类别之内所观 察到的图像特征相匹配。对于每一个运动类别,个h m m 是必须的。匹配阶 段涉及到个特定的h m m 可能产生相应二于:所观察图象特征的测试符号序列的 概率计算。h m m s 在学习能力和处理未分割的连续数据流方面比d t w 有更好的 优越性,当前被广泛地应用于人的运动模式匹配中。 3 ) 神经网络n n ( n e u r a ln e t w o r k ) :它同样也是目前比较感兴趣的匹配时 变数据的方法f 3 3 1 ,如g u o 等用其分析人的运动模式;r o s e n b l u m 等使用径向基 函数网络从运动中识别人的情感。 1 3 本文的主要研究工作 本文的主要研究工作是人体视觉分析中基于单帧的人类姿态识别与分析,即 在无遮挡的前提下,从单目视频中获取前景物体,通过边界跟踪实现物体轮廓 的提取,将2 d 轮廓形状展开成为对应的】d 距离信号,提取出基于人体角度的 特征距离,通过模式识别技术,对人类不同姿态进行认知。本文的重点是人体 特征提取算法和分类识别的设计。 在特征提取部分,首先研究了基于空间变换的传统特征提取算法,分析了 它在特征空间变换和样本训练过程中计算复杂的缺点;然后用算法实现了r o b e r t tc o l l i n s 提出的基于极点信息的特征提取思想,并阐述其特征向量维数不统一 人体视觉分析中特征提取和分类算法的研究 的局限性:基于以上算法的不足,本文提出了a f e 算法,该算法基于k 维有效 角度对原始特征向量进行统一和降维,并减去归化和特征空间变换的计算。 它的优点是在能够在不计算几何属性、统计属性和拓扑属性的前提下快速地提 取有效的姿态特征,并保证识别的鲁棒性:尤其在目标象素数目较大的情况下, 能够换取较小的计算代价。基于单帧的a f e 算法同时也为研究时变序列帧中的 人的行为理解提供了一种新的可行方案。本文还从识别性能、复杂度等方面与 传统的特征提取算法进行了对比。 在分类识别部分,我们首先给出了基于概率估计的整体相似度函数和局部 相似度函数,但是概率估计和前期样本训练的复杂性较大。为了不进行前期的 样本训练,和保证提取到的特征对分类识别的最大有效性,我们在传统的欧式 距离基础上进行改进。在n 个类别的i 维原始特征向量基础之上,分别用n 卜确 定的向量进行加权操作,以突出类别之间的特征差异,使得1 1 类之间的可分性 最大化( 类间距离的最大化) 。再根据距离最小原则( 最临近法) 来判决未知样 本属于n 个类别中的哪类。它的优点是通过n 个不同类别的加权向量来突出 类别之间的特征差异,避免了寻找最佳分类参数的工作,保证了提取到的特征 对分类识别的最大有效性,同时操作简单、易于实现;它的局限条件是样本指 标需要具有多峰性质且互相交错( 这适用于人体不同姿态分类的情况) 。 最后,我们阐述了改进的欧式距离与线性判别函数的区别;对改进的欧式距 离的类别可分性进行了合理分析并给出其局限条件。同时在理论上给出了一个 定量的准则来衡量特征对分类的有效性,这部分工作需要大量的采样,以得到 相应类别的先验概率。但是为了验证s l s s 的分类性能,我们假设了一个两类识 别的情况,计算出类内距和类间距,证明了分类的有效性。大量相关的验证试 验有待于进一步的研究。我们还总结出适用于时变特征匹配的特征参数,为下 一步的跟踪做好了充分准备。 作者所做的工作包括: 对v s a m 报告中的基于极点的特征提取进行了研究,用具体的算法语言进 行了描述,剖析了特征向量维数不统一造成的识别局限性; 提出了一种基于角度的人体姿态特征提取算法f a n g l e - b a s e d f e a t m e e x t r a c l i o n ,a f e ) 以解决传统算法中存在的问题; 从识别性能、复杂度等方面对传统特征提取算法和新的特征提取算法进行了 人体视觉分析中特征提取和分类算法的研究 分析; 推算出基于概率估计的整体相似度函数和局部相似度函数,并分析了概率估 计和前期样本训练的复杂性; 对欧式距离进行了改进,提出了- - 7 中扩大类间离散度的相似距离( s i m i l a r i t y o f l a r g e r s c a t t e r b e t w e e ns o r t s ,s l s s ) ,阐述了它与线性判别函数的区别,并 对其类别可分性和局限条件进行了合理分析: 总结出有利于时变特征匹配的特征参数,为下一步的人体跟踪做好了充分准 各; 1 4 论文结构 本文一共分为6 章,第】章为绪论,第2 章论述背景模型初始化的方法, 第3 章论述运动物体检测的方法,第4 章论述人体特征提取,第5 章对识别分 类的算法进行了研究,第6 章对全文儆了总结,并安排下一步的工作。 第1 章首先讨论了人体视觉分析的基本原理、研究现状、研究意义。然后, 介绍了这个领域的相关技术与国内外进展,最后介绍了本文的研究内容。 在第2 章,本文介绍了传统的背景模型初始化的方法和递推式的背景初始化 方法,估计出的背景模型将与新输入的图象帧相比较,从而决定场景中是否存 在前景运动物体。 在第3 章,本文利用估计出的背景模型将与新输入的图象帧相比较来决定 在场景中是否存在前景运动物体,分别对r o b 、h i s 、y 1 j v 三个空间中的检测 算法进行了讨论。在后期处理部分,本文引入形态学算子的开闭运算进步滤 除噪声和填充小的空洞,通过连通分量分析来提取一个单连通的运动目标,获 得较为准确的物体轮廓。 在第4 章的特征提取部分,首先研究了传统的基于特征空间变换的特征提取 算法,分析了它在特征空间变换和样本训练的复杂性;然后用算法实现了r o b e r t 丁c o l l i n s 提出的基于极点信息的特征提取的思想,并对其局限性进行了剖析; 基于以上算法的缺点,本文提出了一种基于角度的特征提取算法a f e ,并用算 法语言进行了描述;最后从识别性能、复杂度等方面与传统的特征提取算法进 行了对比。 在第5 章的分类识别部分,首先介绍了传统分类器的设计;接着推算出基 s 人体视觉分析中特征提取和分类算法的研究 于概率估计的整体相似度函数和局部相似度函数,分析了概率估计和前期样本 训练的较大复杂性;然后在传统的欧式距离基础上进行改迸,提出了一种扩大 类间离散度的相似距离s l s s ;对改进的欧式距离的类别可分性进行了合理分析 并给出其局限条件;分析了改进的欧式距离与线性判别函数的区别。同时在理 论上给出了一个定量的准则来衡量特征对分类的有效性。最后,总结了适用于 时变特征匹配的特征参数,为下一步跟踪做好了充分准备。 第6 章对所作的工作进行了总结,同时对后期的工作进行了安排。 人体视觉分析中特征提取和分类算法的研究 第二章背景模型初始化 在计算机上利用背景模型进行视频流的分割,是运动物体检测部分的前提, 也是人体运动识别与分析的基本前提。运动物体检测是从一个固定摄像机采集 的视频流中分割出前景运动物体的整体轮廓。由一台固定的摄像机采集的图象 序列可以被描述成一个固定并且存在缓慢光照变化的背景模型,通过学习可以 得到一个统计的背景颜色模型,用于检测前景物体遮挡所造成的变化。摄像机 采集的视频流大多数是r g b 空间,由于传统的r g b 空间方法不需要转换,所 以具有效率高的优点,但是它不能很好地利用颜色信息。而y u v 空间方法( y 表示亮度,( u ,v ) 表示色度) 能够利用颜色信息帮助解决前景运动区域的检测 问题。h i s ( 色调,饱和度亮度) 空间办法,不但能够使用亮度信息,同时能更 好地使用颜色信息。在当前景运动区域颜色相同的情况下,如果只是依靠图象 序列帧间的不同来进行运动物体的分割,阀值化连续帧之问的差分,把运动象 素二值化映射模板分割成不同的连接部分,就会造成分割的前景区域存在空洞, 不能得到完全的前景信息。当前景物体的运动停止,前景运动区域就会被错分 为背景。对于这种时一空差分的固有问题可以通过背景差分技术来解决,递推地 构造适应性背景模型,使系统保持一个更新地背景模型。 我们利用序列图象对背景模型进行估计。假设观测到的每个背景象素的值 是一个独立的随机过程,每个背景象素的值都服从三维颜色空间的高斯分布, 当处理一帧新输入的图象时,把新输入图象的每个象素的观测值同背景的分布 做比较,以决定这个象素是背景象索还是前景物体象素。 本章首先介绍了几种空间的背景模型及其构造过程,然后介绍了对背景模 型进行递推估计和构造。 2 1 背景模型 构造背景模型阶段的任务是估计背景中每个象素的均值和方差。一个固定 摄像机采集到的存在缓慢光照变化的背景,可以用一个简单的背景模型来表示。 由于在较长的一段时期内,背景中的每一个象素的颜色值稳定分布在某一个确 0 人体视觉分析中特征提取和分类算法的研究 定的领域内,所以背景中的每一个象素的颜色分布可以用高斯分布来表示,即 背景中每个象索p i j 的颜色均服从均值为p i j 方差为“的高斯分布,即: ,g ) = 1堕! 蓬土型 一e z ( :万) 证,j ; ( 2 - 1 ) 其中,d 是自变量的维数,这里它的值是3 。如果确定了高斯分布的均值和 方差,就确定了高斯分布的形式。为了计算方便,可以假定颜色向量的分布是 独立,这样每一维分量分别服从维的高斯分布。通过背景的样本序列来估计 背景模型中每个象素分量的均值和方差。 2 , 2 传统的背景模型初始化 传统的背景初始化方法,是使用不含有前景运动物体的段背景图象序列 来估计背景模型的参数 5 1 。 样本均值估计 2 专擎 ( 2 - 2 ) 样本方差估计 丽1 n 2 ( 2 3 ) 这种传统方法的优点是估计背景准确,并且可以快速地得到所需的背景模 型,但该方法需要有一段没有前景运动区域存在的图象序列,在实际应用中可 能很难得到这样的图象序列。 2 3 递推形式的背景初始化方法 在一个固定的场景中,背景象素暴露时,它的值分布在均值的附近,而被 遮挡时它的值就会出现一个明显的变化。由于作为背景的每个象素被遮挡的时 间与它暴露的时间相比是非常短暂的,所以背景初始化时可以利用相对较长的 人体视觉分析中特征提取和分娄算法的研究 序列来消除其值变化的影响。例如,象素的值分布在1 0 附近,如果一个样本的 值是3 0 ,那么使用1 0 0 个值为1 0 的背景样本和它一起来估计均值,得到的均值 就非常接近1 0 ,这样就抵消了特殊样本对均值估计造成的影响。所以,在背景 估计阶段可以利用这种思想对背景模型进行估计,这样就不必要求场景中不存 在前景运动物体。 我们对上述传统的背景模型估计方法进行改进,转变为递推形式的估计方 法,对很难有前景物体的图象序列进行背景模型初始化。 样本均值估计 通过前n 个样本估计均值,设 s u m 。= x 则 h n = 专s u m n ( 2 4 ) ( 2 - 5 ) 。就是由前n 个样本估计出的均值,当新加入第n + 1 个样本x n + l 时,则 s u m + 】= s u m + x + 1 前n + 1 个样本的样本均值为 t = 专s u m n 。 这样就得到了递推形式的均值估计方法。 样本方差估计 前n 个样本方差估计为 o - n 设 ( 2 - 6 ) ( 2 7 ) ( 2 8 ) ( 2 - 9 ) 人体视觉分析中特征提取和分类算法的研究 s u m q u = x i 2 盯的值是由s u m q n 和2 决定的,并且 s u m q , v + l = s u m q n + x o ( 2 1 0 ) ( 2 - 1 1 ) m 2 可以由前面样本均值的递推估计得到,那么可以得到前n + 1 个样本的 方差估计的递推估计公式为: 。= j 专b 删一( + 1 ) 肌,2 】 ( 2 _ 1 2 ) 在r g b 空间中,由于r 、g 、b 的值可以直接从图象中得到,所以不需要变 换,可以利用递推估计每个象素在r g b 空间的均值和方差。 y u v 颜色空间中,y 表示亮度,( u ,v ) 表示色度,u v 子空间是基于r 、g 、 b 的线性组合, y = 0 3 r + 0 6 g + o 1 b ( 2 - 1 3 ) y = - 0 3 r 一0 6 g + o 9 b r 2 - 1 4 ) y = o 7 r 一0 6 g o 1 b ( 2 - 1 5 ) u 和v 分别代表b 和r 的色度,由于u 、v 代表颜色信息,y 代表亮度的 信息,因此使用删空间即可利用亮度信息也可以利用颜色信息。 用h i s 空间的集合结构来代表象素的颜色更容易理解。当颜色信息可用时, 使用h i s 空间能更好地使用亮度和颜色信息,并且更容易开发出更易理解的检 测算法。由于从视频流中只能得到r g b 的值,所以估计h i s 空间的背景模型时 要把颜色值从r g b 空间转换到h i s 空间,转换公式如下: ,= 妄+ g + b )( 2 1 6 ) s = 1 一志 m i n 俅 g ,b ) i ( 2 - 1 7 ) 肛一0 8 捌2 赫, 弘1 8 , e 月一6 ) 2 + ( r 一占) ( g b 泸j r 、g 、b 分别是归一到【o ,1 的三基色颜色值。 j 人体视觉分析中特征提取和分类算法的研究 2 4 递推背景模型估计 在实际应用中,可以根据所需的精度动态决定估计所使用的样本数。当从前 n 帧和前n + i 帧估计的背景模型均值之差小于绘定的精度时,就认为估计的模 型已经收敛【2 ”。即对于一个给定的正整数f 0 ,当l ,啊+ ,一声i 珊。m 默( o - r ( 9 - g ,盯口( 3 - 1 ) “ 【0 ,o t h e r 其中,d ( r ,g ,b ) = 4 ( r 一心) 2 + ( g 一盹) 2 + 一u 。) 2 表示图象中( i j ) 位置上象 素的颜色值( r ,g ,b ) 与这个位置上的均值之间的距离( 胨、盯。表示该象素r 的均 值和标准差;, a o 、吒表示该象素g 的均值和标准差;鳓、表示该象素b 的 均值和标准差) 。m i j 的值的等于1 时表示该象素属于前景运动区域,等于0 时属 于背景区域。对于不同的噪声环境,可以通过调节c o n s t 值的大小来尽量减噪声 对于运动物体分割的影响。当c o n s t 等于3 时可以比较准确地把前景和背景分割开 ,如图3 1 和3 2 所示。 人体视觉分析中特征提取和分类算法的研究 n 3 】原始图像序列中8 8 帧和1 6 6 帧8 走 l 圉3 2c o i s 时第8 8 帧;n 1 6 6 帧的二值化缺射图f 2 2 ) y u v 空间中的检测 在y u v 空间进行前景检测主要是为了消除影子的影响,利用亮度y 和色度 ( u v ) 的组合一起进行检测可以在一定程度消除影子。由于影子是前景运动物 体挡住照射在背景区域的光源所致,所以影子区域与背景模型相比只是亮度下 降,色度变化不大。当检测帧新的图象时,首先把新输入图象象索的r g b 值 转化为y 1 值,然后再与背景模型中对应象素的y u v 统计模型作比较,判别规 则如下: 如果象索的亮度与背景模型的差值大子某令确定的值,共且它色度的差 值也大于某个确定的值时,那么就认为该象素属于前景区域; 如果亮度差值大于某个较大的值,那么不用考虑色度信息,就可以认为 该象素时前景运动区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论