基于计算机视觉的手势跟踪与识别算法研究

上传人：7*** IP属地：湖北上传时间：2022-03-01 格式：DOC 页数：67 大小：192KB 积分：25 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、青岛科技大学硕士学位论文基于计算机视觉的手势跟踪与识别算法研究姓名：孙玉申请学位级别：硕士专业：控制理论与控制工程指导教师：刘云20090612青岛科技大学研究生学位论文基于计算机视觉的手势跟踪与识别算法研究摘要基于计算机视觉的手势识别是新一代的人机交互手段，有着重要的理论研究价值和应用前景。本文对手势图像的预处理、特征提取、手势的跟踪与识别进行了研究，并在环境下编程实现了对从摄像头输入的个常用手势的识别，并以此为基础建立了一个简单的手势交互系统，以验证算法的可行性。实验结果表明，本文方法对目标手势的实时跟踪有较好的鲁棒性，且对手势的识别取得了良好的效果。首先从输入视频流中采集手势图像，经过预

2、处理建立了手势样本库。在手势图像特征提取阶段，根据识别对象是交互手势这一特点，本文采用矩作为待识别手势的特征，利用几何矩不随图像旋转、平移、尺度的变化而变化的特性，较好的解决了特征提取时的旋转、尺度等不确定性问题。在支持向量机（）多分类方面，分析并验证了“一对多、“一对一和决策有向无环图等多分类算法应用于手势识别时的性能；并进一步对在手势识别中的参数优化进行了研究和仿真实验，实验结果表明“一对多”径向基核函数的支持向量机算法在手势识别中取得了理想的识别效果。此外，针对一个手势样本同时属于多个类的错分情况，本文提出将基于后验概率的多分类算法应用于手势识别，并对该算法进行了仿真实验。以概率作为手势

3、分类的输出，在一定程度上减少了误判情况的发生，最终测试样本集的识别率为。在算法应用方面，本文对自定义的个数字手势的识别进行了仿真实验，并基于平台编写了数字录入程序，将手势识别应用于人机交互中，实现了从摄像头输入手势对文件的操作。本文的创新点：一是提出将基于矩特征和“一对多径向基核函数支持向量机相结合的算法应用到手势识别，并对该算法进行了仿真实验，收到理想的识别效果。二是针对一个手势样本同时属于多个类的错分情况，提出将基于后验概率的多类分类算法应用于手势识别，进一步提高了识别率。关键词：计算机视觉手势交互支持向量机多类分类算法基于计算机视觉的手势跟踪与识别算法研究，曲卿，丽，青岛科技大学研究生学

4、位论文，：青岛科技大学研究生学位论文独创声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含本人已用于其它学位申请的论文或成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：斛、玉日期：知。年月纱日关于论文使用授权的说明本学位论文作者完全了解青岛科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权

5、学校可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时，署名单位仍然为青岛科技大学。（保密的学位论文在解密后适用本授权书）本学位论文属于：保密口，在年解密后适用于本声明。不保密回。（请在以上方框内打“）本人签名：剁、玉导师签名：日期：日期：步云青岛科技人学研究生学位论文第一章绪论手势识别研究的意义在人机交互的发展过程中先后出现了基于文本方式的键盘、基于图形方式的鼠标等交互接口【¨，然而从某种程度上说，这些机械设备在人机交互方面是不方便和不和谐的。它把机器作为人机交

6、互的中心，在人机交互时人需要去适应机器的输入输出设备，对机器没有主动控制的能力。随着计算机科学的快速发展，研究符合人类交流习惯的人机交互技术成为国内外关注的热点，这些研究包括人脸识别、面部表情识别、头部运动跟踪、眼睛识别、手势识别以及人体姿势识别等。总体来说，人机交互的研究已经从以计算机为中心转移到以人为中心，大大提高了人机交互的效率。手势作为人类最自然的表达方式之一，在日常生活中得到了广泛的应用。手势生动、形象、直观，而且蕴涵着丰富的信息，是人与人沟通的重要媒介。目前基于手势的交互已经成为人机交互的重要内容。手势识别的应用前景十分广阔：（）对于聋哑人而言，特别是文化程度比较低的聋哑人，使用手

7、语和正常人交流更加方便和高效。手语是用手势表示意思的语言，对不熟悉手语的普通人来说，理解手语是非常困难的。如果有一套可以翻译手语的系统，则将大大方便聋哑人与正常人之间的交流；（）利用手势对虚拟现实中的智能设备进行控制。比如在虚拟场景内利用手势实现虚拟钢琴的演奏【】，又如用机器人的虚拟手抓取物体等；（）研究人类对于视觉语言的理解规律，提高计算机对人类语言的理解能力；（）手势交互是虚拟现实中多通道接口的重要组成部分之一。手势识别国内外研究现状根据外围设备采集手势图像方式的不同可以把手势识别分为两种：基于数据手套的手势识别和基于视觉的手势识别。基于数据手套的手势识别是通过数据手套和位置跟踪来测量手势

8、运动的轨迹和时序信息，其优点是系统的识别率高，缺点是输入设备昂贵，并且要求打手势的人穿戴复杂的数据手套，给人带来很多不便，因此这种方式不能成为未来发展的趋势。基于视觉的手势识别是计算机通过对摄像头拍摄的手势图像进行分析和处理提取出手的位置及形状。这种方法在实现时无需购买昂贵的设备，仅需要基于计算机视觉的手势跟踪与识别算法研究廉价的摄像头和低端处理能力的机即可。并且在操作时更加自然、方便，符合以人为本和自由性的要求，是手势识别未来发展的趋势。但是这种方法的识别效率比基于数据手套的手势识别低，而且能够识别的手势种类受到很大的限制，是目前亟待解决的问题。国外很早就开始了对手势识别的研究工作。【】创建

9、的手语识别系统使用神经网络的方法识别了个不同的手势。等人使用隐马尔可夫模型（）对输入视频序列中的美国手势中带有词性的个词汇随机组成的句子进行了识别，其中参数的估计采用的是算法。系统对分离单词的识别和由个单词组成的句子（句子的结构限定为代词动词名词形容词代词）的识别分别进行了测试，识别正确率达。使用主成分分析方法创建统计结构，从而识别活跃对象的形状，即模型化系统和弹性对象的识别。和开发的手语理解系统通过固定在人身上的物理传感器和一个能够对手臂进行精确定位的摄像机来获取手臂位置信息。系统采用独立的语言模型对包括个单词的手语集进行了测试，识别率也达到。我国对手势识别的研究起步较晚，但近年来也取得了显

10、著的成果。例如文献中使用神经网络方法和变换对中国手语中的种手势进行识别。在文献丁采用基于表观的手势模型，提取八个手势特征组成特征向量，采用二次分类（粗分类和细分类）的方法对个常用的静态手势进行识别。张秋余、姚开博【等采用矩形特征描述手势，用改进的算法训练分类器，在复杂背景下对手势的跟踪与识别取得了不错的效果。中科院的单彩峰【】提出了结合均值漂移的粒子滤波（，），通过在时序模板中引入时空轨迹，提出了时序模板轨迹概念，将跟踪得到的手势运动轨迹压缩到单幅图像中，实现了对预先定义的动态手势的识别。山东大学的徐立群【等提出了一种基于颜色概率模型并融合运动信息进行手势跟踪的新方法。利用肤色概率查找表将图像

11、序列转换为肤色概率分布图，用运动信息和肤色概率分布对搜索窗口进行初始化，然后对肤色概率分布图进行迭代运算，得到手势的位置和大小，从而实现了对六种孤立手势的识别。论文主要内容本课题得到了国家基金委的支持（基金号：），主要内容是研究基于计算机视觉的手势跟踪与识别。首先对手势跟踪与识别各个阶段的算法进行了分析，提出基于矩特征和“一对多径向基核函数支持向量机相结合的手势识别算法，并在开发环境下，借助开源库，实青岛科技大学研究生学位论文现了对从摄像头输入的个常用手势的识别，以验证提出算法的可行性，并以此为基础建立了一个简单的手势交互系统。基于视觉的手势跟踪与识别流程图见图。图基于视觉的手势跟踪与识别流程

12、图论文内容安排如下：第一章是绪论，主要分析了手势识别研究的意义、总结了国内外研究现状、最后介绍了本文的主要内容和结构安排。第二章是基于计算机视觉的手势识别的基础理论。分别对模式识别、手势跟踪与识别的常用方法做了简要的说明。第三章是手势图像的预处理和特征提取。手势图像的预处理在手势识别中占有非常重要的地位。本章主要从平滑去噪、图像二值化处理、图像的开启和闭合运算等方面对手势图像的预处理进行了分析。在特征提取时，我们选用矩特征组作为特征向量，为下面手势的跟踪与识别打下了良好的基础。第四章主要分析了手势的跟踪，详细分析了色彩空间的转换、均值漂移算法以及算法等。本章所采用的算法是一种较好的基于色彩信息

13、的跟踪算法，它对系统资源要求不高，跟踪速度快，受光照强度变化的影响较小，在简单背景下取得了良好的跟踪效果。第五章首先分析了支持向量机（）的基本原理，从最优分类面的角度讨论了线性、非线性的支持向量机分类算法。接着简要分析了几种常见的多值分类算法及其特点，并提出将基于后验概率的支持向量机多分类方法用于手势识别，提高了识别率。最后从核函数及其参数、惩罚因子等方面分析了支持向量机的参数选取。第六章对基于视觉的手势跟踪与识别进行了仿真实验。首先对自定义的个数字手势的识别进行了仿真，以验证本文所提出算法的可行性，接下来基于平台编写了数字录入程序，将手势识别应用于人机交互中，实现了从摄像头输入手势对文档的操

14、作。基于计算机视觉的手势跟踪与识别算法研究最后是总结与展望。对本文所做的工作进行了总结，并对下一步工作进行了设想与安排。青岛科技大学研究生学位论文第二章基于计算机视觉的手势识别基础理论在人与人的交际过程中，经常会用到手势，手势的语义强大并且直观，可以很好地表达思想，与自然语言形成互补。所以近些年来，手势识别的研究得到了很大的关注和发展。本章主要介绍基于视觉的手势识别的一些基础理论。模式识别概述模式识别诞生于世纪年代，随着年代计算机的出现，年代人工智能的兴起，模式识别在年代初迅速发展成学科。它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视，推动了人工智能的发展，扩大了计算机应用的可能性

15、。几十年来，模式识别研究取得了大量的成果，在很多方面都得到了广泛的应用。但是，由于模式识别涉及到很多复杂的问题，现有的理论和方法对于解决这些问题还有很多不足之处。通常，我们把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式，把各模式所属的类别称为模式类。模式识别是对表征事物或者现象的各种形式的信息进行分析和处理，来实现对事物或现象进行描述、辨认、分类和解释，是信息科学和人工智能的重要组成部分。人们为了掌握客观事物，就将事物按照相似度组成类别。模式识别的作用和目的就在于面对某一具体事物时将其下确的归入某一类别。有两种基本的模式识别方法，即统计模式识别方法和结构模式识别方法。与

16、此相应的模式识别系统都由两个过程组成，即设计与实现。设计是指用一定数量的样本（叫做训练集或学习集）进行分类器的设计。实现是指用所设计的分类器对待识别的样本进行分类决策。基于统计方法的模式识别主要由个部分组成：数据获取、预处理、特征提取和选择、分类决策，如图所示。图模式识另系统的基本构成毽筋基于计算机视觉的手势跟踪与识别算法研究数据获取为了使计算机能够对各种现象进行分类识别，要用计算机可以运算的符号来表示所研究的对象。通常输入对象的信息有一维波形、物理参量和逻辑值、二维图像种类型，通过测量、采样和量化，可以用矩阵或向量表示二维图像或一维波形。这就是数据获取的过程。预处理预处理的目的是去除噪声，加

17、强有用的信息，并对输入测量仪器或其他因素所造成的退化现象进行复原。特征提取由图像或波形所获得的数据量是相当大的。例如，一个文字图像可以有几千个数据，一个心电图波形也可能有几千个数据。为了有效地实现分类识别，就要对原始数据进行变换，得到最能反映分类本质的特征。这就是特征提取和选择的过程。一般我们把原始数据组成的空间叫测量空间，把分类识别赖以进行的空间叫做特征空间，通过变换，可把在维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。分类决策分类决策就是在特征空间中用统计方法把被识别对象归为某一类别。基本做法是在样本训练集基础上确定某个判决规则，使按这种判决规则对被识别对象进行分类所

18、造成的错误识别率最小或引起的损失最小。基于计算机视觉的手势跟踪理论手势分割与跟踪是手势识别的基础，其好坏将影响识别率的大小。手势分割的方法大体分为三种：基于运动信息的、基于运动模板的和基于颜色信息的。基于运动信息的手势分割是通过对前后两帧图像做差分运算来检测手势的，当手势运动时则图像发生变化。运动估计的依据是图像强度发生变化，用图像序列中相邻图像的差来表示强度的变化。图像差运算非常简单，这是由于在图像差运算中仅仅涉及到了像素强度的相减。在实际的手势识别系统中，摄像机的位置是固定的，对手势序列中相邻两帧图像做差分运算便能有效地保留运动的部分（即手势），滤除图像中保持不变的背景区域。基于运动模板的

19、手势分割是用模板匹配方法寻找运动的手势，一般把二维可变形模板作为插值节点去近似物体轮廓。模板由平均点集合、点可变性参数和外部变形构成，平均点集合描述的是某一组形状的平均形状，点可变性参数描述的青岛科技人学研究生学位论文是可变形模板的全局运动。通常用基于可变形模板的人手模型来跟踪人手。二维模板实现简单，但对手的姿念有一定限制。三维模板则不受手的姿态的限制，但其参数过多使得实现困难。基于颜色信息的分割在图像分割中占有重要地位。颜色分割与其他两种方法相比，具有高效性和鲁棒性等特点，得到了广泛的应用。但是在复杂背景的情况下或者光照变化快时，基于颜色的分割效果不好，为了解决这个问题，目前众多研究者尝试利

20、用融合多种信息的技术进行手势分割。国内外对手势跟踪的研究很多，例如文献【利用粒子滤波（）对手势跟踪获得了较好的效果。巧（）是一种基于颜色概率模型的跟踪算法，它是算法的改进与扩展，可以处理动态变化的分布。当视频序列一帧一帧变化时，能够自动调节搜索窗的大小和位置，定位被跟踪目标的中心和大小，并且用当前帧定位的结果来预测下一帧图像中目标的中心和大小，每帧图像都这样处理，就形成了连续的跟踪。基于计算机视觉的手势识别理论基于视觉的手势识别可以分为基于单目视觉的手势识别和基于多目视觉的手势识别。基于单目视觉的手势识别就是通过单个摄像机来采集手势图像，从而建立平面手势模型。这种方法处理的数据量较小，识别速度

21、快，但是对于用户手势的输入限制较大。基于多目视觉的手势识别是通过两个或两个以上的摄像机来采集图像，建立的是立体模型。这种方法对于用户手势的输入限制较小，可以实现更加自然的人机交互，但由于立体模型的复杂性，需要处理大量的数据，识别时间长，无法实现实时的识别。基于视觉的手势识别算法可分为神经网络算法、模板匹配，统计分析算法、和隐马尔可夫模型（）等。神经网络算法对人工神经网络的研究早在世纪年代就已经开始了。有人以包含一和变化的随机模型作为模型化神经系统的基础。到了年代中期和年代初期，人们已设计出称为感知机（）的学习机器，引起了模式识别理论界人士的重视。年代中期提出的对多层感知机的新训练算法（称为以反

22、扩散学习的广义德尔塔（）规则）是非常有效的。广义德尔塔规则在许多实际问题中得到了成功的应用，使得多层感知机类机器成为目自玎使用神经网络的主要模型基于计算机视觉的手势跟踪与识别算法研究之一。神经网络是指利用工程技术手段模拟人脑神经网络的结构和功能的一种技术，其目的是使机器具有人脑那样的感知、学习和推理功能。神经网络方法在手势识别领域得到了广泛的使用。它对信息处理具有自组织、自学习等特点，有较强的抗干扰能力。它是由许多具有非线性映射能力的神经元组成的一种大规模并行处理网络，神经元之间通过权相连。文献采用了（时延神经网络）的手势识别技术。神经网络模型实现了多层网络学习的设想。它是一种单向传播的多层前

23、向神经网络，除输入输出节点外还有一层或多层隐层节点，同层节点之、日没有耦合，输入信号从输入层节点依次传过各层节点，最后到达输出层节点。每一层节点的输出只影响下一层节点的输出。神经网络结构分三层：输入层、隐含层和输出层。图是一个三层前馈神经网络模型，输入层、中间隐含层和输出层的神经元个数分别为、和。卜蜘两却一一卜弗瓢舢私图三层前馈神经网络模型网络学习是典型的有导师学习。训练集包含个样本，对第个训练样本（，），单元的实际输出为郇，它的第个输入（也即第个神经元的输入）为硝，则：“，算法中大多选用型函数作为输出函数，即：（一）（）丽（）青岛科技大学研究生学位论文基于模板匹配的算法模板匹配算法就是将输入

24、的原始数据与预先存储的模板进行匹配，通过测量两个模板之间的相似度进行识别。模板匹配的方法多用于静态手势识别中，如文献【中通过计算模板的相关系数来进行预测匹配。文献中张良国、吴江琴、高文等人首先改进了距离，接下来通过比较预处理后的输入图像的距离和标准模板库中各种图像的距离进行判断。距离是描述两组点集之间相似程度的一种量度，它是两个点集之间距离的一种定义形式【：假设有两组集合口，口，），轨，则这两个点集之上的距离定义为：日（，曰）（，口），（，”（）璺叫（）（，）学咧一圳（。）功：口一是点集和点集间的距离范式这里，式（）称为双向距离，是距离的最基本形式；式（）（）中的（，）和庇，）分别称为从集合集

25、合和从曰集厶至：集合的单向距离。即（，曰）实际上首先对点集中的每个点；到距离此点最近的集中点，之间的距离陋；一川进行排序，然后取该距离中的最大值作为（，曰）的值，（，）同理可得。由式（）知，双向距离似，曰）是单向距离（，）和（，）两者中的较大者，它度量了两个点集之间的最大不匹配程度。统计分析算法统计分类算法是在模式识别发展的过程中建立的经典方法，它用概率统计模型得到各类别的特征向量分布，以达到分类的目的。统计分类算法是一种监督学习的模式识别方法。如何将分类器设计得更有效，识别率更高，是需要重点解决的问题。当几个类别的样本在特征空间的分布符合一定的拓扑结构，并且我们知道各个类别的概率分布函数时，

26、我们就可以利用统计分类方法进行模式识别。常用的统计分类方法有很多，例如”方法、决策树和决策表方法等。模式的统计分类方法，又称为决策理论识别方法，它是将各模式类别看成是用某个随机向量实现的集合。属于同一类别的各个模式之间的差异，有些是由环境噪声和传感器的因素引起的，有些是模式本身所具有的随机性质引起的。在通基于计算机视觉的手势跟踪与识别算法研究常情况下，不同类别的两个模式之间的距离要大于同一类别的两个模式之间的距离，这样就可以将特征空间准确的划分为几个区域，其中各个区域同各个类别是一一对应的。若不满足上述条件，则对每个特征向量估计其属于某一类的概率，概率值最大的类就是该点所属的类别。统计分类方法

27、常用的分类器主要有贝叶斯分类器、线性判别函数、树分类器、最小距离分类、近邻法分类、聚类分析等。隐马尔可夫模型（）在给定前一个状态的情况下，随机变量序列的下一个状态的出现是条件独立的。每一个时刻的随机变量有一个度量值，这个度量值的分布与该时刻的状态有关。这样的模型称为隐马尔可夫模型（）。隐马尔可夫模型是在链的基础之上发展起来的。实际问题比马尔可夫链所描述的更为复杂，观察到的事件并不是与状态一一对应的，而是通过一组概率分布相联系的。它是一个双重随机过程：一是描述状态转移的马尔可夫链是基本随机过程；另一个是描述状态和观察值之间的统计对应关系是随机过程。基于以上原因观察者只能看到观察值不能直接看到状态

28、，即让观察者通过一个随机过程去感知状态的情况，所以称之为“隐”模型。如图为隐马尔可夫模型组成的示意图。作为信号的一种统计模型，已经在语音信号处理领域得到了广泛应用，近年来很多研究者也将用于手语识别领域。但是应用于手势识别时有很多约束。首先，动态手势信号不满足马尔可夫性质，也就是说随机向量当前的状态只与一状态有关；其次，仅用隐马尔可夫模型对手势建模远远不够，会导致隐马尔可夫模型将许多信号作为噪声处理。链（）吼，状态序列随机过程（），一观察值序列隐马尔可夫模型组成基于计算机视觉的手势跟踪与识别系统计算机视觉研究就是计算机通过对一幅或多幅图像进行分析，从中获取三维世界的运动信息或者集合特征，例如物体

29、的位置、形状、姿态运动等信息，接下来对这些信息进行分析、处理，以达到认识三维世界的目的。计算机视觉作为一门新兴的学科，正在受到越来越多的关注。视觉运动分析方法因具有适用范围广、青岛科技人学研究生学位论文抗电子干扰能力强、测量精度高和保密性好等优点，在军事、导航、机器人技术、气象分析、医疗诊断、交通管制、安全防范等领域得到了广泛的应用。手势作为人类最自然的表达方式之一，在日常生活中得到了广泛的应用。同时，手势具有适应性强、形象生动及简便易行等特点，比较适合在非特定环境下对机器人的控制。通常一个完整的手势跟踪与识别系统，分为以下几个部分：（）手势的检测与跟踪：手势的检测与跟踪是手势识别的基础，其好

30、坏将影响识别率的大小。手势分割的方法大体分为三种：基于运动信息的、基于运动模板的和基于颜色信息的。国内外对手势跟踪也做了大量研究，常用的有卡尔曼滤波（）、粒子滤波（）等跟踪方法。（）静态手势识别：静态手势识别是指对于静态图片中手的形状和手的姿势进行识别。国内外对静态手势识别做了大量研究。例如文献中提出了一种使用神经网络方法和变换对中国手语中的种手势进行识别。在文献中采用基于表观的手势模型，提取八个手势特征组成特征向量，采用二次分类（粗分类和细分类）的方法对个常用的静态手势进行识别。（）动态手势识别：动态手势识别是对连续的手势序列进行实时的跟踪，通过对跟踪到的手势运动的时空轨迹（）或手势状态轨迹

31、（）进行处理，以识别摆手等动态手势。本章小结本章主要介绍了当前常用的基于视觉的手势跟踪与识别基础理论。它是涉及模式识别、图像处理、计算机视觉等多个学科的技术。我们首先对模式识别做了一个简要的概述，其次介绍了基于视觉的手势跟踪与识别主要方法，最后介绍了手势跟踪与识别系统的结构。基于计算机视觉的手势跟踪与识别算法研究第三章手势图像预处理及特征提取手势图像的预处理和特征提取是下一步要进行的手势跟踪与识别的前提，其质量的好坏既关系到手势的识别率，又关系到所建立的人机交互系统的整体性能。本章针对图像采集时所遇到的光照变化、旋转、平移等不确定因素，对手势图像的预处理和特征提取进行了分析。手势图像预处理在手

32、势图像的预处理阶段，为了得到理想的分割效果，本文对采集到的手势图像采用了图像平滑、色彩空间转换、图像二值化以及形态学处理等算法以得到准确的手势二值化图像。图像平滑图像平滑的目的是为了消除噪声。图像噪声的来源有三种：一是在光电、电磁转换过程中引入的人为噪声；二是大气层电（磁）暴、闪电、电压、浪涌等引起的强脉冲性冲激噪声；三是自然起伏性噪声，由物理量的不连续性或粒子性引起，这类噪声又可分为热噪声、散粒噪声等。消除噪声的方法又可以分为空间域方法或频率域方法，亦可以分为全局处理方法或局部处理方法等。邻域平均法邻域平均法刎是简单的空域处理方法。这种方法的基本思想是用几个像素灰度的平均值来代替每个像素的灰

33、度。假定有一幅个像素的图像厂似），平滑处理后得到一幅图像似）。似）由下式决定：似力一，乏伽，功（），扁。一式中，；是点伍纠所在领域的中点的坐标集合，但不包括似力点；是集合内坐标点的总数。式（）说明，平滑后的图像似）中每个像素的次度值，均由似一邻域中包含的像素灰度值的平均值来决定。中值滤波法中值滤波【是一种非线性滤波，由于它在实际运算过程中并不需要图像的统计特性，所以比较方便。中值滤波首先是被应用到一维信号处理技术中，后来被二维图像信号处理技术所引用。在一定的条件下，它可以克服线性滤波器所带来青岛科技人学研究生学位论文的图像细节模糊，而且对滤除脉冲干扰及图像扫描噪声最为有效。但是对一些细节，特别

34、是点、线、尖顶细节多的图像不宜采用中值滤波的方法。频域平滑技术图像的平滑既能够在空域中进行，又能够在频域中进行。频域平滑技术是一维信号低通滤波器在二维图像中的推广。对于一幅图像，它的边缘、跳跃部分以及噪声都代表图像的高频分量，而大面积的背景区和变化缓慢的部分则代表图像的低频分量，用频域低通滤波器除去其高频分量就能去掉噪声，从而使图像得到平滑。滤波器的数学表达式为：，叻（，（，（）其中（，为原图像的傅立叶变换，（，）为平滑后图像的傅立叶变换，（，）是滤波器的转移函数。常用的低通滤波器有：（）理想低通滤波器】一个理想低通滤波器的传递函数为：脚，讳嬲二，其中。为截止频率，（，）一）必是点，到频率平面

35、原点的距离。理想低通滤波器在处理过程中会产生比较严重的模糊和“振铃”现象，这是由于日，在。处由突变到，这种理想的日，对应的冲激响应厅）在空域中表现为同心环的形式，并且此同心环数与。成反比，。小，同心环数越多，模糊程度越厉害。正是由于理想低通滤波存在“振铃现象，其平滑效果才下降。（）巴特沃斯滤波器一个巴特沃斯滤波器的传递函数为：娥旷丽振铃效应，故图像的模糊将减少。（）指数型滤波器一个指数形滤波器的传递函数为：（）！坐其中。为截止频率，当，力时，（，降为最大值的坭。，为阶数，取正整数，阶数刀控制曲线的形状。由于转移特性曲线较为平滑，没有基于计算机视觉的手势跟踪与识别算法研究眦小时马竽卜些，但没有振

36、铃效应。（）其中为截止频率，为阶数，当（，且”时，（，）降为晟大值的。用指数形滤波器滤波后的图像比用巴特沃斯滤波器滤波后的图像模糊一图（）（）（）分别是原图像、加椒盐噪声的图像、中值滤波效果图以及×邻域滤波效果图。可见，用中值滤波的方法进行图像的平滑处理效果比较理想，因此本文在手势预处理中采用中值滤波法对图像进行平滑。嘞（）图图像平滑效果囤图像色彩空间转换计算机色彩理论认为，一种颜色在计算机中有多种不同的表达方式，从而形成了各种不同的色彩空间。事实上，各种色彩空间只不过是颜色在计算机内不同的表达形式而已，每一种色彩空自都有它各自的应用领域、产生背景等。下面我们分析几种常用的色彩空间【

37、如；模式模式的定义是以人眼对色彩的观察为依据的，在模式中，每种颜色都用色度、饱和度、亮度三个特征来表示。色度与波长有关，例如，不同波长的可见光具有不同的颜色。波长不同的光以不同比例混合能够形成各种各样的颜色。饱和度指颜色的强度，表示在色调中灰色成分所占的比例，用一（纯色）表示。亮度表示颜色的相对明暗程度，通常用（黑）一（白）来度量。将转换为所用的变换为：糊尸册（）青岛科技大学研究生学位论文舯“一一一一丽【曲，别（）（），三（占）肿园【色彩空间广泛应用于数字视频。在这种格式中，亮度信息用单个分雕耋卜墨豢吲园，通道二值化图像进行后续的分析和处理。如图（）（）（）（）（）分别是手势摹丁计算机视觉的手

38、势跟踪口别算法研究（）囤手势图枞空间转换空间的效果图（）（）协图像二值化图像的二值化就是指把多灰度级的图像变成只有两个灰度级的图像。把其中感兴趣的目标像素作为前景像素，其余部分作为背景像素。设图像，）的灰度值范围在，二值化的闽值设为扣，），则图像一值化的一般表达式为：如棚鼗棠酱勾得到的（，）就是二值图像，阈值不同，得到的值图像，）也是不同的。因此要达到理想的分割效果，选择合适的闽值是至关重要的。图像二值化方法大致分为三种：整体闽值二值化、局部闽值二值化以及动态闽值二值化。仅由像素点，）的扶度值，（，）确定闽值的方法称为整体阈值选择法。由像素，）的灰度值（，）和像素周围点局部度特性确定阈值的方法

39、称为局部闽值选择法。当闽值选择不仅取决于该像素阈值以及其周围各像素的灰度值，而且还与该像素坐标位置有关时，称之为动态闽值选择法。模式法模式法是指当扶度直方图具有双峰性的时候，目标物体和背景的扶度分别在两个山峰的附近，则将山谷的中心点作为模式法的闽值。但是，实际得到的灰度直方图不平杆，存在由于小的凹凸而产生的局部极小值，这样给自动判断造成诸多不便。针对这种情况，可以先对放度直方图进行平滑处理，再确定闽值。这样做会产生一些噪声，但对判断结果的影响不大。动态阈值法当光照不均匀时，用确定闽值二值化方法分割效果不理想。在这种情况下，我们可以用动志闽值法解决。把图像分成若干个予区域，对每一个子区域计算其灰

40、度直方图。如果在子区域中同时存在背景和目标物体，那么其获度直方图呈双峰，这时可再用模式法等进行二值化处理。这种情况下，每个子区域一般都不相青岛科技大学研究生学位论文同，这种二值化方法称为可变阐值法。最大类问方差法（）最大类间方差法是通过使两组像素的组内方差最小来确定阈值的方法。首先定义直方图函数为概率函数，其中州）表示灰度值，的直方图概率，）（，）（，）一，其中是图像的空间区域。如果灰度直方图是双模式的，则通过灰度直方图求闽值就是确定最佳阐值，利用阙值把两种模式分开。根据阈值，可以确定灰度值小于或者等于的像素集的方差以及灰度值大于的像素值的方差。晟大类间方差法的最佳阈值是使组内方差的加权和最小

41、的阈值，其中权分别代表各组概率。组内均衡性的测度是方差，则均衡性高的具有较低的方差，均衡性低的具有较高的方差。本文用晟大类间方差法（）对手势图像做二值化处理。图所示，（）（）（分别是通道图像、通道图像以及。通道图像的二值化效果图。通道二值化图像也就是直接荻度化的效果，与西通道以及通道的二值化图像相比，分割效果不佳，因此，本文采用虽大类问方差法对手势。通道图像进行二值化处珲。：（）蕊（）（）图通道、）通道和通道二值化图像，吨图像形态学处理由于噪声的影响，使手势图像的分割效果不太理想。我们再采用形态学处理方法获得比较理想的手势分割效果。形态学处理的基本运算有膨胀、腐蚀、开运算和闭运算。（）膨胀：用

42、结构元对二值图像进行膨胀运算表示为，定义如下：口旧（。）用结构元扫描整幅图像。初始化输出图像的像素值为，一旦结构元的原点遇值图像丑中值为的像素时，结构元整体形状就与输出图像进行逻辑基于计算机视觉的手势跟踪与识别算法研究“或”运算【。（）腐蚀：用结构元对二值图像曰进行腐蚀运算表示为），定义如下：（）腐蚀运算也是用结构元扫描整幅图像。针对二值图像上的每一个像素点，如果结构元上每一个值为的像素都覆盖着二值图像上一个值为的像素，则将二值图像上与结构元原点对应的像素与输出图像对应点进行逻辑“或运算。（）闭运算：用结构元对二值图像曰进行的闭运算表示为口，定义：曰）（）先膨胀后腐蚀的过程就称为闭运算。闭运算

43、能够填充物体内细小空洞，连接邻近物体以及平滑边界。（）开运算：用结构元对二值图像进行的开运算表示为曰。，定义：刀。（）（）先腐蚀后膨胀的过程称为开运算。开运算具有消除细小物体，在纤细处分离物体和平滑较大物体边界的作用。本文利用分割方法得到的图像还存在噪声，如图（）所示，二值化后的手势图手指区域分割并不完全，这会导致后续特征值的计算产生一定的偏差从而影响最终的手势识别结果，所以我们把分割得到的图像先进行膨胀运算，如图）所示，去掉分割不理想导致的小的“孔洞”；再进行腐蚀运算得到图像（）。出凼出（）（）（）图手势图像形态学处理效果图手势图像特征提取图像识别是根据图像特征进行的，显然这些特征的选择非常重要，它严重影响到图像识别分类器的设计、特性及识别结果的准确性。如果特征选择错误，就不能准确分类，甚至无法分类。所以特征选择是图像识别的一个关键问题。因为实际问题中很难找到那些最关键的特征，或者某些图像的特征会随着环境的变化而变化，这就使得特征的选择和提取更加复杂化。青岛科技大学研究生学位论文如何从众多特征中找出那些最有效最关键的特征是特征选择和提取的基本任务。当样本数量不是很多时，需要用很多特征进行分类器的设计，

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于计算机视觉的手势跟踪与识别算法研究

文档简介

温馨提示

最新文档

评论

基于计算机视觉的手势跟踪与识别算法研究

文档简介

温馨提示

最新文档

评论

相关文档