(计算机应用技术专业论文)基于摄像头的交互方式的研究及应用.pdf_第1页
(计算机应用技术专业论文)基于摄像头的交互方式的研究及应用.pdf_第2页
(计算机应用技术专业论文)基于摄像头的交互方式的研究及应用.pdf_第3页
(计算机应用技术专业论文)基于摄像头的交互方式的研究及应用.pdf_第4页
(计算机应用技术专业论文)基于摄像头的交互方式的研究及应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于摄像头的交互方式的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着摄像头的不断普及,基于摄像头的交互方式已经成为当前人机交互研究的热点 问题。本文设计开发了两种基于摄像头交互的具有创新意义的应用,即基于摄像头的汽 车模拟驾驶系统和基于摄像头的计算机纸笔交互系统。 基于摄像头的汽车模拟驾驶系统采用一张带有标记的纸作为模拟驾驶的手段,通过 纸上打印的标记来控制车的转向、档位、刹车、倒车、鸣笛等操作。摄像头采集图像信 息,借助a r t o o l k i t 视觉软件包,对所采集图像进行识别,从背景中检测出标定位置和 状态。然后在此基础上进行算法的设计,将识别到的信息转换成对车的控制指令。达到 了通过摄像头识别信息,用现实世界中带有标记的“纸 ,控制虚拟场景中的车进行模 拟驾驶的目的。 另外,本文提出了一种基于摄像头的计算机纸笔交互方式,使用户通过普通的纸笔 和摄像头,完成类似传统键盘对计算机进行文字输入、图像输入等功能。借助o p e n c v 完成基本的图像采集工作,然后通过本文设计的矩形识别算法将背景中用于书写的区域 提取出来,并对其位置校正,将任意摄像头角度下的书写区域映射到正投影模式,从而 实现了利用o c r 对书写的文字内容进行识别。 汽车模拟驾驶系统使用价格低廉、广泛普及的摄像头和带有标记的纸作为交互手段, 平衡了鼠标键盘式操作和模拟驾驶器操作的一些优缺点,为用户虚拟驾驶带来新的体 验。计算机纸笔交互系统则通过简单的纸笔和摄像头就能对计算机进行信息输入,使得 人机交互更加方便和带有个人特色。试验表明,本文基于摄像头的交互方式,为用户带 来了人机交互的新体验和乐趣,使人与计算机的交流更加自然和人性化。 关键词:摄像机,视觉交互,汽车驾驶,模拟器,目标检测 a b s t r a c t w i t ht h eg r o w i n gp o p u l a r i t yo fw e b c a m s ,c a m e r a - b a s e di n t e r a c t i v ea p p r o a c hh a sb e c o m e ah o tr e s e a r c ht o p i ci nh u m a n c o m p u t e ri n t e r a c t i o nc o m m u n i t y t h i sp a p e rd e s i g n e da n d d e v e l o p e dt w oi n n o v a t i v ec a m e r a - b a s e di n t e r a c t i o na p p l i c a t i o n s ,c a m e r a - b a s e dv e h i c l e d r i v i n gs i m u l a t o rs y s t e ma n dc a m e r a - b a s e dp e n a n d p a p e ri n t e r a c t i v es y s t e m w i t ht h ec a m e r a - b a s e dv e h i c l ed r i v i n gs i m u l a t o rs y s t e m ,ap a p e rp r i n t e d 谢t i lc o n t r o l m a r k e r si su s e da st h ei n p u td e v i c et oc o n t r o lv e h i c l e sd i r e c t i o n ,g e a r , b r a k e ,r e v e r s e ,h o r n a n do t h e ro p e r a t i o n s t h ew e b c a mc a p t u r e si m a g ei n f o r m a t i o nf r o mt h ev i d e os t r e a m ,a n d 晰t ht h eh e l po ft h ea r t o o l k i tp a c k a g e ,t h el o c m i o na n ds t a t u so fm a k e r sa r ee x t r a c t e df r o m t h eb a c k g r o u n d b a s e do nt h ea l g o r i t h md e s i g n e db yt h i sp a p e r , t h el o c a t i o na n ds t a t u s i n f o r m a t i o na r et r a n s l a t e di n t ov e h i c l ec o n t r o lc o m m a n d s ,d r i v i n gt h ev i r t u a lv e h i c l e t h i s p a p e rh a sa c h i e v e du s i n gt h e ”m a k e rp a p e r ”i nr e a l w o r l dt oc o n t r o lt h ec a rd r i v i n gi nt h e v i r t u a ls c e n e a n o t h e rc a m e r a - b a s e da p p l i c a t i o n , p e n - a n d p a p e ri n t e r a c t i v es y s t e mi sp r e s e n ti nt h i s p a p e r i nt h es y s t e m ,u s e r sc a ni n p u tt e x ta n di m a g e s 谢t l lo r d i n a r yp e na n dp a p e rw i t h w e b c a m si n s t e a do fk e y b o a r d s t h es y s t e mc o m p l e t e st h eb a s i ci m a g ea c q u i s i t i o nw i t h o p e n c v , c o r r e c t st h ep o s i t i o no ft h ew r i t i n ga r e a , w h i c hi se x t r a c t e df r o mt h eb a c k g r o u n d a c c o r d i n gt o t h er e c t a n g l er e c o g n i t i o na l g o r i t h md e s i g n e di n t h i sp a p e r t h e nw i t l lo c r t e c h n o l o g yt h ew r i t i n gi st r a n s l a t e di n t ot e x to ri m a g e sa f t e rt h ew r i t i n gr e g i o np r o j e c t e do n t o t h eo r t h o g r a p h i cp l a n e t h ec a m e r a - b a s e dd r i v i n gs i m u l a t o rs y s t e m ,u s i n gi n e x p e n s i v e ,w i d e s p r e a dw e b c a ma n d t h em a r k e dp a p e r , b a l a n c e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h em o u s e k e y b o a r d o p e r a t i o nm o d ea n dt h ej o y s t i c km o d e ,a n db r i n g sn e wv i r t u a ld r i v i n ge x p e r i e n c et ou s e r s i n t h ec a m e r a - b a s e dp e n a n d p a p e ri n t e r a c t i v es y s t e m ,u s e r sc a i li n t e r a c t 谢t i lc o m p u t e rm o r e p e r s o n a l i z e d i th a sb e e np r o v e df r o mt h et e s t st h a tt h ec a m e r a - b a s e di n t e r a c t i o nm o d ec a r l b r i n g san e we x p e r i e n c ea n df u nf o ru s e r s ,a n dm a k e st h ec o m m u n i c m i o nb e t w e e np e o p l ea n d c o m p u t e r sm o r en a t u r a la n dh u m a n i z e d k e yw o r d :c a m e r a , v i s u a li n t e r a c t i o n ,d r i v i n g ,s i m u l a t o r , t a r g e td e t e c t i o n 长安大学硕士学位论文 1 1 前言 第一章绪论 软硬件技术的不断提高,使得已经得到普及的电脑,从工作性能角度考察,完全能 够满足普通用户的需求。于是人们开始将注意力转移到人与电脑之间的交互方式上。什 么样的交互方式更方便? 更科学? 更能让人们很快的适应? 普及性更强? 能使人们在 与电脑交流的过程中得到更多的乐趣? 这些问题逐渐成为了人们关注的焦点。 作为人机接口设备,键盘鼠标扮演了极其重要的角色。然而鼠标键盘却把一些人挡 在了科技生活的大门之外,随着人机交互“自然化”的发展,传统的鼠标键盘交互方式 已经不能满足用户的要求了。 近年来,一些新兴的交互方式,如语音识别,触摸屏输入,手势交互等的产生,顺 应了人机交互“以人为本 的出发点【l 】。新的交互方式的产生有着它的应用领域,同时 也存在着一定的缺点和局限。比如语音输入方式对音准和音调的要求,手势交互只能是 指令性的交互而不能作为文字输入方式等,这些都限制了交互方式的发展和普及,也为 新的交互方式的产生提供了空间。 本文以提出一种自然的、有趣的、更易普及的交互方式为出发点,设计基于摄像头 的交互方式,并将这种交互方式应用在汽车模拟驾驶系统和计算机信息输入上面。在汽 车的模拟驾驶中,用一张带有标记信息的纸充当模拟驾驶室,为用户提供了一种新鲜的、 有趣的、易获得的模拟驾驶操作手段。在信息输入方面,能通过摄像头采集纸笔这种传 统的信息表达方式所输入的信息,方便了不熟悉键盘打字的用户,也使得用户在与计算 机交流的同时,增加了个人色彩。 1 2 交互方式的演变 1 2 1 人机交互概述 人机交互( h c i ,h u m a n c o m p u t e ri n t e r a c t i o n ) 是- - f l 跨学科的领域,从广义上理 解就是用户体验,直观意义上理解是指人与机器之间的互动方式【2 】。人机交互技术主要 由人、交互设备和交互软件三方面因素组成【3 】,它主要是通过计算机输入、输出设备, 以有效的方式实现人与计算机的交流。 第一章绪论 人机交互的发展史可以总结为以下几个阶段:早期的手工作业阶段;作业控制语言 及交互命令语言阶段;图形用户界面阶段;网络用户界面阶段;多通道、多媒体的智能 人机交互阶段。人机交互这样的一一个发展过程,可以说是一个从人适应计算机到计算机 不断地适应人的发展史【4 1 。如图1 1 所示。 g a y 命令语言界面 命令语言界面 ,_ 一 一一- o 图形用户界面 图1 1 人机交互的发展历程 1 、人适应计算机 计算机技术发展的初级阶段,由于系统的运行速度慢、机器的价格昂贵、计算机系 统的西,靠性也较差等原因,不可能进行现代意义的交互,用户必须调整自己的行为去适 应机器的要求。人机交互发展过程中,早期的手工作业阶段和作业控制语言及交互命令 语言阶段属于人适应计算机的阶段。在这个阶段,使用者或者面对十分庞大笨拙的二进 制计算机,使用计算机代码语言( 0 ,1 代码) 和手工操作的方法与计算机进行交流,或 者通过记忆许多命令,通过不断的敲击键盘输入这些命令与计算机打交道,同时也可以 了解计算机的执行情况。 随着计算机性能的提高,人们将注意力转移到人机交互上。人们开始思考,我们并 不生活在电脑世界,我们存在于一个三维的立体世界,为什么电脑不进入我们的世界, 而要求我们进入它的世界昵? 这就决定了人机交互从人适应机器的阶段跨入到机器适 应人的阶段。 2 、计算机适应人 从图形用户界面( g u i ) 阶段开始,就拉丌了人机交互计算机适应人的序幕。图形用户 界面的产生,使用户和计算机的交流叮以直接通过鼠标进行操纵,不再需要掌握跟自然 语言相差甚远、复杂的计算机语言,使得不懂计算机语言的普通用户也l j j 以熟练地对其 进行操作和使用,大大拓宽了计算机的使用群。人机交互进入网络用户界面阶段,网络 用户界面的代表是以超文本标记语言h t m l 及超文本传输协议h t t p 为主要基础的州 络浏览器。随着技术的不断进步,新技术的不断出现,如搜索引擎、各种聊天i :具等, 长安大学硕士学位论文 都使人机交互有了更进一步的提高。进入多通道、多媒体的智能人机交互阶段后,人们 开始考虑使人机交互脱离鼠标键盘交互工具的束缚,利用人的多种感觉通道和动作通 道,如语音、手写、姿势等输入。这样的交互方式,已经更为人性化,并使人机交互朝 着自然、高效的方向发展【5 1 。 1 2 2 交互方式的发展 人机交互的发展史同样是交互方式的发展史。交互方式的不断改进,使得人们在进 行人机交互的过程中能够越来越得心应手,能更好的体验技术带给人类的便利与美好。 下面将交互方式发展过程做简单介绍。 2 0 世纪中期,键盘作为电脑的基本输入设备,一直延续到现在。而鼠标的出现则是 为了代替键盘那些繁琐的指令,使人们对计算机的操作更加简便。风靡全球的w i n d o w s 操作系统及其相关应用软件的普及亦加速了鼠标在p c 间的广泛应用。但是键盘鼠标式 的输入方式只是顺应计算机的要求,而在计算机时代,人也只能去跟着学习和习惯这样 善 的交互方式。 随着技术的发展,越来越多的交互方式应运而生。这些新兴的交互方式也越来越体 现了以人为本的出发点。新兴的交互方式如语音识别,触摸屏输入,j o y s t i c k 等。 第一个语音识别系统,是1 9 5 2 年a t & t 贝尔实验室d a v i s 等人研究出的a u d r y 系统, 它能识别十个英文数字。随着计算机软硬件技术的发展,语音识别技术在6 0 年代末7 0 年代初,取得实质性进展。这一时期的系统可以识别孤立的词。到了9 0 年代,许多著 名的大公司如i b m 、n t t 、苹果等看到语音识别系统的商机,纷纷对语音识别的研究投 以巨资。语音识别系统发展到这个阶段,也已经从原来的识别数字、孤立词、特定人的 语音等发展到现在的识别连续的句子,i b m 甚至还开发v i a v o i c e 9 8 系统,这个语音识 别系统能识别四川话、上海话等方言1 6 1 。语音输入这种交互方式,使用户可以将双手解 放出来,同时也为手部有问题的电脑用户提供了便利。但是受每个人发音的限制,语调、 重音等影响,语音输入在实际应用中错误率较键盘输入高。而对些专业性较强的术语, 现有识别系统几乎不能确认。所以,要实现“语音打字机最终目标是很不容易的。 触摸屏技术由美国人s a mh u r t 在1 9 7 1 年发明,并在1 9 9 1 年被引入中国【7 1 。利用这 种技术,用户不需要对计算机有相当的认识,或事先接受鼠标键盘等操作训练,只要用 手指去点击显示屏上的指示性图标,就能实现对主机操作,如启动计算机,查询信息等。 3 第一章绪论 触摸屏输入比键盘和鼠标输入更加简单快捷,使人机交互更为直截了当,且极大方便了 那些不懂电脑操作的用户。这种直观易懂的交互方式使使用者体验到了鼠标键盘不能带 来的操作乐趣。目前,触摸屏应用范围己变得越来越广泛,从工厂设备的控制操作系统、 公共信息查询设施、提款机,到移动电话、数码相机等都可看到触控屏幕的身影【引。当 然,这其中应用最为广泛的仍是手机。根据调研机构a b i r e s e a r c h 报告指出,2 0 0 8 年采 用触控式屏幕的手机出货量将超过1 亿部,预计2 0 1 2 年安装触控界面的手机出货量将 超过5 亿部。 图1 2 触摸屏电子查询设施 图1 3 苹果i p h o n e 上面讲到的触摸屏都是基于单点触控技术,每次只能识别和支持一个手指的触控。 在1 9 8 2 年多伦多大学发明了多点触控屏幕。所谓的多点触控( m u l t i t o u c h ) ,显著特点之 一,就是能够同时接受来自屏幕上多个点进行计算机人机交互操作。2 0 0 7 年,“苹果” 及“微软”分别发表了应用多点触控技术的产品及计划,如苹果的i p h o n e 手机的推出和微 软的s u r f a c e 系统的问世,令该技术开始进入主流的应用。a p p l e 的i p h o n e 把一部至少 需要2 0 个按键的移动电话,设计得仅需三四个键就能搞定,剩余操作则全部交由触控 屏幕完成。m i c r o s o f t 的s u r f a c e 系统,用户可以直接用手或声音对外型很像张桌子的屏 幕作出指令,不需使用任何鼠标及键盘。这张“桌子”应用m u l t i t o u c h 技术,呵同时 计很多人在上面进行触控操作。并且,s u r f a c e 的一个亮点就是能够识别放在桌子上的 不同物体,如将相机放在“桌”上,相机中的照片会自动显示出来,要放大缩小相片, 只需用两个手指在屏幕上将相角“拉大”或“缩小”1 8 】。但这张高科技的“桌子”,现在 来说是彳i 能普及到普通家庭中的,它的推广受到了一定的限制,同时也就把广大的普通 电脑用户挡在了它所带来的乐趣与方便之外。 目前,人机交互技术的新焦点是感知人机交互。感知人机交互的出发点就是最大程 4 长安大学硕士学位论文 度的利用人的自然交互方式,使计算机通过识别人的表情、姿势等,完成人与机器的交 互。由于它具有良好自然交互性,因而将使其成为人机交互技术发展的主流与趋势。 基于视觉的交互技术是感知人机交互的一个重要的研究领域。摄像头是视觉交互中 的必备设备。视觉人机交互通过这种非传统的输入设备,对其所视范围内的相关目标或 用户的操作进行捕获,并进行识别和跟踪,同时将目标图像传递到计算机,计算机对所 获得的信息进行处理,包括分析目标的位置和状态等。这些信息经过必要的转换后,对 计算机进行交互控制。当前发展起来的基于视觉的交互技术有手势交互、姿势识别交互 在筮 奇。 通过摄像头来捕捉特定的手势,实现对计算机的操纵,这是手势交互后来发展起来 的概念。最早意义上的手势交互要借助数据手套,如1 9 8 9 年s t u r m a n 等人研究的利用 带有数据手套的手操作虚拟世界中的物体,c h a r a d e 使用数据手套来控制幻灯片放映。 而h a r d e n b e r g 则是通过摄像头捕捉手势,利用捕捉到的手势完成鼠标的点击工作 9 1 。应 用这些交互方式,人们无需花费高昂的设备来实现,通过视觉图像信息的提取,判别, 即可得到相应的交互信息。而这些仅需要廉价的摄像头,低端处理能力的p c 即可实现。 但是数据手套的使用,使手势交互失去了它的自然性。并且手势交互的局限性就是它能 执行命令控制,但用手势交互进行文字输入则是一个很大的难题。如汉字中包括横、竖、 撇、捺、折等笔画,通过手势性语言来识别非常困难。这种技术只能是其他操控手段的 补充,并与其他操控方式结合使用才能发挥其优势。 姿势识别交互方式主要出现在娱乐游戏领域。在娱乐游戏领域里,加入视觉元素, 使得原来只能通过传统的键盘鼠标或者操纵杆操控的游戏,现在也能通过人的肢体动作 去操控。游戏软件通过摄像头捕捉用户的动作,将这些动作传递到游戏中进行交互控制。 图1 4 为d d re x t r e m e ) ) 的游戏画面。这是一款基于视觉的游戏。玩家通过摄像 头把自己的身影映入游戏画面之中,并通过动作感应来进行手脚并用的舞蹈模式。这种 非传统交互方式的加入,为游戏玩家带来了更多的乐趣,也使交互方式朝着更自然的方 向迈进了一步。m i c r o s o f t 推出的n a t a l 项目也是基于视觉的。该项目是一个让游戏玩家 无需任何游戏控制器的游戏控制方式,用户可使用3 d 摄像头与动作识别软件,通过身 体运动与声音命令来控制游戏,从而置身于逼真的3 d 游戏界面之中。图1 5 为n a t a l p r o j e c t 的一个宣传视频截图。图中可以看到,女孩将手摆出紧握方向盘的姿势,通过摄 第一章绪论 像头识别她的一系列动作,就可以对虚拟游戏场景中的车进行控制。 图1 4 ( d d re x t r e m e 图1 5n a t a lp r o j e c t 图1 6 智能监控系统 基于视觉的交互手段还被应用到智能监控系统中。这个系统主要是通过摄像头对所 在场景中的人或者车辆等进行识别、判断,在适当的情况下产生报警提示用广,。比如, 道路rj 或者小区出入口的智能监控系统中,视频监控设备能自动识别车牌号码,用于违 规车辆稽查。现在某牌照车辆在事故后逃逸不知去处,通过市内各要道口的智能视频监 控系统,检测、识别违法车辆车牌,一旦此牌照的车辆在视野中出现,就能立即报警, 节省许多警力资源。图1 6 显示了智能监控系统通过摄像头拍摄到的视频画面,经过目 标检测和识别跟踪,查找违法车辆。 1 3 本文研究内容及成果 上一节中一些人机交互技术、产品的出现,同一的出发点就是想让不断更新的技术 为用户更好的服务,使人机交_ 瓦更加的和谐和自然。而任何技术、产品都足应当下需求 而产生的,无一例外的都会存在一定的缺点和应用的局限性,上一节中也对各交瓦方式 所存在的缺点进行了分析。理想状态的人机交互强调无需特别训练或不需要训练,利用 人的“日常技能”进行。在未来十年中人机交互的方式将发生彻底变化,人们将不再需 要依赖机器语言,而是随时随地通过自己的“母语”一包括语言、姿势和情感,以及“原 有技术”一如人们早已习惯的纸笔信息输入等,米与电脑互动。这是当前人机交互努力 的方向。 本文通过对当前存在的一些交互方式进行研究,分析各自的优缺点。通过比对,设 计开发了一种基于摄像头的交互方式,并将这种交互方式用在了汽车模拟驾驶系统和计 算机信息输入系统中。 选择设计丌发基于摄像头的交互,原因之一是,基于摄像头的交互使人们在计算机 面前能使用自己的肢体语言或者现有的习惯性信息输入方式与计算机进行交流,使人们 长安大学硕士学位论文 能有更自然的表现,同时也增加了人机交互的趣味性;其次,考虑到摄像头这种计算机 外设,价格低廉,使用方便,当前在电脑用户中已经得到了广泛的普及,设计基于摄像 头的交互方式也会相应的有一个较高的普及度。 本文研究的目的就是为用户提供一种与电脑交互起来更为简单、贴近现有自然生活 的操作方式。目的是使人较少的去适应计算机,而是通过我们的软件,让计算机来适应 人。这种操作方式,是人机交互方式的种新鲜的体验,同时也增强了对电脑操作的趣 味性,使用户在一定程度上脱离出枯燥的传统操作模式。并且本文考虑到可操作性和普 及性,将其设计成只通过现在已经得到广泛普及的、价格低廉的摄像头就能实现的操作 简单方便的系统,使得广大的普通电脑用户能体验到科技带来的便利。 首先本文深入研究了基于摄像头交互中涉及到的三个坐标系,世界坐标系、摄像头 坐标系和图像坐标系。弄清这三种坐标系之间的关系转换是设计开发基于摄像头交互的 基础。 在设计开发汽车模拟驾驶系统中,使用了a r t o o l k i t 这种基于视觉的软件包。通过 深入学习a r t 0 0 l k i t 的开发流程、标定的识别算法、标定纸的设计规范以及a r t o o l k i t 的坐标系统,使用其提供的基础视频图像采集、目标识别等技术对本文设计的标定纸上 的标记信息进行分析、识别,并在此基础上进行算法设计,将识别到的信息进行格式转 换,使其能对虚拟场景中的车辆进行行为控制。本文将这种基于摄像头和纸的交互方式 应用在汽车模拟驾驶系统中,平衡了鼠标键盘式操作和模拟驾驶器操作的一些优缺点, 使其既能满足人们对驾驶真实感的一般需求,不会像鼠标键盘模式那样的枯燥,又满足 人们对于价格和可获得性的要求,使其不会像模拟驾驶器那样昂贵、不便放置和不易普 及。 为了丰富基于摄像头交互方式的使用领域,本文还设计开发了一种新的计算机信息 输入方式,本文将其取名为:p a p e r p a d 。p a p e r p a d 使用o p e n c v 这种计算机视觉库完成 基本的图像采集工作,通过本文设计的矩形识别算法将背景中用于书写的纸提取出来, 将其位置校正,即使电脑屏幕上出现的纸正对用户,并对用户在纸上书写的内容进行文 字识别后,将其内容保存、传递。p a p e r p a d 的创新点就是,设计了一种通过传统的纸笔 交互进行信息输入的应用系统。简单的用笔在纸上写字,通过摄像头将这些信息传递到 计算机应用软件里,来代替键盘和鼠标的信息输入。基于摄像头的交互方式的使用,保 7 第一章绪论 证了对计算机进行信息输入的同时,也为不熟悉鼠标键盘操作的用户,或者寻求新鲜输 入方式的用户,提供了一种额外的选择,使得与计算机的交流更加的方便和有趣。 通过测试证明,本文开发的系统在完成基本功能的同时,确实也为用户带来了入机 交互的新体验和乐趣,使人与计算机的交流更加自然和人性化。 本文的研究成果: 1 、为汽车模拟驾驶和计算机信息输入提供了一种新的基于摄像头的交互方式,丰富 了人与机器交流的手段。 2 、用一张设计有标记符号的“纸充当车辆的模拟“驾驶室”,在现实世界中对纸 进行操控,通过摄像头读取纸上标记的信息,将信息传递给虚拟场景中的车辆,控制其 行为,实现模拟驾驶。 3 、设计了信息格式转换算法,将a r t o o l k i t 读取到的标定位置信息转换成象限角信 息,达到控制车直行和转向的目的。设计了控制算法,使车辆的换挡、刹车、倒档、鸣 笛等操作由标定纸上相应子标定状态的改变控制。 4 、设计了基于摄像头交互的计算机信息输入方式,使用户通过纸、笔和摄像头代替 传统的键盘,完成部分文字输入功能。 5 、在基于摄像头交互的信息输入中,设计了矩形检测算法,通过此算法将用户用于 书写信息的纸从背景中提取出来,并将其位置进行校正,使纸上信息方便用户的查看并 为后面的文字识别提供更好的图像效果。 1 4 论文结构安排 本论文的结构安排如下: 第1 章绪论。通过前言引出了本课题的研究意义,并对交互方式的发展进行了综述, 最后给出了本文研究的内容以及成果。 第2 章开发工具简介。着重介绍了本文系统中用到的视觉开发包a r t o o l k i t ,它的 开发流程、标定方法和识别标定纸的过程。另外,对计算机视觉库o p e n c v 也做了一些 简单的介绍。 第3 章基于摄像头交互的理论基础。主要介绍了摄像头交互中涉及的一些坐标系转 换和摄像机模型方面的理论知识。 8 长安大学硕士学位论文 第4 章基于摄像头的交互方式用于汽车模拟驾驶。介绍了开发背景、系统概要,并 对摄像头交互在模拟驾驶系统中的实现过程进行详细描述,包括系统中基于a r t o o l t 规范的标定纸的设计,各个标记的设计意义,标定纸信息提取后进行的格式转换,以及 信息对车行为是如何控制的等。最后给出了系统实验结果和对结果的分析。 第5 章基于摄像头的交互方式用于信息输入。同样介绍了系统的开发背景,在复杂 场景中检测矩形所需的图像处理过程,设计了检测矩形时对矩形的判断算法,以及对校 正后的矩形中内容的处理和识别。 正文最后对本文工作进行总结,并对未来的研究工作进行了展望。 9 长安大学硕士学位论文 第二章开发工具简介 如图2 1 所示,是完成基于摄像头交互的一个工作流图。基于摄像头的交互,首先 是通过摄像头得到视频流后,将视频流分成一帧一帧的图像。逐一对这些连贯的帧图像 进行图像处理、分析,包括先通过图像二值化等技术进行图像处理,使图像达到满足后 面进行图像分析所需的效果。然后分析图像,检测、分割出感兴趣的目标区域,并对目 标区域的有用信息进行提取,将这些有用信息进行一定的处理转换后进行交互控制。 视频流 图图 像 帧。 像 采 图像一 分 集析 信信 目标区 息 有用 息 提 信息一 处 取理 交互 控制 图2 1 基于摄像头的交互流图 本文设计开发的基于摄像头交互方式的系统,分别借助了a r 开发工具包a r t o o l k i t 和计算机视觉库o p e n c v ,完成图片处理和信息提取方面的部分基础工作,降低开发的 复杂性。 关于本文基于摄像头交互的模拟驾驶中用到的a r 开发工具包a r t o o l k i t ,与它类 似的开发包还有m rp l a t f o r m ,v p r n ,u n i f e y es d k 等。这几款同样是处理a r 底层任 务的工具包。底层任务包括a r 开发中涉及的最基本的模式识别、坐标转换和视频合并 等功能。m rp l a t f o r m 是由日本佳能实验室研究开发的。它包含一个由c + + 开发的,运 行于l i n u x 环境下的s d k 和一个s - h m d 。m rp l a t f o r ms d k 中提供了完成上面提到的 底层任务的功能函数。v p r n 是实现跟踪定位的开发工具。它提供一组由c + + 开发的抽 象接口,主要用于实现跟踪定位功能。v p r n 将位于网络上的跟踪定位设备组织在一起, 提供混合方式的跟踪定位。u n i f e y es d k 是商业版本的a r 应用开发工具。它的核心部 分是由一组c + + 类库组成,提供基本的计算机视觉算法,并在此基础上提供视频检测、 3 d 渲染等功能。u n i f e y es d k 中依靠定位标记,如方形或者原形的标定纸提供定位,与 其它工具相比,u n i f e y es d k 能够提供更准确的标记识别功能【1 0 1 。 上面所介绍的这三款开发工具包中,m rp l a t f o r m 只运行于l i n u x 环境下,而本文开 发的系统是在w i n d o w s 下;u n i f e y es d k 是商业版本,不适合作实验室阶段的研究工作; v p r n 侧重于跟踪定位,它提供了大量的跟踪定位抽象接口,而本文中只需要基本的定 第二章开发工具简介 位算法就能满足现阶段的开发要求。综上,本文选择了目前比较流行的、开源的、适合 实验室研究工作的、能在w i n d o w s 系统下进行开发的a r t o o l k i t 。a r t o o k i t 由于受到华 盛顿大学人机界面实验室和新西兰坎特伯雷大学人机界面实验室支持,已成为在a r 领 域使用最广泛的开发包。 下面对a r t o o l k i t 开发工具包做简单的介绍。 2 1a r t i o o l k i t 2 1 1a r t o o l k i t 简介 a r t o o l k i t 1 1 1 是美国华盛顿大学开发的一款开放源代码的视觉工具包。它是一个 c c + + 语言编写的库。a r t o o l k i t 使用电脑图像技术计算摄像机和标定之间的相对位置, 从而使程序员能够将虚拟物体覆盖到现实世界中的标定纸上,实现虚实融合。a r t o o l k i t 包含了跟踪库和这些库的完整源代码,开发人员可以调用不同的库完成不同的功能,也 可以自己对其跟踪算法进行改进,或者在a r t o o l k i t 的基础上加上自己的某些算法,对 a r t o o l 飚t 功能进行增强。 a r t o o l k i t 具有以下特点: 1 、a r t o o l k i t 以源代码的方式发布。 2 、a r t 0 0 l 飚t 进行的是单摄像机的视觉识别。 3 、a r t o o l k i t 开发包中有自己的摄像机校准应用程序,进行摄像机校准较容易。 4 、a r t o o l k i t 使用黑色正方形作为识别标志,可利用任意正方形图案作为识别标志。 同时,a r t o o l k i t 也存在其自身的一些缺点,限制了它的开发应用领域。如a r t o o l k i t 要求识别的标定必须满足是黑色正方形,只有识别到了这个正方形,a r t o o l k i t 才能进 行下面的工作,所以这就限制了a r t o o l k i t 一些室外稍大型的识别监测工作。 2 1 2a r t o o l k i t 开发流程 表2 1 是a r t o o l k i t 的开发流程: 表2 1a r t o o l k i t 的开发流程 初始化 1 初始化摄像头,读取标定信息文件和摄像头参数。 2 摄像机捕获真实世界的视频,并将其传送给计算机。 主循环 3 软件监控视频流中的每一帧图像,并在其中搜索是否有匹配的图形标 记。 1 2 长安大学硕士学位论文 应用程序会不停的重复第二步到第五步操作读取摄像头识别到的信息,直到程序结 束。第一步和第六步只是在初始化和关闭应用程序的时候分别用到。 2 1 3a r l o o l k i t 的摄像机标定方法 在进行基于摄像机的交互工作之前,首先要对摄像机进行标定。是因为不同的摄像 机内部属性参数,包括摄像机的焦距、中心点等,都有一定的差距。对摄像机进行标定 是为了在系统中应用到特定的摄像机时,它有一个更为精确的属性值,使得系统中应用 摄像头时,得到的图像更加的准确。 a r t o o l k i t 开发包文件中包含了摄像机默认属性,在程序初始化摄像头时被读入。 但是,a r t o o l k i t 设置的这些默认参数值范围较宽,以适合于不同的摄像头。我们需要 针对自己的摄像机进行标定,才能得出合适的内外参,以方便后面使用【1 2 l 。 a r t o o l k i t 使用图2 2 中显示的两张标记纸对摄像机进行标定。其中a 图所示图案 c a l i bd i s t 是由6 * 4 个交点标记的,每两个相邻点之间的距离是4 0 m m 。这张图用来标定 摄像机的内参中的摄像机的中心点。b 图所示图案c a l i b 是一个由多条线组成的网cpara 格,相邻直线之间的距离是4 0 m m 。这张图案用来标定摄像机的内参中的焦距。 ( 8 ) 标定纸e a li b _ d is t( b ) 标定纸c a li b _ c p a r a 图2 2 摄像机标定纸 第二章) 于发t 具简介 a r t o o l k i t 开发包中包含c a l i bd i s t o r t i o n e x e 和c a l i bc p a r a m e x e 这样两个文件。 c a l i bd i s t o r t i o n e x e 用来测量摄像头的中心点,c a l i bc p a r a m e x e 生成摄像头主要的属性一 焦距。 由于镜头畸变可能引起摄像机图像中的点不等距。应用图2 2 中的a 图进行摄像机 标定,c a l i bd i s t o r t i o n 程j 乒可以测量出各点i b j 的距离并且通过这些信息计算出镜头畸变。 图2 3 为标定过程中的操作截图,图2 4 为标定结果的验证截图。标定过程及验证的操 作细节不再详述,可参考文献 1 2 。c a l i b d i s t o r t i o n 最后将计算出摄像头的中心点( 甜, c y ) 和畸变量,他们都是摄像头的内部属性。 图2 3 标定过程1图2 4 标定结果的验证 将c a l i bd i s t o r t i o n 计算出的中心点坐标作为c a l i bc p a r a m e x e 输入量,通过以下步骤 实现对摄像机焦距的获得。将图2 2 的b 图中所示图案放置到摄像机正前方,使他和摄 像机互相垂直,并保证所有网格线都在摄像头视野范围内。移动在视频中出现的白色线, 使它与最上面一条网格线重合。对后面的水平网格线重复同样的操作。最后一条水平线 都被处理完后,会出现一条垂直的白色线。接下来是对网格中垂直线做i :面同样的操作, 从左向右对垂直线进行覆盖。图2 5 分别是对网格线中水平线和垂直线处理的截图。通 过在摄像机垂直方向( z 轴) 上移动图2 2 的b 图所示图案纸,改变其与摄像机的距离, 重复上面的操作。这样,对于同一张规格的网格纸,网格的实际大小不变,但标定过程 巾改变了它与摄像头的距离,通过,j , 4 l 成像原理映射过去的图像尺弋r 会改变,这样就能 计算出摄像机焦距。 长安大学硕士学位论文 图2 5 标定过程2 用新计算出来的摄像头的属性值覆盖掉原来的默认值,这样摄像机在a r t o o l k i t 应 用程序中就能精确使用了。 2 1 4a r t o o l t 中摄像头识别标定过程 有了准确的摄像机内部属性,下面介绍在a r l k i t 中摄像机是怎样识别中间带有 设计信息的黑色正方形。图2 6 描述了a 肼o o l k i t 如何实时跟踪黑色方框标记。如图2 6 中所示,a r t o o l k i t 首先将视频流中的一帧图像进行二值化,并提取其轮廓;接下来将 标定中的标定i d 与系统中存储的模板i d 进行匹配,若可以匹配上,证明这个标定在这 次的系统中是可用的,若匹配不上,则证明现存文件中没有存储此标定信息,需要先将 标定信息存储后再进行应用;标定确定后,就是对其进行位姿估计,即a r t o o l k i t 通过 函数计算出其与摄像机之间的位置关系,此位置关系矩阵也就是摄像机的外参,描述的 是标定坐标系也即本文中规定的世界坐标系与摄像机坐标系之间的位置转换关系。这个 矩阵确定了,标定在摄像机坐标系下的位置就确定了,我们就可以将这个关系矩阵中的 位置元素进行转换,变成角度去控制车的转向,同时用标定的状态信息即可见不可见去 控制车辆的其他行为。 1 5 第二章 开发工具简介 囊荐罄与标识位置 图2 6a g r o o l k i t 中对标定的识别过程 本文设计开发的第一个小系统基于摄像头的汽车模拟驾驶系统,在视觉交互的基础 上利用了部分增强现实的技术。增强现实就是通过电脑技术,将虚拟的信息应用到真实 世界,真实的环境和虚拟的物体实时地叠加到了同一个画面或空问,并将合成的画面呈 现给用户。这样的系统具有虚实结合、实时交互、三维注册的新特点 1 3 , 1 4 1 。 最早实现增强现实功能的软件是2 0 0 8 年1 0 月随t - m o b i l eg 1 同时发布的w i k i t u d e a r 旅行指南【l 川。w i k i t u d e 通过g p s 定位确定当前的i p h o n e 手机位置。一旦手机位置 确定,用户通过手机摄像头看到的真实世界其实是叠加了谷歌手机地图的真实与虚拟的 合成体。而此软件将维基百科上的信息同指定位置的图片联系起来。因此,当用户用手 机摄像头对着某地的一处典型建筑时,它的手机屏幕上将会出现这个建筑物在维基百科 条目中的介绍,如图2 7 所示。通过w i k i t u d e a r 旅行指南,不仅能够大大加快人们熟 悉陌生环境的过程,还能使用户体验到一种虚实融合的感觉。如图2 8 所示,是由法商 p r e s s e l i t e 所开发的新版m e t r op a r i ss u b w a y ,在老版本的基础上添加了增强现实模块。 原理和w i k i t u d e 是一样的,只是显示的相关信息从旅游景点的介绍变成离用户所在位置 最近的地铁站和附近建筑物和商店的信息。p r e s s e l i t e 也发布了一款名为l o n d o nb u s 的 软件【1 bj ,【r 4m e t r op a r i ss u b w a y 功能相同,只是将场景转移到了伦敦。图2 9 为西门子 s x i 手机附带的一款名为m o z z i e s 的摄像头游戏【1 7 l 。此游戏通过移动手机的位置来调整 准心并击落目标。这款游戏应用现实世界的手机的移动去控制虚拟世界准心,实现了虚 实结合、实时交互,是增强现实技术的应用。 长安大学硕士学位论文 图2 7w i k i t u d e图2 8m e t r op a r i ss u b w a y图2 9m o z z i e s 以上这几种基于增强现实的系统、工具有的是面向大型的地理定位的信息查询系统, 有的是基于重力感应的游戏软件,一定程度上体现了增强现实技术在不断的引起人们的 关注,同时体现了增强现实技术应用领域的广泛性。 本文基于摄像头的交互方式的模拟驾驶就体现了增强现实概念在游戏领域的应用。 a r t o o l k i t 在本文系统的开发过程中完成了初步的图像采集和分析工作,但是由它识别 到的信息还不能用于控制车辆的行驶,本文在学习分析a 对o o l 飚t 开发包的基础上,对 其捕获的信息进行转换,设计信息格式的转换算法,使识别到的标定信息在经过转换后 能够用于汽车模拟驾驶系统中的车辆行为的控制上。 2 2o p e n c v 本文设计开发的基于摄像头交互的第二个子系统p a p e r p a d 中,用到了开源计算机视 觉库o p e n c v 。o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论