版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战(grandchallenge)。"计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。现在计算机视觉已成为一门不同于人工智能、图象处理、模式识别等相关领域的成熟学科。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。为此我们将先介绍人类视觉。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。为此我们将先介绍人类视觉。人类视觉感觉是人的大脑与周围世界联系的窗口,它的任务是识别周围的物体,并告诉这些物体之间的关系。我们的思维活动是以我们对客观世界与环境的认识为基础的,而感觉则是客观世界与我们对环境的认识之间的桥
梁,使我们的思维与周围世界建立某种对应关系。视觉则是人最重要的感觉,它是人的主要感觉来源。人类认识外界信息的80%来自视觉。人有多种感觉,但对人的智力产生影响的主要是视觉和听觉。味觉和嗅觉是丰富多样的,但很少有人去思考它们。在视觉和听觉中形状、色彩、运动、声音等就很容易被结合成各种明确和高度复杂、多样的空间和时间的组织结构。所以这两种感觉就成了理智活动得以行使和发挥作用的非常合适的媒介和环境。但人听到的声音要想具有意义还需要联系其它的感性材料。而视觉则不同,它是一种高度清晰的媒介,它提供关于外界世界中各种物体和事件的丰富信息。因此它是思维的一种最基本的工具。视觉对正常人来说是生而有之,毫不费力的能力。但实际上视觉系统所完成的功能却十分复杂的。有人认为视觉本身就包含了思维的一切基本因素。设想你要在一个会场中寻找一位朋友,呈现在你眼前的是由参加会议的人、桌、椅、主席台等组成的复杂景物。眼睛得到这些信息以后先要对景物的各部分进行分类,然后从中选出与朋友的外表有关的特征作出判断,那么在人的眼睛视网膜上映照的景物成象是否就能直接提供判断时所需要的有关特征呢?不是的,这里需要大脑的思考。例如,虽然人在不同距离处观察同一物体时在眼睛中成象的大小是不同的。但人们在观察某人以便估计他的身高时却不会因为他在近处而感到他高些,也不会因他在远处而感到他矮些。这是由于大脑根据被观察物体的距离和与周围物体的比较,并依靠有关的知识对输入的图象
信息进行处理,解释的结果。如果你是在一个灯光暗淡的剧院中寻找朋友,这个问题就变得更为困难。你刚走进剧院时开始会感到一片漆黑看不清东西,过了几分钟你的眼睛变得习惯于在黑暗中观察。事实上你的视觉系统在此期间中对微光变得更敏感了。但这时许多本来可用的信息丧失了,物体可能难以与背景相区分,许多细节难以分辨。即使这样人也总能认出朋友。总之,视觉是一个复杂的感知和思维的过程,视觉器官-眼睛接受外界的刺激信息,而大脑对这些信息通过复杂的机理进行处理和解释,使这些刺激具有明确的物理意义。从以上分析我们还可以看到敏感(Sensations)、感觉(Perception)、认知(Cognition)这三个概念之间的联系和差别。敏感是把外界的各种刺激转换成人体神经系统能够接受的生物电信号。它所完成的是信号的转换,并不涉及对信号的理解。例如,人眼是视觉的敏感器官,它使光信号通过视网膜转换电信号。与摄象机的光电传感器相似,视网膜的感光细胞对光信号在平面上进行采样,产生点阵形式的电信号,所不同的仅是摄象机的空间采样是均匀的,而视网膜的采样是不均匀的,在中央凹附近采样分辨率高,而在周围的分辨率低。而感觉的任务是把敏感器官的各种输入转换和处理成为对外部世界的理解。例如,对视觉来说就是能说出周围世界中有什么东西和这些东西之间的空间关系。这些都是关于周围世界的概念。从输入的点阵形式的信号到形式对客观世界的各种概念其中要经过复杂的信息处
理和推理。而认知是以人们对周围客观世界的概念为基础的。如果没有感觉这个人与外部世界的桥梁或窗口,人的思维活动就换去基本的依据。计算机视觉人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。一方面是更多未经计算机专业训练的人也需要应用计算机,而另一方面是计算机的功能越来越强,使用方法越来越复杂。这就使人在进行交谈和通讯时的灵活性与目前在使用计算机时所要求的严格和死板之间产生了尖锐的矛盾。人可通过视觉和听觉,语言与外界交换信息,并且可用不同的方式表示相同的含义,而目前的计算机却要求严格按照各种程序语言来编写程序,只有这样计算机才能运行。为使更多的人能使用复杂的计算机,必须改变过去的那种让人来适应计算机,来死记硬背计算机的使用规则的情况。而是反过来让计算机来适应人的习惯和要求,以人所习惯的方式与人进行信息交换,也就是让计算机具有视觉、听觉和说话等能力。这时计算机必须具有逻辑推理和决策的能力。具有上述能力的计算机就是智能计算机。智能计算机不但使计算机更便于为人们所使用,同时如果用这样的计算机来控制各种自动化装置特别是智能机器人,就可以使这些自动化系统和智能机器人具有适应环境,和自主作出决策的能力。这就可以在各种场合取代人的繁重工作,或代替人到各种危险和恶劣环境中完成任务。
计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如,计算机视觉的一个重要应用领域就是自主车辆的视觉导航,目前还没有条件实现象人那样能识别和理解任何环境,完成自主导航的系统。因此,目前人们努力的研究目标是实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰的视觉撞辅助驾驶系统。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用,但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是,人类视系统是迄今为止,人们所知道的功能最强大和完善的视觉系统。如在以下的章节中会看到的那样,对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一个非常重要和信人感兴趣的研究领域。这方面的研究被称为计算视觉(Computational)。计算Vision视觉可被认为是计算机视觉中的一个研究领域。有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图象处理、模式识别或图象识别、景物分析、图象理解等。由于历史发展或领域本身的特
点这些学科互有差别,但又有某种程度的相互重迭。为了清晰起见,我们把这些与计算机视觉有关的学科研究目标和方法的角度加以归纳。1.图象处理图象处理技术把输入图象转换成具有所希望特性的另一幅图象。例如,可通过处理使输出图象有较高的信-噪比,或通过增强处理突出图象的细节,以便于操作员的检验。在计算机视觉研究中经常利用图象处理技术进行预处理和特征抽取。2.模式识别(图象识别)模式识别技术根据从图象抽取的统计特性或结构信息,把图象分成予定的类别。例如,文字识别或指纹识别。在计算机视觉中模式识别技术经常用于对图象中的某些部分,例如分割区域的识别和分类。3.图象理解(景物分析)给定一幅图象,图象理解程序不仅描述图象本身,而且描述和解释图象所代表的景物,以便对图象代表的内容作出决定。在人工智能视觉研究的初期经常使用景物分析这个术语,以强调二维图象与三维景物之间的区别。图象理解除了需要复杂的图象处理以外还需要具有关于景物成象的物理规律的知识以及与景物内容有关的知识。计算机视觉是一门涉及人工智能、神经生物学、心理物理学、计算机科学、图像处理、模式识别等多个领域的交叉学科。它不仅是人眼的延伸,更重要的是具有人脑的一部分功能。近年来,随着计算机技术尤其是多
媒体技术和数字图像处理及分析理论的成熟,以及大规模集成电路的迅速发展,机器视觉技术得到了广泛的应用研究,取得了巨大的经济与社会效益。人类正在进入信息时代,计算机越来越广泛地被应用到人类生产生活的几乎所有领域。计算机视觉是计算机科学和人工智能科学发展结合的必然产物,它主要是依靠计算机的技术来帮助人类理解视觉的机理,再进一步用计算机实现部分人类视觉的功能。JEEE1988年8月的会刊组织了计算机视觉专辑,在其引言中,定义计算机视觉为用任何办法对2D数据作出的理解III。计算机视觉作为一门近三十年来新兴的综合性的学科,它己经吸引了来自各个学科的研究者参加到对它的研究之中,其中包括计算机科学和工程,信号处理,物理学,应用数学和统计学,神经生理学和认知科学等。它要求从事机器视觉的科技工作者从人类视觉信息处理的研究成果中寻找一些问题的解决思路;同时,计算机视觉也为从事生物视觉研究的学者们提供了检验其理论的有效工具。计算机视觉的应用1.零件识别和定位在对视场中物体的外形信息有充分了解、照明条件可得到严格控制的工业环境中,计算机视觉得到成功的应用。如工业自动化生产线上对传送带上的零件位姿定位,引导工业机器人实时准确地去抓取它。视觉系统只由一台摄像机组成,结构简洁,成本低,视场范围大。2.智能视觉监控
动态场视觉监控是计算机视觉领域一个新兴的应用方向。视觉监控区别于传统意义上的监控系统在于其智能性。简单而言,不仅用摄像机代替人眼,而且用计算机代替人、协助人,来完成监视或控制任务,从而减轻人的负担。快速准确的运动检测,运动检测主要是从监控摄像机所捕捉的序列图像中检测是否有运动物体存在;实时性、鲁棒性的基于三维模型的车辆与行人的定位、识别和跟踪;异常现象的检测、报警与目标的行为预测,视觉监控系统的最终目的是为了解释监视场景中所发生的事件,根据要求对异常事件进行报誓,并能根据当前目标所处的状态对将要发生的事件进行预测;远距离的身份识别,生物特征识别技术与人的运动分析的结合是视觉监控系统的一个重要问题。脸像与步态是具有可感知性与非接触性优点的生物特征,是目前被认为可以用于视觉监控系统中的身份识别的两个主要生物特征。3.运动体视觉导航运动体通过视觉系统利用立体对可以恢复三维场景信息,并利用场景的三维信息识别目标、识别道路、判断障碍物等,实现道路规划、自主导航,与周围环境自主交互作用等。将立体图像对和运动信息组合起来,可以构成满足特定任务分辨率要求的场景深度图。这种技术在无人汽车、无人飞机、无人战车等自主系统的自主导航得到了很好的应用。4.医学图像分析目前医学图像已经广泛用于医学诊断,成像方法包括X射线成像、计算机层析(CT)成像、核磁共振成像
(MRI)、超声成像等。计算机视觉在医学图像诊断方面有两个方面的应用,一是对图像进行增强、标记、染色等处理来帮助医生诊断疾病,并协助医生对感兴趣的区域进行测量和比较;二是利用专家知识系统对图像进行自动分析和解释,给出自动分析和解释,给出诊断结果。5.其他计算机视觉在人机交互(眼球跟踪)、虚拟现实、远程教育、遥感图像分析、电影电视制作等领域也有着广泛的应用。计算机视觉的研究内容贾云德认为计算机视觉研究内容可分为五个内容。一是输入设备,输入设备包括成像设备和数字化设备。目前用于获取数字化图像的大多数产品化的输入设备还远远不能满足实际的需要,因此,需要研究各种性能先进的成像系统。二是低层视觉,低层视觉主要是对初始图像进行变换和处理。三是中层视觉,主要是恢复场景、表面法线方向、轮廓等有关场景的205维信息。四是高层视觉,主要是在以物体为中心的坐标系中,在原始输入图像、图像基本特征、2.5维图的基础上恢复物体完整三维图,建立物体三维描述、识别三位物体并确定物体的位置和方向。五是体系结构,根据系统模型来研究系统的结构,涉及:并行结构,分层结构,信息流结构,拓扑结构以及从设计到实现的途径。张广军总结说,计算机视觉研究内容主要包括:摄像机模型、三维
视觉模型、视觉系统标定、视觉系统的数据管理、视觉系统的实时化技术和视觉系统的工程化技术。计算机视觉面临的问题计算机视觉的问题是一个逆问题(inverseprob输入的图像为二维图像的灰度,它是三维物体几何特征、光照、物体材料表面性质、物体的颜色、摄像机参数等许多因素的函数,由灰度反推以上各种参数是逆问题。这些问题往往都是非线性的,问题的解不具有唯一性,而且对噪声或离散化引起的误差及其敏感。另一个原因是Marr的视觉系统框架是一个自下而上的、模块化的、单向的、数据驱动型的结构。神经生理学的深入研究表明,这种与人的视觉系统还有很大距差。虽然对这种差别目前还缺乏深入的理解,但是显然人的视觉系统上下各层次之间存在着更为复杂的相互作用。更重要的是,邮良球运动等现象可知,生物视觉系统的认知过程是一种复杂的与外界交互作用的主动性过程。人类虽然是视觉专家,但是它又不同于人的问题求解过程,难以描述人类视觉的整体性和选择性的行为。此外,理解自然景物还需要大量的知识。一个完整的机器视觉系统的主要工作过程如下1、工件定位检测器探测到物体已经运动至接近摄像系统的视野中心,向图像采集部分发送触发脉冲。2、图像采集部分按照事先设定的程序和延时,分
别向摄像机和照明系统发出启动脉冲。3、摄像机停止目前的扫描,重新开始新的一帧扫描,或者摄像机
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 举办竞走比赛行业营销策略方案
- 太阳能收集器产业运行及前景预测报告
- 单比基尼式泳装市场发展预测和趋势分析
- 宝石市场发展预测和趋势分析
- 影碟播放机产业深度调研及未来发展现状趋势
- 通信网络套管预埋施工方案
- 弹簧用皮套产业运行及前景预测报告
- 伺服电机用电子控制器市场需求与消费特点分析
- 伽倻琴朝鲜弦琴产业深度调研及未来发展现状趋势
- 健身房及游泳池清洁服务方案
- 新能源汽车电池介绍课件
- 2023-2024学年人教版化学九年级上册 第五单元《 化学方程式》复习教学设计
- 公司法人格否认制度
- 审计项目应急预案及措施
- 北京市房山区2023-2024学年七年级上学期期中生物试题(解析版)
- 排拉表标准格式
- 华为经营管理-华为市场营销体系(6版)
- 子宫颈机能不全临床诊治中国专家共识(2023年)
- 马克思主义关于民族的基本理论-
- 卫浴营销方案
- 高三数学备课组高考数学经验总结
评论
0/150
提交评论