第1章图像处理与计算机视觉技术综述_第1页
第1章图像处理与计算机视觉技术综述_第2页
第1章图像处理与计算机视觉技术综述_第3页
第1章图像处理与计算机视觉技术综述_第4页
第1章图像处理与计算机视觉技术综述_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1图像处理与计算机视觉技术综述

主要参考书

张广军,《机器视觉》岗萨雷斯,《数字图像处理》章毓晋《图像工程》《计算机视觉——一种现代方法》

林学訚等译,《机器视觉算法与应用》

杨少荣等译,课程介绍基础知识数学:线性代数、概率与统计计算机科学:软件编程电子学:信号处理视觉重要?古语百闻不如一见一目了然眼见为实,耳听为虚。。。人类信息的主要传递手段视觉,听觉,味觉,触觉等视觉占60%以上人机交互字符、图形计算机接收信息手段单一(键盘,鼠标)图像处理重要?两大应用需求对图像信息的改进机器自动理解:使计算机具有视觉主要学科图像处理、计算机视觉和模式识别 计算机图形学1.1 图像处理与计算机视觉的发展及系统构成

1.图像(Image)可以看作是对物体或场景的一种表现形式抽象定义:二维函数f(x,y)(x,y):点的空间坐标(实数)f:点(x,y)的幅度(亮度、强度或灰度)英文单词Image:一般指用镜头等科技手段得到的视觉形象Picture:强调手工描绘的人物或景物画Drawings:人工绘制的工程图Lenna1.1.1图像处理与计算机视觉的概念图像实例光学图像LennaIKONOS卫星光学图像423mile高16000miles/h1m分辨率EP-3,海南陵水,01-4-4大脑断层图像

遥感图像2.数字图像数字化:对x,y和f进行离散化数字图像(DigitalImage)离散化了的图像数字(离散)化过程采样:坐标离散化量化:函数值的离散化分类(根据f的性质)灰度图像(特殊:二值图像)彩色图像3.数字图像处理DIP(DigitalImageProcessing)广义:与图像相关的处理(图像分析、理解和计算机视觉等)狭义(从输入和输出内容):对图像进行各种加工,以改善图像的视觉效果或突出目标,强调图像之间进行的变换,是一个从图像到图像的过程广义上分为三种类型:低、中、高级处理图像处理主要是低级处理及部分中级处理3.数字图像处理低级处理:输入输出都是图像中级处理:图像分割及目标的描述,输出是目标的特征数据高级处理:目标物体及相互关系的理解,输出是更抽象的数据低级处理及部分中级处理如:文本识别(OCR):1,2,3,4步

1。获取图像2。图像的预处理(如校正)3。提取字符(图像分割)4。字符的特征描述5。。。4.图像处理与计算机视觉的区别与联系图像处理主要集中在二维图像分析、识别和理解,如光学字符识别、工件表面、显微图片和航空照片的分析和解释等。计算机视觉是采用图像处理、模式识别、人工智能技术相结合的手段,着重于一幅或多幅图像的计算机分析,图像可以由单个或多个传感器获取,也可以是单个传感器在不同时刻获取的图像序列。分析是对目标物体的识别,确定目标物体的位置和姿态,对三维景物进行符号描述和解释。机器视觉:计算机视觉技术工程化,能够自动获取和分析特定的图像,以控制相应的行为。计算机视觉为机器视觉提供图像和景物分析的理论及算法基础,机器视觉为计算机视觉的实现提供传感器模型、系统构造和实现手段。1.1.2图像处理与计算机视觉的发展1.20世纪20年代:报纸业图像的编码与重构技术Bartlane电缆图片传输系统:从伦敦到纽约传送一幅图片从1周减少到3小时色调质量和分辨率改善1921年,电报打印机,5个灰度级1922年,穿孔纸带,5个灰度级1929年,15级灰度2.1964年:航天技术图像增强和复原技术美国JPL(喷气推进)实验室处理卫星发射回来的月球表面的照片图像畸变的校正3.20世纪70年代:遥感卫星和医学图像增强和图像识别

利用遥感图片,进行地质资源探测,农作物估产,水文气象监测等图像重构

X光断层图像重构技术,英国G.N.Hounsfield

第一台脑断层摄像仪应用4.80年代末到90年代:多媒体技术高速计算机和大规模集成电路的发展:图像压缩和多媒体技术;文本图像的分析和理解,文字的识别取得重大的进展;图像通讯和传输的广泛应用1.1.3图像处理与计算机视觉的系统构成系统构成框图采集装置:两部分(1)传感器:能产生与所接受到的电磁能量成正比的模拟电信号(CCD,CMOS)(2)高速图像采集系统:它能将上述(模拟)电信号转化为数字(离散)的形式设备具备上述两种装置如:数码相机,数码摄像机,扫描仪处理装置:两部分专用图像处理系统:是计算机的辅助处理器,主要采用专用集成芯片(ASIC)、数字信号处理器(DSP)或者FPGA等设计的全硬件处理器。计算机:是整个系统的核心,除了控制整个系统的各个模块的正常运行外,还承担最后结果运算和输出。存储数据量度单位比特(bit),字节(byte=8bit)千字节(Kbyte)兆(106)字节(Mbyte)吉(109)字节(Gbyte)太(1012)字节(Tbyte)图像信息量大1024×1024,灰度图:1M字节(不压缩)1024×1024,真彩图:3M字节(不压缩)存储图像存储器(1)处理过程中使用的快速存储器 计算机内存,帧缓存(2)较快的在线或联机存储器 磁盘,磁光盘(3)不经常使用的数据库(档案库)存储器 磁带,光盘,光盘塔存储格式(表示格式和文件格式)(1)矢量格式用线段或线段的组合体来表示图像(WMF)(2)光栅格式用许多像素点的集合来表示图像

BMP格式,GIF格式,TIFF格式,JPEG格式1.2图象理解理论框架

1.2.1马尔视觉计算理论

1.2.2对马尔理论框架的改进

1.2.3关于马尔重建理论的讨论

1.2.4新理论框架的研究

1.2.1马尔视觉计算理论 马尔1982年出版了《视觉》一书

MarrD.1982.Vision

AComputationalInvestigationintotheHumanRepresentationandProcessingofVisualInformation.W.H.Freeman

一个理解视觉信息处理的框架 要先理解视觉目的再去理解其中细节1.2.1马尔视觉计算理论1.视觉是一个复杂的信息加工过程 视觉是一个远比人所想象更为复杂的信息加工任务和过程,而且其难度常不为人们所正视为理解视觉这个复杂的过程,要解决两个问题视觉信息的表达问题:某些信息是突出的和明确的,另一些信息则是隐藏的和模糊的视觉信息的加工问题:对信息处理、分析、理解,将不同表达形式转换,逐步抽象

1.2.1马尔视觉计算理论2.视觉信息加工的三个要素

①计算理论;②算法实现;③硬件实现①计算理论可计算性问题:一个任务要用计算机完成,它应该是可以被计算的 一般对于某个特定的问题,如果存在一个程序,对于给定的输入,这个程序都能在有限步内给出输出,这个问题就是可计算的1.2.1马尔视觉计算理论2.视觉信息加工的三个要素①计算理论视觉问题是否可用现代计算机计算?对计算机给定输入,能否得到人类视觉可获得的类似结果两方面的研究内容:①计算的是什么以及为什么要计算它们;②提出一定的约束条件,它们可唯一地确定最终得到的运算结果1.2.1马尔视觉计算理论2.视觉信息加工的三个要素②算法实现 需要给加工所操作的实体选择一种合适的表达 选择加工的输入和输出表达 确定完成表达转换的算法

①一般情况下可以有许多可选的表达 ②算法的确定常取决于所选的表达 ③给定一种表达,可有多种完成任务的算法1.2.1马尔视觉计算理论2.视觉信息加工的三个要素③硬件实现 有了表达和算法在物理上如何实现算法也是必不可少的 算法的确定常依赖于物理上实现算法硬件的特点 同一个算法也可由不同的技术途径实现1.2.1马尔视觉计算理论2.视觉信息加工的三个要素计算理论:如何由系统的输入求出输出。视觉系统输入的是二维图像,输出则是三维物体的形状、位置和姿态,任务是研究如何建立输入输出之间的关系和约束,如何由二维灰度图像恢复物体的三维信息。算法实现:如何表达输入和输出信息,如何实现计算理论所对应的功能算法,以及如何由一种表示变换成另一种表示。硬件实现:用硬件实现上述表达和算法的问题。 视觉信息加工三要素的含义

要素名称含义和所解决的问题1计算理论什么是计算目的,为什么要这样计算2表达和算法怎样实现计算理论,什么是输入输出表达,用什么算法实现表达间的转换3硬件实现怎样在物理上实现表达和算法,什么是计算结构的具体细节1.2.1马尔视觉计算理论2.视觉信息加工的三个要素它们之间有一定的逻辑因果联系,但并无绝对的依赖关系实际上看成两个层次更恰当一旦有了计算理论,表达和算法与硬件实现是互相影响的 1.2.1马尔视觉计算理论1.2.1马尔视觉计算理论3.视觉信息的三级内部表达

(1)基素表达(primalsketch)一种2-D表达,它是图象特征的集合,描述了物体上属性发生变化的轮廓部分只用基素表达不能保证得到对场景的唯一解释

1.2.1马尔视觉计算理论3.视觉信息的三级内部表达

(2)

2.5-D表达(2-Dsketch)①将物体可见面正交 投影分解成单元表面②用法线代表单元表 面的取向③将各法线画出,叠加 于物体轮廓内可见面上1.2.1马尔视觉计算理论3.视觉信息的三级内部表达

(2)

2.5-D表达(2-Dsketch)本征图,表示了物体表面面元的朝向可将2.5-D图转化成(相对)深度图既表达了一部分物体轮廓的信息(这与基素表达类似)表达了以观察者为中心、可观察到的物体表面的取向信息与人所理解的3-D物体一致(可见物体轮廓以内目标的3-D信息,如边界、深度,反射特性等)1.2.1马尔视觉计算理论3.视觉信息的三级内部表达

(2)

2.5-D表达(2-Dsketch)将2.5-D图转化成(相对)深度图给定z(x,y)对x和y的偏导p和q,理论上讲可通过在平面上沿任意曲线的积分来恢复z(x,y)为最小化误差可选择z(x,y)满足1.2.1马尔视觉计算理论3.视觉信息的三级内部表达

(3)

3-D表达(3-Drepresentation)以物体为中心(即也包括了物体不可见部分)的表达形式在以物体为中心的坐标系中描述3-D物体的形状及其空间组织

①空间占有数组,②单元分解,③几何模型广义圆柱体表达方法

1.2.1马尔视觉计算理论3.视觉信息的三级内部表达

从计算机或信息加工的角度来说,视觉可计算性问题可分成几个步骤,步骤之间是某种表达形式,而每个步骤都是把前后两种表达形式联系起来的计算/加工方法3.视觉信息的三级内部表达

名称目的基元图象表达场景的辉度或物体的照度象素(值)基素图表达图象中亮度变化位置、物体轮廓的几何分布和组织结构零交叉、端点、边缘段、边界等2.5-D图在以观察者为中心的坐标系中表达物体可见表面的取向、深度、边界等性质局部表面朝向(“针”基元)、表面朝向的不连续点、深度、深度上不连续点3-D图在以物体为中心的坐标系中,用体元或面元集合描述形状和形状的空间组织形式3-D模型,以轴线为骨架,将体元或面元附在轴线上1.2.1马尔视觉计算理论1.2.1马尔视觉计算理论4.视觉信息处理按照功能模块的形式组织

把视觉信息的系统看成由一组相对独立功能模块所组成的思想,不仅有计算方面进化论和认识论的论据支持,而且某些功能模块已经能用实验的方法分离出来人通过使用多种线索或从它们的结合来获得各种本征视觉信息。这启示计算机视觉系统应该包括许多模块,每个模块获取某一特定的视觉线索,结合不同的模块来最终完成视觉任务

1.2.1马尔视觉计算理论5.计算理论形式化表示必须考虑约束条件

在图象采集获取过程中,原始场景中的信息会发生各种变化(1)当3-D的场景被投影为2-D图象时,丢失了物体深度和 不可见部分的信息(2)图象是从特定视角获取的,同一物体的不同视角图象 会不同,另外由于物体遮挡也会丢失信息(3)成象投影使得照明、物体几何形状和表面反射特性、 摄象机特性、光源与物体和摄象机之间的空间关系 等都被综合成单一的图象灰度值,很难区分(4)在成象过程中不可避免地会引入噪声和畸变1.2.1马尔视觉计算理论5.计算理论形式化表示必须考虑约束条件

适定的问题:如果它的解是:①存在的;②唯一的;③连续地依赖于初始数据 原始场景中信息发生变化的原因,使得将视觉处理问题作为光学成象过程逆问题的求解方法不适定,成了病态问题

利用约束条件可改变病态问题 通过给计算问题加上约束条件可使它含义明确从而能够获解1.2.2对马尔理论框架的改进

四个有关整体框架的问题:(1)框架中输入是被动的(2)框架中加工目的不变,总是恢复场景中物体 的位置和形状等(3)框架未足够重视高层知识的指导作用(4)整个框架中信息加工过程基本自下而上,单 向流动,没有反馈 1.2.2对马尔理论框架的改进

四个方面的相应改进:(1)增加了图象获取模块(2)根据视觉目的进行决策(3)利用高层知识可解决低层信息不足的问题(4)增加了反馈控制流向 图像获取早期处理中期处理后期处理视觉目的高层知识1.2.3关于马尔重建理论的讨论1.重建理论的问题不同视觉任务/工作的共同的概念核心被假定为表达,共同的处理目标是根据视觉刺激恢复场景并结合进表达中如果视觉系统能恢复场景的特性,人能进一步从各种线索中提取出从内部构建视觉世界的表达

视觉被看作一个由刺激开始,顺序的获取和积累的重建过程

1.2.3关于马尔重建理论的讨论1.重建理论的问题视觉过程不仅仅是一个单通路的处理过程 随着高层视觉信息的心理学研究成果和对高层视觉区域的解剖和功能组织的知识的增加

根据重建的表达有一系列问题:(1)在所有可能对场景进行解释的方法中,包含重建的方法兜的圈子最大,因为重建并不对解释有直接贡献1.2.3关于马尔重建理论的讨论1.重建理论的问题根据重建的表达有一系列问题(续)(2)仅靠从原始图象中进行重建来实现表达在 实际中也很难实现(3)概念上的问题具有一个普遍统一的表达是否值得?最好的表达应该是最适合工作的表达对给定计算问题选择正确表达

1.2.3关于马尔重建理论的讨论2.不需重建的表达

“精神表达语义”(semanticsofmental representations)用自然的和可预测的方式来进行表达特征检测器构成了视觉世界中的某种特征存在性的表达对整个目标和场景的表达可以随后根据这些基元(如果基元足够多)来构建1.2.4新理论框架的研究1.基于知识的理论框架

(1) 利用对感知组织的处理过程,从图象特征中提取相对于观察方向在大范围内保持不变的分组和结构(2) 借助图象特征构建模型,在这个过程中利用概率排队的方法减小搜索空间(3) 通过求解未知的观察点和模型参数寻找空间对应关系,使得3-D模型的投影直接与图象特征相匹配1.2.4新理论框架的研究2.主动视觉理论框架

(1) 选择注意机制

(2) 注视控制

1.3图像处理与计算机视觉的应用领域

及面临问题

主要相关学科计算机图形学:原指用图形、图表、绘图等形式表达数据信息的科学,而计算机图形学研究的就是如何利用计算机技术来产生这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论