图象理解理论和系统ppt课件_第1页
图象理解理论和系统ppt课件_第2页
图象理解理论和系统ppt课件_第3页
图象理解理论和系统ppt课件_第4页
图象理解理论和系统ppt课件_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、章毓晋清华大学电子工程系 100084 北京图象工程(下)第2页第11讲第第1212章图象了解实际和系统章图象了解实际和系统 12.1从感知到了解 12.2图象了解实际框架 12.3图象了解系统模型12.4详细系统分析 12.5典型系统比较 12.6讨论和展望 第3页第11讲12.1从感知到了解从感知到了解 1.感知了解的研讨方法感知了解的研讨方法 (1)分析方法分析方法分析方法从分析视觉刺激开场分析方法从分析视觉刺激开场得到了对大脑构造研讨结果的支持得到了对大脑构造研讨结果的支持已发现存在完成根本功能的特殊细胞,例如已发现存在完成根本功能的特殊细胞,例如感知边缘、线条、运动方向等的细胞感知边

2、缘、线条、运动方向等的细胞建立在不变假设上。对一个给定的视网膜投建立在不变假设上。对一个给定的视网膜投影方式,可以以为有无穷个能够的场景会导致该影方式,可以以为有无穷个能够的场景会导致该方式的产生。不变假设以为,在这么多个能够的方式的产生。不变假设以为,在这么多个能够的场景中,察看者总会选择一个且只选择一个场景中,察看者总会选择一个且只选择一个 第4页第11讲12.1从感知到了解从感知到了解 1.感知了解的研讨方法感知了解的研讨方法 (2)综合方法综合方法 试图在感观刺激中找出所察看世界的等价物试图在感观刺激中找出所察看世界的等价物 以为视网膜上的光学图象包括图象随时间以为视网膜上的光学图象包

3、括图象随时间的变化应该包含感知空间目的所需求的全的变化应该包含感知空间目的所需求的全部信息部信息其基于思绪是复杂和密集的视网膜刺激可帮其基于思绪是复杂和密集的视网膜刺激可帮助进入视觉世界的不变量,即其最根本和本助进入视觉世界的不变量,即其最根本和本质的特性质的特性 第5页第11讲12.1从感知到了解从感知到了解 2.图象了解系统图象了解系统完成视觉感知了解的系统是图象了解系统完成视觉感知了解的系统是图象了解系统视觉信息从广义上说包括:视觉信息从广义上说包括: 由人类视觉系统感知的信息由人类视觉系统感知的信息 由人类发明的各种视觉安装所获取的信息由人类发明的各种视觉安装所获取的信息 以及由这些信

4、息推导出的其它表示方式以及由这些信息推导出的其它表示方式 从上述这些信息中笼统出来的高级表达和行为规从上述这些信息中笼统出来的高级表达和行为规划以及与这些信息亲密相关的知识和处置这些信划以及与这些信息亲密相关的知识和处置这些信息所需的阅历息所需的阅历 第6页第11讲12.1从感知到了解从感知到了解 2.图象了解系统图象了解系统采集、表达、处置、分析和了解上述信息采集、表达、处置、分析和了解上述信息 根本问题是方式问题表达根本问题是方式问题表达 根本问题是组织问题管理根本问题是组织问题管理 实际还不完善,仅初步的实际框架实际还不完善,仅初步的实际框架马尔马尔Marr提出的视觉计算实际提出的视觉计

5、算实际 对人类视觉系统了解不充分对人类视觉系统了解不充分信号处置问题信号处置问题 人工智能问题人工智能问题 第7页第11讲12.2图象了解实际框架图象了解实际框架 12.2.1马尔视觉计算实际12.2.2对马尔实际框架的改良12.2.3关于马尔重建实际的讨论12.2.4新实际框架的研讨 第8页第11讲12.2.1马尔视觉计算实际马尔1982年出版了一书 Marr D. 1982. Vision A Computational Investigation into the Human Representation and Processing of Visual Information. W.H

6、. Freeman 一个了解视觉信息处置的框架要先了解视觉目的再去了解其中细节 第9页第11讲12.2.1马尔视觉计算实际1.视觉是一个复杂的信息加工过程视觉是一个复杂的信息加工过程视觉是一个远比人所想象更为复杂的信息加工视觉是一个远比人所想象更为复杂的信息加工义务和过程,而且其难度常不为人们所正视义务和过程,而且其难度常不为人们所正视为了解视觉这个复杂的过程,要处理两个问题为了解视觉这个复杂的过程,要处理两个问题 视觉信息的表达问题:某些信息是突出的和明确视觉信息的表达问题:某些信息是突出的和明确的,另一些信息那么是隐藏的和模糊的的,另一些信息那么是隐藏的和模糊的 视觉信息的加工问题:对信息

7、处置、分析、了解视觉信息的加工问题:对信息处置、分析、了解,将不同表达方式转换,逐渐笼统,将不同表达方式转换,逐渐笼统 第10页第11讲12.2.1马尔视觉计算实际2.视觉信息加工的三个要素视觉信息加工的三个要素计算实际;算法实现;硬件实现计算实际;算法实现;硬件实现 计算实际计算实际可计算性问题:一个义务要用计算机完成,它应可计算性问题:一个义务要用计算机完成,它应该是可以被计算的该是可以被计算的普通对于某个特定的问题,假设存在一个程普通对于某个特定的问题,假设存在一个程序,对于给定的输入,这个程序都能在有限步序,对于给定的输入,这个程序都能在有限步内给出输出,这个问题就是可计算的内给出输出

8、,这个问题就是可计算的 第11页第11讲12.2.1马尔视觉计算实际2.视觉信息加工的三个要素视觉信息加工的三个要素计算实际计算实际视觉问题能否可用现代计算机计算?视觉问题能否可用现代计算机计算?对计算机给定输入,能否得到人类视觉可获得的对计算机给定输入,能否得到人类视觉可获得的类似结果类似结果两方面的研讨内容:计算的是什么以及为什两方面的研讨内容:计算的是什么以及为什么要计算它们;提出一定的约束条件,它么要计算它们;提出一定的约束条件,它们可独一地确定最终得到的运算结果们可独一地确定最终得到的运算结果 第12页第11讲12.2.1马尔视觉计算实际2.视觉信息加工的三个要素视觉信息加工的三个要

9、素算法实现算法实现需求给加工所操作的实体选择一种适宜的表达需求给加工所操作的实体选择一种适宜的表达选择加工的输入和输出表达选择加工的输入和输出表达确定完成表达转换的算法确定完成表达转换的算法普通情况下可以有许多可选的表达普通情况下可以有许多可选的表达算法确实定常取决于所选的表达算法确实定常取决于所选的表达给定一种表达,可有多种完成义务的算法给定一种表达,可有多种完成义务的算法 第13页第11讲12.2.1马尔视觉计算实际2.视觉信息加工的三个要素视觉信息加工的三个要素硬件实现硬件实现有了表达和算法在物理上如何实现算法也是有了表达和算法在物理上如何实现算法也是必不可少的必不可少的 算法确实定常依

10、赖于物理上实现算法硬件的算法确实定常依赖于物理上实现算法硬件的特点特点同一个算法也可由不同的技术途径实现同一个算法也可由不同的技术途径实现 第14页第11讲2.视觉信息加工的三个要素视觉信息加工的三个要素视觉信息加工三要素的含义视觉信息加工三要素的含义 要素要素名称名称含义和所解决的问题含义和所解决的问题1计算理论什么是计算目的,为什么要这样计算2表达和算法怎样实现计算理论,什么是输入输出表达,用什么算法实现表达间的转换3硬件实现怎样在物理上实现表达和算法,什么是计算结构的具体细节12.2.1马尔视觉计算实际第15页第11讲2.视觉信息加工的三个要素视觉信息加工的三个要素它们之间有一定的逻辑因

11、果联络,但并无绝对的它们之间有一定的逻辑因果联络,但并无绝对的依赖关系依赖关系实践上看成两个层次更恰当实践上看成两个层次更恰当一旦有了计算实际,表达和算法与硬件实现是相一旦有了计算实际,表达和算法与硬件实现是相互影响的互影响的12.2.1马尔视觉计算实际表达和算法硬件实现计算理论第16页第11讲12.2.1马尔视觉计算实际3.视觉信息的三级内部表达视觉信息的三级内部表达 (1)基素表达基素表达primal sketch 一种一种2-D表达,它是图象特征的集合,描画了物体表达,它是图象特征的集合,描画了物体上属性发生变化的轮廓部分上属性发生变化的轮廓部分只用基素表达不能保证得到对场景的独一解释只

12、用基素表达不能保证得到对场景的独一解释 (a)(b)(c)(d)(e)第17页第11讲12.2.1马尔视觉计算实际3.视觉信息的三级内部表达视觉信息的三级内部表达 (2)2.5-D表达表达2-D sketch 将物体可见面正交将物体可见面正交投影分解成单元外表投影分解成单元外表用法线代表单元表用法线代表单元表面的取向面的取向将各法线画出,叠加将各法线画出,叠加于物体轮廓内可见面上于物体轮廓内可见面上 第18页第11讲12.2.1马尔视觉计算实际3.视觉信息的三级内部表达视觉信息的三级内部表达 (2)2.5-D表达表达2-D sketch 本征图,表示了物体外表面元的朝向本征图,表示了物体外表面

13、元的朝向可将可将2.5-D图转化成相对深度图图转化成相对深度图 既表达了一部分物体轮廓的信息这与基素表达既表达了一部分物体轮廓的信息这与基素表达类似表达了以察看者为中心、可察看到的物类似表达了以察看者为中心、可察看到的物体外表的取向信息体外表的取向信息 与人所了解的与人所了解的3-D物体一致可见物体轮廓以内目物体一致可见物体轮廓以内目的的的的3-D信息,如边境、深度,反射特性等信息,如边境、深度,反射特性等第19页第11讲12.2.1马尔视觉计算实际3.视觉信息的三级内部表达视觉信息的三级内部表达 (2)2.5-D表达表达2-D sketch 将将2.5-D图转化成相对深度图图转化成相对深度图

14、给定给定z(x, y)对对x和和y的偏导的偏导p和和q,实际上讲可经过在,实际上讲可经过在平面上沿恣意曲线的积分来恢复平面上沿恣意曲线的积分来恢复z(x, y)为最小化误差可选择为最小化误差可选择z(x, y)满足满足),(),(0000)dd(),(),(yxyxyqspyxzyxzyxqzpzIyxdd )()(22第20页第11讲12.2.1马尔视觉计算实际3.视觉信息的三级内部表达视觉信息的三级内部表达 (3)3-D表达表达3-D representation 以物体为中心即也包括了物体不可见部分的以物体为中心即也包括了物体不可见部分的表达方式表达方式 在以物体为中心的坐标系中描画在以

15、物体为中心的坐标系中描画3-D物体的外形及物体的外形及其空间组织其空间组织 空间占有数组,空间占有数组, 单元分解,单元分解, 几何模型几何模型广义圆柱体表达方法广义圆柱体表达方法 第21页第11讲12.2.1马尔视觉计算实际3.视觉信息的三级内部表达视觉信息的三级内部表达 从计算机或信息加工的角度来说,视觉可计算性从计算机或信息加工的角度来说,视觉可计算性问题可分成几个步骤,步骤之间是某种表达方问题可分成几个步骤,步骤之间是某种表达方式,而每个步骤都是把前后两种表达方式联络式,而每个步骤都是把前后两种表达方式联络起来的计算起来的计算/加工方法加工方法第22页第11讲3.视觉信息的三级内部表达

16、视觉信息的三级内部表达 名称名称目的目的基元基元图象表达场景的辉度或物体的照度象素(值)基素图表达图象中亮度变化位置、物体轮廓的几何分布和组织结构零交叉、端点、边缘段、边界等2.5-D图在以观察者为中心的坐标系中表达物体可见表面的取向、深度、边界等性质局部表面朝向(“针”基元)、表面朝向的不连续点、 深度、深度上不连续点3-D图在以物体为中心的坐标系中,用体元或面元集合描述形状和形状的空间组织形式3-D模型,以轴线为骨架,将体元或面元附在轴线上12.2.1马尔视觉计算实际第23页第11讲12.2.1马尔视觉计算实际4.视觉信息处置按照功能模块的方式组织视觉信息处置按照功能模块的方式组织 把视觉

17、信息的系统看成由一组相对独立功能模块把视觉信息的系统看成由一组相对独立功能模块所组成的思想,不仅有计算方面进化论和认识所组成的思想,不仅有计算方面进化论和认识论的论据支持,而且某些功能模块曾经能用实论的论据支持,而且某些功能模块曾经能用实验的方法分别出来验的方法分别出来人经过运用多种线索或从它们的结合来获得各种人经过运用多种线索或从它们的结合来获得各种本征视觉信息。这启示计算机视觉系统应该包本征视觉信息。这启示计算机视觉系统应该包括许多模块,每个模块获取某一特定的视觉线括许多模块,每个模块获取某一特定的视觉线索,结合不同的模块来最终完成视觉义务索,结合不同的模块来最终完成视觉义务 第24页第1

18、1讲12.2.1马尔视觉计算实际5.计算实际方式化表示必需思索约束条件计算实际方式化表示必需思索约束条件 在图象采集获取过程中,原始场景中的信息会在图象采集获取过程中,原始场景中的信息会发生各种变化发生各种变化(1)当当3-D的场景被投影为的场景被投影为2-D图象时,丧失了物图象时,丧失了物体深度和体深度和不可见部分的信息不可见部分的信息(2)图象是从特定视角获取的,同一物体的不同图象是从特定视角获取的,同一物体的不同视角图象视角图象会不同,另外由于物体遮挡也会会不同,另外由于物体遮挡也会丧失信息丧失信息(3)成象投影使得照明、物体几何外形和外表反成象投影使得照明、物体几何外形和外表反射特性、

19、射特性、摄象机特性、光源与物体和摄象摄象机特性、光源与物体和摄象机之间的空间关系机之间的空间关系等都被综合成单一的图象等都被综合成单一的图象灰度值,很难区分灰度值,很难区分(4)在成象过程中不可防止地会引入噪声和畸变在成象过程中不可防止地会引入噪声和畸变 第25页第11讲12.2.1马尔视觉计算实际5.计算实际方式化表示必需思索约束条件计算实际方式化表示必需思索约束条件 适定的问题:假设它的解是:适定的问题:假设它的解是: 存在的;存在的; 独独一的;一的; 延续地依赖于初始数据延续地依赖于初始数据原始场景中信息发生变化的缘由,使得将视觉原始场景中信息发生变化的缘由,使得将视觉处置问题作为光学

20、成象过程逆问题的求解方法处置问题作为光学成象过程逆问题的求解方法不适定,成了病态问题不适定,成了病态问题利用约束条件可改动病态问题利用约束条件可改动病态问题经过给计算问题加上约束条件可使它含义明经过给计算问题加上约束条件可使它含义明确从而可以获解确从而可以获解 第26页第11讲12.2.2对马尔实际框架的改良四个有关整体框架的问题: (1)框架中输入是被动的 (2)框架中加工目的不变,总是恢复场景中物体的位置和外形等 (3)框架未足够注重高层知识的指点作用 (4)整个框架中信息加工过程根本自下而上,单向流动,没有反响 第27页第11讲12.2.2对马尔实际框架的改良四个方面的相应改良: (1)

21、添加了图象获取模块 (2)根据视觉目的进展决策 (3)利用高层知识可处理低层信息缺乏的问题 (4)添加了反响控制流向 图象获取早期处理中期处理后期处理视觉目的高层知识反馈第28页第11讲12.2.3关于马尔重建实际的讨论1.重建实际的问题重建实际的问题不同视觉义务不同视觉义务/任务的共同的概念中心被假定为表任务的共同的概念中心被假定为表达,共同的处置目的是根据视觉刺激恢复场景达,共同的处置目的是根据视觉刺激恢复场景并结合进表达中并结合进表达中 假设视觉系统能恢复场景的特性,人能进一步从假设视觉系统能恢复场景的特性,人能进一步从各种线索中提取出从内部构建视觉世界的表达各种线索中提取出从内部构建视

22、觉世界的表达 视觉被看作一个由刺激开场,顺序的获取和积累视觉被看作一个由刺激开场,顺序的获取和积累的重建过程的重建过程 第29页第11讲12.2.3关于马尔重建实际的讨论1.重建实际的问题重建实际的问题视觉过程不仅仅是一个单通路的处置过程视觉过程不仅仅是一个单通路的处置过程 随着高层视觉信息的心思学研讨成果和对高随着高层视觉信息的心思学研讨成果和对高层视觉区域的解剖和功能组织的知识的添加层视觉区域的解剖和功能组织的知识的添加 根据重建的表达有一系列问题:根据重建的表达有一系列问题: (1) 在一切能够对场景进展解释的方法中,包含重在一切能够对场景进展解释的方法中,包含重建的方法兜的圈子最大,由

23、于重建并不对解释建的方法兜的圈子最大,由于重建并不对解释有直接奉献有直接奉献第30页第11讲12.2.3关于马尔重建实际的讨论1.重建实际的问题重建实际的问题根据重建的表达有一系列问题续根据重建的表达有一系列问题续 (2) 仅靠从原始图象中进展重建来实现表达在仅靠从原始图象中进展重建来实现表达在实实践中也很难实现践中也很难实现(3) 概念上的问题概念上的问题具有一个普遍一致的表达能否值得具有一个普遍一致的表达能否值得?最好的表达应该是最适宜任务的表达最好的表达应该是最适宜任务的表达对给定计算问题选择正确表达对给定计算问题选择正确表达 第31页第11讲12.2.3关于马尔重建实际的讨论2.不需重

24、建的表达不需重建的表达 “精神表达语义精神表达语义semantics of mental representations 用自然的和可预测的方式来进展表达用自然的和可预测的方式来进展表达特征检测器构成了视觉世界中的某种特征存在性特征检测器构成了视觉世界中的某种特征存在性的表达的表达对整个目的和场景的表达可以随后根据这些基元对整个目的和场景的表达可以随后根据这些基元假设基元足够多来构建假设基元足够多来构建 第32页第11讲12.2.4新实际框架的研讨1.基于知识的实际框架基于知识的实际框架 (1)利用对感知组织的处置过程,从图象特征中提利用对感知组织的处置过程,从图象特征中提取相对于察看方向在大

25、范围内坚持不变的分组取相对于察看方向在大范围内坚持不变的分组和构造和构造(2)借助图象特征构建模型,在这个过程中利用概借助图象特征构建模型,在这个过程中利用概率排队的方法减小搜索空间率排队的方法减小搜索空间(3)经过求解未知的察看点和模型参数寻觅空间对经过求解未知的察看点和模型参数寻觅空间对应关系,使得应关系,使得3-D模型的投影直接与图象特征相模型的投影直接与图象特征相匹配匹配第33页第11讲12.2.4新实际框架的研讨2.自动视觉实际框架自动视觉实际框架 (1)选择留意机制选择留意机制 (2)凝视控制凝视控制 第34页第11讲12.3图象了解系统模型图象了解系统模型 12.3.1系统模型构

26、造 12.3.2多层次串行构造 12.3.3以知识库为中心的辐射构造12.3.4以知识库为根的树构造 12.3.5多模块交叉配合构造第35页第11讲12.3.1系统模型构造系统性能将主要取决于两方面的要素:系统性能将主要取决于两方面的要素:(1) 在总体上是如何组织的,由哪些模块组成,模在总体上是如何组织的,由哪些模块组成,模块间如何联络块间如何联络(2) 每个模块内采用了何种技术,如何对信息进展每个模块内采用了何种技术,如何对信息进展加工加工典型系统模型典型系统模型松散的知识库模型松散的知识库模型 图象采集客观世界内部表达视觉系统知识库视觉理解第36页第11讲12.3.2多层次串行构造 多层

27、次串行构造将视觉信息加工过程看作一个信息处置过程,具有确定的输入和输出,因此将视觉信息系统组织成一系列分处于不同层次的模块并以串行方式结合起来,每个模块在其它模块的协同配合下按顺序执行一些特定的任务,从而逐渐完成预定的视觉义务可包括由底向上bottom up的处置比较通用但不一定总有效和由顶向下top down的处置在约束充分时效率会比较高 第37页第11讲 12.3.3 以知识库为中心的辐射构造可以看作是一种类比于人类视觉系统的构造。它的特点是以知识为中心,系统整体不分层,信号在各个模块及知识库中多次进展交换处置在组成上,人类视觉系统与计算机视觉信息系统有很大不同2021年计算时机到达与人脑

28、大约相同的处置器个数P.301 图象匹配区域提取符号表达结果模型知识库(策略)第38页第11讲12.3.4以知识库为根的树构造 以知识库为根的树构造主要是一种模块分类方式,它根据对知识的不同表达类型进展组织(1)广义图象:场景中有关图象类实体的集合 (2)分割图象:经过将广义图象中的元素聚合成 与场景中有意义物体相关联的集合而得到(3)几何构造:它是描画图象和客观世界的模型 (4)关系构造:它给出图象和构造的符号描画 第39页第11讲12.3.5多模块交叉配合构造视觉信息系统应使得客观的察看用户能从客观的场景获得不同类别和层次的信息以经过系统认识世界。多模块交叉配合构造将整个系统分成多个模块,

29、各有确定的输入和输出,且相互配合交叉,比较灵敏从总体上看,尤其是在低层和中层处置阶段,采用了多层次串行构造,从客观场景获取的视觉信息经过一系列加工过程到达察看用户。但在部分地方,特别是高层加工阶段,系统又根本围绕知识模型进展组织 第40页第11讲12.3.5多模块交叉配合构造图象采集基元检测特征测量图象分割目标表达系统库知识模型三维描述场景恢复匹配客 观 场 景观 察 用 户场景解释第41页第11讲12.4详细系统分析详细系统分析 12.4.1VISIONS 系统 12.4.2ACRONYM 系统 12.4.3KB Vision 系统 第42页第11讲12.4.1VISIONS 系统一个基于图象中区域的二维图象信息系统 在一定先验知识的指点下,对图象中的区域并从而对场景中的物体以正确解释 (1) 数据驱动 (2) 知识驱动(1) 输入到模型(2) 模型到输入 第43页第11讲1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论