《数字图像处理系统导论》课件第1章_第1页
《数字图像处理系统导论》课件第1章_第2页
《数字图像处理系统导论》课件第1章_第3页
《数字图像处理系统导论》课件第1章_第4页
《数字图像处理系统导论》课件第1章_第5页
已阅读5页,还剩125页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论1.1数字图像处理发展历程1.2人类视觉系统原理1.3电视系统原理1.4数字图像基础1.5数字图像处理技术及应用1.6常用图像处理软件1.7典型的机器视觉系统1.8小结习题

1.1数字图像处理发展历程

根据统计,人类获取的信息有70%以上来自视觉。随着社会的进步和科学技术的飞速发展,图像(Image)以其直观、具体、生动、高效等特点,被广泛地用于数据表示、信息传递和沟通交流。例如,人们通过面貌辨识区别不同的人,利用电视会议获得会话双方的视频信息,通过绘画作品来表达个人对外在事物的感受,利用卫星图像来获取敌军的部署情况等等。本节我们将对数字图像处理学科的产生、目前的发展状况及其未来走向进行介绍。图像处理是对图像进行分析、加工和处理,使其满足视觉、心理以及其他要求的技术。图像处理是信号处理在图像域中的一个应用。目前大多数的图像是以数字形式存储的,因而图像处理很多情况下指数字图像处理。数字图像处理指对输入的数字化图像施加一系列的操作和变换,以得到所期望的结果。数字图像处理最早出现于20世纪50年代,而数字图像处理作为一门学科则大约形成于20世纪60年代初期。早期的图像处理的目的是以人为对象,以改善人的视觉效果为目的。输入的是质量低的图像,输出的是改善质量后的图像。早期的数字图像处理系统为了提高处理速度、增加存储容量,一般都采用大型机。随着计算机性价比的提高,以小型机为主的微型图像处理系统得到发展。主机为PC机,配以图像采集卡及显示设备就构成了最基本的微型图像处理系统。微型图像处理系统成本低,应用灵活,便于推广。特别是微型计算机的性能逐年提高,使得微型图像处理系统的性能也不断升级,加之软件配置丰富,使其更具实用意义。图1-1表示微型图像处理系统的组成。图1-1微型图像处理系统的组成数字图像处理首次获得实际成功应用是在美国喷气推进实验室(JPL)。研究人员对航天探测器徘徊者7号在1964年发回的几千张月球照片使用几何校正、灰度变换、去除噪声等方法进行处理,并在考虑太阳位置和月球环境的影响的基础上,由计算机成功地绘制出月球表面地图,获得了巨大的成功。随后他们又对探测飞船发回的近十万张照片进行了更为复杂的图像处理,获得了月球的地形图、彩色图及全景镶嵌图,为人类登月创举奠定了坚实的基础,也推动了数字图像处理这门学科的诞生。图1-2为月球图像。在以后的宇航空间技术,如对火星、土星等星球的探测研究中,数字图像处理技术都发挥了巨大的作用。图1-2月球图像数字图像处理取得的另一个巨大成就是在医学上获得的成果。1972年英国EMI公司工程师Housfield发明了用于头颅诊断的X射线计算机断层摄影装置,也就是我们通常所说的CT(ComputerTomograph),图1-3为颅脑的CT图像。CT的基本方法是根据人的头部截面的投影,经计算机处理来重建截面图像,称为图像重建。1975年EMI公司又成功研制出全身用的CT装置,获得了人体各个部位鲜明清晰的断层图像。1979年,这项无损伤诊断技术获得了诺贝尔奖,说明它对

人类作出了划时代的贡献。与此同时,图像处理技术在许多应用领域受到广泛重视并取得了重大的开拓性成就,使图像处理成为一门引人注目、前景远大的新型学科。图1-3颅脑的CT图像随着计算机技术和数学等学科的不断进步,数字图像处理(DigitalImageProcessing,DIP)已经成长为一门内容丰富并且发展迅速的学科。图像处理是信号处理的子类,另外与计算机科学、人工智能等领域也有密切的关系。传统的一维信号处理的方法和概念很多仍然可以直接应用在图像处理上,比如变换、降噪、量化等。然而,图像属于二维信号,和一维信号相比,处理的方式和角度也有所不同。几十年前,图像处理大多数由光学设备在模拟模式下进行。由于这些光学方法本身所具有的并行特性,至今它们仍然在很多应用领域占有核心地位,例如全息摄影。但是由于计算机速度的大幅度提高,这些技术正在迅速地被数字图像处理方法所替代。图像的应用促进了信息表现技术、生成方式的巨大进步,迅速提升了图像在信息组织和传播中的重要地位,对人类的生产和生活方式产生了深远影响。从通常意义上讲,数字图像处理技术更加普适、可靠和准确。比起模拟方法,它们也更容易实现。近二十年来,数字图像在各领域得到了广泛的应用。目前,数字图像处理技术已经深入到国民经济的各个领域,在航空航天、遥感遥测、生物医学、工业安防、多媒体通信、智能机器人等领域发挥着重要作用。今天,硬件解决方案被广泛地用于视频处理系统,例如,基于流水线的计算机体系结构在这方面取得了巨大的商业成功。商业化的图像处理任务基本上仍以软件形式实现,运行在通用个人电脑上。图1-4为基于数字图像处理的动态模糊图像的复原。图1-4动态模糊图像的复原图1-5给出了数码相机人脸检测功能示例。图1-5图像中的面部检测从图形、图像到影像的视觉媒介技术的革命性发展,近几十年来已经从传统绘画、工艺、设计、影像等范畴,迅速扩展到包括数字化网络、游戏娱乐及各类人机互动新兴媒体。而电子影像技术的升级,数字媒介、网络的普及又使新的互动媒体形式大量出现,集声、像与感官互动为一体的三维动画、视频影像、电子书籍、娱乐游戏,人机互动的数字化传播方式不断推陈出新,以惊人的速度升级换代。这些已经很难简单地使用过去习惯的图画、图形、图像、影像等术语来

系统描述了,也难以在所谓Image、Graphic、Picture等外来语的语义以及翻译的分歧中来推导其所谓的本质内涵与科学概念。因为新媒体技术的发展,不论从图形、影像的技术获得,还是虚拟现实的数字表达,都使图像信息传播在内涵和形式上发生蜕变,发展成为多层面、全方位的视觉语言,为数字图像处理技术的发展提供了更广阔的空间。 1.2人类视觉系统原理

视觉是人类最重要的感知手段,图像又是视觉的基础。在数字图像处理技术中,人的视觉系统是处理前后图像信息的接收者。因此,了解人的视觉系统的特性,是恰当地选择图像处理方法以便从中获取最大信息量所必需的一项工作。本节对视觉系统原理、视觉特性及其与图像处理的密切关系进行介绍,为后续课程的学习作必要的准备。电磁波的波谱范围很广,包括无线电波、红外线、可见光谱、紫外线、X射线、γ射线等。人眼所能看到的光谱范围,只是电磁辐射波范围的很小一部分,其波长范围为380

~780nm,如图1-6所示。在可见光范围内,不同波长的光给人以不同的色彩感觉,不同波长的光及不同强度分布的光刺激人眼,在人脑中将产生不同的光强、颜色、形状等视

觉信息。随着波长的缩短,这些光呈现的颜色依次为:红、橙、黄、绿、蓝、靛、紫。图1-6电磁辐射波谱和可见波谱1.2.1眼睛的构造

相机是我们日常生活中常见的成像设备,它与人眼睛的结构有什么异同?

眼睛是一个前后直径大约23mm的近似球状体,由眼球壁和眼球构成,如图1-7所示。虹膜中央的圆孔叫做瞳孔,瞳孔可以控制进入眼睛内部的光通量,起着照相机中光圈的

作用。眼球壁最里层为视网膜,它由大量光敏细胞组成。视网膜可分为中央区和周边区。中央区有一直径约2mm的黄色区域,称为黄斑。黄斑中央有一小凹,叫做中央凹(fovea),面积约1mm2。中央凹的锥体细胞密度很高,是产生最清晰视觉的地方。视网膜图像主要投射到中央凹,然后由光接收器的相应刺激作用产生感觉。在瞳孔后面是晶状体,起着透镜作用。晶状体的曲率由其两旁的睫状肌调节,从而可以改变焦距。眼睛观看景物时,光线通过透明的角膜、前室水状液体、晶状体以及后室玻璃质液体,使影像聚焦在视网膜的中心部位——黄斑区。图1-7眼球的水平断面图晶状体的聚焦中心与视网膜间的距离在17~14mm之间变化。例如,在图1-8中,观察者正在看一棵高15m,距离100m的树。如果h为物体在视网膜上图像的高,单位为mm,由图1-8的几何形状可以看出,15/100=h/17或者h=2.55mm。图1-8视觉成像原理的几何表示1.2.2视觉通路

人类是通过眼睛与大脑来获取、处理与理解视觉信息的,周围环境中的物体在可见光的照射下,视网膜上的光敏细胞受到光刺激产生电脉冲,电脉冲沿着神经纤维传递到视神经中枢,由于各细胞产生的电脉冲不同,大脑中就形成了一幅景象。人类视觉系统理解外界信息的过程是一个不断进行特征信息提取(如光谱成分、双眼视差、速度、方位、空间频率等),同时不断进行空间、时间整合与加工的过程。视觉系统的主要视觉通路由视网膜、外膝体和视觉皮层(VisualCortex)构成,整体结构如图1-9所示。到达视网膜的光线经杆体和锥体细胞转换为神经信号,并经视网膜中的神经节细胞(GanglionCell,GC)加工,传出视网膜。经神经节细胞加工的神经信号,经过视交叉部分的交换神经纤维后,再形成视束,传到中枢的许多部位,其中包括丘脑的外膝体或外膝核(LateralGeniculateNucleus,LGN)、四叠体上丘、顶盖前区和皮层等。外膝体和视皮层都直接与视觉知觉有关。神经节细胞轴突在外膝体经过神经元后,由外膝体神经元直接放射到视皮层进行识别。图1-9视觉信号在大脑中的传递通路1.2.3色视觉

人类是如何感知五彩斑斓的自然界的?人类对色彩的感知有哪些特性?

物体的颜色对眼睛而言是一种感觉,即色觉。对于人眼主观感觉到的颜色,可以用色调、饱和度和亮度这三个基本属性来描述。色调就是颜色的名称,如红、绿、蓝、黄等;饱和度是指一种颜色的有色和无色成分的相对量,即通常所指的颜色的深浅;亮度是指颜色的无色组分在灰度等级(介于黑白之间)上的相对位置,用来表示颜色是明亮的还是阴暗的。人眼视网膜上杆状细胞的灵敏度很高,人的夜间视觉主要靠它起作用。但它对彩色不敏感,因此,在暗处只能看到黑白影像而无法辨别颜色。锥状细胞既可辨别光的强弱,又可辨别颜色,白天视觉主要由它来完成。在色觉的心理学方面,颜色的恒常性是指不管照明光的光谱组分如何变化,人们通常能像在白光下一样来分辨物体的颜色。图1-10给出了视觉对颜色变化的频率响应,称为彩色视觉的空间频率的响应。由图可看出,人眼对亮度的分辨力明显地比彩色的高。对间隔较密的黑白正弦光栅我们可能能分辨清楚,而同样间距的彩色光栅,则可能分辨不清。图1-10彩色视觉的空间频率响应经过对各种类型人的实验进行统计,国际照明委员会推荐标准视敏度曲线(也称相对视敏函数曲线)如图1-11中的V(λ)曲线所示。图中曲线表明具有相等辐射能量、不同波长的光作用于人眼时,引起的亮度感觉是不一样的。从图可以看出,人眼最敏感的光波长为555nm,颜色是草绿色,这一区域的颜色,人眼看起来省力,不易疲劳。关于彩色视觉,科学家曾做过大量实验并提出视觉三色原理的假设,认为锥状细胞又可分成三类,分别称为红敏细胞、绿敏细胞、

蓝敏细胞。它们各自的相对视敏函数曲线分别为图1-11所示的VR(λ)、VG(λ)、VB(λ),其峰值分别在580nm、540nm、440nm处。图中VB(λ)曲线幅度很低,已将其放大了20倍。三条曲线的总和等于相对视敏函数曲线V(λ)。图1-11标准视敏度曲线1.2.4视觉惰性

实验证明,当某一强度的光突然作用于人眼的视网膜上时,并不能立即产生稳定的主观亮度感觉,通常存在一个短暂的过渡过程。随着作用时间的增长,亮度的主观感觉会由小到大,达到最大值之后又降低回正常值。

对人眼的实验结果还证明,当光刺激消失后,人的亮度感觉并不是立即消失,而是按照一定的近似于指数函数曲线的规律逐渐地减少。以一个窄光脉冲引起的主观亮度感觉为例,人的主观感觉滞后于窄光脉冲的刺激。图1-12(a)表示作用于人眼的光脉冲,图1-12(b)表示该光脉冲造成的主观亮度感觉,它滞后于实际的光脉冲。光脉冲消失后,亮度感觉还要一段时间才能消失。图1-12(b)中t1~t2就是视觉暂留时间。在中等亮度的光刺激下,视力正常的人视觉暂留时间约为0.1s。如果将重复频率提高到某一数值以上,人眼睛的主观感觉就会形成均匀的不闪烁感觉。不引

起闪烁感的最低重复频率称为临界闪烁频率。图1-12人眼的视觉惰性1.2.5立体视觉

我们在三维的世界里轻松游走,得益于我们的双眼,让我们一起探究其中的原理。

立体视觉就是视觉系统对三维空间的知觉,人类的视觉不仅要识别物体的形状和颜色,而且要判断物体的三维信息,也就是辨别物体的距离、物体间的前后位置、方向等。外界目标在视网膜上的像是二维的,而且同一物体在左右眼视网膜上的成像有一定的差异,这种不同就是视差(Disparity)。Julesz首次使用随机点立体图对作为刺激研究了立体视觉,如图1-13所示。受试者在观察随机立体图对时,用左右眼分别观看其中一个图几秒钟,当两个图融合后,便会感受到有一个方形平面从背景中突显出来。在一定范围内主观的深度知觉随视差量的增大而增强。图1-13立体视觉测试图除了双眼视差提供深度信息外,还有许多单眼的信息可以产生深度信息的估计,如物体的重叠、透视(近大远小,近清晰远模糊,近亮远暗)、明暗、纹理及运动。当然这种深度估计在质量和感觉上仍无法与视差立体知觉的深度相比。因为靠视网膜只能得到外部世界的二维图像,双眼视觉才是立体视觉的主要基础,双眼视差信息是深度知觉最重要的线索。1.2.6亮度适应和区分

人类视觉系统对亮度变换有什么特性?我们看到的和实际情况一致吗?

1.马赫带(Machband)效应

1868年奥地利物理学家E.马赫发现了一种明度对比现象,如图1-14为马赫带效应图。它是一种主观的边缘对比效应。当观察两块亮度不同的区域时,边界处亮度对比加强,使轮廓表现得特别明显。生理学对马赫带效应的解释是:人类的视觉系统有增强边缘对比度的机制。图1-14马赫带效应

2.视觉范围

人眼识别光的强度范围,由夜视阈值到强闪光之间为1~1010级,基于人眼对某个区域感觉到的亮度并不仅仅依赖于它的强度,主观亮度(视觉系统感觉到的亮度)是进入眼睛光强度的对数。之所以如此,是因为眼睛的感光作用有随外界光的强弱而自动调节的能力。这种调节能力也称眼睛的适应性。

3.同时对比度

图1-15的具有相同亮度的两灰色小方块,分别放在黑色与白色的背景中。当进行同时对比时,会感到图中的方块从左至右亮度逐渐增加。这种现象可用近旁适应性来解释。例如,当灰色小方块周围是明亮的背景时,视网膜上受灰色光激励的光敏细胞,因受其周围光敏细胞在高亮度光激励下视敏度下降的影响,产生的亮度感觉有所下降。相反,若灰色周围是黑暗背景,则光敏细胞对灰色的亮度感觉将有所增强。图1-15同时对比度1.2.7视觉错觉

明明是平行线为什么感觉是交叉的?视觉错觉是怎么产生的?

人眼对光线的刺激可以产生相当复杂的反应,并通过神经系统传至大脑,再根据人的经验、记忆、分析、判断、识别等极为复杂的过程而构成视觉,在大脑中形成物体的形状、颜色等概念。错觉是指人们对外界事物的不正确的感觉或知觉。最常见的是视觉方面的错觉,如图1-16所示。产生错觉的原因,除来自客观刺激本身特点的影响外,还有观察者生理方面和心理方面的原因。来自生理方面的原因与我们感觉器官的机构和特性有关,而来自心理方面的原因则与我们生存的条件以及生活的经验有关。图1-16视觉错觉

1.3电视系统原理

1.3.1电视系统的组成

电视是根据人眼的视觉暂留特性和视觉心理,运用电子技术和光电技术,来制作事物的图像信号的方法和技术。能将外界事物变成活动图像的电视系统,分为成像、传输、显像三个最基本的组成部分。摄像的过程即是把景物的光像转换成电信号的过程。图像的摄取与重现是基于光和电的转换原理实现的,在电视的光电转换过程中,把一帧图像(即一幅图像)分解成了许多叫做像素的基本单元。图1-17所示为电视图像光电转换系统简图。图1-17电视图像光电转换系统简图1.3.2成像原理

图像的摄取主要由摄像管来完成。摄像管主要由光敏靶、偏转线圈及电子枪组成,光敏靶上的光电导材料具有在光作用下电导率增加的特性。当景物成像在光敏靶上时,由于光像各部分亮度不同,靶上各点的电导率也会发生相应的变化,于是图像上各像素的不同亮度就转变为靶面上各点电导率的不同。摄像时,从电子枪阴极发射的电子,聚成一束射向靶面的电子束,管外偏转线圈产生的磁场使电子束在靶面上作从左至右,自上而下的扫描运动,通过电子束,形成了由阴极、靶面、负载电阻RL及电源构成的闭合回路。当电子束依次扫过靶面上各点时,亮度大处电阻小,流过RL的电流就大;亮度弱处电阻大,流过RL的电流就小,在输出端便得

到随亮度变化的图像电信号。这样,通过电子束在靶面上的扫描,完成了把图像分解为像素,并将光信号转换为电信号的过程。图1-18所示为摄像管成像原理图。图1-18摄像管成像原理1.3.3显像原理

显像是把图像电信号恢复成为人眼可见的光像。显像是由显像管来完成的,显像管主要由电子枪和荧光屏组成。显像时,受电视信号控制的电子束以扫描的形式轰击荧光屏上的荧光材料的一个个小点——像素,使其发光强度随信号电流大小而变化,于是再现出与原光学影像相对应的电视图像。电子束的扫描方式是沿着水平方向从左到右,并逐渐自上而下地匀速扫过整个靶面。沿水平方向的扫描称为行扫描,自上而下的扫描称为垂直扫描或场扫描。在扫描技术上,国际上分为隔行扫描和逐行扫描两种技术,我国采用的是隔行扫描。隔行扫描是把一幅图像分为两场,第一场扫描1、3、5等奇数行,称为奇数场,第二场扫描2、4、6等偶数行,称为偶数场。如图1-19所示为显像管的成像原理图。图1-19显像管的成像原理要使接收端能够重现发端的图像,显像管的扫描必须与摄像管的扫描步调一致,即在任意时刻,显像管的电子束扫描必须准确地重现摄像管的扫描过程,场、行、点一致。这种使接收端与发送端的扫描运动相互保持一致的作用叫做同步。在全电视信号中,每行有一个行同步信号作为时间基准,每一场有一个场同步信号作时间基准。为保证场、行扫描的逆过程不被显示,还要有场、行的消隐信号。所以,电视信号包括图像信号、同步信号和消隐信号三部分内容。图1-20为黑白全电视信号示意图。图1-20黑白全电视信号示意图彩色电视并不直接传送R、G、B三基色信号,而是先将它们转换成一个亮度信号Y(与已有的黑白电视兼容)和两个色差信号R-Y、B-Y,然后再编码成一个复合型的电视信号进行传送,最后在接收端将该电视信号分解还原出R、G、B三基色信号构成的彩色图像。彩色电视信号包括亮度信号、色差信号、同步信号、消隐信号等多种信号成分,这种复合型的彩色电视信号又叫全电视信号。在彩色电视系统的发送端,可以采用不同的编码方式,把三基色信号转换成亮度信号和色度信号,这些编码方式叫做彩色电视制式。目前,世界各国广为采用的有三种彩色电视制式。美国、加拿大、日本等采用NTSC制式;德国、英国、中国等采用PAL制式;法国、俄罗斯、东欧等国采用SECAM制式。我国的电视标准规定,一帧电视图像的行数是625行,行扫描频率是15625Hz,每秒传送25帧图像,一帧包括两场扫描,即场扫描频率为50Hz,每场扫描312.5行。

每帧图像为什么会选择625行?

具体推算过程如下:

人眼视角清楚张角为垂直15°,对应l≈4h(水平20°),人眼的分辨角θ≈1.5′。图1-21为视觉几何关系示意图。图1-21视觉几何关系示意图以中心点的识别宽度d为扫描宽度,则显示图像扫描行数应为z′=h/d,

实际取图像显示行Z′=575行,加上逆程50行,得每帧扫描行数为Z=625行。

1.4数字图像基础

1.4.1图像的成像模型

我们将图像表示为二维函数f(x,y),f(x,y)的幅值代表了图像坐标点(x,y)位置的图像的亮度,取决于图像源在该点的能量。f(x,y)必须满足以下条件:

0<f(x,y)<∞

人们看到的图像一般是从目标反射出的光进行亮度度量得到的,所以f(x,y)可以由两部分构成,一是入射到自然场景的光的量;二是场景中目标对光的反射特性。它们分别称为光照度及反射系数,i(x,y)表示光照度,r(x,y)表示反射系数。因为f(x,y)与i(x,y)和r(x,y)都成正比,故可以认为:f(x,y)=i(x,y)r(x,y)其中0<i(x,y)<∞,0<r(x,y)<1。一些典型的r(x,y)值如下:黑天鹅绒0.01,不锈钢0.65,粉刷的白墙平面0.80,镀银的器皿0.90,白雪0.93。1.4.2数字图像采样

所谓采样,就是把位置空间上连续的模拟图像变换成离散点(称为采样点)集合的一种操作。采样点对应采样所得的数字图像的像元。对图像空间坐标的离散化,决定了图像的空间分辨率。可以直观地理解为,用一个网格把待处理的图像覆盖,然后把每一小格上模拟图像的各个亮度取平均值,作为该小方格中点的值,或者把方格的交叉点处模拟图像的亮度值作为该方格交叉点上的值。空间分辨率一般用单位长度上采样的像素数目或单位长度上的线对数目表示。采样点数决定了图像的空间分辨率。图1-22为数字图像采样原理示意图。图1-22数字图像采样原理示意图对图像采样时,若每行像素为N个,每列像素为M个,则图像大小为M×N个像素,从而f(x,y)构成一个M×N实数矩阵,每个元素为图像f(x,y)的像素,即

对一幅图像,当量化级数Q一定时,采样点数M×N对图像质量影响显著。采样点数越多,空间分辨率越高,图像质量越好;当采样点数减少时,图上的块状效应就逐渐明显。图1-23为数字图像的4种空间分辨率效果图。图1-23数字图像的空间分辨率1.4.3数字图像量化

把采样后所得的各像素灰度值从模拟量到离散量的转换称为图像灰度的量化。量化是对图像幅度的离散化,它决定了图像的幅度分辨率。量化的方法包括均匀量化和非均匀量化。实际上量化就是把每一个离散样本的连续灰度值只分成有限多的层次。均匀量化是把原图像灰度层次从最暗至最亮均匀分为有限层次,若采用不均匀分层就称为非均匀量化。图1-24为量化示意图。图1-24量化示意图量化和采样是两个不同的概念,量化是在每个采样点上进行的,所以必须先采样后量化。若M、N为图像尺寸,G=2k为每个像素所具有的离散灰度级数(不同灰度值的个数),则存一幅图像所需的位数(bit)为B=M×N×k。

灰度级分辨率是指图像灰度级中可分辨的最小变化,一般用灰度级或比特数表示。当图像的采样点数一定时,采用不同量化级数的图像质量也不一样。量化级数越多,图像质量越好,量化级数最小的极端情况就是二值图像,图像出现假轮廓。图1-25给出了三种不同量化级数下数字图像的灰度分辨率。图1-25数字图像的灰度分辨率量化和采样是图像数字化不可或缺的两个操作,二者紧密相关。当限定数字图像的大小时,为了得到质量较好的图像,一般可采用如下原则:

(1)对缓变的图像,应该细量化,粗采样,以避免假轮廓。

(2)对细节丰富的图像,应细采样,粗量化,以避免模糊。1.4.4数字图像的表示

采样和量化的结果是一个实数矩阵。假如一幅图像f(x,y)被取样,则产生的数字图像有M行和N列。现在,坐标(x,y)的值变成离散量。为表达清楚和方便起见,将这些离散坐标用整数表示。这样,原点的坐标值是(x,y)=(0,0),沿图像第一行的下一个坐标值用(x,y)=(0,1)来表示。图1-26为数字图像的坐标表示。图1-26数字图像的坐标表示一幅256级灰度的Lenna图像,取其中的眼部,可以得到其数据,如图1-27(c)所示。图1-27数字图像数据1.4.5图像的文件格式

计算机图像分为位图(又称点阵图或栅格图像)和矢量图两大类。矢量图又称面向对象的图像或绘图图像,图像各个部分是由对应的一组数学公式描述的。矢量文件中的图形元素称为对象。每个对象都是一个自成一体的实体,它具有颜色、形状、轮廓、大小和屏幕位置等属性。与矢量图形相比,位图的图像放大到一定程度时,就会看见构成整个图像的无数单个方块,这些小方块就是图形中最小的构成元素——像素点。图1-28给出了图像的局部放大效果。图1-28图像的局部放大效果文件格式(FileFormat)是指将数字图像以不同格式进行保存的方式,目前主要的图像文件格式主要包括GIF、BMP、AmigaIFF、PCX、PDF、PICT、PNG、JPEG、TIFF。

1.GIF格式

GIF是网页图像最常采用的格式,采用LZW压缩,图像色彩限定在256色以内,这些颜色被保存在作为GIF文件的调色板上,图像的压缩量完全取决于图像内容。如果图像几乎是单色调的,则图像文件大小可缩到原图像大小的十分之一到百分之一,而对自然图像压缩量通常非常小。

2.PNG格式

PNG格式是一种适合Web应用的图像压缩文件格式,和GIF格式一样,在保留清晰细节的同时,也高效地压缩实色区域。但不同的是,它可以保存24位的真彩色图像,并且支持透明背景和消除锯齿边缘的功能,可以在不失真的情况下压缩保存图像。

3.BMP格式

BMP(WindowsBitmap)是微软公司开发的MicrosoftPaint的固有格式,这种格式被大多数软件所支持。BMP格式采用了一种叫RLE的无损压缩方式,对图像质量不会产生影响。是Windows系统中广泛使用的图像文件格式。由于它可以不作任何变换即可保存图像像素域的数据,因此成为我们取得RAW数据的重要来源。

4.PICT格式

PICT是Mac上常见的数据文件格式之一。另外,如果要在PC上打开一幅Mac上的PICT文件,则建议安装QuickTime,否则,将无法打开PICT图像。

5.TIFF格式

TIFF(TaggedImageFileFormat)格式是应用最为广泛的标准图像文件格式,它是跨越Mac与PC平台最广泛的图像打印格式,几乎所有的图像处理软件都能接受并编辑TIFF文件格式。

6.JPEG格式

JPEG(JointPhotographicExpertsGroup)格式为印刷和网络媒体上应用最广的压缩文件格式,使用这种格式可以对图像进行大幅度的压缩,以节约存储空间,尤其适于图像在网络上的快速传输和网页设计中的运用。将图像存储为JPEG格式时,品质参数可以设置,数值设置越大,图像在压缩时压缩倍率越小,图像损失越小。

1.5数字图像处理技术及应用

1.5.1研究领域

数字图像处理主要研究的内容有以下几个方面:

(1)图像变换。由于图像阵列很大,直接在空间域中进行处理,计算量很大。因此,往往采用各种图像变换的方法,如傅里叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,这不仅可减少计算量,而且更加有效(如傅里叶变换可在频域中进行数字滤波处理),图1-29为图像傅里叶变换的效果。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。图1-29图像傅里叶变换的效果

(2)图像编码压缩。图像编码压缩技术可减少描述图像的数据量(即比特数),以节省图像传输和处理时间,减少所占用的存储器容量。编码是压缩技术中最重要的方法,它是图像处理技术中发展最早且比较成熟的技术。图1-30为图像压缩编码流程框图。图1-30图像压缩编码流程框图

(3)图像增强和复原。图像增强和复原的目的是为了提高图像的质量,如去除噪声、提高图像的清晰度等。图像增强不考虑图像降质的原因,而突出图像中所感兴趣的部分。图像复原要求对图像降质的原因有一定的了解,一般讲应根据降质过程建立“降质模型”,再采用某种滤波方法,恢复或重建原来的图像。图1-31为图像的去雾效果图。图1-31图像的去雾效果

(4)图像分割。图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征包括图像的边缘、区域等,这些特征是进一步进行图像识别、分析和理解的基础。图1-32为图像分割效果图。虽然目前已研究出不少边缘提取、区域分割的方法,但对图像分割的研究还在不断深入之中,图像分割是目前图像处理研究的热点之一。图1-32图像分割效果

(5)图像描述。一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。

(6)图像分类。图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图1-33为图像分类流程图。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。图1-33图像分类流程图

(7)图像理解。随着图像处理技术的深入发展,从20世纪70年代中期开始,计算机技术和人工智能、思维科学研究迅速发展,数字图像处理也向更高、更深层次发展。人们已开始研究如何用计算机系统解释图像,实现用类似人类视觉系统来理解外部世界,这被称为图像理解或计算机视觉。很多国家,特别是发达国家投入了很多的人力、物力到这项研究中,取得了不少重要的研究成果。其中代表性的成果是70年代末MIT的Marr提出的视觉计算理论,这个理论成为计算机视觉领域其后十多年的主导思想。图像理解虽然在理论方法研究上已取得不小的进展,但它本身是一个比较复杂的研究领域,存在不少困难,加之人类本身对自己的视觉过程还

了解甚少,因此计算机视觉是一个有待人们进一步探索的新领域。1.5.2数字图像处理的优点

数字图像处理的优点主要有四个方面:

(1)再现性好。数字图像处理不会因图像的存储、传输或复制等一系列变换操作而导致图像质量的退化。只要图像在数字化时准确地表现了原稿,则数字图像处理过程就始终能保持图像的再现。

(2)处理精度高。按目前的技术,几乎可将一幅模拟图像数字化为任意大小的二维数组,现代扫描仪可以把每个像素的灰度等级量化为16位甚至更高,这意味着图像的数字化精度可以达到任一应用需求。

(3)适用面宽。图像可以来自多种信息源,它们可以是可见光图像,也可以是不可见的波谱图像(例如X射线图像、射线图像、超声波图像或红外图像等)。这些图像均可用计算机来处理,即只要针对不同的图像信息源采取相应的图像信息采集措施,图像的数字处理方法就可适用于任何一种图像。

(4)灵活性高。图像处理大体上可分为图像的像质改善、图像分析和图像重建三大部分,每一部分均包含丰富的内容。图像的光学处理从原理上讲只能进行线性运算,极大地限制了光学图像处理能实现的目标。而数字图像处理不仅能完成线性运算,而且能实现非线性处理,即凡是可以用数学公式或逻辑关系来表达的一切运算均可用数字图像处理实现。1.5.3数字图像处理的应用领域

图像是人类获取和交换信息的主要来源,因此,图像处理的应用领域涉及到人类生活和工作的方方面面。随着人类活动范围的不断扩大,图像处理的应用领域也将随之扩大。

1.遥感图像

数字图像处理技术在航天和航空技术方面的应用,除了JPL对月球、火星照片等的处理之外,另一方面的应用是在飞机遥感和卫星遥感技术中。许多国家每天派出很多侦察飞机对地球上感兴趣的地区进行大量的空中摄影,利用数字图像处理技术可以从这些照片中提取人工不能发现的大量有用情报,图1-34给出了遥感图像示例。现在,世界各国都在利用卫星所获取的图像进行资源调查(如森林调查、海洋泥沙和渔业调查、水资源调查等),灾害检测(如病虫害检测、水火检测、环境污染检测等),资源勘察(如石油勘查、矿产量探测、大型工程地理位置勘探分析等),农业规划(如土壤营养、水份和农作物生长、产量的估算等),城市规划(如地质结构、水源及环境分析等)。我国也陆续开展了以上诸方面的一些实际应用,并获得了良好的效果。在气象预报和对太空其他星球研究方面,数字图像处理技术也发挥了相当大的作用。图1-34遥感图像示例

2.生物医学工程

数字图像处理在生物医学工程方面的应用十分广泛,而且很有成效。除上面介绍的CT技术外,还有一类是对医用显微图像的处理分析,如红细胞、白细胞分类,染色体分析,癌细胞识别等。此外,在X光肺部图像增晰、超声波图像处理、心电图分析、立体定向放射治疗等医学诊断方面也广泛地应用图像处理技术。图1-35给出了胸部X光图像增强示例。图1-35胸部X光图像增强示例

3.通信工程

当前,通信的主要发展方向是声音、文字、图像和数据结合的多媒体通信。要将这样高速率的数据实时传送出去,必须采用编码技术来压缩信息的比特量。在一定意义上讲,编码压缩是这些技术成败的关键。除了已应用较广泛的熵编码、DPCM编码、变换编码外,目前国内外正在大力开发研究新的编码方法,如分行编码、自适应网络编码、小波变换图像压缩编码等,视频会议是典型的多媒体通信的应用实例,目前比较成熟。图1-36给出了视频通信系统示例。图1-36视频通信系统示例

4.工业和工程领域

在工业和工程领域中图像处理技术有着广泛的应用,如自动装配线中零件质量的检测及分类、印刷电路板瑕疵检查,弹性力学照片的应力分析、流体力学图片的阻力和升力分析、邮政信件的自动分拣、有毒及放射性环境中工件及物体的形状和排列状态的识别,先进设计和制造技术中采用的工业视觉等等。其中值得一提的是,研制具备视觉、听觉和触觉功能的智能机器人,将会给工农业生产带来新的激励,目前已在工业生产中的喷漆、焊接、装配中得到有效的利用。图1-37为工业检测系统的构成。图1-37工业检测系统的构成

5.军事和公共安全

在军事方面,图像处理和识别主要用于导弹的精确末制导,各种侦察照片的判读,具有图像传输、存储和显示的军事自动化指挥系统,飞机、坦克和军舰模拟训练系统等,图1-38为视觉辅助着陆系统。在公共安全方面,主要用于公安业务图片的判读分析、指纹识别、人脸鉴别、不完整图片的复原,以及交通监控、事故分析等。目前已投入运行的高速公路不停车自动收费系统中的车辆和车牌的自动识别都是图像处理技术成功应用的例子。图1-38视觉辅助着陆系统

6.文化艺术

目前,这类应用有电视画面的数字编辑、动画的制作、电子图像游戏、纺织工艺品设计、服装设计与制作、发型设计、文物资料照片的复制和修复、运动员动作分析和评分等等,现在已逐渐形成一门新的艺术——计算机美术。图1-39给出了一幅视觉艺术图像。图1-39视觉艺术图像

7.机器人视觉

机器视觉装置作为智能机器人的重要感觉器官,主要进行三维景物理解和识别。机器人视觉主要用于军事侦察、危险环境的自主机器人,邮政、医院和家庭服务的智能机器人,装配线工件识别、定位,太空机器人的自动操作等。图1-40为火星机器人照片。图1-40火星机器人

8.视频和多媒体系统

目前,电视制作系统广泛使用的图像处理、变换和合成,多媒体系统中静止图像和动态图像的采集、压缩、处理、存贮和传输等都属于图像处理的应用。图1-41为多媒体视频编辑。图1-41多媒体视频编辑 1.6常用图像处理软件

“工欲善其事,必先利其器”,毫无疑问,每个优秀的数字图像系统开发人员都会认真地考虑自己所选用的开发工具。对于从事机器视觉应用技术开发的工程师来说,他们所追求的是功能强大同时又快捷高效的工具,既能保证开发出来的视觉系统足以满足复杂应用现场的实际需求,又能快速完成一系列复杂算法的开发。开源计算机视觉库为图像处理、模式识别、三维重建、物体跟踪、机器学习和线性代数提供了各种各样的算法。这些有助于读者迅速入门并渐入佳境,兴趣盎然地深入探索计算机视觉领域。

1.OpenCV

OpenCV(OpenSourceComputerVisionLibrary)于1999年由Intel建立,现在由WillowGarage提供支持。OpenCV是一个基于BSD许可证授权(开源)发行的跨平台计算机视觉

库,可以在Linux、Windows和MacOS操作系统上运行。它是轻量级而且高效的——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。OpenCV提供的视觉处理算法非常丰富,并且它部分以C语言编写,加上其开源的特性,处理得当,不需要添加新的外部支持也可以完整地编译链接生成执行程序,所以很多人用它来进行算法的移植,OpenCV的代码经过适当改写可以正常地运行在DSP系统和单片机系统中,目前这种移植在大学中经常作为相关专业本科生毕业设计或者研究生课题的选题。图1-42为OpenCV界面图。图1-42

OpenCV界面图

2.AForge.NET

AForge.NET是基于C#框架专门为开发者和研究者设计的,它涉及计算机视觉与人工智能、图像处理、神经网络、遗传算法、机器学习、机器人等领域。图1-43为AForge.NET例程视窗。

图1-43

AForge.NET例程视窗

AForge.NET由一系列的类库和例子组成,其中包括:

AForge.Imaging——一些日常的图像处理和滤波器;

AForge.Vision——计算机视觉应用类库;

AForge.Neuro——神经网络计算库;

AForge.Genetic——进化算法编程库;

AForge.MachineLearning——机器学习类库;

AForge.Robotics——提供一些机器学习的工具类库;

AForge.Video——一系列的视频处理类库。

3.HALCON

HALCON是由德国MVtec公司开发的在世界范围内广泛使用的机器视觉软件,图1-44为HALCON软件界面。用户可以利用其开放式结构快速开发图像处理和机器视觉应用软件。HALCON包含Blob分析、形态学、模式识别、测量、三维摄像机定标、双目立体视觉等性能杰出的算法等。图1-44

HALCON软件界面图

HALCON的主要优点有:

(1)为了让使用者能在最短的时间内开发出视觉系统,HALCON包含了一套交互式的程序设计接口HDevelop,可在其中以HALCON程序代码直接编写、修改、执行程序,并且可以查看计算过程中的所有变量,设计完成后,可以直接输出C、C++或者COM(VisualBasic)程序代码,嵌入使用者的程序中。HDevelop同时和数百个范例程序连接,除了个别计算功能的说明外,使用者也可以随时依据不同的类别找到应用的范例,方便参考。

(2)HALCON提供了40余种相机的驱动,即使是尚未支持的相机,除了可以透过指针(pointer)轻易地抓取影像外,还可以利用HALCON开放性的架构,自行编写DLL文件和系统连接。

(3)HALCON支持的操作系统除微软的NT/XP/2000外,还有Linux、Solaris7、IRIX6.5、Tru64UNIX5.1等等。

(4)使用HALCON,在设计人机接口时没有特别的限制,也不需要特别的可视化组件,可以完全使用开发环境下的程序语言,如VisualStudio等,架构自己的接口,而且在软件执行时只需要很少的资源。

4.MATLAB

MATLAB软件由美国MathWorks公司推向市场以来,历经十几年的发展,现已成为国际公认的最优秀的科技应用软件之一。图1-45所示为MATLAB软件界面。它具有编程简单、数据可视化功能强、可操作性强等特点,而且配有功能强大、专业函数丰富的图像处理工具箱,如图像处理工具箱、小波工具箱、神经网络工具箱等多个学科的专用工具箱。借助于这些工具箱研究人员可直观、方便地进行分析、计算及设计工作,从而快速实现科研构想和提高工作效率。MATLAB是进行图像处理工作必备的软件工具。图1-45

MATLAB软件界面 1.7典型的机器视觉系统

“一目十行”在机器视觉系统里,并不是神话。在工业检测现场,一般需要完成复杂部件外形特征的流水检测。人工做此类测量和判断会因疲劳、个人之间的差异等产生误差和错误,无法完成100%在线检测无漏检。但是机器却会不知疲倦地、稳定地进行下去。因此机器视觉技术成为代替人眼的有效手段。

经典的机器视觉系统由光学系统、图像处理系统和执行机构组成,先通过特定的光学系统对工件的待测特征进行取像,完成图像采集后再由图像处理系统对当前图像进行算法解析并输出结果,最后由执行机构执行动作,显示检测结果信息,完成数据报表和保存。典型的工业机器视觉应用系统包括光源、镜头、CCD照相机、图像处理单元(或图像采集卡)、图像处理软件、监视器、通信及输入/输出单元等,如图1-46所示。设计不同的机器视觉系统可实现对产品形状、颜色、灰度、外形尺寸、表面缺陷、相对位置、字符、1D/2D码等外形特征的复杂检测应用,并可在高速、高精度的应用中严格保证无漏检。图1-46典型的机器视觉系统构成机器视觉系统支持各类工业现场总线通讯,使得检测结果能以各种方式稳定地与相关设备通讯构成闭环控制。机器视觉系统采用光源以降低环境光线的影响;采用多个相机对目标需要检测的各个面进行拍照,以保证检测的全面性;采用外触发模式使各个面的图像分通道进入图像采集单元;经过处理单元对各通道的图像进行复杂的表面检测运算,如果发现任何一个通道的图像存在表面质量缺陷,则对下位机给出控制信号,使执行单元在该不合格目标通过时将其剔除;系统显示器实时显示各通道图像及其检测结果,并给出缺陷的分析结果。下面简单介绍典型机器视觉系统的图像处理系统的构成。

1.摄像头和光学部件

摄像头和光学部件通常含有一个或多个摄像头和镜头(光学部件),用于拍摄被检测的物体。根据应用,摄像头可以基于如下标准:黑白RS-170/CCIR,复合彩色(Y/C)、RGB彩色、非标准黑白。按照芯片类型可以分为CCD相机、CMOS相机;按照传感器的结构特性可以分为线阵相机、面阵相机;按照扫描方式可以分为隔行扫描相机、逐行扫描相机;按照分辨率大小可以分为普通分辨率相机、高分辨率相机;按照输出信号方式可以分为模拟相机、数字相机;按照输出色彩可以分为单色(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论