版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1几何变换图像分割图像平滑与锐化形态学处理图像压缩与编码图像特征提取颜色形状纹理高级数字图像处理光流分析兴趣点提取基于内容的图像检索2数字图像处理数字图像处理的基础知识概念、特点编程语言、应用图像的统计特性 图像文件格式 图像质量的评价标准 3数字图像处理数字图像处理目的数字图像处理内容数字图像处理应用4数字图像处理数字图像处理,是对数字图像进行分析、加工和处理,使其满足视觉、心理以及其它要求的技术数字图像处理易于实现非线性处理,处理程序和处理参数可变,是一项通用性强、精度高、处理方法灵活、信息保存传送可靠的图像处理技术数字图像处理的研究内容很多,如傅里叶变换、小波变换等各种图像变换,对图像进
2、行编码和压缩,采用各种方法对图像进行复原和增强,对图像进行分割、描述和识别等5数字图像处理20世纪20年代,图像处理首次得到应用20世纪60年代中期,随电子计算机的发展图像处理得到普通应用60年代末,图像处理技术不断完善,逐渐成为一个新兴的学科数字图像处理是信号处理在图像领域上的一个应用信号处理,在计算机控制、药物分析、电子学等学科所关心的是信号的表示、变换和运算,以及它们所包含的信息6数字图像处理对于数字图像处理的理解可以分为两种一是借助于专业的图像工具进行处理二是使用某种计算机语言进行编程面向终端用户面向专业编程Windows自带的画图程序Adobe公司的Photoshop软件C+Java
3、数字图像处理目的7数字图像处理8数字图像处理Paint工具最大的特点就是简单,并且不失一般通用的数字图像处理功能绘制直线使用指定颜色进行区域填充将指定图像设置为Windows桌面主题背景显示栅格以进行像素信息的精细调整处理从数码相机或扫描仪得来的图像将图像作为电子邮件附件进行发送关于Lena图像,其来源一般不为人所知,相应的出处可以在互联网上查询到,这也是比较有趣的现象,在学术界曾引起不小的争执9数字图像处理10数字图像处理Photoshop主要处理以像素所构成的数字影像,利用其广泛的编辑与绘图工具,可以更有效的进行图片编辑工作。独特的历史记录浮动视窗和可编辑的图层效果功能使用户可以方便的测试
4、效果。对各种滤镜的支持更令其用户能够轻松创造出各种奇幻的效果。Photoshop被人们认为是最好的图像处理软件,也正在被更多的用于处理网络图片。11数字图像处理目前编程语言很多,在选择上并不存在倾向性很强的指导性原则。有的时候往往基于程序员的个人喜好和编程习惯,其原因就是运用任意一种语言几乎都能实现所要的目标功能。设想使用汇编语言去开发一个信息管理系统,肯定不会有人说一定不会成功,但也肯定不会有人实际去尝试。对于数字图像处理来说,一般使用下述三种语言进行编程实现,包括Matlab、Java和C+。12数字图像处理MATLAB是一种由美国 MathWorks 公司出品的商业数学软件,是一种数值计
5、算环境和编程语言,主要包括 MATLAB 和 Simulink 两大部分。MATLAB基于矩阵(英语:Matrix)运算,其全称 MATrix LABoratory,即得名于此。在MATLAB中,有两个工具箱,包括数字图像处理和数字信号处理,提供了非常强大的处理功能。13数字图像处理往往一个数字图像处理算法,如果用C+编写,可能需要上千行代码,而在MATLAB中只需要一个函数就可以实现,这都要归功于MATLAB所提供的强大的工具箱。MATLAB特别适合数字图像处理相关的算法设计,但是其执行效能很低,在实际应用中往往需要将MATLAB代码转换为C+代码。鉴于MATLAB工具包的强大,本书提供了与
6、MATLAB的接口实现。14数字图像处理Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言,由Sun公司的James Gosling等人于1990年代初开发。Sun公司对Java编程语言的解释是:Java编程语言是个简单、面向对象、分布式、解释性、健壮、安全、与系统无关、可移植、高性能、多线程和动态的语言。在应付数字图像处理问题方面,Java和C#应该说没有太大的特色和优势,既没有MATLAB功能强大的工具箱,也没有C+语言所带来的编程灵活和运行效率高的优点。15数字图像处理C+是一种使用非常广泛的电脑程序设计语言,是一种静态类型检查的,支持多范型的通用程序设计语言。有一部分Unix
7、/C程序员对C+语言深恶痛绝,他们批评的理由如下:1)标准模板库STL以非常丑陋的方式封装了各种数据结构和算法,写出来的代码难以理解、不美观;2)C+编译器复杂和不可靠,不适合构建人命关天型的程序;3)一部分认为面向对象技术徒增学习成本,不如面向过程的C语言简单容易使用。16数字图像处理数字图像处理的一个显著特征就是数据量大,要求计算机语言具有运算速度快、可以灵活编程等特点,这恰恰就是C+语言的特点。众所周知,在高级编程语言中C+所编译的程序是最快的,但是这种快的优点是基于C+语言特性(指针)之上,在编程中往往会表现为一种双刃剑的作用快但不安全。Microsoft Visual C+OpenC
8、V17数字图像处理本书所使用的版本是Microsoft Visual C+ 2008Microsoft Visual C+(简称Visual C+、MSVC、VC+或VC),是微软公司的C+开发工具,具有集成开发环境,可提供编辑C语言、C+以及C+/CLI等编程语言。Visual C+ 2008 ExpressVisual C+ 2008 StandardVisual C+ 2008 ProfessionalVisual C+ 2008 Team SystemOpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉库。基于OpenCV
9、的强大功能和易用性,本书在提供了与OpenCV的接口。18数字图像处理底层图像处理技术中层图像处理技术高层图像处理技术纹理RGBYIQHSV傅立叶描述子矩不变量形状因子结构方法统计方法面积圆度偏心度主轴方向共生矩阵模型频谱分析句法分析颜色形状19数字图像处理底层图像处理技术中层图像处理技术高层图像处理技术人脸识别人脸识别的算法人脸识别的应用人脸特征点整幅人脸模板匹配神经网络网络应用门禁系统视频监控数码相机20数字图像处理底层图像处理技术中层图像处理技术高层图像处理技术视频事件的提出是针对底层特征和视频对象的,但是视频事件的分析又建立在底层特征和视频对象分析之上的“不正常”的事件定义“用户感兴趣
10、”的事件定义事件挖掘事件检索足球视频分析事件是用户感兴趣的具有一定上下文线索并符合特定领域知识模型的高层语义时空实体21数字图像处理图像增强与恢复基于图像的生物特征识别基于内容的图像检索图像序列分析计算机视觉22数字图像处理图像增强,就是将原来不清晰的图像变得清晰或强调某些感兴趣的特征,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果的图像处理方法。图像恢复,就是指对受到损坏的图像进行修复重建或者去除图像中的多余物体。图像恢复常用方法包括偏微分方程方法、整体变分方法、基于曲率的扩散模型、高斯卷积滤波和纹理合成方法。23数字图像处理生物特征识别技术所研究的生物特征包括脸、
11、指纹、手掌纹、虹膜、视网膜、声音(语音)、体形、个人习惯(例如敲击键盘的力度和频率、签字)等识别技术就有人脸识别、指纹识别、掌纹识别、虹膜识别、视网膜识别、语音识别(用语音识别可以进行身份识别,也可以进行语音内容的识别,只有前者属于生物特征识别技术)、体形识别、键盘敲击识别、签字识别等24数字图像处理25数字图像处理26数字图像处理基于内容的图像检索的提出,主要是针对基于关键字的搜索模式,后者典型的应用包括互联网上传统的搜索引擎,如Google、百度等。基于内容的图像检索目的是在给定查询图像的前提下,依据内容信息或指定查询标准,在图像数据库中搜索并查找出符合查询条件的相应图片。最早成功应用基于
12、内容的图像检索技术的是IBM的QBIC系统。27数字图像处理28数字图像处理图像序列分析,有的时候也称为视频分析,就是根据图像本身的内容和图像帧之间的相关性进行目标识别和场景分析,其是静态图像分析在三维空间上的拓展。动作检测与识别,也是图像序列分析的一个例子,其在智能监控和多媒体交互等领域有着广泛的应用前景。有一部分行为检测和识别的研究,是基于真实的场景视频,例如好莱坞电影或者是机场监控录像等。29数字图像处理30数字图像处理计算机视觉,目前已经形成一个独立的学科,主要指用摄像头和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做数字图像处理,用电脑处理成为更合适人眼观察或传送给仪器
13、检测的图像。在计算机视觉和数字图像处理领域,有三大国际会议值得关注,几乎所有最新的相关技术都会首先出现在上面,其包括CVPR、ICCV和ECCV。31数字图像处理32数字图像处理33数字图像处理 1.2 基本概念基本概念连续图像 连续图像也称为模拟图像。连续图像在水平与垂直方向上,像点位置的变化以及每个像点的灰度变化都是连续的。可以认为它是由无数个像点组成的,而且每个点上的灰度值都有无限多个可能的取值。它反映了客观景物的亮度和颜色随空间位置和方向上的变化而发生的连续变化。数字图像 上述图像进行的两个离散化操作也称为图像数字化处理。通过数字化处理,就可以获得数字图像。在这些小区域上获取图像的亮度
14、作为“样本”的过程就是通常所说的采样。采样过程中获取的亮度样本。值仍然是连续的值。我们还需要将这些值“量化”为整数值。一般地将亮度值均匀地量化成256个等级。有两种方法表示从白到黑的量化:一种是0255对应由白到黑,另一种是0255对应由黑到白。在图像处理时,应该注意,相应系统是采用那一种表示法。由(1.1.6)可知,离散图像的宽度M是图像矩阵的列数,而高度N是行数。今后本书进行处理的所有图像除特别说明外均指数字图像。根据图像的不同,可以分为以下三类。1灰度图像当一幅图像具有 灰度级时,常称该图像是k比特图像。比如,一幅有 28 =256个灰度级,就称其为8比特图像。灰度图像矩阵元素 的取值范
15、围通常为0, 255,所以,也常称为256级灰度图像。一般地,“0”级表示纯黑色,“255”级表示纯白色,中间的灰度级从小到大表示由黑到白的过渡。2. 二值图像一幅二值图像的二维矩阵仅由为0、1两个值组成,“0”代表白色,“1”代表黑色。二值图像通常用于文字、线条图的扫描识别和掩模图像的存储。二值图像可以看成是灰度图像的一个特例。请注意,在图像存储时,即使二值图像其灰度值仍然在0, 255内,但它仅有两个值:0和255。所以二值图像在存储时,必须将0-1图像序列转化成255-0图像序列。3. RGB彩色图像 RGB图像分别用红(R)、绿(G)、蓝(B)三原色的组合来表示每个像素的颜色。图像中的
16、每个像素的颜色值,用RGB三原色表示直接存放在图像矩阵中。由于每一像素的颜色需要R、G、B三个分量来表示,所以RGB图像的图像矩阵与其它类型的图像矩阵不同,是一个三维矩阵可用MN3表示。比如,若表示彩色图像,则在矩阵(1.1.6)中 是一个三维向量,由表示R、G、B值的3个分量组成。 1.2.3 颜色模型颜色模型RGB模型 这个模型基于笛卡尔坐标系,3个轴分别为R、G、B,参见图1-1-2。我们感兴趣的部分形成一个立方体。原点对应黑色,离原点最远的立方体的顶点对应白色。在这个模型中,从黑到白的灰度值分布在从原点到离原点最远的顶点的连线上。在立方体内其余各点对应不同的颜色,可用从原点到该点的矢量
17、表示。 根据这个模型,每幅彩色图像包括3个独立的基色平面,或者说可以分解到3个基色平面上。反过来用3个独立的基色平面可表示1幅彩色图像。一幅“真”彩色RGB图像用24 bit,即R、G、B三个分量各用8 bit表示。这样,一幅“真”彩色RGB图像的颜色总数有16 777 216种。HSI模型 RGB模型是从物理和光学的角度描述颜色的,而HSI则根据人类视觉主观感觉对颜色进行描述。研究与实践均表明,人眼不能直接感觉R、G、B三种颜色的比例,只能通过感知颜色的色度、饱和度和亮度来区分物体。在HSI彩色空间中,H表示色度(hue),S表示饱和度(saturation),I表示强度(intensity
18、),即亮度。其中色度和饱和度表示颜色的彩色信息,而I决定了像素的整体亮度,与彩色信息无关。 这个模型有两个特点,其一是,分量I与图像的彩色信息无关,其二是,分量H和S与人感受的方式紧密相连。这两个特点使得HSI模型非常适合于借助人的视觉系统来感知彩色特性的图像处理算法由RGB到HSI的转换公式如下:也可作相反的转换。YIQ色彩系统 YIQ色彩系统为欧洲的电视系统所采用,其中Y是指颜色的明视度(luminance),即亮度(brightness)。其实,就是图像的灰度值, 而I和Q是属于色调(chrominance), 即描述图像色彩及饱和度的属性。RGB与YIQ系统之间可以转换,对应关系如下:
19、 1.3 图像的统计特性图像的统计特性1.3.1 基本统计分析量1. 图像的信息量 一幅图像如果有k种灰度值,且各灰度值出现的概率分别为 。根据香农(Shannon)定理,图像的信息量可用如下公式计算: 称H为图像的熵。当图像中各灰度值出现的概率彼此相等时,则图像的熵最大。信息量表示一幅图像所包含信息的多少,常用于对不同图像处理方法进行比较。2. 图像灰度平均值 称图像一块区域中所有像素灰度值的算术平均值为这块区域的灰度平均值。根据算术平均的定义,MN图像区域的灰度平均值计算公式如下:在图像处理中,常常要计算小块区域,比如计算33或55小块区域的灰度平均值。3. 图像灰度中值 图像中一块区域的
20、灰度中值,简 称中值是指区域内全部像素的灰度值经过大小排序后处于中间的灰度值。在应用中,计算整幅图像的灰度中值的机会很少。常用的是计算小块区域,比如计算33小块或55小块的中值。例如下面的9个灰度值是某个33小块的灰度值排序后的结果: 198,156,156,99,98,77,68,45,45 处于中间的98就是这个33小块的中值。4. 图像灰度方差 一块MN图像区域的灰度方差反映了该区域内各像素灰度值与灰度平均值的离散程度。其计算公式如下:与熵一样,图像灰度方差是衡量图像信息量大小的主要度量指标,也是图像统计特性中最重要的统计量之一。一幅图像的灰度方差越大,图像的信息量也越大。 1.3.2
21、直方图直方图概念: 一幅图像的灰度分布图就是它的直方图(histogram)。直方图中的横坐标是灰度值 ,纵坐标是该灰度值出现的频率(像素的个数 )。所以直方图H可用下式:计算,其中w和h分别是图像的宽度和高度。下图1-2-1是图像Lena的直方图,它表示Lena图中各灰度值出现的频率,其中频率最高的灰度值是19,共635次。1. 直方图的另一种定义 假设一幅连续图像平滑地从中心的高灰度级变化到边缘的低灰度级。我们可以选择某一灰度值r,然后定义一条轮廓线。该轮廓线连接了图像上所有具有灰度值等于r的点。这种灰度值相等的轮廓线类似于地理中的“等高线”。所得的轮廓线形成了包围灰度值大于等于r的封闭曲
22、线。记灰度值为r的轮廓线包围区域的面积为A(r), 则当灰度值为r时直方图的值H(r)定义为:上式的负号是因为面积函数A(r)是一个递减函数,参见图1-2-2。对于数字图像, 的最小值为1,所以用差分代替上面的导数,得到:由上式可知, 直方图 H(r)正是灰度值等于r的像素个数。所以,这种对连续图像定义的直方图是前面对离散的数字图像直方图定义的推广。2. 直方图的性质(1) 直方图是一幅图像中各像素灰度值次数或频数统计的结果,它只反映该图像中不同灰度值出现的概率,而不能反映某一灰度值像素所在的位置信息。所以直方图丢失了灰度值的位置信息。(2) 一幅图像唯一地确定一幅直方图。但不同的图像可能有相
23、同的直方图。即图像与直方图之间是一种多对一的映射关系。参见图1-2-3,其左图与右图的直方图相等。显然还可以构造出许多直方图相等的图像。(3) 根据直方图的定义可知,当一幅图像看成若干幅子图像拼接而成时,则各子图像直方图之和等于原图像的直方图。3. 直方图的作用(1) 数字化参数 直方图给出了一个简单且直观的可视化数据。可用于判断一幅图像是否合理地利用了全部允许的灰度级范围。一般一幅数字图像应该利用全部或几乎全部可能的灰度级,否则等于增加了量化间隔。一旦数字化图像的灰度级数少于256,丢失的信息将不能恢复。在图像取样量化过程中对超出数字化器处理范围的亮度值将被简单地置为0或255。由此将在直方
24、图的一端或两端产生尖峰。数字化时对直方图进行检查是一个好办法。可以及早发现问题,以便纠正。(2) 选择边界阈值 假定一幅图像背景是浅色的,前景是一个深色的物体,这类图像的直方图如图1-2-4。物体中深色像素产生直方图的左峰,而浅色背景形成直方图的右峰。物体的边界处产生两峰之间的“谷”。选择谷底作为灰度阈值将能分割背景与前景。 1.4 图像文件格式图像文件格式1.4.1 BMP图像文件格式 1. BMP文件结构 位图(BitMap Picture,BMP)文件格式是Windows系统交换图形、图像数据的一种标准格式。BMP图像的数据由四部分组成,如表1-3-1所示。第一部分为位图文件头BITMA
25、PFILEHEADER。它是一个结构体,其定义如下: 其中,WORD为无符号16位二进制整数,DWORD为无符号32位二进制整数。这个结构的长度是固定的,为14个字节。第二部分为位图信息头BITMAPINFOHEADER,也是一个结构,其定义如下: 其中,LONG为32位二进制整数。这个结构的长度是固定的,为40个字节。biCompression的有效值为BI_RGB、BI_RLE8、BI_RLE4、BI_BITFIELDS。这些都是Windows定义好的常量。由于RLE4和RLE8的压缩格式用的不多,今后仅讨论biCompression的有效值为RI_RGB,即不压缩的情况。 第三部分为调色
26、板(Palette),当然,这里是对那些需要调色板的位图文件而言的。真彩色图像是不需要调色板的,BITMAPINFOHEADER后直接是位图数据。调色板实际上是一个数组,共有biClrUsed个元素(如果该值为零,则有2的bi Bitcount次方个元素)。数组中每个元素的类型是一个RGBQUAD结构,占4个字节,其定义如下: 第四部分就是实际的图像数据。对于用到调色板的位图,图像数据就是该像素颜色在调色板中的索引值。对于真彩色图像,图像数据就是实际的R、G、B值。下面就2色、16色、256色和真彩色位图分别介绍。 对于2色位图,用1位就可以表示该像素的颜色,一般0表示黑,1表示白,所以一个字
27、节可以表示8个像素。 对于16色位图,用4位可以表示一个像素的颜色,所以一个字节可以表示2个像素。 对于256色位图,一个字节刚好可以表示1个像素。 下面两点请读者注意: (1) BMP文件每一行的字节数必须是4的整数倍。如果不是,则需要补齐。 (2) BMP文件的数据存放是从下到上,从左到右的。也就是说,从文件中最先读到的是图像最下面一行的左边第一个像素,然后是左边第二个像素,接下来是倒数第二行左边第一个像素,左边第二个像素。依次类推,最后得到的是最上面一行的最右边的一个像素。 1.4.2 JPG图像文件格式图像文件格式 静态图像压缩标准(Joint Photographic Experts
28、 Group, JPG, JPEG) 是最为广泛使用的标准。JPEG图像具有24位彩色处理能力,可以处理照片中微小色彩细节,具有较高的图像质量。和相同图象质量的其它常用文件格式,如GIF,TIFF,PCX相比,JPEG是目前静态图像中压缩比最高的。正是由于JPEG的高压缩比,使得它广泛地应用于多媒体和网络中。因为网络的带宽非常宝贵,选用一种高压缩比的文件格式是十分必要的。 1.4.3 GIF图像文件格式图像文件格式 图形交换格式(Graphics Interchange Format, GIF) 这个格式支持8位调色板图像,即这种图像只能使用256种颜色。因此,通常GIF图像只用于色彩比较简单的插图。GIF是Web及其联机服务上常用的一种文件格式,用于超文本标记语言(HTML)文档中的索引颜色图像,但图像最大不能超过64MB,颜色最多为256色。GIF图像文件采取LZW压缩算法,存储效率高,支持多幅图像定序或覆盖,交错多屏幕绘图以及文本覆盖。 GIF主要是为数据流而设计的一种传输格式,而不是作为文件的存储格式。换句话说,它具有顺序的组织形式。GIF有5个主要部分以固定顺序出现,所有部分均由一个或多个块(block)组成。每个块的第一个字节中存放标识码或特征码标识。这些部分的顺序为:文件标志块、逻辑屏幕描述块、可选的“全局”色彩表块(调色板)、各图像数据块(或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度建筑工程质量检测与施工质量控制规范合同3篇
- 2025年度跨境电商物流配送服务合同范本9篇
- 2024版影院室内装修设计合同书
- 二零二五年度绿色环保产业合作框架协议书范本3篇
- 2025年抵债合同房屋买卖协议3篇
- 2025年度智能停车场2吨不锈钢带打印功能电子地磅秤租赁合同6篇
- 2024版租赁商铺合同书
- 2024标准型料场地租赁合同模板一
- 二零二五年房产租赁保证金缴纳及退还协议6篇
- 二零二五年度icp许可证办理与互联网企业合规性审查与整改服务合同3篇
- 林区防火专用道路技术规范
- 2023社会责任报告培训讲稿
- 2023核电厂常规岛及辅助配套设施建设施工技术规范 第8部分 保温及油漆
- 2025年蛇年春联带横批-蛇年对联大全新春对联集锦
- 表B. 0 .11工程款支付报审表
- 警务航空无人机考试题库及答案
- 空气自动站仪器运营维护项目操作说明以及简单故障处理
- 新生儿窒息复苏正压通气课件
- 法律顾问投标书
- 班主任培训简报4篇(一)
- 成都市数学八年级上册期末试卷含答案
评论
0/150
提交评论