人工智能算法分析 课件 【ch10】图像处理_第1页
人工智能算法分析 课件 【ch10】图像处理_第2页
人工智能算法分析 课件 【ch10】图像处理_第3页
人工智能算法分析 课件 【ch10】图像处理_第4页
人工智能算法分析 课件 【ch10】图像处理_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能算法分析新知识体系人工智能教材图像处理第十章图像处理

概念与现状0110.1.1图像处理概念通常在直观上理解图像的意义,如人类眼睛视网膜上的图像或视频摄像机抓取的图像。这可以表示为两个变量的一个连续(图像)函数f(x,y),其中,(x,y)是平面的坐标:或者可能是三个变量的连续函数f(x,y,t),t是时间。尽管如此,值得注意的是,一副“图像”有多种获取方式。一般情况下,大多数图像都属于RGB三色图像。即便从单色图像的角度介绍算法时也是如此,但无须将自己限定在可见光谱上。工作在红外谱段的摄像机现在已经很普遍了(如用于夜间监视)。也可以使用其他电磁谱段部分。10.1.1图像处理概念进一步,在电磁谱段(光)之外的图像获取也己经很普遍了:在医学领域,数据集由核磁共振、计算机断层扫描摄影、超声等形成。这些方法都会产生大的数据矩阵,需要分析和理解,而这些数据矩阵大多数是三维或更高维的数据矩阵。那么对于图像处理而言,图像处理,即使用计算机对图像进行分析,以达到所需结果的技术,也称为影像处理。21世纪是一个存在大量信息的时代,图像作为人类感知世界的视觉基础,是人类获取信息、表达信息和传递信息的重要手段。数字图像处理,即用计算机对图像进行处理,其发展历史并不长。随着深度学习的发展,以及人类需求的增长,使得人们对图像处理的技术革新有了越来越多的要求。伴随着各种技术发展,图像处理算法的发展也不断向前推进。10.1.2图像处理现状图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定的水平。人们开始利用计算机来处理图形和图像信息。早期的图像处理的目的是改善图像质量,它以人为对象,以改善人的视觉效果为目的。而随着深度学习技术的发展,当前的图像处理涉及的范围更广,包括图像识别、图像分割、图像翻译、图像风格转化和图像超分辨率等。对图像进行处理的主要目的有三个方面:①提高图像的视觉质量,如进行图像的亮度调节、色彩变换、增强或抑制某些成分、对图像进行几何变换等,以改善图像的质量;②提取图像中所包含的某些特征或特殊信息,这些被提取的特征或信息往往为计算机分析图像提供便利。提取特征或信息的过程是计算机或计算机视觉的预处理。提取的特征可以包括很多方面,如频域特征、灰度或颜色特征,以及边界特征、区域特征、纹理特征、形状特征、拓扑特征和关系结构等。③图像数据的变换、编码和压缩,以便于对图像进行存储和传输。图像到图像翻译作为计算机视觉中一个复杂的任务,具有极大的实际应用价值。条件图像到

图像翻译0210.2.1条件图像到图像翻译的概念图像到图像翻译旨在学习一种映射,该映射可以将图像从源域转换到目标域,同时保留输入图像的主要表现形式。例如,在图像风格转换任务中,如果一个输入图像被转换为类似梵高风格的图像,它的图像内容会在转换后的图像中被保留下来。由于这一大类的任务通常很难收集到大量的成对数据,因此无监督学习算法被广泛应用于图像到图像翻译中。条件图像到图像翻译的目标在于可以指定目标域中的域特有特征,该特征由目标域中的另一个输入图像决定,即条件图像到图像翻译包含三个域:源域、条件域和目标域。图10.1所示为条件图像到图像翻译示意图,其中,第一张图像为源图像,第二张图像为条件图像,第三张图像为翻译图像。翻译模型将条件图像中猫的颜色和图像背景翻译到源图像中,如图10.1所示。10.2.1条件图像到图像翻译的概念10.2.2ed-GAN相关工作分析假设有两个域

。根据隐式假设,图像

可以表示为,类似地,对于图像

,有

。以图10.1中的图像为例:如果两个域是不同的猫的图像,那么域独立特征是两个猫共有的特征,如猫的眼睛、嘴巴、耳朵等特征,而域特有特征是猫头的大小、猫的颜色和图像的背景纹理等。从域

到域

的条件图像到图像翻译的问题可以定义为,取图像作为输入,图像作为条件输入,在域

中输出图像

,该图像保留的域独立特征并结合

中包含的域特有特征,即0110.2.1条件图像到图像翻译的概念其中,

表示翻译函数。类似地,可以有反向的条件翻译简单起见,我们将

称为正向翻译,将

称为反向翻译。那么对于图像翻译来说,解决条件图像翻译问题存在三个主要挑战。第一个是如何提取给定图像的域独立特征和域特有特征。第二个是如何将来自两个不同域的特征合并生成目标域中的自然图像。第三个是没有成对的数据来让模型学习这样的映射关系。为了解决上述问题,研究者提出了cd-GAN,它可以有效利用生成对抗网络和对偶学习的优势。在这样的框架下,

可以同时学习。cd-GAN遵循基于编码器-解码器的框架:编码器用于提取域独立特征和域特有特征,而解码器将这两种特征合并以生成图像。10.2.1条件图像到图像翻译的概念发展规划在cd-GAN中,使用了生成对抗网络和对偶学习进行网络学习:①对偶学习框架可通过最大限度减小重构误差来帮助学习提取及合并域独立特征和域特有特征。②生成对抗网络可以确保生成的图像很好地模拟目标域中的自然图像。③对偶学习和生成对抗网络都可以在无监督的环境下很好地工作。10.2.2ed-GAN模型介绍(1)编码器一解码器结构。图10.2显示了cd-GAN所提出模型的总体架构,其中,左侧是基于编码器一解码器的图像翻译架构,右侧是引入了训练编码器和解码器的其他组件。0210.2.1条件图像到图像翻译的概念如图10.2所示,cd-GAN包含两个编码器

和,以及两个解码器和

。编码器用作特征提取器,将图像作为输入并输出两种类型的特征:域独立特征和域特有特征。需要特别注意,给定两个图像和

有如果仅看编码器,那么这两种特征之间没有任何区别,因此这两种特征的区分性是由总体模型和训练过程决定的。在cd-GAN模型中,解码器充当生成器的角色,负责将源域中图像的域独立特征和目标域图像的域特有特征作为输入,并在目标域中输出生成的图像。也就是10.2.1条件图像到图像翻译的概念(2)训练算法。cd-GAN利用对偶学习和GAN来训练编码器和解码器。优化过程如图10.2右侧所示。首先介绍GAN损失。为了确保生成的

在相应的目标域中,cd-GAN使用了两个判别器

来区分真实图像和合成图像。

(或

)将图像作为输入,并输出一个概率,该概率表明输入来自

(或

)中的自然图像的可能性。该目标函数可以写成编码器和解码器的目标是生成类似自然图像的图像,并欺骗判别器

和,即它们试图最小化。

的目标是将生成的图像与自然图像区分开,即它们试图最大化。10.2.1条件图像到图像翻译的概念(3)整体训练过程。由于判别器仅影响GAN损失,因此cd-GAN仅使用此损失来计算梯度并更新

和。相比之下,编码器和解码器会影响所有(4种)损失函数,cd-GAN使用所有损失函数来计算梯度并更新参数。值得注意的是,由于这4种损失函数的大小不同,因此它们的梯度在大小上可能会相差很大。为了使训练过程更加流畅,cd-GAN对梯度进行了归一化处理,以使它们大小相当。10.2.2ed-GAN实验结果图10.3所示为cd-GAN和其他算法在鞋子数据集上的实验结果。03如图10.3所示,可以看出,cd-GAN成功学到了条件输入图像的样式,且cd-GAN从条件输入图像中学到的特征更加准确。10.2.3DosGAN与cd-GAN类似,DosGAN是在cd-GAN的基础上衍生出来的条件图像到图像翻译方法。因此,两者的相关工作类似,在此就不再进行过多的阐述。DosGAN和cd-GAN的不同之处主要在于以下几个方面。(1)DosGAN的算法原理。DosGAN使用一个模型进行条件图像到图像翻译任务,但为了提高可读性,它将在域A(表示为

)和域B(表示为

)之间引入两个域转换。假设有一个特定于域的特征提取器α(·)和一个独立于域的特征提取器β(·)。给定图像x∈

或x∈

,我们可以通过应用两个特征提取器获得其特定于域的功能和独立于域的功能

10.2.3DosGAN与cd-GAN类似,DosGAN是在cd-GAN的基础上衍生出来的条件图像到图像翻译方法。因此,两者的相关工作类似,在此就不再进行过多的阐述。DosGAN和cd-GAN的不同之处主要在于以下几个方面。(1)DosGAN的算法原理。DosGAN使用一个模型进行条件图像到图像翻译任务,但为了提高可读性,它将在域A(表示为

)和域B(表示为

)之间引入两个域转换。假设有一个特定于域的特征提取器α(·)和一个独立于域的特征提取器β(·)。给定图像x∈

或x∈

,我们可以通过应用两个特征提取器获得其特定于域的功能和独立于域的功能

值得注意的是,在将图像从一个域转换为另一个域时,应保留图像与域无关的特征,并更改其特定于域的特征。

10.2.3DosGAN然后,

的风格

的风格

是根据经验,给定域A中的一组图像

和一组

可以通过以下方式估算其中,

和分别表示

中的图像数量。表示一个生成器,该生成器将一组域特有特征

和一组域独立特征作为输入,并在相应的域中生成图像:对于任意

和进一步通过特征交换,有10.2.3DosGAN(2)DosGAN的翻译架构。DosGAN的训练架构如图10.4所示。可以看出,为了将图像

转换到,DosGAN首先对

中的所有图像应用特定于域的特征提取器α(·),并相应得到样式特征

。然后,将独立于域的特征提取器β(·)应用到,并获得域独立特征

。之后,生成器将

作为输入,井生成翻译结果

。在实践中,生成器是通过神经网络建模的,需要学习,因此,为了与生成器区别开来,可以使用g表示要学习的生成器。10.2.3DosGANDosGAN遵循了GAN的思想,引入了一个判别器d,该判别器以(真实/虚假)的图像作为输入,并输出一个概卒,该概率表明输入属于真实图像域的可能性。该目标函数如下(3)实验结果。图10.5所示为DosGAN在人脸数据集上的实验结果。10.2.4案例分析本案例选用条件图像到图像翻译模型DosGAN,数据集选用人脸数据集和季节数据集。DosGAN主要的模型程序如下所示:10.2.4案例分析10.2.4案例分析10.2.4案例分析10.2.4案例分析10.2.4案例分析10.2.4案例分析10.2.4案例分析我们分别使用人脸数据集和季节数据集训练模型,然后使用未训练部分的数据对模型进行测试,DosGAN在人脸数据集上的翻译结果如图10.6所示,DosGAN在季节数据集上的翻译结果如图10.7所示。10.2.4案例分析解纠缠图像到图像翻译0310.3.1解纠缠图像到图像翻译的概念在一些研究中,研究人员发现,很多情况下,我们知道图像来自哪个域。受此观察结果的启发,研究人员提出使用这种图像域级别的信号作为显式监督,并且通过预训练好的卷积神经网络来预测图像属于哪个域。如果这样的网络能很好地区分来自不同域的图像,那就说明在网络的倒数第二层包含着丰富的域信息,以捕捉每个域的域特有信息。因此,可以通过改变卷积神经网络的结构和参数来控制域特有信息。我们将这种通过从潜在空间出发来改变输入图像的特有特征的图像到图像翻译方式称为解纠缠图像到图像翻译。与条件图像到图像翻译不同的是,解纠缠图像到图像翻译无须从条件图像域学习特有特征或风格特征,而是直接探究输入图像深层次的潜在空间中的特征关系。通过对特征关系的学习和解糯来达到对输入图像的特有特征进行编辑的目的。10.3.2InterfaceGAN相关工作。首先,生成对抗网络(GAN)由于其具有能够产生真实级图像的巨大潜力,近年来引起了广泛关注。它通常将来样的潜在代码作为输入,并输出图像合成。为了使GAN适用于真实图像处理,现有的方法提出了从潜在空间到图像空间的反向映射或学习与GAN证训练相关联的附加编码器。尽管取得了巨大的成功,但在理解GANs如何学习将输入潜在空间与真实视觉世界中的语义联系起来方面,几乎没有做什么工作。GAN的潜在空间一般被视为黎曼流形。先前的工作集中于探索如何通过潜在空间中的插值使输出图像从一个合成平滑地变化到另一个合成,而不管图像是否是语义可控的。0110.3.2InterfaceGANGLO算法同时优化了生成器和潜在代码,以学习更好的潜在空间。然而,关于训练有素的GAN如何在潜在空间内编码不同语义的研究仍然缺乏。一些工作己经观察到向量算术性质。除此之外,这些工作从单个语义的属性和多个语义的解纠缠两个方面提供了对潜在空间中编码的语义的详细分析。一些并行的工作也探索了GAN学习的潜在语义。Jahanian等人研究了GAN在相机运动和图像色调方面的可操纵性。Goetschalckx等人提高了输出图像的可记忆性。Yang等人探索了场景合成的深度生成表示中的层次语义。与它们不同的是,InterfaceGAN专注于人脸合成中出现的面部属性,并将该方法扩展到真实的图像处理。10.3.2InterfaceGANInterfaceGAN旨在操纵给定图像的面部属性。与可以任意生成图像的无条件GAN相比,InterfaceGAN期望模型只改变目标属性,而保持输入人脸的其他信息。为了实现这一目标,目前的方法需要精心设计的损失函数,引入额外的属性标签、特征或特殊的体系结构来训练新模型。然而,这些模型的合成分辨率和质量远远落后于原生GAN,如PGGAN和StyleG.Al斗。与以往基于学习的方法不同,InterfaceGAN探索了固定GAN模型潜在空间中的可解释语义,井通过改变潜在代码将无约束GAN转化为可控GAN。10.3.2InterfaceGANInterfaceGAN算法的原理。给定一个训练有素的GAN模型,生成器可以被公式化为确定性函数g:Z→x,这里,Z表示d维潜在空间,通常使用高斯分布N(0,ID)表示,X代表图像空间,其中,每个样本x拥有特定的语义信息,如人脸模型对应的人的性别和年龄。假设有一个语义评分函数来表示语义空间。因此可以用连接潜在空间Z和语义空间s,其中,s和z分别表示语义得分和采样的潜在代码。对于单个特征来说,己经广泛观察到,当线性插值两个潜在码

时,相应合成的外观连续变化。它意味着图像中包含的语义也在逐渐变化。根据属性和

之间的线性插值形成Z方向,这进一步定义了超平面。当潜在代码在超平面的同一侧行走时,语义保持不变,而当潜在代码越过边界时,语义变为相反的含义。0210.3.2InterfaceGAN给定一个单位法向量n,且

的超平面,首先将样本z到这个超平面的“距离”定义为而正是在“距离”改变其数字符号的时候,语义属性发生了逆转。因此,可以预见这两者是线性相关的。性质1:给定

,集合在

中定义了一个超平面,n称为法向量。所有满足的向量

都位于超平面的同一侧。性质2:给定定义超平面的和多元随机变量z,对于任意的a和d的取值,都有其固定的概率分布。10.3.2InterfaceGAN多重语义、当涉及m种不同的语义时,有意识到随机样本z的分布,即(0,ID),可以很容易地计算语义得分s的均值和协方差矩阵为因此有,这是一个多元正态分布。当且仅当

是对角矩阵时,s的不同项是分离的,这需要相互正交。如果这个条件不成立,那么一些语义将相互关联,可以用来衡量第ii吾义和第j语义之间的纠缠。10.3.2InterfaceGAN潜在空间处理。对于解纠缠图像到图像翻译而言,它的处理过程可以分为单属性处理、条件处理和真实条件处理三部分。单属性处理为了操纵合成图像的属性,可以很容易地使用编辑潜在代码z,在α>0的时候,合成的图像向着好的方向改变,因为编辑后分数变成会使合成看起来更消极。条件处理当有多个属性时,编辑一个属性可能会影响另一个属性,因为某些语义可以相互藕合。为了实现更精确的控制,研究人员建议通过在等式中手动强制来进行条件操作,特别是使用投影来正交化不同的向量。0310.3.2InterfaceGAN真实条件处理由于InterfaceGAN的方法能够从固定的GAN模型的潜在空间进行语义编辑,因此在执行操作之前,我们首先需要将真实图像映射到潜在代码。为此,现有方法己经提出直接优化潜在代码,以最小化重建损失,或者学习额外的编码器,以将目标图像反转回潜在空间。还有一些模型己经在GAN的训练过程中涉及编码器,我们可以直接用于推理。10.3.2InterfaceGAN实验结果。图10.10所示为解纠缠图像到图像翻译算法InterfaceGAN在人脸数据集上的一些实验结果。0410.3.3SeFaSeFa算法于2021年被提出,相较于解纠缠图像到图像翻译算法,SeFa算法有了更大的改进。(1)算法背景。GAN中的生成器G从d维潜在空间Z学习把图像特征从低维空间映射到高维空间。假设z和G(x)分别表示输入潜在代码和输出图像。最先进的GAN模型通常采用卷积神经网络作为生成器结构,G由多个层组成,逐步将起始潜在空间投影到最终图像空间。每一步学习从一个空间到另一个空间的转换。而SeFa专注于研究第一步,它直接作用于我们想要探索的潜在空间。特别是,它可以表示为仿射变换,就像大多数GAN所做的那样,如下所示10.3.3SeFa一些研究表明,GAN的潜在空间编码了丰富的语义知识。这些语义可以进一步应用于具有向量算术属性的图像到图像翻译任务。具体而言,一些研究建议使用某个方向n来表示潜在空间中的特定语义。在识别出语义上有意义的方向后,可以通过以下公式实现操纵这在现有方法中经常被用到,其中,edit()表示编辑操作。换句话说,我们可以通过沿确定的方向n线性移动潜在代码z来改变目标语义。α表示操纵强度。10.3.3SeFa(2)算法原理。解纠缠

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论