版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Word基于深度学习的图像抠图领域应用及挑战
图1.图像
抠图输入,预测结果和一些人工辅助信息的展示,例如三分图,背景,粗糙分割,用户点击,用户涂抹等等。该图中的语言输入可以为:图像中间的可爱的微笑的小狗。同时,为了使得图像抠图能被快速应用于(工业)场景,全自动抠图也在近年内被提出。这些方法可以直接从图像中预测出最终的结果,不需要任何额外的人工辅助信息。但是,因为受训练数据集的数据分布的影响,它们倾向于得到图中全部显著性的前景。
为了促进深度学习方法的研究,近年来被研究者构建了大量的相关数据集,包括合成数据集和真实数据集。本文对相关的研究(算法)和训练与测试数据集做了详尽的介绍。同时,我们总结了深度学习时代相关算法的时间轴,列图如下,可以看出近年来该领域的研究热度不断增加。
图2.基于深度学习的图像抠图方法时间轴
图3.基于深度学习的图像抠图方法总结表,包括出版刊物,输入模态,是否自动化,抠图目标,网络结构,训练数据集和测试数据集等。
二、具体研究进展及讨论
鉴于图像抠图任务是一个未知参数很多的病态问题,使用用户辅助信息作为输入是非常常见的解决方法。从传统时代开始,一张定义了指定前景,背景,和未知区域的三分图(trimap)就被广泛使用,随之一起出现的是指定前景背景的用户涂抹图像(scribble)。到了深度学习时代,多种多样的下游任务催生出了更多类型的用户辅助信息,诸如背景图,粗糙的二元分割图,用户交互式点击,语言引导等等。这些方法的网络结构设计大致可分为三类,如图4所示:1)单阶段网络;2)单阶段网络,附加边缘模块用以提取辅助信息中更多的图像特征;3)双分支或多分支网络,用以分别处理图像和辅助信息,并一起经过融合网络以得到最终输出。
这些方法每一项都弥补了前序方法的不足,对辅助信息进行了更输入的挖掘和信息提炼,以得到更优秀的抠图结果。然而,此类方法依然存在两个问题。首先他们依然依赖于不同程度的人力,使得在实用场景的自动化应用有些困难。第二点是这些方法很多依然对辅助信息非常敏感,比如三分图的未知区域大小,用户交互点击的密度等等。因此研发更鲁棒的方法既是一个挑战也是一个非常有前景的研究方向。更多详情可见文章第三章。
图4.基于深度学习和辅助信息的图像抠图方法框架分类图。(a)单阶段网络。(b)带有边缘模块的单阶段网络。
(3)双分支或者多分支网络。
为了克服基于辅助信息的图像抠图方法的局限性,近年来,全自动抠图也成为了研究热点。这些方法旨在不经过任何人工参与的情况下,直接预测出图中的细致前景。根据网络结构的设计也可以大体分为三类,如图5所示:1)单阶段网络并利用旁支的全局模块引导图像高层的语意信息;2)两阶段网络来首先预测辅助信息,再设计基于辅助信息的第二阶段网络;3)用共享的编码网络获取不同层次的图像信息,通过多分支的解码网络分别预测高层语意和低层细节,并通过硬融合得到最终的结果。这一类方法由于没有任何额外信息的引导,非常容易受到训练数据集的影响。因此大部分方法局限于某些特定的抠图目标,比如人像,动物,透明物体等等。
近年来,也有方法探索通过将通用物体分为三类,即显著性闭合前景,显著性透明或细致前景,以及非显著前景,并用同一个网络进行全种类抠图。全自动抠图方法因为不需要任何人工的干预,在工业界得到了广泛的实用。然而,此类研究依然存在一些挑战,例如如何提高方法的泛化性,尤其在训练数据集中未见到的图像上得到很好的效果,或者如何在保有高质量抠图结果的同时提高运算效率,减小模型大小。更多详情可见文章第四章。
图5.基于深度学习的全自动图像抠图方法框架分类图。(a)基于全局引导信息的单阶段网络。(b)两阶段网络。(c)共享(编码器)的双分支网络。作为深度学习方法不可或缺的驱动力,构建大型数据集非常关键。因此,本文对于抠图领域内近年来涌现的数据集做了统一的介绍和比较,包括早期的合成图像数据集和最近的真实图像数据集。如图6所示,我们对现有数据集按照输入模态,标签类型,抠图目标,平均尺寸,标注方法,训练集和测试集的数目,是否公开,进行了归类整理和对比。详情可参见文章第五章。
图6.图像抠图数据集比较,包括出版刊物,模态,标签类型,是否是自然图像,抠图目标,平均尺寸,标注方式,训练数据量,测试数据量,是否公开等等。
三、评测基准
在这一节里,我们详细介绍了整个抠图领域内深度学习算法常用的损失函数,评价标准,预处理方式和训练技巧。对于基于辅助信息的方法和全自动方法,我们分别在两类常用的数据集上对具有代表性的算法进行了详尽的比较。包括主观客观结果比较,方法的模型惨数量,复杂度,以及处理512x512分辨率的图像的推理时间。我们在同种设定下进行了大量的实验以公正的评测目前的深度学习方法与早先的传统算法。相关客观指标结果如图7所示。为了给读者一个对于目前主流方法结果直观的感受,我们在图8展示了一些实际结果例子。
图7.图像抠图算法的客观指标结果
图8.图像抠图算法主观对比图
四、挑战与展望
图像抠图,作为一个基础的图像底层算法,在诸多的下游任务中都有非常广泛的应用,包括视觉感知能力例如物体(检测),语义分割,障碍物去除,图像编辑应用例如图像合成,图像补全,图像风格转换,(视频)处理应用例如视频特效关联,浅景深合成,视频抠图,多模态和3D应用例如遥感,3D图像渲染等等。这些年来,图像抠图领域迅速的崛起与发展也带来了很多挑战与新的研究机会。我们在这里做一个简要的讨论,更多详情请见文章第八章。
1、更精确的评价指标
现有的评价指标可以从客观上表示预测结果和标签之间的相似度,然而如何更加精确的反应人类对于预测结果的主观评价是一个困难的问题。例如S(AD)可以评价出全图或者未知区域的相似度,但是对于人类主观关注的区域,比如头发,耳环,或者眼镜框等等却无法进行精确的评估。一个可能的解决方案是利用基于结构相似性的度量,例如SSIM,来对细节信息进行更精确的评估。
2、更轻量级的模型设计
鉴于图像抠图会在实时的全自动化工业领域内有广泛的应用,如何设计一个轻量级的模型并保有精确的预测结果是一个长久而充满潜力的研究方向。一些有效的策略包括降维处理,特征复用,剪枝操作,或者混合分辨率结构。
3、多模态抠图
将图像抠图领域与多模态领域进行融合可以进一步扩展图像抠图的适用范围。已经有的研究将抠图和人类语言输入进行结合,预测出符合人类描述的指定前景。更多的输入模态可以包括,语音指令,目光注视点,以及3D的可渲染光线神经场模型。
4、扩散模型
近期,扩散模型已经在图像生成领域表现出了优秀的潜力。大语言模型和跨模态预训练的显著进展为扩散模型的多模态应用提供了极速发展的动力,使得从空白画板生成并编辑高质量的图像成为了可能性。这也为图像抠图领域带来了一个开放性的问题:在扩散模型的新时代里,图像抠图领域会有怎样的走向,会是一个方向的终结,还是一个崭新的开端。
五、总结
我们提供了一份深度学习驱动的图像抠图领域的综述,涵盖了该领域详尽的背景介绍,基于辅助信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论