版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于自适应可分离卷积核的视频压缩伪影去除算法 聂可卉 刘文哲 童同 杜民 高钦泉摘 要:针对目前视频质量增强和超分辨率重建等任务中常采用的光流估计相关算法只能估计像素点间线性运动的问题, 提出了一种新型多帧去压缩伪影网络结构。该网络由运动补偿模块和去压缩伪影模块组成。运动补偿模块采用自适应可分离卷积代替传统的光流估计算法,能够很好地处理光流法不能解决的像素点间的曲线运动问题。对于不同视频帧,运动补偿模块预测出符合该图像结构和像素局部位移的卷积核,通过局部卷积的方式实现对后一帧像素的运动偏移估计和像素补偿。将得到的运动补偿帧和原始后一帧联结起来作为去压缩伪影模块的输入,通过融合包含不同像素信息
2、的两视频帧,得到对该帧去除压缩伪影后的结果。与目前最先进的多帧质量增强(MFQE)算法在相同的训练集和测试集上训练并测试,实验结果表明,峰值信噪比提升(PSNR)较MFQE最大增加0.44dB,平均增加0.32dB,验证了所提出网络具有良好的去除视频压缩伪影的效果。Key:视频质量增强;光流估计;运动补偿;自适应可分离卷积;去视频压缩伪影:TP391; TP183文献标志码:AAbstract: The existing optical flow estimation methods, which are frequently used in video quality enhancement
3、 and superresolution reconstruction tasks, can only estimate the linear motion between pixels. In order to solve this problem, a new multiframe compression artifact removal network architecture was proposed. The network consisted of motion compensation module and compression artifact removal module.
4、 With the traditional optical flow estimation algorithms replaced with the adaptive separable convolution, the motion compensation module was able to handle with the curvilinear motion between pixels, which was not able to be well solved by optical flow methods. For each video frame, a corresponding
5、 convolutional kernel was generated by the motion compensation module based on the image structure and the local displacement of pixels. After that, motion offsets were estimated and pixels were compensated in the next frame by means of local convolution. The obtained compensated frame and the origi
6、nal next frame were combined together as input for the compression artifact removal module. By fusing different pixel information of the two frames, the compression artifacts of the original frame were removed. Compared with the stateoftheart MultiFrame Quality Enhancement (MFQE) algorithm on the sa
7、me training and testing datasets, the proposed network has the improvement of Peak SignaltoNoise Ratio (PSNR) increased by 0.44dB at most and 0.32dB on average. The experimental results demonstrate that the proposed network performs well in removing video compression artifacts.英文關键词Key words: video
8、quality enhancement; optical flow estimation; motion compensation; adaptive separable convolution; video compression artifact removal0 引言去压缩伪影是计算机视觉中的经典问题。图像和视频压缩算法通常通过减小媒体文件大小以降低传输带宽,达到节省传输成本和时间的效果;然而这种压缩算法不可避免地导致图像和视频中信息的丢失和引入不必要的伪影,严重影响用户的视觉体验,因此,如何去除压缩伪影并复原这些图像和视频是现在热门的研究问题。在过去几年中,随着深度学习的发展,许多方法
9、已成功应用于去除图像压缩伪影:首先,伪影减少卷积神经网络(Artifacts Reduction Convolutional Neural Network, ARCNN)1已经证明了深度卷积神经网络(Convolutional Neural Network, CNN)在去除图像中JPEG(Joint Photographic Experts Group)压缩伪影的有效性; 随后,深度双域卷积网络(Deep Dualdomain Convolutional Network, DDCN)2采用在频域和像素域上同时对图像进行处理来去除压缩伪影; 近年来,随着生成对抗网络3被提出并被广泛使用后,Guo
10、等4和Galteri等5采用生成对抗网络来去除图像的压缩伪影。上述提及的方法都验证了深度神经网络对于去除单一图像压缩伪影的有效性。目前,通过以单帧图像作为输入得到的去伪影后的视频帧仍存在较严重的物体轮廓模糊甚至信息丢失的情况,可见该方法在处理连续视频帧上具有较大的局限性。通过融合视频中连续的多帧图像,利用相邻帧之间像素的相关性和帧间的信息互补性,从而补偿各帧丢失的信息,可以获得更好的去视频压缩伪影效果。现有的对视频的质量进行增强的研究主要分布在视频去噪去模糊、视频超分辨率重建等工作6-10上。近来, Wang等11提出深层卷积自动解码器(Deep CNNbased Auto Decoder,
11、DCAD)网络用于压缩视频质量恢复, 该网络由10层卷积层组成,由于网络体积较小,重建效果因此受限。Yang等12提出了解码侧卷积神经网络(DecoderSide Convolutional Neural Network, DSCNN)用于视频质量增强,该网络由两个子网络组成,其中帧内解码侧卷积神经网络(IntraDecoderside Convolutional Neural Network, DSCNNI)用来减少帧内编码的压缩伪影而帧间解码侧卷积神经网络(InterDecoderside Convolutional Neural Network, DSCNNB)用来减少帧间编码的压缩伪影
12、。由于以上两种方法均未使用到相邻视频帧间的信息,故而均可看作是单帧图像去伪影算法。Yang等13提出了分别通过两个不同网络处理HEVC(High Efficiency Video Coding)帧内和帧间编码帧的质量增强卷积神经网络(Quality Enhancement Convolutional Neural Network, QECNN)方法。由于该方法仅考虑到去除HEVC编码的视频,不适用于全部场景,故而Yang等14提出多帧质量增强(MultiFrame Quality Enhancement, MFQE)网络结构。MFQE包含四部分: 一个支持向量机(Support Vector
13、Machine,SVM)用于對高质量帧(Peak Quality Frame, PQF)和非高质量帧(nonPeak Quality Frame, nonPQF)进行分类,运动补偿网络用来实现帧间运动补偿,两个不同的质量增强网络分别用来减少PQF和nonPQF帧的压缩伪影。若压缩视频不存在PQF和nonPQF时(例如压缩质量系数设置为CRF(Constant Rate Factor),该网络将不能很好地发挥作用。光流估计算法是利用图像序列中图像在时间域上的变化以及相邻帧之间的相关性来找到上一帧和当前帧之间存在的对应关系从而计算相邻帧之间物体运动的一种方法。对于传统的光流估计法15-18来说,需
14、要通过光流图估计和像素形变这两个阶段得到预测帧,由于缺乏光流图的真实值,故而以上方法存在较大误差。文献19指出光流图估计法被看作是点到点的固定的变换图(transmission map),也即假定像素点A到像素点B的移动是一条直线(反之亦然),而并未考虑像素点的曲线运动,并且在视频运动过程中出现遮挡和模糊的情况时,光流法可能会由于找不到相邻帧中对应的像素点而无法得到较为准确的运动路径。空间转换网络(Spatial Transformer Network)20的提出使得网络可以学习到两张图片像素的空间映射关系,并将这种点对点的映射关系以网格转换(grid transform)的形式表现,该形式可
15、以类似表示光流场中矢量运动,很快该空间转换网络被用于编码运动视频中的光流图特征14,21进行运动补偿操作。本文通过使用两个级联网络解决去除视频压缩伪影的问题。本文网络包括两个模块:运动补偿模块和去压缩伪影模块。与通常使用基于网格映射进行运动补偿的方法不同,本文中的运动补偿网络通过一维的局部可分离卷积方式实现,不仅可以有效地估计像素偏移,同时可以对相邻帧间信息进行补偿,为缺损视频帧带来更多像素信息。随后,运动补偿模块得到的对后一帧的补偿帧联结原始的后一帧作为去压缩伪影模块的输入,通过融合包含不同像素信息两帧,重建后一帧视频帧,实现去除压缩伪影的效果。该网络可以实现端到端的训练。本文的主要工作如下
16、:1)采用可分离局部卷积实现相邻帧间像素估计与补偿。较光流估计法点到点的直线运动估计,该方法通过非线性特征映射的方式可以对像素间可能存在的曲线运动进行估计,因而更具灵活性。2)提出了一种新颖的基于卷积神经网络去除视频压缩伪影的网络模型方案,网络模型由运动补偿模块和去压缩伪影模块相连接实现,通过联结多帧图像作为网络输入从而融合相邻帧间缺损信息,可以达到更好的去除视频伪影效果。3 结语本文提出一种新型多帧去压缩伪影网络结构, 其中:运动补偿模块以自适应可分离卷积方式实现对后一帧像素的运动偏移估计和缺损像素补偿; 去压缩伪影模块通过融合含有不同像素信息量的补偿帧和对应的原始视频帧,最终得到去视频压缩
17、伪影结果。在本文实验中,运动补偿网络得到的补偿帧较对应压缩帧的PSNR平均提升了0.03dB,与对应未压缩视频帧的帧间差较压缩帧平均减少了0.04dB,由此证明了运动补偿网络对缺损像素的补偿作用,并且,结合了运动补偿网络后去伪影结果比仅去压缩伪影网络结果在视觉效果上有显著提升。本文中结合了运动补偿网络的去压缩伪影结果较目前先进的ARCNN、DCAD、DSCNN和MFQE增强算法结果在相同测试序列上平均PSNR分别提高了1.58dB,1.55dB,1.42dB以及0.32dB,较MFQE算法在测试序列上最大PSNR提升了0.44dB,并且本文网络去伪影后视觉效果较上述算法均有显著提升,这表明本文
18、所提出的网络具有良好的去除视频压缩伪影的作用。在未来工作中,将展开对网络加速方法的研究,例如尝试使用深度可分离卷积代替原始二维卷积的策略,通过调整网络结构,在保证网络性能的前提下对网络进行加速。Reference (References)1 DONG C, DENG Y, CHEN C L, et al. Compression artifacts reduction by a deep convolutional networkC/ Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscat
19、away, NJ: IEEE, 2015: 576-584.2 GUO J, CHAO H. Building dualdomain representations for compression artifacts reduction C/ ECCV 2016: Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 628-644.3 GOODFELLOW I J, POUGETABADIE J, MIRZA M, et al. Generative adversaria
20、l networksJ/OL. arXiv Preprint, 2014, 2014: arXiv:1406.2661 2014-06-10. https:/abs/1406.2661.4 GUO J, CHAO H. Onetomany network for visually pleasing compression artifacts reduction C/ Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 486
21、7-4876.5 GALTERI L, SEIDENARI L, BERTINI M, et al. Deep generative adversarial compression artifact removal C/ Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 4836-4845.6 楊丽丽,盛国.一种基于卷积神经网络的矿井视频图像降噪方法J. 矿业研究与开发, 2018, 38(2): 106-109. (YANG L L, SH
22、ENG G. A mine video image denoising method based on convolutional neural networkJ. Mining Research and Development, 2018, 38(2): 106-109.)7 REN W, PAN J, CAO X, et al. Video deblurring via semantic segmentation and pixelwise nonlinear kernelC/ Proceedings of the 2017 IEEE International Conference on
23、 Computer Vision. Piscataway, NJ: IEEE, 2017: 1086-1094.8 SAJJADI M S M, VEMULAPALLI R, BROWN M. Framerecurrent video superresolutionC/ Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 6626-6634.9 TAO X, GAO H, LIAO R, et al. Detailrevea
24、ling deep video superresolution C/ Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 6626-6634.10 李玲慧,杜军平,梁美玉,等.基于时空特征和神经网络的视频超分辨率算法J.北京邮电大学学报,2016, 39(4):1-6. (LI L H, DU J P, LIANG M Y, et al. Video super resolution algorithm based on s
25、patiotemporal features and neural networksJ. Journal of Beijing University of Posts and Telecommunications, 2016, 39(4):1-6.)11 WANG T, CHEN M, CHAO H. A novel deep learningbased method of improving coding efficiency from the decoderend for HEVCC/ Proceedings of the 2017 Data Compression Conference.
26、 Piscataway, NJ: IEEE, 2017: 410-419.12 YANG R, XU M, WANG Z. Decoderside HEVC quality enhancement with scalable convolutional neural networkC/ Proceedings of the 2017 IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE, 2017: 817-822.13 YANG R, XU M, WANG Z, et al. Enhancing
27、quality for HEVC compressed videos J/OL. arXiv Preprint, 2018, 2018: arXiv:1709.06734 (2017-09-20) 2018-07-06. https:/abs/1709.06734.14 YANG R, XU M, LIU T, et al. Multiframe quality enhancement for compressed video C/ Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognitio
28、n. Piscataway, NJ: IEEE, 2018: 6664-6673.15 DOSOVITSKIY A, FISCHERY P, ILG E, et al. FlowNet: learning optical flow with convolutional networks C/ Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 2758-2766.16 BAILER C, TAETZ B, STRICKER D. Flow fi
29、elds: dense correspondence fields for highly accurate large displacement optical flow estimationC/ Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 4015-4023.17 REVAUD J, WEINZAEPFEL P, HARCHAOUI Z, et al. EpicFlow: edgepreserving interpolation of
30、 correspondences for optical flow C/ Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1164-1172.18 ILG E, MAYER N, SAIKIA T, et al. FlowNet2.0: evolution of optical flow estimation with deep networksC/ Proceedings of the 2017 IEEE Confer
31、ence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017, 2: 6.19 MAHAJAN D, HUANG F C, MATUSIK W, et al. Moving gradients: a pathbased method for plausible image interpolation J. ACM Transactions on Graphics, 2009, 28(3): Article No. 42.20 JADERBERG M, SIMONYAN K, ZISSERMAN A, et
32、 al. Spatial transformer networksC/ Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 2017-2025.21 NIKLAUS S, MAI L, LIU F. Video frame interpolation via adaptive separable convolution C/ Proceedings of the 2017 IEEE Internatio
33、nal Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 261-270.22 HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition C/ Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.23 HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks C/ ECCV 2016: Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 630-645.24 DROZDZAL M, VORONTSOV E, CHARTRAND G, et al. The importance of skip connections in biomedical image segmentation M/ Deep L
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园超市租赁合同
- 环保节能合作框架合同(2024版)
- 2024年版短期劳动合同范本
- 养殖场钢结构施工合同(2024年版)
- 公司级外部培训合作合同简化版
- 专用养生酒供应合同(2024年版)
- 个体消费者短期贷款合同书(2024年版)版
- 合同档案管理制度
- 天津市邮轮旅游合同
- 2024-2030年烘干机行业市场深度分析及前景趋势与投资研究报告
- 河南省南阳市2023-2024学年高一上学期期中考试英语试题
- 上海市信息科技学科初中学业考试试卷及评分标准
- 2023辽宁公务员考试《行测》真题(含答案及解析)
- 《咖啡知识》课件
- 冀教版数学七年级上下册知识点总结
- 2024年贵州退役军人事务厅事业单位笔试真题
- 高中英语校本教材《高中英语写作指导》校本课程纲要
- 2024年九年级化学上册 实验3《燃烧的条件》教学设计 (新版)湘教版
- 大模型应用开发极简入门基于GPT-4和ChatGPT
- 2024年河南中考历史试卷试题答案解析及备考指导课件
- 新质生产力心得体会范文简短发言6篇
评论
0/150
提交评论