新型视频语义编码技术白皮书 2024_第1页
新型视频语义编码技术白皮书 2024_第2页
新型视频语义编码技术白皮书 2024_第3页
新型视频语义编码技术白皮书 2024_第4页
新型视频语义编码技术白皮书 2024_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国移动新型视频语义编码技术白皮书(2024)1 2 5 52.2基于语义通信的编码传输 7 21.视频编码技术总体发展态势l多元视觉指标升级,引发超高清视频编码技术需求类别高清HD全高清FHD超高清UHD30fps60fpsl从“看得清”向“看得真”转变,催生编码技术升级中国移动新型视频语义编码技术白皮书(2024)3l视频编码不只追求人眼视觉质量,还要高效地服务于机器视觉处理任务l新应用引发新需求,语义编码技术“呼之欲出”场景介绍需求/特点中国移动5G新通话,微信、QQ、监控视频通常是全天候无间断拍摄固定位置的场景,产生了海量的监控视频数据,亟需高效的语义视频编码技术来减在工业视觉任务及应用场景中,如机器需提取与机器视觉任务强相关的中国移动新型视频语义编码技术白皮书(2024)4视频语义编码技术应运而生。视频语义编码,即基于视频内容和语义特征(图1-1)进行编码,同时追求信号保真度、感知自然性和语义质量,有望突破传统视频编码方法的性能瓶颈,为视频产业注入新的活力,进一步提升产业势能,成为助推视频产业高质量发展的新动能。中国移动新型视频语义编码技术白皮书(2024)52.视频编码技术发展概述2.1视频编码视频编码技术历经几十年的发展,国内外视频编码标准更新迭代,如图框架制定的视频编码标准包括:MPEG-1/2/4,H.261/2/3,H.264/AVC(Advanced编码框架基本结构如图2-2所示。中国移动新型视频语义编码技术白皮书(2024)6基于预测/变换和熵编码的混合编码框架,但其诸多编码工具和环节与前代视频升。然而,在带来显著编码性能提升的同时,编解码的复杂度也显著增加,这对实时编码提出了巨大的挑战,同时压缩效率的进一步提升遭遇瓶颈。现更智能化、更高效的图像视频编码,以期突破传统 络进行替换[3] 中国移动新型视频语义编码技术白皮书(2024)7方法优点缺点突破传统编码方法的效率瓶颈;可解码复杂度较高;不同的模将传统混合编码框架中的主要模块替换为经离线训练过的深度学习模只是替代部分模块,导致不同的模块无法共同优化以达目前,基于神经网络的视频编码更多的是探索网络模型的组合堆积和复杂模块的引入,未深入分析设计网络模型特性、结构特性等,如何设计并提出高效的端到端视频编码技术和解码方法是亟需解决的问题。同时,如何实现不同模型的码流互通,降低解码端模型推理的硬件要求,实现移动端的高效部署也是该技术落地的关键。视频语义编码,衍生于传统视频编码框架和基于神经网络的视频编码框架,同时也是两种框架的全新引擎,可进一步提升两种编码路线的编码效率。2.2基于语义通信的编码传输识,从信道中提取语义特征,知识和特征(语义标签、参数模型、知识图谱等)中国移动新型视频语义编码技术白皮书(2024)8编码;2)变换编码方法,信源首先经过非线性变换,提取隐式表征,然后在隐需要消耗大量的计算资源[4],特别是移动端的部署较为困难。中国移动新型视频语义编码技术白皮书(2024)9处理对象常见的评价指标特点属于顶层架构设计,处于前沿探索阶综上,语义通信的大框架涵盖视频语义编码传输环节,但该顶层框架整体处于前沿研究与实验探索,向技术研发与落地应用过渡的早期阶段。而视频语义编码技术则是从视频编码标准框架出发,提供了一系列具体且可落地的技术方案。具体对比分析见表2-2。在接下来的章节,将对视频语义编码的关键技术中国移动新型视频语义编码技术白皮书(2024)3.视频语义编码传输关键技术率。目前,主要的技术方案可分为两类:1)利用语义信息作为先验信息(语义中国移动新型视频语义编码技术白皮书(2024)3.1视觉感知编码中国移动新型视频语义编码技术白皮书(2024)3.1.1JND编码因此,引入恰可察觉失真(JustNoticeableDistortion,JND)自适应编码技术,以有效地去除视觉冗余。例如,大量的工作探索了建立像素域JND模型和DCT(DiscreteCosineTransfo从机器感知出发,北京大学马思伟教授团队提出的恰可识别失真(JustRecognizableDistortion,JRD)[7],旨在表分析了影响不同JRD值的因素。同时,还提出了一个基于集成学习的JRD预测3.1.2ROI编码它驱使视网膜中央凹(Fovea)注意到更高保真度的内容,也被称为感兴趣区域(Regionofinterest,ROI)。通常,HVS更容易被高对比度的区域所吸引,中国移动新型视频语义编码技术白皮书(2024)分类技术MaskR-CNN等3.2生成式编码1)一种是直接用对抗损失引导全神经网络编码的优化,以恢复高频纹理细分类原理代表性工作在视频传送过程中,发送关键通过生成网络合成其他面部视送时,仅需发送一个关键帧和其他帧的表情、面部表情的运动参数,将其编码为比特流传通过处理多层次信息达到高层表3-3基于生成对抗网络的图像视频方面背景/问题图像与视频资料包含了丰富的在有限带宽内选择最重要的信息进行不同的应用环境对比特率和图编码架构可能仅适用于某一特在各种图像视频数据集中保持纹理和生成对抗网络编码与传统编码3.3跨模态编码码器、压缩域编码器和压缩域解码器四个子模块组成[10]。中国移动新型视频语义编码技术白皮书(2024)保留CMC编码器和解码器中的语义信息来优化失真。3.4机器视觉编码前,机器视觉编码的技术方案主要包括1)兼容传统视频编码标准的面向机器视觉的优化2)面向机器视觉的端到端压缩框架:可进一步分为基于神经练基于学习的编解码器来压缩第一阶段学习到的特征;3)特征对下游任务的支重构等[12],从而完成一系列机器感知任务。3.5编码数据传输中国移动新型视频语义编码技术白皮书(2024)越多应用场景涌现,并扩展出多元化流媒体3.5.1媒体封装封装格式来源特点是一种标准容器格式,用于进一步封装PES(Packetized音频、视频和节目系统信息等,目的是作为规范化传输的最小单元,保证传输的可靠性,以适应不太可靠的传输。该协议扩展性比较友好,可以支持多种流媒体协议码格式,使用时有很大的灵活性,并可针对业务需求和新的编储的主流方式,主要应用在MPEG-DASH、HLS等流媒体协议中,可支持多种音视频编码类型,其fragment-MP4的封装格式可支持Low-LatencyHLS,CMAF等超低时延的流媒体协议对组成,可将其数据看为二进制字节流。其封装的媒体文件具有体积轻巧、封装播放简单等特点,适合网络应用。目前各浏览器普遍使用FlashPlayer作为网页播放器信息。目前,VR视频等沉浸式媒体在其封装文件中,增添了如感兴趣区域、观看的显著区域、视频内容中的对象及区域等媒体描述元数据,有利于用户对数据的部分访问和处理,以提高传输处理的效率。3.5.2流媒体传输传输协议来源特点及内容,能够根据当前带宽容量、网络性能等情况自适现不同码率之间的灵活切换,在为用户提供低卡顿体验播、点播等传输,对VR视频等新型视频编码格式有更好的适性、穿墙能力强、码率自适应、负载均衡等优点。它的放时客户端可以选择从许多不同的备用源中以不同的速同样的资源,允许流媒体会话适应不同的数据速率。HLS在web服务器和客户端广泛支持,主要应用于视频直播点播据无序到达的检测机制,但并不保证传送或防止无序传不确定底层网络的可靠性。RTP广泛应用于流媒体相关的通讯和娱乐,可提供实时的媒体传输服务,如VR音视频数据。目前,市场上大多数采用RTP来实时传输媒体数据。传输的数据的基本单元为Message,实际传输中的最小单中国移动新型视频语义编码技术白皮书(2024)需一个会话即可相互通信,具有效率高、速度快、稳定性高等特点,广泛应用于直播、视频会议、在线教育、在线游戏等实时流媒体传输。术保证传输的稳定性,并可支持高吞吐量文件和超清视时传输。SRT协议应用广泛,包括直播、视频会议、广播、监控系统等。中国移动新型视频语义编码技术白皮书(2024)4.标准化进展及建议标准工作组JPEG(JointPhotographicExpertsMPEG(MovingPictureExpertsGrDCSC(DataCompressionStandardCommiMPAI(MovingPicture,AudioandDataCodingAOM(AllianceforOpen模态编码技术目前属于前沿探索阶段,未来有望进入AI视频编码标准;针对机器视觉,国内外标准工作组开展了一系列面向机器的中国移动新型视频语义编码技术白皮书(2024)4.1AI视频编码出新的工作,以提升基于神经网络的图像和视频压缩效率,并推动AI视频编码组织工作组/标准正式进入端到端图像编码标准制定进程,进一步规范了训练方前后处理技术、熵编码加速和码率控制等多个方面推动全神经网络图像编码的发展[13]-[15]。目前,该标准的参考软件相比基于HEVC的图像压缩器BPG性能提升超过50%。有编码工具。MPAIEVC标准项目旨在从MPEG-5EVCbase档次出发,通过训练神经网络编码工具并与混合框架进行联合目前EVC标准已研究了基于自编码器的方形块预测和基于卷积神经网络的帧级上-下采样编码,分别相比EVCbaseline档次在低码率下(QP32-47)提升1%和5%左右,后续EVC计案论证和参考软件开发阶段。北京大学和鹏城实验室正在领导参考软件EEV-0.4。目前,在相同配置下主观编码效率超过VVC/H.266[16],在低延迟编码配置项下与传统编码标准H.265/HEVC性能相当。中国移动新型视频语义编码技术白皮书(2024)NNVCITU-TVCEG(Q6/16)的联合视频专家组(JVET)和ISO/IECModAI平台对基于卷积神经网络的环路以替代传统编码滤波器并具有更好的性能。在RA配置下VRF)和神经网络帧内预测两项技术,综合性能相比AVS3标准提升15%以上,相比H.266/VVC提升超过10%。高效的端到端视频编码技术,是AI视频编码标准迈向大规模应用的关键。4.2VR视频编码IEEE1857.9工作组致力于推动高效编码工具的标准化。该标准针对的应用场景和服务间的许多技术共性,MIV规范定义了一种称为可视体积视频编码(Visual动了VR编码标准的制定,即信息技术-虚拟现实内容表达第2部分:视频中国移动新型视频语义编码技术白皮书(2024)4.3多视点视频编码Depth,MVD)和自由视点视频(Free-viewpointVideo,FVV)的技术研究和标准制定HEVC和其他视频编码标准的多视图和3D视频编码扩展。组织标准所属基本标准特点可以利用HEVC编码框架进行编码,输入的所4.4面向机器的视频编码中国移动新型视频语义编码技术白皮书(2024)些探索和尝试,并形成了一系列标准,主要包括视觉搜索紧凑描述子标准(CompactDescriptorforVisualSearch,CDVS)、视频分析紧凑描述子标准标准组织特点于2010年开始制定,并于2015年正式发布。C像检索和匹配两种视觉任务,定义了图像特征进制码流语法格式,构建了大规模的数据集以主要面向视频分析,其特征由VGG-16模型提取。紧凑的码流,这种码流所包含的数据可以是视频,也可以频上提取到的特征。相比于主要追求压缩效率的传统视频编VCM还需要同时追求机器视觉分析性能、计算负载节省和隐私一条路线是面向机器视觉的特征压缩,另一条路线是面向[19]能的数据编码,仅针对机器视觉任务进行编混合智能的数据编码,需要同时满足人类消向机器辅助智能的数据编码,主要是为了满会使用人工智能的手段对数据进行处理,例中国移动新型视频语义编码技术白皮书(2024)5.总结与展望预训练多模态大模型有望成为推动视频语义编码效率进一步提升的新缩略语列表ThreeDegreesofFreedom5thGenerationMobiSixDegreesofFreedomArtificialIntelligeARAudioVideoCodingStandaBjontegaard’sdeltaCompactDescriptorforVideoCompactDescriptorfor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论