2024引擎视频云实践集_第1页
2024引擎视频云实践集_第2页
2024引擎视频云实践集_第3页
2024引擎视频云实践集_第4页
2024引擎视频云实践集_第5页
已阅读5页,还剩219页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

火山引擎视频云实践精选集2024版AI/大模型+音视频技术实践和前沿探索 2024年,随着生成式AI、多模态大模型、全景直播、三维重建等技术的共同推动,它们正携手将我们从流畅、实时、高清的数字视频世界带入更智能、更交互、更沉浸的AI视频世界。首先,内容生产将从UGC/PGC发展到AIGC,伴随AI视频生成模型以及智能工具的逐渐同时,由于音视频承载了更多的信息和交互,进而演变成人类的新的“通用”语言随着AI的深度学习和自我进化,交互模式也正在从过去的人机交互、人人交互,迈向一个人最后,用户的交互空间也在从2D、3D,VR拓展到了虚拟世界与现实世界的无缝融合。而技术从来不曾孤单,它在无尽的探索中寻找同伴,渴望得到协助,一同照亮未知的领域。共享与进化,是它永恒的方向,每一步前行都承载着时代的梦想,引领我们共同迈向一个更加特别推出《火山引擎视频云实践精选集》2024版,收录了全年数位音视频专家倾情出品的29篇技术深度Blog,期待给各位同仁带去一些思考和启发的同时,也能在AI视频世界到来●ASIC编码器、VR处理、深度学习、质量评估等全球前沿的论文精选;●对话式AI、6DoF互动、场景重建、超低延时等前沿技术的落地实践;●AI+教育、私域直播、短剧出海、VR大空间等行业场景的最佳实践;CONTENTS11火山引擎夺得AIM2024大赛视频显著性预测赛道冠军 火山引擎夺得AIM2024大赛超分质量评估赛道冠军 005火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军 009 CVPR2024满分论文|Deformable3DGaussian: 基于可变形3D高斯的高质量单目动态重建新方法CVPR2024|ModularBlindVideoQualityAssessment:模块化无参视频质量评估 024深度拆解:CVPR2024CAMixerSR动态注意力分配的超分辨率加速框架 030火山引擎多媒体实验室VR全链路处理传输显示方案 036ResVR入选ACMMultimedia2024最佳论文提名火山引擎论文入选国际会议ACMIMC'24一种面向大规模视频点播系统的算法实验平台 042横扫四大赛道,火山引擎斩获MSU世界视频编码器大赛“最佳ASIC编码器” 049 2 3AI视频时代,如何才能不掉队? 053生产、交互、消费全链路升级,开启“三智 062 070抖音Android端图片优化实践 075在Windows下玩转多媒体处理框架BMF 093超低延迟多路径传输:技术演进与大规模业务实 高质量3DGaussian-Splatting场景重建及低延迟重渲染技术 触摸未来,字节跳动提出6DoF直播创新方案 全链路革新:火山引擎视频云引领AI新视界 火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级 儿歌点点携手火山引擎,共创儿童成长AI 龙游神州:揭秘云VR大空间背后的技术魔法 火山引擎升级「社区团购+直播」新玩法助力企业 火山引擎助推FlexTV短剧乘“云”出海 我的伙伴是SoulAI,但我们从不尬聊 189详解veImageX助力卓特视觉智能、高效生成设计素材副本 20301火山引擎夺得AIM2024大赛视频显著性预测赛道冠军近日,第2024届ECCV联合举办的AIMWorkshop大赛公布比赛结果,在视频显著性预测赛道上,火山引擎多媒体实验室凭借自研的显著性检测算法获得冠军,技术能力达到行业参赛队伍02AIM(AdvancesinImageManipulation)2024是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议ECCV上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像分析、增强和恢复的新技术和方法,并且促进学术交流,在计算机视觉领域获得了显著性预测任务旨在模拟人类视觉系统,预测图片/视频视觉任务提供引导和辅助信息。视频显著性预测赛道要求参赛者基于1500个视频87w帧共超过4000名用户的眼动追踪数据进行模型训练和验证,视频内容来自youtube和vimeo等网站,内容上涵盖了PGC长视频片段/UGC短视频,语义上包含了游戏、动画、运动、vlog、电视节目等多个场景。最终排名由模型在验证集上的AUC_J、CC、SIM、NSS四项指标单项排名来加权得到,自研方案四项指标排名均取得第一,视频显著性预测赛道结果03●眼动数据标注成本高,开源数据集规模有限,无法进行充分的预训练,因而容易导致模型的理解和推导的影响,因此对于语义复杂的●随着观看时间的推移,显著区域会产生迁移,并具有一定延时性,需要对其时域特征进行良此前方案大部分使用了基于image的骨干网络来进行特征提取,时域建模使用LSTM/GRU或者3D卷积来进行。团队沿用了encoder-decoder架构,整体结构如下图,输入一组RGB视频帧,最终输出显著性图谱。显著性图谱以灰度图表示,像素范围0-255,数值越高代表显著性程度越高。其中,特征编码器为视觉编码器提取视频序列的多层级特征。特征解码器包含特征上采样模块、时序注意力模块、3D卷积、上采样、2D卷积、Sigmoid等模块。编码器的选择上,选取了针对video的视频基础模型UMT(UnmaskedTeacher)来作为encoder,其网络使用预训练的visionTransformer(ViT)。通过分别提取ViT不同块的输出(第5,11,17,23),可得到不同层级的视频特征,这些特征包含丰富的底层细节和解码器的设计上,采用了类似U-Net的分层上采样结构,在使用3D卷积对编码器特征进行时域降维的同时,进行不同尺度的空域上采样,并将不同层级的特征进行融合。此外,团队引入了时序注意力模块,以应对显著性的时域延迟和场景切换问题。这种设计不仅提升了模04数据处理方面,采用了基于视频内容的train/val划分策略,根据内容特性对数据集进行分组,然后按比例从每个组采样数据来组成最终的训练集。考虑到UMT的输入分辨率较小(224x224),对标签中的注视点信息进行了膨胀处理(dilate),减少其在下采样过程中的信息丢失,同时清除了离群点以加快收敛速度。训练策略方面,通过SIM指标将数据划分为简单样本和困难样本,通过增加模型在困难样本上的损失权重,模型得以更加关注那些在训练过程中表现不佳的样本,有效提升总结总结火山引擎多媒体实验室在视频显著性预测领域实现了突破性的进展,并获得了该赛道冠军。显著性预测技术的迭代升级可以帮助技术人员更为准确地预测用户观看行为,为用户观看体验的优化提供重要指引,也有助于推动视频行业向着更加智能化、高效化的方向发展。基于显著性预测的ROI编码和ROI区域增强方案已广泛应用于直播、点播及图片等内部业务场景,并通过火山引擎相关产品面向企业火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在05火山引擎夺得AIM2024大赛超分质量评估赛道冠军近日,第2024届ECCV联合举办的AIMWorkshop大赛公布比赛结果,在视频超分辨率质量评估赛道上,火山引擎多媒体实验室凭借基于大模型的画质评估算法获得冠军,技术能力参赛队伍06AIM(AdvancesinImageManipulation)2024是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议ECCV上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关视频超分辨率质量评估赛道比赛结果近年来视频和图像超分辨率(SR)技术得到了广泛学术研究,同时在短视频业务服务端/客户为了评估不同超分辨率算法的主观画质提升效果,需要使用图像和视频质量评估指标。然而由于难以捕捉超分辨率引发的复杂多样的增强伪影,传统算法PSNR和SSIM以及其他基于深度学习的方法均被证明无法准确估计超分辨率图像的质量。因此,超分辨率质量评估与普通的图像和视频质量评估任务是有所不同的,本次竞赛旨在针对超分辨率进行专用评估指标的07冠军算法介绍超分辨率画质评估的主要挑战在于如何捕捉超分辨率画质算法处理后内容的画质变化因素,相比传统质量评估需要考虑更复杂多样化的处理算法带来伪影/涂抹/过锐等失真类型。由于有限的样本数量和数据集大小,端到端的训练方案无法达到理想效果,经过多轮方案验证,团队最终采用RichQuality-AwareFeature算法方案架构,针对多样化的视觉内容和复杂的失真类型,利用空域模型微调,同时利用丰富离线视频特征库和图像特征库来增强模型的泛化能力。微调模型采用了预训练于LSVQ数据集的SwinTransformer-B作为主干网络来提取空域特征,离线视频特征库包含SlowFast时域特征和Fast-VQA时空联合特征;离线图像特征库提供了全面的帧级特征表示,其中LIQE包含质量感知、失真特定及场景特定的信息,而Q-Align则包含来自多模态模型(MLLM)的强大质量感知特征。最终将可学习和不可学习的特征拼接在一起,经非线性回归层得到预测分数,最终分数通过Sigmoid函数转换为[0-1]范围。除了算法层面的综合分析设计和数据增广处理等,团队对数据集进行深入的分析理解,数据集根据失真的难度分为Easy/Moderate和Hard三种难度,Hard难度包含了目前大多数评估指标无法解决的失真类型,从训练集的主观评分分布我们也观察到困难组的视频主观评分相比08除了PLCC损失外,我们还应用了成对排序的hinge损失来引导模型区分困难样本,同时快其中排序边距设为0.05。我们在8块A100-SXM-80GBGPU上进行了100个epoch的训练,学习率为1e-5,批次大小为16。我们随机选取了80%的视频作为训练数据,20%的视频用于验证,并选择在验证集中表现最佳的模型进行最终测试。最终团队在private数据集获得最好的效果,通过public和private两部分内容的稳定发挥获得第一名的成绩。总结总结火山引擎多媒体实验室在视频超分质量评估领域实现了突破性的进展,并获得了该赛道冠军。增强处理算法质量评估算法的沉淀积累可以帮助处理算法和应用策略的迭代优化,从而更高效地给用户提供更为清晰主观视觉体验,有助于推动数字媒体行业向着更加智能化、高效化的方向发展。火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。09火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军近日,第2024届CVPRWorkshop下属的NTIRE大赛公布比赛结果,在盲压缩图像增强赛道,火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队自主参赛队伍大赛背景NTIRE(NewTrendsinImageRestorationandEnhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参图:盲压缩图像增强比赛结果随着数字图像和视频内容的快速增长,有损图像压缩技术,作为降低图像传输带宽和存储开销的必要技术,早已在各种工业应用中普及。在流行的压缩编解码器中,考虑到计算效率和复杂度,在实际应用中,JPEG备受青睐。然而,在受限码率下,JPEG压缩后图像往往会带有复杂压缩失真,且较难获取压缩等级。在这个背景下,盲压缩图像增强竞赛应运而生,旨在实现任意等级JPEG压缩失真的恢复,提升真实场景中解码图像的画质,打破未知压缩失真对增强算法的限制。冠军算法介绍盲压缩图像恢复的主要挑战在于如何让网络感知到图像的压缩失真程度的同时,也能感知到图像的内容,从而达到修复的目的。在此次竞赛中,团队提出了一种巧妙利用动态提示(DynamicPrompt)的盲图像恢复方法,名叫PromptCIR。与之前直接估计压缩质量因素来进行指导的方法不同,PromptCIR通过提示组件之间的动态组合以及从失真图像特征生成的提示权重隐式地学习编码压缩信息,从而为盲恢复提供更多的失真自适应能力。值得一提的是,大多数现有的基于提示学习的压缩图像恢复方法将提示大小设置为与图像特征大小相同,限制了对各种输入大小的泛化能力。为了缓解这个问题,我们采用了内容感知的动态提示。具体来说,我们将提示大小设置为1x1,并生成与图像特征相同分辨率的空间位置感知的提示权重,以避免过度适应训练图像大小的潜在问题。此外,为了提高内容感知和失真感知表征能力,我们使用多个提示基动态模版编码任务自适应信息,从而自适应地编码压缩质量信息,并保留必要的空间位置知识。不仅是算法上的改进,团队还重新审视了其他辅助技术,如数据增强、数据合成等,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。PromptCIR方法图论文链接:/pdf/2404.17433总结总结火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队在盲压缩图像恢复领域实现了突破性的进展,并获得了该赛道冠军。自研的技术方案可以帮助修复成千上万的被压缩数字图像内容,从而给用户提供更为清晰、精细的图像展现效果,有助于推动数字媒体行业向着更加智能化、高效化的方向发展。火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。火山引擎国际深度学习图像压缩挑战赛蝉联冠军近日,第六届深度学习图像压缩挑战赛(以下将简称“CLIC大赛”)比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台b-2在高码率视频压缩和低码率视频压缩两个赛道均夺得主客观指标冠军。这也是火山引擎多媒体实验室连续两届蝉联该赛道冠军。CLIC大赛由电气与电子工程师协会IEEE主办,从诞生开始就获得了学术界与工业界的广泛关注。2023年CLIC大赛暂停一届,本届大赛依托于数据压缩领域的顶级会议DataCompressionConference(DCC)再次举办。值得一提的是,本届DCC中,火山引擎多媒体实验室有8篇论文入选。随着以深度学习为代表的新一代人工智能技术不断取得突破,学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限,取得突破性进展的明日之星。基于深度学习技术,火山引擎和北大b-2平台提出了一项智能混合解决方案。b-2平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上,发挥两种技术路线的各自优势,取长补短,将二者有机融合成为一个整体,形成了独具特色的传统—智能混合解决方案。传统编码模块在业界已有传统编码框架基础上,加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。图1非对称四叉树划分结构;(a)H1型水平UQT,(b)H2型水平UQT,(c)V1型垂直UQT,(d)V2型垂直UQT。编码单元划分是混合视频编码框架的基础,决定着编码单元的基本形状和尺寸。灵活的划分方法能更有效地表达视频丰富的纹理和运动,对编码性能的提升起着至关重要的作用。团队提出了非对称四叉树(UQT)划分结构,旨在提高视频的编码效率。与现有的四叉树(QuadTree,QT),二叉树(BinaryTree,BT),三叉树(TernaryTree,TT)划分结构相比,UQT通过一次划分生成的子编码单元能触及更深的划分深度,能更有效地捕捉视频丰富的细节特性。此外,UQT生成的子块形状是无法通过QT、BT、TT组合实现的,一定程度上弥补了现有划分的不足,丰富了划分的表达。图2环路滤波网络结构示意图,包括网络的输入,滤波与输出模块传统视频编码中采用环路滤波器去除编码失真,缩小原始图像与重建之间的失真,例如经典的去块滤波、样本自适应偏移和自适应环路滤波等。参赛平台提出了一种基于残差卷积网络的增强型环路滤波技术,有机地将环路滤波技术与深度学习技术结合在一起,在网络结构中与模型训练中充分利用传统视频编码的先验信息,提升环路滤波效率。网络输入方面,除重建像素外,团队将编码过程中的预测信息、划分信息、边界强度以及量化参数等作为增强信息供深度网络学习,丰富先验知识,使得网络能更好地感知压缩失真。在分层参考的编码结构中,待编码帧将参考已重建的高质量帧。团队提出对不同时域层次帧所使用的滤波器采用迭代训练的方式,获取最接近真实编码的训练数据,实现更高性能的滤波。此外,每个条带及最大编码单位均可以在多个滤波模型中自适应地选择率失真性能最优的网络模型,并将选择信息传输到解码端。图3CLIC视频压缩赛道基于MOS的排行榜2022年,火山引擎多媒体实验室第一次参加CLIC大赛。参赛平台NeutronStar(中子星)在高码率视频压缩和低码率视频压缩两个赛道,主客观指标均以大幅领先优势夺冠。此次,火山引擎与北大联手夺冠,是结合了北大学科和人才优势,以及火山引擎的技术和产业优势,围绕深度学习在视频压缩领域的一次重要学术探索。火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。CVPR2024满分论文|DEFORMABLE3DGAUSSIAN:基于可变形3D高斯的高质量单目动态重建新方法单目动态场景(MonocularDynamicScene)是指使用单眼摄像头观察并分析的动态环境,其中场景中的物体可以自由移动。单目动态场景重建对于理解环境中的动态变化、预测物体运动轨迹以及动态数字资产生成等任务至关重要。随着以神经辐射场(NeuralRadianceField,NeRF)为代表的神经渲染的兴起,越来越多的工作开始使用隐式表示(implicitrepresentation)进行动态场景的三维重建。尽管基于NeRF的一些代表工作,如D-NeRF,Nerfies,K-planes等已经取得了令人满意的渲染质量,他们仍然距离真正的照片级真实渲染(photo-realisticrendering)存在一定的距离。我们认为,其根本原因在于基于光线投射(raycasting)的NeRF管线通过逆向映射(backward-flow)将观测空间(observationspace)映射到规范空间(canonicaspace)无法实现准确且干净的映射。逆向映射并不利于可学习结构的收敛,使得目前的方法在D-NeRF数据集上只能取得30+级别的PSNR渲染指标。为了解决这一问题,我们提出了一种基于光栅化(rasterization)的单目动态场景建模管线,首次将变形场(DeformationField)与3D高斯(3DGaussianSplatting)结合实现了高质量的重建与新视角渲染。实验结果表明,变形场可以准确地将规范空间下的3D高斯前向映射(forward-flow)到观测空间,不仅在D-NeRF数据集上实现了10+的PSNR提高,而且在相机位姿不准确的真实场景也取得了渲染细节上的增加。图1HyperNeRF真实场景的实验结果该研究的论文《Deformable3DGaussiansforHigh-FidelityMonocularDynamicSceneReconstruction》已被计算机视觉顶级国际学术会议CVPR2024接收。值得一提的是,该论文是首个使用变形场将3D高斯拓展到单目动态场景的工作,并且在公开数据集上取得了SOTA结果。相关工作动态场景重建一直以来是三维重建的热点问题。随着以NeRF为代表的神经渲染实现了在NeRF光线投射管线的基础上引入了变形场,实现了鲁棒的动态场景重建。TiNeuVox,K-Planes和Hexplanes在此基础上引入了网格结构,大大加速了模型的训练过程,渲染速度有一定的提高。然而这些方法都基于逆向映射,无法真正实现高质量的规范空间和变形场的解耦。3D高斯泼溅是一种基于光栅化的点云渲染管线。其CUDA定制的可微高斯光栅化管线和创新的致密化使得3D高斯不仅实现了SOTA的渲染质量,还实现了实时渲染。Dynamic3D高斯首先将静态的3D高斯拓展到了动态领域。然而,其只能处理多目场景非常严重地制约了其应用于更通用的情况,如手机拍摄等单目场景。研究思想Deformable-GS的核心在于将静态的3D高斯拓展到单目动态场景。每一个3D高斯携带位置,旋转,缩放,不透明度和SH系数用于图像层级的渲染。根据3D高斯alpha-blend的公式我们不难发现,随时间变化的位置,以及控制高斯形状的旋转和缩放是决定动态3D高斯的决定性参数。然而,不同于传统的基于点云的渲染方法,3D高斯在初始化之后,位置,透明度等参数会随着优化不断更新。这给动态高斯的学习增加了难度。在本次研究中,我们创新性地提出了变形场与3D高斯联合优化的动态场景渲染框架。我们将COLMAP或随机点云初始化的3D高斯视作规范空间,随后通过变形场,以规范空间中3D高斯的坐标信息作为输入,预测每一个3D高斯随时间变化的位置$\deltax$和形状参数$\deltar,\deltas$。利用变形场,我们可以将规范空间的3D高斯变换到观测空间用于光栅化渲染。这一策略并不会影响3D高斯的可微光栅化管线,经过其计算得到的梯度可以用于更新规范空间3D高斯的参数。此外,引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高,从而指导相应区域在致密化的过程中得到更精细的调控。即使规范空间3D高斯的数量和位置参数在初期也在不断更新,但实验结果表明,这种联合优化的策略可以最终得到鲁棒的收敛结果。大约经过20000轮迭代,规范空间的3D高斯的位置参数几乎不再变化。在真实场景中,我们发现真实场景的相机位姿往往不够准确,而动态场景更加剧了这一问题。这对于基于神经辐射场的结构来说并不会产生较大的影响,因为神经辐射场基于多层感知机(MLP),是一个非常平滑的结构。但是3D高斯是基于点云的显式结构,略微不准确的相机位姿很难通过高斯泼溅得到较为鲁棒地矫正。因此为了缓解这个问题,我们创新地引入了退火平滑训练(AnnealingSmoothTraining,AST)。该训练机制旨在初期平滑3D高斯的学习,在后期增加渲染的细节。这一机制的引入不仅提高了渲染的质量,而且大幅度提高了时间插值任务的稳定性与平滑性。20图2展示了该研究的流程图,详情请参见论文原文。图2流程图结果展示该研究首先在动态重建领域被广泛使用的D-NeRF数据集上进行了合成数据集的实验。从图3的可视化结果中不难看出,Deformable-GS相比于之前的方法有着非常巨大的渲染质量提升。21图3该研究在D-NeRF数据集上的定性实验对比结果我们方法不仅在视觉效果上取得了大幅度的提高,定量的渲染指标上也有着对应的支持。值得注意的是,我们发现D-NeRF数据集的Lego场景存在错误,即训练集和测试集的场景具有微小的差别。这体现在Lego模型铲子的翻转角度不一致。这也是为什么之前方法在Lego场景的指标无法提高的根本原因。为了实现有意义的比较,我们使用了Lego的验证集作为我们指标测量的基准。图4方法对比22我们在全分辨率(800x800)下对比了SOTA方法,其中包括了CVPR2020的D-NeRF,SigAsia2022的TiNeuVox和CVPR2023的Tensor4D,K-planes。我们的方法在各个渲染指标(PSNR、SSIM、LPIPS),各个场景下都取得了大幅度的提高。我们的方法不仅能够适用于合成场景,在相机位姿不够准确的真实场景也取得了SOTA结果。如图5所示,我们在NeRF-DS数据集上与SOTA方法进行了对比。实验结果表明,即使我们的方法没有对高光反射表面进行特殊处理,我们依旧能够超过专为高光反射场景设计的NeRF-DS,取得了最佳的渲染效果。图5真实场景方法对比虽然MLP的引入增加了渲染开销,但是得益于3D高斯极其高效的CUDA实现与我们紧凑的MLP结构,我们依旧能够做到实时渲染。在3090上D-NeRF数据集的平均FPS可以达到85(400x400),68(800x800)。此外,该研究还首次应用了带有前向与反向深度传播的可微高斯光栅化管线。如图6所示,该深度也证明了Deformable-GS也可以得到鲁棒的几何表示。深度的反向传播可以推动日后很多需要使用深度监督的任务,例如逆向渲染(InverseRendering),SLAM与自动驾驶等。23图6深度可视化火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。24CVPR2024|MODULARBLINDVIDEOQUALITYASSESSMENT:模块化无参视频质量评估无参视频质量评估(BlindVideoQualityAssessment,BVQA)在评估和改善各种视频平台并服务用户的观看体验方面发挥着关键作用。当前基于深度学习的模型主要以下采样/局部块采样的形式分析视频内容,而忽视了实际空域分辨率和时域帧率对视频质量的影响,随着高分辨率和高帧率视频投稿逐渐普及,特别是跨分辨率/帧率视频转码档位画质评估场景中,这种影响变得更加不可忽视。在本文中,我们提出了一种模块化BVQA模型,以及一种训练该模型以提高其模块化性的方法。我们的模型包括基础质量预测模块、空域矫正模块和时域矫正模块,分别显式地响应视频质量的视觉内容和失真、空域分辨率和时域帧率变化情况。我们用提出的模块化BVQA模型在专业生成的内容和用户生成的内容视频数据库上进行了大量实验。实验表明,我们的质量模型实现了优于当前方法或相近的性能。此外,模型可以轻量高效地添加其他与质量相关的视频属性,例如动态范围和色域作为额外的矫正25多年来,研究人员从心理物理学和感知研究中收集了大量证据,证明更高的空域分辨率和更高的帧速率对视频主观画质有积极的影响。具体而言,感知质量取决于视频内容,特别是空域和时域复杂性。针对这些主观发现,早期的知识驱动的BVQA模型直接将空域分辨率和帧速率参数作为压缩视频质量预测的输入的一部分。尽管这种方法非常简单,但这些视频属性参数与内容和失真无关,因此它们与感知的视频质量不太相关。基于卷积神经网络(CNN)的数据驱动的BVQA方法面临的计算问题十分明显。它们几乎没有尝试评估全尺寸视频,主要原因是计算复杂度很高,尤其是在处理高分辨率和帧速率的视频时,面临的挑战更大。此外,由于视频质量数据集规模较小,许多基于CNN的BVQA方法依赖于对象识别任务的预训练模型,这些模型通常需要小且固定大小的输入。因此,视频需要在空域上调整大小,并在时域上进行二次采样。在空域中处理视频的传统方法如图1所示,在时域中处理视频的传统方法如图2所示。图1.在空域视图中处理视频的传统方法。(a)代表来自WaterlooIVC4K的具有相同内容但不同空域分辨率的两个视频。(b)在不保持宽高比的情况下调整视频大小,与视频质量相关的局部纹理可能会受到影响。(c)调整视频大小,同时保留纵横比并将其裁剪为固定大小,无论实际空域分辨率如何,都会产生几乎相同的输入。(d)裁剪视频会缩小视野并导致不同空域分辨率的内容覆盖范围不同。26图2.来自LIVE-YT-HFR的两个视频序列,具有相同的内容,但是时域帧率不同。当根据帧速对帧进行二次采样时,生成的帧是相同的。此外,高达120fps的极高帧速率对端到端VQA模型提出了重大挑战。为了可靠地评估具有丰富内容和失真多样性以及多种空域分辨率和帧速率的数字视频质量,我们提出了一种模块化BVQA模型。我们的模型由三个模块组成:基础质量预测模块、空域矫正模块和时域矫正模块,分别响应视频质量中的视觉内容和失真、空域分辨率和帧速率变化。基础质量预测模块将一组稀疏的空域下采样关键帧作为输入,并生成一个标量作为质量分数。空域矫正模块依靠浅层CNN来处理实际空域分辨率下关键帧的拉普拉斯金字塔,并计算缩放和移位参数来校正基础质量得分。类似地,时域矫正模块依靠轻量级CNN以实际帧速率处理以关键帧为中心的空域下采样视频块,并计算另一个缩放和移位参数以进行质量得分校正。为了增强模型的模块化,我们在训练期间引入了dropout策略。在每次迭代中,我们以预先指定的概率随机丢弃空域和/或时域整流器。这种训练策略鼓励基础质量预测模块作为BVQA模型独立运行,并且在配备矫正模块时会表现更好。27图3.所提出模型总体结构。基础质量预测模块采用一组稀疏的空域下采样关键帧作为输入,生成表示为$q__$的基础质量值。空域矫正模块采用从实际空域分辨率的关键帧导出的拉普拉斯金字塔,计算缩放参数$\alpha__$和移位参数$\beta__$来校正基础质量。时域校正模块利用以实际帧速率的关键帧为中心的视频块的特征来计算另一个缩放参数$\alpha__$和移位参数$\beta__$以进行质量校正。空域和时域矫正模块可以使用模块化其中利用尺度参数的几何平均值和移位参数的算术平均值。为了评估空域整流器的性能,我们采用了BVI-SR和WaterlooIVC4K,重点研究不同空域分辨率对视频质量的影响。为了评估时域整流器的有效性,我们利用BVI-HFR和LIVE-YT-HFR,它们专门用于分析不同帧速率对视频质量的影响。这四个数据集都是PGC(Professionally-GeneratedContent,专业生成的内容)数据集。我们还使用八个UGC(User-GeneratedContent,用户生成的内容)数据库进一步验证了我们提出提供了这些数据库的全面介绍。28PGC数据集结果表2和表3展示了4个PGC数据集的结果。可以看出空域矫正模块和时域矫正模块可以分别有效地感知空域分辨率和时域帧率对视频质量带来的影响,并很好地对基础质量分数进行矫正。Table2.Performancecomparisonofourmodelsagainstcompet-ingmethodsonBVI-SRandWaterlooIVC4Kwithemphasisonspatialresolution-sensitivedistortions.Thetop-2resultsoneachdatabasearehighlightedinbold.Table3.PerformancecomparisonofourmodelsagainstcompetingmethodsonBVI-HFRandLIVE-YT-HFR,withemphasisonframerate-sensitivedistortions.UGC数据集结果表4和表5展示了8个UGC数据集的结果。可以看出两个矫正模块的集成显着增强了八个UGC数据库的性能,与当前最优模型相比也展示了具有竞争力的结果。此外,包含这两个矫正模块可以实现有效的泛化,证明它们对提高预测视频质量有突出贡献。此外,我们的模型的模块化设计提供了对常见UGC数据库中主要失真类型的全面理解。29Table4.PerformancecomparisonintermsofSRCCandPLCCofourmodelsagainstfivecompetingmethodsonsevensmall-scaleUGCVQAdatasets.Theweightedaveragerepresentstheaverageresultsacrossdifferentdatabases,weightedbythesizeofeachrespectivedatabase.Table5.Cross-datasetevaluation.Themodelsaretrainedontheofficialtrainingsplitoflarge-scaleLSVQandtestedontheotherVQAdatasetswithoutfine-tuning.火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。30深度拆解:CVPR2024CAMIXERSR动态注意力分配的超分辨率加速框架随着相关技术和应用的发展,比如超高清屏幕、虚拟现实(VR)等沉浸式体验的增加,用户对超高分辨率图像和视频的需求变得越来越强烈。在这些场景中,图像的质量和清晰度对于提供最佳的用户体验至关重要。超高分辨率不仅能提供更清晰、更真实的视觉效果,还能在一定程度上增强人们的互动和沉浸感,在一些VR场景中我们需要8K甚至16K的才可以满足需求。然而要生成或者处理这些超高分辨率的内容,对算力的要求也是与日增长,对相关算法提出了挑战。超分辨率是一个经典的计算机底层视觉问题,该问题要解决的是通过低分辨率的图像输入,获得高分辨率的图像输出。目前该领域的算法模型主要是有CNN以及Transformer两大类别,考虑到实际的应用场景,超分的一个细分领域方向是算法的轻量化。在上述提到的超高分辨率的场景,超分算法的算力消耗问题变得尤为关键。基于此,本文提出了一种名为CAMixerSR的超分框架,可以做到内容感知,通过对Conv和Self-Attention的分配做到计算量的大幅优化。论文地址:/abs/2402.19289表1不同难易程度内容的超分算力与效果对比我们在对内容进行分块并且根据处理的难易程度分成了简单、中等、困难三个类型,并且使用不同FLOPS的计算单元,Conv以及SA+Conv两种类型进行比较,发现对于简单的模块我们可以利用较少的FLOPS进行计算,并且可以得到较为不错的PSNR结果,只有在中等以及困难的分块内容中,SA+Conv的效果优势才较为明显。通过这个实验我们发现,如果对内容进行分块并且动态调整优化处理策略,有可能在保持性能的同时,大幅降低FLOPS。31图1CAMixer的算法框架上图是我们方案的整体流程图,可以看到,我们的方案分成了三个部分,包括Predictor模块,Self-Attention模块以及Convolution模块。其中的Predictor模块是基于局部条件以及全局条件以及对应的线性位置编码函数,通过该模块,我们可以输出OffsetsMaps、MixerMask、SpatialAttention、ChannelAttention,这些信息在Self-Attention模块以及Convolution模块的后续计算中进行使用。CAMixerSR中网络的主体模块是基于SwinIR-light进行优化。对于复杂区域,我们使用offsetsmap来进行更高效的attention计算,并且将输入和V分成了简单和困难两种分块,从而得到对应的Q和K,并且将他们分别进行计算,得到attention部分的V。Convolution模块我们使用depth-wise进行计算,将Self-Attention的结果合并后即可得到我们最后的输出结果。3233图2Predictor模块输出的Mask可视化结果图2显示了我们的Predictor模块的输出结果,可以看到在很多的场景里,不同的区域内容有较为大的差异,并且我们的算法可以精准预测出分块的类型。表2CAMixerSR在超高分辨率数据集上的实验对比34表2和表3是CAMixerSR与之前高性能超分在超高分辨率数据集上做的实验对比,我们可以看到,在多个数据集(F2K、Tesk2K、Tesk4K、Tesk8K)上,相比经典的Transformerbased超分方案SwinIR-light,CAMixerSR都有比较大的优势,在经过我们的方案优化后,可以做到PSNR接近的情况下节约将近一半的FLOPS以及参数量Params。表3CAMixerSR通用超分辨率数据集上的实验对比除了超大分辨率的场景,我们的方案在一些通用场景下同样有不错的性能优势,表3中我们在一些常见的超分测试集上和一些常见的高性能超分方案进行了测试。表4CAMixerSR在球面超分辨率数据集上的实验对比球面内容是一个重要的超高分辨率场景,我们在两个全景超分数据集上进行了测试,甚至不需要通过球面数据集进行训练,仅进行测试的情况下同样发现我们的方案在PSNR效果以及性能上都超过了过去的方案。在这项实验中可以表明CAMixserSR在沉浸式场景有比较大的收益潜力。火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。353536火山引擎多媒体实验室VR全链路处理传输显示方案ResVR入选ACMMultimedia2024最佳论文提名近日,ACMMultimedia2024在墨尔本召开,该会议是国际多媒体领域学术和产业界交流的顶级盛会也是中国计算机学会(CCF)推荐的多媒体领域唯一的A类国际学术会议。据悉本(入选比例0.5%)被提名ACMMultimedia2024最佳论文(BestPaperNomination)。火山引擎多媒体实验室和北京大学合作的论文"ResVR:JointRescalingandViewportRenderingofOmnidirectionalImages"荣获本次会议最佳论文提名。37全景图像(OmnidirectionalImages,ODI)等内容已在虚拟现实头戴式VR设备中得到广泛应用,代表性产品包括PICO4、MetaQuest3等。全景内容相关技术的应用遍及教育、旅游和娱乐等多个领域。全景内容通常采用等距圆柱投影(EquirectangularProjection,简称ERP)格式进行存储。然而,当在VR头戴式设备上观看时,需要将ERP图像转换到观看视角(viewport)进行显示。为较好的用户体验,全景图像和视频的分辨率通常需达到8K甚至更高的标准,这对传输提出了挑战。在实际应用的场景中,尤其在网络带宽有限的情况下,经常会涉及到全景图像的重采样,它分为三个主要步骤实施:首先,在服务端,我们对高分辨率ERP图像进行下采样,以创建一个低分辨率版本;然后将这个低分辨率图像传输到用户的VR设备后,再将其上采样回与原始图像相同尺寸的高分辨率ERP图像;最后,当用户通过头戴式显示器观看特定视角时,相应的视角再从上采样的图像中渲染出来。端到端全景内容显示方案ResVR现有的方案这三个步骤是独立的,由于缺少整体链路的联合优化,会出现纹理丢失、像素错位等问题。为了解决这个问题,多媒体实验室的研究人员提出了一种直接优化渲染显示结果的端到端联合优化方案ResVR,并且为了进行端到端训练提出了多项算法创新。38离散像素采样策略(DiscretePixelSamplingStrategy)云端的ERP图像和渲染显示的视角都不能同时是规则的矩形图像形状,从而影响了端到端训练。为了解决这个问题,论文提出了一种离散像素采样策略(DiscretePixelSamplingStrategy)来创建训练数据对。39球面像素形状表示(SphericalPixelShapeRepresentation)为了进一步提升端到端训练效果,让网络感知到球面上像素的形状和位置。论文使用了描述渲染过程中球面上像素的方向和曲率,雅可比(Jacobian)矩阵和黑塞(Hessian)矩阵,并基于球面微分使用数值导数来对它们进行估计。示例中使用球面视角上的一个点y来说明这个过程。首先,对点y及其8个最近邻点应用逆映射,以在ERP上获得点x及其邻点。然后,这些点被转换为球面坐标,这些坐标用于计算数值导数,以估计像素形状表示。40两个公开数据集测试中的实验结果表明,ResVR在保证全景图像传输效率的同时,实现了最佳的渲染质量。并且值得注意的是,该方案能够使用消费级GPU实现实时渲染,表明在实际应用中有较强的实用性。此外我们从示例图中可以看到,论文的方法超越了现有的方案,在实现了1dB的PSNR增益的同时主观效果也有明显提升。41总结总结在ResVR论文中,多媒体实验室的研究人员提出了一种用于处理、传输以及显示全景图像的新框架,可以同时优化传输效率和渲染质量。为了实现端到端优化,论文提出了一种离散像素采样算法,以创建ERP和GT像素的数据对。此外为了让网络框架对渲染的内容有更好感知,论文引入了一种球面像素形状表示算法。最后,实验表明ResVR在多个测试序列上,达到了sota的主客观效果,并且该方案可以在消费级显卡中实时运行。火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,帮助企业构建用户体验创新、数据驱动决策和业务敏捷迭代等数字化能力,实现业务可持续增长。42火山引擎论文入选国际会议ACMIMC'24|一种面向大规模视频点播系统的算法实验平台2024年11月4日至11月6日,在西班牙马德里举办了ACMIMC2024(ACMInternetMeasurementConference)会议,ACMIMC是计算机网络方向的顶级会议之一,会议收录了网络测量领域的顶级论文。2024年,共计253篇论文投稿,最终录用55篇,录用率21.7%。火山引擎多媒体实验室传输系统团队和超边缘技术团队合作,提出了一种新型的实验平台Magpie。43该技术已经被应用于公司内部日常生产过程中的算法测试环节。同时,该论文《Magpie:ImprovingtheEfficiencyofA/BTestsforLargeScaleVideo-on-DemandSystems》被IMC2024收录,并被邀请在VideoStreamingSession做正式汇报。论文链接:/doi/abs/10.1145/3646547.3689019随着技术的进步和互联网基础设施的扩展,视频点播(Video-on-Demand)服务已成为现代媒体消费中不可或缺的一部分,其流量现已占据了互联网总流量的重要比例。作为全球主要的点播视频内容提供商,字节跳动在视频点播系统中上线算法的过程是高度规范的,必须确保任何变更都不会对线上的用户体验产生负面影响。44开发人员在开发环境中可以自由进行系统修改和测试,但所有针对生产环境(即直接服务于真实用户的系统)的更改都必须经过严格的审查和批准过程。这一过程包括使用大规模在线A/B实验来验证改动是否真正提升了服务的体验质量(QoE)和服务质量(QoS),同时确保不会对系统的稳定性、性能和其他关键指标造成负面影响。通过这种方法,我们能够不断优化我们的点播视频服务,同时保持对用户承诺的高质量服务。然而,为了保证系统稳定性而复杂化的流程使得算法的更新非常的缓慢。尽管开发者在进行算法测试时,可以利用很多仿真测试工具自测算法性能,但是由于这些仿真测试工具不具备一定数量的测试规模,并且对于复杂的真实网络环境和系统环境进行了简化,其测试结果往往无法代表真实的线上结果,开发者依旧需要经历多次A/B实验才能最终在真实的生产环境中取得正向收益,造成了算法上线流程整体历时非常漫长的现状,拖慢了整体的生产效率。因此,基于我们现有的资源,设计一套能够快速取得实验结果的同时具备高复现精准度的实验平台,具有非常高的实用价值,对于提升算法更新效率具有非常重要的意义。在本论文中,团队全面地介绍了实验平台的设计动机、设计思路和验证效果。在企业的生产环境中更新算法流程漫长是大型互联网企业都会面临的问题,尤其当前的视频点播作为本公司的主要业务之一,点播系统每天都面临着激增的算法上线需求和算法上线速度缓慢的矛盾。为了从根本上缓解这一矛盾,火山引擎的研究团队认为应当提出一种新型的算法验证平台用于在进行线上大规模A/B实验前进行算法性能验证,并将该平台的正向实验结论作为开启A/B实验的前置条件之一。该平台需要具备两大基本的特点:复现精确度高和验证速度快。在下表中,我们总结了现存的验证方式包括线上大规模A/B实验和本地仿真测试的特点,可以发现这两种方案实际上都不能够同时满足这两点要求。45为了同时满足以上两点算法验证实验平台的设计目标,我们提出了一种名为Magpie的实验平台设计方案。其核心设计思想包括三点:●真实的实验验证环境。首先,Magpie是一个在真实的环境中进行测试的平台。这个真实的平台包括一个控制节点、约400台真实的服务器和遍布中580个客户端设备,这些服务器和控制节点是整个实验平台的中枢,其职责是任务的分配与下发、为服务器选取每个客户端设备都安装了一个定制化应用程序同时,研究团队将传输层的算法进行抽象化与接●关键特征的提取与复现。在调试实验平台的过程中,研究人员发现仅仅提供真实的实验验证度损耗,为了解决这个问题,Magpie采用两步流程来提高结果的准确性。46首先,它通过数据驱动的方法,使用随机森林算法来识别影响结果的关然后,Magpie利用其内部的vPaaS基础设施和资源调度机制,调整这些因素在其环境中这种调整确保重要因素与现实世界在线分布●模拟A/B实验。Magpie同样通过使用A/B分组来评估算法性能。与线上A/B实验依赖用户行为产生数据的方式不同,Magpie通过脚本控制应用程序自动运行视频点播流程来一旦控制节点发出实验开启命令,测试就会第二种方法是基于时间的分组,其中每个设备依次执行策略。这确保了参与不我们从算法验证的准确度和算法验证结果的耗时两个维度来评估Magpie的效果。●算法验证的准确度高:我们首先评估了Magpie用于验证一个重注入算法(一个我们准备在我们将Magpie与本地测试的结果和真实AB测试的结果进行了比较。通过比较七天收集的对比其差异,我们可以看到Magpie将效果差异其从大约13%降低到了大约2%。大大47●算法验证的耗时短:我们还通过追踪在最近部署的九种算法中从算法开发到全量实验的时间跨度,分析了Magpie的在节省时间成本方面的效果表现。与在线A/B实验相比,由于省略了繁杂的质量保障测试和稳定性测试流程,Magpie框架将整个过程的时间从68天缩短到了大约15目前,Magpie已经作为一个火山引擎内部团队用于验证算法的常规验证实验平台投入使用。结合我们对实验平台设计与验证的经验,我们认为Magpie在以下两方面具有优化空间。●Magpie的一般化:目前Magpie是一个主要用于解决视频点播系统中传输算法验证问题的实验平台,但是我们认为它完全具备发展成为一个适用于所有网络架构和算法层的通用实验而要将Magpie扩展为一个更加广泛的实验平台存在着许多挑战,例如所有算法的模块化和对不同传输系统架构的兼容性。需要更加精良的架构抽象设计和编码技巧,以实现一个可扩48●改进关键特征的提取与复现技术:在Magpie的设计中我们采用随机森林回归分析作为考虑到特征提取和复现的准确性在提高实验结果相似性中的关键作用,通过改进我们的特征本文介绍了一种由火山引擎研究团队提出的一种面向大规模视频点播系统的算法实验平台Magpie,它通过利用真实的实验验证环境、关键特征的提取与复现以及模拟A/B实验实现了高准确度的算法复现度和快速的实验结果输出速度。业界可以通过了解实验平台的设计原理,应用到任意的系统架构和测试算法的验证中,因此,它对于解决在生产环境中算法迭代速度慢这一问题具有很高的参考价值。火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,帮助企业构建用户体验创新、数据驱动决策和业务敏捷迭代等数字化能力,实现业务可持续增长。49横扫四大赛道,火山引擎斩获MSU世界视频编码器大赛“最佳ASIC编码器”MSU世界编码器大赛由莫斯科国立大学(MSU)举办,是视频编码领域极具影响力的国际赛事,比赛采用「SSIM、PSNR、VMAF」等多个评价指标对全球范围内参赛的软硬件编码器进行多维度的评估和排名,已成功举办18届。2024年硬件编码器赛道竞争激烈,吸引了各大科技巨头参赛,包括腾讯、Streamlake、Netint、Intel、英伟达、AMD等。火山引擎自研视频转码芯片的「BVE1.2编码器」首次亮相,全面参与1080p@30fps、1080p@60fps、1080p@120fps和1080p@240fps四个子赛道,获得多项指标第一,及全部参赛H.265/HEVC编码器中所有指标第一,并斩获所有四个赛道“「最佳ASIC编码器」”称号。50在所有的四个赛道中,BVE1.2是表现最好的ASIC编码器,不仅表现出「优异同时「吞吐率」大幅度领先同类产品。在高吞吐1080p@240fps赛道中,BVE1.2包揽了所有四项质量指标的第一,并且保持显著的领先幅度(Fig1)。在1080p@30fps、1080p@60fps、以及1080p120fps赛道上,BVE1.2是最好的H.265/HEVC编码器(仅次于基于最新一代标准的H.266/VVC编码器),同时相比于压缩性能前三的其他编码器吞吐性能也有非常明显的优势(Fig2)。Fig1.BVE1以及其他codecs的overallquality比较(赛道240fps)Fig2.BVE1.2、Streamlake-200、NetintQuadra以及changhaiV2吞吐率比较51比赛结果不仅证明了BVE1.2编码器能同时实现高吞吐和高质量的双重优势,适应多种不同的编码场景,能够同时兼顾画质、延迟、及成本,带给用户更好的视觉体验。为了加强在视频编码领域的竞争力,字节跳动在核心技术上不断加大投入,从2019年就开始启动自研硬件编码器研发,目前自研硬件编码器包含FPGA编码器(过去两年都参加了MSU编码器大赛并荣获“最佳FPGA编码器”)和ASIC编码器,覆盖场景从图片到视频,在各个场景下都展现了更极致的压缩效率,并进一步探索具备高压缩率、灵活性、高吞吐率、多标准兼容的未来编码器架构。结果表明,硬件编码器的各项指标不仅在MSU比赛中表现优秀,更在互联网视频方面,进一步扩大了领先优势,火山引擎视频转码芯片集成了视频编解码、视频分析、视频前处理、主观优化、内容自适应编码等关键技术,适用于各种业务场景,包含静图、动图、短视频、长视频、视频直播、视频会议、云游戏等,并通过火山引擎服务外部客户。当前,直播和短视频迅速增长,导致带宽成本显著增加。火山引擎视频转码芯片以其高编码质量和高密度特性,单卡支持120路1080p30fps编码和“一进多出”转码模式。相比通用CPU平台上的软件编码方案,在达到同样的视频压缩效率前提下,拥有几十倍以上的成本优势,同时提供行业领先的编码质量,并支持画质增强,显著降低带宽成本以及计算成本。为满足不同业务及视频应用场景的需求,火山引擎视频转码芯片还提供ABR、CBR、CRF、VBV等多种码控方案,及lowlatency模式等。火山引擎自研芯片及系统可大规模节省IDC机房中视频类应用的成本和能耗,不仅能大幅降低客户的视频类应用成本,还能获得更好的视频主观及客观质量。字节跳动一直致力于推动技术创新和研发,不断提升产品的技术水平和用户体验,在视频编码领域持续突破。火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。欢迎更多小伙伴加入,共同探索多媒体前沿技术!525202技术探索53AI视频时代,如何才能不掉队?让你反复点赞收藏的短视频,或许已经不是人类做的了。不久前,一段“皮卡丘打工”的AI视频,在全网流传爆火。精美的画面,流畅的动作,以及丝滑的雨滴,几乎可以与大制作的动画电影相媲美。更久之前,今年抖音上爆火的科幻短剧《三星堆:未来启示录》,同样是由AIGC生成。这部剧12集,每集3分钟,讲述考古工作者联手揭开古蜀国神秘面纱的故事,一经上线,就引发1.4亿播放。其背后的技术支持字节旗下视频生成工具即梦,也随之引发市场关注。54技术的普及与工具的成熟,让视频创作门槛快速降低,在AI的助推下,用户从单纯的内容消费者升级为生产、消费和拥有的三位一体,视频的总量也随之爆炸性增长:当前,视频数据的规模飞速增长,IDC预计,2025年全球数据量将达到175ZB,其中绝大部分将来自视频数据,而这一趋势,还将继续加速。但AI视频时代,主角不止有AI。同一时期,在消费端,随着全景直播、三维重建的成熟,伴随着国产3A大作《黑神话:悟空》中AI技术结合无人机实景三维重建实现真实场景的纹理与细节以1:1的比例精准还原,视频的交互与消费链路也从此被重构。技术的成熟,叠加应用的爆发,AI视频的战争,正迎来市场化为导向的下半场。55AI视频时代的三座大山以AI技术为代表,一个新的视频生产、交互、消费时代正在缓缓拉开序幕,但近在眼前,仍有三座大山有待翻过。两者中间的鸿沟,来自工程化。一个简单的例子,仅在AI视频生成环节,业内发布会上,AI生成的视频中,小猫会正常跳跃,展示出的技术水平就已经遥遥领先;但现实中,一个会正常跳跃的小猫,只是最基础的要求,视频本身的内容与趣味的重要性,远远高于对AI技术更具体来说,在生产端,成本与效率,正逐渐成为一个越来越棘手的难题。一方面AI视频生产的赛道正随之变得前所未有的拥挤。Sora发布引发全球视频大模型热潮,AI视频的赛道也在很快的时间里变得拥挤。仅仅在国内,就先后出现了字节系即梦、快手系可灵,创业公司系Pika、智谱清影、生数科技Vidu等一众明星产品。然而,生成式AI带来的视频数据指数级增长对计算效能提出了严峻考验;年初推出的Sora模型的训练算力需求是GPT-4的4.5倍,而推理算力需求更是接近GPT-4的400倍。无论文生视频,还是图生视频,相关的算力指标动辄几十上百T,甚至高达千T,这种激增的成本,带来了算力资源的可负担性的挑战。与此同时,多模态媒体处理挑战也日益凸显。多模态媒体处理需求的日益凸显对音视频处理的生产端、交互端和消费端提出了全新要求;生产端,多模态内容的生产是否足够高质高效,比如给用户交付的究竟是模型、API还是一个类似即梦这样的软件都对应着不同的用户分层;交互端,当我们的交互从传统的单模态人机变成多模态交互乃至人与AI的交互,如何让机器更直观的理解人类的需求,依旧是个困扰,消费端如何让交互空间从2D升级到3D乃至虚实56单点的问题解决,需要编解码技术的更新,需要有应对洪峰波谷的能力,需要AI的加持。但系统性问题,需要的则是一个所有能力的融会贯通,从生产端,到交互端,再到消费端的而这,或许正是火山引擎视频云最擅长的地方。过去Sora等技术的成熟只是点燃了0到1的火种,但AI视频真正的爆发,还需要从1到100如何定义AI视频时代AI视频时代的到来理所当然,但如何定义AI视频时代,这曾是火山引擎视频云内部,一个长期的思考题。通往未来的门票,就藏在对过去历史的梳理中。经过复盘总结,火山引擎视频云认为,围绕视频,我们的时代,可以被分为三个阶段:第二阶段,到了数字时代,我们对视频品质的要求越来越高,PGC成为内容生产的主流,直播兴起带来交互上的实时、流畅、高清,而交互的空间,也57这是一个生产侧内容的品质不断提升,交互侧效率不断提升,消费端交互体验与空间不断升维的过程。相应的,AI视频时代,自然也不等同于传统的数字视频时代加上AI能力,故事依旧各大软件,人人可用、人人会用的基础技能。我们不再局限于主动的内容生产与被动的内容消费,在AI视频时代,用户将成为AI原生居民,既是内容的生产者,也是消费者,更是拥有者。在这背后,则是AI技术从过去的问答,到图文交互,再到如今多模态交互,多模态内容而在交互端,技术的成熟,则进一步拉近了人与视频,真实世界与数字之间的连接。过去,留言的存在,让人人交互成为可能;直播等技术的兴起,通过互联网的链接,让人与人的实时交互得以实现。而以GPT-4o、火山引擎对话式AI实时交互解决方案等技术为代表,人与AI的交互,则在多模态的基础上,变得更加实时流畅、逼真与拟人。全球市场研究机构MarketsandMarkets曾做出预测,到2028年,全球AI助手市场规模将达到285亿美元。在这背后,2023—2028年的复合增长率将达到惊人的43%。消费端的这个趋势是更沉浸。以年初苹果发布的VisionPro为代表,空间计算的新时代正式开启。在此之后,今年7月,抖音VR直播上线,9月《黑神话:悟空》以其极

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论