2024AI视频智能分析技术与应⽤_第1页
2024AI视频智能分析技术与应⽤_第2页
2024AI视频智能分析技术与应⽤_第3页
2024AI视频智能分析技术与应⽤_第4页
2024AI视频智能分析技术与应⽤_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI视频智能分析技术与应用AI视频智能分析技术与应⽤(⼀)⼀、什么是AI视频智能分析?视频智能分析已渗透到生活生产中的方方面面。从生活中的刷脸支付、停车场的车牌识别、工厂园区的烟火识别、工地的工装安全帽识别到车间零部件智能检测,视频智能分析无处不在。简单来说,AI视频智能分析是通过人工智能技术处理和分析视频数据的方法。图1.AI视频智能分析示意图如图1所示,监控视频与媒体视频经AI视频分析引擎分析处理,输出对象、属性、行为以及事件。对象分析:视频分析的重要任务是结构化目标的识别,包括人、车、物的位置与类别信息,结合业务系统产生价值应用。如人员电子围栏、车流量统计等应用。属性分析:属性是被测目标颜色、大小、长宽、位置等描述性信息。可靠稳定的属性信息可产生极具价值的业务应用。如钢厂板材的长款测量、板材的位置追踪等应用。行为分析:行为是被测目标在特定时间段内产生的动作以及表现出的行为等描述性信息。与属性分析相比时序特性更明显,因此,在技术实现上也更加复杂。可应用至异常行为动作或动作流程检测中。如打架检测、摔倒检测、操作规范检测中。事件分析:事件是对象、属性、行为等要素的综合。事件分析为强业务导向分析,通过AI视频分析引擎建立端到端的事件智能分析。如跨模态视频检索,通过输入对象、属性、行为等文字性描述,检索目标视频。⼆、AI视频智能分析有那些技术?图2.视频内容分析技术1、⽬标检测技术目标检测任务是识别目标类别并定位目标在图像中位置。因此,其解决的问题为是什么?在哪?基于深度学习的目标检测发展近十年,成果颇丰,其中代表性方法包括基于anchor的onestage与twostage方法。下面介绍twostage经典模型Faster-RCNN以及onestage经典模型Yolov5。图3目标检测示意图一阶段与两阶段的区别在于是否需要生成Proposalbox。两阶段模型首先通过RPN网络生成无类别的Proposalbox,再经模型分类Proposalbox类别并精确回归Proposalbox坐标;一阶段模型通过anchor机制直接预测目标类别与目标坐标。两者区别如图4所示。图4.两阶段与一阶段方法架构Faster-RCNNFaster-RCNN网络结构如图5所示,分为stage1与stage2。stage1主要任务是依靠rpn网络生成proposalboxes;stage2主要是任务是对proposalbox进行分类与精确定位。下面介绍其细节。图5.FasterRCNN网络示意图第一阶段:原始图像经backbone提取特征并输出featuremap。backbone为vgg16,经16倍下采样并后接512个3*3*512的filters输出featuremap。featuremap的每个点作为anchorpoint并以此产生3种比例与3种大小的anchorbox,因此,每个featuremap上的每个点处负责预测9种anchor的类别与偏移量。为此,在featuremap后接18个1*1*512的filters,提取18种特征,预测9个anchor为前景或背景的概率;在featuremap后接36个1*1*512的filters,提取36种特征,预测9个anchor的4个坐标。我们在featuremap的每个点上分配了9个anchorboxes。为训练RPN网络中的分类(二分类)与回归,需要对每个anchor进行标注,即标注每个anchorbox为1(前景)或0(背景)以及每个anchorbox的groundtruth的坐标。对于一个60*40的featuremap来说产生的anchorbox为60*40*9=21.6k个,去除边界处越界的框,并经过nms处理剩余6k左右。最后通过每个anchorbox的score得分排序筛选出128个前景与128个背景anchorbox,利用这256个anchorbox进行RPN训练。正样本的选取条件为:a)与groundtruth具有最大IOU的anchorbox;b)与任意的groudtruth的IOU大于0.7的anchorbox。满足a)或b)任意一个条件则可被选为正样本。负样本的选取条件为:与所有的groundtruth的IOU均小于0.3。IOU在0.3-0.7之间的anchorbox忽略不参与训练。经过RPN网络训练,原始图像经RPN网络会输出256个proposal。图6.RPN网络结构图图7.FasterRCNN网络结构图第二阶段:原始图像经RPN网络产生一系列proposalboxes。这些proposalboxes会在backbone所产生的featuremap上提取相应特征,由于每个proposalbox的大小不同,后续网络连接了全连接层因此要求每个proposalbox的输出大小恒定,为此对于每个proposalbox后接ROIPooling模块将每个proposalbox的输出转换为7*7*512后接全连接层用于proposalbox的分类与坐标回归。其训练过程分为四步:第一步:单独训练RPN网络,使用ImageNet分类任务的权重对BackboneCNN网络进行初始化。并且端到端微调用于生成regionproposal(整个RPN网络权重均更新)。第二步:单独训练FastRCNN网络,使用ImageNet分类任务的权重对BackboneCNN网络进行初始化,使用RPN生成的proposal作为输入训练FastRCNN网络(整个FastRCNN网络权重均更新)。第三步:微调RPN网络,利用FastRCNN网络对RPN网络与FastRCNN网络的共享卷积层进行初始化,同时固定共享卷积层,只微调RPN网络独有的部分,完成训练得到最终的RPN网络(只更新RPN网络独有的部分)。第四步:微调FastRCNN网络,利用第三步模型对FastRCNN的共享卷积层进行初始化,同时固定共享卷积层,只微调FastRCNN网络独有的部分,完成FastRCNN网络训练(至更新FastRCNN网络独有部分)。经过以上四步,RPN与FastRCNN共享卷积层保持一致,并独自享有各自的网络部分,完成regionproposal生成与FastRCNN目标检测。总的来说FasterRCNN的核心为RPN网络,解决了传统selectivesearch在候选框生成上的速度问题。并成为两阶段目标检测模型的典范。图8.yolov5结构示意图图9.yolov5训练与推理yolov5的网络结构示意图如图8所示,分为输入层、特征提取层、特征融合层、检测层以及输出层。特征提取层:采用CSP-Darknet53作为Backbone。提取1/8,1/16以及1/32图像特征。其核心主要由CBS算子、C3算子以及SPPF算子构成。特征融合层:采用FPN以及作为特征融合层。YOLO系列将Faster-RCNN网络结构中的RPN是预测是否为前景。Faster-RCNN是在下采样16倍之后的特征图上做RegionProposal的预测。假如统一采用下采样16倍的特征图直接预测目标会导致小目标类别难以预测,原因是16倍下采样率网络层数较浅,用于分类的语义特征不够丰富。而如果为提高小目标语义特征继续下采样特征图,会导致小目标类别与位置预测精度下降,原因是小目标在原图中占的像素少,下采样倍数过大导致在最终的特征图中占的像素非常少,甚至小于1*1(比如20*20下采样32倍为0.625*0.625),因此特征图中用于预测的像素点可能包含其他物体或背景的特征导致类别与坐标预测精度下降。同时对于大目标的预测,深层特征能够提取丰富的语义特征用于其类别判定,但随着网络层数的加深,网络提取的特征感受野大、整体性强,但是局部细节信息不准确,而这些局部的细节特定包含着物体的位置信息,因此,网络层数的加深对于大目标的检测位置信息不够准确。为此,YOLO系列引入了多尺度检测层FPN,下采样率大的检测层感受野大,用于检测大目标;下采样率小的检测层感受野小,用于检测小目标。下采样率小的浅层特征细节与位置信息丰富;下采样率大的深层特征整体与语义信息丰富。在检测小目标时,将深层特征进行上采样并与浅层特征在通道方向上进行叠加;在检测大目标时,将融合后的浅层特征直接下采样并与深层特征在通道方向上进行叠加。特征融合层充分利用深层网络语义特征用于识别;充分利用浅层网络位置特征用于定位。检测层:YOLO在检测层上采用了三种尺度,用于检测大、中、小三种不同尺寸的目标。在三个检测层中,每个检测层特征图上的每个点分配三个不同形状尺寸的anchor,并由检测层在每个点处预测物体类别、物体相对于每个anchor的偏移量,物体相对于anchor的宽与高。对于每个点预测3*(80+4+1)=255种元素。因此,对于20*20,40*40以及80*80的三种检测头,预测输出为8400*3*(80+4+1)=25200*85。其中,80表示80类目标,4为目标相对于anchor中心点的偏移量x,y、目标宽与anchor宽的比例因子w,目标高相对于anchor高的比例因子h,1表示目标置信度。图10.yolov5s-6.0网络结构图yolov5的训练与推理过程如下:训练:训练:定义网络结构yolov5s,m,l,x并获取每张图片的groundtruth;根据anchor与groundtruth确定正负样本并扩充正样本;根据正负样本、网络预测值pred以及groundtruth计算loss;反向传播更新网络参数,设定训练轮数与超参数,完成网络训练,保存网络参数。推理:推理:加载网络模型与权重,输入预测图片;网络前向传播,获取预测结果25200*85;根据置信度阈值0.45过滤部分结果,根据nms对预测结果再次过滤;输出目标检测结果x,y,w,h,c,p。有关正负样本的确定方法如下:有关正负样本的确定方法如下:yolov5的正负样本确定方法不同于Faster-RCNN中的RPN网络以及yolov3中的基于IOU划分方法。其依据的规则为groundtruth与anchor的宽高比,同时一个groundtruth可由多个anchor预测,一方面增加了目标召回的几率,另一方面增加了正样本数量缓解了正负样本不均衡问题。图11.yolov5跨分支预测图12.yolov5跨grid以及跨anchor预测跨分支预测:跨分支预测:不同于yolov3,一个groundtruth只能由一个anchor预测,即也只能通过一个分支预测。yolov5可以通过三个分支同时对目标预测,优势如上述。如图11所示,一个groundtruth最多可由三个分支的anchor同时预测,只要其满足正样本的条件。跨grid预测:yolov5为扩增正样本,以负责预测目标的grid为中心,从其上、下、左、右四个方向选择两个距离groundtruth中最近的两个grid也负责预测该目标。这样预测groundtruth的grid由1个变为3个。跨anchor预测:yolov5采用基于宽高比的匹配策略。记groundtruth宽高与anchor的宽高比为r1,anchor的宽高与groundtruth宽高记为r2。在r1与r2中选择大值记为r。若r<4,则该anchor为正样本。因此,对于1个groundtruth,与之匹配的anchor最多为3*3*3=27个。例如:图12中与红色的groundtruth匹配的anchor有branch1_grid1_anchor1,branch2_grid1_anchor等。2、⽬标跟踪技术目标跟踪的任务是关联时序目标身份,简单的说是当前目标是上一时刻的哪个目标?因此,其解决的主要问题为目标数据关联与匹配。目标跟踪技术应用领域广泛,小到目标计数统计、大到军事精确制导。如图13所示,时刻1检测出两个目标,并记为目标a,目标b;时刻2检测出两个目标,并记为目标a',目标b'。跟踪即判断a'是上一时刻的a还是b,同理判断b'是上一时刻的a还是b。这样对于每个目标分配一个唯一id,相同的目标共享同一id,随着时间推移,相同的目标在时间上与空间上被关联到了一起,每个目标形成一条轨迹。据此可进行业务功能的应用与分析。图13.目标追踪示意图对于目标追踪其核心问题为数据的关联匹配。因此,需要设计一个判断准则来评价两个目标是否相似。总的来说这些方法主要包括:距离相似性度量a.距离相似性度量图14.距离相似性度量示意图距离相似性度量主要以位置、大小、形状、速度等指标,采用欧式距离或马氏距离评价两目标的相似性。对于量纲一致且变量之间独立无相关性的可采用欧式距离。反之,采用马氏距离。外观相似性度量b.外观相似性度量图15.特征相似性度量示意图外观相似性度量采用目标外观特征评价相似性,这些特征主要通过神经网络提取,例如,deepsort提取每个目标的128维特征并采用余弦距离度量其相似性。位置相似性度量c.位置相似性度量图16.位置相似性度量示意图位置相似性度量的另一常用指标为IOU(交并比),两个目标重叠的区域与两个目标集合的区域的比值,可评价两个目标的重叠区域,且为无量纲的指标范围0-1,完全重叠为1,无重叠为0。为熟悉目标追跟实现原理,下面介绍目标跟踪的经典算法deepsort。在介绍之前需了解其前身sort算法。sortsort全称simpleonlineandrealtimetracking,是多目标跟踪算法(mot)。核心思想:基于目标检测结果,采用卡尔曼滤波算法与匈牙利算法关联前后目标,实现跟踪。具体算法流程如下:图17.sort算法流程图概要流程:检测当前帧目标->当前帧目标与上一帧轨迹匹配->预测下一帧轨迹。详细算法整体流程如下:第一步:利用第一帧检测到的Detections创建对应的Tracks,初始化卡尔曼滤波,并基于该帧的Tracks预测下一帧Tracks。第二步:检测当前帧的Detections并与上一帧预测的Tracks进行IOUMatch。得到匹配代价矩阵CostMatrix。第三步:匈牙利算法根据costmatrix对当前帧所有目标的检测框与上一帧预测得到的轨迹框的匹配。匹配结果有三种。第一种,检测框与轨迹框匹配得到MatchedTracks;第二种检测框未匹配到轨迹框得到Unmatcheddetections;第三种,轨迹框未匹配到检测框得到UnmatchedTracks。第四步:对MatchedTracks更新卡尔曼滤波并预测下一帧Tracks;对UnmatchedDetections分配新的Tracks并初始化卡尔曼滤波,预测下一帧Tracks;对UnmatchedTracks直接删除。第五步:重复第二步至第四步,至视频结束。sort算法有什么问题?sort算法只利用了位置、大小、速度等信息的相似性度量,速度快是其优势。但是,其存在同一目标id,切换频繁的问题,即同一目标在跟踪过程中会跟丢。这主要由以下原因造成:第一,目标长时间遮挡,重新出现,造成跟踪丢失。原因,一方面目标经遮挡后重新出现的运动信息与遮挡前预测的运动信息存在差异,无法匹配;另一方面,UnmathedTracks无保留机制已经被删除,重新出现只能重新分配NewTracks.第二,目标漏检,重新检出,ID重新分配。由于检测器的性能,当前帧目标未检出,上一帧Tracks被判为UnmatchedTracks被删除,重新检测的目标只能重新分配新的ID,造成目标跟丢。deepsort为解决长时间遮挡跟丢的问题,提出了deepsort算法。deepsort全称simpleonlinerealtimetrackingwithadeepassociationmetric。相比于sort主要引入了外观相似性度量解决长时间遮挡跟丢问题。在sort基础上增加的部分:MatchingCascade,TracksConfirmed机制。整体流程图如下:图18.deepsort算法流程图概要流程:检测当前帧目标->当前帧目标与上一帧轨迹匹配(MatchingCascade&IOUMatch)->预测下一帧轨迹。详细算法整体流程如下:第一步:利用第一帧检测到的Detections创建对应的Tracks,并初始化卡尔曼滤波,预测下一帧的Tracks。第一帧预测的Tracks状态为Unconfirmed状态,Tracks连续3帧匹配到Detections才转化为Confirmed状态。第二步:检测当前帧的Detections,并与上一帧的Tracks进行IOUMatching,计算两者代价矩阵CostMatrix。第三步:对于UnconfirmedTracks,根据CostMatrix以及匈牙利算法,对Detections与Tracks进行匹配。匹配结果有三种,第一种,Detections与Tracks完成匹配得到MatchedTracks;第二种,Detections未匹配到Tracks,这时为Detections分配一个新的Tracks;第三种Tracks未匹配到Detections,此时由于Tracks一次都没有匹配到Detections,因此,为Unconfirmed状态,直接删除该Tracks。对于MatchedTracks更新卡尔曼滤波,并预测下一帧Tracks;对于NewTracks初始化卡尔曼滤波并预测下一帧Tracks。第四步:反复进行第二步与第三步,至出现ConfirmedTracks或视频结束。第五步:通过卡尔曼滤波预测下一帧的ConfirmedTracks与UnconfirmedTracks。对于ConfirmedTracks,执行MatchingCascade级联匹配Detections与上一帧Tracks。级联匹配策略:外观信息欧式距离与运动信息马氏距离的加权来评价两目标的相似性。对于外观信息,每次Tracks与Detections匹配上,都会保存匹配的Detections的外观特征,每个Tracks最多包含100个最新的历史外观特征,当前帧Detections个Tracks的100个历史外观特征进行欧式距离计算,并取最小的距离作为当前Detection与该Track的外观相似度。对于运动信息,当前帧Detections与上一帧Tracks计算马氏距离。对Detections与Tracks所计算的外观相似度与运动信息马氏距离的加权和作为CostMatrix。在实际的操作中,代价矩阵的计算只利用了外观相似度。根据匈牙利算法对Detections与Tracks进行匹配。对匹配结果,通过Detections与Tracks的外观相似度与马氏距离的乘积门限阈值进行过滤。注意:ConfirmedTracks按照失联匹配的次数从少到多与Detections进行匹配,这样做是因为,失联少的Tracks为最新的Tracks与Detections匹配成功的可能性更大。第六步:执行完成MatchingCascade输出三种状态,第一种,Detections与Tracks完成匹配得到MatchedTracks;第二种,Detections未匹配到Tracks得到UnmatchedDetections;第三种,Tracks未匹配到Detections得到UnmatchedTracks。对于UnmatchedDetections与UnmatchedTracks以及UnconfirmedTracks输入IOUMatch再次进行匹配,输出三种匹配结果。第一种,MatchedTracks,进入下一个循环;第二种,UnmatchedDetections,重新分配NewTracks;第三种,UnmatchedTracks,对于UnconfirmedTracks直接删除,对于ConfirmedTracks判断其失联匹配的次数max_age,如果失联匹配次数大于30次(可定义其他值),认为目标已经从视野消失,将目标轨迹进行删除;如果失联匹配次数小于等于30次(可定义其他值),对失联匹配次数+1,进入下一轮匹配。第七步:反复进行第五步至第六步至视频结束。什么是MatchingCascade?所谓MatchingCascade即级联匹配。通过外观相似性度量与运动信息的马氏距离度量,评价检测目标框与轨迹框的相似性。比如跟踪的行人被障碍物长时间遮挡,当行人走出遮挡物重新出现时,所处的位置与进入遮挡物前的位置可能差异较大,即IOU很低或者为0,IOUMatch是匹配不上的。但是,进入遮挡物前后的行人一般在外表特征上不会发生明显变化,即两者的外表特征相似度高,利用MatchingCascade可以对该种情况的行人进行召回。AI视频智能分析技术与应⽤(⼆)⼆、AI视频智能分析有那些技术?3、动作⾏为识别技术动作行为识别是预测目标在当前时刻或一段时间内的状态。该技术广泛应用至动作识别、流程规范化识别以及视频分类等场景。如校园打架暴力检测、工厂工人操作流程规范性检测、摔倒行为检测等。此外还可用于视频分类。例如,抖音视频、快手视频、百度视频每天上传数以万计的长短视频,这些视频需要进行分类并赋予泛标签,从而进行视频推荐、广告推荐。因此,高效准确的视频理解至关重要。图19.动作行为识别示意图视频识别与图像识别两者的重要区别是是否对时间序列建模。因为,视频是多帧图像的组合,同时具有时间序列特性。比如,开门与关门两个动作,从一个时间方向预测是关门,相反方向是开门。如果不考虑时序特性,仅进行图像融合,神经网络对两个视频动作的预测可能是同一个结果。如图19所示,每个视频片段经解码处理成为单帧图像,对单帧图像进行特征提取获得空间特征,同时采样时间方向建模,获取帧时序特征,最后经过特征融合与分类输出视频类别。这是常规的视频分类方法。对于时序特征的提取,常用的方法包括3D-CNN,RNN,LSTM等。而这些模型参数量大、计算开销大。对于视频分类高效、准确尤为重要,特别是对于算力有限的边缘嵌入式设备的在线视频分析。下面介绍动作行为预测中的典型网络模型TSM(TemporalShiftModule)。图20.TSM模块核心思想:在时间方向上对特征通道数据移动,实现时序信息交换,同时不增加计算成本。解释一下,神经网络对输入张量进行特征提取获取特征图,假设当前帧获取的特征图的个数为C,为了使下一帧能够获取当前帧的特征信息,从当前帧C个特征图中选取一部分(假设C/8)传至下一帧,当前帧的部分特征图(C/8)与下一帧的特征图(7*C/8)共同构成了下一帧的特征图。这样就实现了时序间的信息传递。如图20所示,(b)在时间方向上进行特征移动,即当前时刻的一部分特征移向了前一时刻;一部分特征移向了下一时刻。该移动方式适用于离线的视频分析。(c)在时间方向上进行单向移动,即当前时刻的部分特征移向下一时刻,该移动方式适用于在线视频分析。问题1:为什么TSM不增加计算成本?卷积操作可以分为移动与乘积两部分操作。移动是常规的指针偏移操作几乎不消耗计算量;卷积核与张量的乘积耗费计算量。因此,TSM选择在通道方向上的移动操作,既降低了计算量,同时实现时序特征交换。问题2:TSM移动的特征图比例多少合适?如果移动的当前帧的特征图比例过多,虽然不会增加计算量不会产生计算耗时,但是会涉及到数据在内存中的移动,这部分移动也会增加耗时。数据移动量越大,耗时越大。同时特征图移动比例过大,会造成当前帧特征图空间建模能力下降。为此,对于双向移动的TSM模块,比例选择1/4,即每个方向上移动1/8特征图;对于单向移动的TSM模块,比例选择1/8。经测试,该比例下的预测精度高,同时由于数据移动产生的耗时低。问题3:TSM模块特征提取放在什么位置?TSM模块提供了两种插入位置,一种是放到残差网络之前,另一种是放到残差分支中。对于第一种,如图21(a),该方式将时移特征作为主干特征,残差分支与直连分支均基于主干特征操作。该方式会损坏当前时刻特征的空间学习能力,特别是时移比例较大的情况。对于第二种,如图21(b),该方式将时移特征插入至残差分支,不仅能够保留原始空间特征,同时能够学习到时移特征,解决了方式第一种特征学习能力不足导致的网络退化问题。图21.TSM模块类型如图22所示,当前层的FeatureMapX经时移操作得到新的特征图Shift,后接卷积操作得到的结果与输入X进行Add操作,从而得到输出。图22.ResidualTSM可自定义对特征提取网络的某些层,实现ResidualTSM,并将时移特征传递至下一时刻。图23.TSM在线预测网络结构TSM在线预测推理过程如下:简单的说,对于每一帧,保存残差块的前1/8个特征图至缓存中。下一帧将当前特征图的前1/8用缓存中的特征图代替,1/8的旧特征图与7/8的当前特征图组合生成下一层,并重复该过程。第一步:将当前时刻该层的特征图的前1/8用缓存中旧的1/8来代替,并将1/8旧特征图与7/8当前特征图组合生成至下一层;第二步:当前时刻的下一层,重复第一步的方法,依次循环完成当前时刻所有残差层的特征图更新,同时完成缓存更新。第三步:对于历史前N个时刻的logit输出进行平均,输出这N个时刻的所构成的视频片段的预测结果,完成动作预测。TSM通过时间维度上的特征移动实现了不同时刻特征信息的交换与融合,同时基于多个时刻预测值的均值预测类别,兼顾了速度与性能,为视频分类经典模型。4、时序动作定位技术时序动作定位简称TAL(TemporalActionLocalization)是视频理解中的重要分支。其解决的主要问题为,定位动作发生的开始时刻与结束时刻。TAL技术应用广泛,如流程性动作的始末点分析;海量视频的智能剪辑;广告的智能检测与插播等场景都离不开时序动作定位技术。比如机场中通过TAL技术来定位飞机在什么时间段完成了什么节点动作,电视台通过TAL技术鉴别广告播放与结束时刻,从而进行目标广告植入。图24.时序动作定位示意图如图24所示,时序动作定位核心问题为在时间方向上预测动作的起点与终点,同时给出起点终点之间的视频类别。图25.时序动作定位方法怎样预测起止点与动作类别?怎样预测起止点与动作类别?滑窗法预测起止点与类别,最直接的方法是给定不同大小的滑窗,在时序视频上进行滑动,然后判断滑窗内的动作类别。图26.滑窗法时序动作预测候选框预测法类比于两阶段的目标检测算法,第一阶段通过RPN网络生成候选框,第二阶段对候选框进行分类与坐标修正。基于候选框法的时序动作定位遵循类似的思路。首先,原始视频经2DCNN或3DCNN提取1D卷积特征;其次,通过模型生成动作候选区间,最后预测每个候选区间内动作类别,并对候选区间进行修正。图27.候选框预测法滑窗法与候选区间法,本质上都是基于预先设定的区域间框对区间内动作类别进行预测,同时修正区间边界。这类方法统称为自顶向下方法。听着很熟悉,没错,类似于姿态识别当中的自顶向下方法。受限于预先设定的窗口,所定位的动作的起止位置不够准确。起⽌点预测法起止点预测法属于自底向上的预测方法也称作localtoglobal先局部后整体。首先,通过局部特征预测动作的开始时刻与结束时刻;其次,将开始时刻与结束时刻合成候选区间;最后,预测候选区间内的动作类别。图28.BSN网络结构下面介绍自底向上时序动作定位算法BSN(BSN:BoundarySensitiveNetworkforTemporalActionProposalGeneration)该方法主要分为以下三步:第一步:BSN在视频片段的每个时间点上预测输出一个动作开始的概率,结束的概率以及当前时间点属于某个动作的概率,同时生成<startprob,endprob,actionprob>时间序列作为局部信息;第二步:使用localtoglobal方式组合高概率值的开始点与结束点,生成不同大小,不同边界准确性的proposal;第三步:利用proposallevel特征来评估每个proposal的置信度,并从第二步中检索出高置信度的proposal。随着自注意力Transformer在图像分类、目标检测中表现出的强大能力,在时序动作定位中也产生了令人印象深刻的性能,并出现了如ActionFormer等模型,鉴于篇幅限制,暂不做详细介绍。什么是视频内容检索?5、视频内容检索技术什么是视频内容检索?视频内容检索即通过检索关键词、图片、视频从海量视频底库中检索出目标视频。本质上是向量检索,即对底库视频进行数字化编码形成能表征视频特征的向量T,同时对检索内容进行向量数字化编码形成检索向量S。检索即通过特征比对从海量底库视频T中检索出检索出S。能检索什么?能检索什么?视频内容检索区别于传统的基于关键词的检索,是一种新型的内容检索方式,更符合用户习惯与用户检索需求。视频内容检索可检索视频文字、视频目标、相似内容视频、相似语义视频。应用场景?应用场景?该技术广泛应用至数字资产管理、海量视频检索、视频侵权检测以及视频推荐系统中。单从检索精度上来说,涉及两个问题:问题1:如何有效对视频内容进行向量化形成Embedding?问题2:如何度量检索S与底库T之间的相似性?图29.视频内容Embedding方法如图29所示,对视频进行Embedding的方法大致分为三类:第一类:基于内容的Embedding该类方法主要采用特征提取网络对视频中序列帧进行向量化编码,形成2048或768维度的向量。通过非时序或时序网络提取每帧特征,同时进行特征融合形成表征该视频特征的全局Embedding。同时,细粒度的内容Embedding还包括视频中的目标、人脸、文字Embedding。第二类:基于语义的Embedding该类方法主要采用视觉编码器如ResNet50,Vit-Base/32等对视频中的图片进行Embedding。在此基础上通过映射网络将视觉特征映射至语义空间,得到每帧图片的语义Embedding。其中映射网络通过CLIP/ChineseCLIP训练得到,即通过数亿对的图文对训练获取。第三类:基于结构化的Embedding该类方法主要采用视频图像中的结构化数据进行Embedding。比如页面点赞量、收藏量、关注量信息、用户的观看时长、是否评论等行为信息对视频进行Embedding。在推荐系统中应用居多。图30.视频内容检索方法如图30.视频内容检索方法根据模态的不同可分为同模态检索与跨模态检索。同模态检索表示检索内容与底库内容形式相同(同为文本、图片、视频),跨模态检索表示检索内容与底库形式异同(文本->视频),相似性对量方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论