T-AI 127.6-2024 信息技术 视觉特征编码 第6部分:结构点序列_第1页
T-AI 127.6-2024 信息技术 视觉特征编码 第6部分:结构点序列_第2页
T-AI 127.6-2024 信息技术 视觉特征编码 第6部分:结构点序列_第3页
T-AI 127.6-2024 信息技术 视觉特征编码 第6部分:结构点序列_第4页
T-AI 127.6-2024 信息技术 视觉特征编码 第6部分:结构点序列_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

团体标准Informationtechnology-Visualfeaturecoding-中关村视听产业技术创新联盟发布I III Ⅲ 1 1 1 2 2 2 3 3 3 3 4 6 7 10 12 12 16 20 22 23 23 24 25 26 27本文件按照GB/T1.1-2020《标准化工作导则第1部分:标本文件由新一代人工智能产业技术创新战略联盟AI标准工作——第1部分:系统。目的在于设计特征编码系统,提供整合特征码流的规范,实现特征高效交互——第2部分:手工设计特征。目的在于确立适用于传统手工设计特征的表示与压缩标——第3部分:深度学习特征。目的在于确立适用于从深度学习模型中提取的高维特征向量的表示——第4部分:深度特征图。目的在于确立适用于从深度学习模型中提取的通用深度特征图的表示——第5部分:语义分割图。目的在于确立适用于语义分割图的高效表征与无损压缩标准。——第6部分:结构点序列。目的在于确立适用于结构本文件的发布机构提请注意,声明符合本文件时,可能涉及到6、7与《用于视频中的人体骨多模态无损压缩实现方法》(专利号:CN111641830A6、7与《基缩及还原方法及系统》(专利号:CN106295561A)相关专利的本文件的发布机构对于该专利的真实性、有效性和范围无任该专利持有人已向本文件的发布机构保证,他愿意同任何申请人在合理且无歧视的下,就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案,地址:上海市闵行区东川路800号上海交通大学闵行校区电院群楼1号楼,邮编:2通讯地址:上海市闵行区东川路800号上海交1信息技术视觉特征编码第6部分:结构点序列本标准规范了视频中的多种结构点序列的表征格式,设计了对于结构点序列进行无损结构点序列structurepointseq文的图示中,父子结构点使用箭头连接,箭2前序参考帧formerreferenc若当前帧与前一帧都是非关键帧,那么前一帧的参考帧为当前帧的前4缩略语5.1概述5.2算术运算符+-3×a/整除运算,沿向0的取值方向截断。例如,7/4和b5.3逻辑运算符!><5.5位运算符&|~将a以2的补码整数表示的形式向右移b位。仅当b取正数将a以2的补码整数表示的形式向左移b位。仅当b取正数5.6赋值4=5.7位流语法、解析过程和解码过程的描述方法5.7.1位流语法的描述方法正文中用不带下划线的小写字母和大写字母混合命名。大写字母开头的变量用于解码当前语法元素值的助记符和变量值的助记符与它们的值之间的关系在正文中说明。在某些位串的长度是4的整数倍时,可使用十六进制符号表示。十六进制的前缀是“0x”,例如“0x1a”表示位串“00011010”。ue(v)/*花括号括起来的语句组是复合语句,在功能上视作单个语句。*/{…}/*“while”语句测试condition是否为TRUE,如果为TRUE,5则执行alternative语句。如果alternative语句不需要执行,结相关的alternative语句可忽略if(condition)for(initialstatement;co根据A矩阵的数值选取当前结构点最优的编码模式,对于待编码的结构点j,如果其6MedianEncode()5.7.3描述符ue(v)5.7.4保留、禁止和标记位本部分定义的位流语法中,某些语法元素的值被标注为“保留”(reserved)或“禁止”“禁止”定义了一些特定语法元素值,这些值不应出现在符合本部分的位流中。“标记位”(marker_bit)指该位的值应为‘1’。处理应忽略这些位。“保留位”不应出现从任意字节对齐位置开始的217StructureSequenceExteversion_IDue(v)ue(4)ue(v)ue(v)ue(v)ue(v)encode_order[]=InitEncodeOrder(spatial_reference_order[])for(frame_num=0;frame_num<total_frame_num;frame_num+=frif(frame_num%intra_frame_ratio==0{/*关键帧,用空间自for(pos_info_buffer=0;pos_info_buffer<total_pos_in_fram}}for(pos_info_buffer=0;pos_info_buffer<total_pos_in_frfor(point;point<key_point_num;ppoint_to_be_encode=encode_order[poencode_mode=BestModeChoose(MVEncode()MVREncode()8}}}}}}结构点编码顺序数组解析函数如下表所示。此表通过输入的结构点空间依赖关系数组encode_order[]。其关系见7.1.3,解析过程if(spatial_reference_order[point_parent]==-1point_parent++;point_child++;if(spatial_reference_order[point_child]==}break;encode_order[j++]=spatial_reference_order[p}}对于非中心结构点,编码其相对于其父结构点的位置残差值for(point=0;point<key_point_num;point_to_be_encode=encode_order[point]9if(point_to_be_encode==encode_ores=point_to_be_encode-parent_str}}}运动矢量MV_central;对于非中心结构点,先借助MV_cenif(point_to_be_encode==encode_opred_MV=point_to_be_encode_ref+MV_centralres=point_to_be_encod}}运动矢量MV_central;对于非中心结构点,先后借助MV_centralif(point_to_be_encode==encode_opred_MV=point_to_be_encode_ref+MV_centralpred_MVR=pred_MV+resres=point_to_be_encode–}}1基于线性预测的帧间差分模式编码定义见表13。结构点的预测值由其在前序参考帧和MV_ref=point_to_be_encode_ref-point_to_be_encode_ref_refpred_li=point_to_be_encode_ref+MV_refres=point_to_be_enco}res=point_to_be_enco}WriteBoneExist(){if(all_point_exist_f}无符号整数。表示编码结构点序列时所启用的编码模式,编码时会从启用的选择。具体取值见表16。如果要采用多种模式混合的方式编码,则将每个模式对应的值相model_ID的值空间依赖关系数组spatial_reference结构体pos_info_buffer1当前结构点前序运动矢量MV_ref待编码的结构点point_to_be_e参考点point_to_be_encode_ref前序参考点point_to_be_encode_ref_ref位置预测值(从相对运动矢量)pred_M待编码结构点在基于线性预测的帧间差分模式下待编码结构点在基于中值预测的帧间差分模式下结构点存在标志all_point_ex本部分适用于结构点序列的编码。结构点是指在视觉任务中对目标事物具有特征标识检测框的四个角点即可被视为结构点;在人群流量统计中,人物的2D检测框角点和骨骼点b)当前帧中结构体的个数total_pos_inc)结构点个数key_point_numf)结构体的缺失标志数组point_exist_info[为了能够让代码成功解析输入的结构点序列并进行编码,规定结构点序列的输入格式1视首个结构体首个结构体最后一最后一个结最后一个结构频结构体的结构点坐……个结构构体的缺失体的结构点坐标标00……910……920……N92……当结构体在视频序列中消失后重新出现时,也应当保持结构点空间依赖关系数组spatial_refe在树中的父子结点关系以相同方式确定。此时将此结构体的结构点序列视作一棵树。c)向结构点空间依赖关系数组中添加-1作为标识符。d)将中心结构点视作父结点。e)向结构点空间依赖关系数组中按树的层次遍历顺序添加父结点的全部子结点序号。g)循环第5-6步,直到父节点为树的第一个最深层见图3a),最终得到结构点的空间依赖关系数组为spatial_reference_order[]=[1,-1,0,2,8,11,5,-1,-1,3,-1,9,-1,12,-a)人体骨架结构点结构体b)以树表示的人体骨架结构体1直接的情形,空间依赖关系数组可以按照结构点序号顺序生成为spatial_reference_order[]=[0,-1,1,-1,2,-1,3,-1,4,-1,5,-1,6,-1,7,-1,8,-1,9,-1,10,-1,11,-1,12,-1,13对于不同结构点,会根据A矩阵判断具体采用的帧间编码模式。帧间编码模式:基于运动矢量的帧基于运动矢量的帧间差分模式是指首先用有符号哥伦布编码方法编码该结构体的中心将MV_central(t)应用到目标结构点以得到预测值,再用熵编码方法编码目标结构点的预测所述的MV_central(t)计算见式(1此处以2D结(MV_centralx(t),MV_centraly(t))=EQ\*jc3\*hps15\o\al(\s\up4(c),ID)EQ\*jc3\*hps15\o\al(\s\up4(c),ID)EQ\*jc3\*hps15\o\al(\s\up4(c),ID)EQ\*jc3\*hps15\o\al(\s\up4(c),ID)EQ\*jc3\*hps15\o\al(\s\up4(c),I)EQ\*jc3\*hps15\o\al(\s\up4(c),I)xEQ\*jc3\*hps15\o\al(\s\up4(c),I)D(t1)——第t-1帧该结构体中心结构点的横坐标值;EQ\*jc3\*hps15\o\al(\s\up4(c),I)以第j个结构点为例,首先利用第t-1帧该结构点的坐标位置和MV_central(t)计算出其(predMVxEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predMVyEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t))={(XEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t1)+MV_centralx(t),YEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t1)+MV_centraly(t))|j∈Sc}.(2)(resXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),resYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))={(XEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)pred_MVXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),YEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)pred_MVYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))|j∈Sc}.(3)帧间编码模式:基于运动矢量的相对帧间基于运动矢量的相对帧间差分方法建立在基于运动矢量的帧间差分方法的基础上,充(predMVRXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predMVRYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t))={(pred_MVXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)+res_parentXEQ\*jc3\*hps15\o\al(\s\up5(P),ID)(j)(t),pred_MVYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)+res_parentYEQ\*jc3\*hps15\o\al(\s\up5(P),ID)(j)(t))|j∈Sc},p(j)——取j的父结构点。(resXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),resYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))={(XEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)pred_MVRXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),YEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)pred_MVRYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))|j∈Sc}.(5)帧间编码模式:基于线性预测的帧(MVrefxEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),MVrefyEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t))=EQ\*jc3\*hps15\o\al(\s\up5(j),I)EQ\*jc3\*hps15\o\al(\s\up5(j),I)EQ\*jc3\*hps15\o\al(\s\up5(j),ID)EQ\*jc3\*hps15\o\al(\s\up5(j),ID)(predlixEQ\*jc3\*hps16\o\al(\s\up5(j),I)D(t),predliyEQ\*jc3\*hps16\o\al(\s\up5(j),I)D(t))={(XEQ\*jc3\*hps16\o\al(\s\up5(j),I)D(t1)+MV_refXEQ\*jc3\*hps16\o\al(\s\up5(j),I)D(t),YEQ\*jc3\*hps16\o\al(\s\up5(j),ID)(t1)+MV_refYEQ\*jc3\*hps16\o\al(\s\up5(j),ID)(t))|j∈S}.(7)(resXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),resYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))={(XEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)—pred_liXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),YEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)—pred_liYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))|j∈S}.(8)帧间编码模式:基于中值前帧该结构体中每个结构点的坐标预测值,在每个维度上,取三者再用熵编码方法编码各结构点的预测值和真实值的残差。见predmeXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)=Mid{predMVXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predMVRXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predliXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)|j∈S}.(9)predmeYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)=Mid{predMVYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predMVRYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predliYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)|j∈S}.(10)(resxEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),resyEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))={(xEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)—pred_mexEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),yEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)—pred_meyEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)基于多模式的编码方法的总体思想是以结构体的各个结构点为编码单位(即同一结构矩阵元素aID(t)[i][j]代表对于第t+1帧中编号为ID的结构体的j结构点使用第i个帧间编码模式的预估压缩效果。首先使用第i种间编码模式计算得到当前帧中结构点j的压缩占用比特,赋给aID(t)[i][j]:1.如果j结构点是中心结构点:aID(t)[i][j]由aID(t)[i][j],aID(t—1)[i][j],…,aID(t—t0)[i][j]加权计算得到。其中t0最大取4。如果由于先前某一帧tk该结构体不存在导致aID(ttk)[i][j]不存在,则t0=tk-1。{aID(t)[i][p(j)],aID(t)[i][j],aID(t—1)[i][j],aID(t—2)[i][j],aID(t—3)[i][j],aID(t4)[i][j]}对应的原始权重为M={0.2667,0.2667,0.1778,0.1333,0.0889,0.0667}。当某种举例如下:如j结构点不是中心结构点,且仅在参考帧中出现了该结构体,在前序参考aID(t)[i][j]=aID(t)[i][p(j)]+aID(t)[i][j]+aID(t—1)[i][j],(12)键帧中的结构点均采用空间自差分模式编码保证独立可解,对于非关键帧中的结构点则采2第第t帧开始N,ID=0,j=0ID=N,ID=0,j=0ID=ID+1,j=0ID=ID+1,j=0Y结构体新出现?编码新结构体Y结构体新出现?编码新结构体标志N结构体相比上一帧未移动?结构体相比上一帧未移动?Y初始化结构体的A矩阵为零矩阵。结构体号:IDj=j+1Nj=j+1根据根据A矩阵选择模态结构体号:ID结构点号:j编码跳过编码跳过结构体标志使用帧内自差分编码结构体号:ID结构点号:j使用选定模态编码使用选定模态编码结构体号:ID结构点号:jN当前结构体所有N当前结构体所有结构点编码结束?更新A更新A矩阵直接拷贝A矩阵更新A更新A矩阵结构体号:ID结构点号:jNYYN当前结构体所有N当前结构体所有结构点编码结束?YN第YN第t帧所有结构体编码结束?N第tN第t帧所有结构体编码结束?Y第第t帧结束数控制编码器跳帧的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论