




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
视音频压缩编码技术的发展北京广播学院信息工程学院电视工程系张琦视音频压缩编码技术的发展北京广播学院信息工程学院电视工程系张1主要内容
一、数码率压缩编码基本技术
二、现在应用的国际压缩标准
三、MPEG编码标准的比较
(一)MPEG-1(二)MPEG-2(三)MPEG-4(四)MPEG-7(五)MPEG-21主要内容一、数码率压缩编码基本技术二、现在应用的国际压2一、码率压缩编码基本技术1、信源的数码率和压缩的必要性数字电视信号要求大容量存储器,传输数据率高。4:2:2采样,8bit量化时,为:216Mb/s,1GB硬盘存:1GB/27MB=37s的节目。结论:要使数字电视信号适合于实际存储和传输,必须压缩数据量,降低传输数据码率。前提:压缩后图象质量要满足视觉要求。一、码率压缩编码基本技术1、信源的数码率和压缩的必要性32、信源码率压缩的可能性信源数据存在各种冗余信息1)空间冗余:相邻象素、相邻行信号的相关性;2)时间相关冗余:相邻帧信号的相关性;可压缩内容:冗余量信息论表述:信息量=数据量-冗余量;注:冗余—多余的、重复的。
2、信源码率压缩的可能性信源数据存在各种冗余信息4信息已经成为经济的战略资源,而数据压缩成为多媒体信息处理的关键技术。在多媒体的传输和处理中还有许多问题需要进一步解决。例如,如何提高网上传输图像和视频的质量,如何通过网络在世界范围进行信息交换?解决这些问题仍需要提高压缩编码效率、分级和实用的转码方法。
3、压缩编码的意义信息已经成为经济的战略资源,而数据压缩成为多媒体信息处理的关54、MPEG码率压缩编码方式预测编码,变换编码,熵编码。(1)熵编码:是无损编码。熵编码要预先知道或估测不同事件出现的概率。熵编码对出现概率大的事件用短码字编码,反之用长码字编码,使事件的平均码长缩短,实现码率压缩。
4、MPEG码率压缩编码方式预测编码,变64、码率压缩编码方式(2)预测编码1)帧内预测编码
将当前像素实际值与其预测值的差值进行量化编码称为预测编码。预测值由同一行前面的相临像素和上面相临行的相关像素来产生时,称为二维预测。二维预测可去除空间冗余。预测精度越高,编码效率越高。4、码率压缩编码方式(2)预测编码1)帧内预测编码将74、码率压缩编码方式预测编解码系统框图解码器编码器
输入Xe0e0′
e0′QD1DNIQD1DNIQ4、码率压缩编码方式预测编解码系统框图解码器编码器输入X84、码率压缩编码方式2)帧间预测编码帧间预测可去除空间冗余,差值概率分布更集中在0附近,可获更大压缩比。帧差信号帧间预测框图运动估计运动补偿帧存量化器反量化运动矢量,去接收端预测帧—链图4、码率压缩编码方式2)帧间预测编码帧差信号帧间预测框图运94、码率压缩编码方式3)预测编码的意义:画面上大部分是亮度变化缓慢的平坦部分和慢运动部分,空间和时间相关性强,差值信号很小;大部分差值集中在0附近,传送差值信号减小了原数据幅值范围。原图像信号的幅值分布概率均匀,而且差值的概率分布很不均匀,这就为后面的熵编码创造条件。
4、码率压缩编码方式3)预测编码的意义:10差值与原图象的概率分布4、码率压缩编码方式差值与原图象的概率分布4、码率压缩编码方式114、码率压缩编码方式(3)变换编码变换编码,把空间域描写的图象变换到一个正交的变换域。空域的一个N×N个象素像块变成变换域的N×N变换系数块。
变换仅是表示方法的变换。原象块中的象素之间相关性很强;而变换系数能量集中在直流和少数低频系数上,降低了冗余度。例,二维傅立叶变换,将空间域变换到频域,在水平和垂直方向上进行频谱展开。下图表示4、码率压缩编码方式(3)变换编码12
水平方向8个像素数据从时域到频域的变换:图像信号被分解成为直流、低频到高频各种余弦成分;
DCT系数表示各频率幅度的大小;
水平方向8个像素数据从时域到频域的变换:图像信号被分解成13
变换编码的基本系统:在存储器中将图象分成8×8的块,将块从空域变换到频域得8×8个系数F(u,v)。
量化:对DCT系数进行量化,低频系数细量化,高频系数粗量化,并4舍5入,忽略接近或等于0的高频系数。将64个量化后系数进行游程编码,再VLC编码。接收端经解码、反量化和反变换恢复图像块。4、码率压缩编码方式变换编码的基本系统:4、码率压缩编码方式14变换编码系统框图分块DCT变换量化编码解码反量化反DCT变换块组合输入数据接收输出信道4、码率压缩编码方式变换编码系统框图分块DCT量化编码解码反量化反DCT变换块输15图像内容
DCT变换例返回922-150-25-5-6-12-6-1-208-10624133-29312-32-1-20-191-3-633320-5-4212000-4651421-11-24-1143010230-3-1DCTDCT52100000000000000000000000000000000000000000000000000000000-158-4-100100图像内容DCT变换例返回922-150-25-5-6-116DCT分块90blocks(720pixels)72blocks(576pixels)8pixels1DCTblockYsignalinoneframe8pixelsDCT分块90blocks(720pixels)17C(u),C(v)=1/u,v=0C(u),C(v)=1u,v≠0f(x,y):变换前像素数据F(u,v):变换后的系数空域数据频域数据LeftRightUpperLowerLowHighLowHighxyuvTransformF(u,v)=(2/8)C(u)C(v)ΣΣ[f(x,y)COS{πu(2x+1)/16}COS{πv(2y+1)/16}]DCT(DiscreteCosineTransform)x=0y=077
每个系数都由原64个像素算出C(u),C(v)=1/u,v=0C18二维DCT的反变换(IDCT)
x,y=0,1,…,N-1每个重建像素幅值都由64个DCT系数算出二维DCT的反变换(IDCT)x,y=0,1,…,N198×8亮度块的DCT变换、量化例
0i70u7j7dav7v7量化
DCT变换
0u70u7v798929580758268509791947974816749958992777279654793879075707763459185887368756143898386716673594187818469647157398579826762695537591106-1828-3414183350000000-1000000030000000-1000000000000000-10000000000000004010-22–1000300000000000000000000000000000000000000000000000000000001611101624405161121214192658605514131624405769561417222951878062182237566810910377243555648110411392496478871031211201017292959811210010399bc量化表8×8亮度块的DCT变换、量化例0i20二维DCT变换的基图象二维DCT变换的基图象21去空间相关性去空间相关性228×8亮度块的DCT反变换、反量化处理例
e反量化后的DCT系数f反DCT,重建像素样值g重建样值与原始值之差
591110–2032–24000360000000000000000000000000000000000000000000000000000000
98979081807967509796898079786649959487787777644793928576757462459089827472725943888780717069574086857870686855398584776967675438
0–55–1–53100–55–1–53100–55–1–52100–55–1–53101–46–1–43201–460-44211–46–1–43200–55–2–521-1e
f
g8×8亮度块的DCT反变换、反量化处理例5911123DCT系数的量化
DCT本身并不能进行码率压缩,DCT只是降低相关性(冗余度)。数据压缩从量化开始。量化对每个系数分别用大于1的数去除,对除得到的系数取整数,人眼对低频敏感,对高频不太敏感,对低频分量采取细量化,对高频分量采取粗量化,高频分量会多数变0。丢弃低能量高频系数不影响重建图像的主观质量。改变量化系数可改变压缩比。量化是有损压缩,产生块效应DCT系数的量化DCT本身并不能进行码率压缩,DCT24块效应块效应25ACcomponentsaredividedby2DC2222222222222222222222444444444444444444444ACcomponentsaredividedby4LowHighLowHigh自适应量化例SensitiveforhumaneyesLesssensitiveforhumaneyes2、4:量化系数ACcomponentsaredividedby226自适应量化结果AdaptiveQuantization自适应量化结果AdaptiveQuantization27量化系数的实际确定方法量化系数的获得过程:根据对大量能代表电视节目素材的各种图像序列进行主观评价的结果,对大量的量化系数进行优化,使图像的主观损伤最小,最后确定一系列具有代表性的量化系数。量化系数选择:根据应用目的、性能、低延时、复杂度和价位等要求,在一些系数中选择。量化系数的实际确定方法量化系数的获得过程:28231-74-12-1-1-2-10-102-5101000-137000000-400-100000-1-1000000-11000000000000000000000Zig-zag扫描之字形扫描231-74-12-1-1-2-10-102-510100029231-74-12-1-1-2-10-102-5101000-137000000-400-100000-1-1000000-11000000000000000000000EOB(EndOfBlock)EOBEOBistransmittedinsteadofzeros231-74-12-1-1-2-10-102-510100030游程长度编码(RLC)为解决连0的表达方式采用游程编码。在量化的DCT交流(AC)系数中,将每一串连0系数与其后面的一个非0系数组成一个数组,并用一对符号表示:
符号1符号2
(游程长度Run,位长)(幅值)游程长度:非零系数前连0的个数;
幅值:非零系数值。
例如,下图
其游程长度编码结果:
(25),(0,4)(10),(0,2)(3),(2,2)(-2),(0,2)(2),(7,1)(-1),(0,0)
第一个数是直流(DC)系数。游程编码使64个系数只需7对符号,用7个码字表示即可。
游程长度编码(RLC)为解决连0的表达方式采用游程编码31游程长度编码(RLC)图返回游程长度编码(RLC)图返回32
信息:反映客观事物的存在状态或变化规律。信息量:香农信息论:信息量=数据量-冗余量,与事件出现的概率有关。从N个概率相等的事件中选出一个事件所得的信息量信息熵:若N个事件(符号)中的每个事件之概率不相等,则每个事件所含的信息量不等,并由其概率决定,概率小者信息量大。每一个事件所携带的平均信息量称为熵(H)。熵编码,是可变长编码。通过合理的比特数分配使信号字长与概率相匹配,对概率大的符号给短码,对概率小的给长码,以缩短平均字长。(5)熵编码比特信息:反映客观事物的存在状态或变化规律。(5)33霍夫曼编码游程编码后的熵编码多用霍夫曼编码(VLC)。编码标准提供霍夫曼码表,根据游程编码得到的符号直接查表,得到相应的码字。
码表是根据概率分布并对大量典型图像素材进行统计制成的霍夫曼编码游程编码后的熵编码多用霍夫曼编码(VLC)。34游程编码后的熵编码对符号1中的数据,从亮度和色度的系数码表查出霍夫曼码;符号2中的数据仍用自然二进数编码,也称可变长整数(VLI)编码,码字长度也是可变的;直流系数DC采用与相邻像块DC的差值编码;对前面图中的游程编码结果进行熵编码,结果是:11011001101110100111111110010101101111101001010图游程编码后的熵编码对符号1中的数据,从亮度和色度的系数码表查35压缩比计算
以上由64个像点样值编码所得数据的总位数是47。可用抽样位率表示压缩程度,即用平均每个像点占用多少位来表示。对于此8×8像块的抽样位率计算如下:也可以用压缩比CR来度量压缩程度。本例按原图象用8比特量化的8×8像块计算,可得压缩比为:压缩比计算以上由64个像点样值编码所得数据的总位数是47。36视频缓冲校验器
一个编码器输出的数据流码率不是恒定的,输出码率高低取决于:量化步长、原图象的复杂度。向通道馈送的码率必须是恒定的。视频缓冲校验器作用:编码器输出必须有一个视频缓冲校验器VBV,暂存码率不恒定的输入数据流,受控以恒定码率向通道输出压缩数据流,起缓存数据和平滑码率的作用。码率控制:用缓存状态控制量化器,调整量化步长,防止缓存溢出。视频缓冲校验器一个编码器输出的数据流码率不是恒定的,输出37TM5SRC码率控制TM5SRC码率控制38DCT压缩编码简图DCT压缩编码简图39多媒体数据能被压缩多少?估计图形:100000:1?视频10000:1?(据人的视觉系统输入输出比)图像:2500:1?一画含千音(3MB:2KB)语音:1000:1?(据抽样频率40K和每秒说的字数比)文字:3:1?(据信息论统计)现实VCD:51:1(61:1.2)DVD:50:1(249:5)HDTV:75:1(1493:20)可视电话:78:1(4977:64)多媒体数据能被压缩多少?估计40二、现在应用的国际压缩标准1、ITU-T制定的:
H.261,用于ISDN环境,电视会议、可视电话等;
H.263,瞄准极低码率;
H.263+是H.263的扩展,提高了压缩效率,增强了功能;
H.263++和新近制定的H.26L,提高压缩效率的同时,还提高了容错能力,数据率可低到28~128kbps,用于无线通讯、互联网视频会议、远程监控等。(CIForQCIF)2、ISO/IEC制定的:
JPEG,连续色调静态图像压缩编码标准;
MJPEG
,用于连续的静止图像序列压缩编码;二、现在应用的国际压缩标准1、ITU-T制定的:41JPEG-2000(JPEG-2),用于
数码相机、网络传输、
医疗、
传真、扫描和打印等静止图像编码标准;
MotionJPEG2000,低比特率视频编码,基于小波变换;
压缩率比JPEG高约30%。
JPEG2000(1:137)JPEG(1:137)JPEG-2000(JPEG-2),用于数码相机、网络传42视频图像格式一览表视频图像格式一览表43二、现在应用的国际压缩标准MPEG-1,用于数字存储媒体的活动图象和伴随音频的压缩编码标准。MPEG-2,活动图象及其伴音的通用编码标准MPEG-4,基于音视频对象的编码标准H.26L,ITU-T称H.264,IEC14496-10AVC
MPEG-4的新视频编码标准,ITU-T和MPEG联手制定。MPEG-7,多媒体内容描述接口。对多媒体信息检索制定的标准。MPEG-21,将不同的协议、标准、技术等集成在一起,称为集成的统一多媒体框架。目标是建立一个交互的多媒体框架二、现在应用的国际压缩标准MPEG-1,用于数字存储媒体的活441992年11月形成国际标准,用于数字存储媒体的活动图象和伴随音频的压缩编码。
输入图像标准是SIF:25帧,360×288(PAL);30帧,360×240(NTSC);4:2:0抽样。只规定了逐行扫描的句法,不能用于隔行扫描。码率可达1.5Mbps。MPEG-1不能提供分级编码,也不适合在传输条件差的环境中应用。解码后的SIF分辨率图像扩展到全屏幕,得到的图像质量和VHS相当。应用于CD-ROM交互,VCD立体声的编码达到CD质量。标准分五个部分:系统,视频,音频,一致性测试,参考软件三、MPEG编码标准的比较
(一)MPEG-1标准
1992年11月形成国际标准,用于数字存储媒体的活动图象和伴45MPEG-1音频编码标准
音频部分只允许单声道和立体声;定义了48kHz、44.1kHz、32kHz三种采样频率;三层编码(LayerⅠ,Ⅱ和Ⅲ)数据率分别为192、128、96kbps,MPEG-1的音频LayerⅢ简称MP3。MPEG-1标准的应用情况:VCD、CD-ROM;PC的音视频格式;Windows95/98/NT的MPEG-1软件解码器;
在欧洲和加拿大数字音频广播(DAB);网络交换音乐的编码广泛应用MP3文件。MPEG-1音频编码标准
音频部分只允许单声道和立体声;定46分块:视频采用基于块的混合编码;时间预测:对活动图像序列进行帧间预测;运动估计和运动补偿:减小预测误差;DCT变换:对预测差值进行DCT变换;空间预测:去空间冗余;量化:对DCT系数进行非线性量化。编码:游程编码和VLC编码。三种编码图象:帧内编码I帧,前向预测P帧,双向预测B帧MPEG编码的基本算法分块:视频采用基于块的混合编码;MPEG编码的基本算法47
(1)运动估计:以宏块为单位,用块匹配法找出运动矢量(搜索,判据)(2)运动补偿:据运动矢量在重建帧中读出预测块,(3)计算预测误差,(4)对预测误差进行DCT,(5)对DCT量化;(6)RLC和VLC编码;(7)对运动矢量编码并与图象数据复用;(8)经缓存控制输出。
1帧间预测编码步骤
(1)运动估计:以宏块为单位,用块匹配法找出运动矢量(搜索48
MPEG-1视频编码器MPEG-1视频编码器492运动矢量:运动物体的位移矢量dx,dy若第K-1帧的运动物体位置中心点为(x1,y1),在第K帧中移动到(x1+dx,y1+dy)。须将第K帧(x1+dx,y1+dy)点的运动物体与第(K-1)帧的(x1,y1)点相减。
3运动估计:求运动矢量的过程去接收机
差值
当前帧-
运动补偿
过去帧
运动估计去后级预测值运动矢量帧内
帧间2运动矢量:运动物体的位移矢量dx,dy若第K-1帧50
4运动补偿运动补偿:利用运动矢量从前一帧内读出预测象块,形成当前帧运动物体的预测值。预测编码:对预测获得的差值及运动矢量进行编码。
5块匹配:对视频图象分成宏块(常用16×16的宏块),以宏块为单位在前一帧搜索与当前宏块内容最相近的宏块,称块匹配。块匹配的目的是求运动矢量。4运动补偿51运动补偿的必要返回运动补偿的必要返回52运动估计图解
abc当前帧后一帧运动矢量MV运动估值,找到匹配块将匹配块与当前宏块的差值以及运动矢量进行编码前一帧运动估计图解a53块匹配搜索块匹配搜索54块匹配是一个搜索过程,采用均方误差准则或绝对误差准则作为块匹配准则。匹配的过程就是求这些误差最小值的过程。均方误差(MSE)定义为绝对误差(MAD)定义为
Sk(m,n)当前的图像块;
Sk-1(m+i,n+j)在前一帧搜索窗内搜索的块。
块匹配准则块匹配是一个搜索过程,采用均方误差准则或绝对误差准则块55运动补偿图解4:2:0亮度和色度宏块运动补偿图解4:2:0亮度和色度宏块56双向预测B帧双向预测B帧57MPEG-1标准的视频解码器VLC解码器先解出图像头信息,确定图像类型,提供预测方式和运动矢量等信息,解出量化的DCT系数。反量化还原DCT系数,反DCT还原出像块的预测差值,预测差值再与当前的预测值相加,恢复像素值。经过运动补偿,得到相应的预测值。还原的图像数据存储在缓冲器里,经重新排序后,按图像显示顺序输出。MPEG-1标准的视频解码器VLC解码器先解出图像头信息,确58输入缓冲解码VLDIQIDCT前向运动补偿缓冲器内插运动补偿后向运动补偿前面帧存后面帧存输出输入量化表
MPEG-1解码器简图重建帧输入缓冲解码VLDIQIDCT前向运动补偿缓冲器内插运动补偿59MPEG的视频数据流结构MPEG对运动图像序列的编码数据用6层结构表示:图像序列层:由连续图像组成,用序列终止符结束。图像组层:图像组(GOP)由几帧连续图像组成,是随机存取单元,其第一帧总是I帧。图像层:图像(帧)编码的基本单元,独立的显示单元。宏块条层:重新同步单元。宏块层:MB运动估计的基本单元。块层:块(B)DCT的单元。块数据由图像数据加块结束符(EOB)组成。MPEG的视频数据流结构MPEG对运动图像序列的编码数据用60数据流结构图像组8×8图像组宏块条宏块块图像组图像图像序列数据流结构图像组8×8图像组61GOP1GOPSCGOP头图像1图像2图像3…图像N图像SC图像头条1条2条3…条m条SC条头宏块1宏块2宏块3…宏块nY1宏块编码信息Y2Y3Y4C1C28×8系数块序列层GOP层图像层宏块层像块层序列SC序列扩展序列头GOP2…序列EC0x000001B3GOP1GOPSCGOP头图像1图像2图像3…图像N图62宏块结构
(a)4:4:4(b)4:2:2
YCBCRYCB
CR
5
6
123(c)4:2:0YCBCR4宏块结构(a)4:4:463
MPEG的图像组I帧:帧内编码,提供进入压缩图像数据的随机存取点,是图像组(GOP)的第一帧。帧间编码:P帧和B帧P帧,用前面最靠近的I帧或P帧进行预测,称正向预测。B帧,称为双向帧或内插帧,它既用前面P帧和I帧又用它后面的P帧作为参考帧,进行双向预测,通过内插得到重建帧。大的图像组包含10~15帧图像。小图像组只有2~3帧图像。MPEG的图像组I帧:帧内编码,提供进入压缩图像数64视音频压缩编码技术的发展课件65
(1)“开放性”的视频码流:
I帧在码流中出现的位置和频率,可根据图像序列中随机存取和景物切换的需要进行选择。相邻最近的I与P帧或P帧之间的B帧数目可以选择。(2)I,P,B三种图象的数据压缩比:
2~5:1,5~10:1,20~30:1
(3)图象的编码顺序和显示顺序不相同视频码流的特征显示次序
(原始图像次序)
14237561089131112……IPBBPBBPBBPBB……编码次序(1)“开放性”的视频码流:视频码流的特征66视音频压缩编码技术的发展课件67(二)MPEG-2标准(ISO/IEC13818)“活动图象及其伴音的通用编码”,94年11月公布;用于DVB,HDTV,DVD。
MPEG-2和MPEG-1的图像结构相同。
MPEG-2通用性较强,满足对图像质量和传输速率的多层次要求,技术成熟。图像格式:704×576(PAL)和704×480(NTSC),码率为3~15Mbps;9Mbps模拟分量质量;能处理逐行扫描和隔行扫描图像,包括16:9宽高比图像格式;(二)MPEG-2标准(ISO/IEC13818)“68MPEG-2标准解决了通用性和特殊要求,定义了不同的类和级考虑到和MPEG-1兼容;有可分级性、灵活性和广泛的适应性,系统和传送规定更详细和完善,规定了多路节目复用方式,兼顾与ATM信元适配;支持多声道的音频编码;先进音频编码(AAC)MPEG-2标准解决了通用性和特殊要求,定义了不同的类和级69
1MPEG-2的类(Profile)和级(Level)类:针对不同的应用规定了若干个语法子集,这就是“类”。“类”规定可用那些语法元素,怎么用。共六类:高类(HP),主类(MP),空间可分级类(SSP),信杂比可分级类(SNRSP),简单类(SP),4:2:2类。它们基于一个共同的语法准则。级:每个类中按参数不同又分四个级。“级”规定语法元素的值可怎样取。1MPEG-2的类(Profile)和级(Lev70MPEG-2类和级的组合352×288,30帧720×576,30帧1440×1152,60帧1920×1152,60帧4/316/9MPEG-2类和级的组合352×288,30帧720×5771
MPEG-2级和类的最大约束参数MPEG-2级和类的最大约束参数72MPEG-2视频编码的分级MPEG-2的分级扩展:空间分级、时间分级、SNR分级和数据分流。分级作用:对传输通道和复杂性不同的客户端提供不同质量的服务。空域分级:大小不同图像的兼容传送,时域分级:用于不同帧频图像的兼容传送;SNR分级实现不同质量的视频服务兼容;数据分流:解码的重要信息放在一起,用部分频带以较高的信噪比发射,保证接收。相对次要数据以较低能量发射。MPEG-2视频编码的分级MPEG-2的分级扩展:空间分级、73视音频压缩编码技术的发展课件74MPEG-2解码重建像块差值每个GOP的头部送一个量化矩阵用两个码表解码运动矢量重建像块数据提取各种参数MPEG-2解码重建像块差值每个GOP的头部送一个量化矩阵用75
MPEG-2系统部分规定:如何将视频和音频以及数据的基本码流组成一个或多个适合于存储和传输的单一码流;如何加时间(同步)信息。基本码流ES:编码器输出的视频和音频数据流。打包的基本流(PES):ES打包形成,长度可变,一般是一个存取单元(一个视频帧或音频帧的长度)。节目码流(PS):几个具有公共的时间基准的PES经节目复用形成的单一码流。适合交互式多媒体应用。传输码流(TS):传输复用器输出。输入的PES可以具有公共时间基准(可先节目复再TS复用),也可是各自独立的时间基准(直接TS复用)。
TS小包长度固定为188个字节。TS适合于有噪声或介质损耗的环境中存储或传输。2系统传输层的作用和结构MPEG-2系统部分规定:2系统传输层的作用和结构76
系统复用的结构框图视频编码器音频编码器打包器打包器PS复用TS码流PS码流PESES视频音频数据编码器数据TS复用系统复用的结构框图视频编码器音频编码器打包器打包器PST773PES的结构3Byte1Byte2Byte2bit14bit1Byte
PacketStartStreamPESPacket10PESHeaderPESHeaderPESHeaderPESPacketCodePrefixIDLengthFlagsLengthFieldsDateBlock
SCPRDACROCPDESCRRATETMACCRCEXTVariableLength起始码;包识别ID;PES长度表示;PES头部标志包含:SC,加扰指示;PR,优先级指示;DA,相配合的数据;CR,有无版权;OC,原版或拷贝;PD,有无PTS(显示时间标志)或DTS(解码时间标志);ESCR,表示是否有基本码流的时钟基准信息;
RATE,是否有基本流速率信息;TM,是否有8比特字段说明数字存储媒体(DSM)的模式;AC,未定义;CRC,是否有CRC字段;EXT,是否有扩展标志。
3PES的结构3Byte1Byte784传输码流(TS)和节目码流(PS)结构4传输码流(TS)和节目码流(PS)结构79包头PS包1PS码流由一个或多个具有公共时间基准的PES包组成;PS包的长度可变PS码流构成:包头PS包2…包头PS包n包SC01SCR节目复用速率包填充长度包填充字节PES1PES2…PESn
PS结构包头PS包1PS码流由一个或多个具有公共时间基准的PES包组80TS码流由一个或多个PES包组成,这些PES包可以是有一个公共的时间基准,也可以是几个独立的时间基准。PES包被分割成一个个传输包,PES包头数据总是开始一个新的传输小包,若PES包在一个传输包的中间结束,余下的长度放入填充字节TS码流由TS包组成,TS包的长度固定,为188字节每个TS包由包头和净荷组成。传输小包的组成TS码流由一个或多个PES包组成,这些PES包可以是有一个公81传输小包的包头组成(1)链接头作用1)包同步:用于建立包同步;2)包识别PID:复用和解复用的识别信息,靠PID提取基本码流;3)误码处理:发端对包作0~15的重复计数,接收端发现连续计数中断,就会判断丢失数据;3)有条件接收:传输格式允许包的数据作加扰处理,各基本流可独立扰乱,传输包的连接投要说明是否扰乱,标志出解扰密钥。头部信息不允许扰乱。
链接头可变长适配头净负荷数据
188字节
4字节传输小包的包头组成(1)链接头作用链接头可变长适82(2)适配的作用1)定时:一些包的适配头传时间信息,即在(PCR)字段传27MHz时钟,指出解码器从码流中读完该字段的期望时间。解码器的时钟与PCR比较,调整本时钟频率,进行同步。2)可随机进入压缩码流在节目调节或更换时应该随机进入音频和视频的I帧,在I帧前的视频序列的头部应该有一个随机进入点。3)可插入本地节目。(2)适配的作用1)定时:一些包的适配头传时间信息,即在(P83188字节包头净荷包头净荷…包头净荷适应字段81113包同步误码指示开始指示传送优先级PID加扰控制适应字段控制连续性计数器1224可变长可选字段8115适应字段长度不连续性指示随机进入指示ES优先级指示5个标志填充字节14848PCR拼接点倒计时传送私有数据8OPCR适应字段扩展TS包格式188字节包头净荷包头净荷…包头净荷适应字段81113包误码84
5多路节目双层复用TS流系统传输复用器节目复用器视频1ES音频1ES辅助数据节目1TS流节目2TS流节目3TS流节目nTS流业务信息SI::多节目TS流信道编码调制器服务信息5多路节目双层复用TS流系统传输复用器节目复用器视频185双层复用
第1层节目复用(ProgramMultiplex):PES有共同的时间基准。第2层传输复用(TrasportMultIplex):PES可各有独立的时间基准
每个节目经压缩编码产生基本流(视频、音频、数据),打包成PES流,送节目复用器。各节目复用器输出的PS和服务信息经传输复用器组合成一个单一的码流。双层复用第1层节目复用(ProgramM86ES:ElementarystreamEsmap:programmaptableES1videoES2audioES3AudioESn-1DataESnDataESmap(1)节目复用PID1PID2PID3PIDn-1PIDnPIDn+1进入节目复用器的每个基本码流都有个包识别符PID
复用时加一个基本码流表Elementarystremmap,称节目映射表Programmaptable。它包含组成本节目传输流(ProgramTransportStream)各基本码流的PID、数据性质与码流彼此间的关系等。该基本码流表的识别符为PIDn+1。经“节目复用”的码流称为“节目传输码流”。节目传输流节目复用ES:Elementarystream(1)节目复用进入87(2)传输复用传输码流传输复用PTS=PS:Programtranspotstream,
PSmap:programassociationtablePS1PS2PS3
PS4PS5PSmapPID=0对各个节目的PS流进行复用。加个节目码流表ProgramStreammap,或称节目组合表Programassociationtable,它包含各节目复用的节目映射表PIDn+1。它本身的识别符PID=0。节目的传输解复用过程如下:(2)传输复用传输码流传输对各个节目的PS流进行复用。节目的88
识别一个节目及其内容需二个步骤:a.利用PID=0的码流中的节目组合表找出有该节目映射表的码流PIDn+1;b.从节目映射表中找到该节目的各个基本流的PID;解复用滤波器即被设置到所找节目的基本流上。
识别一个节目及其内容需二个步骤:895统计复用定义:传输信道带宽恒定,传送总码率须恒定。信道中复用的各节目的传输码率是不恒定的,可在各VBR节目之间实行按图象复杂度分配码率的原则,即统计复用。复杂度:快速运动、细节多的图象所需压缩码率比静止的、细节少的图象高的多。若各节目都以恒定比特率CBR传输,借助缓冲器反馈控制量化步长,使复杂图象质量降低;若各节目用可变码率VBR传输,按图象内容分配码率,可保证图象质量均衡。如,DVD、SVCD采用VBR提高图像质量。关键问题:对图象序列随时进行复杂度估计;实时对视频业务动态分配带宽。在CBR信道上传送VBR视频压缩图象,需有信道缓存器进行平滑;采取码率控制,缓存器的占有率反馈到控制器,调节各编码器的量化步长。5统计复用定义:传输信道带宽恒定,传送总码率须恒定。信90控制器节目编码节目编码节目编码节目编码复用图像复杂度分析码率分配恒定的总码率视频输入统计复用系统
91SanghooLee提出的动态分配带宽的算法根据每个视频图像源所需传输码率、在一个GOP种可提供的传输码率和虚拟缓存器状态,计算每个图像源的参考带宽之间的关系,决定分配给视频源的带宽。1据信道提供的传输总码率、图像编码类型、每个源的GOP结构和总的虚拟缓存器的当前状态,决定给每个视频源的带宽;据带宽的最佳分布函数估计一下视频源的GOP所需的带宽;据每个视频源的参考带宽和估计带宽,给每个视频源分配带宽;
SanghooLee提出的动态分配带宽的算法根据每个视频图92空间复杂度(spatialinformation-SI)和时间复杂度(temporalinformation-TI
)的计算,基于Sobelfilters(1)
i,j
:horizontalandverticalpositionsofthepixels;Sobelh,Sobelv:horizontalandverticalFIRvaluesofthefilter.
STD:标准偏离算子(2)
n,n–1:currentframeandthepreviousone.
TheoverallSIandTIconcerningthepicturesequencecanbegiveneitherbytheiraveragevaluesorbytheirmaximumvaluesineachframe.空间复杂度(spatialinformation-SI)936解码与编码的同步和时间标志编解码的同步、图象和声音的同步:显示前重建压缩前的图象次序;音频和视频同步显示。原因:I、P、B帧数据量不同;解码输入图像次序不同;视音频ES交错传送。插入时间标志(timestamp):系统时钟:STC,90kHz,系统时钟基准:SCR,从STC抽样得到,33bit,插在每个大包头部第5到第9字节,指明SCR的最后一个字节离开编码器的时间,在解码器的输入端提取这个时间。显示时间戳PTS,出现显示单元的时间;解码时间戳DTS,从基本码流解码缓存移走存取单元全部字节的时间。返回6解码与编码的同步和时间标志编解码的同步、图象和声音的同94MPEG系统延时模型音频输出视频输出固定延时解码器编码器缓存器编码器解码器缓存器缓存器缓存器系统编码和复用系统编码和复用存储和传送视频输入音频输入可变延时可变延时固定延时MPEG系统延时模型音频输出视频输出固定延时解码器编码器缓存95时间标志系统
STC缓冲解码显示
STC视频出采集图象对STC抽样得PTC采集音频帧对STC抽样得PTC编码编码复接系统编码和缓冲对STC抽样得SCR数字存储媒介缓冲解码显示比较PTS比较PTS音频出音频入视频入幻灯片89时间标志系统STC缓冲解码显示STC视频出采集图象对ST96(三)MPEG-4标准ISO/IEC14496“基于音视频对象的编码”
MPEG-4是一个庞大的有关交互多媒体编码与通信的标准,当前使用的视音频编码系统和标准不能全部满足通信、计算机和广播业的迅速融合所提出的要求。称第2带编码:基于内容去冗余(事件本身含义),基于内容的交互(接收者的意愿)。
MPEG-4把一个视听场景定义成了一系列可再现的“视听对象”。
MPEG-4还具有对不同来源对象进行合成的功能。
MPEG-4标准旨在将各种多媒体应用集成于一个完整的框架内。
MPEG-4标准支持各种扫描标准和图象格式。可支持的比特速率低速率可低到5~64kb/s,高速率高达5Mb/s。MPEG-4具有广阔的应用前景。(三)MPEG-4标准MPEG-4是一个庞大的971、MPEG-4标准的目标1999年5月形成国际标准,是基于对象的视、音频编码标准,本是甚低比特率的视音频压缩编码标准,现满足数字视听材料交换需要;不是单纯的视音频编解码标准,它更多的是定义一种格式、一种框架,而不是具体算法,为多媒体数据压缩提供更为广阔的平台,允许加入新算法,方便计算机软件编解码;视频码率覆盖范围5kbitps~5Mbitps;
音频码率覆盖范围2kbitps~64kbitps。1、MPEG-4标准的目标982、MPEG-4标准的主要特征
(1)基于对象和基于模型的编码在音视频景物中可分出若干个“对象”,见下图。MPEG-4支持对场景中的物理对象单独进行编码和解码,并支持矩形及任意形状对象的编解码MPEG-4的视频对象编码技术包括了MPEG-1与MPEG-2编码,但多了形状编码,要将形状信息传送给解码器,见图。标准分6个部分系统,视频,音频,一致性测试,参考软件,DMIF2、MPEG-4标准的主要特征
(1)基于对象和基于模型的编99图8一个面向对象的电视情景Sportsresults:Portugal-Brazil
Sportsresults:Portugal-Brazil图8一个面向对象的电视情景Sportsresul100SPRITE对象分割活动对象幻灯片160SPRITE对象分割活动对象幻灯片160101具有外加对象的合成场景具有外加对象的合成场景102场景描述图场景描述图103对象的二值形状信息News一帧图像前景对象的二值形状信息MPEG标准返回对象的二值形状信息News一帧图像104MPEG-4的编码器增加了形状编码
视频对象编码器
MPEG-4的编码器增加了形状编码
视频对象105ShapeDecodingTextureDecodingShapeInformationDEMULTIPLEXERMotionCompensationBitstreamMotionDecodingVOPMemoryReconstructedVOPCompositorVideoOutCompositingscriptObjectDecoderShapeTextureShapeInformationD106MPEG-4编解码系统视频对象合成解解解MPEG-4编解码系统视频对象合成解解解107Theobject-basedarchitectureofanMPEG-4system.
Theobject-basedarchitecture108ScalableCoding基本层增强层分级预处理分级后处理ScalableCoding基109
ScalabilityofObjects视频演示编/解码器ScalabilityofObjects视频演示110MPEG-4标准的主要特征
(2)自然与合成音视频数据的混合编码MPEG-4编码支持自然音与合成音视频,在解码端能合成不同来源的自然对象与合成对象。
(3)提供基于对象的交互功能不同的数据源可视为不同的对象,数据接收者可以对不同的对象进行操作:删除、添加、移动、改变尺寸等属性。(4)基于对象的分级功能空间、时间和混合分级,适应互联网等窄带视频通信、多质量视频服务,精细分级使MPEG-4码流能通过各种不同通路,克服数字信号悬崖效应。合成对象互动演示MPEG-4标准的主要特征
(2)自然与合成音视频数据的混合111MPEG-4标准的主要特征(5)场景描述用BIFS描述语言描述场景的结构和视音频对象的位置变化、尺寸、彩色、声音响度等属性。场景描述的核心是对多媒体对象的安排布置,用户通过场景描述可以操作对象的显示状态,实现交互操作。场景描述用单独的数据流传输,单独编解码,可在压缩的数据流域实现对象控制。场景描述结构例:显示的图像序列、声音、音乐、语言,投影屏幕,背景墙,动画合成女解说员,讲由解说词产生的语言,还有合成的绘图—桌子和地球仪。MPEG-4标准的主要特征(5)场景描述112
BIFS场景描述例BIFS场景描述例113MPEG-4标准的主要特征(6)差错鲁棒性和差错回避MPEG-4数据流允许在各种环境下传输,移动通讯链路的比特率低达10kbps,提供差错鲁棒性和差错回避技术。(7)音频编码音频部分专门为音乐、语言及人工合成声音定义了许多有效的编码方法,还能使音乐随着已经注释的场景演奏,并产生空间声音效果。合成音频编码方法包括结构音频和文语转换(TextToSpeech)。有音频对象空间化特征,用不同的空间定位可决定音源的空间位置,可用人工和自然音源来构造人工声音环境。
MPEG-4标准的主要特征(6)差错鲁棒性和差错回避114高编码效率,与H.263+或MPEG-4简单类相比,H.26L在多数码率下可节省码率达50%,在各种码率下都能持续提供较高的视频质量,适用于视频会议、视频存储和以服务器为基础的视频流业务。系统框架见下图,图像分解为像条,各像条单独编码,编码输出复用;接收端解复、解码,合成原视频信号。像条编码像条编码像条编码像条分隔像条解码像条解码像条解码像条合成解复用复用(8)MPEG-4的新视频编码技术特点
H.26L,ITU-T称H.2642001.1月ITU-T和MPEG联手制定高编码效率,与H.263+或MPEG-4简单类相比,H.26115
1)对任何像块可在前面多个参考帧(最多5帧)中寻找匹配像块,给出相应的运动矢量,能够实现更好的码流误码恢复;
2)在运动估值和运动补偿方面,H.26L采用了不同大小和形状的宏块分割方法、更高的亚像素(1/4,1/8)运动估值精度,在预测环中增加了去除块效应的滤波器;
3)使用了类似于DCT,但以整数为基础的空间变换,采用独特的整数算法,所有的运算可以只通过加法和位移实现,变换和量化的全过程可以用16位比特的整数运算进行,消除乘法运算带来的精度损失;
避免了因4舍5入引起的反变换误差问题。
4)在熵编码方面,使用两种码表,通用的变字长编码表(UVLC)和基于内容的自适应二进制算术编码(CABAC)。
(9)新增标准与以前的编码方法不同之处
1)对任何像块可在前面多个参考帧(最多5帧)中寻找匹配像块116CABAC(Context-basedAdaptiveBinaryArithmeticCoding)基于内容的自适应二进制算术编码:(a)根据语法元素的内容选择概率模型(b)基于当前统计调整概率的估计5)采用帧内预测编码:a.4×4亮度预测模式;b.6×16亮度预测模式;c.8×8色度预测模式;
有6种4×4亮度像块的帧内预测模式,用相邻像素做预测;支持块大小由16×16到4×4的亮度分量的运动补偿,
1/4像素预测精度;6)H.26L增加了帧间预测模式的类型和精度。有7种不同的宏块分割方法,形成7种不同帧间预测模式。CABAC(Context-basedAdaptive1177)除了支持I-、P-和B-帧外,还支持码流间可转换帧,称为SP-帧,能在有类似内容但有不同码率的码流之间快速切换,并同时支持随机接入和快速回放模式。
8)变换系数的扫描有之字形(Zigzag)扫描和双扫描两种方式。提高编码效率。9)H.26L支持以往标准的大部分处理方法,但通过增强功能和灵活性提高效率:用7种不同大小和形状的帧间预测节省码率约15%;使用亚像素搜索精度与整数像素搜索精度相比能节省码率20%;使用5个参考帧预测与只用一个参考帧相比能节省码率(5~10)%;使用基于内容的二进制自适应算术编码能节省码率10%。使用去方块效应滤波还能获得非常可观的主观质量改进。8)变换系数的扫描有之字形(Zigzag)扫描和双扫描两种方11810)增加了演播室类(Profile)工具(2001年1月)
基于对象的视频创作技术、用于演播室存储的高效编码工具,支持高达2048个像素的分解力、1.2Gbps的比特率和12比特量化。这可用于演播室和后期制作、演播室之间的节目传送等。对场景描述进行补充,支持手动和自动生成场景;增加了高级的精细分级(FGS)将使MPEG-4码流能通过各种不同带宽通路,克服数字信号的悬崖效应。已制定的MPEG-4的传输协议:MPEG-4的内容在MPEG-2的TS流内传送;MPEG-4内容通过IP传送。目前在管理工具、接口和知识产权保护方面正在加紧工作。10)增加了演播室类(Profile)工具(2001年1月)1191)传输层:流复用,传输协议描述,定义应用接口。2)同步层:基本流经同步层打包,打包时插入了定时和同步信息、分段和随机存取信息。
3)压缩层包括:各种解码器;对象描述框架:利用对象描述子OD识别各种基本流知识产权管理和保护(IPMP)
对象内容信息:传送视听对象的描述信息场景描述流:传输场景描述信息对象合成视听流上行通道流:接收端到发送端的上行信息
3、MPEG-4系统1)传输层:流复用,传输协议描述,定义应用接口。3、MPE120
MPEG-4系统体系结构
MPEG-4系统体系结构121(四)MPEG-7(ISO/IEC15938)
基于内容的检索基于内容的检索:查询时针对对象本身,需要从媒体数据中提取特征(如颜色、纹理、形状等),根据这些特征从媒体数据库中检索出相似的图像或者视频内容。基于内容检索的类型:图像检索:视频序列的表示方法含基于关键帧、基于运动的检索音频检索:含音乐、话音及其它自然声响等图形检索:含点、线、区域和关联检索
文本检索:含字、词以及它们的逻辑集合(四)MPEG-7(ISO/IEC15938)
基于122基于内容检索系统的简单结构
媒体库特征库特征抽取检索引擎管理端用户端数据库数据库生成子系统数据查询子系统知识库基于内容检索系统的简单结构
媒体库特征库特征抽取检索引擎管理123按MPEG-7描述标准建立的
管理系统工作流程图例
读入视频资料镜头分割提取视频资料及其关键帧的特征值将特征值按照MPEG-7标准进行描述将视频资料及其描述信息存储到视频数据库
提取关键帧按MPEG-7描述标准建立的
管理系统工作流程图例
读入124
1、MPEG-7标准的目标
MPEG-7标准称为“多媒体内容描述接口”。多媒体内容描述标准,定义了描述符、描述语言和描述方案,对多媒体信息进行标准化的描述,实现快速有效的搜索。MPEG-1,-2,-4是对信息进行有效的表示,MPEG-7则对信息表示方法进行描述,为各种表示法的适当部分提供索引。前三种编码方法使得信息的内容变得容易获取,MPEG-7则使在需要时能找到它。MPEG-7确立各种类型多媒体信息的标准描述方法,方法是描述符和描述方案的组合,并与所描述的内容紧密相关。1、MPEG-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智慧环卫系统建设方案
- 竹筒酒行业研究报告
- 《会计信息系统应用》课件 学习情境7 应收款系统应用
- 数字信号处理与通信技术指南
- 美食广场装修合同解除
- 健康饮食烹饪方法入门指南
- 现代农业经营管理策略方案
- 绿化专项施工方案
- 电商产业园可行性研究报告
- 施工方案和安全专项施工方案的区别
- 2025年音响设备销售服务合同范本
- 眼镜学智慧树知到答案2024年温州医科大学
- 医院临床护理教学质量督查表
- 唐诗里的中国(朗诵)
- Q∕SY 01128-2020 录井资料采集处理解释规范
- 中考满分作文-难忘的风景(6篇)
- 小学生写作文的格子
- 城市道路平面交叉口设计形式与选择解析
- 中学生学习方法主题班会ppt课件
- 轻松游戏——武松打虎
- 人生900格(已调整为一页A4纸)
评论
0/150
提交评论