音视频基础知识及概念_第1页
音视频基础知识及概念_第2页
音视频基础知识及概念_第3页
音视频基础知识及概念_第4页
音视频基础知识及概念_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

音视频基础知识和概念音频基础概念音频技术基础视频基础概念视频技术基础目录音频基础概念人耳能识别的声音频率范围大约在20~20kHz,通常称为音频(audio)信号。人的话音信号频率通常为300~3000Hz,称为语音(speech)信号。低于20Hz的信号称为次声波(subsonic),高于20kHz称为超声波(ultrasonic)。次声波和超声波人耳都无法听到。声音信号的划分响度:声音的响度即声音的强弱,是人耳对声波强弱的主观感觉。响度是由声波的振幅决定的。振幅大,声音响度大;振幅小,声音响度小。声音的响度与声音的频率也有一定关系。振幅相同的声波,在1KHz~4KHz之间听起来感觉最响;而在此频率范围之外,响度随着频率变化而减弱,当低于20Hz或者高于20KHz时便听不到了。音调音调是反映声音高低的,由声波的频率决定。频率高的声音音调高,听起来尖细;频率低的声音音调低,听起来低沉。对于不同的频段,人耳对音调的辨别能力不同,中频段最灵敏,高、低频段较差。对于1KHz左右的声音,一般人可以分辨出2~3Hz的变化来,而钢琴调音师能分辨出1Hz以下的变化音频基础概念音色音色又称音品,由声音波形的谐波频谱和包络决定。声音波形的基频所产生的听得最清楚的音称为基音,各次谐波的微小振动所产生的声音称泛音。音色是人在主观感觉上区别同样响度和音调的两个不同声音的特性。也就是说两种不同乐器发出相同的响度和音调的声音时,人耳能够分辨它们之间不同的特征。音色主要取决于声音的频谱结构,与响度和音调也有一定的关系。例如,钢琴和黑管发出的基频都是100Hz,演奏同一乐曲,响度也一样,我们仍能分辨出这是两种乐器,因为它们的频谱结构不一样。音频基础概念音频基础概念音频技术基础视频基础概念视频技术基础目录音频技术基础—音频压缩的目的随着数字电话和数据通信容量日益增长,除了提高传输线路带宽之外,对语音信号进行压缩编码是提高通信容量的重要措施。压缩语音信号可以获得更小的数据率,但是又不希望明显降低传送语音信号的质量。通常来说,语音信号的压缩率越大,对语音信号质量的影响越大,编解码的延时也越大,编解码的成本也越高。网络规划者必须在带宽和语音质量之间进行权衡。

例如:码率=采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为44.1K×16×2=1411.2Kbps波形编码器不利用生成语音信号的任何知识而企图产生一种重构信号,它的波形与原始语音波形尽可能地一致。音源编码器(声码器)企图从语音波形信号中提取生成语音的参数,使用这些参数通过语音生成模型重构出语音。混合编码器企图填补波形编译码和音源编译码之间的间隔,得到音质高而数据率低的语音。音频技术基础—音频编码器类型音频技术基础—音频编码器特点波形编译码器的语音质量高,数据率也高;音源编译码器的数据率很低,音质也低;混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于上述二者之间。三类编码器的特点比较:PCM最简单的波形编码方式是脉冲编码调制(PulseCodeModulation),它仅仅对输入信号进行采样和量化。典型的窄带语音带宽限制在4kHz以内,所以PCM采样频率是8kHz。如果要获得高一点的音质,样本精度要用12位,它的数据率就等于96kbps,可以通过使用非线性量化来降低数据率。例如可以使用近似于对数的对数量化器(logarithmicquantizer),使用它产生的样本精度为8位,它的数据率为64kbps时,重构的语音信号几乎与原始的语音信号没有什么差别。这种量化器在20世纪80年代就已经标准化,而且直到今天还在广泛使用。在北美的压扩(companding)标准是μ律(μ-law),在欧洲的压扩标准是A律(A-law)。它们的优点是编解码器实现简单,延迟时间短,音质高。但不足之处是数据率比较高,对传输通道的错误比较敏感。DPCM在语音编码中,一种普遍使用的技术叫做预测技术,这种技术是企图从过去的样本来预测下一个样本的值。这样做的根据是认为在语音样本之间存在相关性。如果样本的预测值与样本的实际值比较接近,它们之间的差值幅度的变化就比原始语音样本幅度值的变化小,因此量化这种差值信号时就可以用比较少的位数来表示差值。这就是差分脉冲编码调制(DifferentialPulseCodeModulation,DPCM),它是对预测的样本值与原始的样本值之差进行编码。音频技术基础—波形编码方式ADPCMDPCM这种编译码器对幅度急剧变化的输入信号会产生比较大的噪声,改进的方法之一就是使用自适应的预测器和量化器,所谓自适应就是指,量化位数随着幅度的变化而变化,这样就产生了自适应差分脉冲编码调制(AdaptiveDifferentialPCM,ADPCM)。音频技术基础—波形编码方式编码框图:采样:均匀采样量化:均匀量化,非均匀量化(大信号采用大间隔,小信号小间隔)

PCM在通信中主要用于时分多路复用和频分多路复用.音频技术基础—波形编码方式均匀量化和非均匀量化音频技术基础—波形编码方式非均匀量化的两种方式

μ-律:主要用在北美和日本等地区的数字电话通信中,由于μ-律的输入和输出关系是对数关系,所以这种编码又称为对数PCM。

A-律:主要用在欧洲和中国大陆等地区的数字电话通信中,A-律的前一部分是线性的,其余部分与μ-律相同。音频技术基础—波形编码方式ITU-TRecommendationG.711ITU-TRecommendationG.722/G.722.1ITU-TRecommendationG.723.1&AnnexAITU-TRecommendationG.728&AnnexGITU-TRecommendationG.729&AnnexABMP3(MPEG-1audiolayer3)AAC(AdvancedAudioCoding,先进音频编码)

音频技术基础—常见音频编码标准G.711

类型:Audio

制定者:ITU-T

所需频宽:64Kbps

特性:算法复杂度小,音质一般

优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)

缺点:占用的带宽较高

应用领域:voip

版税方式:Free

备注:70年代CCITT公布的G.71164kb/s脉冲编码调制PCM。

PCMU(G.711U)

类型:Audio

制定者:ITU-T

所需频宽:64Kbps(90.4)

特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。

优点:语音质量优

缺点:占用的带宽较高

应用领域:voip

版税方式:Free

备注:PCMUandPCMA都能够达到CD音质,但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低,可以选用低比特速率的编码方法,如G.723或G.729,这两种编码的方法也能达到传统长途电话的音质,但是需要很少的带宽(G723需要5.3/6.3kbps,G729需要8kbps)。如果带宽足够并且需要更好的语音质量,就使用PCMU和PCMA,甚至可以使用宽带的编码方法G722(64kbps),这可以提供有高保真度的音质。PCMA(G.711A)

类型:Audio

制定者:ITU-T

所需频宽:64Kbps(90.4)

特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。

优点:语音质量优

缺点:占用的带宽较高

应用领域:voip

版税方式:Free

备注:PCMUandPCMA都能够达到CD音质,但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低,可以选用低比特速率的编码方法,如G.723或G.729,这两种编码的方法也能达到传统长途电话的音质,但是需要很少的带宽(G723需要5.3/6.3kbps,G729需要8kbps)。如果带宽足够并且需要更好的语音质量,就使用PCMU和PCMA,甚至可以使用宽带的编码方法G722(64kbps),这可以提供有高保真度的音质。G.723(低码率语音编码算法)

类型:Audio

制定者:ITU-T

所需频宽:5.3Kbps/6.3Kbps

特性:语音质量接近良,带宽要求低,高效实现,便于多路扩展,可利用C5402片内16kRAM实现53coder。达到ITU-TG723要求的语音质量,性能稳定。可用于IP电话语音信源编码或高效语音压缩存储。

优点:码率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定。

缺点:声音质量一般

应用领域:voip

版税方式:Free

备注:G.723语音编码器是一种用于多媒体通信,编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。G.723标准是国际电信联盟(ITU)制定的多媒体通信标准中的一个组成部分,可以应用于IP电话等系统中。其中,5.3kbits/s码率编码器采用多脉冲最大似然量化技术(MP-MLQ),6.3kbits/s码率编码器采用代数码激励线性预测技术。

G.723.1(双速率语音编码算法)

类型:Audio

制定者:ITU-T

所需频宽:5.3Kbps(22.9)

特性:能够对音乐和其他音频信号进行压缩和解压缩,但它对语音信号来说是最优的。G.723.1采用了执行不连续传输的静音压缩,这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外,这种技术使发信机的调制解调器保持连续工作,并且避免了载波信号的时通时断。

优点:码率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定,避免了载波信号的时通时断。

缺点:语音质量一般

应用领域:voip

版税方式:Free

备注:G.723.1算法是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法,其目标应用系统包括H.323、H.324等多媒体通信系统。目前该算法已成为IP电话系统中的必选算法之一。G.728

类型:Audio

制定者:ITU-T

所需频宽:16Kbps/8Kbps

特性:用于IP电话、卫星通信、语音存储等多个领域。G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。

优点:后向自适应,采用自适应后置滤波器来提高其性能

缺点:比其它的编码器都复杂

应用领域:voip

版税方式:Free

备注:G.72816kb/s短延时码本激励线性预测编码(LD-CELP)。1996年ITU公布了G.7288kb/s的CS-ACELP算法,可以用于IP电话、卫星通信、语音存储等多个领域。16kbpsG.728低时延码激励线性预测。

G.728是低比特线性预测合成分析编码器(G.729和G.723.1)和后向ADPCM编码器的混合体。G.728是LD-CELP编码器,它一次只处理5个样点。对于低速率(56~128kbps)的综合业务数字网(ISDN)可视电话,G.728是一种建议采用的语音编码器。由于其后向自适应特性,因此G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。G.729

类型:Audio

制定者:ITU-T

所需频宽:8Kbps

特性:在良好的信道条件下要达到长话质量,在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中,包括IP电话、无线通信、数字卫星系统和数字专用线路。

G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。

G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8kbps。

优点:语音质量良,应用领域很广泛,采用了矢量量化、合成分析和感觉加权,提供了对帧丢失和分组丢失的隐藏处理机制

缺点:在处理随机比特错误方面性能不好。

应用领域:voip

版税方式:Free

备注:国际电信联盟(ITU-T)于1995年11月正式通过了G.729。ITU-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。G.729A

类型:Audio

制定者:ITU-T

所需频宽:8Kbps(34.4)

特性:复杂性较G.729低,性能较G.729差。

优点:语音质量良,降低了计算的复杂度以便于实时实现,提供了对帧丢失和分组丢失的隐藏处理机制

缺点:性能较G.729差

应用领域:voip

版税方式:Free

备注:96年ITU-T又制定了G.729的简化方案G.729A,主要降低了计算的复杂度以便于实时实现,因此目前使用的都是G.729A。

G.722

类型:Audio

制定者:ITU-T

所需频宽:64Kbps

特性:G722能提供高保真的语音质量

优点:音质好

缺点:带宽要求高

应用领域:voip

版税方式:Free

备注:子带ADPCM(SB-ADPCM)技术

语音编解码标准参数对照MP3(MPEG-1audiolayer3)

类型:Audio

制定者:MPEG

所需频宽:128~112kbps(压缩10~12倍)

特性:编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。

优点:压缩比高,适合用于互联网上的传播

缺点:MP3在128KBitrate及以下时,会出现明显的高频丢失

应用领域:voip

版税方式:Free

备注:同MPEG-1audiolayer1

AAC(AdvancedAudioCoding,先进音频编码)

类型:Audio

制定者:MPEG

所需频宽:96-128kbps

特性:AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道,以及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。

AAC主要可能的应用范围集中在因特网网络传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48个主要音频通道,16个低频增强通道,16个集成数据流,16个配音,16种编排。

优点:支持多种音频声道组合,提供优质的音质

缺点:

应用领域:voip

版税方式:一次性收费

备注:AAC于1997年形成国际标准ISO13818-7。先进音频编码(AdvancedAudioCoding--AAC)开发成功,成为继MPEG-2音频标准(ISO/IEC13818-3)之后的新一代音频压缩标准。

在MPEG-2制订的早期,本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地,这个标准是不兼容MPEG-1的,因此被称为MPEG-2AAC。换句话说,从表面上看,要制作和播放AAC,都需要使用与MP3完全不同的工具。音频基础概念音频技术基础视频基础概念视频技术基础目录视频基础概念色彩空间RGB、YCbCr(444,422,420)PAL及NTSC制式

PAL:625行,50场(25帧)有效象素:720×576

NTSC:525行,60场(30帧)有效象素:720×480图像大小CIF(352×288)、4CIF帧(704×576)、场(720×288)视频压缩必要性图像压缩的意义:对于分辨率为720*576的静态图片如果没有压缩,在RGB空间下需要的存储空间为:720*576*3(byte)=9.49Mb=1.19MB对应的运动图像需要的传输带宽为:

9.49(Mbits/frame)*25(frame/second)=237.3(Mbps)人眼模型图像技术是为人服务的,人眼的主观判断是评判图像质量的重要依据。人眼的特性:人眼对亮度变化的感知要比对色度变化的感知敏感得多!人眼一般不易察觉图像的高频分量(图像中的细小纹理和明暗差异较大的边界)!人眼对水平运动的敏感度相对垂直运动要大!压缩算法可行性预测编码:两个相邻象素的值发生突变概率极小帧内预测:空间相关性,利用相邻上面、左边象素的相关性帧间预测:时间相关性,利用帧间图像象素点的时间相关性空间相关性:X~F(a,b,c,d)abcdXN-1帧N帧时间相关性:X~X(N-1)压缩算法可行性(续)变换编码变换消除频域冗余变换系数经过量化后,保留少量残差数据能量集中在低频,高频成分少,大部分零值。有利统计压缩FFT变换,DCT变换,小波变换压缩算法可行性(续)熵编码消除统计冗余行程编码(Run-Level)Huffman编码CAVLCCABAC运动图像锯齿——帧场模式两场交织成帧(interlace)帧模式场采集帧采集场显示帧显示两场交替显示顶场和底场相差20ms视频压缩标准概述MPEG2/MPEG4:MPEG2:HDTV,SDTV,MPEG4:电视广播、电影、多媒体和网络图像H264

H系列一向用于多媒体、视频通信领域(帧内预测,4×4,1/4,多参考帧,多分割模式)JPEG2000:数字电影(小波变换,RGB和YUV源,38bit量化,4096×3112,缺点:压缩效率低)AVS目标应用IPTV、数字电视和DVD(8×8,运动补偿,插值,熵编码,专利费)MPEG/H26x协议簇H264层次结构Picture,Frame&FieldSlice/SliceGroupMacroblock:

Luma16×16,Chrominance8×8Block最小4×4H264码流层次结构IPIIPPPPPPPPPPPGOP分界符(序列参数集)(图像参数集)(SEI)基本图像(冗余图像)(序列结束符)sliceslicesliceslicesliceMBMBMBMBMB基于块的编码器流程框图H.264编码器流程图H.264解码器流程框图预测技术帧内预测技术:空间预测,消除空间冗余空域预测:通过周边的象素点估计当前块的象素点的值;(H264)频域预测:通过周边块的DC/AC系数,预测当前块的DC/AC系数;(MPEG4)帧间预测技术:通过运动估计在前一帧图像中,寻找与当前宏块最匹配的宏块,时间预测,消除时间冗余宏块分类I-MB:仅根据当前帧内数据信息进行预测编码的MB,与其他帧的数据没有数据相关性;P-MB:根据前向图像(一帧或多帧)的数据进行预测编码的MB;B-MB:根据前向、后向或是双向图像的数据进行预测编码的MB;帧类型I帧(IntraFrame):仅包含I-MB;(图像序列第一帧一定为I-帧)P帧(PredictionFrame):包含P-MB,可能包含I-MB,不包含B-MB;B帧(BidirectionalPredictionFrame):包含B-MB,可能包含I-MB和P-MB;P帧、B帧的帧间预测组合IBP,IBBP注意有B帧时编码顺序和显示顺序(采集顺序)的不同。前向后向多参考帧图像残差数据DCT2-3-14-10-1-45036-402-43020-2200-3-14-1-1-2-88-12-1-215-3-16370-40-6-63-70-3-30-1-4-9-264-20-44-1-4-321430175172169162158163163162181175171174168165167165177179181178176170167173181172175185184176171170177175186180175174174178199196189184182181180180196194191193189182187180192192192194198190184173YUVRGBYUV011010001011101...VLC/CABAC变换公式:C(h,v)=C(v)C(h)ΣΣ[P(x,y)COS{πv(2y+1)/16}COS{πh(2x+1)/16}]C(0)=1/2√2C(v)=C(h)=1/2[v,h≠0]去除时间/空间冗余1、按照光栅扫描方式对图像内宏块(MBMacroBlock,16x16)依次进行编码。2、使用MB的左边宏块的边界或/和上边宏块的边界进行预测当前块。3、使用前面帧块或/和后面帧块预测当前块。残差块=当前块-预测块帧内预测有为Intra16x16/Intra4x4两种类型,宏块分别对两种类型进行预测,取误差最小的作为宏块最佳模式,然后进行色度Intra8x8/intra2x2预测。预测模式:水平预测:左边块的右边界向右拷贝到整个块作为预测块。竖直预测:上边块的下边界向下拷贝到整个块作为预测块。1、当前图像中的每个块,在参考图像中搜索得到最佳匹配块,然后对残差块进行DCT和量化后,进行熵编码。2、残差块=当前块-参考块3、最佳匹配块的匹配程度与搜索范围,搜索方法,匹配度量标准有关4、搜索算法:全搜索、菱形搜索、二维对数搜索、三步搜索、等等.5、搜索范围:16x16、20x20、32x32,等等.6、匹配度量标准:SAD、SSD、SED、等等7、移动步长:整象素、半象素、1/4象素。8、运动矢量(MotionVector)帧间预测运动估计中的宏块分割宏块MotionVector运动估计后每个宏块得到运动矢量(MV)和残差块。上图标出图像中4个宏块的MV。运动估计块和MV编码核心处理——变换变换:去相关性,能量集中,高频分量可被后面的量化去除。量化系数的大小直接控制着高频分量(空间细节)损失的多少。1751721691621581631631621811751711741681651671651771791811781761701671731811721751851841761711701771751861801751741741781991961891841821811801801961941911931891821871801921921921941981901841732-3-14-10-1-45036-402-43020-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论