视频音频基础知识_第1页
视频音频基础知识_第2页
视频音频基础知识_第3页
视频音频基础知识_第4页
视频音频基础知识_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

视音频基础知识深圳市迪威视讯股份有限公司罗钦骑2主要内容一、音频基础知识二、视频基础知识三、视频会议终端及高清视

频接口简介一、音频基础知识音频基本特性音频特性

音频信号由许多频率不同的声波组成。音频信号的两个基本参数是频率(音调)和幅度(声强)。人发音器官声音频频率范围:80~3400Hz。人耳感知音频频率范围:20~20000Hz。

音频信号数字化模拟信号与数字信号处理对比

时间上离散-采样幅度上离散-量化语音质量与采样频率

Nyquist原理语音质量与采样精度

量化噪声与量化比特数语音质量与数据率音频压缩的必要性人耳可以听到最高频率约20KHz。根据奈奎斯特抽样定理,为保证数字化的音频信号正确还原,采样频率必须大于等于音频信号的2倍,即40KHz。每样本用16比特量化,立体声码率达40K*2*16=

1.28Mbps声音的静听域静听阈是随频率变化的,人耳对2KHz~5KHz的声音比较敏感各人的听觉阈值不同声音的频域遮蔽现象一种频率的声音会阻碍听觉系统感受另一种频率的声音,这种现象称为声音的频域掩蔽效应。声音的时域掩蔽效应除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,称为时域掩蔽。时域掩蔽又分为超前掩蔽和滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,也就是说,一个强音发生时,除了提高同一时刻的听觉阈值外,还会提高强音发生前和发生后一段时期的听觉阈值。一般来说,超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms。音频压缩的可行性 由于人耳对声音的感知存在这些掩蔽效应,我们可以利用人耳心理模型对声音进行分析,将被掩蔽的信号去除,或用少量比特进行量化,只要保证量化噪声低于听觉阈值,则人耳听不出还原后的声音与原始声音的差别。子带编码技术就是利用这种掩蔽效应来实现的。音频压缩技术时域压缩技术子带压缩技术变换压缩技术时域压缩技术 直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分编码等手段对码流进行压缩。算法复杂度低,声音质量一般,压缩比小,编解码延时最短,一般多用于语音压缩、低码率应用场合。主要包括G.711、ADPCM(G.721,自适应差分脉冲编码)、LPC(线性预测编码)、CELP(码激励线性预测)等子带压缩技术

首先把时域中的声音数据变换到频域,对频域内的子带分量分别进行量化和编码,然后根据心理声学模型确定样本的精度,从而达到压缩数据量的目的。这种压缩方式会引入大量的量化噪声。然而根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉。技术复杂,编码效率、声音质量也高,编码延时相应增加,目前广泛应用于数字声音节目的存储、制作和数字化广播中。典型的代表有G.722、MPEG-1层Ⅰ、层Ⅱ子带压缩技术输入PCM音频信号经过一个多相滤波器组变换到频域里的多个子带中。输入声音信号同时经过心理声学模型,计算噪声掩蔽阈值,然后分析输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率,即信掩比。量化/编码部分根据信掩比决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值。最后通过成帧器将量化的子带样本和其他数据按照帧结构组装成位数据流。变换压缩技术 它与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。有代表性的变换压缩编码技术有DolbyAC-2音频压缩标准标准采样率(KHZ)码率(Kbps)G711864G7221664/56/48G728816G72988MPEG1-L2(MUSICAM)32/44.1/4832~384MPEG4-AAC32/44.1/4864/96/128注:96Kbps码率AAC的音频质量超过了128Kbps的MP3(MPEG1-L3)格式二、视频基础知识视频的色度空间三基色原理:任何颜色均由红(R)、绿(G)、兰(B)三种颜色分量组成;在电视领域,用亮度(Y)、蓝色差(U)、红色差(V)三个分量表示。两种方法相互之间的转换: Y=0.3R+0.59G+0.11B U=B–Y V=R–Y视频信号的数字化标清标准:ITU-RBT.601

Y、U、V三分量的抽样频率分别为13.5MHz、6.75MHz、6.75MHz。 每个样点的量化比特数用于演播室为10bit,用于传输为8bit。

Y、U、V三分量样点之间比例为4:2:2。高清标准:ITU-RBT.709

720P及1080i的Y、U、V三分量的抽样频率分别为74.25MHz、37.125MHz、37.125MHz。1080P50/60高达148.5M、74.25MHz、74.25MHz4:2:2采样4:2:0采样视频格式标清: PAL:隔行,720×576,50Hz NTSC:隔行,720×480,60Hz高清: 720P:逐行,1280×720,25/30/50/60Hz 1080i:隔行,1920×1080,50/60Hz 1080P:逐行,1920×1080,24/25/30/50/60Hz逐行与隔行逐行与隔行Kell系数=0.9Kell系数=0.7垂直分解力=行数xKell系数视频信号波形视频分辨率720P为标清的2.2倍,1080P为标清的5倍视频压缩的必要性标清数据量(720+360+360)×576×25×8=

165.888Mbps,加上行、场同步、消隐等时基信号,则码率高达216Mbps高清数据量(含时基信号) 720P/1080i:74.25×2×8=1.188Gbps 1080P50/60:148.5×2×8=2.376Gbps视频压缩的可行性时间冗余性相邻帧对应象素点的值往往相近或相同,具有很强的相关性视觉冗余性对亮度敏感,对色度不敏感对低频敏感,对高频不敏感

空间冗余性一幅视频图像相邻各点的取值往往相近或相同,相邻像素之间具有很强的相关性图像信号中存在的冗余Time时间冗余1sec2sec3sec4sec5sec6sec7sec空间冗余视频压缩的基本技术正交变换去掉空间冗余性,主要采用DCT

运动估计/补偿去掉时间冗余性色度下采样(4:2:0)去掉视觉冗余性MPEG2编码框图32DCT离散余弦变换1TVline(64us)720pixels“Luminance”700mV0mVfrequency1TVline(64us)720pixels“Luminance”0mVfrequencyDCT变换Y分量原始数据DCT系数以8x8块为单位,反变换后可完全复原原始数据,无损。量化量化是针对DCT系数进行的,量化过程就是以某个量化步长(QP)去除DCT系数。量化步长的大小称为量化精度,量化步长越小,量化精度就越细,则量化造成的失真就越小。去除视觉上不敏感的数据,是变换编码中的真正对数据进行有效压缩的步骤。不可逆过程,有损。CBR(恒定码率,QP变化)VBR(变码率,QP固定)量化Z型扫描15,0,-2,-1,-1,0,0,-1,0,0,0,0,0,0,…游程编码扫描后的DCT系数中存在很多零系数,可以只告诉解码器那些非零系数,并告之两个非零系数之间有多少个零,则解码器可通过插入零系数的方法恢复数据,这种方法称为游程长度编码。15,3,0,0,0,2,0,0,0,0,0,1,0,0,0,0,0,0,1…(0,15),(0,3),(3,2),(5,1),(6,1)…VLC编码

频繁出现的数据用较短的码字表示,不经常出现的数据用较长的码字表示,则平均码字长度最小。15,3,0,0,0,2,0,0,0,0,0,1,0,0,0,0,0,0,1(0,15),(0,3),(3,2),(5,1),(6,1)VLC:11111111,0111,00100110,000111,0000110--33比特原始:11111111,00000011,00000000,…,00000001--152比特运动估计运动估计以宏块(16x16)为单位进行在参考帧搜索匹配块,计算被压缩图像与参考图像对应位置上的宏块间的位置偏移,即运动矢量参考帧当前编码帧(-6,-1)运动补偿根据运动矢量,计算参考块与当前编码块之间的误差对误差进行DCT、量化、VLC编码解码时将该误差与参考块叠加,得到当前图像

帧间编码类型

I帧B帧P帧编码序列12345678910IBBPBBPBBPBBPBBPBB原始图像顺序编解码图像顺序色度下采样

4

5

0

1

2

3YCrCb编码的块噪声

码率越低,量化步长越大,则块噪声越明显。图像分辨率、帧率与码率的关系视频编码标准标准分辨率码率应用范围H.261176144~35228864kb/s~2.048Mb/s窄带电视会议、可视电话MPEG13522881.5Mb/sVCDH.262/MPEG-2352288~192011521.5~50Mb/s数字视频广播(DVB),DVD,高清电视(HDTV),宽带电视会议H.263/H.263+12896~14081152协议本身没有对码率进行限制,码率取决于传输通道。同等图像质量下,码率是H.261的一半,比MPEG-2节省30%主要面向窄带应用,但码率在600kb/s时可极大提高图像质量,现在基本上取代了H.261,应用于窄带电视会议、视频监控等场合视频编码标准三基色原理:任何颜色均由红(R)、绿(G)、兰(B)三种颜色分量组成;在电视原理里,用亮度(Y)、蓝色差(U)、红色差(V)三个分量表示。两种方法相互之间的转换:Y=0.3R+0.59G+0.11BU=B–YV=R–YR=Y+V标准分辨率码率应用范围MPEG-4176144~19201088移动视频编码速率为5~64kb/s,影视(352288~720576)应用速率可达15Mb/s。对于19201080的应用可达38.4Mb/s。比H.263节省17%,比MPEG-2节省43%。主要面向多媒体应用,如低比特率移动多媒体通信,流媒体,基于内容的交互多媒体数据库检索。监控场合应用较多。H.264/MPEG-4AVC12896~19201152同等图像质量下,码率比H.263节省50%,比MPEG-4ASP节省28%,比MPEG-2节省64%视频通讯(如电视会议、可视电话),数字电视广播,视频存储播放,监控H.264SVCH.264SVC编码器产生的码流包含一个或多个可以单独解码的子码流,子码流可以具有不同的码率,帧率和空间分辨率。分级的类型:时域可分级(Temporalscalability):可以从码流中提出具有不同帧频的码流。空间可分级(Spatialscalability):可以从码流中提出具有不同图像尺寸的码流。质量可分级(Qualityscalability):可以从码流中提出具有不同图像质量的码流。H.264SVCH.264SVC时域分级空域分级层间帧内预测:图像纹理复杂并且帧间搜索匹配不好的宏块,如果基本层采用的是帧内预测,增强层可以采用层间帧内预测模式提高编码效率。具体做法是把基本层的I块重建上采样得到增强层的预测,增强层只需要传原始图像和层间帧内预测的残差。EL(Enhancement

Layer)的参考,可以是来源于同一层的其他帧,也可以是低层上采样的帧。但是不可以是更高层的帧,那样的话丢弃高层的nalu会导致低层无法解码。三、视频会议终端及

高清视频接口简介5354FOCUS3800 FOCUS3800是迪威公司集合先进的视频编解码和传输通信技术,根据最新的视频会议终端流行趋势,推出功能强大的一款会议电视终端。该终端同时支持H.264、H.263算法,适应各种带宽和应用场合,可以达到FULLHD图像质量,色彩鲜明,画面清晰,音质优美。FOCUS3800具备IP和专线E1接口,对网络有更大的适应能力。FOCUS3800还支持双流,可以让数据应用更方便地融入。FOCUS3800会议电视终端和FOCUS8600MCU组成一个系统,适用于政府机关、军队、公安、教育、金融及电

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论