版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
视音频技术基础
济南局视频监控培训班专用教材
电务处王毅勇高工主讲1视频技术基础视音频技术基础内容概述数字视频技术图像视频技术的一些基本参数、指标及特性介绍数字音频技术数字音频技术的基本知识、相关参数指标多媒体应用系统目前比较常用的多媒体应用系统,如:流媒体所谓流媒体是指采用流式传输的方式在Internet播放的媒体格式。流媒体又叫流式媒体,它是指商家用一个视频传送服务器把节目当成数据包发出,传送到网络上。1视频技术基础第一部分:数字视频技术图像视频技术概述数字视频图像的主要参数指标数据量:分辨率、颜色深度、帧率等视频图像编码技术视频编码标准1视频技术基础一.图像视频技术概述1.什么是图像和视频图像(lmage)是人对视觉感知的物质再现。图像可以由光学设备获取,如照相机等;也可以人为创作,如手工绘画。图像可以记录、保存在纸质媒介、胶片等等对光信号敏感的介质上。随着数字采集技术和信号处理理论的发展,越来越多的图像以数字形式存储。因而,有些情况下“图像”一词实际上是指数字图像。视频(Video)泛指将一系列的静态图像以电信号方式加以捕捉、纪录、处理、存储、传送与重现的各种技术。视频技术最早是从阴极射线管的电视系统的建立而发展起来的,但是之后新的显示技术的发明,让视频技术包括的范畴更大了。基于电视的标准和基于计算机的标准,被试图从两个不同的方面来发展视频技术。现在得益于计算机性能的提升,并且伴随着数字电视的播出和记录,这两个领域又有了新的交叉和集中。1视频技术基础电视原理:图像的光栅扫描电视原理:电视同样也是采用动画的视觉原理构造而成的,其基本原理为顺序扫描和传输图像信号,然后在接收端同步再现。CRT显示器的显示原理是:显像管内部的电子枪(阴极)通电,发出电子束,经强度控制、聚焦和加速后变成细小的电子流,由偏转线圈控制电子的方向,穿过荫罩的小孔或荫栅并经荫罩或荫栅调正,然后高速轰击到荧光屏上的荧光粉,荧光粉被激活,就可以发出光来。R、G、B三色荧光点被按不同强度的电子流点亮,就会产生各种色彩。逐行扫描P隔行扫描I电子枪与荧光屏1视频技术基础2.图像的色彩色彩的来源——可见光物体由于内部物质的不同,受光线照射后,产生光的分解现象。一部分光线被吸收,其余的被反射或投射出来,成为我们所见的物体的色彩。所以,色彩和光有密切关系,同时还与被光照射的物体有关,并与观察者有关。(日常生活中的例子很多)*色彩是通过光被我们所感知的,而光实际上是一种按波长辐射的电磁能。1视频技术基础*波长约350-750纳米的光波能被人眼所接收,称为可见光。不同的色光实际也对应于不同波长的光波。a
电磁波谱*b
可见光谱电缆色谱安检仪--X射线1视频技术基础色彩的表现色彩表示技术是图像处理技术中的一个首要环节。自然界中的颜色成千上万,要处理这些颜色必须找到一种表示它们的简单方法;色彩表示技术是图象实现电子化、计算机化处理的基础;在一个典型的多媒体计算机系统中,常常涉及到用几种不同的色彩空间表示图形和图像的颜色,以对应于不同的场合和应用。(照相机中几种不同的色彩空间)数字图像的生成、存贮、处理及显示都与色彩空间密切相关,不同的色彩空间需要作不同的处理和转换。1视频技术基础色彩的混合*光的三基色:色光的基色或原色为红(R)、绿(G)、蓝(B)三色。色光混合:RedGreenBlue三原色以不同的比例相混合,可成为各种色光,但原色却不能由其它色光混合而成。互补色:*凡是两种色光相混合而成白光,这两种色光互为补色(ComplementaryColors)。(另一种色彩空间即将出现)图:RGB三色图(其中:R、C;G、M;B、Y互为补色。)RGB--白色(发光)CMY--黑色(吸光)1视频技术基础(1)RGB色彩空间采用R、G、B相加混色的原理来产生色彩的方法称为RGB色彩空间表示。在多媒体计算机技术中,用的最多的是RGB色彩空间表示。如sRGB(通用彩色标准)/AdobeRGB--相机、投影仪。RGB色彩空间采用物理三基色表示,因而物理意义很清楚,适合彩色显象管工作。然而这一体制并不适应人的视觉特点。因而,产生了其它不同的色彩空间表示法。根据三基色原理,用基色光单位来表示光的量,则在RGB色彩空间,任意色光F都可以用R、G、B三色不同分量的相加混合而成:F=r[R]+g[G]+b[B]
1视频技术基础(2)CMY色彩空间彩色印刷或彩色打印中油墨或颜料的三基色是青色(Cyan)、品红色(Magenta)和黄色(Yellow),简称为CMY。(黑色墨盒)理论上说,任何一种由颜料表现的色彩都可以用这三种基色按不同的比例混合而成,这种色彩表示方法称CMY色彩空间表示法。彩色打印机和彩色印刷系统都采用CMY色彩空间。这种色彩模型一般称为相减混色模型,用这种方法产生的颜色之所以称为相减色,主要是因为它减少了为视觉系统识别颜色所需要的反射光。1视频技术基础
CMY空间正好与RGB空间互补,也即用白色减去RGB空间中的某一色彩值就等于同样色彩在CMY空间中的值。
RGB空间与CMY空间的互补关系如下表所示:1视频技术基础RGB彩色空间和CMY彩色空间的表示法RGBCMY1视频技术基础(3)HSI色彩空间HSI色彩空间是从人的视觉系统出发,用色调(Hue)、色饱和度(Saturation)和亮度(Intensity)来描述色彩。通常把色调和饱和度通称为色度,用来表示颜色的类别与深浅程度。由于人的视觉对亮度的敏感程度远强于对颜色浓淡的敏感程度,为了便于色彩处理和识别,人的视觉系统经常采用HSI色彩空间,它比RGB色彩空间更符合人的视觉特性。在图像处理和计算机视觉中大量算法都可在HSI色彩空间中方便地使用,可以大大简化图像分析和处理的工作量。(主要是数字化处理)HSI色彩空间和RGB色彩空间只是同一物理量的不同表示法,因而它们之间存在着转换关系,如公式所示:1视频技术基础(4)YUV与YIQ彩色空间在彩色电视制式中,使用YUV和YIQ模型来表示彩色图像。在PAL彩色电视制式中使用YUV模型,其中的YUV不是那几个英文单词的组合词,而是符号,Y表示亮度,UV用来表示色差,U、V是构成彩色的两个分量;在NTSC彩色电视制式中使用YIQ模型,其中的Y表示亮度,I、Q是两个彩色分量。YUV色彩空间的特点:用亮度信号Y和两个色差信号U、V表示图象的色彩;如果只有Y信号分量而没有U、V分量,那么这样表示的图就是黑白灰度图;彩色电视采用YUV空间正是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题,使黑白电视机也能接收彩色信号。普通复印机也可复印彩色照片。1视频技术基础YUV色彩空间Y:luminance明亮度Y=0.299R+0.587G+0.114BU,V:chrominance色彩差异度U=B–Y,V=R-Y1视频技术基础
各种色彩空间1视频技术基础*二、
数字图像与视频的数据量数字图像的数据量图像的分辨率越高、图像深度越深,则数字化后的图像效果越逼真、图像数据量越大。如果是按照像素点及其深度映射的图像数据大小可用下面的公式来估算:图像数据量=图像的总像素×图像深度/8(Byte)一幅640×480、真彩色的图像,其文件大小约为:640×480×24/8≈1MByte;(640*480=307,200总像素)数字视频的数据量由多幅图像构成,用bit/s来表示;数字视频的比特率=每帧图像的数据量*帧率(帧/s)
1MByte*25帧/s=25bit/s(压缩前)1视频技术基础1.图像的分辨率:确定组成一幅图像的像素数目QCIF25kp)CIF(100Kp)601(300Kp)SVGA(500Kp)720P(1Mp)HDTV(1080P)(2Mp)1442884806007209001080176352720800115212801920HDTV分辨率(1080P)1920×1080像素数目:20736001视频技术基础2.像素深度:决定图像色彩的种类像素深度是指存储每个像素所用的bit位数像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数;例如,一幅彩色图像的每个像素用R,G,B三个分量表示,若每个分量用8位,那末一个像素共用24位表示,就说像素的深度为24,每个像素可以是2^24=16777216种颜色中的一种。一个像素点1视频技术基础21其他的像素深度:12、16bit12、16比特像素深度源于对彩色电视图像进行采样时,可以采用两种采样方法:一种是使用相同的采样频率对图像的亮度信号和色差信号进行采样;另一种是对亮度信号和色差信号分别采用不同的采样频率进行采样。如果对色差信号使用的采样频率比对亮度信号使用的采样频率低,这种采样就称为图像子采样(subsampling)。1视频技术基础22
子采样技术图像子采样在数字图像压缩技术中得到广泛的应用。在彩色图像压缩技术中,图像子采样是最简便的图像压缩技术;这种压缩方法的基本根据是人的视觉系统所具有的两条特性:一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉;二是人眼对图像细节的分辨能力有一定的限度,利用这个特性可以把图像中的高频信号去掉而使人不易察觉。子采样也就是利用人的视觉系统这两个特性来达到压缩彩色电视信号。1视频技术基础23试验表明,使用下面介绍的子采样格式,人的视觉系统对采样前后显示的图像质量没有感到有明显差别:(1)4:4:4这种采样格式不是子采样格式,它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本,这就相当于每个像素用3个样本表示——相当于24bit像素深度。(2)4:2:2这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本,平均每个像素用2个样本表示——相当于16bit像素深度(3)4:1:1这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示——相当于12bit像素深度。(4)4:2:0这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示——相当于12bit像素深度。1视频技术基础244:4:44:2:24:1:14:2:01视频技术基础《多媒体通信》25子采样的应用LuminanceChrominanceratio4:2:0(JPEG,MPEG-1,MPEG-2)4:4:4(MPEG-2)
(真彩24)4:2:2(MPEG-2)4:4:44:2:24:2:01视频技术基础3.帧率:视频中每秒所包含的图像(帧)数视频效果是利用人眼的视觉残留效益,由多帧图像产生笼中小鸟的例子;如右图;根据电视信号的特点,目前数字视频的帧率主要采用:30帧/S25帧每秒在实际应用中有时为了保证系统的QoS,可能会丢帧;1视频技术基础视频数据量的大小未压缩的视频数据量(单位:gigabytes)视频图像的尺寸1280x720(1.77)640x480(1.33)320x240160x1201920×1080×24×30÷8=1866240001视频技术基础*视频比特率的计算(经过压缩后)Width:图像宽度~pixels (160,320,640,720,1280,…)Height:图像高度~pixels (120,240,480,485,720,,…)Depth:颜色深度~bits (1,4,8,15,16,24,…)Fps:帧率~framespersecond(5,15,20,24,30,…)compressionfactor:压缩因子 (1,6,24,…)width*height*depth*fpscompressionfactor=bits/sec1视频技术基础各种应用的码率应用种类象素比特行象素数行数/帧帧数/秒亮色比比特/秒(压缩前)比特/秒(压缩后)HDTV819201080304:1:1746Mbps20~25Mbps(30-37)电视CCIR6018720480304:1:1124Mbps4~8Mbps会议电视CIF8352288304:1:136.5Mbps1.5~2Mbps桌上电视QCF8176144304:1:19.1Mbps128kbps可视电话8128112304:1:15.2Mbps56kbps举例:对于HDTV:1920*1080*12*30=746,496,000
其中12是此时的像素深度(4:1:1)如4:2:2像素深度是161视频技术基础图像数字化之后的数据量非常大,在通信网上传输时很费时间,在盘上存储时很占“地盘”,因此就必须要对图像数据进行压缩。压缩的目的就是要满足存储容量和传输带宽的要求,而付出的代价是大量的计算及一定的质量损失。几十年来,许多科技工作者一直在孜孜不倦地寻找更有效的方法,用比较少的数据量表达原始的图像。三、视频图像压缩1视频技术基础*1.图像数据为什么可以被压缩?图象数据的特征:原始图像信息存在着很大的冗余度,空间冗余:一帧数据之间存在着相关性,如相邻像素之间色彩的相关性等。时间冗余:帧间的冗余;人的视觉特征:在多媒体系统的应用领域中,人眼是图像信息的接收端。因此,可利用人的视觉特性如:对于边缘急剧变化不敏感(视觉掩盖效应);以及人眼对图像的亮度信息敏感、对颜色分辨率弱的特点;利用人的视觉特征,可以实现高压缩比,而解压缩后的图像信号仍有着满意的主观质量。1视频技术基础*2.图像压缩中的一些基本概念无损(Lossless)和有损(Lossy)压缩:无损压缩也即压缩前和解压缩后的数据完全一致。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩;一般的压缩算法都是这两种方法的组合;无损有损1视频技术基础*帧内和帧间压缩:帧内(Intraframe)压缩也称为空间压缩(Spatialcompression)当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似;帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑;帧内压缩一般达不到很高的压缩;帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧差值(Framedifferencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。压缩是为了存储,如车站夜间人流小冗余信息大压缩量大,存储小。1视频技术基础34
3.静态图像压缩:典型的帧内图像压缩系统发现空间冗余:DCT、小波变换等;消除较小的系数值:它们可以忽略;熵编码:Huffman、算术编码;1视频技术基础35静态图像压缩编码的基本过程DCT变换Zig-zag变换量化行程编码(Run-length
code)熵编码(Huffman
Code)1101...一维数据每一个快=8*8数据64个数据无损1视频技术基础各步骤的主要作用DCT块变换:实现图像数据从时域向频域的变换,目的是呈现图像数据的特点;量化:根据图像数据的特征,通过量化去除一些非重要数据(是图像损失的根源,也是压缩的重要来源);Z形变换:把变换后的交流系数按照频率逐渐增加的顺序排列,目的是使得量化后的0系数会连续排列,有利于行程编码(RLE);行程编码:无损编码的一种,实现数据无损压缩编码;熵编码:无损编码的一种,进一步实现数据的压缩编码;1视频技术基础37(1)DCT变换频率特性1视频技术基础38DCT变换结果分析(1)系数F00:直流系数(DC-coefficient)对应的是该数据块中的最低频率分量;它决定了这64个像素点的基本色调;通常相邻像素块的F00的值非常接近;其他系数(Fuv其中
u+v>0):交流系数(AC-coefficients)表示的是非0频的分类;一般数据量较小,且有随着频率增加而逐渐减少的趋势;1视频技术基础39DCT变换结果分析(2)图像重构中的反向InverseDCT(IDCT)如果忽略计算精度的问题,可以认为DCT+IDCT是一个无损的处理过程;实际应用中,由于精度的限制,DCT+IDCT是有损的;因此不同的JPEGdecoder还原的图像是有区别的;变换编码的目的:统计显示许多AC-coefficients具有趋于0的值,量化以后就为0;这样的特性有助于熵编码达到较高的压缩效果;1视频技术基础40(2)量化量化的目的使得更多的系数为0一种最简单的方法:用变换系数Fuv除以Quv,得到一个最接近的整数值;1视频技术基础41量化的特点Quantization过程:所有DCT-coefficients的量化过程是一个有损的变换过程图像中的一些高频分量被cutoff.JPEG中一般采用量化表进行量化,分别对应变换系数进行量化量化表中对于高频部分量化值变大对于亮度和色度的量化表,亮度量化表会相对更多的保留高频分量。获取高的压缩比是以牺牲图像质量为代价采用值较大的量化系数:数据量减少,但是信息丢失增加在JPEG中没有指定缺省的量化表1视频技术基础42量化带来的问题(1)高频分量的去除,会导致部分颜色信息的错误thehigherthequantizationcoefficients,themoredisturbanceisina8×8block1视频技术基础43量化带来的问题(2)量化还会导致边缘的块效应可见1视频技术基础44(3)DC系数的编码DC系数采用预测编码DCCoefficients:反映的是块的平均特性相邻块的DC系数相似:具有冗余这种冗余可以通过差分编码去除:e(n)=DC(n)–DC(n-1)编码时只对DC系数的差值e(n)编码1视频技术基础45(4)AC系数:Zagzig处理Z形处理的特点:按照频率逐渐升高的特点排列;目的是使交流变换系数的排列能够出现更多的连续0Zagzig结果1视频技术基础46(5)块编码举例originalimageDCTDCcomponentACcomponentsQuantizezigzagrun-lengthcodeHuffmancode111...codedbitstream<10bits(0.55bits/pixel)1视频技术基础47编码/解码后数据的比较原始block重构block误差1视频技术基础48举例Uncompressed
(262KB)Compressed(50)
(22KB,12:1)Compressed(1)
(6KB,43:1)误差1视频技术基础494.视频编码的关键技术:帧间编码系统关键技术:帧间预测编码运行估计与运动补偿运动矢量(移动矢量)1视频技术基础50压缩过程中的图像类型1视频技术基础510123456789101112IBBPBBPBBPBBI前向预测:ForwardPrediction双向预测(BidirectionalPrediction)0123456789101112IBBPBBPBBPBBI显示顺序编顺序码0312645978121011IPBBPBBPBBIBBMPEG压缩过程中帧的顺序1视频技术基础双向运动估计BI-DirectionalMotionEstimation1视频技术基础53I、P和B帧的编码特性I帧编码过程(与JPEG的编码过程基本相同)DCT(离散余弦变换量化变长编码(HUFFMAN编码)P帧编码过程运动估计运动补偿和误差产生DCT量化对运动矢量和系数进行变长编码B帧编码过程与P帧相同;不同的是:其运动估计和运动补偿的参照是前后两副图像;1视频技术基础54MPEG编码的结构1视频技术基础四、视频编码标准的发展1.主要的视频编码国际标准1视频技术基础各种标准的编码速率和应用场景1视频技术基础2.MPEG-4/H.264的基本特点MPEG-4:除了是一个新的压缩标准以外,还关注用户的交互性.
MPEG-4不同于以往的MPEG标准的重要特征是采用了新的:object-basedcoding:(基于对象的编码)
提供了更高的压缩效率,同时在视频混合、操作、索引和复原上也有新的提升.MPEG-4视频,可以利用可视对象(VO)通过简单的操作来合成和处理;
MPEG-4video的编码比特率覆盖了从5kbps到10Mbps.这样一个很宽的范围;可以和视频中单个的目标进行交互最终显示的场景是接收端对多个编码目标混合的结果。可以实现对视频内容的伸缩(scalable)编码策略;容错特性的提高;适合于对自然和合成视音频的编码1视频技术基础58MPEG-4AVObjects的基本特性视听场景是由‘objects’
(A&V)来构成“创作者”
可以在场景中组合对象(A&V,2D&3D)对象可以具有不同的属性可以是自然的和合成的A&V对象,可以是文本和图形,动画元素(animatedfaces),任意的形状或方块;可以对目标对象进行单独编码不同的单个可以有不同的编码方案;支持从低比特率到高质量的各种应用.1视频技术基础59视频对象处理举例1视频技术基础MPEG-4/H.264视频编码技术核心编码器1视频技术基础MPEG-4/H.264解码1视频技术基础3.AVS:我国的多媒体编码标准AVS是我国具备自主知识产权的第二代信源编码标准。AVS《信息技术先进音视频编码》系列标准的简称;AVS标准包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。1视频技术基础AVS的发展状况AVS产业化的主要产品形态包括:1)芯片:高清晰度/标准清晰度AVS解码芯片和编码芯片,国内需求量在未来十多面的时间内年均将达到4000多万片。2)软件:AVS节目制作与管理系统,Linux和Window平台上基于AVS标准的流媒体播出、点播、回放软件;3)整机:AVS机顶盒、AVS硬盘播出服务器、AVS编码器、AVS高清晰度激光视盘机、AVS高清晰度数字电视机顶盒和接收机、AVS手机、AVS便携式数码产品等。AVS具备三大特点:先进性——
我国牵头制定的、技术先进的第二代信源编码标准;自主性——
领导国际潮流的专利池管理方案,完备的标准工作组法律文件;开放性——制定过程开放、国际化;1视频技术基础第二部分:数字音频技术一、音频信号二、数字音频技术三、数字音频编码技术1视频技术基础一、音频信号1.声音的基本定义:声音是由于空气振动引起耳膜的振动,由人耳所感知。根据声波的特征,可把音频信息分类为规则音频和不规则声音。规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。1视频技术基础
*2.声音的三个要素是音调、音强和音色声音可以用一个简单的数学模型来表示:An:表示信号模型的幅度,与音强关联(音的强弱);ωn:表示信号模型的频率,与音调关联(音的高低);ψn:表示信号模型的相位,与音色关联(音的感觉特性);音强又称音量,即音的强弱(响亮)程度。音的基本特性的一种。音的强弱是由发音时发音体振动幅度(简称振幅)的大小决定的,两者成正比关系,振幅越大则音越"强",反之则越"弱"。音乐作品中的强弱变化叫做"力度"(钢琴电子琴区别),用文字或符号来标明,如f(强)、p(弱)等。声音的高低叫做音调。声音的三个主要的主观属性(即音量、音调、音色)之一。表示人的听觉分辨一个声音的调子高低的程度,音调又称音的高度(C、D、E、F、G、A、B调)。音调主要由声音的频率决定,同时也与声音强度有关。对一定强度的纯音,音调随频率的升降而升降;对一定频率的纯音、低频纯音的音调随声强增加而下降,高频纯音的音调却随强度增加而上升。一般说来,儿童说话的音调比成人的高,女子声音的音调比男子高。
音色指音的感觉特性。频率的高低决定声音的音调,振幅的大小决定声音的响度但不同的物体发出的声音我们还是可以通过音色分辨不同发生体的材料、结构不同,发出声音的音色也就不同(谁唱歌)。音色是声音的特色,根据不同的音色,即使在同一音高和同一声音强度的情况下,也能区分出是不同乐器或人声发出的,每一个人声音听着都不一样的原因是因为音色不同,同样的音量和音配上不同的音色就好比同样色度和亮度配上不同的色相的感觉一样。(当然音乐还有长短之分-音符)1视频技术基础*3.音频信号的指标频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。动态范围:动态范围越大,信号强度的相对变化范围越大,音响效果越好。信噪比:信噪比SNR(SignaltoNoiseRatio)是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好。
动态范围=20×log(信号的最大强度/信号的最小强度)(dB)1视频技术基础主要声音应用的频率范围1视频技术基础人类对于声音的认知范围丢弃1视频技术基础人类对于声音的认知范围人能否听到声音,不仅取决于人的听觉系统是否健全,还取决于声音的频率和强度。频率指的是物体每秒振动的次数。物体每秒振动1次,它的频率就是一赫兹,符号是Hz。一般来说,物体振动越快,频率越高,人耳感受的音调也越低。人耳可感受的声音频率范围在16~20000Hz之间,大于20000Hz的声音是超声,低于16Hz的声音是次声,这两种声音人耳都感受不到。声强指的是物体振动时所产生的声音能量或声波压力。在人耳听到声音的频率范围内,声能或声压越大,人主观感觉到的声音强度也越大。在实际应用中,表示声压级(SPL)的单位是分贝,符号是曲。在听力测试时为了方便起见,专家们将声压级转换成了听力级,即选一组健康青年正常耳,所听到各频率(125、250、500、1000、2000、4000、8000Hz)最小声音的平均值,在听力图表上分别定为0dB听力级(HL),也就是正常听力者,但正常人的听力也可波动在-l0dB至15dB之间。例如:听力的分贝数值在16~25,表示稍有听力下降。在人耳能感受到的频率范围内,对频率在1000~4000Hz的声音最敏感,而人类的言语频率(人们正常的说话频率)主要在500~3000Hz之间。据测定,大多数汉语语音频率在500~3000Hz,声强在10~50dB之间的区域内。所以,如果儿童在这个区域内的听力损失较严重的话,他就难以听到或听懂他人的讲话声,也不易通过听觉途径模仿说话了。1视频技术基础二、数字音频原理音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,由自然音源而得的音频信号必须经过一定的变化和处理,变成二进制数据后才能送到计算机进行再编辑和存贮。A/D计算机处理D/A声音电信号声音电信号1视频技术基础1.声音信号数字化声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这种采样称为均匀采样(uniformsampling);连续幅度的离散化通过量化(quantization)来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为均匀量化,否则就称为非均匀量化。1视频技术基础数字化的概念1视频技术基础2.数字音频的技术指标(1)采样频率(fs)采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特(HarryNyquist)采样理论:根据该采样理论,CD激光唱盘采样频率为44KHz,可记录的最高音频为22KHz,这样的音质与原始声音相差无几,也就是我们常说的超级高保真音质。一般的电话系统的采样频率是8KHZ;1视频技术基础(2)量化位数(采样精度Q):量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。
—量化有均匀量化和非均匀量化之分;1视频技术基础(3)声道数(n):有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。(4)数据通信速率:每秒钟数字音频信号产生的数据量数字音频的比特率=采样频率*量化位数*声道数=fs*Qn*n1视频技术基础三、音频编码算法1.编码的作用采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。CD-DA音乐光盘上的数据没有压缩每秒的数据量是1411kbit/s(44.1k*16*2)*(60*60)/8=635M(1小时)mp3音频数据每秒的数据量是128kbit/s128kbit/s*60*60/8=57.6M目的:在保证声音质量的前提下,减少数字音频信息的数据量;压缩算法包括有损压缩和无损压缩;1视频技术基础数字音频处理的基本过程量化:均匀、非均匀、自适应、矢量量化;编码:波形编译码、音源编译码、混合编译码1视频技术基础2.音频信号压缩方法分类(1)波形编译码器
波形编译码的想法是,产生一种重构信号(不利用音频信号本身的任何知识),它的波形与原始话音波形尽可能地一致。本质上,就是通过采样、量化的方法,以数字编码的方式来表现模拟的语音信号;一般来说,这种编译码器的复杂程度比较低,数据速率在16kb/s以上,质量相当高。低于这个数据速率时,音质急剧下降。最简单的波形编码是脉冲编码调制(PCM),它仅仅是对输入信号进行采样和量化。1视频技术基础PCM编码的基本过程1视频技术基础其它波形编码技术差分脉冲编码调制(DPCM):利用话音样本之间存在相关性,对预测的样本值与原始的样本值之差进行编码。自适应差分脉冲编码调制(ADPCM):DPCM编译码器对幅度急剧变化的输入信号会产生比较大的噪声,改进的方法之一就是使用自适应的预测器和量化器;子带编码(sub-bandcoding,SBC):输入的话音信号被分成好几个频带(即子带);变换到每个子带中的话音信号都进行独立编码,例如使用ADPCM编码器编码;在接收端,每个子带中的信号单独解码之后重新组合,然后产生重构话音信号。1视频技术基础(2)音源编译码器音源编译码的想法是从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。针对话音的音源编译码器叫做声码器(vocoder);1视频技术基础声码器的特点:声码器的数据率在2.4kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上。对于调制解调信号、传真信号等,采用此方法,效果很差;1视频技术基础(3)混合编译码混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔。波形编译码器虽然可提供高话音的质量,但数据率低于16kb/s的情况下,在技术上还没有解决音质的问题;声码器的数据率虽然可降到2.4kb/s甚至更低,但它的音质根本不能与自然话音相提并论。历史上出现过很多形式的混合编译码器,但最成功并且普遍使用的编译码器是时域合成-分析(analysis-by-synthesis,AbS)编译码器混合编码方式目前在,通道受限的系统中应用广泛;GSM手机应用的“规则脉冲激励编解码器”RPE;IP电话应用的码激励线性预测编解码器CELP;评价混合编码器的一个重要因素:延时1视频技术基础AbS编译码器的一般结构AbS编译码器把输入话音信号分成许多帧(frames),一般来说,每帧的长度为20ms。合成滤波器的参数按帧计算,然后确定滤波器的激励参数。从前图a)可以看到,AbS编码器是一个负反馈系统,通过调节激励信号可使话音输入信号与重构的话音信号之差为最小,也就是重构的话音与实际的话音最接近。这就是说,编码器通过“合成”许多不同的近似值来“分析”输入话音信号,这也是“合成-分析编码器”名称的来由。在表示每帧的合成滤波器的参数和激励信号确定之后,编码器就把它们存储起来或者传送到译码器。在译码器端,激励信号馈送给合成滤波器,合成滤波器产生重构的话音信号,1视频技术基础三种话音编译码器比较话音编译码器分成以下三种类型:波形编译码器(waveformcodecs);音源编译码器(sourcecodecs);混合编译码器(hybridcodecs)。一般来说,波形编译码器的话音质量高,但数据率也很高;音源编译码器的数据率很低,产生的合成话音的音质有待提高;混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。1视频技术基础3.主要的音频压缩算法1视频技术基础其它音频编码标准G.721,1990年被G.726取代:编码速率:16,24,32,and40Kbps编码方法:ADPCMG.722:应用:宽带电话0~8KHz,优于G.726技术:Subband+ADPCM
0~4KHzand4~8KHzsubbands
低频子带:48Kbps
高频子带:16Kbps总比特率:64KbpsG.728:性能优于:G.721
16Kbpsformatonly
采用LD-CELP(Low-DelayCELP)代替ADPCM;使用索引来表示激励码,可以使传输错误最小化;G.729:第一个实现8Kbps编码速率的音频CODEC
质量不逊G.726(32Kbps)
延时:小于16ms
具有噪声适应性;
CS-ACELP
ConjugateStructure-AlgebraicCELP特殊的码表结构有助于快速查询;后续的版本有G.729A和G.729B1视频技术基础声音质量的MOS评分标准声音质量的衡量方法声音带宽法等级由高到低依次是DAT(数字音频磁带)、CD、FM、AM和数字电话客观质量度量用信噪比(SNR)表示,主观质量度量度量方法类似于电视节目中的歌手比赛,由评委对每个歌手的表现进行评分,然后求出平均值有时同时采取两种方法评估,有时以主观质量度量为主1视频技术基础主观平均分(meanopinionscore,MOS)对声音主观质量度量比较通用的标准是5分制,各档次的评分标准见表分数质量等级失真级别5优(Excellent)无察觉4良(Good)(刚)察觉但不讨厌3中(Fair)(察觉)有点讨厌2差(Poor)讨厌但不反感1劣(Bad)极讨厌(令人反感)声音质量MOS评分标准1视频技术基础主要音频压缩标准的质量等级MOS:MeanOpinionScore:5(Excellent)~1(bad)1视频技术基础第三部分:多媒体应用系统多媒体通信系统简介流媒体技术流媒体系统及产品流媒体应用多媒体通信面临的问题1视频技术基础一、多媒体通信系统多媒体通信的标准多年来,国际电信联盟(ITU)为公共和私营电信组织制定了许多多媒体计算和通信系统的推荐标准,以促进各国之间的电信合作。ITU的26个(SeriesA~Z)系列推荐标准中,与多媒体通信关系最密切的7个系列标准如表所示:系列名主要内容SeriesG传输系统、媒体数字系统和网络SeriesH视听和多媒体系统SeriesI综合业务数字网(ISDN)SeriesJ电视、声音节目和其他多媒体信号的传输SeriesQ电话交换和控制信号传输法SeriesT远程信息处理业务的终端设备SeriesV电话网上的数据通信1视频技术基础互联网上的多媒体通信标准由互联网工程工作组(IETF)制定,主要的特点是,利用互网络的分布性和开放性;最著名的协议事SIP协议组在Internet上实现多媒体通信(会话)业务的控制协议;流媒体应用协议比如:RSTP等;RSTP是快速生成树协议,是为了解决STP收敛速度慢而产生的协议,有三点改进机制,你可以去查资料,它的缺陷在于RSTP只是加快了收敛速度,它和STP一样仍是个单生成树协议,因为是单生成树协议,所以不能做负载均衡。MSTP是多实例生成树协议,PVST和PVST+都存在一个缺陷:每个vlan一棵生成树对交换机性能很链路带宽都存在压力,MSTP可以将多个VLAN映射到一个实例中去,然后在每个实例之上运行生成树协议,好处就是负载均衡能力和CPU较低使用率,缺陷在于兼容性。你可以这样理解,STP/RSTP是基于端口的生成树协议,PVST/PVST+是基于vlan的,MSTP是基于实例的,1视频技术基础ITU-T定义的多媒体通信系统的发展历程20世纪90年代初开发的电视会议标准是H.320,它定义:通信的建立、数字电视图像和声音压缩编码算法;运行在综合业务数字网(ISDN)上,在64(56)kb/s传输率的通信信道上支持帧速率比较低的电视图像,而在2.048(1.544)Mb/s传输率的信道(即E1/T1信道)上可以传输CIF格式的满帧速率电视图像;在公众交换电话网(publicswitchedtelephonenetwork,PSTN)上的网桌面电视会议使用调制解调器,采用H.324标准;在局域网上的桌面电视会议(desktopvideoconferencing)采用H.323标准这是基于信息包交换的多媒体通信系统;目前主要的应用是针对互联网络因特网上的电视会议目前大部分都趋向于采用H.323标准和正在开发完善的SIP标准(IP电话),使用IP协议提供局域网上的电视会议,而全球的因特网电视会议目前还不能保证实时电视会议的服务质量。1视频技术基础3个主要的系列标准H.320H.323(V1/V2)H.324发布时间19901996/19981996应用范围窄带ISDN带宽无保证信息包交换网络PSTN图像编码H.261,H.263H.261,H.263H.261,H.263声音编码G.711,G.722,G.728G.711,G.722,G.728
G.723.1,G.729G.723.1多路复合控制H.221,H.230/H.242H.225.0,H.245H.223,H.245多点H.231,H.243H.323数据T.120T.120T.1201视频技术基础多媒体通信系统的整体结构示意图1视频技术基础*二、流媒体技术什么是流媒体技术1、概述流媒体是在Internet上提供即时影像和声音的新一代多媒体技术;互联网的普及和多媒体技术在互联网上的应用,迫切要求能解决实时传送视频、音频、计算机动画等媒体文件的技术,在这种背景下,流式传输技术及流媒体应运而生。VOD/AOD(Video/AudioOnDemand——
视/音频节目的点播,以下统称VOD)就是这一新型传输技术的典型应用,它近乎实时的交互性和即时性,使其迅速成为一种崭新的传播渠道。1)定义:在Internet(或Intranet)中使用流式传输技术的连续时基媒体就称为流媒体;通常也将其视频与音频称为视频流和音频流。流媒体实现的关键技术就是流式传输。1视频技术基础2、流媒体*在网络上传输视频、音频等多媒体信息,目前主要有下载(Download)和流式传输(Streaming)两种方式下载方式要考虑对客户端的存储需求和播放延时两个因素;在采用流式传输的系统中,客户不必等到整个文件全部下载完毕,而只需经过几秒或十几秒的启动延时即可播放。1视频技术基础3.流媒体应用中的协议应用情况浏览器WWW服务器播放软件流媒体服务器HTTP/TCP控制信息RTSP/TCP流RTP/UDPIP网实时流传输协议的应用1视频技术基础流媒体应用中的协议应用情况(续)1视频技术基础4.流媒体数据的传送方式单播与组播1视频技术基础(1)单播(unicast)在客户端与媒体服务器之间需要建立一个单独的数据通道,从一台服务器送出的每个数据包只能传送给一个客户机,这种传送方式称为单播。应用特点:每个用户必须分别对媒体服务器发送单独的查询,而媒体服务器必须向每个用户发送所申请的数据包拷贝。这种巨大冗余首先造成服务器沉重的负担,响应需要很长时间,甚至停止播放;管理人员也被迫购买硬件和带宽来保证一定的服务质量。(2)组播(多播:multicast)IP组播技术构建一种具有组播能力的网络,允许路由器一次将数据包复制到多个通道上。采用组播方式,单台服务器能够对几十台客户机同时发送连续数据流而无延时。应用特点:媒体服务器只需要发送一个信息包,而不是多个;所有发出请求的客户端共享同一信息包。信息可以发送到任意地址的客户机,减少网络上传输的信息包的总量。网络利用效率大大提高,成本大为下降。1视频技术基础(3)广播利用ip广播技术,向广播地址发送数据;特点:大量的广播包可能造成网络拥塞;一般不能跨越路由器;(4)单播、广播和组播比较使用单播发送时,需要将数据包复制多个拷贝,以多个点对点的方式分别发送到需要它的那些用户;使用广播方式发送,数据包的单独一个拷贝将发送给网络上的所有用户,而不管用户是否需要,上述传输方式会非常浪费网络带宽。组播吸收了上述两种发送方式的长处,克服了上述两种发送方式的弱点,将数据包的单独一个拷贝发送给需要的那些客户。组播不会复制数据包的多个拷贝传输到网络上,也不会将数据包发送给不需要它的那些客户,保证了网络上多媒体应用占用网络的最小带宽。1视频技术基础5.应用模式:点播与广播点播连接是客户端与服务器之间的主动的连接。在点播连接中,用户通过选择内容项目来初始化客户端连接。用户可以开始、停止、后退、快进或暂停流。点播连接提供了对流的最大控制,但这种方式由于每个客户端各自连接服务器,却会迅速用完网络带宽。(电视点播)广播指的是用户被动接收流。在广播过程中,客户端接收流,但不能控制流。例如,用户不能暂停、快进或后退该流。1视频技术基础1.一个完整的流媒体系统包括:编码工具:用于创建、捕捉和编辑多媒体数据,形成流媒体格式,可以由带视音频硬件接口的计算机和运行其上的制作软件共同完成;流媒体数据;服务器:存放和控制流媒体的数据;网络:适合多媒体传输协议或实时传输协议的网络;播放器:供客户端浏览流媒体文件*三、流媒体系统及产品1视频技术基础2.流式媒体的产品及格式到目前为止,Internet上使用较多的流媒体格式主要是以下三种:1、Realnetworks公司的RealMedia2、Apple公司的QuickTimer3、Microsoft公司的ASF1视频技术基础Microsoft流媒体技术与使用
1、概述WindowsMedia的前身是微软公司的Netshow产品,随着流媒体的广泛应用,推出了整套的流媒体制作、发布和播放产品,其服务器端的WindowsMediaServer产品在WindowsNTServerPack4上可以安装,并且集成在Windows2000Server中。WindowsMedia产品的一大特点是其制作、发布和播放软件与WindowsNT/2000/9x集成在一起,不需要额外购买,势必成为今后流媒体应用的主流产品。2.WindowsMedia技术(1)基本应用模式MicrosoftWindowsMediaService是一个能适应多种网络带宽条件的流式多媒体信息的发布平台,包括了流式媒体的制作、发布、播放和管理的一整套解决方案。1视频技术基础Windowsmedia系统的工作模式1视频技术基础四、流媒体应用主要应用多媒体新闻发布;在线直播;网络广告;电子商务;视频点播;远程教育;远程医疗;远程监控;网络电台;实时视频会议等流媒体教学系统1视频技术基础流媒体视频点播系统1视频技术基础移动通信中的流媒体应用3G网络中流媒体服务的架构GSN子网路由器1视频技术基础113五、多媒体传输的面临的问题1、相关问题分析多媒体信息的特点多媒体数据的海量性多媒体数据的集成性类型多种、处理起来要集中控制;多媒体通信的实时性多媒体通信的交互性多媒体数据的同步性1视频技术基础114多媒体新传输与通信网络的关系多媒体通信网络集成性(海量)同步性实时性交互性传输能力有限存储空间有限存在冲突相互适应1视频技术基础115*2.多媒体传输中应考虑的网络性能指标(1)吞吐量(Throughout)也称为:有效的网络带宽;习惯上也称为网络的传输速率;决定多媒体通信QoS的最关键因素吞吐量的问题够不够用的问题;稳定不稳定的问题吞吐量是指网络传送二进制信息的速率,也称比特率,或带宽。有的多媒体应用所产生的数据速率是恒定的。称为恒比特率CBR(ConstantBitRate)应用;有的应用则是变比特率VBR(VariableBitRate)d的。衡量比特率变化的量称为突发度:突发度=PBR/MBR其中MBR为整个会话期间的平均数据率,PBR是在预先定义的某个暂短时间间隔内的峰值数据率。1视频技术基础116吞吐量——视频应用的要求持续的、大数据量的传输是多媒体信息传输的一个特点。按照视频的质量可以将活动图像分为5个等级:(1)高清晰度电视(HDTV)。分辨率为1920×1080,帧率为30帧/秒,当每个象素以24比特量化时,总数据率在1.5Gb/s的数量级。若采用MPEG2压缩,其数据率大约在20~40Mb/s。(2)演播室质量的普通电视。分辨率采用CCIR601格式。对于PAL制式,在正程期间的象素数720×576(41万),帧率为30帧/秒,当每个象素以16比特量化时,总数据率为199Mb/s。若采用MPEG2压缩,其数据率大约在6~8Mb/s。(3)广播质量的电视。相当于模拟电视接收机所显示出的图像质量。若采用MPEG2压缩,其数据率大约在3~7Mb/s。(4)录像质量的电视。分辨率为广播质量电视的1/2,经MPEG1压缩之后,数据率约为1.4Mb/s(5)会议质量的电视。以CIF格式为例,帧率为10帧/秒以上,经H.263压缩后,数据率为128Kb/s1视频技术基础117声音可分为4个级别:(1)话音。其带宽限制在3.4KHz之内,以8KHz取样、8比特量化后,有64Kb/s的数据率。经压缩后,数据率可降至32Kb/s、16Kb/s,甚至更低,例如4Kb/s.(2)高质量话音。相当于调频广播的质量,其带宽限制在50KHz~7kHz,经压缩后,数据率为48~64Kb/s;(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育心理学题库综合试卷B卷附答案
- 2024年图书馆管理服务项目资金申请报告代可行性研究报告
- 五年级数学(小数乘除法)计算题专项练习及答案
- 文化自信背景下民族传统体育文化的传承与发展
- 鲁教版高三上学期期末地理试题及解答参考
- 2024年定制出口业务销售协议模板
- 保安公司门卫服务承揽协议范本
- 2024高品质彩钢房建设协议书
- 2024批次高品质片石购买协议
- 2024年健身机构业务合作伙伴协议
- 2023-2024学年北京海淀区首都师大附中初二(上)期中道法试题及答案
- (正式版)HGT 6313-2024 化工园区智慧化评价导则
- 二级公立医院绩效考核三级手术目录(2020版)
- 新苏教版六年级上册《科学》全一册全部课件(含19课时)
- 精密贴片电阻阻值对照表
- 第四章有机反应中的活性中间体
- 《Fishing with Grandpa》RAZ分级阅读绘本pdf资源
- 《VCS-仿真验证》ppt课件
- 亲子阅读ppt课件
- 爱心妈妈结对帮扶记录表
- 农贸市场建设项目装饰工程施工方案
评论
0/150
提交评论