《数字视听技术》课件第1章_第1页
《数字视听技术》课件第1章_第2页
《数字视听技术》课件第1章_第3页
《数字视听技术》课件第1章_第4页
《数字视听技术》课件第1章_第5页
已阅读5页,还剩227页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.1数字视听技术概述1.2信号的数字化1.3信号的调制与纠错1.4数据压缩技术的标准1.5视频数据压缩技术1.6音频数据压缩技术技能训练项目1激光视盘机符号识别技能训练项目2激光视盘机与外围设备的连接技能训练项目3激光视盘机的操作技能训练项目4激光视盘机的整机检验本章小结思考题第1章数字视听技术基础

1.1数字视听技术概述

数字视听技术是指应用数字编码方式来描述和表达图像、声音等各种媒体信息,进行存储后借助于数字信号处理技术进行处理,并通过音、视频重放设备再现声音和图像信息的一门新兴技术。视听技术经历了一个从模拟到数字的发展过程,早期的录音机、录像机和电视机视听产品,均为模拟式产品,从音、视频信号的获取、处理、存储到输出均采用模拟技术。随着数字技术的发展,CD机、DVD机、数字摄录机、数字电视机等数字视听产品已得到广泛应用。1.1.1数字视听技术的发展

数字视听技术的出现,把人们带入了一个图像更清晰、声音更逼真的领域。现代科技的飞速发展,使得视听产品升级换代日新月异。数字视听技术借助激光技术、网络技术、通信技术、计算机技术及存储技术的发展,其产品得到了长足的发展,使消费者充分享受到数字视听带来的乐趣。图1-1表示数字视听技术在不同技术应用领域的主要产品类型。图1-1数字视听产品的应用

1.激光视听技术

激光英文名是Laser,即Lightamplificationbythestimulatedemissionofradiation的缩写。激光技术应用在数字视听领域是基于其一个最重要的特点,即激光可以聚焦成能量高度集中的极小光点,这样就可以在一张直径仅为数厘米的光盘上以极高的密度记录下经压缩编码处理的数字音、视频信息,并且读取信号的激光头与光盘没有任何接触,不会造成光盘磨损,有利于长久保存节目源。20世纪70年代后期,荷兰飞利浦公司成功开发出光盘制造技术,日本索尼公司在系统软件方面也取得了较大突破,完善了数字音频信号的编码、解码和纠错的系统软件,解决了机械振动、灰尘污染、碟面划伤、制造缺陷等对光盘记录和播放的影响,为激光视盘机大规模商业生产打下了一定基础。

1980年,飞利浦、索尼、宝丽金等35个世界制造商就视盘机的信号记录格式和光盘制造材料等技术规格达成了协议,形成了CD光盘国际标准。1982年飞利浦和索尼公司联合开发制造了商用数字视盘机,即CD-DA,简称CD机,主要用于记录音乐节目。为满足不同的需求,在CD机的基础上不断开发出新的品种,形成了CD系列产品。主要有CD-G、CD-ROM、CD-I、CD-R等,这一阶段的产品采用的都是MPEG-1音、视频编码标准。

DVD光盘是DigitalVideoDisc(数字视频光盘)的简称,后来则称为“DigitalVersatileDisc”,即“数字通用光盘”,它是在VCD视盘机基础上发展起来的,将图像和伴音信号记录在CD大小的光盘上,使用了比CD激光头波长更短的激光管,其信号记录密度也大大高于CD盘片,其整机性能得到了很大的提高。

在画面上,DVD采用MPEG-2解压缩标准。比以往的VHS录像和MPEG-1标准要清晰得多,VHS和MPEG-1压缩标准的解析度最多达到240线,而MPEG-2解压缩标准能达到500线以上,可与电影播放质量相媲美。在音效上,DVD光盘可以提供杜比数码环绕立体声效果,就是DolbyAC-3-5.1声道效果。DolbyAC-3-5.1是一种全数字化的音频编码技术。它提供6个完全独立的声道,即两个全频带主声道、两个全频带环绕声道、一个全频带中置声道和一个1/10频带的重低音声道。通过这6个声道,使观众明显感觉到电影院那种身临其境的立体效果。近年来,DVD视盘机又有了新的发展,逐行DVD、高清DVD、蓝光DVD等出现在人们的视野。2002年,由13家国际知名厂商联合宣布成立蓝光光盘组织(Blue-rayDiscFounders),宣布支持采用蓝色激光DVD存储技术制定出新的高密度DVD标准——Blue-rayDisc(BD)。现在所说的“蓝光”、“蓝光碟片”指的是Blue-ray和HDDVD的泛称,因为两者都是使用蓝光波长的激光。Blue-ray是专指Sony和Phillips合作研发出的规格。HDDVD是东芝所说的HDDVD技术。Bluedisc和HDDVD都是基于蓝色波段的激光头,因此都可以称为蓝光,蓝光是对下一代光盘载体的统称。从技术层次看,虽然现在的DVD在存储的密度及读写速度方面较之CD已经有了长足的进步,但DVD仍旧采用的是红色激光波段进行数据的读取和刻写,使得在光存储的密度以及读写速度方面的提升受到了限制。而新一代的蓝光DVD技术采用全新的蓝色激光波段进行工作,光盘存储容量在原来的DVD的基础上扩大了将近5倍,使得存储的容量有了很大的突破。

2.网络视听技术

近年来,随着通信技术综合化、数字化、智能化和个性化的发展,以及计算机网络技术的日益成熟,在网络平台上实现语音、数据和图像传输等多种业务已经成为通信行业发展的目标和必然趋势。数字视听技术在电话网(包括固定和移动电话网)、广电网、计算机网上的应用取得了迅猛发展,得到了广泛应用,如视频点播、在线影院、远程医疗、远程教育、交互式电视等,满足各个行业网络化发展的需要。随着计算机性能和网络通信技术的发展,人们开始借助于网络浏览信息、交换数据和商业交易。而图像、视频等多媒体业务已逐渐成为信息处理领域中主要的信息媒体形式。因此下一代网络(NGN)将语音、数据、视频等多种业务集于一体,它是一个建立在IP技术基础上的新型公共电信网络。目前,下一代网络还没有完全投入运行,所以互联网就成为音、视频传输的重要手段。

在网络上以数据流的方式实时发布音频、视频多媒体内容的媒体技术叫流媒体技术,流媒体的技术应用主要表现在如下几个方面。

1)视频点播

随着计算机技术的发展,流媒体技术越来越广泛地应用于视频点播(VOD)系统。VOD系统是指在用户需要时随时提供交互式的视频服务业务。目前VOD技术逐渐趋于完善,并广泛应用于局域网及有线电视网。它能对单个用户提供大量的影片、视频节目、游戏、信息以及其他服务,其区别于传统视频节目接收方式的交互性表现在主动性和选择性强,用户对通过网络传送来的节目拥有播放控制能力。流媒体的视频直播应用突破了网络带宽的限制,实现了在低带宽环境下的高质量影音传输,其中的智能流技术保证不同连接速率下的用户可以得到不同质量的影音效果。但音、视频文件的大容量仍然阻碍了VOD技术的进一步发展。由于服务器端不仅需要大容量的存储系统,同时还要承担大量数据的传输,因而服务器根本无法支持大规模的点播。同时,由于局域网中的视频点播覆盖范围小,用户也无法通过Internet等网络媒介收听或观看局域网中的节目。

2)视频会议

市场上采用流媒体技术作为核心技术的视频会议系统并不占多数。视频会议是流媒体技术的一个商业用途,采用流媒体格式传送音、视频文件,使用者不必等待整个影片传送完毕就可以实时、连续地观看,虽然在画面质量上有一些损失,但就一般的视频会议来讲,并不需要很高的图像质量。当然,流媒体技术并不是视频会议的必需选择,但对视频会议的发展起了重要的推动作用。

通过流媒体进行点对点的通信,最常见的就是可视电话。只要两端都有一台接入Internet的电脑和一个摄像头,在世界任何地点都可以进行音、视频通信。此外,大型企业可以利用基于流媒体的视频会议系统来组织跨地区的会议和讨论。

3)远程教育

电脑的普及、多媒体技术的发展以及Internet的迅速崛起,给远程教育带来了新的机遇。越来越多的远程教育网站开始采用流媒体作为主要的网络教学方式。在远程教学过程中,最基本的要求就是将信息从教师端传到远程的学生端,需要传送的信息可能是多元的,如视频、音频、文本、图片等。将这些信息从一端传送到另一端是实现远程教学需要解决的问题,在当前网络带宽的限制下,流媒体传输将是最佳选择。学生在家通过一台计算机、一条电话线、一个调制解调器就可以参加远程教学。教师也无需另外做准备,授课的方法基本与传统授课方法相同,只不过面对的是摄像头和计算机而已。使用流媒体的VOD技术还可以进行交互式教学,达到因材施教的目的。像RealSystem、Flash、Shockwave等技术就经常应用到网络教学中。学生可以通过网络共享学习经验。大型企业可以利用基于流媒体技术的远程教育对员工进行培训。

4) Internet直播

随着宽带网的不断普及和流媒体技术的不断发展。冲浪者能够在Internet上直接收看体育赛事、商贸展览等,厂商可以借助网上直播形式将自己的产品和活动传遍全世界。网络带宽问题的改善促进了Internet直播的发展,Internet直播已经从实验阶段走向实用,并能够提供较满意的音、视频效果。流媒体技术的发展,实现了在低带宽环境下提供高质量的音、视频信息;保证不同连接速率下的用户能够得到不同质量的音、视频效果;减少服务器端的负荷,同时最大限度地节省带宽。流媒体在Internet直播中充当着重要角色。

5)全数字视频网络监控系统

数字视频压缩技术已经取得较大的进展,MPEG-4、H.264等新的视频压缩格式使得在保证较高图像质量前提下的视频码率有效地减小到不足1Mb/s,甚至在不足100kb/s的带宽下也能传输质量很好的CIF幅面的全实时图像。另外,网络环境也取得了前所未有的进展,ADSL、HFC等各种网络接入方式迅速普及到各种用户应用领域,基于网络的电视监控系统已成为电视监控系统实现方式的主流模式,无论系统大小,几乎都以该系统是否有网络接口作为评判系统是否具备了先进性的依据之一。

3.其他新型视听技术

1) MP3与MP4

MP3(MPEG-1Layer3)是当今较流行的一种音频格式,全称为MPEG(MPEG:MovingPictureExpertsGroup)AudioLayer3。它是基于MPEG-1第三层音频(正式名称11172-3)压缩算法的一种(Layer3)。MP3是一种有损压缩,它是基于人耳的听觉特性来提高压缩率的一种编码算法。在基本上保持CD音质的前提下,MP3的数据压缩比高达1∶12,一首4分钟的歌曲约3~5Mb,但音质仍然相当高。

MP4使用的是MPEG-2AAC技术,AAC俗称A2B或高级音频编码(AdvancedAudioCoding)。其中,MPEG-2是MPEG于1994年11月针对数码电视(数码影像)提出的。它的特点是音质更加完美而压缩比更大(1∶15)。MPEG-1支持采样率为32kHz、44.1kHz和48kHz的单声道及双声道编码,而Layer3预设为32~320kb/s。MPEG-2则是对MPEG-1的向后兼容多声道扩展方案,它增加了一个“低频扩展”声道,从而提升至5个声道编码,比特率的变化范围增至1Mb/s。而MPEG-2AAC在采样率为8~96kHz下提供了1~48个声道可选范围的高质量音频编码。

MP4并不是MPEG-4或者MPEGAudioLayer4。MPEG-4是一种多媒体应用技术规范,它提供了交互使用图像、多媒体的合成技术,主要体现在范围极广的比特率下自然合成音频的编码和组合。它是一种开放型的技术,用一种新规范包容了所有多媒体应用技术。

2)多媒体计算机技术

多媒体计算机技术(MultimediaComputingTechnology)是指计算机综合处理文本、图形、图像、视频和音频等多种媒体信息,使多种信息建立逻辑链接、集成为一个系统并具有交互性的技术。多媒体技术的基本特征是信息载体多样性、集成性和交互性。人机相互交流是多媒体最大的特点,没有多媒体,对于电视、电影,你只能在一旁欣赏,而在多媒体上,你可以从图形到颜色都予以修改,你可以参与其中,改变剧情,叫演员按照你的意思演出。要把一台普通的计算机变成多媒体计算机要解决的关键技术是:①视频、音频信号获取技术;②多媒体数据压缩编码和解码技术;③视频、音频数据的实时处理和特技;④视频、音频数据的输出技术。数字视听技术在PC机应用中主要有4个发展阶段。第一阶段,数字视频、音频只在一些特定的专业领域应用。这主要是从事影视制作的专业人员利用计算机数字视频进行编辑、特殊效果处理等,这些功能仅是数字视频的少部分,基本上代表了用最小的代价在硬件上完成数字编辑。第二阶段,可以在计算机上看到视频实时显示,需要有外部视频源。第三阶段,数字音、视频在专业领域的广泛应用。可以捕获视频序列,将视频序列压缩后存储起来,随时可以再播放。具体实现有两种捕获视频序列的方法:—种是软件方法,此法压缩成本低,但所支持的视频显示窗口不能太大;另一种是硬件方法,此方法要比软件方法的压缩快得多,所支持的视频窗口也可以较大,但成本较高。另外,此阶段在标准化方面还不成熟,所以尽管存在许多视频获取方法,但不能保证获取的视频能在其他文件上使用。第四阶段,数字音、视频技术的标准化与大众化。对数字视频如何存成文件进行了标准化,AVI(AudioVideoInterleaced)成为标准文件格式,数字视频不再是特殊用途的工具了,加上压缩/解压技术运用,使数字视频文件存储在PC系统成为可能并能在此基础上进行音、视频文件的编辑和处理。多媒体技术使数字视听技术、计算机技术和通信技术3大信息处理技术紧密地结合起来,为信息处理技术发展奠定了新的基石。1.1.2数字视听设备的种类与特点

1.数字视听设备的种类

1)激光视听设备

激光视听设备是采用光盘存储数字音、视频信息,通过激光读取信息的数字设备,主要包括CD机、VCD机、DVD机等,新的产品有HDDVD(高清DVD)和蓝光DVD。

2)网络视听设备

网络视听设备是利用通信网络进行图像和声音通信的数字设备,包括会议电视、可视电话、视频点播、数字闭路电视以及Internet上的各项应用等。

3)便携式视听设备

便携式视听设备是能够随身携带的数字视听设备,目前在市场上普及的有MP3播放器和MP4播放器等。

2.数字视听设备的特点

数字视听设备与模拟视听设备相比,具有如下几个方面的特点。

1)数字化

数字技术在越来越多的音、视频产品中应用,模拟视听产品已渐渐退出历史舞台。继激光数字视听产品取代原来的模拟录音、录像机后,我国电视数字化的进程明显加快,模拟信号向数字信号过渡全面展开。这不仅体现在单一数字设备的改进和创新上,如出现了数字摄像机、录像机、特技机、切换台等大批运用数字技术的设备,而且大规模、整体性的数字系统也日趋完善,出现了全数字电视演播室、全数字电视转播车、数字卫星新闻采集(DSNC)转播车等。这种数字化还正向全电视系统纵深发展,相继出现了地面数字广播(DVB-T)、数字卫星直播用户(DTH)等。

2)集成化

随着数字电子技术的发展,一块芯片上可以集成越来越多的音、视频信号的处理功能,使产品的用途更广,体积更小。

3)网络化

现代的数字视听产品不仅能提供高清晰度的图像和高保真的声音,而且还有多种用途,如点播节目、网上购物、网上银行、网际漫游等,可以促进电视、电脑、通信三者的融合,成为信息高速公路进入家庭的捷径。技术人员已经拟定了一套适应数字视听产品相互连接的家庭网络的基本格式。这套方案的确立,使未来家庭数字视听产品之间可以实现相互控制操作。

4)个性化、人性化

数字视听产品设计将突出个性化和人性化。激烈的竞争促使生产者不断对消费市场进行细分,推出满足个性化需求的新技术、新产品,像大屏幕液晶电视、大容量快速存储技术、技术含量高的数码影像产品都更多地体现出人性化设计的特点。

1.2信号的数字化

1.2.1模拟信号与数字信号

1.模拟信号及其特点

模拟信号是指在时间轴上连续变化的信号。对于模拟信号,可以通过相对应的一些参数(如频率、周期、幅度等)来描述其变化的情况。模拟信号虽具有变化直观、形象等特点,但容易受到干扰,而且其所表示的范围较小,精度相对较低。

2.数字信号及其特点

数字信号是指用一系列数据组来表示的信号,数字信号在时间轴上是离散的,而且表示数字信号幅度的数字量也是离散的。数字信号只有0或1两种状态,因此,它具有抗干扰能力强、精度高、表示的动态范围宽、稳定性高、便于存储和变换等一系列优点。

由于CD光盘上记录的是数字化音频信号,VCD/DVD光盘上记录的是数字化的音频和视频信息,因此,在将模拟的音频和视频信号记录到光盘之前,必须对其进行数字化处理。1.2.2音频信号的数字化

将模拟的音频信号变化为数字信号,必须经过采样、量化和编码3个主要过程。图1-2是模拟信号数字化的过程示意图。图1-2模拟信号的数字化过程

1.采样

采样是将模拟信号变换为数字信号的第一步。所谓采样,就是以一定的频率在时间轴上对模拟信号离散地进行取样,用离散的样本值代替原来连续的信号波形的过程。采样时,在一定的时间范围内,采样时间间隔越小,采样点越多,因而采样频率等于采样时间间隔的倒数。

在信号的数字化过程中,采样频率和每个时刻的采样值非常重要,它们决定了波形的重放精度。采样频率越高,采样的周期越短,丢失的信息就越少,经过数字化处理后与原来信号间的误差就越小,精度也越高。图1-2(a)所示为采样脉冲与模拟信号的关系示意图。在实际应用中,并不是无限地追求高精度,而是要求精度满足要求就可以了。根据奈奎斯特采样定理,只要采样频率大于或等于模拟信号中最高频率的2倍,就可以不失真地恢复出原模拟信号。例如,音频信号的最高频率是20kHz,采样频率应大于或等于40kHz。

在实际应用中,为了能与数字式磁带录音机PCM处理器使用的采样频率(44.1kHz)兼容,在录制CD时,一般采用44.1kHz作为采样频率。

2.量化

由采样获得的信号,虽然在时间上是离散的,但其在幅度上仍然是连续的信号。要把采样保持后得到的信号在幅度上变换成离散的信号,必须对其进行量化处理。

所谓量化,是指将各个时刻波形的幅值(采样值)用有限位的二进制数来表示(1位二进制数称为1bit)的过程,实质上是通过四舍五入的方法将每一个采样值归并到某一个相邻整数的过程。如果用n位二进制码来表示一个量化级(或称量化电平级数),则它所能够表示的量化级的总数为

M = 2n

这样,当选用4位二进制数时,它只能代表0~15共16个十进制数,用它来量化时,就只能代表0~15个电压值(等级);若选用16位二进制数时,它可能代表0~65535共65536个十进制数,用它来量化时,就可以代表0~65536个电压值(等级)。对CD中的音频信号,采用的量化位数为16,相应音频信号的动态范围理论上可达到

20lg216 = 96dB音频信号的量化示意图如图1-2(b)、(c)所示。由图1-2(b)、(c)可见,经过量化处理后,量化值与采样值之间产生了误差。这种由于量化引起的输入信号与输出信号之间的误差称为量化误差。

量化误差对信号来说就是量化噪声。量化噪声的大小取决于量化级数的多少,即所使用的二进制位数的多少。位数越多,量化等级越细,量化噪声就越小。通常,各种信号量化噪声的信噪比(S/N)可表示为

(1-1)其中,b为量化位数,m为由信号的统计性质决定的常数,对正弦信号m=3.01。由此可见,对一量化位数为16的正弦信号,其信噪比接近98dB。

由于在CD系统中,对音频信号的采样频率为44.1kHz,若量化位数为16,对立体声音频信号进行数字化时,每秒种要传送的码元数量,也就是码率(或称数据传输率)为

码率 = 采样频率 × 量化位数 × 2 

= 44.1 × 16 × 2 = 1.4112Mb/s

若考虑到误码检出和误码校正用码的要求,还要增加20%~30%的冗余脉冲,则需传送的码率为2Mb/s,为此要求设备的带宽必须在1~1.5MHz。

3.编码

编码是将已量化的各电平值用二进制数来表示的过程。经过编码后,一个模拟信号就可以用一系列的二进制数字来表示。信号的编码示意图如图1-2(d)所示。

编码后形成的二进制码为数字信号,在电路中用脉冲的有无,即高电平“1”和低电平“0”来表示。“1”为有脉冲,“0”为无脉冲,这些脉冲的幅度和宽度均相等。由此形成的脉冲信号称为脉冲编码信号,其过程用PCM(PulseCodeModulation)表示,即脉冲编码调制。对于音频信号,数字信号的波形与图1-2(d)中所示的波形会有所不同,它不完全在横坐标(即零电平)的上方,而是在零电平的上、下变化。因此,为了能够正确表示在零电平上、下方的正、负数,必须用二进制数的补码来表示。同时,当补码的所有位均为0或均为1时,它所代表的数值接近于零,这一特点对于防止系统故障是非常有利的。1.2.3视频信号的数字化

1.视频信号的特点

如前所述,音频信号的频率范围为20Hz~20kHz,而且在此频率范围内是连续变化的模拟信号。当采样频率为44.1kHz,并采用16位的量化位数时,其码率为2Mb/s。

视频信号与音频信号相比,具有一些明显的特点。首先,视频信号是由亮度信号、色度信号、同步信号、消隐信号等组成的,频率范围为0~6MHz。其次,在视频信号中,同步信号与消隐信号是固定不变的,而变化的亮度与色度信号位于消隐信号之间,这样就使得亮度和色度信号被消隐信号分成一段一段的信号,形成在时间轴上不连续的信号。为此,对视频信号的数字化分为全信号数字化和分量数字化两种基本方式。全信号数字化是指对复合全电视信号直接进行数字化。这种方法相互间的干扰较大,而且当电视制式不同时,解码方法也不同。

分量数字化是指对亮度信号Y、色差信号(R-Y)、(B-Y)分别进行数字化,然后采取时分复用制进行处理。这种方法可以避免反复编码和解码的过程,而且亮度信号与色差信号分开处理,相互间的影响较小,特别是可以将625/50制和525/60制统一起来,是目前普遍采取的方法。

2.视频信号的采样结构与采样频率

1)采样结构

对于音频信号,由于其在时间轴上是连续的,因此,对采样点的结构没有特殊的要求。但对于视频信号来讲,由于其在时间轴上并不是连续的,而且采用隔行扫描时奇数行与偶数行都存在半行结构,所以,在采样时就存在着采样点的分布问题。这是因为,若采样频率不是行频的整数倍,那么,采样点就可能发生重合,使图像的质量下降。目前,对视频信号数字化时,都采用固定型正交采样结构,采样频率为行频的整数倍,而且使每一场中的采样点都对齐且重合。

2)采样频率

根据奈奎斯特采样定理,采样频率与信号带宽有一定的关系。对于625/50制式,其扫描带宽为5.8~6.0MHz;对于525/60制式,其扫描带宽为5.6MHz。考虑到采样后的混叠噪声要足够小,要求采样频率应为被采样信号的2.2~2.7倍。因此,对于PAL制,采样频率至少应为12.72~13.2MHz。

另外,为了使625/50和525/60两种扫描制式兼容,应使用同一种采样频率。626/50和525/60的行频分别为15625Hz和15734Hz,二者的最小公倍数为2.25MHz。综上所述,亮度信号的采样频率应大于13.2MHz,而且是2.25MHz的6倍,选13.5MHz。

在确定色差信号的采用频率时,考虑到色差信号CB、CR的带宽小于2MHz,为了降低采样后的混叠噪声,保证采样频率为行频的整数倍及制式的兼容性,色差信号的采样频率定为6.75MHz,为亮度信号采样频率的一半。而且,该频率也是PAL制行频的432倍,是NTSC制的429倍。

3)视频信号的量化位数与码率

被处理信号的信噪比与量化位数有着密切的关系,若被量化的信号是单极性信号,则信噪比可由下式确定:

=

6n +

10.8dB(1-2)

式中,n为量化位数。由此可见,随着量化位数的增加,信噪比相应得到提高,而且每增加一位,信噪比可提高6dB,但同时也会使电路的复杂性和设备的成本大大提高。综合考虑,电视信号的量化位数一般取8位较为合理,此时的信噪比可达59dB。在分量数字化中,由于亮度信号的采样频率为13.5MHz,两个色差信号的采样频率为6.75MHz,量化位数都是8bit,因此

码率 = 13.5 × 8 + 6.75 × 8 × 2 = 216Mb/s

可见,视频信号传送的码率要比音频信号的码率(2Mb/s)高出100倍以上。

4)电视信号的数字化标准

电视信号数字化标准有2∶1∶1、4∶2∶2和4∶4∶4等格式。DVD视盘机采用的是4∶2∶2标准,图像水平清晰度达500线,如表1-1所示。其采样频率为

Y∶CR∶CB=13.5MHz∶6.75MHz∶6.75MHz

如果将亮度信号和色差信号的采样频率都减少一倍,就构成了2∶1∶1标准,当然每数字行的点数也要减少一倍,这就是VCD的标准,其图像水平清晰度可达250线。

5)视频压缩编码

根据上述分析可知,即使按照2∶1∶1的低档标准编码的电视信号,其传输码率也将达到108Mb/s,要求带宽高达100MHz。这样,将给信号的存储、录放处理和传输等带来巨大的困难。利用频带压缩编码技术(也称码率压缩)可在不降低图像质量的前提下降低码率。频带压缩的方法有3种,即同步信号去除、高效编码和DCT编码。

(1)同步信号去除。

由于电视信号在行场的逆程期间不携带图像信息,因此,可以在传输过程中将其去除,而只传送光栅可见部分的取样点,即只对有效行进行数字化处理,处理完成后再嵌上行、场同步信号。这一方法在电视画中画技术中得到采用,可以减少17%的码率。

(2)高效编码。

高效编码是利用人眼的视觉惰性和电视信号的统计特性来减少码率的一种编码方式。人眼的视觉惰性有两个明显的特点:一是视觉检测有一个门限值,低于该门限值的误差不会被发觉;二是该门限值会随着时间和空间图像的内容而变化。对于第一点,在编码时,可以在视觉门限值较小的图像部分将取样频率或量化位数取得高一些,而在视觉门限值较高的图像部分,采用较低的取样频率或量化位数,这样,就可以在不降低图像质量的前提下降低传送的码率。对于第二个特点,可对帧间变化快的运动图像,适当降低采样频率,此时虽然帧内图像的水平和垂直分辨率有所下降,但由于这种运动图像的视觉门限值较高,所以不会被发觉;对于帧间变化较慢的静止或慢运动图像,因其视觉门限值较低,要求有较高的分辨率,不能降低其采样频率。为此,可采用每两帧传送一次,在快速运动部分将帧内频率降低一半,这在视觉上不会感觉到图像质量的下降。

(3) DCT编码。

DCT(DiscreteCosineTransform)变换也称离散余弦变换,它是一种数字编码的变换方式。在正常情况下,大多数图像信号中的低频分量都要比高频分量的幅度大,水平线和垂直线出现的几率比斜线出现的几率大。因此,可以采用DCT变换的方式,将取样后的图像样值进行变换,形成新的编码序列,以获得更高的编码效率。

DCT变换是一种傅里叶变换。对于二维的电视图像来讲,对应的二维DCT变换与反变换的表达式为

(1-3)

(1-4)其中,式(1-3)为DCT的正变换,它可以将像素的采样值变换成频率系数;式(1-4)为DCT的逆变换,它可以将频率系数还原成像素的采样值。式中的x,y,u,v =

0,1,2,…,7;

f (x,y)是像素的位置函数;F(u,v)是对应于f (x,y)中每个像素经DCT变换后的系数函数;C(u)、C(v)是常数,当u=v=0时,C(u)

= C(v)

=

1/,当u和v不为零时,C(u)

= C(v)+=

1。当u = v =

0时,式(1-3)可简化为

(1-5)式(1-5)表示64个像素点的平均值,相当于直流分量。在进行DCT变换时,首先要将整幅图像进行分割,再横向分成若干片,每片图像再纵向切成若干个宏块,如图1-3所示。为便于理解,以图1-3中像块取4 × 4个像点,每个像点量化位数为4的例子进行说明。对每个宏块,在水平方向上进行4次取样(4个像素点),垂直方向是4条扫描线,即每个宏块中含有16个像素点。若对每个像素进行量化和编码,运用DCT变换的方法,即可以将16个像点量化的数据从空间坐标转换成频率坐标分量,实际上就是将信号分解成若干频率分量,然后用频率的分量来表示。由图1-3可见,数据经过DCT变换后,将大多数像点中的低频分量表示高值,并抽到坐标的左上角,由于许多像点的亮度电平都相等,因此,高频分量的值为零。这样,大多数方块中的数据将变成零,使数据量大大减少,从数据上说是起到了压缩的效果。若画面的亮度与色彩有明显变化时,量化后的高频分量将增大,低频分量则变小。但当对频率坐标中的系数进行量化处理后,大多数的高频分量也变成了零,只剩下直流分量和低频分量。此时,若对这16个像点在数据排列上进行“Z”字形扫描后编码,则可使得编码后的数据量大为减少,达到数据压缩的目的。经过这种处理后,再使用哈夫曼编码,进行一次量化运算和编码变成更简化的数字信号。图1-3空间坐标转换为频率坐标(DCT变换)

1.3信号的调制与纠错

1.3.1记录信号的调制

1.光盘信息的特点

在光盘上记录的信号,都是以微小的凹坑形式来代表数字“1”和“0”的。如果按照数据流直接以有无凹坑来记录数据,则最小凹坑尺寸等于记录的1位数据。光盘可读出的最小凹坑由聚焦光点的尺寸决定,这样就可以直接刻录信号并决定记录密度。在实际应用中,数据流信息是由数字“1”、“0”的某些组合构成的,这样,数据码流连续为“0”和连续为“1”的情况是经常出现的。在光盘录制的数据中,若出现连续为“0”或连续为“1”的情况,不但会使得激光束的通断频率降低,造成光强不稳定,也会使伺服电路的工作出现不正常现象。另外,如果数字连续出现为“0”的情况,有可能使DSP电路中的压控振荡器工作不正常。因此,在激光视盘机中,为了使伺服系统稳定地工作,应尽量减少信号的低频分量和直流平均分量,并排除干扰,在信号记录到光盘之前需要对其进行调制。

2.光盘信息的调制与解调

由于CD/VCD和DVD光盘记录数据密度等方面的不同,在CD/VCD视盘机中采用EFM(EighttoFourteenModulation)调制,而在DVD机中,对记录的数据要进行EFM+调制。

所谓EFM调制,就是把8位字长的字符调制成14位字长的字符。对16位的数据,首先应把它分为两个8位的数据字分别送到8位—14位变换器,变成14位的通道位信号,然后用通道位流在光盘上进行记录。其调制规则是:在PCM码中,每对数码的“1”之间至少要有两个“0”码,而至多不能超过10个“0”码。EFM调制遵循3T~11T原则(T为1位信号所占用的时间)。在信号记录和拾取过程中,由于数码流是串行传输的,这样,当一个14位的数码以1结尾,而下一个14位的数码又有可能以1开始时,在这样的两组数码的连接处便不能满足3T~11T规则。为此,在每两个14位的数码之间插入了3位的连接位。3位连接位的选择可以是000、010、001这3种的任何一种,以保证EFM数据流中相邻两个数据间至少有两个“0”位的存在。

EFM+调制与EFM调制一样,仍然满足3T~11T的信号坑长度原则,但在EFM+调制技术中不再需要EFM要求的3位连接码。与每位字节(8位数字信号)对应的EFM+代码只有16位,比EFM的17位通道码缩短了16%,提高了光盘物理空间的利用率。

EFM解调是EFM调制的逆过程。在编码过程中,需要对模拟信号进行PCM编码、

CIRC纠错、EFM调制等数字化处理,将数字信号记录到光盘上。在解码过程中,则要进行EFM解调、反交错、D/A转换等处理,才能还原出原来的模拟信号。

在进行EFM解调时,需要先将串行输入的待解调信号进行串/并转换,然后对每个并行的14位数据进行锁存,再经14位—8位译码器将其还原为8位数据信号。EFM+解调则是将16位数据还原为8位数据信号。1.3.2误码的检测、纠错与补偿

1.误码的检测与纠错

对于以光盘为存储媒体的CD/VCD/DVD视盘机来讲,在原版制作、盘片制造、使用过程以及其他可能的原因下,很容易造成重放的数字信号出现误码现象,这样势必会引起重放的图像和声音出现不同的失真。既然在光盘的刻录与重放过程中不可避免地会产生误码,这就要求对产生的误码进行检测,并及时地进行纠正。在对误码进行纠错之前,首先应识别信号中原有的误码及误码的位置,为此一般在原信息码中以一定规则增加一个或几个多余码元,使原来信息码中不相关的码元变为相关。这样,在信号的播放还原处理中,可以根据相应的规则进行误码校验。

目前常用的误码检测与纠错方法一般有奇偶检验法、循环冗余检验(CyclicRedundancyCheck,CRC)法、交叉交织里德-索罗门码(CrossInterleaveReed-solomonCode,CIRC)法、里德-索罗门乘积码(Reed-SolomonProductCode,RSPC)法等。

1)奇偶校验法

奇偶校验法是一种最基本而简单有效的校验方法。利用奇偶校验法可以判断一组数据码中个别误码的所在位置。该方法的基本思想是根据字节中二进制数位中的“1”和“0”的个数是奇数还是偶数来检验是否有误码产生。具体实现时,首先在信息位之外添加一位“1”或“0”,并使包括该位在内的全体码中的“1”的个数总是为奇数(或者为偶数),然后利用当误码产生时奇偶发生颠倒的性质来检查出误码。对于利用奇偶校验法检测出的误码,可采用纵横奇偶校验法进行纠错处理。奇偶校验法仅能对奇数个1或0发生误码有效。

2)循环冗余检验法

循环冗余检验法是一种比奇偶校验的检错、纠错能力更强、更加行之有效的方法。它是以代数计算方法来分析码的结构,然后再以代数运算方法来设置检验位。其过程比奇偶校验法复杂。

3)交叉交织里德-索罗门码法

交织法是对付群误码的一种最基本的方法。这种方法在记录时改变数字信号的顺序,重放时再按照原来的顺序重排。前者称为交织,后者称为去交织。经过交织和去交织处理后,原来的误码也同时被分散开来,群误码也变成了随机误码,然后再采用奇偶校验法纠错。

交叉交织里德-索罗门码法是指在交织前和交织后的不同字组上都加上纠错码,这样就可在交织前和交织后各形成一个奇偶校验字,使得纠错能力进一步增强。里德-索罗门码由里德-索罗门发明,它至少设置两个校验位,并且校验位和信息位按规定的算术模式运算后产生至少两个校正字。在记录时校正字的值为0,在重放时根据校正字的值是否为0来判断误码是否出现,并经过反运算来决定误码的位置,以便加以纠错。该码对随机误码具有极强的纠错能力。

在CD/VCD中,采用的是CIRC(交叉交织里德-索罗门)纠错编码方法,它是将交叉交织法与4阶里德-索罗门码进行组合而进行纠错的。这种纠错码对于出现频度很高的随机误码,由里德-索罗门码几乎给予全部纠正;对于那些经常出现但码长较短的群误码,则由交叉交织来纠正;对偶尔出现的很长的群误码,则由另外的交织来解决。

CIRC纠错码综合了交织、延时交织、交叉交织及里德-索罗门码等纠错技术,不仅能纠错随机误码,还对突发误码有特强的纠错能力。

在DVD中采用的是里德-索罗门乘积码(RSPC)纠错编码方式,它是在里德-索罗门编码方法基础上发展起来的一种新的纠错技术。实践表明,即使纠错前的误码率为1%,经RSPC纠错后也会下降到10-20以下,而在同样条件下,CIRC纠错后误码率仅可达到10-6水平。

2.误码的补偿

由于数字信号只有“0”和“1”两种状态,因此,对信号在刻录和重放时产生的个别误码被检测出来后,就比较容易进行纠正了,只要将原来误码的地方取反即可。若检测出的某一位“1”为误码,则只需将该位变成“0”即可得到纠正。

在CD/VCD中采用的CIRC纠错技术,虽然有很强的纠错能力,但也很难做到百分之百的纠正。为此,在数字系统中又采用了误码补偿的方法对不能及时纠正的误码进行进一步控制。所谓误码补偿,就是根据误码的前后关系推断出原来的数据,再进行替换的方法。常用的误码补偿方法有静噪法、前值保持法和线性内插法3种。

静噪法也称零值替代法,这种方法就是使误码位置的值恒为零。当发生差错并被识别出来时,使电路在出错的这一点上切断扬声器的声音信号和到显像管的图像信号。

前值保持就是当发现有可疑的误码时,用最靠近它的前一个数据字来代替它,由于音频和视频信号的相关性,补偿后的数据误差率将会大大降低。

线性内插是指取出错前的一个数据字与出错后的一个数据字的平均值,并用该值代替这个出错的字。利用这种方法,可以得到更为精确的纠错。

1.4数据压缩技术的标准

1.4.1数据压缩技术的分类

由于在数据中间存在一定的冗余度,以及在数据之间存在一定的相关性,因此可对数据进行适当的压缩处理以解决数据传输过程中的存储、传输带宽等问题。数据压缩分为无损压缩与有损压缩两大类。无损压缩是指对原始数据压缩重构,重构后得到的数据与原来的数据完全相同,这种压缩方式的压缩比一般较低,常用于对文本数据的压缩;有损压缩是指对原始数据压缩重构,重构后得到的数据与原来的数据有所不同,此压缩方式的压缩比较高,常用于对图像、音频和视频信号的压缩。

目前常用的数据压缩标准主要有用于静止图像压缩的JPEG系列标准、用于视频和音频通信的H.26X系列标准、用于音频和视频编码的MPEG系列标准以及用于二值图像编码的JBIG标准等。1.4.2不同数据压缩标准的特点

1.H.26X系列标准

H.26X系列主要针对低速率环境下的实时应用设计,特点是强调算法的简单性和实时性,适用于视频会议和可视电话等实时交互的情况。其中,H.261和H.263是视频会议和可视电话的主要视频编码标准。

1) H.261视频编码标准

H.261是ITU-T为在综合业务数字网(ISDN)上开展双向声像业务(可视电话、视频会议)而制定的,是最早的运动图像压缩标准,速率为64kb/s的整数倍。H.261采用预测编码(DPCM)与离散余弦编码(DCT)混合编码方法,只对通用中间格式(CommonIntermediateFormat,CIF格式,亮、色信号的水平和垂直像素数均为ITU-R601标准图像的一半)和四分之一CIF格式(QuarterCIF)两种图像格式进行处理,每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block)层来处理。

2) H.263视频编码标准

H.263是在H.261基础上发展起来的,它是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准,其信源编码算法的核心仍是H.261中的DPCM/DCT混合编码方法,但做了一些改进以提高性能和纠错能力。随后出现的第二版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。H.263与H.261相比采用了半像素的运动补偿,并增加了4种有效的压缩编码模式。

ITU-T在H.263发布后又修订发布了H.263标准的版本2,非正式地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。为提高压缩效率,H.263+采用先进的帧内编码模式;增强的PB帧模式改进了H.263的不足,增强了帧间预测的效果;去块效应滤波器不仅提高了压缩效率,而且提供重建图像的主观质量。

H.263++ 在H.263+ 基础上增加了3个选项,主要是为了增强码流在恶劣信道上的抗误码性能,同时为了提高增强编码效率。这3个选项为:

选项U——增强型参考帧选择,它能够提供增强的编码效率和信道错误再生能力(特别是在包丢失的情形下),需要设计多缓冲区用于存储多参考帧图像。

选项V——数据分片,它能够提供增强型的抗误码能力(特别是在传输过程中本地数据被破坏的情况下),通过分离视频码流中DCT的系数头和运动矢量数据,采用可逆编码方式保护运动矢量。选项W——在H.263+ 的码流中增加补充信息,保证增强型的反向兼容性,附加信息包括:指示采用的定点IDCT、图像信息和信息类型、任意的二进制数据、文本、重复的图像头、交替的场指示、稀疏的参考帧识别。

3) H.264视频编码标准

H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一代视频压缩编码标准。H.264与先期的视频压缩标准相比引入了很多先进的技术,包括4 × 4整数变换、空域内的帧内预测、1/4像素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比,同时大大提高了算法的复杂度。

H.264的主要优点不但体现在相同的重建图像质量下,比H.263+减小50%码率,而且对信道时延的适应性较强,既可工作于低时延模式以满足实时业务(如会议电视等),又可工作于无时延限制的场合(如视频存储等)。同时由于采用“网络友好”的结构和语法,加强对误码和丢包的处理,可以提高网络适应性及解码器的差错恢复能力。

2.JPEG系列标准

JPEG是联合图像专家组(JointPictureExpertGroup,JPEG)的英文缩写,是国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合制定的静态图像的压缩编码标准。1986年由国际电报电话咨询委员会和国际标准化组织两个国际组织联合成立了一个联合专家小组,它是国际上彩色、灰度、静止图像的第一个国际标准。JPEG标准是一个适用范围广泛的通用标准。它不仅适用于静态图像的压缩,而且电视图像序列的帧内图像的压缩编码也常采用JPEG压缩标准,1992年该标准正式成为国际标准。

JPEG标准的应用目标是为了给出一个适用于连续色调图像的压缩方法,使之满足以下要求:

①压缩比及图像保真度可在较大的范围内调节,供用户选择。

②可应用于任何连续色调数字图像,不限制图像的内容,即图像的长宽比、景物内容、图像的复杂程度等。

③计算的复杂性是可控制的,其软件可在各种CPU上完成,算法也可用硬件实现。

④ JPEG算法具有顺序编码、累进编码、无失真编码和分层编码等4种操作方式。

JPEG2000是新一代静止图像压缩标准,由联合图像专家组(JPEG)于2000年出台。JPEG2000中主要采用了离散小波变换(DWT)与嵌入式可截断优化块编码(EBCOT)两大核心技术,与JPEG标准相比,它具有很多优点。首先具有明显高于JPEG的压缩比,在低比特率时能获得更好的视觉效果。另外,JPEG2000标准中新加入了对感兴趣区域(ROI)的支持,也就是说它可以将使用者对于图片中更关心或者更感兴趣的某一区域以更高的比特率压缩,从而强调更具价值的那部分图像信息。

3.MPEG系列标准

MPEG是MovingPictureExpertsGroup的缩写,即“活动图像专家组”,它是由ISO和IEC(国际电工委员会)联合组成的活动图像专家组织,所制定的标准是国际通用的标准。MPEG标准主要面向视频信息的存储和广播,由视频、音频和系统3部分组成。针对不同的图像质量要求,MPEG标准还分为初级标准MPEG-1、通用标准MPEG-2、高压缩率标准MPEG-4、多媒体描述接口标准MPEG-7和多媒体框架MPEG-21等。

MPEG-1标准是专为传输码率在1.5Mb/s以下的数字记录媒体制定的,如VCD、DAT、CD-ROM等。MPEG-2是MPEG-1的升级版本,是按照广播电视图像质量的要求制定的,其传输码率是MPEG-1的4倍,支持的带宽范围从2Mb/s到超过20Mb/s,它不仅适应于广播电视,也适应于通信和数字存储媒体等领域,而且还与MPEG-1标准有正向互换性。目前,MPEG-2标准在数字电视和DVD领域得到广泛应用。最新的MPEG-4是下一代全球多媒体标准。MPEG-4的传输速率在4800~6400b/s之间,分辨率为176 × 144,可以利用很窄的带宽通过帧重建技术压缩和传输数据,从而能以最少的数据获得最佳的图像质量。与MPEG-1和MPEG-2相比,MPEG-4更适于交互AV服务以及远程监控。它将在数字电视、动态图像、互联网、实时多媒体监控、移动多媒体通信、Internet/Intranet上的视频流与可视游戏、DVD上的交互多媒体应用等方面获得广泛的应用。

MPEG-7标准的正式名称叫“多媒体描述接口”,并于2001年11月发布,是为了解决多媒体内容的检索问题。通过这个标准,MPEG希望对以各种形式存储的多媒体结构有一个合理的描述,通过这个描述,用户可以方便地根据内容访问多媒体信息。在MPEG-7体系下,用户可以更加自由地访问媒体。MPEG-7的目的在于提供一个标准化的核心技术,以便描述多媒体环境下的视频和音频内容,最终使视频和音频搜集像文本搜集一样简单方便。MPEG-7的多媒体内容描述功能对MPEG-1、MPEG-2、MPEG-4起到性能提高和功能扩展的作用。

MPEG-21标准的正式名称为“多媒体框架”,是一个支持通过异构网络和设备,使用户透明方便地使用多媒体资源的标准,其目的是建立一个交互的多媒体对象,实现多种业务模型,包括对版权和交易的自动管理,对内容使用者隐私的尊重等。MPEG-21提供了一种以高效、透明和可互操作的方式,在用户间实现交换、接入、消费、贸易和控制DI(theDigitalItem)的解决方案。

1.5视频数据压缩技术

1.5.1视频数据的压缩原理

1.图像(视频)信号压缩的可能性

在通信与数字电视系统中,由于活动图像信号的数据量较大,在信号传输过程中占有的带宽较宽,因此必须进行压缩处理。图像信号之所以能够进行压缩处理,主要基于以下几个方面的原因。

1)图像信号中存在冗余度

图像信号中的冗余度主要存在于图像信号的结构和统计两个方面。在电视图像信号的结构中,其在空间和时间上有很强的相关性,或者说,其帧内与帧间存在很强的相关性,信号中的冗余度很大,可以对其进行压缩处理,而在解码后这些冗余度还可以进行不失真的恢复。

2)利用人眼的视觉特性

对于图像信号,可以利用人眼的视觉特性对图像数据进行压缩,即在不被主观感觉察觉的容限范围内,尽量减少表示信号的精度,甚至忽略某些信息。例如,可以按照图像信号各部分的特点决定对它的采样频率和量化等级,尽量做到在主观视觉的容限之内降低图像信号的传输速率。

除此之外,也可以利用人眼对图像信号中亮度信号敏感,而对色度信号不敏感的不同感觉,对图像信号进行压缩处理。

3)有规律的重复信号可压缩

视频信号中的行、场同步,行、场消隐等周期重复信号占有相当的比重,图像信号仅存在于场扫描过程中每行扫描的正程期间。因此,可以对这类有规律的、重复的、固定不变的信号在编码时按照某种方法进行压缩处理。

2.MPEG标准的图像格式与参数

1)图像的分割

通常,把一幅完整的图像称为一帧,每帧PAL制式和NTSC制式的电视信号分别由625行和525行组成,对应的帧频分别为25Hz和30Hz。为对图像进行数字化处理,必须首先对每帧图像进行分割,即将一帧图像横向切成若干条(PAL制式18条,NTSC制式15条),每一条称为一片(slice);然后,再将每一片纵向切成22块(PAL制式和NTSC制式),称之为宏块或大块(macroblock)。这样,在625行制中,每帧图像分成8 × 22 

= 396个宏块;在525行制中,每帧分成15 × 22 = 330个宏块。在MPEG标准中,宏块是对图像处理的基本单元。在每个宏块中的彩色图像,又可以用一个亮度Y和两个色差信号(CR、CB)来表示。根据大面积着色原理,在图像的传送过程中,亮度信号的清晰度远高于对色差信号的清晰度,因此,通常又把亮度宏块平均分成4小块。最后再将2个色差块和4个亮度小块(共6个块)分成64个(8 × 8 = 64)像素小块,每个像素对应一个采样点,而一个宏块中的色差信号采样点与每一个小块亮度信号的采样点相同。像素是构成图像的最小单元,图像的清晰度主要取决于像素的多少,像素越多,图像分得越细,清晰度就越高,反之越低。图1-4是MPEG标准的图像分割示意图。在对图像进行数字处理时,每个像素用8位二进制数表示,这样每个采样点的亮度信号便可获得28 = 256个等级,具有足够高的精度。但在量化过程中,也同样会产生量化噪声。对单极性的视频信号,其信噪比(S/N)可用公式(1-2)来表示。图1-4图像分割示意图

2)图像格式的基本参数

(1)视频信号数据传输的码率。

在视频信号的数字化中,DVD采用4∶2∶2标准,VCD采用2∶1∶1标准。前者的采样频率为

Y∶CR∶CB=13.5MHz∶6.75MHz∶6.75MHz

后者的采样频率为

Y∶CR∶CB=6.75MHz∶3.375MHz∶3.375MHz在4∶2∶2标准中,为使视频信号有6MHz的带宽,即约有500线的清晰度,相应像素的规定为:625/50制时每行是864个,525/60制时每行是858个。在数字电视中,为使625/50制和525/60制相兼容,国际标准定义了有效行,并规定有效行的亮度信号的像素都为720个。有效行是指亮度信号中的图像信号部分有了图像信号,消隐信号和同步信号可以在后期编排上去。对每一帧图像,625/50制的有效行为576行,525/60制的有效行为480行。这样,对每一帧的亮度像素数,625/50制的为576 × 720,525制的为480×720,再加上两个色差信号的像素(625/50制的为288 × 360 × 2,525/60制的为240 × 360

 × 2)。于是可得每秒钟要传输的像素数为

(576 × 720 + 288 × 360 × 2) × 25 = 15.552 × 106

(480 × 720 + 240 × 360 × 2) × 30 = 15.552 × 106

由于每个像素用8位二进制数表示,所以传输图像数据的码率为

码率 = 像素传输速率 × 8位/像素

= 15.552 × 106像素/s × 8位/像素

= 124.416Mb/s在2∶1∶1标准中,MPEG-1标准采用折半的方法,即按照广播级标准,将每一帧的有效行数和有效行的像素数都取一半。通过同样的分析可得到传输数据的码率为

码率 = 像素传输速率 × 8位/像素

= (288 × 352 + 144 × 176 × 2) × 25 × 8

= 30.41286Mb/s

(2) MPEG视频标准的图像格式。

根据上述分析,MPEG-2与MPEG-1的图像格式参数如表

1-2所示。

3) 3种帧

在MPEG视频标准中,图像压缩基于图像中的两种特性:空间相关性和时间相关性。这两种相关性使得图像中存在大量的冗余信息。如果能将这些冗余信息去除,只保留少量非相关信息进行传输,就可以大大节省传输频带。而接收机利用这些非相关信息,按照一定的解码算法,可以在保证一定的图像质量的前提下恢复原始图像。

按照MPEG标准,活动图像的画面可分为3种类型,分别称为帧内编码帧(IntraCodedFrame,即I帧)、前向预测帧(PredictiveCodedFrame,即P帧)和双向预测帧(BidirectionallyPredictiveCodedFrame,即B帧)。

I帧图像采用帧内编码方式,即只利用单帧图像内的空间相关性,而没有利用时间相关性。I帧使用帧内压缩,不使用运动补偿,它以静止图像压缩的方法(DCT编码等)进行处理。I帧与其前后相邻的图像之间具有独立性,其压缩信号不但全部记录在光盘上,而且还是产生其他两种帧图像的基础。I帧主要用于接收机的初始化和信道的获取,以及节目的切换和插入,I帧图像的压缩倍数在3种帧中最小,数据量则是3种帧中最大的。I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择。

P帧图像采用帧间编码方式,即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测,只传送与它前面I帧的差值信息(又称预测差图像),该差值信息可看成是运动图像的变化部分,其数据量要比I帧少得多。如果P帧前面不是I帧而是P帧,同样也可以由它前面的P帧获得预测误差而形成新的P帧信号。P帧的获得如图1-5(a)所示。

B帧图像采用双向时间预测,它是根据其前面的I帧(或P帧)与后面的P帧来获得预测误差的。由于B帧传送它前面的I帧(或P帧)与后面的P帧之间的预测误差,因此可以大大提高压缩倍数。B帧的信息量一般要比P帧少,其压缩率在3种帧中是最大的。值得注意的是,由于B帧图像采用了未来帧作为参考,因此MPEG-2编码码流中图像帧的传输顺序和显示顺序是不同的。在I帧和P帧或P帧与P帧之间一般可以插入两个B帧,B帧的获得如图1-5(b)所示。图1-5预测帧的获得示意图顺便指出,每帧图像输入的顺序是按照时间出现的顺序即IBPBP或IBBPBP排列的。为了便于从I帧和P帧获得B帧,以及解码时便于从I、P帧插补到B帧,在编码时首先应对输入图像的帧进行重排,使其顺序变为IPBPB或IPBBPB。

4)图像数据的比特流分层格式

MPEG-1和MPEG-2的视频结构是相同的。为更好地表示编码数据,MPEG用句法对视频数据规定了层次结构,共分为6个层次,自上到下分别是:图像序列层、图像组层(GOP)、图像层、像条层(片层或宏块条)、宏块层和像块层。

各层之间的关系如图1-6所示。图1-6图像数据的层次第一层是像块层,由8像素 × 8行的一组亮度成分或相应的色差成分构成,在编码中它是DCT处理的基本单元。注意,亮度像块显示的图像相当于色度像块形式图像的1/4大小。

第二层是宏块层,由16 × 16像素的亮度成分和对应的两个色度分量的8 × 8像素的成分构成。一个宏块有4个亮度像块和2个色差像块(CR、CB),这是进行运动预测和运动补偿的单元。在MPEG-1中图像的色度格式是4∶2∶0,而在MPEG-2中图像的色度格式还包括4∶2∶2和4∶4∶4格式,因此,一个宏块又由许多8 × 8的块组成。

3种格式的宏块结构如图1-7所示,其中的4∶2∶0格式由6个块组成,包括4个亮度块和两个色度块;4∶2∶2格式由8个块组成,包括4个亮度块、两个CB块和两个CR块;4∶4∶4格式由12个块组成,包括4个亮度块、4个CB块和4个CR块。图1-73种格式的宏块结构第三层是像条层,它是在一帧图像中从左到右分割下来的完整的一条图像,也是若干个宏块的集合。在信号处理中,片是同步恢复单元。

第四层是图像层(帧),它是由若干个片组成的一幅完整的图像。这种图像可以是帧内编码图像(I图像),也可以是预测编码图像(P图像)。图像层是构成活动图像的基本单位,在信号处理中,它是基本的编码单元。第五层是图像组(帧组)层,它由几幅编码的图像组成(PAL制为5幅,NTSC制为6幅),每个图像组是视频随机存储单元。

第六层是图像序列层,它体现了连续图像的比特流。用一个序列头开始,包含一个或多个帧组,以一个序列尾码结束。序列层是节目内容的随机存储单元。1.5.2MPEG视频编/解码原理

1.MPEG视频编码原理

MPEG算法既具有很高的压缩比,又可以保持很好的图像质量,这单靠帧内编码是不能完全实现的。在MPEG压缩编码中,主要是通过DCT变换和运动预测技术来压缩空间冗余和时间冗余的,即首先通过运动估计和运动补偿去除图像序列间的时间冗余,然后再通过DCT变换将差值信号的空间冗余去除,使系数能量集中在低频部分,最后通过量化和可变字长编码最终达到压缩编码的目的。

MPEG视频编码器的组成框图如图1-8所示,它主要由帧画面的重新排列、运动补偿预测器、运动估计器、离散余弦变换器(DCT)、离散余弦反变换器(DCT-1)、量化自适应器(Q)和逆量化器(Q-1)、帧存储器、视频缓存器等组成。这一框图对MPEG-1与MPEG-2均适用。其主要区别在于MPEG-2采用了自适应场/帧处理技术,通过对物体运动特性和图像细节的丰富程度做出判定来选择场处理或帧处理,因此只需将MPEG-1视频编码器框图中的“自适应量化器”和“编码统计处理”部分改为“编码控制”即可。因为P帧是由I帧获得的,而B帧又是根据I帧(或P帧)和P帧获得的,因此,在编码时首先要对输入的帧进行重排,即把P帧排在B帧前面。例如,若帧重排前的顺序是IBBPBP,则重排后的顺序为IPBBPB,这就是在编码器内帧的编码顺序。

运动补偿是一种把现在的图像部分看成是由前面的图像及变动的差值部分构成的预测技术,它是利用消去时间冗余度的部分来提高压缩比的技术。运动补偿预测算法在宏块级中分别进行帧内预测、前向预测、后向预测和平均预测,与帧内编码相比,运动补偿可改善压缩比大约3倍。图1-8视频编码器组成框图具体的编码过程如下所述。

1) I帧编码

当输入I帧时,开关S1、S2、S4分别置于上方的位置,S3置于左侧,编码器对I帧进行编码。具体编码时,首先进行帧改组,即把图像横向切割成许多条(片),每片宽度为16个像素,再将第一条纵向切为每16个像素长的各个小段,这样就得到16 × 16的像素构成的块,称为宏块。宏块可以分成4部分,每一部分为8 × 8 = 64像素的区块。对各宏块进行DCT变换后,空域中64个像素的亮度或色度数值就变换成频域中的64个频率系数,其中高频系数反映的是图像细节,直流成分代表图像的平均亮度。变换后的频率系数送量化自适应器,并参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论