




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、¨ 第一章 数字媒体l 概念¨ 媒体包括两层含义:(1)传递信息的载体,称为媒介,是由人类发明创造的记录和表述信息的抽象载体,也称为逻辑载体,如文字、符号、图形、编码等。(2)存储信息的实体,称为媒质,如纸、磁盘、光盘、磁带、半导体存储器等。载体包括实物载体、或由人类发明创造的承载信息的实体,也称为物理媒体。 数字媒体包括两个方面,(1)信息,内容采用二进制表示;01010000(2)媒介,能存储、传播二进制信息。l 媒体的分类及定义n 按照人的感觉u 媒体可分为视觉媒体、听觉媒体等;n 按照信息的表现形式u 媒体可分为语言媒体、文字媒体、音乐媒体、图形媒体、动画媒体和视频
2、媒体等;n 按照信息的种类u 媒体可分为新闻媒体、科技信息媒体、生活媒体等。¨ 依据信息的载体不同又有不同分类n 按载体的种类u 媒体可分为报纸、信件、电话、计算机、网络等;n 按照不同应用方式u 媒体可分为印刷媒体、幻灯、电影媒体、广播电视媒体、计算机媒体、计算机多媒体、网络媒体等。n 按照媒体产生的时间和历史u 媒体又可以分为新媒体和传统媒体。n 按人们对载体的心理承认度u 媒体又可分为时尚媒体和传统媒体。n 按载体的传播范围u 媒体又可分为个人媒体和大众媒体。¨ 国际电信联盟(International Telecommunication,ITU)从技术的角度定义媒介
3、(Medium):n 感觉 直接作用于人的感官、使人直接产生感觉的一类媒体。如语音、音乐、图像、文字、动画和视频影像等。 n 表示 说明交换信息的类型、定义信息的特征,一般以编码的形式描述,如声音编码、图像编码、文本编码等。 为了加工、处理、存储和传输感觉媒体。n 显示 获取和显示信息的设备,如显示器、打印机、音箱等输出设备,键盘、鼠标、摄像机等输入设备。n 存储 存储数据的物理设备,如磁盘、磁带、光盘、内存等。 n 传输 传输数据的物理设备,如电缆、光纤、无线电波等。 l 媒体的特征n 多样性 集成性 交互性 信息接收/使用方便n (1)数字化 (2)交互性 (3)趣味性(4)集成性(5)技
4、术与艺术的融合l 媒体的信息表示方法;数字媒体与多媒体 多媒体技术 指运用计算机综合处理多媒体信息(文本、声音、图形、图像) 的技术, 包括将多种信息建立逻辑连接, 进而集成一个具有交互性的系统等. 数字媒体技术 通过计算机和通信手段,综合处理文本、图像、声音、视频等媒体信息,使抽象的信息变成可感知、可管理、可编辑处理和可交互的一种技术。(实现数字媒体(感觉媒体)的表示、记录、存储、编辑处理、传输、显示、检索和管理等各个环节的软硬件技术,一般分为数字媒体表示技术、存储技术、显示应用技术和管理技术等。)(1)大众传播模式 信号就是比特流。(2)媒体信息传播模式 一个完整的信息传播过程应包括信息来
5、源(source)、编码器(encoder)、信息(message)、通道(channel)、解码器(decoder)、接收器(3)数字媒体传输模式 在数字媒体传播模式中,信源和信宿都是计算机。因此,信源和信宿的位置是可以随时互换的。(4)超媒体传播模式 霍夫曼认为以计算机为媒介的超媒体传播方式延伸成多人的互动沟通模式;传播者(F-Firm)与消费者(C-Consumer)之间的信息传递是双向互动的、非线性的、多途径的过程数字媒体技术的研究领域¨ 第二章 媒体的存储l 内存储器类型和属性、带宽计算方法RAM(Random Access Memory,随机存储器)、ROM(Read O
6、nly Memory,只读存储器)、Cache(高速缓存)按内存的用途分类(1)主存储器 用来存放CPU正使用或者随时使用的程序或数据。 (2)高速缓冲存储器 是位于CPU和主存储器之间的一种规模较小,但速度很高的存储器。 (3)显示存储器 是用来存放屏幕上显示的图形、图像等数据按内存的外观分类 按照内存的外观来分类,可以把内存储器分为双列直插内存芯片和内存条两种。 (1)双列直插内存芯片 双列直插内存芯片DIP(Double Inline Package)是一种含有若干个引脚的半导体芯片。 (2)内存条 内存条是把多片存储器芯片、电容、电阻等元器件焊在一小条印刷电路板上,组装起来合成一个内存
7、模组而形成的一种条形存储器。按内存的工作原理分类 内存储器按工作方式的不同,可以分为随机存取存储器RAM和只读存储器ROM两种随机存储器RAM又分为静态随机存贮器SRAM(Static RAM)和动态随机存贮器DRAM(Dynamic RAM)SRAM的特点是读写速度较快。主内存通常采用DRAM。内存发展的7个重要阶段 动态随机存储器DRAM(Dynamic RAM) 在DRAM的发展过程中,出现了各种规格类型的DRAM,如: 快速页面模式随机存储器FPM(Fast Page Mode RAM) 扩展数据输出随机存储器EDO DRAM(Extended Date Out DRAM) 突发扩充数
8、据输出随机存储器BEDO RAM 同步动态随机存储器SDRAM(Synchronous DRAM) DDR是双倍数据速率(Double Data Rate) 存储器总线式动态随机存储器RDRAM(Rambus DRAM) DDRII内存内存储器的技术指标 (1)存取周期工作频率(2)数据宽度和带宽 (3)内存的“线”数 (4)容量 (5)内存的电压l 外存储器类型和评价性能指标软盘、硬盘、移动硬盘、USB闪存软盘的主要参数 (1)面数 (2)磁道数 (3)扇区数 硬盘的相关术语有: (1)磁头数(2)柱面数 (3)每磁道扇区数 (4)交错因子 (5)硬盘单碟容量 (6)容量 反映硬盘的主要性能
9、指标 (1)转速(2)平均访问时间(3)数据传输率 (4)缓存 (5)硬盘的表面温度(6)连续无故障时间l 光存储技术、原理¨ 光盘又称为CD(Compact Disc,压缩盘),是通过冲压设备压制或激光烧刻,从而在其上产生一系列凹槽来记录信息的一种存储媒体。采用激光照射介质,激光与介质相互作用,导致介质的性质发生变化而将信息存储下来。一般来说介质被激光烧灼成小凹坑。利用烧灼的状态来表示二进制数据。读取信息时用激光扫描介质,识别出存储单元性质的变化。 光存储单元的性质(二进制数据0(不变)、1(改变))反射率 反射光极化方向 相变 极性 信息识别 光电检测器能够通过检测出光强和光极性
10、的变化来识别信息光存储技术特点 存储密度高 信息的信噪比高 非接触式读写和擦出 信息位价格低。l 光盘驱动系统的组成¨ 驱动器读写头 用半导体激光器和光路系统组成的光头¨ 转动板 线速率恒定的读取数据¨ 光电控制器¨ 信号处理器l 光盘的分类l CD-ROM 、CD-R、CD-RW、WORMl 光盘的主要技术指标¨ 容量 光盘盘片的容量一般用户容量比格式化容量要少,因为光盘还需要存放有关控制、校验等信息。¨ 平均存取时间 平均寻道时间:一般取光头沿半径移动全程1/3长度所需要的时间 平均等待时间:盘片旋转一周的一半时间 平均存取时间=
11、光头稳定时间+寻道时间+等待时间200-400ms 光盘存取时间 20ms 硬盘存取时间¨ 数据缓冲区大小 512k¨ 数据传输率 单位时间内从光盘的光道上传送的数据比特数, 这与光盘转速、存储密度有关。¨ 接口标准及格式规范等 IDE 兼容性好¨ SCSI 连接多个外设 数据传输速率高¨ USB 便携¨ SATA 接口l 光盘的物理构造l 光盘工作原理l CD-ROM 直径约12cm、容量约650MB、价格低廉光存储原理 记录介质为光刻胶的玻璃盘基 记录信息光源光调制器光束照射介质曝光显影脱胶正向母盘 带有凹坑的母版(蒸发、电镀)
12、金属母盘复制光盘(注塑法、光聚合法) CD-ROM光盘是由母盘压模制成的, 一旦复制成形,永久不变,用户只能读出信息。读信息 激光照射在凹坑上,利用凹坑和周围介质光反射率的差别读出信息CD-ROM采用激光调制方式记录信息, 将信息以凹坑和凸区的形式记录在螺旋形光道上。光道上凹坑或凸区的长度是0.28微米的整数倍。凹凸交界的正负跳变沿均代表数字“1”,两个边缘之间代表数字“0”,“0”的个数是边缘之间长度决定的。l CD-R 利用热效应利用激光束照射CD-R光盘中的有机染料记录层,照射点的染料发生汽化,形成与记录信息对应的凹坑点;读信息:利用凹坑点与周围介质反射率的差别l WORMWORM光盘在
13、使用前首先要进行格式化, 形成格式化信息区和逻辑目录区, 利用激光照射介质, 使介质变异, 利用激光不同的变化, 使其产生一连串排列的“点”,从而完成写的过程。引入文件分配表的概念, 在光盘的根目录下面是用户定义的逻辑目录, 逻辑目录对应文件管理区。一旦写入就不能再更改。 l CD-RW可重写光盘的擦写原理改变光盘介质的某种性质 磁光式 相变式磁光式擦写原理 该盘普遍采用玻璃盘基上再加四层膜结构组成,它是以稀土过渡金属非晶体垂直磁光膜作为记录介质光学膜和保护膜的多层夹心结构。激光束照射下,发生热磁效应,通过记录点的磁化方向发生变化来记录信息;两种磁光写操作方法居里点记录(稀土铁合金膜介质)、补
14、偿点记录(稀土钴合金膜介质) 图 信息1记录方式磁化存储单元失去磁性磁性相反存储单元某一方向饱和式磁化外磁场反向磁化居里点热磁效应居里点热磁效应¨相变式擦写原理利用记录介质的两个稳态之间的互逆相结构的变化来实现信息的记录和擦除。两种稳态是反射率高的晶态和反射率低的非晶态(玻璃态)。写过程是把记录介质的信息点从晶态转变为非晶态。利用高功率调制后的激光束照射介质,形成非晶相记录点;擦过程是写过程的逆过程,即把激光束照射的信息点从非晶态恢复到晶态。利用低功率、宽脉冲激光照射介质,使相记录点变回到晶态。光存储技术发展历史 第一代光存储技术 CD-ROMCD-RCD-RW激光波长780nm(纳
15、米),光斑0.45um,道间距1.6um,650MB 第二代数字多用光盘DVD DVD-ROM/DVD-R/DVD-RW波长635nm、650nm,孔径0.4um,道间距0.74um,单面4.7GB,双面17GB 第三代光存储技术 蓝光存储 HDTV光存储密度=KNA/ NA为物镜的数值孔径蓝紫色半导体激光器 405nm(纳米),单面12GB,30Mbit/s, 1nm=1/10-9 msony 单面23GB/25GB, 单光头72Mbps,122Mbps, 误码率低 5*10-4,擦写10次后<1*10-4 多层相变记录光盘,双层/四层(45GB/90GB) 近场光记录 多阶光存储技术
16、 第四代光存储技术 全息光存储海量数据存储 以全息图形式将数据记录到存储介质上 传统的光存储方式仅是光学头的按位记录点, 而全息存储记录,记录的则是干涉图样, 覆盖了物体发射或散射出的光场的完整信息,包括光场的振幅和位相。这种把光波的干射/衍射特性应用于信号的编码解码是全息存储相对于传统光学存储所有优势根源所在。 存储采用复用技术 空间复用 全息图(数据页);体积复用 角度复用、位相、波长复用; 混合复用 特点 存储密度高、存储速率快、高冗余度、寻址速度快光盘的规范和标准 CD-DA 这个标准是CD的最基本标准。 CD-ROM CD-V(Video) 在影碟机上使用, 视频信息可以输出到电视机
17、。 可录CD CD-R 可录CD分为两类, 即CD-MO和CD-WO。CD-MO称为磁光盘,可重写; CD-WO又称CD-R, 这种盘一旦用户写入数据就不能抹掉。 CD-I 可播放交互式视频图象。 CD-ROM XA Photo-CD 用于存放数字化的静态照片。 Video CD它能使Video CD节目能够在CD-I、CD-ROM/XA和Video CD播放机上播放。 DVD 声音信号的数字化过程 采样、量化和编码CD-DA即激光唱盘 这种光盘常采用常线速(CLV)伺服方式, 逆时针旋转。其螺旋线光道上等长分段, 每段称为一个扇区。每个扇区都存放定量数据块, 并以特定的地址标记,其单位为“分
18、”、“秒”、“扇区”,即1分=60秒,1秒=75扇区, 光道总长度为74分, 即可存放74分钟高音质非压缩的音频信号。 每个扇区音频数据量? 98*24=2352字节 EFM编码 提高数据的可靠性,减少误码率EFM ( Eight to Fourteen Modulation) 编码,即将1字节的8位编码为14位的光轨道位,并在每14位之间插入3位“合并位” 以确保“1”码间至少有2个“0”码,但最多有10个“0”码。标准名称盘的名称应用目的播放时间显示的图像Red Book(红皮书)CD-DA存储音乐节目74分钟YellowBook(黄皮书)CD-ROM存储文图声象等多媒体节目存储650 M
19、B的数据动画、静态图像、动态图像Green Book(绿皮书)CD-I存储文图声象等多媒体节目存储多达760 MB的数据动画、静态图像Orange Book(橙皮书)CD-R读/写入文图声象等多媒体节目White Book(白皮书)Video CD存储影视节目70分钟(MPEG-1)数字影视(MPEG-1)质量Red Book +(红皮书+)CD-Video存储模拟电视 数字声音56分钟(电视)20分钟(声音)模拟电视图像 数字声音CD-BridgePhoto CD存储照片静态图像Blue Book(蓝皮书)LD(LaserDisc)存储影视节目200分钟模拟电视图像 CD-DA的规范和格式,
20、一张激光唱盘音频数据的容量是多少?74min*60*75*98*24=746.93298MBCD-ROM光盘有两种格式: Mode1和Mode2,也是等长扇区,它与CD-DA的不同主要在每个扇区中数据格式的不同。 Mode1和Mode2格式相同之处:这两种方式的扇区首部都是12字节的同步码(SYNC), 其前后为“00H”而中间10个字节存放“FFH”数据。紧接着的4个字节为地址字段, 或称扇区头(HEADER),它采用分、秒、扇区号的制式确定地址标号, 地址字段中设置了MODE字节, 指明该扇区是哪种格式。 Mode 1 Mode 2 用户数据容量 2048(Byte) 2336
21、(Byte)存储数据类型用于存放对错误极为敏感的数据如计算机程序等。这样它可通过后面ECC记录的纠错信息保证其准确性用于存放对错误不太敏感的数据如声音,图像,图形等数据 误码率10-12这是计算机数据误码率的最低要求。它由ECC 进一步校验来完成 10-9这对声音,图像,图形等数据的校验已足够CD-ROM XA它所定义格式包括与CD-I格式相同的FORM1和FORM2格式,解决了普通CD-ROM驱动器不能读CD-I格式光盘的问题。实现了声音和动态影像的同步。Video CD标准是目前流行的视频光盘标准,它描述一个使用CD格式和MPEG-1标准的数字电视播放系统。Video CD定义了MPEG光
22、道的结构, 它由MPEG-Video扇区和MPEG-Audio扇区组成。光道上的Video(电视图象)和Audio(声音)是按MPEG-1的规定进行编码。 MPEG-Video扇区和MPEG-Audio扇区是交错存放在光道上 。DVD光盘 MPEG-2的视频质量是广播级质量,为解决其MPEG-2数据存储问题, 研制了DVD并于1995年完成标准化方案。DVD盘片尺寸与CD相同,容量最高的双层双面盘可达17GB。单面单层DVD盘能够存储4.7GB的数据,存储133分钟的MPEG-2视频,其分辨率与现在电视相同, 并配备Dolby AC-3/MPEG-2音频质量的声音和不同语言的字幕。DVD-Vi
23、deo的规格数据传输率可变速率, 平均速率为4.69Mbps, 最大速率10.7Mbps图象压缩标准MPEG-2标准声音标准NTSC: DolbyAC-3或LPCM,可选用MPEG-2 AudioPAL/SECAM: MPEG MUSICAM 5.1或LPCM, 可选用Dolby AC-3通道数多达8个声音通道和32个字幕通道DVD与VCD的比较 从外观和尺寸上看,DVD盘和CD-ROM盘没什么差别, 直径均为120mm,厚度为1.2mm; 新的DVD播放机能够播放已有的CD激光唱片和VCD。不同点: DVD光道之间的间距由原来的1.6m缩小到0.74m,而记录信息的最小凹坑凸区长度由原来的0
24、.83m缩小到0.4m,这是DVD盘存储容量提高到4.7GB的主要原因。 DVD信号的调制方式和错误校正方法也做了相应的修正以适合高密度的需要,它采用效率较高的8比特到16比特+(EFM PLUS)调制方式,DVD校验系统采用更可靠的RS-PC(Reed Solomon Product Code)。 DVD播放机也采用波长更短(由780nm减小至635/650nm)的激光源来提高聚焦激光束的精度。DVD提高容量的方法常规的CD盘只使用一个面并且只用一个记录层来记录信息。为了提高存储容量,DVD盘可分为单面单层、单面双层、双面单层以及双面双层4种结构。根据DVD的容量和格式可以将DVD大致可分成
25、DVD-5、DVD-9、DVD-10和DVD-18。VCD与DVD的性能比较特性VCDDVD材料与尺寸详见2.1与VCD相同光道间距1.6m0.74m最小凹凸坑长度0.83m0.4m数据层数单面单层单面单层双面双层容量680MB4.7MB17GM数据格式MPEG-1MPEG-2驱动器 兼容VCD¨ 第三章 数字媒体中的数据的压缩和存储方法l 媒体压缩基础;¨ 传统上用模拟方式表示声音和图象信息 模拟信号表示信息的主要缺陷? 易出故障,常产生噪音和信号丢失,且拷贝过程中噪音和误差逐步积累; 模拟信号不适合数字计算机加工处理。 数字化处理:巨大的数据量 基本概念 采样
26、频率 量化精度 数据流 二进制数据表示 采样定理?仅当采样频率2倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号。 设电视信号YIQ彩色空间各分量的带宽分别为:4.2MHZ、1.5MHz、0.5MHz,量化等级8比特 (4.21.5+0.5)*2*8Mb=99.2Mb数据压缩的可能性与信息冗余 一般的数据冗余主要体现在:空间冗余 最经常存在的冗余结构冗余 有些图象从大域上看存着非常强的纹理结构,我们称它们在结构上存在有冗余.时间冗余 这是序列图象和语音数据中所经常包含的冗余。视觉冗余 人类视觉系统对于图象场的任何变化,并不是都能感知的。视觉分辨率约为26灰度等级,一般图象量化采用
27、28灰度等级听觉冗余 人耳对不同声音的敏感性不同,并不能察觉所有频率的变化,对某些频率不关注。知识冗余 信息熵冗余 信息熵是指一组数据所携带的信息量,它定义为: H=-i=0N-1Pilog2Pi N为数据类数或码元个数, Pi为码元yi发生的概率. 为使信息编码单位数据量d接近于或等于H,应设: d=i=0N-1Pib(yi) 其中b(yi)是分配给码元yi的比特数, 理论上应取b(yi)=-log2Pi. 实际一般取b(y0)=b(y1)=b(yK-1). 信息熵是指一组数据所携带的信息量,它定义为:H=-i=0N-1Pi log2Pi N为数据类数或码元个数, Pi为码元yi发生的概率.
28、 等概率事件的信息熵最大 为使信息编码单位数据量d接近于或等于H,应设:d=i=0N-1Pib(yi) 其中b(yi)是分配给码元yi的比特数, 理论上应取b(yi)=-log2Pi. 实际一般取b(y0)=b(y1)=b(yK-1).数据压缩技术的性能指标 压缩比 输入数据量和输出数据量之比 Bpp 数据压缩质量 有损压缩、无损压缩 压缩算法评价 均方误差 信噪比 峰值信噪比 xn原始信号 xn重建信号 xmax为峰值信号 压缩、解压的速度 压缩解压速度要快 动态视频要求更高 压缩算法所需要的软件、硬件环境统计编码: 主要针对无记忆信源,根据信息码字出现概率的分布特征而进行压缩编码,寻找概率
29、与码字长度间的最优匹配。 预测编码是利用空间中相邻数据的相关性来进行压缩数据的。 变换编码是将图像时域信号转换为频域信号进行处理。 分析合成编码是指通过对源数据的分析,将其分解成一系列更适合于表示的“基元”或从中提取若干更为本质意义的参数,编码仅对这些基本单元或特征参数进行。 通用的数据压缩技术:通用的压缩方法具有压缩比低、通用性强等特点 PCM DM DPCM 行程编码 字典编码 变换编码 熵编码等数据压缩的理论极限是信息熵。信息熵 熵是信息量的度量方法,它表示某一事件出现的消息越多,事件发生的可能性就越小,数学上就是概率越小。 若pi为第i个事件的概率为0 pi 1,则该事件的信息量为 一
30、个信源包括的所有数据叫数据量,而数据量中包含有冗余信息。 信息量 = 数据量-冗余量 设从N个数中选定任一个数xj的概率为p(xj),假定选定任意一个数的概率都相等,即p(xj) 1/N,则 I(xj)log2N-log2 1/N -log2p(xj)=Ip(xj) 信源X发出的xj(j=1,2,n)共n个随机事件的信息量的统计平均,即 H(X)=EI(xj)= H(X)称为信源X的“熵”,即信源X发出任意一个随机变量的平均信息量。其中,等概率事件的熵最大,假设有N个事件,此时熵为: H(X) 当P(x1)1时,P(x2)P(x3)P(xj)0,此时熵为 H(X) P(x1) 0由上可得熵的范
31、围 0 H(X) 在编码中用熵值来衡量是否为最佳编码。若以Lc表示编码器输出码字的平均码长,其计算公式为:Lc (j=1,2,n) P(xj) 是信源X发出xj的概率,L(xj)为xj的编码长。 平均码长与信息熵之间的关系为: LcH(X) 有冗余,不是最佳。 Lc H(X)不可能。 Lc H(X)最佳编码( Lc稍大于H(X) ) 熵值为平均码长Lc的下限。l 了解各种编码方法;脉冲编码脉冲编码调制 (Pulse Code Modulation, PCM)就是将模拟调制信号的采样值变换为脉冲码组,是一种对模拟信号数字化的取样技术,特别是对于音频信号。 PCM编码包括如下三个过程: 采样,将模
32、拟信号转换为时间离散的样本脉冲序列。 量化,将离散时间连续幅度的抽样信号转换成为离散时间离散幅度的数字信号。 编码,用一定位数的脉冲码组表示量化采样值。PCM编码的优点 有很强的抗干扰性;能方便的利用计算机编程,实现各种智能化设计。增量调制(DM)增量调制也称调制(delta modulation,DM),它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。差分脉冲编码调制DPCM差分脉冲编码调制(
33、Differential Pulse Code Modulation,DPCM)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差值脉冲编码调制是利用信号的相关性找出可以反映信号变化特征的一个差值量进行编码。线性预测-DPCM 基本原理是基于图象中相邻象素之间具有较强的相关性。每个象素可根据已知的前几个象素来作预测。因此在预测编码中,编码和传输的并不是象素采样值本身,而是这个采样值的预测值与其实际值之间的差值它与脉冲编码调制(PCM)不同处在于,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码。DPCM系统中的误差来源是发送端的量化器,而与
34、接收端无关,若去掉量化器使eN=eN,则XN=XN,即实现信息保持编码。事实上,这种量化误差是不可避免的。行程编码 行程编码又称行程长度编码(Run Length Encoding,RLE),是一种熵编码。这种编码方法广泛地应用于各种图像格式的数据压缩处理中。最简单的压缩图像的方法之一。行程编码的原理是在给定的图像数据中寻找连续重复的数值,然后用两个字符取代这些连续值。即将具有相同值的连续串用其串长和一个代表值来代替,该连续串就称为行程,串长称为行程长度。行程编码分类定长编码 定长编码是指编码的行程长度所用的二进制位数固定 不定长编码 变长行程编码是指对不同范围的行程长度使用不同位数的二进制位
35、数进行编码。使用变长行程编码需要增加标志位来表明所使用的二进制位数。 如图所示,假定一幅灰度图像,第n行的像素值为: 用RLE编码方法得到的代码为:4160831130。代码红体字表示的数字是行程长度,红体字后面的数字代表像素的颜色值。例如黑体字60代表有连续60个像素具有相同的颜色值,它的颜色值是8。词典编码词典编码(dictionary encoding)技术属于无损压缩技术,主要是利用数据本身包含许多重复的字符串的特性。可以用一些简单的代号代替这些字符串,就可以实现压缩,实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。词典编码法的种类有很多,归纳起来大致有两种。第一种
36、方法的思想是查找目前正在压缩的字符序列在以前输入的数据中是否出现过,然后用出现过的字符串代替重复的部分,它的输出仅仅是指向早期出现过的字符串“指针”。这种编码的概念如左图所示。这里所指的词典是指用以前处理过的数据表示编码过程中遇到的重复部分。这类编码的所有算法都是以LZ77算法为基础的。 第二种算法的思想是从输入的数据中创建一个“短语词典”,这类短语不一定有具体的含义,可以是任意字符的组合。在编码过程中遇到在“短语词典”中出现的短语,编码器就输出这个词典中的短语“索引号”,而不是短语本身。其概念如右图所示。 LZ77 算法在某种意义上又可以称为“滑动窗口压缩”,该算法将一个虚拟的、可以跟随压缩
37、进程滑动的窗口作为词典,要压缩的字符串如果在该窗口中出现,则输出其出现位置和长度。LZ77算法具体步骤(1)把编码位置设置到输入数据流的开始位置。(2)找窗口中最长的匹配串(3)以“(Pointer, Length) Characters”的格式输出,其中Pointer是指向窗口中匹配串的指针,Length表示匹配字符的长度,Characters是前向缓冲存储器中的不匹配的第1个符。 (4)如果前向缓冲存储器不是空的,则把编码位置和窗口向前移(Length+1)个字符,然后返回到步骤(2)。LZW算法 LZW压缩算法是一种新颖的压缩方法,它采用了一种先进的串表压缩,将每个第一次出现的串放在一个
38、串表中,用一个数字来表示串,压缩文件只存贮数字,则不存贮串,从而使图像文件的压缩效率得到较大的提高。 LZW编码是围绕称为词典的转换表来完成的。 开始时的词典包含所有可能的根(Root),而当前前缀P是空的; 当前字符(C) :=字符流中的下一个字符; 判断缀-符串P+C是否在词典中 如果“是”:P := P+C / (用C扩展P) ; 如果“否”: 把代表当前前缀P的码字输出到码字流; 把缀-符串P+C添加到词典; 令P := C /(现在的P仅包含一个字符C); 判断字符流中是否还有字符要编码 如果“是”,就返回到步骤2; 如果“否”: 把代表当前前缀P的码字输出到码字流; 结束。l 重点
39、掌握变换编码、预测编码、信息熵编码(霍夫曼、算术编码)的原理方法;变换编码 变换编码在频域中进行针对频域中能量集中的特点进行压缩 输入图象G经正交变换U变换到频域空间,象素之间相关性下降,能量集中在变换域中少数变换系数上,已经达到了数据压缩的效果。 对变换系数A中那些幅度大元素予以保留,其它数量多的幅度小的变换系数,全部当作零不予编码,再辅以非线性量化,进一步压缩图象数据。 由于量化器存在,量化后变换系数A和A间必然存在量化误差,从而引起输入图象G和输出图象G间存在误差。图中U是U的逆变换。 变换编码数据压缩主要是去除信源的相关性。 设信源序列为X=X0, X1, XN-1,表征相关性的统计特
40、性就是协方差矩阵: 其中i,j=E(Xi-EXi)(Xj-EXj).当协方差矩阵x 除对角线上元素之外各元素均为0时,就等效于相关性为0。 为了有效压缩,希望变换后的协方差矩阵为对角矩阵,并希望主对角线元素随i, j增加尽快衰减。 已知X的条件下,根据它的协方差矩阵去寻找一种正交变换T,使变换后的协方差矩阵满足或接近为一对角阵。 Karhunen-Loeve变换即是这样一种变换,又称为最佳变换,它能使变换后协方差矩阵为对角阵,并且有最小均方误差。它的计算比较复杂。 实际应用中采用了一些准最佳变换如DCT,DFT和WHT等,使用这些变换后的协方差矩阵一般都接近一对角阵。信息熵编码 又称为统计编码
41、,它是根据信源符号出现概率的分布特性而进行的压缩编码。 基本思想: 在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。 如Huffman编码、算术编码。 Huffman定理 定理 在变长编码中,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字。如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。 Huffman定理是Huffman编码的理论基础 算术编码 六十年代初,Elias提出了算术编码概念。 1976年, Rissanen和Pasco首次介绍了它的实用技术。其基本
42、原理是将编码的信息表示成实数0和1之间的一个间隔,信息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。 算术编码的特点 不必预先定义概率模型,自适应模式具有独特的优点; 信源符号概率接近时,建议使用算术编码,这种情况下其效率高于Huffman编码(约5%)。JPEG扩展系统采用。¨ 第四章 音频l 数字音频的基本概念; 什么是声音? 声音是通过空气传播的一种连续的波。 声波压力的大小体现声音的强弱;声音的频率体现音调的高低 声音的重要性和特点 信息量大、精细、精确 声音的分类 频率小于20 Hz的信号称为亚音(subsonic);频率范围为20 Hz20 kHz的信号
43、称为音频(Audio) 高于20 kHz的信号称为超音频(ultrasonic)音频信号 规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。模拟信号的曲线无论多复杂,在任一时刻t都可分解成一系列正弦波的线性叠加: 声音信号 f ( t0 ) 是一种周期性的复合信号,它的特征就是其中许多单一信号即正弦波信号 An Sin (no t + n) 的特性,也即幅度An 频率o和相位n的特征决定了音频信息的特性音频信号特点 音频信号处理的特点 :音频信号是时间依赖的连续媒体。因此,音频处理的时序性要求很高。如果在时间上有25ms的延迟,人就会感到断续; 理想的合成声音应该是立体声;
44、语音信号包含大量的语义;如何抽取语义就成为音频信号处理的一个非常有意义的研究分支。音频信号基本概念 基频与音调 频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率0所决定的。音乐中音阶的划分是在频率的对数坐标20logf上取等分而得的。 谐波与音色 n×0称为0的高次谐波分量,也称为泛音。音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An和相位偏移n,由此产生各种音色效果。 幅度与音强 人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3
45、分贝的音强变化,再细分则没有太多意义。我们常用音量来描述音强,以分贝(dB=20log)为单位。在处理音频信号时,绝对强度可以放大,但其相对强度更有意义,一般用动态范围定义:动态范围20×log(信号的最大强度 / 信号的最小强度)(dB) 动态范围越大,信号强度的相对变化范围越大,音响效果越好。 音宽与频带 频带宽度或称为带宽,它是描述组成复合信号的频率范围 频带宽度 音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好 信噪比 信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。 噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越
46、好。 l 音频信号的数字化处理过程; 编码的过程首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果即输入信号在时间轴上的离散化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化,这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制输出数据序列x ( n ),n表示量化的时间序列,x ( n )的值就是n时刻量化后的幅值,以二进制的形式表示和记录。 PCM编码原理 把模拟信号转换成数字信号的过程称为模/数转换,它主要包括: 采样:在时间轴上对信号数字
47、化; 量化:在幅度轴上对信号数字化; 编码:按一定格式记录采样和量化后的数字数据。 脉冲编码调制PCM(Pulse Code Modulation)是一种模数转换的最基本编码方法。CD-DA采用的就是这种编码方式。 l 影响数字化音频质量的因素数字音频基础 数字音频 将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理的过程,主要包括采样和量化两个方面。 数字音频的质量取决于:采样频率、量化位数、声道 采样频率采
48、样定理 根据该采样理论,CD 激光唱盘采样频率为44KHz,可记录的最高音频为22KHz,这样的音质与原始声音相差无几,也就是我们常说的超级高保真音质。 音频采样的三个标准频率分别为:44.1KHz,22.05KHz和11.025KHz。听觉识别音频的范围 2khz5khz 量化位数 量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。 声道数 有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色
49、好,但立体声数字化后所占空间比单声道多一倍。l 如何计算音频信号数字化的容量;¨ 音频数据率未经压缩的数字音频数据率(bit/s)采样频率(Hz)×量化位数 (bit)×声道数音频数据量(Byte) 数据率(bit/s)×持续时间(s) / 8例:采样率11.025KHz、量化位8位,采集1分钟, 则:音频数据率11.025(KHz)×8(bit) 88.2 (Kbit/s) 音频数据量11.025(KHz)×8(bit) ×60(s) 0.66 (MByte)l 音频压缩编码标准和文件格式;mp3音频压缩编码原理音频压缩和
50、编码 减少音频文件容量大小的方法:降低采样频率、降低位深度、减少声道数、使用压缩方法 压缩编码的目的:在保证一定声音质量的条件下,以最小的数据率来表达和传送图像(或声音)信息。 压缩编码的必要性:实际应用中,音频数据量很大,进行传输或存储数据量很不现实。 压缩比声音压缩标准 声音包括语音和音乐, 是多媒体系统中两类重要数据。 声音数据表征是一个一维时变系统,特别对于语音数据,人们已经找到了较合理的声道模型,因此声音数据的压缩要比图象数据的压缩容易。 ITU语音标准化方案 16Kbps ITU语音标准化方案G.728 使用领域统一在可视电话、数字移动通信、无绳电话、卫星通信、DCME、ISDN等
51、范围内。 对于以上所提到的应用范围,约束条件是语音质量在32Kbps ADPCM的同等或以上,且编码延迟时间在5ms以下。 具有以下特征: 以块为单位的后向自适应高次线性预测: 后向自适应型增益量化; 以向量为单位的激励信号量化。 G.728用在64Kbps的ISDN线路的可视电话,带宽分配为语音16Kbps,图象48Kbps。 32Kbps ITU语音标准化方案G.721 作为对象的信号包括在电话线中流通的所有的信号, 如语音、个人计算机通信的调制解码信号, 按键电话的信号等等。G.721方案采用算法是编码符号延迟为0的且对传送通道的误码率要求不高的ADPCM方式。 目的是最终取代现有的PC
52、M电路传送方式。ADPCM方式在算法上的特征 为了提高预测精度(特别对于性质相差很大的语音信号和调制解调器对的信号),采用了动态对数量化器。 ADPCM本身采用了按每个采样点进行自适应控制的鲁棒自适应预测器。 追加了PCM和ADPCM间不论进行多少次转换都不会引起特性降低的同步功能。G.721方案的应用 最初是面向卫星通信,长距离通信以及信道价格很高的语音传输。 目前的应用领域除了最初的目标外, 还被使用在包括电视会议的语音编码, 为提高线路利用率的多媒体多路复用装置, 数字录音电话的数字记录部件, 以及高质量的语音合成器等等。 64Kbps ITU语音标准化方案G.722 G.722方案编码
53、方法是使用在64Kbps位速率以内工作的SB-ADPCM方法音频编码,它将50Hz到7K Hz间的频带从4KHz处分割为高频区和低频区,各频带利用ADPCM算法进行分别编码。 为了与速率相对应,算法分为3种基本工作模式,即64Kbps,56Kbps和48Kbps模式.G.722的应用 主要应用对象是电视会议系统, 这是多媒体通信一个子领域。要解决的主要问题是高质量的语音传送。语音通信会议一般涉及3个或3个以上的不同地点, 因此64Kbps音频编码标准必须支持多地点间的会议系统。音频文件格式 PCM编码与WAV文件格式PCM:一种最通用的无压缩编码,CD-DA采用的方式ADPCM:一种通用的有损
54、压缩编码.压缩比达1:4 WAV文件:一种通用的音频数据文件,采用PCM,ADPCM编码 WAVE(.WAV):如今电脑上最为常见的声音文件,符合RIFF文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台机器应用程序所广泛支持,WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他压缩算法,支持多种音频位数,采样频率和声道,但其缺点是文件体积较大,所以不适合长时间纪录。 MPEG音频层 MPEG音频文件指的是MPEG标准中的声音部分 。MPEG音频文件根据压缩质量和编码复杂程度的不同可分为三层(MPEG AUDIO-LAYER 1/2/3分别与MP1、MP2和MP3这三种声音文件相对应 MPEG音频编码的压缩率 MP1和MP2 的压缩率分别为4:1和6:1-8:1,而MP3的压缩率则高达10:1-12:1.也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。MPEG-1 layer 1 Mpeg-1 layer 2l 第一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025租房合同协议样本参考
- 2025租赁合同撤销协议书
- 2025股票交易委托合同范本模板
- 2025微博平台委托开发合同
- 2025中学新风系统安装施工合同书
- 2025租房合同简化版
- 2025租房合同简化版样本
- 2025标准化的煤炭购销合同范本
- 2025年知识产权合同纠纷的解决方法
- 《养殖用药及安全》课件
- 定额〔2025〕1号文-关于发布2018版电力建设工程概预算定额2024年度价格水平调整的通知
- 深基坑专项施工方案专家论证会议签到表
- 强化学习与联邦学习结合
- 关于新能源汽车的论文10000字
- 停车场建设工程监理规划
- 中型水力发电厂电气部分初步设计
- 2023山西焦煤集团有限责任公司井下操作工招聘2000人笔试模拟试题及答案解析
- 分红险、万能险销售资质考试真题模拟汇编(共763题)
- 鱼台工程运河杯汇报材料
- GB/T 16895.25-2022低压电气装置第7-711部分:特殊装置或场所的要求展览、展示及展区
- 《运营管理》案例库
评论
0/150
提交评论