版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题一多媒体技术基础
第一章多媒体计算机的定义和关键技术
媒体(Medium)在计算机领域中有两种含义:
1、用以存储信息的实体,如磁带、磁盘、光盘和半导体存储器;
2、信息的载体,如数字、文字、声音、图形和图像。
多媒体技术中的媒体是指后者。
多媒体计算机技术定义
计算机综合处理多种媒体信息(文本、图形、图象、音频和视频),使多种信息建立逻辑连接,集成为一个系统并具有交互性。
简单地说:计算机综合处理声、文、图信息;具有集成性和交互性;
总之多媒体计算机具有信息载体多样性、集成性和交互性。
多媒体计算机的关键技术(把一台普通计算机变为多媒体计算机要解决的的关键技术)
(1)视频音频信号获取技术;
(2)多媒体数据压缩编码和解码技术;
(3)视频音频数据的实时处理技术和特技:
(4)视频音频数据的输出技术。
多媒体计算机的分类
家电制造厂商研制的:电视计算机一一灵巧电视SmartTV
计算机制造厂商研制的:计算机电视一一发展方向是TV-killer
在多媒体计算机发展史上卓有成效的公司和系统
1、Philips/Sony公司的CDT系统
2、Commodore公司的Amiga系统
3^Apple公司的HyperCard
4、Intel和IBM公司的DVI系统
HDTV(HighDefinitionTelevision高清晰度电视)特点:
(1)采用国际标准的压缩编码算法MPEG-2。(能与多媒体计算机兼容、通信)
(2)采用打包数据结构。(图像、声音、及多媒体服务附加数据以包的方式发送,包可随即次序传送、大小动态分配)
(3)采用双层传输技术。(重要数据放到高优先级的载波上传输,其他数据放到具有标准优先级的载波上传输)
常规电视数字化:
汤姆逊(Thomson)消费电子公司通过休斯银河(HughesGalaxy)601卫星,开创世界首次全数字直接到户的卫星广播业务
(DSS-l)igitalSatel1itesSystem及DBS-DirectBroadcastService)。消费者很容易获得120到150个频道最受欢迎的电视
节目。用户端只需要购置一个易于安装的18英寸或常规碟形天线,一个和录像机体积差不多的接收机/解码器以及一个易于控制和
操作的遥控器。
交互式电视技术(ITV):
最常用的是节目间的交互,即V0D系统。典型的V0D系统主要由下述四部分组成;
(1)视频服务器;(2)编码器/路由器;(3)用户请求计算机和记帐计算机;(4)机顶盒
多媒体计算机技术在常规电视和高清晰度电视,影视节目制作中的应用分成两个层次:
影视画面的制作;影视的后期制作(如非线性编辑器)。
用多媒体技术制作V-CD及影视音响卡拉0K机
多媒体数据压缩和解压缩技术是多媒体计算机系统中的关键技术,首次将此技术应用到VCD播放机中的是美国C-Cube公司。
VCD问世于1993年,是多家公司联合制定的数字电视视盘技术标准。安徽合肥万燕公司在世界上首先利用MPEG国际标准和CD
光盘技术,研制了全功能影视音响卡拉0K机CDK-320。
VCD播放机,由CD-ROM驱动器、MPEG解压卡及控制操作电路组成。
DVD与VCD的不同只是视频和音频的编码标准不同,两者的原理是一样的。DVD的视频和音频编码标准是MPEG-2或者AC-3而
不是MPEGT。
V-CD播放系统主要有下述两种产品:MPEG播放卡、V-CD播放机
多媒体家庭网关
MHG(多媒体家庭网关)数据流向图MHG结构图
一般认为,多媒体技术研究的兴起从(1984年,美国Apple公司推出Macintosh系列机)开始
多媒体创作工具的分类:
基于时间的创作工具;
基于图符(Icon)或流线(Line)创作工具;
基于卡片(Card)和页面(Page)的创作工具;
以传统程序语言为基础的创作工具。
多媒体创作工具的应用:
制作各种电子出版物、教材、参考书、地图、医药卫生、商业手册及游戏娱乐节目。
多媒体应用系统、演示系统或信息查询系统、导游系统;培训和教育系统;娱乐、视频动画及广告等等。
多媒体数据库的研究途径:
(1)在现有商用数据库管理系统的基础上增加接口,以满足多媒体应用的需要;(实用,效率低)
(2)建立基于一种或几种应用的专用多媒体信息管理系统;(易实现,缺乏通用性,可扩展性差)
(3)从数据模型入手,研究全新的通用多媒体数据库管理系统(研究和发展的主流,难度较大)
多媒体数据库要解决的关键技术问题:
(1)多媒体数据模型:采用面向对象的方法描述和建立多媒体数据模型是较好的方法。(2)数据的压缩和解压缩
(3)多媒体数据的存贮管理和存取方法(4)多媒体信息的再现及良好的用户界面(5)分布式技术
多媒体数据存储的问题:巨大的数据量、存储技术、多媒体对象存储、多媒体文档检索。
多媒体数据库基于内容的检索:目标标识,特征提取,数据库查询接口,检索引擎,索引/过滤器
多媒体通信分类:
(1)对称的全双工的多媒体通讯。如分布式多媒体信息系统、视频会议系统及计算机支持的协同工作系统;
(2)非对称全双工的多媒体通讯系统。如交互式电视系统(ITV)、点播电视系统(VOD)
多媒体通信的关键技术:(1)多媒体数据压缩。(2)高速数据通讯问题。尤其是视频会议系统要解决视频会议系统的国际标准问题。
视频会议系统可分为两类:
(1)点对点视频会议系统:如可视电话、台式机一台式机视频会议(桌面视频会议系统)、会议室一会议室视频会议
(2)多点视频会议系统:如三个或三个以上不同地点的参加者一起参加讨论。多点会议系统的关键技术是:多点控制器(MCU),
它能自动的交换数据。
视频会议系统的结构:视频会议终端、多点控制器、信道(网络)、控制管理软件。
MCU——多点控制单元/多点控制器
MCU是视频会议系统的关键设备,它的主要功能是对视频、语音及数据信号进行切换。例如它会将传送到MCU某会场的场景图
像信号切换到所有会场,对于语音信号,若同时有几个发言,可以对他们进行混合处理,选出最高的音频信号切换到其它会场。
MCU的主要组成部分:网络接口单元、呼叫控制单元、多路复用和解复用单元、音频处理器、视频处理器、数据处理器、控制
处理器、密钥处理分发器、呼叫控制处理器。
多媒体计算机的发展趋势
(1)进一步完善计算机支持的协同工作环境CSCW(ComputerSupportedCollaborativeWork)
(2)智能多媒体技术
(3)把多媒体信息实时处理和压缩编码算法作到CPU芯片中。(集成原则:压缩算法采用国际标准设计;多媒体功能的单独解
决变成集中解决;体系结构设计和算法相结合。)
总之,多媒体计算机将朝着高分辨率、提高显示质量、高速化、简单化、智能化方向发展。
第二章多媒体信息处理技术
采样、量化、数字化、数字图像
多媒体计算机处理图像和视频,首先必须把连续的图像函数f(x,y)进行空间和幅值的离散化处理:
采样:空间连续坐标(X,y)的离散化
量化:f(x,y)颜色的离散化
数字化:两种离散化结合在一起,叫做数字化。离散化的结果称为数字图像。
x,y的离散化称为采样
f(x,y)的离散化称为量化
采样
对连续图像彩色函数f(x,y),沿x方向以等间隔Ax采样,采样点数为N,沿y方向以等间隔Ay采样,采样点数为N,于
是得到一个NXN的离散样本阵列
[f(m,n)]NXN。
为了达到由离散样本阵列以最小失真重建原图的目的,采样密度必须满足香农采样定理采样密度:与Ay)
采样定理:采样间隔与f(x,y)频带之间,频带愈窄,相应的采样频率可以降低,采样频率是图像变化频率二倍时,就能保证
由离散图像数据无失真地重建原图。
颜色的基本概念
彩色可用亮度、色调和饱和度来描述,人眼看到任一彩色光都是这三个特性的综合效果。
亮度:光作用于人眼时所引起的明亮程度的感觉,它与被观察物体的发光强度有关。(光的强和弱)
色调:当人眼看一种或多种波长的光时所产生的彩色感觉,它反映颜色的种类,是决定颜色的基本特性。
饱和度:指颜色的纯度,即掺入白光的程度(指颜色的深浅程度,对于同一色调彩色光,饱和度越深颜色越鲜明或者说越纯)。
红色+白光>粉红色>饱和度下降
红色+绿色>黄色>色调发生变化
色度:色调和饱和度通称为色度。
亮度表示某彩色光的明亮程度,而色度则表示颜色的类别与深浅程度。
三基色原理
三基色原理:自然界常见的各种颜色光,都可由红(R)、绿(G)、蓝(B)三种颜色光按不同比例相配而成,同样绝
大多数颜色也可以分解成红、绿、蓝三种色光。
三基色的选择不是唯一的,三种颜色必须是相互独立的,即任何•种颜色都不能由其他两种颜色合成。
相加混色:把三种基色光按不同比例相加称之为相加混色。
常用亮度公式:(Y表示白光的亮度)
NTSC电视制式:Y=0.3R+0.59G+0.11B;
PAL电视制式:Y=0.222R+0.707G+0.071B
注:如果把单色光亮度定为100,则主观感觉是绿光仅次白光,是三基色中最亮的,红光次之,亮度约占绿光的一半,蓝光最
弱,亮度约占红光的1/3。注意0.3+0.59+0.11=1.0三原色的系数之所以不同是因为人的眼睹对不同波长的颜色有着不同的敏感度。
RGB彩色空间
当三基色按不同强度相加时,可得到任何一种颜色。在RGB彩色空间,某一种颜色和这三种颜色之间的关系可用下面的式子来
描述:F(颜色)=r[R]+g[G]+b[B](r+g+b=l)
其中r、g、b为三色系数。r[R]、g[G]、b[B]为F色光的三色分量。当三基色等量相加时,得到白色。
不管多媒体系统采用何种色彩空间,最后监视器输出一定要转换成RGB色彩空间。
RGB和黑白电视信号不兼容。
YUV彩色空间
摄像机把摄得的彩色图像信号,经分色棱镜分成RGB。三个分量的信号,分别经放大和丫校正得到RGB,再经过矩阵变换电路
得到亮度信号Y、色差信号R-Y和B-Y。
Y=0.3R+0.59G+0.UB~Y~■0.30.59o.ii-R
U=m(B-Y)=0.493(B-Y)U=-0.15-0.290.44G图像子采样
V=n(R-Y)=0.877(R-Y)V0.61-0.52-0.096B对图像进行采样时,如果对色差信号
优点:使用的采样频率比对亮度信号使用的采样
1)亮度信号Y解决了彩色电视和黑白电视的兼容问题。频率低,这种采样就称为图像子采样
2)可以利用人眼的特性来降低数字彩色图像所需要的存储容量。(subsampling)o
YUV彩色空间,数字化后通常的比例为:Y:U:V=8:4:4Y:U:V=8:2:2
YIQ彩色空间
亮度:Y色差:I、Q
I轴:表示人眼最敏感的色轴
(123度的橙色及其相反方向的303度的青色,人眼对其具有最大的彩色分期
Q轴:表示人眼最不敏感的色轴
/=Teos330-ysin33°
优点:
人眼分辨红、黄之间颜色变化的能力最强,而分2=Psin330+Ucos33°
辨蓝与紫之间颜色变化的能力最弱。在传送分辨
力弱的信号时,可以用较窄的频带,而传送分辨
力较强的信号时,可以用较宽的频带。
Y0.30.590.11R
I-0.6-0.28-032G
Q0.21-0.52031B
电视广播制式
世界上主要使用的电视广播制式有PAL、NTSC,SECAM三种,中国大部分地区使用PAL制式,日本、韩国及东南亚地区与美国
等欧美国家使用NTSC制式,俄罗斯则使用SECAM制式。PAL制式(.正交平衡调幅逐行倒相制):采用YUV彩色空间;25帧/秒。
NTSC制式(正交平衡调幅制):采用YIQ彩色空间。30帧/秒。SECA"制(行轮换调频制)25帧/秒。
HSI彩色空间
H(hue)色调;S(saturation)饱和度;I(Intensity)光的强度
优点:亮度分量与图像的色彩信息无关;能够减少彩色图像处理的复杂性,它更接近人对彩色的认识和解释。广泛用于计算
机视觉、图像检索和视频检索。rR+G+B
13
HSI彩色空间与RGB彩色空间之间的转换:
H=+l90-arctan(F</5)+{0,G>B:180,G<B}]
其中
„2R-G-B
F=G-B
★全电视信号
电视摄像机把一幅图像信号转变成的输出信号就是全电视信号。
光栅扫描
二维信号一维信号
(扫描方式:隔行扫描逐行扫描;隔行扫描:奇数场+偶数场=1帧:每一行有正程和逆程。)
黑白全电视信号=图像信号(视频信号)+复合消隐信号(行消隐、场消隐)+复合同步信号(行同步、场同步)
彩色全电视信号=色度信号+亮度信号+复合同步信号+复合消隐信号
在现代彩色电视系统中,通常采用YUV彩色空间或YIQ彩色空间,Y为亮度信号,它可以与黑白全电视信号兼容,U和V用载
波频率3sc调制加到亮度Y上,最后形成彩色全电视信号,如下式所示:
CVBS=Y+F
F=Vcos<*>sct+Usinset(压缩后的色度信号)
多媒体计算机常用的三种图像及其获取方式
多媒体计算机最常用的图像有下述三种:图形、静态图像、动态图像(视频)。获得这三种图像可用下述方法:
(1)计算机产生彩色图形,静态图像和动态图像:
(2)用彩色扫描仪,扫描输入彩色图形和静态图像:
(3)用视频信号数字化仪,将彩色全电视信号数字化后,输入到多媒体计算机中,可获得静态和动态图像。
★视频采集卡(视频信号获取器)工作原理概述如下:
视频信号源、摄像机、录像机或激光视盘的信号经过A/D变换,送到多制式数字解码器进行解码得到Y、U、V数据,然后由
视频窗口控制器对其进行剪裁,改变比例后存入帧存储器.
帧存储器的内容在窗口控制器的控制下,与VGA同步信号或视频编码器的同步信号同步,再送到D/A变换器模拟彩色空间变换
矩阵,同时送到数字式视频编辑器进行视频编码,最后输出到VGA监视器及电视机或录像机,
视频信号获取器的六部分:
(1)A/D变换和数字解码(2)窗口控制器(3)帧存储器系统
(4)数模转换和矩阵变换(5)视频信号和VGA信号的叠加(6)数字式多制式视频信号编码部分
模拟视1
常用的i
•GI
GIF格式最多只能储存256色。在压缩过程中,图像的像素资料不会被丢失,丢失的是图像的色彩。
主要优点在于压缩率高、单一文件容量小,并且可以产生动态的效果(可以在一个文件中存放多幅彩色图形/图像),支持图像
透明度。
•TIFF(TaggedImageFileFormat)——标记图像文件格式,扩展名:.TIF
支持多种压缩方法,特殊的图像控制函数以及许多其它特性。它是一种非失真的压缩格式(最高也只能做到2〜3倍的压缩比)
能保持原有图像的颜色及层次,但占用空间大。如果使用LAW无损压缩方法来压缩文件,能够产生大约2:1的压缩比。
故TIFF常被应用于较专业的用途,广泛应用于印刷业,如书籍出版、海报等,极少应用于互联网上。
•TGA(TargeImageFormat)目标图像格式
结构简单,由文件头和文件体组成。文件头描述图像的属性;文件体描述各点像素值。支持32位图像,其中包括8位Alpha
通道用于显示实况电视。
什么是alpha通道?
32位颜色深度就是在24位颜色深度上增加一个8位的灰
•BMP位图,扩展名:.bmp
度通道,这个灰度通道是为每个象素存储透明信息的通道,我
是windows系统交换图像数据的标准图像文件存储格式。
们把视频编辑中的这个8位的灰度通道叫做Alpha通道。
在windows环境下运行的所有图像软件都支持这种格式。
bmp是一种与设备无关的图像文件格式。它采用位映射存储格式,除了图像深度可选Ibit、4bit、8bit及24bit外,不采用
其他任何压缩,因此占用空间大。BMP文件存储数据时,图像的扫描方式是按从左到右、从下到上的顺序。
•PCXPCX图像文件格式是Zsoft公司研制开发的,主要与商业性PC—Paintbrush图像软件一起使用。
•MMPMMP图像文件格式是Ani-Video公司以及清华大学计算机系在他们设计制造的视频信号采集板中采用的图像文件格
式。为了使视频数据能和电视视频信号兼容,它的图像数据采用YUV的形式,并以Y:U:V=8:2:2的方式存储。
在编制图像文件格式转换程序时,主要解决的几个问题
(1)识别文件头和产生文件头的程序;(2)文件体的解码和编程程序;(3)文件体的数据转换程序。
多媒体计算机中常用的动态图像的文件格式
•MPG、MPEG
MPG是IS0/IEC1993年8月1日正式颁布的国际标准。
MPEGT标准包括三个部分:MPEG视频(核心)、MPEG音频、MPEG系统
MPEG数据流分六个层次
序列层、图像组层、图像层、片层、宏块层、块层
(1)序列层:规定了MPEG解码器的运行状态,包含图像的水平尺寸、垂直尺寸、长宽比、帧速率和位速率等信息。
(2)图像组层:一个MPEG图像序列分成若干个组,每组即为一个随机存取点,实现了图像随机存取,一个图像组可以单独解码。
图像组第一帧为I图像,第一个图像组有7帧图像,跟着的图像组有9帧图像,每个图像组必须包含一个或多个I图像。
(3)图像层:一幅图像对应一帧,四种图像形式:I帧内图P预测图B双向预测图D直流分量图
I图:信息量最多,是预测和运动补偿的基础;P图是经前面的I或P运动补偿后得到的,有一定的数据压缩;B图是由前后
的I,P图补偿后得到的,它的数据压缩率最大。
(4)片层:为容错考虑,将一幅图划分若干片,每片中都存有解码所需的信息,某一片出错时,可以继续查找下一片的起始信息
继续进行解码,而不会因图像的某一部分出错导致整幅图的损坏。
(5)宏块层:层是一个16*16的样本块,它是运动补偿和更换量化级的单位,宏块由该样本块的4个亮度块和2个色度块构成,
在其首部存放着量化级和运动补偿的信息。
(6)块层:一个块是8*8的矩阵,它是编码的基本单元。
图像序列头图像组图像组序列尾图像序列层
图像组头(1图久)°图……
•AVI——AudioVideoInterleave,即音频视频交叉存取格式
在AVI文件中,运动图像和伴音数据以交织的方式存储,并独立于硬件设备。构成一个AVI文件的主要参数包括影像、伴音
和压缩参数等。影像和伴音分别存储,因此可以把一段视频中的影像与另一段视频中的伴音组合在一起。
AVI的视窗大小可按4:3的比例或随意调整,视窗越大,数据量越大。AVI的帧率也可以调整,而且与数据量成正比。不同
的帧率会产生不同的画面连续效果。
•AVS
AVS是Intel和IBM公司共同研制的数字视频交互DVI系统动态图像文件格式,AVS必须在DVI硬件系统的支持下才能读写,
这样系统的造价较高。
数字化音频的获取,数字化音频模数转换过程
采样:声波是连续信号,或称连续时间函数x(t)o用计算机处理这些信号时应先离散化,即按一定的时间间隔(T)取值,
得到x(nT)(n为整数),T称采样周期,1/T称采样频率(每秒钟采样次数),x(nT)称采样值(或离散信号)
奈奎斯特(Nyqust)采样定理:只要采样频率大于或者等于信号中所包含的最高频率的两倍;即当信号是最高频率时,每
个周期至少采样两个点,则理论上就可以完全恢复原来的信号。
量化:通过采样得到的表示声音强弱的函数x(nT)是连续的,为把x(nT)存入计算机,就必须将采样值离散化,即量化成一
个有限个幅度值的集合
编码:音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对其编码,即用二进制数表示每个采样的量化值,
完成整个模数转换过程。采样频率、采样精度和声道数对声音的音质和占用的存储空间起着决定性作用,如表所示:
声音质量采样频率(KHZ)采样精度(bit)单声道/双声道存储容量(Mb/min)数字化文件数据量(字节/秒)
=采样频率(Hz)X(量化位数(bit)/8)X
电话音质8810.46声道数
(注意:lkHz=1000HZ)
AM音质11.025810.63
FM音质22.051625.05
CD音质44.116210.09
DAT音质4816210.99
常用的声音文件格式
•WAV文件microsoft公司的波形音频文件,扩展名:.vaf
一种最直接的表达声音波形的数字音频文件,主要用于自然声音的保存与重放。存储容量大。电子幻灯片PowerPoint软
件、各种算法语言及多媒体平台软件可直接使用,适合多媒体系统、音乐光盘制作等。
•VOC文件Creative公司的波形音频文件,扩展名:.voc
声霸卡使用的音频文件格式。由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始的指针;
数据块分成各种类型的子块。利用声霸卡提供的软件可实现VOC和WAV转换。
•MIDI文件一一乐器数字接口音频文件,扩展名:.mid
一种计算机数字音乐接口生成的数字描述音频文件,文件中包含音符、定时和多达16个通道的乐器定义。文件不记载声音
本身波形数据,用数字形式记录声音特征,描述演奏过程中的指令,数据量小。适合应用在对资源占用要求苛刻的场合,比如多媒
体光盘、游戏制作、背景音乐等。主要用于计算机声音的重放和处理。
扩展名为RMI的文件是Microsoft公司的MIDI文件格式,可包括图片、标记和文本
•MP3文件——压缩音频文件,扩展名:.mp3
采用MPEG标准音频数据压缩编码中层III技术压缩之后的数字音频文件。压缩比高、数据量小、音质好,压缩比例有10:
1,17:1,甚至70:1;数据率可以是64kbps,也可以是320kbps«
•WMA文件一流式音频文件,扩展名:.wma
Microsoft研制的一种压缩离散文件或流式文件,相对于MP3具有较高压缩率和良好音质。当小于128kbps时最为出色且编
码后音频文件很小;当大于128kbps时音质损失过大。
•PCM文件——数字音频文件
模拟的音频信号经过模数转换(A/D转换)直接形成的二进制数字序列,该文件没有附加的文件头和文件结束标志。音源信息
完整,但冗余度过大;音源信息保存完整,音质好;信息量大,体积大,冗余度过大。因为能够达到最高保真水平的就是,所以被
广泛用于素材保存及音乐欣赏。比如AudioCD(72min/650MB)。
音频信号可分为两类:语音信号和非语音信号。
乐音三要素
音调:取决于声波的基频。基频越低声音越低沉,反之声音尖锐。音强:响度,取决于声音波形的幅度(振幅大小)。音色:有混
入基音(基波)的泛音(谐波)所决定。
音频信号处理的特点
1)音频信号是时间领带的连续媒体。因此音频处理的时序性要求很高。
2)应有两个声道,即理想的合成声音应是立体声。
3)对语音信号的处理不仅是信号处理问题,还要抽取语意等其他信息“因此可能会涉及语言学、社会学、声学等。
从人与计算机交互的角度来看音频信号相应的处理
1)人与计算机通信(计算机接收音频信号):音频获取
2)计算机与人通信(计算机输出音频):音频合成(包括语音合成盒音乐合成)与声音定位(包括立体声模拟;音视频同步)
3)人通过计算机与别人通信(通过网络与处于异地的人通信):语音采集、音频编/解码、音频传输等。
★语音信号的冗余度和数据压缩技术的三个重要指标
语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。人们在实施数据压缩时,要在音频质量、数据量、
计算复杂度三方面进行综合考虑,即数据压缩技术的三个重要指标。
★音频编码的分类
1)基于音频数据的统计特性进行编码。
其典型技术是波形编码,目标是使重建语音波形保持原形状。特点:适应性强,音频质量好,但压缩比不大,数据率较高。
例:PCM(脉冲编码调制,无压缩)、DPCM(预测脉冲编码调制)、APCM(自适应脉冲编码调制)、ADPCM(自适应预测编码)
用途:公用网、ISDN、配音。质量为虫0—4.5。
2)基于音频的声学参数,进行模型参数编码(音源编译码).
目标是是重建音频保持原有音频的特性。建立声音信号的产生模型,将声音信号用模型参数表示。常用的音频参数有共振峰、
线性预测系数、滤波器组等。特点:数据率低,但还原信号的质量差、自然度低。
例:LPC(线性预测编码)
用途:保密话声,质量为2.5—3.5。数据率为2.4Kb/s
3)混合编译码
结合上两种算法,企图寻找一种激励信号,这种信号激励产生的波形尽可能接近原话音波形。
例:MPLPC(多脉冲线性预测编码)
CELPC(码激励线性预测编码)用途:移动通信。数据率4.8Kb/s。
VSELP(矢量和激励LPC)用途:语音邮件。数据率8Kb/s
RPE-LTP(规则脉冲激励编码)用途:ISDN。数据率13.2Kb/s
4)基于人的听觉特性进行的感知编码
从人的听觉系统出发,利用掩蔽效应,涉及心理声学模型,实现更高效率的数字音频压缩。
例:MPEG、AC-3
用途:音响,质量5.0
算法名称数据率曷住一应用质量
PCM均匀量化64kb/sG.711
U(A)u(A)
APCM
波自适应量化
形公共网
DPCM差值量化
编ISDN4.0~4.5
码ADPCM自适应差值量化32kb/sG.721话音
64kb/sG.722
子带一自适应
SB-ADPCM5.3kb/s
差值量化G.723
6.3kb/s
参数编码LPC线性预测编码2.4kb/s保密话声2.5〜3.5
CELPC激励码LPC4.6kb/s移动通信
VSELP矢量和激励LPC8语kb/s语音邮件
混
合4.0-3.7
RPE-LTP规则脉冲激励编码13.2Kb/sISDN
编
码G.728
LD-CELP低延时码激励LPC16Kbps
G.729
MPEG多子带感知编码128KbpsCD5.0
AC-3感知编码音响5.0
★音源编译码音乐合成技术
产生MIDI乐音的方法很多,现在用得较多的方法有两种:一种是频率调制(frequencymodulation,FM)合成法,另一种是乐
音样本合成法,也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。
频率调制(FM)合成法:把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模
转换器(digitaltoanalogconvertor,DAC)来生成乐音。但是使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几
乎不能产生。
波形表合成法:把真实乐器发出的声音以数字的形式记录下来,存在ROM里,播放时改变播放速度,从而改变音调周期,生成
各种音阶的音符。乐音样本的采集相对比较直观。较好的声卡均使用波表合成法。PCM波表合成器。
MIDI数字乐器接口
MIDI是数字音乐接口(MusicalInstrumentDigitalInterface)的缩写。MIDI是用来酹电子乐器相互连接,或将MIDI设
备与电脑连接成系统的一种通讯协议。通过它,各种MIDI设备都可以准确传送MIDI信息。MIDI协议提供了一种标准的和有效的
方法,用来把演奏信息转换成电子数据。MIDI信息是以“MIDImessages”传输的,它可以被认为是告诉音乐合成器(music
synthesizer)如何演奏一小段音乐的一•种指令,而合成器把接收到的MIDI数据转换成声音。
同WAV文件相比,MIDI文件有以下特点:
1.用乐谱指令代替声音数据
2.有效记录和重现各种乐器声音
3.占用存储空间极小
4.适合乐曲创作和远距离传输
声卡的组成与工作原理
处理音频信号的PC插卡是声卡(AudioCard),又称音频卡,声卡处理的音频媒体有数字化声音(Wave)、合成音乐(MIDI)、
CD音频。采样频率中,22.05kHZ是当前音频卡所支持的。声卡的功能包括:
(1)音频录放(录制:把声音转换为文件;播放:把文件还原为声音)
(2)编辑与合成(对声音文件进行各种特殊处理,如倒播、加回音、静噪音、往返放音、交换声道等)
(3)MIDI接口和音乐合成(依赖于合成芯片)
(4)文语转换与语音识别
(5)CD-ROM接口与游戏棒接口
★声卡主要组成部分:数字声音处理器、混合信号处理器、功率放大器、音乐合成器及MIDI控制器、计算机总线接口和控制器。
声卡的发展趋势
(1)改善声音质量
(2)统一音频卡标准
(3)简化安装的即插即用音频卡
(4)三维环绕立体声
(5)全双工声音处理
(6)与通信技术的结合
(7)单一芯片
多媒体数据压缩技术的性能指标:压缩比(=输入数据和输出数据比);压缩和解压的速度;恢复效果要尽可能恢复原始数据。
多媒体数据压缩的可能性
(1)空间冗余:例:图象中的“A”是一个规则物体。光的亮度、饱和度及颜色都一样,因此,数据A有很大的冗余。
(2)时间冗余
(3)信息焙冗余
信息量:指从N个相等的可能事件中选出一个事件所需要的信息度量和含量。
信息嫡:指一团数据所带的信息量,平均信息量就是信息牖(entropy)o
(4)结构冗余:图象有非常强的纹理结构。如草席图结构上存在冗余。
(5)知识冗余:图像的理解与某些基础知识有关。
例:人脸的图像有同样的结构:嘴的上方有鼻子,鼻子上方有眼睛,鼻子在中线上……
(6)视觉冗余:视觉冗余是非均匀、非线性的。
(7)其他冗余:空白的非定长性
预测编码
预测编码主要是减少数据在空间和时间上的相关性。它根据某一模型利用以往的样本值对新样本值进行预测,然后将样本的
实际值与其预测值相减得到一个误差值,进而对这一误差值进行编码。预测编码方法中典型的有DPCM和ADPCM方法。
差分脉冲调制(DPCM)预测:是降低每个像素所需平均比特数最实用的方法。对于绝大多数图像来说,在局部空间和时间上
是高度相关的,因而可以在已得到像素的基础上通过对当前像素的预测来减少图像的数据量。预测器设计是预测编码系统的核心,
预测器的复杂程度与线性预测中使用以前的样本数有关,样本数越多,预测器越复杂。在预测编码系统中,图像质量下降的主要原
因是①预测误差的量化,②由图像传输过程中的误码在接收端预测器中引起的误码传播。不带量化器的DPCM线性预测编码,属于
无失真编码系统;带有量化器的DPCM线性预测编码,属于有失真编码系统。
自适应差分脉冲调制(ADPCM)预测:自适应技术的概念是预测器的预测系数和量化器的量化参数,能够根据图像的局部区
域分布特点自动调整。即定期地重新计算协方差矩阵和相应的加权因子,充分利用其统计特性重新调整预测参数,使预测器随着输
入数据的变化而变化,从而得到较为理想的输出。自适应预测又可分为线性自适应预测和非线性自适应预测两种。实践证明,ADPCM
编、解码系统与DPCM编、解码系统相比,不仅能改善恢复图像的评测质量和视觉效果,同时还能进一步压缩数据。ADPCM系统包
括自适应预测,即预测系数的自适应调整和自适应量化,即量化器参数的自适应调整两部分内容。
变换编码
变换编码不是直接对时域图像信号编码,而是首先在数据压缩前对原始输入数据作某种正交变换,把图像信号映射变换到另
外一个正交相量空间,产生一批变换系数,然后再对这些变换系数进行编码处理。利用图像块像素值之间的相关性,把图像变换到
一组新的基上,使得能量集中到少数几个变换系数上,通过存储这些系数达到压缩的目的。本方法采用对整幅的原始图像分成许多
个矩形区域子图像独立进行变换。常用变换有:卡亨南一洛维变换(KLT)、离散余弦变换(DCT)、沃尔什―哈达玛变换(WHT),离
散傅里叶变换(DFT)«其中,K-L变换是以图像的统计特性为基础的一种正交变换,它是消除数据相关性最有效的正交变换,但由
于计算复杂度高,实际应用中很少使用。
统计编码
1、统计编码原理——信息量和信息燧
(D信息:是用不确定性的量度定义的。
(2)信息量:从N个相等可能事件中选出一个事件所需要的信息度量或含量。
Shannon信息论把一个事件(字符si)所携带的信息量定义为:I(si)=log2(1/p)=-log2p(bit)
其中P为事件发生(字符出现)的概率;I(si)即随机事件或变量X取值为si时所携带的信息量。
(3)焙:如果将信源所有可能事件信息量进行平均就得到信息的炳(燧就是平均信息量)。即:
H(x)=plIl+p2I2+",+piIi=pllog2(l/pl)+,,,.+pilog2(l/pi)
例:有一幅40个像素组成的灰度图像,灰度共有5级,分别用符号A,B,C,D,E表示,40个像素出现不同灰度的结果如下
表所示。如果用3个位表示5个等级的灰度值,编码这幅图像总共需要120位。
按照shannon的理论,这幅图像的燔为:
H(s)=15/40*log2(40/l5)+7/40*log2(40/7)++(5/40)*Iog2(40/5)=2.196
这就是说每个符号用2.196位表示,共需2.196*40=87.84位。压缩比约为3/2.196=1.37:1。
2、哈夫曼编码
Huffman编码就是利用变字长最佳编码实现信源符号按概率大小顺序排列。让最频繁出现的符号具有最短的编码。Huffman编
码的过程=生成一棵二叉树(H树)
Huffman具体编码步骤
(1)将符号按概率从大到小顺序排列
(2)出现概率最小的两个符号概率相加合成一个概率。
(3)将合成概率看成一个新组合符号概率,重复上述做法,直到最后只剩下两个符号概率为止。
(4)反过来逐步向前编码,每一步有两个分支各赋予一个二进制码,可以对概率大的赋编码为“0”,概率小的赋编码为“1”。
(反之,也可以大的赋“1”,小的赋“0”)
特点:它属于不对称、无损、变码长的幅编码。码长虽然都是可变的,却不需要另外附加同步代码(即在译码时分割符号的特
Huffman编码的两个问题:
(1)没有错误保护功能一在译码时,如果码串中有哪怕
仅仅是1位出现错误,则不但这个码本身译错,而且后面的
码都会跟着错。称这种现象为错误传播,计算机对这种错误
也无能为力,不能知道错误出在哪里,更谈不上去纠正它
(2)不能随机定位——因为是可变长度码,所以很难在压
缩文件中直接对指定音频或图像位置的内容进行译码,这就
需要在存储代码之前加以考虑
3、算术编码
算术编码方法是将被编码的一则消息或符号串(序列)表示成0和1之间的一个间隔(Interval),即对一串符号直接编码成
[0,1]区间上的一个浮点小数。符号序列越长,编码表示它的间隔越小,表示这一间隔所需的位数就越多。信源中的符号序列仍然
要根据某种模式生成概率的大小来减少间隔。
例:给消息“state_tree”编码。初始化时,6个字符被分配的范围(range)如下表。编码过程如下:
字符概率范围
_(space)0.100<0.1
a0.10.1Wr<0.2
e0.30.2Wr<0.5
r0.10.5Wr<0.6
s0.10.6<r<0.7
t0.30.7^r<1.0
初始化Staetr3e
00.60.670.6730.67510.675280.675280.67529890.675302950.675303112
_(space)
0.10.610.6730.67330.675190.675307
a
0.20.620.6760.67360.675280.6753340.6753031120.6753031606
e
0.50.650.6850.67450.675550.675302950.6753033550.6753032335
r
0.60.660.6880.67480.67530376
s
0.70.670.6910.67510.6752989
t
10.70.70.6760.6760.675550.6753070.6753070.675303760.675303112
算术编码解码过程:
(1)设编码初始化子区间为[0,D,Qe从0算起,则Pe=bQe。随着被编码数据流符号的输入,子区间逐渐缩小。
(2)新子区间的起始位置=前子区间的起始位置+当前符号的区间左端X前子区间长度;
(3)新子区间的长度=前子区间的长度X当前符号的概率(等价于范围长度);
(4)最后得到的子区间的长度决定了表示该区域内的某一个数所需的位数。
在算术编码中需要注意的几个问题:
(1)由于实际计算机精度不可能无限长,运算中溢出是明显的问题,但多数机器都有16位、32位或者64位的精度,因此可使
用比例缩放法解决。(2)算术编码器对消息只产生一个码字,这个码字是在[0,1]中的一个实数,因此译码器在接受到表示这个实
数的所有位之前不能进行译码。(3)算术编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。
算术编码可以是静态的或者自适应的。在静态算术编码中,信源符号的概率是固定的。在自适应算术编码中,信源符号的概率
根据编码时符号出现的频繁程度动态地进行修改,在编码期间估算信源符号概率的过程叫做建模。需要开开发态算术编码的原因是
因为事先知道精确的信源概率是很难的,而且是不切实际的。当压缩消息时,我们不能期待一个算术编码器获得最大的效率,所能
做的最有效的方法是在编码过程中估算概率。因此动态建模就成为确定编码器压缩效率的关键。
4、RLE/RLC行程编码或游程长度编码
RLE视数字信息为无语义的字符序列(字节流),对相邻重复的字符,用一个数字表示连续相同字符的数目(称为行程长度),可
达到压缩信息的目的。如未压缩的数据:ABCCCCCCCCDEFFGGG;RLE编码:AB8CDEFF3G
RLE所能获得的压缩比有多大,这主要是取决于图像本身的特点。如果图像中具有相同颜色的图像块越大,图像块数目越少,
获得的压缩比就越高。译码时按照与编码时采用的相同规则进行,还原后得到的数据与压缩前的数据完全相同,是无损压缩技术。
RLE压缩编码尤其适用于计算机生成的图像,对减少图像文件的存储空间非常有效。RLE对颜色丰富的自然图像就显得力不从
心。但在自然图像的压缩中(如JPEG)还真少不了RLE,只不过是不能单纯使用RLE一种编码方法,需要和其他的压缩编码技术联
合应用。
静态图像压缩编码的国家标准JPEG(JointPhotographicExpertsGroup联合图象专家组标准)
JPEG给出了一个使用于连续色调图像的压缩方法。JPEG主要采用了以DCT为基础的有损压缩算法。而JPEG2000则采用的是
性能更优秀的小波变换。JPEG使用量化和无损压缩编码相结合来去掉视角的冗余信息和数据本身的冗余信息。JPEG属于结合变换
编码(DCT)与燧编码(RLE/Huffman)的混合编码。JPEG算法与彩色空间无关,因此它可以压缩来自不同彩色空间的数据,如RGB,YCbCr
和CMYK»
JPEG要求图像应达到目的的基本要求:
达到或接近当前压缩比与图像保真度的技术水平,能覆盖•个较宽的图像质量等级范围,能达到“很好”到“极好”的评估,
与原始图像相比,人的视觉难以分辨;JPEG在使用DCT进行有损压缩时,压缩比可调整在压缩10~30倍后,图像效果仍然不错。
能适用于任何种类的连续色调的图像,且长宽比都不受限制,同时也不受限于景物内容、图像的复杂程度和统计特性等。
计算的复杂性是可控制的,其软件可在各种C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肠粘连的健康宣教
- 辽河石油职业技术学院《现代物流技术与管理》2023-2024学年第一学期期末试卷
- 地推代理合同(2篇)
- 国际会计(第六章国际会计准则委员会)教材课程
- 通信基站维护员劳动合同
- 水利水电炮工施工合同
- 宠物训练师聘用合同
- 展览馆车位租赁合同范本
- 生态园地暖系统安装合同范本
- 网络安全防护与安全策略协议
- 2024年06月山东/北京恒丰银行博士后工作站招考笔试历年参考题库附带答案详解
- 【课件】寒假是用来超越的!课件 2024-2025学年高中上学期寒假学习和生活指导班会
- 2024-2025学年北师大版数学七年级上册期末练习卷
- 2025年大学华西医院运营管理部招考聘用3人管理单位笔试遴选500模拟题附带答案详解
- 2025年放射科工作计划
- 【8地RJ期末】安徽省合肥市肥西县2023-2024学年八年级上学期期末考试地理试题(含解析)
- 医院医用耗材SPD服务项目投标方案
- 建筑展望与未来发展趋势
- “互联网+”大学生创新创业大赛计划书一等奖
- 水土保持方案投标文件技术部分
- GB/T 3324-2024木家具通用技术条件
评论
0/150
提交评论