




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE8多媒体知识要点第一章1.多媒体的基本概念“多媒体”是指融合两种或两种以上媒体的一种人-机交互式信息交流和传播媒体,这些信息媒体包括:文字、声音、图形、图象、动画、视频等。2.常见多媒体的6种媒体元素:文本、音频、图形、图像、动画、视频3.媒体的5种类型:感觉媒体,表示媒体,显示媒体,传输媒体,存储媒体感觉媒体:能直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。如语音、音乐、各种图像、动画、文本等。表示媒体:为了传送感觉媒体而人为研究出来的媒体。借助于此种媒体,便能更有效的存储或传送感觉媒体。如语言编码、电报码等。显示媒体:用于通信中使电信号和感觉媒体之间产生转换用的媒体。如输入、输出设施,键盘鼠标器、显示器、打印机等。传输媒体:用于传输某些媒体的媒体,如电话线、电缆光纤等。存储媒体:用于存放某种媒体的媒体,如纸张、磁带、磁盘、光盘等。4.多媒体计算机系统的分层结构:软件系统,硬件系统5.多媒体计算机硬件的组成:多媒体PC机=PC机+CD-ROM驱动器+声卡+视频卡第二章1.什么是声音?声音是通过空气传播的一种连续的波。(声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。)声音的三要素:音调,音色,音强2.声音信号数字化的过程模拟信号→采样→量化→编码→数字信号采样:在某些特定时刻对模拟信号进行测量,即使音频信号在时间轴上离散化。量化:对采样后的离散音频信号幅值样本进行离散化处理,即将每一个样本归入预先编排的量化级上。编码:对量化级以二进制数码按一定数据格式表示的过程。3.影响数字音频质量的技术参数:采样频率,量化位数,声道数4.求数字音频文件存储量的计算以字节为单位,模拟波形声音被数字化后音频文件的存储量(假定未经压缩)为:存储量=采样频率×量化位数/8×声道数×时间(注意要除以8才得到字节)例如:用44.1KHz的采样频率进行采样,量化位数选用16位,则录制1秒的立体声节目,其波形文件所需的存储量为: 44100×16/8×2×1=176400(字节)1个字节=8个二进制1比特=1个二进制5.MIDI文件的特点:(1).指令集合,文件小。(2).编辑灵活,在音序器的帮助下,用户可自由地改变音调、音色以及乐曲速度等,以达到需要的效果。(3).表现力弱,不能与真正的乐器完全相似,音质有待提高。(4).MIDI声音适于重现打击乐或一些电子乐器的声音,利用MIDI声音方式可用计算机来进行作曲。(5).使用MIDI文件,其声音卡上必需含有硬件音序器或者配置有软件音序器。6.产生MIDI乐音的2种方法:FM合成法和乐音样本合成声音法7.三种话音编码器译码器的特点:波形编译码器(waveformcoder):不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。 特点:编译码器简单,话音质量高,但数据率也很高; 例如:PCM、DM、DPCM、ADPCM等。音源编译码器(Sourcecoder):也叫参数编译码器、声码器(vocoder)。它从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。 特点:算法复杂,计算量大,压缩率高,但还原声音的质量不高。混合编译码器(Hybridcoder):把波形编码的高质量和音频编码的低数据率结合在一起,取得了较好效果。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。7.了解脉冲编码调制(PCM),自适应增量调制(ADM),增量调制(DM),自适应脉冲编码调制(APCM),差分脉冲编码调制(DPCM),自适应差分脉冲编码调制(ADPCM)等几种常见波形编码方法的基本思想(了解是对应的哪种编码方法)脉冲编码调制(PCM),实际为直接对声音信号作A/D转换。只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的质量。PCM是概念上最简单、理论上最完善的编码系统,是最早研制成功的使用最为广泛的编码系统,但也是数据量最大的编码系统。编码原理:输入为模拟声音,输出为PCM样本。防失真滤波器是一个低通滤波器,用来滤除声音频带以外的信号;波形编码器可暂时理解为采样器;量化器可理解为“量化阶大小”生成器。PCM的量化方式:均匀量化与非均匀量化自适应增量调制(ADM):CVSD(连续可变斜率增量调制):如果编码器的输出连续出现三个相同的值,量化阶就加上一个大的增量;反之,就加一个小的增量。自适应脉冲编码调制(APCM):根据输入信号幅度大小来改变量化增量大小的一种波形编码技术。差分脉冲编码调制(DPCM),即只传输声音预测值和样本值的差值以此降低音频数据的编码率。是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。编码思想: 根据过去的样本去估算下一个信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数,降低传送或存储的数据量。如果样本的预测值与样本的实际值比较接近,它们之间的差值幅度的变化就比原始话音样本幅度值的变化小,因此量化这种差值信号时就可以用比较少的位数来表示差值。自适应差分编码调制(ADPCM),是DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。增量调制(DM):是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成0或1这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示。DM编码系统又称为“1位系统”。自适应差分脉冲编码调制(ADPCM):综合了APCM的自适应特性和DPCM的差分特性,是一种性能比较好的波形编码。其核心思想:1)利用自适应的思想改变量化阶的大小,即使用小(大)的量化阶去编码小(大)的差值; 2)使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。8.什么是均匀量化与非均匀量化?均匀量化:采用相等的量化间隔对采样得到的信号作量化;即采用“等分尺”来度量。线性量化非均匀量化:对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔;即非线性量化。(非均匀量化是在满足精度要求的情况下用较少的位数来表示。)9.什么是斜率过载,粒状噪声?斜率过载:在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化。 在输入信号变化快的区域,斜率过载是关心的焦点。粒状噪声:在输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变得0和1。 在输入信号变化慢的区域,粒状噪声是关心的焦点。(当输入信号的变化速度超过反馈回路输出信号的最大变化速度时,就会出现斜率过载。因为量化阶的大小是固定的。)第三章1.信息熵概念,计算,意义概念:信息熵: ——将信源所有可能事件的信息量进行平均。计算:即
H(信息熵)
=
-∑
Pi
log2(Pi)其中,pi是第i个事件出现的概率。实际上,信息熵是编码所有符号平均所需的二进制位数。例如:以信源X中有8个随机事件,即n=8。每一个随机事件的概率都相等,即P(x1)=P(x2)=P(x3)……P(x8),计算信源X的熵。即P(x1)=P(x2)=P(x3)……P(x8)=1/8,计算信源X的熵。应用"熵"的定义可得其平均信息量为3比特意义:信息熵是数据压缩的理论极限!例如:40个像素组成的灰度图象,灰度为5级,ABCDE,出现每个灰度的像素个数不同,为:15、7、7、6、5,该图象的熵为多少?解:H(s)=(15/40)log2(40/15)+2*(7/40)log2(40/7)+(6/40)log2(40/6)+(5/40)log2(40/5)=2.196;40个像素需40×2.196=87.84位如果每个像素用三个位表示5个等级的灰度值,那么编码这个图像共需要120位!2.掌握香浓范诺,霍夫曼,算术,行程,LZ77,LZSS编码算术编码:编码的局限性:使用整数个二进制位对符号进行编码,达不到最优的压缩效果。举例:-log2(0.8)=0.322算术编码思想:将整个信源→[0,1)中的一个实数行程编码:它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。例如: RTTTTTTTTABBCDG→R#8TABBCDG,其中“#”为转义字符,表明其后所跟的字符表示长度。行程编码多用于黑白二值图像的压缩中。3.了解5种信息冗余的形式:信息冗余:空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余等空间冗余任一幅图像中,均有由许多灰度或颜色都相同的邻近像素组成的区域,它们形成了一个性质相同的集合块,即存在着空间连贯性,在图像中表现为空间冗余。时间冗余运动图像一般为位于一时间轴区间的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以前、后帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。视觉冗余人类的视觉系统并不能对图像画面的任何变化都能感觉到,视觉系统对图像场的注意是非均匀和非线性的,即主要部分质量,同时取画面的整体效果,不拘泥于每一个细节,因而存在着视觉冗余。结构冗余在有些图像的纹理区,图像的像素值存在着明显的分布模式,例如,方格状的板图案等,我们称此为结构冗余。知识冗余有些图像的理解与某些知识有很大的关联性。例如,狗有四条腿,头部有眼、鼻、耳朵,有尾巴等。这类规律性的结构由先验知识和背景知识得到,我们称此类冗余为知识冗余。4.了解无损压缩与有损压缩(分类)无损编码:此种方法的解码图像与原始图像严格相同。压缩比一般在2:1~5:1之间;编码方法有:香农-范诺编码、霍夫曼编码、算术编码、行程长度编码、词典编码等。有损编码:此种方法的解码图像与原始图像存在一定的误差,但视觉效果一般可以接受。压缩比在几倍~上百倍之间;编码方法有:变换编码、预测编码。第四章1.颜色的三要素:色调,饱和度,亮度 色调(hue):色调反映颜色的类别,如红色、绿色、蓝色等。色调大致对应光谱分布中的主波长。 饱和度:饱和度是指彩色光所呈现颜色的深浅或纯洁程度。对于同一色调的彩色光,其饱和度越高,颜色就越深,或越纯;而饱和度越小,颜色就越浅,或纯度越低。亮度:亮度是光作用于人眼时引起的明亮程度的感觉。是视觉系统对可见物体辐射或者发光多少的感知属性。2.四种颜色空间:(1).计算机显视器RGB(红,绿,蓝)彩色空间(2).彩色印刷CMYK(青色、品红、黄色和黑色)彩色空间(3).彩色电视YUV和YIQ彩色空间(YUV:用亮度信号Y来传送细节,用色差信号U、V进行大面积的涂色,YUV彩色空间的这一特性称之为“大面积涂色原理”。YIQ:美国、日本等国采用的NTSC制,选用了YIQ彩色空间,Y仍为亮度信号,I、Q仍为色差信号(它们与U、V不同)。通过一定的变换,I对应于人眼最敏感的色度,而Q对应于人眼最不敏感的色度。)(4).HSL彩色空间(通过用色调(H)、饱和度(S)、亮度(L)来定义颜色,接近于人眼对颜色的感知)3.什么是矢量图,点位图?矢量图:用一系列计算机指令来表示一幅图,如画点、画线、画曲线、画圆、画矩形等。点位图:是将一副图像在空间上离散化,即将图像分成许许多多的像素,每个象素用若干个二进制位来指定该像素的颜色或灰度值。4..图像文件大小的计算?图像数据量大小=像素总数×图像深度÷8(单位:字节)例如:一幅640×480的256色图像大小为:640×480×8/8=307200字节5.γ校正的作用:真实的再现原始场景明亮环境,使图像系统γ=1;暗淡环境,γ1.25;黑暗环境,γ1.5。(实际图像系统的值并非符合我们要求的值,且是不能随意改变的。为了在不同场景观看到“原始场景”,可在适当地方加入一个中间环节来校正整个系统的值,即伽马(γ)校正。)6.jpeg压缩的步骤(画出图)1.将图像从RGB空间转换到YUV空间.2.将图像矩阵分块,对每一块进行DCT变化.3.对变换后的DCT矩阵进行量化处理4.量化后的系数要重新编排5.对量化后数据行程编码6.对全部数据霍夫曼编码7.人的眼对颜色的感知特性对蓝光的灵敏度远远低于对红光和绿光的灵敏度;对波长为550nm左右的黄绿色最为敏感。对亮度信号比对色差信号敏感(1)眼睛本质上是一个照相机;(2)红、绿和蓝三种锥体细胞对不同频率、亮度的光的感知程度不同;(3)自然界中的任何一种颜色都可以由R,G,B这三种之和来确定。第五章1.视频的定义:视频就是利用人眼视觉暂留的原理,通过播放一系列的图片,使人眼产生运动的感觉(实际上就是系列图片)。2.知道MPEG-1,MPEG-2,MPEG-4,MPEG-7分别是为了哪个方面制定的标准(即这四个标准的描述对象)MPEG-1数字存储媒体运动图像及伴音编码标准。主要应用:光盘、数字录音带、磁盘、通信网络以及VCD等。MPEG-2直接与数字电视广播有关的高质量图像和声音编码标准。 主要应用:DVD、数字电视、视频会议以及多媒体邮件等。MPEG-4视频压缩编码标准,注重基于视频、音频对象的交互。主要应用:可视电话、实时多媒体监控、网络视频流。MPEG-7:规定一套描述符标准,用于描述各种多媒体信息,以便更快更有效地检索信息。主要应用:数字图书馆、广播媒体选择、多媒体编辑以及多媒体索引服务。3.PaL制和NTSC制两种彩色电视制式的参数和特点⑴NTSC制式(正交平衡调幅制)①525行/帧,30帧/秒②隔行扫描:2场/帧,262.5行/场③宽高比:4:3(电影为3:2)④颜色模型:YIQ采用于美国、日本、台湾地区⑵PAL制式(倒相正交平衡调幅制)①625行/帧,25帧/秒②隔行扫描:2场/帧,312.5行/场③宽高比:4:3④颜色模型:YUV采用于中国、多数欧洲国家4.电视扫描的两种方式:隔行扫描,逐行扫描隔行扫描:将一帧图像分成两次来传送,传一次即称为一场。逐行扫描:扫描简单、可靠、图像清晰,但是为了保证得到高质量的图像,必须要求传输通道具有很宽的频带,因此目前在广播电视系统中采用的是隔行扫描方式,而在计算机中采用逐行扫描方式。5.什么是图像子采样?如果对色差信号使用的采样频率比对亮度信号使用的采样频率低,这种采样就称为图像子采样6.电视图像子采样格式与亮度的值4:4:44:2:24:1:14:2:0ITU组织规定ITU-RBT.601电视图像数字化标准电视图像亮度信号的采样频率:fs=13.5MHZ=625×25×N(PAL)或=525×29.97×N(NTSC)第六章1.了解多媒体光存储器的优点:存储密度高、容量大工作稳定、寿命长便于携带、价格低廉2.光存储系统的分类(光存储系统=光盘驱动器+光盘盘片)(1)CD-ROMCD-ROM盘片+只读型光驱:即CD-ROM驱动器(2)CD-RCD-R盘片+一次可写型光驱:“光盘刻录机”(3)CD-RWCD-RW盘片+可擦写型光驱:“可擦写光盘刻录机”3.CD-ROM光盘4层盘片结构:第一层:涂漆的保护层(该层上印有商标)第二层:铝反射层(当驱动器读光盘时用来反射激光光束)第三层:刻槽第四层:聚碳酸脂压制成型的透明衬底(用来对光道径向定位,信息通常存储在光道上。)盘片的光道结构:螺旋形光道,CD旋转方式是采用“恒定线速度”方式4.通道编码是什么?物理盘上数据和真正数据之间要作变换处理为什么需要通道编码?为了改善读出信号的质量,为了在记录信号中提取同步信号5.掌握CD-R/RW的写入和读取原理:刻录CD-R盘(一次写入多次读取)的原理如下:刻录机首先对写激光进行聚焦,然后照射、烧熔有机染料,形成光痕。(CD-R中增加
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国细胞培养基行业发展监测及投资战略规划研究报告
- 2025年中国脱毛器市场全面调研及行业投资潜力预测报告
- 中国杀菌剂农药行业投资研究分析及发展前景预测报告
- 4-甲氧基苯乙酮项目投资可行性研究分析报告(2024-2030版)
- 二零二五年度bt项目投资合作协议书
- 二零二五年度法律服务合伙人任职协议
- 二零二五年家具搬运及拆除重建服务协议
- 2025版深圳会展中心场地租赁管理协议
- 二零二五年度文档多格式转换及多场景应用服务协议
- 二零二五年度企业员工待岗绩效评估协议
- 上海初一新生分班(摸底)语文考试模拟试卷(10套试卷带答案解析)
- (2023版)小学语文一年级上册电子课本
- 新华镇生活污水处理管网与新华农场管网并网项目环境影响报告表
- 人教版八年级上册数学全册同步讲义
- 乙醇酸安全技术说明书(msds)
- 《旅游学概论》第七章
- 矿用风动风机风机说明书
- 旅游规划资料清单
- 老年人清洁照护(老年专科护理课件)
- GA/T 1202-2022交通技术监控成像补光装置通用技术条件
- 人民医院普外科临床技术操作规范2023版
评论
0/150
提交评论