数字媒体技术概述_第1页
数字媒体技术概述_第2页
数字媒体技术概述_第3页
数字媒体技术概述_第4页
数字媒体技术概述_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字媒体技术概述课程定位2023/5/18提纲1.1数字媒体的基本概念1.2数字媒体处理关键技术1.3数字媒体标准简介1.4数字媒体技术的应用1.1数字媒体的基本概念计算机的社会角色计算信息交流智能服务信息交流(人类发展和人的成长/计算机发展)情感—>语言—>文字—>(—>>简单化、精确化)情感<—语言<—文字<—(<<—自然化、可觉化)文字信息为主的信息交流时代计算机数字技术什么是多媒体●

多媒体定义

多媒体技术是利用计算机对文字、图像、图形、动画、音频、视频等多种信息进行综合处理、建立逻辑关系和人机交互作用的产物。●“多媒体”一词源自“”();;多重、复合() aa;a,,()的复数形式介质、媒介和媒体1234多媒体的特性多媒体强调的是使用多种媒体、综合表达信息内容并进行交互式处理的技术。从本质上来说,具有三种最重要的特性:媒体的多样性,其中至少有一种连续媒体;媒体的集成性(综合性),多种不同媒体综合地表现某个内容,取得更好的效果;处理的交互性,使人们获取和使用信息的过程中具有细粒度的控制和操纵能力。计算机与媒体表示存储展现采集感觉感觉表示传输

什么是多媒体:分类最常见的分类方法是基于感觉文本图像音频(语音)视频基于描述空间中时间维分类时间独立(离散)文本、图形时间依赖(连续)音频、视频、语音、动画基于描述空间中空间维分类1D媒体单声道语音、音乐2D媒体双声道音乐、图像、二维图形3D及多维媒体三维图形,全景图像,空间立体声音乐媒体分类标准存储

()展现()表示()感觉

()信息交换

()传输()什么是数字媒体多媒体:文本、图形、图像、视频和音频的组合形式,使其内容更丰富,更便于交流。数字媒体:以数字化的形式存储、处理和传播信息的媒体,以网络为主要传播载体,并具有多样性、互动性、集成性等特点。什么是数字媒体:A图像文本语音音频视频多媒体VirtualworldsStreamingvideoWebpagesStreamingaudioClient-server数字媒体系统Authoring媒体内容管理ToolsFrameworks网络分布式数字媒体系统数字媒体技术的研究内容核心关键技术数字媒体信息处理技术:视音频编码压缩、图像/视频内容分析、语音识别等;数字媒体传输技术:网络流媒体、P2P、无线多媒体传输等;数字媒体内容管理技术:数字媒体数据库、基于内容的检索、数字版权管理、数字信息保护、数字媒体集成分发等。关联支持:数字媒体信息获取与输出技术:图像/视频采集技术与设备、三维显示技术与设备等;数字媒体存储技术:海量分布存储等。扩展应用:图形与动画技术:图形输入、图形建模、图形处理与输出、复杂物体造型、表演动画等;虚拟现实技术:动态虚拟环境建模、实时三维图形生成、立体显示与传感器等。什么是数字媒体数字媒体信息的表现形式是多种多样的,能够用计算机记录和传播的信息媒体,无论是已经应用还是将要应用的,其共同的一个重要特点就是信息的最小单元是比特——“0”或“1”。数字信息的最小单元就是比特,通过比特可以表述各种媒体信息。比特是信息的最小单元比特没有颜色、尺寸和重量,它只是一种存在的状态:开或关、真或假、高或低、黑或白,总之简记为0或1。比特易于复制,而且复制的质量不会随复制数量的增加而下降。比特可以以极快的速度传播,而且在传播时不受时空的限制。比特可以用来表现文字、图像、动画、影视、语音及音乐等信息多媒体与数字媒体多媒体是混合的比特多媒体():文本数据、声音、图像、动画等的混合。多媒体技术:能对多种载体(媒介)上的信息和多种存储体(媒质)上的信息用计算机进行采集、存储、编辑、显示、传播等综合处理的技术多媒体信息:通过多媒体传播的信息。多媒体系统:能够产生、存储、传播多媒体信息的系统。数字媒体技术的发展数字媒体计算机演变的关键技术1970198019908位处理器,,,16位处理器桌面32位处理器数字视音频图形操作系统计算、通信、内容、消费电子融合(4C)

,,

,,,,,

,+

,,

1.2数字媒体处理关键技术媒体数字化为什么要数字化?数字化过程媒体数字化关键技术采样()压缩()编码()为什么要数字化?模拟的问题:模拟失真,依赖载体数字化的好处:通用的存储和传输格式,数字化后处理更方便适用于光盘存储和远距离传输准确可靠,没有累计失真,可以无损传输和存储数字化的问题采样率失真,信息丢失与模拟相比,需要很大的空间,例如35照片需要420万像素,高清视频码率大于1需要压缩数字悬崖:马赛克、画面暂停丢失数字化过程三步骤采样()量化()压缩()与编码()SamplerQuantizer&Coderanalogsignalsampledsignaldigitizedsignal1:采样与失真通过某种频率的采样脉冲将模拟信息的值取出,变连续的模拟信息为离散信号。采样定理:采样频率>=原始信号频率的2倍时,

采样信号才可以保真地恢复为原始信号。2:量化与失真将采样样本的幅度按照量化级别决定其取值的过程。目的是将采样样本的幅度值离散化。量化之前需要规定量化级,比如8级,16级,256级等。量化是一个对一的映射。例如:画图软件的颜色级别为什么感知很重要?失真评价的基础3:编码与压缩编码用相应位数的二进制代码表示量化后的采样样本的量级。如果有N个量化级为,那么对应的二进制位数就为2N。当N=16,二进制需要4位。经过编码之后,每个样本都表示为相应的二进制代码。脉冲编码调制(,),完成模拟信号的数字化为什么需要数据压缩?压缩编码的理论基本原理从信息论的角度来看,压缩就是去掉信息中的冗余,即保留不确定的信息,去除确定的信息(可推知的),也就是用一种更接近信息本质的描述来代替原有冗余的描述。信息冗余的例子你的朋友,,将于明天晚上6点零5分在上海的虹桥机场接你。(23*2+10=56个半角字符)你的朋友将于明天晚上6点零5分在虹桥机场接你。(20*2+3=43个半角字符)将于明晚6点在虹桥接你。(10*2+7=27个半角字符)结论:只要接收端不会产生误解,就可以减少承载信息的数据量。多媒体领域中的冗余分类统计冗余空间冗余——规则物体的物理相关性时间冗余——视频与动画画面间以及音频帧间的相关性信息熵冗余编码冗余——数据与携带的信息结构冗余纹理冗余——规则纹理、相互重叠的结构表面视/听觉冗余视觉、听觉敏感度和非线性感觉知识冗余凭借经验识别10110001110010110001110001011010101010111100010111111010224色28色数据压缩数据压缩可分成两种类型无损压缩有损压缩无损压缩指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同用于要求重构的信号与原始信号完全一致的场合。一个很常见的例子是磁盘文件的压缩。有损压缩指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。适用于重构信号不一定非要和原始信号完全相同的场合。压缩策略无损压缩()哈夫曼编码()自适应哈夫曼编码()用于有损压缩()H.261,1,2无损+有损()2000数据压缩的性能指标衡量压缩算法的三个主要性能指标

(1)压缩比;

(2)压缩质量(失真);

(3)压缩与解压缩的速度。不能兼得时要综合考虑压缩质量评价主观评价:平均意见得分()、五分制(优良中差劣)客观评价:均方误差、加权均方误差、信噪比、峰值信噪比(图像)、分段信噪比(音频)、似然比、谱失真测度编码方式举例:哈夫曼编码()编码属于信息熵编码的方法之一,是根据信源符号出现概率的分布特性而进行的压缩编码。也称为最佳编码,平均码长最短。编码过程:1.初始化:将信源符号按频率递减顺序排列,输入L;2.重复如下操作直至L中只有1个结点:(a)从L中取得两个具有最低频率的结点,为它们创建一个父结点;(b)将它们的频率和赋给父结点,并将其插入L;(c)将树的左右孩子赋符号“0”和“1”,并从L中删除。哈夫曼编码()示例输入:“”频率:4A,2H,2I,1L,1O,1,1W96(8*12)32:AIHL[space]WO0100000111110,100,101,1100,1101,.例子:1.3数字媒体标准简介为什么需要媒体标准?数字媒体标准是相关技术与产业之基础!技术基础:采用不同标准的数字媒体,其压缩、编码、传输、内容分析与检索等技术有所不同产业基础:五环相扣——技术、专利、标准、产业、应用例子:全球电视竞争的转折点在2(1996)数字媒体领域的主要技术标准系列:2/4/7/21H.26x系列:H.261/3/4()标准(10918)是和联合提出的通用静态图像压缩国际标准。的重要特性设定压缩参数在解码速度和图像质量间均衡无损压缩原始图像重构图像逆向离散余弦变换正向离散余弦变换量化逆量化编码解码压缩图像量化表编码表Qualitylevel:90

Filesize:10,582bytesQualitylevel:50

Filesize:5,154bytesQualitylevel:1

Filesize:923bytes2000压缩标准2000(15444)是的更新换代标准,针对应用和无线通信等领域。关键技术:以离散小波变换为主的多解析压缩方式核心算法:高压缩比:比压缩性能提高30%与2000的性能比较标准2000标题连续色调静态图像的数字压缩编码新一代静态图像编码标准日期1986.3-1992.101996.2-2000.12压缩比2-30:12-50:1主要技术离散余弦变换扫描哈夫曼编码算术编码离散小波变换核心算法编码空间可扩展编码应用场合数字照相图像视频编辑数字照相打印、扫描、移动通信系列标准系列标准由国际标准化组织和国际电工委员会第一联合技术组(1)制定的。视频标准1:数字电视标准,1992年正式发布。2:数字电视标准,1994年成为国际标准草案。3:已于1992年7月合并到高清晰度电视(,)工作组。4:多媒体应用标准(1999年发布)。7:多媒体内容描述接口标准(2001年发布)。21:有关多媒体框架的标准(正在研究)。:多媒体应用格式标准(正在研究)。11标准编号11172,标准名称为“用于码率约为1.5时用于数字存储媒体的动像及伴音的编码”。1的基本目标在音像质量上,达到的放像质量在存储上,可存储在光盘、数字录音带、硬盘等在传输码流上,为1-1.5,以1.2为宜在网络方面,应适应、等多种网络满足对称和不对称应用1的基本内容几种伴音压缩数据和图像数据的复用;图像的压缩;伴音的压缩。1的特点使用1的压缩算法,可将一部120分钟长的电影压缩到1.2左右。因此,它被广泛地应用于制作。22是1的扩展。标准编号13818,标准名称为“运动图像及其伴音信息的通用编码”。主要内容为:码率为4-9,最大15;涵盖1全部内容;规定数字存储媒体命令和控制扩展协议,用于管理数据流();先进的声音编码方案;规定系统解码器实时接口扩展标准,用来适应网络传输;一致性扩展测试;先进声音编码标准修正。2的特点利用网络提供的3~100的数据传输率,支持具有更高分辨率图象的压缩和更高的图象质量;可支持交迭图象序列(每帧图像由两个场组成),支持可伸缩性编码,多种运动估计方式,提供一个较广的范围改变压缩比;可以适应不同画面质量、存储容量和带宽的要求,为此定义了不同的功能档次(,框架),每个档次又分为不同的等级()。和1主要区别隔行扫描制式;变换可在帧内,也可在场内。用户可自行选择,亦可自适应选择。44标准编号14496,标准名称为“甚低速率视听编码”1998年11月公布第一版,1999年12月公布了第二版,共分为6个部分。目标是低速率下(<64)的视频、音频编码,更加注重多媒体系统的交互性和灵活性。引入了视听对象(,)可以是孤立的人,也可是这个人的语音或一段背景音乐等。具有高效编码、高效存储、高效传播以及可互操作的特性。4对的操作主要有:采用来表示听觉、视觉或者视听组合内容;生成复合的;对的数据灵活地多路合成与同步;对进行交互操作等。4的特点与1和2相比,4更适于交互视听服务以及远程监控。设计目标使它具有更广的适应性和可扩展性。4能以很低的速率基本实现的质量;由于属于一种高比率有损压缩算法,其图像质量始终无法和的2相比。举例:4视听场景的说明由4个复合媒体对象(人,背景,家具,音视演示)组成。系统定义了一个场景坐标系,然后可以指定组成该场景的媒体对象在该坐标系中的位置,并可设定用户观察该场景时所在的坐标位置,这些位置信息都会包含在场景的描述中。77是一种用于信息检索的内容表示的标准。标准编号159387将建立各种类型多媒体信息的标准的描述方法。这种描述与内容关联在一起,支持对用户感兴趣的材料的快速、高效的检索。7的目标是:规定a用来描述各种类型的多媒体信息,对描述符及其相互关系的预定义结构(称为)以及用户定义自己的结构的方法进行标准化,制定一种用于定义新的的标准化的语言(),把描述(a)与内容关联在一起,以便用户快速有效地检索感兴趣的材料,把描述进行编码表示,以便有效地进行存储和快速访问。Automaticextractionoffeatures(or‘descriptors’)Searchengines7音频标准音频压缩的主要依据是人耳

朵的听觉特性,利用了“心理声学

模型()”。心理声学模型的一个基本概念:

听觉阈值。低于听觉阈值的声音

信号听不到,因此就可以把这部

分信号去掉。心理声学模型的另一个概念:听

觉蔽特性。听觉阈值会随听到

的不同频率的声音而发生变化。音频标准11:子带无损压缩+可选的简单掩蔽模型。12:更高级的掩蔽模型。13(即3):增加了对低比特率的处理。2(即4):压缩比更大(15:1-20:1),增加了对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪等特性。H.26X系列标准H.26X系列标准由国际电联()制定的。H.26X系列标准H.261:针对在窄带上实现速率P×64的双向声像业务,其中P=1~30。H.263:针对低比特率视频应用H.264:和的共同成立的联合视频小组提出,目的是为视频编码应用提供下一代的解决方案。VideoCodingSystemControlAudioCodingDataCallControlMultimediaMultiplexandSynchronizationNetworkInterfaceNetworkAdaptationGeneralprotocolstackofH-seriesaudiovisualcommunicationterminalH.261H.261是-T于1984~1989年制定的视频编码标准。针对可视和视频会议等业务。目的:在窄带上实现速率P×64的双向声像业务,其中P=1~30。只支持两种图像格式(352×288像素)和(176×144像素)。技术特征帧包括I帧()和P帧();16×16微块的运动补偿、8×8、标量量化、Z-Z扫描、游程编码和变长编码的编码结构。H.261是视频编码的一个里程碑,对后续标准有较大的影响。现有的一系列视频编码标准的编码方法都是基于H.261中的混合编码方法和编码结构。H.261的特点优点:低复杂度缺点:低压缩比性能、缺乏灵活性47H.263H.263标准是-T于1996年制定的视频编码标准。针对低比特率(低于64)视频应用;目标:在许多方面上通过视频编码算法和处理性能的提高,从而比H.261较大地提高编码性能。H.263支持图像的格式有:(128×96像素)、、、4(704×576像素)和16(1408×1152像素)。技术特征使用了半像素运动矢量和重新设计的可变长编码()表;更多的帧大小和可选的编码模式;运动向量预测。H.263+:H.263的修改版本修改量化模式;运动向量范围:取决于帧尺寸;修改半像素插值算法更多的输入视频格式等。48H.263H.263+H.263H.264H.264标准是和的共同成立的联合视频小组于2003年公布的视频编码标准。目标:为视频编码应用提供下一代的解决方案,提供显著增强的编码效率,,同时减少H.263中一些混乱的可选模式。标准内容分三个档次:基本档次实现版本的基本功能;核心档次用于、;扩展档次用于。技术特征4×4块的整数变换多参考帧预测多模式高精度帧间预测多种帧内预测模式统一的熵编码等。H.264的特点有点:更高的压缩比和更好的信道适应性;缺点:计算复杂度的大大增加。49标准是我国具有独立自主知识产权的视音频编码标准。标准进展2002年,数字音视频编解码技术标准()工作组成立。2006年1月6日,信息产业部批准通过视频部分。2006年2月,《信息技术先进音视频编码第二部分:视频》国家标准20090.2-2006发布。2006年3月1日,20090.2-2006正式实施。走向国际2006年9月,已正式成为国际电联的联络组织,意味着标准已具备选入标准体系的资格,为的国际化道路打开了大门。2007年4月,在新一代标准框架要求支持的第一个非视频编码标准就是。2007年5月,列入的内容编码标准文件,成为与H.264、1并列的选项。国家标准的构成部分国家标准计划号小组草案()工作组草案()最终草案()标准送审稿()国家标准()11(系统-广播)200513043392003.102003.122006.102007.03

12(视频-基准)200322653392003.102003.122004.42004.8

2006.212(视频-增强)200322653392005.92006.32008.6

13(音频双声道)200513053392004.122005.32005.122006.4

13(音频-5.1)200513053392005.92005.122005.122006.4

13(移动)200513053392007.032007.62007.92007.1214(一致性测试)200513063392007.3215(参考软件)20051307339

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论