(信号与信息处理专业论文)p2p流媒体播放器基础平台的设计及其软件实现.pdf_第1页
(信号与信息处理专业论文)p2p流媒体播放器基础平台的设计及其软件实现.pdf_第2页
(信号与信息处理专业论文)p2p流媒体播放器基础平台的设计及其软件实现.pdf_第3页
(信号与信息处理专业论文)p2p流媒体播放器基础平台的设计及其软件实现.pdf_第4页
(信号与信息处理专业论文)p2p流媒体播放器基础平台的设计及其软件实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 p 2 p 流媒体播放器基础平台的设计及其软件实现 硕士研究生沈峰磊导师王桥 东南大学信息科学与工程学院 本文针对因特网上流媒体传输的应用需求,提出了一种将组播和p 2 p 进行结 合的方案,并通过自主研发的p 2 p 流媒体播放器基础平台,对该方案的组网架构、 音视频编解码与同步机制以及相关性能进行了测试与分析。本方案的基本构想是 在组播的基础上,使用p 2 p 的方式进行数据的相互弥补。实验表明,本方案对组 播的丢失数据进行了成功的弥补,并有效地改善了组播方式的用户体验。此外, 加入到整个流媒体传输网络体系中的节点其性能差异可能较大,如果让所有的节 点都参与到资源提供的候选范围内可能对某些节点的正常运转带来负面的影响。 因此,本论文又提出了分层p 2 p 组播网络的概念,各个节点必须根据自身能力确 定是否将自身定义为向其它客户端提供资源的资源节点以完成分层,如此将使本 应用更趋一般性。另外一个很重要的原始设想在于为各种不同的音视频算法的改 进提供一个开放性的软件验证平台,以使得各种局部的算法在一个实际的环境中 得到一个真实的验证。 关键词:组播,p 2 p ,分层p 2 p 组播网络,开放性,软件验证平台 a b s t r a c t t h e d e s i g na n d s o f t w a r er e a l i z a t i o no ft h ep l a t f o r mf o rp 2 p s t r e a m i n gm e d i ap l a y e r c a n d i d a t e :s h e nf e n g l e i ,s u p e r v i s o r :p r o f w a n gq i a o s c h o o lo fi n f o r m a t i o ns c i e n c ea n de n g i n e e r i n g ,s o u t h e a s tu n i v e r s i t y ,c h i n a as c h e m ew h i c hi sa b o u th o wt om i x w i t ht h em u l t i c a s ta n d p 2 pi sb r o u g h t f o r w a r di nt h i sp a p e rt om e e tt h ed e m a n do fi n t e r n e ts t r e a m i n gm e d i a t r a n s p o r t i n g b e s i d e s ,t h et e s ta n da n a l y s i sa r ep e r f o r m e dt ov a l i d a t e t h en e t w o r ka r c h i t e c t u r e ,a u d i o v i d e oc o d e ca n ds y n c h r o n i z a t i o n ,a n ds o m e o t h e rr e l a t e dp e r f o r m a n c ew i t ht h eh e l po fp 2 ps t r e a m i n gm e d i ap l a y e r p l a t f o r m t h eb a s i ci d e ao ft h i ss c h e m ei st ou s ep 2 pt om a k eu pt h ed a t a w h i c ha r el o s ti nt h ep r o c e d u r eo fm u l t i c a s t t h er e s u l to ft h ee x p e r i m e n t s h o w st h a ti tw o r k sw e l la n di m p r o v e st h eu s e re x p e r i e n c eo fm u l t i c a s t i na d d i t i o n 。ac o n c e p to fl a y e r e dp 2 pm a l t i c a s tn e t w o r ki sp r o p o s e di n t h i sp a p e rt om e e ts o m ea c t u a ls i t u a t i o ne s p e c i a l l yw h e nt h en o d e sw h o p a r t i c i p a t ei nt h en e t w o r km a yh a v ed i f f e r e n tc a p a c i t y a n o t h e ri m p o r t a n t t h o u g h ti st op r o v i d ea no p e n s o f t w a r ev a l i d a t i o f ip l a t f o r mf o rt h e a l g o r i t h m so fa u d i oa n dv i d e o ,w h i c hc a nu s et h i sp l a t f o r mt ov a l i d a t e t h ea c t u a lp e r f o r m a n c ei nar e a le n v i r o n m e n t k e yw o r d s :m u l t i c a s t ,p 2 p ,l a y e r e dp 2 pm u l t i c a s tn e t w o r k ,o p e n ,s o f t w a r e v a l i d a t i o np l a t f o r m 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:泛尘章9 期:兰:= 型丛 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:涩鹭连导师签名 日期: 第一章绪论 1 1 流媒体介绍 第一章绪论 近年来,随着计算机技术、数据压缩技术以及网络技术的日益成熟,流媒体业务【1 h 得到了迅猛的发展。 在传统的条件下,用户如果需要收看一个节目或者是一个视频的话,可能的方法是先将 需要的节目从网上下载下来并保存到本地计算机上,然后通过播放本地文件来欣赏节目。这 样的处理流程使得用户不得不花费较长的时间等待节目下载完毕,事实上这段时间往往是很 恼人的。流媒体技术提出了一个边下载边播放的模式,即如果网络速度够快的话,完全可以 先期播放预先到达的节目而无需等待所有节目下载完毕 目前,许多公司出品的播放器p 已经实现了这些能力,比如m i c r o s o f t 的w i n d o w s m e d i a p l a y e r 系列、r e a l 的r e a lp l a y e r 等等当然这样的网络播放器由于应用场景的限制,使得服 务器对于每一个客户都必须发送一份同样的数据报,最终的结果是服务器可能因为无法承担 这种负载而崩溃 于是,流媒体领域将组播技术引入到了应用的范围,如此则大大减少了服务器端的负担, 同时最大限度地节省了带宽。此外,一些新兴的阿络传输技术比如说p 2 p 也逐步进入到这 个领域当中。 1 2 流媒体服务的传统实现方式 目前的流媒体传输系统主要基于两种策略,即客户端服务器( 以下简称c s ) 模式和 p 2 p 流媒体模式。接下来将对这两种模式做一简单的介绍,具体的实现原理将在下文涉及到 这两项技术时再详细给出。 1 2 1c s 流媒体方式 在传统的c s 网络架构中存在一个服务器和多个客户端,由于m 网络访问的无地域性 和距离性,分布在世界各地的客户端均可以在同一时间访问服务器中的内容。这样一方面会 造成服务器本身处理速度上的瓶颈,另一方面又大大地加剧了主干网上的流量负担。 为了解决这一问题,人们提出了一些c s 网络的变形,c d n 网络【4 】就是一种典型的改 变不过就其架构来讲,很明显仍然存在着c s 模式的影子。c d n 的全称是内容分发网络, 其目的是通过在现有的i n t e m e t 中增加一层新的网络架构,将网站的内容发布到最近用户的 网络。边缘”,使用户可以就近取得所需的内容,提高用户访问网站的响应速度。 其典型的流程如下: ( 1 ) 用户访问菜网站; ( 2 ) 网站利用全球负载均衡技术,将用户的访问指向到距离用户最近的正常工作的缓 存服务器上,直接响应用户的需求。 东南大学硕士学位论文 值得注意的是,当用户访问已经使用了c d n 服务的网站时,其解析过程与传统解析方 式的最大区别就在于网站的授权服务器不是以传统的轮询方式来响应本地d n s 的解析请 求,而是充分考虑用户发起请求的地点和当时的网络情况,最终决定把用户的请求定向到离 用户最近同时负载相对较轻的节点服务器上。通过用户定位算法和服务器健康检测算法综合 后的数据,可以将用户的请求就近定向到分布在网络“边缘”的服务器上,保证用户的访问 能得到更及时可靠的响应。由于大量的用户访问都由分布在网络边缘的c d n 节点服务器直 接响应了,这就不仅提高了用户的访问质量,同时有效地降低了源服务器的负载压力。 事实上,组播技术从某种程度上来讲也是c s 模式的一个变种。组播的原理很简单,即 一个发送者将数据同时发送给一组接受者而且仅须发送一份数据,数据在传送过程中组播路 由器再将数据复制传送给需要数据的主机。相比单播而言。组播有效地减轻了核心网的带宽 负担,同时也降低了服务器的性能门槛。虽然组播的优点非常明显,但是也存在着明显的缺 点。最大的缺点是组播是基于u d p 传送的,所以它无法对网络的拥塞进行控制,而且在传 送过程中容易出现乱序的问题。 1 2 2p 2 p 流媒体方式 p 2 p f ,卜l l 可是p e e r - t o - p e e r 的缩写,p e e r 在英语里有“( 地位、能力等) 同等者”、“同事” 和“伙伴”等意义。这样一来,p 2 p 也就可以理解为“伙伴对伙伴”的意思,或称为对等联 网。目前人们认为其在加强网络上人的交流、文件交换、分布计算等方面大有前途。 p 2 p 还是p o i n t t o p o i n t 点对点下载的意思,他是下载术语,意思是在你自己下载的同时, 自己的电脑还要继续做主机上传,这种下载方式。人越多速度越快,但缺点是对你的硬盘损 伤比较大( 在写的同时还要读) ,还有就是内存利用率会很高,影响整机速度! 德国互联网 调研机构i p o q u e 称,p 2 p 已经彻底统治了当今的互联网,其中5 0 - 9 0 的总流量都来自p 2 p 程序 简单的说,p 2 p 直接将人们联系起来,让人们通过互联网直接交互。p 2 p 使得网络上的 沟通变得容易、共享和交互变得更为直接,真正地消除了中间商。p 2 p 就是可以直接连接到 其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。p 2 p 另一个 重要的特点是改变互联网现在的以大网站为中心的状态、重返“非中心化”,并把权力交还 给用户。p 2 p 看起来似乎很新,但是正如b 2 c 、b 2 b 是将现实世界中很平常的东西移植到 互联网上一样,p 2 p 并不是什么新东西。在现实生活中我们每天都按照p 2 p 模式面对面或者 通过电话交流和沟通。 即使从网络看。p 2 p 也不是新概念,p 2 p 是互联网整体架构的基础。互联网最基本的协 议t c p i p 并没有客户机和服务器的概念,所有的设备都是通讯的平等的一端。在十年之前, 所有互联网上的系统都同时具有服务器和客户机的功能。当然,后来发展的那些架构在 t c p i p 之上的软件的确采用了客户机,服务器的结构:浏览器和w e b 服务器,邮件客户端和 邮件服务器。但是,对于服务器来说,它们之间仍然是对等联网的。以e m a i l 为例,互联网 上并没有一个巨大的、唯一的邮件服务器来处理所有的e m a i l ,而是对等联网的邮件服务器 相互协作把e m a i l 传送到相应的服务器上去。 事实上,网络上现有的许多服务可以归入p 2 p 的行列。即时讯息系统譬如i c q 、a o l i n s t a n t m e s s e n g e r 、y a h o o p a g e r ,微软的m s n m e s s e n g e r 以及国内的q q 是最流行的p 2 p 应 用。它们允许用户互相沟通和交换信息、交换文件用户之间的信息交流不是直接的;需要 有位于中心的服务器来协调。但这些系统并没有诸如搜索这种对于大量信息共享非常重要的 功能。这个特征的缺乏可能正是为什么即时讯息出现很久但是并没有能够产生诸如n a p s t e r 2 第一章绪论 这样的影响的原因之一 但是,p 2 p 的管理在很大程度上存在难度,特别是对于运营商来说,大量的p 2 p 应用使 得网络的流量激增,从而增加了设备使用和维护的成本。值得注意的是,目前国内的运营商 很少使用流量计算和内容区分的方式进行用户的收费,因为这样做的话很难对有用流量和无 用流量进行区分,从而遭来用户的抱怨。此外,如今的宽带接入市场竞争日趋激烈,各大运 营商都没有这个胆量率先采用完全按照流量收费的方案,因为这样做很有可能就会拱手让出 产品的市场占有率。因此,各大运营商不得不屡屡对p 2 p 进行封杀。 1 3 本文主要工作和贡献 时下,组播和p 2 p 已经成为了互联网上媒体传输的两种主流机制。但是组播在数据可 靠性方面表现得并不是非常出色,而p 2 p 在受控性方面的表现则不是非常尽如人意。本文 提出了一种将两者予以结合的方案。即分层p 2 p 组播方案,并且就这种方案进行了软件仿 真。这是一种新的尝试,目的是为以后的发展提出一个新的途径。 此外,在多媒体压缩以及传输领域中已经形成了一批比较优秀的算法或者算法改进,但 是很多都只是局限于算法本身的性能改进,我们需要一个开放源代码的基础平台,以便将我 们改进的方案和相应的算法纳入其中,在实际系统中检测我们的方案以及算法的全局效果 本文设计了一个p 2 p 流媒体播放系统的基础框架,从而为今后诸如音视频网络传输以 及网络架构方面的算法提供了一个验证性的平台。图i 给出了本平台中单一节点协议栈的体 系结构,相对于传统五层的t c p i p 协议栈结构来讲,在运输层上面增加了一个覆盖网络层。 本文的工作将涉及到应用层、覆盖网络层、运输层和网络层,但是重点还是在新添加的覆盖 网络层;并且在实际实现的过程中,考虑到用户节点性能的差异,会在覆盖网络层划分出一 个虚拟的网络层次( 分层网络) 。分别对应于高等级和低等级的节点,这些将在以下相关章 节中予以详细的介绍。此外,为了支持覆盖网络的运转,我们重定义了u d p 协议,即m u d p 协议,可以将其理解为对于传统运输层的一个加强,抑或是将其归于覆盖网络层,与分层网 络一起构成一个介于应用层和运输层之间虚拟的层次,通常人们将这样的层次定义为4 5 层。 值得注意的是,本体系架构仅仅是在物理的网络之上构建了一个虚拟的覆盖网络,因此不需 要改变现有的网络底层结构,可以根据需要灵活应用。而应用层和网络层的相关工作主要还 是在于相关方案的选取、性能比较与软件实现。 应用层 赣两施登 0 。 , 一z 运输层 网络层 数据链络层 物理层 图i 平台协议栈结构 3 东南大学硕士学位论文 第二章基础平台音视频方案分析与设计 流媒体的传输一方面涉及到音频、视频信号的编解码,另一方面也涉及到两者的封装 和同步问题。本章将主要介绍目前比较流行的一些音视频压缩标准,并对音视频的同步进行 若干探讨,继而根据实际情况确定本基础平台拟采用的音视频方案。 2 1 音视频系统封装方案 目前存在的系统封装协议1 1 3 龟括m e p g - 2t s ,r t pa n dr t c p ,d a b 复用等等。这些协 议各有特点。开发者可在不同的情况下选择最佳的方案配合自己的应用。以下对一些主流的 系统封装协议予以介绍。 r t p t l 4 h ”】中文全称实时运输协议,是i e t f 的a v t 工作组开发的协议。它为实时应用 提供端到端的运输,但不提供任何服务质量的保证。需要发送的多媒体数据块( 声音或视像) 在应用层首先通过r t p 封装变为r t p 报文,继而传给传输层进行u d p 封装 r t p 报文的封装格式1 卧【1 1 如图2 所示: 图2r t p 报文格式 上图中仅给出了一些重要的字段,下面分别予以介绍: ( 1 )有效负载类型 有效负载类型( p a y l o a dt y p e ) 域的长度为7 位,因此r t p 可支持1 2 8 种不同的有 效负载类型。对于声音流,这个域用来指示声音使用的编码类型,例如p c m 、白适 应增量调制或线性预测编码等等。如果发送端在会话或者广播的中途决定改变编码 方法,发送端可通过这个域来通知接收端。目前r t p 所能支持的声音有效载荷类型 如表1 所示,所能支持的某些电视有效载荷类型如表2 所示。 4 第二章基础平台音视频方案分析与设计 有效载荷号声音类型采样率( k h z )数据率( k b s ) op c mm u - l a w 86 4 l1 0 1 684 8 2g 7 2 l83 2 3g s m8 3 2 6d 1 66 4 7l p c82 4 9g 7 2 284 8 叫;4 1 4m p e ga u d i o9 0 1 5g 7 2 881 6 表1r t p 支持的声音有效载荷类型 有效载荷号电视格式 2 6m o t i o nj p e g 3 lh 2 6 1 3 2m 呼e g 1v i d e o 3 3m 呼e g - 2v i d e o 表2r t p 支持的电视有效载荷类型 ( 2 )顺序号 顺序号( s e q u e n c e n u m b e r f i e l d ) 域的长度为1 6 位。每发送一个r t p 信息包顺序号 就加l ,接收端可以用它来检查信息包是否有丢失以及按顺序号处理信息包。例如, 接收端的应用程序接收到一个r i p 信息包流,这个r t p 信息包在顺序号2 0 和2 4 之间有一个间隔,接收端就知道信息包2 l ,2 2 和2 3 已经丢失,并且采取措施来处 理丢失的数据。 ( 3 )时间戳 时间戳( t i m e s t a m p ) 域的长度为3 2 字节。它反映r t p 数据信息包中第一个字节的 采样时刻( 时间) 。接收端可以利用这个时间戳来去除由网络引起的信息包的抖动, 并且在接收端为播放提供同步功能。 ( 4 ) 同步源标识符 同步源标识符( s y n c h r o n i z a t i o ns o u r c ei d e n t i f i e r ,s s r c ) 域的长度为3 2 位。它用来 标识r t p 信息包流的起源,在r t p 会话期间的每个信息包都有一个明确的s s r c s s r c 不是发送端的坤地址,而是在新的信息包流开始时源端随机分配的一个号码。 一般情况下我们将r t p 协议看成是一个在应用层实现的传输层协议,即所谓的4 5 层协 议。利用r t p 能够在一对一( u n i c a s t ,单播) 或者一对多( m u l t i e a s t 。多播) 的网络环境中 实现流媒体数据的实时传输。r t p 通常使用u d p 来进行多媒体数据的传输。但如果需要的 话可以使用t c p 或者a t m 等其它协议。r t p 协议的设计目的是提供实时数据中的时间戳信 息以及各数据流的同步功能。r t p 协议提供序列号字段用于重新建立原始音频、视频的时序, 帮助接收方确定数据到达时间的一致性或变化;提供同步源标识符( s s r c ) 字段,在接收 端为包分组从而进行回放。由r t p 的定义可以看出,r t p 本身并不能为按序传输数据包提 供可靠的保证,也不提供流量控制和拥塞控制,这些都由r t c p 来负责完成。 r t c p 中文全称实时运输控制协议,是与r t p 配合使用的一套协议。实际上,应该将 r t c p 协议看成是r t p 协议不可分割的一部分。其主要功能是:服务质量的监视与反馈、媒 体问的同步( 如某一个r t p 发送的声音和图像的配合) ,以及多播组中成员的标识。 5 东南大学硕士学位论文 通常r t c p 会采用与r t p 相同的分发机制,向会话中的所有成员周期性地发送控制信 息应用程序通过接收这些数据,从中获取相关资料,从而能够对服务质量进行控制或者对 网络状况进行诊断。 当应用程序开始一个r t p 会话时将使用两个端口:一个给r t p ,一个给r t c p 。在r t p 会话期间,各参与者周期性地传送r t c p 包。r t c p 包中含有已发送的数据包的数量、丢失 的数据包的数量等统计资料,因此服务器可以利用这些信息动态地改变传输速率,甚至改 变有效载荷类型。r t p 和r t c p 配合使用,它们能以有效的反馈和最小的开销使传输效率最 佳化,因而特别适合传送网上的实时数据。 2 1 。2t s 流封装方案 t s 流的系统封装【1 8 1 删1 是另外一个比较流行的方案首先我们分析一下m p e g - 2 编码的 相关流程,图3 是按照i s o i e c 进行编码时简化的总体框图。 视频 p e s 图3m p e g 系统层封装过程 通过m e p e g - 2 系统层的封装晟后形成的是程序流或者是传送流,两者的选择取决于具 体的应用环境。程序流是针对错误相对较少的环境设计的,适用于像多媒体这样一些涉及软 件处理系统信息的应用,目前d v d 光盘的压缩就采用这样的系统封装形式。程序流分组是 可变的而且相对较长。传送流是针对那些很容易发生错误的环境而设计的,譬如在容易丢失 或高噪音的媒体中存储和传送目前多用于广播级的多媒体通信中,传送流分组长度如果不 考虑纠错码的话为1 8 8 字节。 程序流和传送流针对不周的应用两设计,它们的定义并不严格地遵守分层模式。从一种 形式转换到另一种形式是可能的、合理的,然而并不存在子集或超集的关系。尤其是,从传 送流中抽取一道程序的内容并产生有效的程序流是可能的。主要通过普通的p e s 分组格式 变换就行了。但并不是程序流需要的所有域值都可以从传送流中直接获得,有一些必须经过 推导,在多层模式中,传送流可能跨过几层范围,为的是更有效地、轻易地实现高带宽的应 用。 一般情况下如果针对的是多媒体通信领域,通常采用的就是传送流的方式图4 是典型 的传送流解码器的框图。 6 第二章基础平台音视频方案分析与设计 解码后 图4 传送流解码器框图 传送分组流的结构如图5 所示 的音频 憾 传送错误有效负载传送 m 传送加密适应字段 连续 适应 指示器 起始指示器 优先级控制控制计数器字段 ( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) ( 7 ) 图5 传送分组流的典型结构 以下介绍一下传送流分组中一些重要字段的语义定义。 同步字节:值为“0 1 0 0 0 1 1 1 ”( 0 x 4 7 ) 的固定8 位字段,同步字节应尽量避免与像 p i d 那样按规律产生的字段发生冲突。 传送错误指示器:1 比特标志位。当置为l 时表明在相关的传送分组中至少有一个 不可纠正的错误位。此标志位应由传送层之外的实体置“l ”当被置“l ”后,在错 误被纠正之前不能重置为“0 ”。 有效负载起始指示器:l 比特标志位,用来指示传送流分组带有p e s 分组或p s i 数 据时的情况。 传送优先级:l 位指示器。当被置为“l ”时表明相关的分组比其它具有相同p i d 但 此位没有被置“l ”的分组有更高的优先级。传送机制可根据此位确定在一个原始流 中数据的优先级。根据不同的应用,此优先级字段的编码可以不考虑p i d ,或者仅 在一个p i d 内编码。此字段可能被通道特殊编码器或解码器修改。 p i d :1 3 位字段,指示存储于分组有效负载中数据的类型。p i d 值为0 x 0 0 0 0 为程序 关联表保留,而0 x 0 0 0 1 为条件访问表保留。p i d 值0 x 0 0 0 0 - o x 0 0 0 f 保留,0 x l f f f 为空分组保留 传送加密控制:2 位字段,用来指示传送流分组有效负载的加密模块。传送流分组 首部包括调整字段,不应被加密。 适应字段控制:2 为字段,用于指示本传送流分组首部是否跟随有调整字段和有效 负载。 7 东南大学硕士学位论文 ( 8 ) 连续计数器:4 位字段。随着每一个具有相同p i d 的传送流分组而增加,当它达到 最大值后又回复到0 。如果适应字段控制为“0 0 ”或“1 0 ”,则连续计数器不应增加。 ( 9 ) 适应字段:数据字节是来自p e s 分组。p s i 部分以及不在这些结构中的私有数据的 连续字节,空分组的p i d 为0 x l f f f 。适应字段可以赋为任何值。 2 2 音视频编解码器方案 目前工业应用上的主流标准主要是m p e g 系列 2 0 h 2 2 及h 2 6 x 系列h 2 6 1 标准。m p e g 是一个包含了视频、音频和系统的综合性标准,由i s o 负责制定;而h 2 6 x 则侧重于视频 编解码方面的工作,由删- t 负责制定。以下对这两个标准作一个简单的介绍。 2 2 1m p e g 系列标准 m p e g 的全称是“m o t i o np i c t u r ee x p e r tg r o u p ”( 移动图像专家组) ,组建于1 9 8 8 年, 目的是为传送音频和视频制定标准 1 m e g l 于1 9 9 0 年1 2 月提出标准草案,l ”3 年8 月公布,被广泛地应用在v c d 的制作和 一线视频片段下载的网络应用上面,可以说9 9 的v c d 都是用m p e g i 格式压缩的。 我们目前习惯的m p 3 ,并不是m p e g - 3 。而是m p e g 1l a y e r 3 ,属于m p e g 1 中的音频 部分。m p e g - 1 的像质等同于v h s ,存储媒体为c d r o m ,图像尺寸为3 2 0 2 4 0 ,音 质等同于c d ,比特率为1 5 m b p s 。 m p e g 1 采用了一系列获得高压缩比的方法:对色差信号进行亚采样,减少数据量; 采用运动补偿技术减少帧间冗余度;d c t 去除空间相关性;对d c t 系数进行量化,舍 去不重要的信息;将d c t 分量进行变字长编码;对每个数据块的直流分量( d c ) 进行 预测差分编码。 该标准分三个部分: 系统:m p e g - i 第一部分,控制将视频、音频比特流合为统一的比特流。 视频:m p e g - 1 第二部分,控制视频编解码。 音频:m p e g - i 第三部分,控制音频编解码。 2 呼e g - 2 于1 9 9 4 年1 1 月公布,全称为“运动图像及其伴音的编码”,被应用在d v d 的制 作( 压缩) 方面,同时在一些h d t v ( 高清晰电视广播) 和一些高要求视频编辑、处理 上面也有相当的应用面,同时其和m p e g 1 相兼容。 和m p e g 1 相类似,m p e g - 2 的编码码流分为六个层次。视频序列层( s e q u e n c e ) , 图像组层( c o p :g r o u po f p i c t u r e ) ,图像层( p i c t u r e ) ,切片层( s l i c e ) ,宏块层( m a c r o b l o c k ) 和块层( b l o c k ) ,但具体有细微的不同。 视频序列层:序列指构成某路节目的图像序列,序列起始后的序列头中包含了图像 尺寸。宽高比,图像速率等信息。序列扩展中包含了一些附加数据。为保证能随时进入 图像序列,序列头是重复发送的 图像组层:一个图像组有相互间有预测和生成关系的一组i 、p 、b 图像组成,但第 一帧图像总是i 帧。c r o p 头中包含了时间信息。 8 第二章基础平台音视频方案分析与设计 图像层:分为i 、p 、b 三类,m p e g - 2 没有d 图像d 图像是变换系数的直流分 量( d c 系数) 。代表能量分布,而m p e g 1 中有d 图像。 切片层:一个像条包括一定数量的宏块其顺序与扫描顺序一致。 宏块层:m p e o - 2 中定义了三种宏块结构:4 :2 :0 宏块,4 :2 :2 宏块和4 :4 : 4 宏块,分别代表构成了一个宏块的亮度块和色差块的数量关系。4 :2 :0 宏块中包含 四个色度块,一个c b 色差块和一个c r 色差块;4 :2 :2 宏块中包含四个亮度块,两个 c o 色差块和两个c r 色差块:4 :4 :4 宏块中包含四个亮度块,四个c b 色差块和四个 c r 色差块。这三种宏块结构实际上对应于三种亮度和色度的抽样方式。而m e p g 中宏 块结构是4 :2 :0 ,即对应予4 个亮度块,一个c b 色差块和一个c r 色度块。 块层:块层是m p e g - 2 码流的最底层,是d c t 变换的基本单元。m p m l 中一个 块是由8 x 8 个抽样值构成,同一块内的抽样值必须全部是y 信号样值,或全部是c b 信号样值,或全部是c f 信号样值。另外,块也用于表示8 x8 个抽样值经d c t 变换后 所生成的8 8 个d c t 系数 m p e g 2 视频和n i p e g - i 视频的主要区别是。它有档次( p r o f i l e s ) 和等级( l e v e l s ) 的概念。档次对应于不同的编码复杂度,共分为5 种:简单档次( s i m p l e ) 、主档次( m a i n ) 、 s n r 可分级档次( s n rs c a l 曲l e ) 、空问可分级档次( s p a t i a t t ys c a l a b l e ) 和高档次( h i g h ) : 等级对应于不同的图像格式,可分为4 种:低等级( l o w ) 、主等级( m a m ) 、高级窄屏 幕( h i g h - 1 4 4 0 ) 和高级宽屏幕( h i g h ) 。如下表所示,并不是所有的档次和等级的组合 都有实际应用。其中可选的2 0 个组合中只有1 1 个是有用的。称为m p e g - 2 适用点,这 1 1 个适用点是:s p m l 、m p l l 、m p m l 、m p h 1 4 4 0 l 、m p m l 、s n r p l l 、 s n r p m l 、s s p h 1 4 4 0 l 、h p m l 、h p i - 1 1 4 4 0 l 和m p h l 。其相关特性可参见 表3 叨。 等级简单档次主档次s n r 可分级空间可分级高档次 档次( 4 :2 :0 )( 4 :2 :o )档次( 4 :2 :0 ) 档次( 4 :2 :o ) ( 4 :2 :0 4 :2 :2 ) 高等级( 尚未定义) = 8 0 m b s( 尚未定义)( 尚未定义) = l o o m b s h i g hl e v e l 分辨率:1 9 2 0 x1 1 5 2 或1 9 2 0 x 9 6 0 ,容许帧速率:2 3 9 7 6 ,2 4 2 5 2 9 9 7 3 0 5 0 5 9 9 4 6 0 h z ,允许的最大垂直运动矢量范围:1 2 8 + 1 2 7 5 高一1 4 4 0 等级 ( 尚来定义) = 6 0 m b s ( 尚未定义) = 6 0 m b s = 8 0 m h ,s h i g h - 1 4 4 0分辨率;1 4 4 0 1 1 5 2 或l “o 9 6 0 ,容许帧速率:2 3 9 7 6 2 4 2 5 2 9 9 7 3 0 5 0 l e v e l 5 9 9 4 6 0 h z ,允许的最大垂直运动矢量范围:1 2 8 + 1 2 7 5 主用等级 = 1 5 m b s = 1 5 m b s = 1 5 m b s ( 尚未定义) = 2 0 m b s 分辨率:7 2 0 5 7 6 或7 2 0 x 4 8 0 。容许帧速率:2 3 9 7 6 2 4 2 5 2 9 9 7 3 0 h z ,允 许的最大垂直运动矢量范围:- 1 2 8 + 1 2 7 5 低等级( 尚未定义) = 4 m b s - - 4 m b s ( 尚未定义)( 尚未定义) 分辨率:3 5 2 x 2 8 8 或3 5 2 2 4 0 ,容许帧速率;2 3 9 7 6 2 4 2 5 2 9 9 7 3 0 h z ,允 许的虽大垂直运动矢量范围:- 6 4 + 6 3 5 表3m p e g - 2 图像的档匆等级体系结构 除此之外,m p e 0 - 2 与m p e g 1 的其它区别在于: ( 1 ) 除了对帧进行搜索,还对场进行搜索 ( 2 ) m b 色度格式还可为4 :2 :2 、4 :j l :4 ( 3 ) 帧尺寸最大可为1 6 3 8 3x1 6 3 8 3 。 ( 4 ) 非线性m b 量化因子 9 东南大学硕士学位论文 3 口e g 一3 原本针对于h d t v ( 1 9 2 0 x1 0 8 0 ) ,后来被m p e g - 2 代替。 4 m p e g - 4 这是一个针对多媒体应用的图像编码标准。m p e g - 4 标准专家组成立于1 9 9 3 年, 该标准的目标为支持多种多媒体应用( 侧重于多媒体信息内容的访问) ,可以根据应用 的不同要求现场配置解码器。m p e g - 4 标准的1 0 版本于1 9 9 9 年1 月公布,2 0 版本 于1 9 9 9 年1 2 月公布。m p e g _ 4 旨在将众多的多媒体应用集于一个完整的框架内,为不 同性质的视音频数据制定通用、有效的编码方案,提出基于具体内容( c o n t e n t - b a s e d ) 的视频对象、音频对象的存取,常被称为基于内容的存取。 m p e g - 4 标准与m p e g - 1 和m p e g - 2 标准最根本的区别在于m p e g - 4 是基于内容 的压缩编码方法,它突破了m p e g - i 和m p e g - 2 以矩形- 9 5 形块处理图像的方法,在这 些方法中,将整帧图像分割成固定尺寸、固定开头的子块进行处理。m p e g - 4 标准是对 幅图像按内容进行分块,如图像的场景、画面上的物体( 物体l 、物体2 等) 被分割 成不同的子块,将感兴趣的物体从场景中截取出来,进行编码处理。这时的子块开头和 尺寸取于所截取物体的形状和尺寸,用固定开头和固定尺寸的子块描述不会取得满意的 效果。 5 m p e g - 7 基于内容表示的标准,应用于多媒体信息的搜索,过滤,组织和处理。传统的基于 关键字或文件名的检索方法显然不适于数据量庞大、又不具有天然结构特征的声像数 据,因此近些年来多媒体研究的一个热点是声像数据的基于内容的检索。 实现这种基于内容检索的一个关键性的步骤是要定义一种描述声像信息内容的格 式,而这与声像信息的存储形式( 编码) 又是密切相关的。国际标准化组织i s o i e c 下 辖的运动图像专家组( 简称m p e g ) 注意到了这方面的需求和潜在的应用市场,在推出 影响极大的m p e g - i 、m p e g - 2 之后,在尚未完成m p e g - 4 最后定稿的情况下便开始着 手制定专门支持多媒体信息基于内容检索的编码方案:m p e g - 7 。 m p e g - 7 作为m p e g 家族中的一个新成员,正式名称叫做“多媒体内容描述接口” ( m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a r e ) ,它将为各种类型的多媒体信息规定一种标 准化的描述,这种描述与多媒体信息的内容本身一起。支持用户对其感兴趣的各种“资 料”的快速、有效地检索。 6 m p b g - 2 l 各种不同的多媒体信息分布式地存在于全球不同的设备上,要想通过异构网络有效 地传输这些多媒体信息,必然需要综合地利用不同层次的多媒体技术标准。“多媒体框 架( m u l t i m e d i a f r a m e w o r k ) ”这一概念在1 9 9 9 年l o 月m p e g 会议上被提出,以解决 这个问题。在1 9 9 9 年1 2 月的m p e g 会议上,这个新的工作方向被确定为m p e g - 2 1 m p e g - 2 1 的正式名称是多媒体框架,又称数字视听框架( d i g i t a l a u d i o - v i s u a lf r a m e w o r k ) 。它提出了“将标准集成起来支持协调的技术以管理多媒体商务”的 口号,它的目标就是理解如何将不同的技术和标准结合在一起,需要什么样的新标准 以及完成不同标准的结合的工作。 2 2 2h ,2 6 x 标准 h 2 6 x 是r r u t 制定的标准,主要涉及视频领域。这套应用于电信网络的视频编码系统 先后经历了r r u - th 2 6 1 、h 2 6 2 ( m p e g - 2 ) 、h 2 6 3 及其改进h 2 6 3 + 和h 2 6 3 + + ,应用领域 第二章基础平台音视频方案分析与设计 覆盖i s d n 、t 1 e 1 、p s t n 、移动无线网络及局域网等,正朝着网络适应性好、抗误码能力 强、编码效率高的方向不断发展。 1 9 9 8 年,视频编码专家组( v c e g - i t u - ts g l 6q 6 ) 开始了h 2 6 x 标准的研制工作, 旨在是编码效率比现有视频编码标准提高一倍以上。2 0 0 1 年1 2 月,视频编码专家组( v c e g ) 与运动图像专家组( m p e g ) 合作,成立了联合视频小组( j 、叮) ,开始致力于完成新的视频 编码标准h 2 6 4 a v c ( 1 t u - t 称之为h 2 6 4 ,i s o 称之为a v c ) 。作为m p e g - 4 标准的第十 部分。 h 2 6 4 a v c 全面应用视频编码理论的最新成果,与现有的各种标准相比,在相同的视频 质量下,码率减少一倍以上,这意味着在相同码率下,视频质量显著提高。h 2 6 4 a v c 可工 作于多种速率,广泛应用于i n t e m e t y i n w a n e t 上的多媒体流服务、视频点播、可视游戏、低码 率移动多媒体通信( 视频手机等) 、交互式多媒体应用,实时多媒体监控、数字电视与演播 电视和虚拟视频会议等,大有在上述领域一统天下的趋势。有非常广泛的开发和应用前景。 总体说来,h 2 6 x 标准经历了如下发展历程: h 2 6 1 :专为i s d n 设计,主要针对实时编码和解码设计,压缩和解压缩的信号不超过 1 5 0 m s ,码率p x 6 4 k b p s ( p = l 3 0 ) h 2 6 1 标准主要采用运动补偿的帧间预测、d c t 变换、 自适应量化、熵编码等压缩技术。只有i 帧和p 帧没有b 帧。运动估计精度只精确到像素 级。支持两种图像扫描格式:q c i f 和c i f 。 h 2 6 3 :h 2 6 3 标准是甚低码率的图像编码国际标准,它一方面以h 2 6 1 为基础,以混 合编码为核心,其基本原理框图和h 2 6 1 十分相似原始数据和码流组织也相似:另一方面, h 2 6 3 也吸收了m p e g 等其它一些国际标准中有效、合理的部分,如:半像素精度的运动估 计、p b 帧预测等,使它性能优于h 2 6 1 。 h 2 6 4 :h 2 6 4 集中了以往标准的优点,并吸收了以往标准制定中积累的经验。采用简 洁设计,使它比m p e g - 4 更容易推广。h 2 6 4 创造了多参考帧、多块类型、整数变换、帧内 预测等新的压缩技术使用了更精确的分象素运动矢量( 1 4 、l s ) 和新一代的环路滤波器, 使得压缩性能大大提高,系统更加完善。 h 2 6 5 :随着h 2 “的成熟,i t u - tv c e g 开始规划h 2 6 5 标准的制定。目前,玎u - t 的官方网站上给出了s g l 6 小组讨论0 5 - 0 8 工作计划的内容,其中就有谈到对h 2 6 5 的规划。 2 3 音视频同步方案 音视频的同步 2 s 1 实际上是隶属于系统封装层次,或者说是传输复用层次,目前流行的 系统层传输复用协议包括m e p g 2t s ,r t p r t c p ,d a b 复用等等。在时间戳控制方面目 前流行的主要是m e p g - 2t s 和r t p r t c p 事实上,两者的机理有着异曲同工之妙。以下 仅以m p e g - 2 协议为例来分析时间戳的控制。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论