(计算机软件与理论专业论文)多媒体通信中的音视频同步问题研究.pdf_第1页
(计算机软件与理论专业论文)多媒体通信中的音视频同步问题研究.pdf_第2页
(计算机软件与理论专业论文)多媒体通信中的音视频同步问题研究.pdf_第3页
(计算机软件与理论专业论文)多媒体通信中的音视频同步问题研究.pdf_第4页
(计算机软件与理论专业论文)多媒体通信中的音视频同步问题研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)多媒体通信中的音视频同步问题研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文多媒体通信中的音视频同步问题研究 ab s t i8c t wi t b recent d e v e l o p me n 招inn et w o rking to c hno l o g i e s , itp r o mote s the d e v e l o p m e n t o f m ul ti 一晒a n e two rkin g techoo l o gi esgr e 甜y. c o m p ar e d tothe 坛 川 i ti o n a l d a taap p l ic ati。 氏 thc m u lti一 m ediaa p p l i c a t i on i n t e gra t e d y 面。 us ki nds ofme dium . the semedium d a tamu st u n fo ld幼tha k in dof匀 !n c l l 川w ay tothe c o n u m e itbe c o m esto悦 one ofth e k e y t 伙恤01 o gi esinmul ti 一ediac o n u n 画 。 拓ons torestoret h e sem edi um s y 刀 c hro n l sm re l atio n 印叮 郎 习 y. s ync hr o l 乙 兹 1 0 n h asrece i v eda 初d e 做 g e o f a tt e n t i o n . t b e 此 se 别 陷 h w o rkin而s di s “ 叭 at i oncam ess 加 d y on m u l t i 一 m ed ias y n c h ro ni za t i o n for con t in u ous m e d 1 a,and th e m aj orc 0 n te n t s are o u 1 l i n edasfoll o ws : 1 . re引 溉 叮 c hofa 介 e d b a c k con tr 0 1 s c b e me for m edias ync hro 拍 乙 时 i o n of别 力 r e d me d i a b as edon d 界 团 俪 c b u ff 比t h re sh ol d val此of朴即 g l e . adjustin g the u 珊( u p p e r tazg et bounds 叮) 即d 1 j b (l 。 wer ta r g etbounds 叮) d y n a n u c 】 y,t h l s sc h eme can com pe l l sat e for del ayj i ter and . le t wo rk an0 lr 以 l y,“ 加 p t ton c 幻 形 o rk 远血b i li tys ta l e d yn歇 山 cl y,c u t down the 闷 理 沈 m e n t inth e rec ei ve 胡gle tot b e bestofits abi lities公 ir o u gh c erta i n l evc l smooth 廿 即 t m e n t 2 .a “。 r d in gto e d lpla y o ut 代 q u i r e 幻 。 叨丸we con t r o l th etr a n form andpla y o ut d 勺 犯 n d in g onthc bott o m户 旧 to cols . wc s li n nli厅此 r t p 用 汀 c p add de si gnnew r t p 用 丁 c p 丘 抑e , 5 汕vli厅 此 p r o to co lsan da p p l yfor 阮 e d lp l a y o ut a c c o r d i ng to 劝 劝 ds 记 rtp 用汀cp6 妞住 此. 3 .desi gnand 如p 】 ement o f c g( c o m p ut erg r a p hi c s )story肠ard ex p l o r 。 卜 一 e d l ( e di t d e c i s i on li sts) m ul t i 一 m edia p l a y e l t ll l s sc h eme in tl o d u c e s the so ft w aj 吧des i gn o f client an gl e an d , 丹 e r angl e p 州i c u l ar l y.f ir s t 】 y,this sc b elne ds sc ri be s the 油p l eme n t of locai m u l t i 一ed认pl ay er. se c o n d 】 y, ita n a 1 y ses the d ir e c t s h ow desi gn of d e 妇 刃 o rk m u lti 一 me di a pl a y e l k 叮 、 甲 。 川. :mu l t i , m e d 1 a s ync hj 旧 山 乙 戒 l o n ,c o nil n u o u sme d i a. mc i ,肠花 c t s h o w, 即,p /f j c p,l d u , e d l 声明 本学位论文是我在导师的指导下取得的研究成果, 尽我所知, 在 本学位论文中, 除了加以标注和致谢的 部分外, 不包含其他人己 经发 表或公布过的研究 成果, 也不包含我为获得任何教育机构的学位或学 历而使用过的材料。 与我一同工作的同事 对本学位论文做出的贡献均 己在论文中 作了明 确的说明。 研 究 生 签 名 : 少可 叫 叫年 月 甲 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电 子和纸质文档, 可以 借阅 或上网公布本学 位论文的全部或部分内容, 可以向有关部门 或机构送 交并授权其保存、借阅 或上网公布本学 位论文的 全部或部分内容。 对于保密论文, 按保密的有关规定和程序处理。 研究生签名: 哟 年 月 和- 硕士论文多媒体通信中的音视频同步问题研究 绪论 本章将介绍论 文的 背景 与意义以及多媒体同 步技术国内外的发展现状,并 概述 论文的主要工作内容和章节安排。 l l课题的背 景与意义 宽带 通信 技术的发展在很大程度上推动了多 媒体通信技术的发展。 基于多媒体 技术的 应用已 经深入 到教育、 办公、 商业、 科学研究及家庭 各个方面, 如视频点播、 远程购物、远程教学、视频会议、计算机支持协同工作等各个领域。在多媒体应用 中,多媒体数据是由相互关联的文本、图形、图像、动画、音频和视频等媒体数据 构成的 一种复合信息 实体131 . 在这些应用系统的 设计中,多媒体的同 步传输是一 个 关系着多媒体应用系统表现质量的重要因素。其中,有着严格时间关系的音频和视 频等类型的数据 称为连续媒体(co n t i n u o u s m edia) 数据, 其它类型的数据被称作非 连 续媒体口1 别 万 et e m ed ia)数据。媒体同 步是由 多媒体数据所具有的独特特征而引 发的 问 题 , 作 为 多 媒 体 通 信中 的 一 项 关 键技 术 , 媒 体 同 步 已 经引 起了 学 术 界 的 广 泛 关 注。 本文结合国 家高技术研究发展计划( 8 63计划 ) 项目 “ 上 海数字 媒体基 地建设关键 支撑技术研究” 子课题 2 :c g制作流程与项目 管理关键技术研究( 项目 编号: 2005a a l l405 0) 中州 叭 y a辅 助开发平台, 主要探 讨本机以 及局域网内 存储连续媒 体的音视频同 步问 题。 这里的 存储连续媒体是相 对于现场采集的 实时 媒体来说的, 指的是 存放在服务器中的各 种多媒体。 本课题的 初衷是通过对多 媒体同 步算法的 研 究,解决由于网络延迟、抖动、时钟偏移、丢包等因素造成的音视频媒体数据之间 的 异步,同 时, 结合网络新技术的发展和实际应用的需 求, 通过对当 今多媒体 数据 传输过 程中的 一些新 技术, 新协议进行分析及改进, 实现一个基于e d l ( e d it d ec isio n li sts) 的 多 媒 体 播 放 系 统, 系 统 设 计的 最终目 标 是 为 了 使 从 服 务 器 端 的 多 媒 体 数 据 能 够在客户端表 现时 产生 c g( c o mp uter g ra p b i c s) 制作人员满意的服务 质量。 系统 投入实际使用后, 能够方便c o制作人员对故事 板的便捷浏览, 提高了c g制作人 员的工作效率。 其中, 重要的一个问 题就是多媒体 信息 传输后必 须保持 原来各媒体 之间的 时间关 系, 即同步. 多媒体同 步算法的 研究以及多媒体传输协议的 研究,正 是为了 实现多 媒体同步而采用的技术手段,是本课 题中多 媒体同 步的 研究重点. 硕 士 论 文多媒体通信中的音视频同步问题研究 1 .2 多媒体播放器研究现状 目前流行的同步控制技术一般从从信源、信宿、网络传输三个角度出发: r an gan 等 人 116 1和凡 叻 别 田 戒 址 切 等 人 l 71 提出 一 种 基 于 反 馈 的 媒 体同 步 方 法. 该 方 法 的 前提是己知发送端到接收端媒体单元经历的最大网络时延和最小网络时延,也已知 从发 送端到 接收 端反馈信息经历的 最大网 络时 延和最小网络时 延, 而且网络条件也 不发生变化。接收端在播放的同时,有选择性地向发送端发送反馈信息;bier 比 k 等人115 】 提出 一种存储连续媒体的 媒体内 和媒体间同 步方法。 该 方法主要是针对一个 视频流 和另 一个相关的视频流, 在发 送端 进行同 步控制, 通过跳过暂停发送视频帧 来重新同 步, 能够处理多种原因引 起的 失步; 许延等人119 1 提出 一种存 储视频的媒体 内同步算法。该算法根据接收端的播放缓冲区的占用水平,发现失步时反馈给发送 端,发送端改变视频帧的发送间隔,如缓冲区占用水平高时加大发送间隔,占用水 平低时减小发送间隔,来补偿网络异常以及恢复同步。 流 媒体 技术 离不 开 新型 网络 协议 的支 持 ,因特 网工程 任 务 组 正t f ( i nt 。 刀 ete n g in e e n n g 于 始 kfo二 e) 制定了 一系列支持流媒体实时 传输和服务质量 控制的协议,包括:实时传输协议 r 仰、实时传输控制协议 r t c p 、资源预留协议 rs vp ,实时流化协议r t s p 。在流媒体技术中,以上协议协同工作,共同完成网络 多媒体实时的数据传输和控制、 资源预留及服务质量保证等工作。 其中r t p协议负 责数据传输,rt cp 协议提供数据传输质量反馈,rs v p协议用于向路由器预定满 足其特定需求的网络资源, r t s p协议则提供数据传输的远端控制。 r t p i r t cp 协议 是所有这些协议的基础。 r t p 协议被ies c o n t e m e t e n g m e e n n g 雍e 行 n g gro up) 采纳为功 t 。 ” e t 标准以 后, 包括m i crdso ft 和加 t e l 等公司在内 的全 球逾百家厂商联合签署协议, 共同 致力 于建 立一 个基于r 即 用 汀 c p协议的开放性平台, 使基于加 t e m e t 的音 频、 视频及数据通 信变 得象打电 话一 样简单。 国外的 研究机构如美国哥伦比 亚大学、贝 尔实验室和德 国国家 信息技术 研究中 心等也都开 展了 大量基于义 即 用 汀 c p 协 议的 研究和实验, 基 于该 协议的网 络多 媒体应用工具 和产品 也大量涌现。 其中v 占 n d o ws m edi a pl ayer. reai pl ay是 典 型 代 表。 在国内, r t p / r y c p协议 及流媒 体技术的研究尚 处于成长阶段,随 着光纤 传输 技术的成熟和 广泛应用, 计算 机网络 通信信道发生 质的 变化, 对斑 即 用 汗 c p 协议的 研究日 趋紧迫。 硕 士 论 文多媒体通信中的音视频同步问题研究 1 3 本文的工作内容 文中主要 工作可 概括为 如下几个方面: 第一,对已有的存储连续媒体的媒体同步反馈控制算法进行改进并运用到实际 系统中,在已有的反馈算法中,根据音频和视频播放缓冲区的占用水平,间接地反 映了网 络的 变化情况, 实现音频流和视频流媒体同 步; 改 进后的 算法可以 补偿时延 抖动和网络异常,可以动态地适应网络的不稳定状态,并且通过一定的平滑,减少 发送端的调整力度。 第二,根据系统中e d l多媒体播放器的需求,设计了简化的rt p 邝 汀 c p 协议。 包括设计了新的 义即用 汀 c p帧:在 化印用 汀 c p标准帧的基础上按 e d l播放系统的 环境修改简化,去除了一些不必要的域及功能, 增加了一些域,重新设计了某些类 型报文的工作方式。 充分利用r l ,p 包头中原有的一些定义, 去除一些在本系统中不 必要的域,避免了过度增加网络流量。精简后的协议通过同步时间模型的同步属性 的定义和转换,实现同步模型中所定义同步关系的传输与解读。 第三, 分别介绍了本地 e d l多媒体播放器以及网络e d l多媒体播放器的实现。 根据 ma y a动画制作辅助开发平台的实际需求,详细描述了本地 e d l多媒体播放 器实 现的 关键技术: 多媒体定时器的 选择、 m cl 的使用、 音频图象( 视频) 同 步的设 计;网络 e d l多媒体播放器实现的核心部分:系统整体 d 吮。 比 h o w结构、网络发 送 fiit er、网络接收 f il ter 的设计。 l 4本文的章节安排 本论文共分五章,以下各章内容安排如下: 第一章: 绪论。 介绍论文的背景与意义以及多媒体同步技术国内外的研究现状, 并概述论文的主要工作内容和章节安排。 第二 章:多 媒体同 步技术。 介绍了 多媒体同 步的 相关基础理论和实现本系统所 涉及的关键技术。 第 三 章: 存 储 连 续 媒 体的 同 步 反 馈 控 制 算 法。 先 介 绍 一 种 基 于 接 收 端 缓 冲 的 媒 体同步 反馈控制算法, 在这个算法基础上进行了 改进, 算法的实现可以 补偿时延抖 动和网 络异常,可以 动态地适应网 络的不稳定状态, 通过一定的 平滑算法, 尽量减 少发送端的调整力度。 第四 章:基于义 即 邝 汗 c p 协议的同 步控制。 设计多媒体同步传输协议是实现多 媒体同 步的重要步骤, 同步传输协议 可以 从底层出 发, 对媒 体流的 传输播 放进行控 制。 本章详细地介绍了 r l ,p 用 汀 c p( 实时传输协切实时传输控制协议 ) 协议的 精简设 硕士论文多媒体通信中的音视频同步问题研究 计与实现。 第五章:c g制作 环境ed l 多 媒体播 放器的设计与实 现。 介绍了 本地播放器、 网 络播放器以及网 络服务 器的 具体设计与实现。重点介绍了 系统的 d i re ct s how 结 构、 系统层次划分以 及各个层次中 主要技术、网 络发送fil ter 以 及网 络接收 fi h er的 具体设计方法。 最 后: 总结与展望。对 本文所作的工作加以 总结,对下一步的 工作进行展望。 硕 士论 文多媒体通信中的音视频同步问题研究 2多媒体同步技术 2. 1 媒体同 步基础理论 根据多媒体系统的定 义,在各种媒体进行编码的信息之间存在着一 个参考l , 这个参考即是同步。如果没有该参考将无法对多媒体的信息进行综合处理、存储、 演示、通信、生成和管理 。 同 步( 名词) :同 步化处理的活动或结果; 处于同 步情形的状态。 同 步( 动词) : 在同 一时刻发生; 通过安排( 事件 ) 来指示同时发生或同时 存在; 通 过操作来实 现同 步状 态; 是( 运动图 像的声音 ) 恰好与动 作同时 进行. 彼此独立的 对象( 假如一段信息、媒体、 进程、 数据流) 之间 通过进行同 步处理 将会建立起一种关联。 媒体对象之间的同步包括时间相关和时间无关的对象之间的 关联. 例如, 我们日 常生活中 常见的 连续媒 体同 步是电 视广播里面声音和图 像信息 的同步。一个多媒体系统应该为音频和运动图像信息提供类似的同步。例如,幻灯 片演示反映了一个时间相关和时间无关的媒体之间的暂时关联。 在 多 媒 体同 步 技 术 领域 , 所 有 的多 媒 体 同 步 问 题 都 可分 为 两 类 l2: ( 1)多 媒 体 同步关系的抽象和 描述;(2 ) 多媒体系统提供同 步机制保证同步关系。 2.l i基本概念 工 l l i媒体 对象之间 的关系 一般地,维 持一个或多 个媒体对象的时间顺 序的 过程就称为多 媒体同步 13 刀 。 在 多媒体系统中, 两个 或者更多 对象 之间通常 存在3 种关系131 o ( 1) 内容关系:内 容关系定义了 各种媒体对象和数据之间的 关联。 例如在一个 文档中,内容关系可以存在于一个表格及相关的图像之间。数据可以通过各种方式 被表示, 或者 有关事实的各 个方面都可以 被演示。 在这种理想的综合文档形式中可 以 定义和编辑输入数 据、 链接、 和演 示类型, 所有通过链接的输入数据产生的实际 输出 数据都不能被 直接修改或编辑。 如果输 入数据被改变了, 这将引起文档中 很多 地方的输出数据发生 变化。通常情况下,内 容关系的实 现来自 于 通用的 数据结 构. (2 ) 空间关系: 空间关系也常被称为布局关系.它 反映了 在某个特定的时间点 , 多 媒 体 演 示 输 出 设 备 上 某 个媒 体 对 象 演 示 的 空 间 状 态。 在 二 维 的 输 出 设 备 (例 如 显 示 器或 纸 ) 上, 布 局 定 义 了 该 对 象占 用 的 二 维 区 域. 这 种 关 系 对 于 显 示 器 或 者 纸 上 显 示 硕士论文 多媒体通信中的音视频同步问题研究 信息来说非常重要。 它们确定了 用户界面的 布局: 各个对象在二维空间上被分布, 在这里最重要的是 纯粹的 空间 信息。 在桌面发 布文档中它通常被表 示为 帧。 一个帧 首先被插入, 之后内 容被分配到一 个帧。 这样的 一个帧也 可以 被用来插入运动图 像。 例如: v 西 n d o w s 系统采用若干格窗口 来实现这一功能。 一个窗口 可以 为读者提供更 大程度的自 由 度, 如读者采用的 “ 缩小” 、 “ 放大” 等操作。 (3 ) 时间 关系:时 间关系定义了媒体对象之间的时间上的 关系,时间关系对于 时间上相关的媒体非常重要。类似 “ 同步播放”的时间关系非常重要,尤其是当我 们在观看与时间密 切关联的媒体时。 例如运动图像和声音的 播放应该是按照时间 相 关的。 对象之间的 时间参考反映了同步 在真实 世界里的意义。内 容以 及空间的 关系 主要用于应 用系 统, 其中需要集成数据 库,电 子表格,图形 工具和字处理器。 而多 媒体系统则主要是处理时间相关的媒体数据。 2. l i. 2媒体同步的分类 多媒体同步 按涉及的 对象可分为三类 阅 ( 1)媒体内 同步 是指在单一媒体 流内, 媒体基 本单元之间存 在的时间同步关系, 例如一个视频 流中 各个帧之间的时间关 系, 一 个语音流中 各个语音分组的时间关 系。 在本系统中 主要考虑的是各个图 像之间的时间关系和声音分组之间的关系以 及一个声音分组 内的 语音分组的时间关 系。媒体内同 步可维持一个媒体流内 部各信息单元的连续 性,是其它同步种类的基础。 (2 ) 媒体间同 步 是指多个媒体流基本单元之间存在的时间关系,本系统中的图像、音频流、视 频流之间 的同步就是媒体间的同 步问 题。 可按照媒体的同步 特征分为静态媒体间同 步和动态媒体间同步。 静态媒体间的同 步, 指那些仅在媒体播放的开始和结束时需 要同 步的 媒体, 如 文字、 图像等. 同步 只涉及开 始点 和结束点,同 步控制相对比 较 简单, 同步粒度较 粗: 动态媒体间同步, 指的 是那些不仅在媒体播放的开始和结束 时 需要同 步, 而且 在播放的过程中也需要同步的媒体流, 如语 音与 视频的同步。由 于 它不 仅要在开始点 和结束点 保持同 步, 在播放的过程中也需要同 步,同 步粒度较 细, 因此同步控制比 较困 难。 媒体间同 步可维持不同媒体类型间的同步, 是人机交 互同 步的 基础。 ib m欧洲网 络中 心测量了 人能察觉到不同步时的 偏斜值, 有如下结 论 i41 ) : 偏 斜 在8 o m s( 音 频 滞 后 或 音 频 超 前 ) 范 围内 , 可 视 为 同 步 区 域 ; 偏 斜 在8 0ms 到1 6 0 “ 之间也 提可以 接受的同步范围; 偏斜在 1 6 0 m s 以 外,则 视为非同步区域。 (3 ) 人机交 互同 步 硕士论文多媒体通信中的音视颇同步问题研究 是指用户与各种 媒体对象之间的交互同步。比如视频点播中用户可以 控制流媒 体的快进、 暂停、 倒放等。 在本系统中涉及媒体的开始、 暂停、 快进、 后退等操作。 人机交互同步的交 互是一个没有确切发生时间的的 事件, 但它总是在某一个时间区 间内 发生,因 此它可以被看作是一个时间片, 有其开 始点 和结束点。 因此,人机交 互对象的同步一 般也只存在开始点和结束点, 与静 态媒体间同 步一 致。 在单独传输 同一实时媒体类型的应用中。 2. l 1 3媒体同步 参考模型 一 个参考 模型有助于我们理解多媒体同 步。 通过这一模型 我们可以了 解各种运 行机制的结 构以 及这些运行机制彼此之间的接口 , 此外 我们还可以用该 模型 来比较 多媒体同步系统的各种解决方案。 如图2 . 1 1 3. 1 给出了一个同步参考模型田 多媒体应用 图2. 1 . 1 . 3. 1同步 参考模型图例 同步 参考 模型中 规定了 每一层通过适当 的接口 实现了 一些同步的 机制。 这些接 口 可以被用 来规定或者实现时间 上的 关系。 每个接口 定义了一些服务,即 这些接口 为用户提供了定 义自 身 需求的选项。 一个接口 也可以 被应用程序直 接调用可或者 被相 邻的高 层调用来实现一个新的 接口,由此,高 层可以为 更高的 抽象层次和q o s 提供编程能力。 2. i j e d l多媒体的同 步描述 同步描述的方法主要有 4 种:基于时间间隔的描述、基于时间轴的描述、基于 控制 流的 描述和基于事 件的 描述。 本 文我们将依据一 个如图2. 1 . 2. 1 所示的一个e d l的基本场景来分析不同的 描 述方法。 图中: p 代表e d l 中的图 像, a 代表e d l 中的音频片段, 巧 di 。 代表ed l 中 视 频片 段。 滋: 从 下 图 中 可 以 看出 每 一 个 视 频 片 段 都 会 对 应 一 个 音 频 片 段 并 且 他 们的 持续时间是 相等的) 硕士论文多 媒体通信中的音视频同 步问 题研究 巨口 困困 回 三 口 。 巨 三 ! 川 , 月 川 玛 、 习 图2. 1 .2. 1一个e d l 基本场景 1 .基于时间间隔的同步描述 一个时间间隔指任何一个媒体对象的播放时间,我们可以根据不同的时间间隔 之间的相互关系来表示媒体对象内 部和媒体对象之间的时间关系。 根据文献可知, 不同 的 时间 间 隔 之间 的 关 系 可以 用13种 类型 来同 步 141 151 , 其中 , 有 部 分 关 系 是可 逆 的, 经过简化后,可以 得到7 种模式,可用这7 种模式来描述媒体对象两两时间间 隔的之间的关系。我们通过e d l的基本场景给出如图2 . 1 .2. 2 所示7 种关系。 ( 1 ) 。 * ro re 1巨口 口 (2 ) al s 枷 口 tsp i (3 ) a z d 也 初 g pi (4 ) a l m 优ts a z ( 5 ) as o v erla psp 6 (6 ) a3 五 力 i s h e s pi ( 7 ) a 4 e q ual s pz 图2. 1 .2. 2两个媒体对象之间的时间关系 2 .基于时间轴的描述 时间 轴模型【44 可 适用于 描述 在网 络环境下多 种媒体间 及媒 体内 的同 步关系, 其 基本思想是:多媒体数据生成过程中在数据流中增加时间标记, 具有相同时间标记 的多媒体对象必须同步。 ( 1)基于全局时间 轴的描述 所有的单个媒体对象都对应于一个代表真实时间的时间。每个媒体对象可以 对 于于一个全局时间 轴, 也可以使用各自的局部时间来定义媒体对象的时间特征, 如 开始时间,结束时间, 持续时间等等。 使用各自 局部时间的办法需要定义各自 的局 部时间和全局时间的关系,当局部时间与全局时间出现的误差超过一定范围时候, 硕士论文多媒体通信中的音视频同步问题研究 就必须对其进行调整以实现同步。 无论是采用哪一种对应方法, 基于时间轴的描述 的各个多媒体对象只与全局时间发生关系,因此相互之间具有一定的独立性,易于 维护。 而且, 该方法对媒体对象的内容做了很好的抽象, 易于集成非连续媒体对象。 一般情况下, 为了实现各个媒体流能够和全局时间同步, 会选取其中的一个多媒体 作为全局时钟,通常我们取音频流作为同步的全局时钟。如下图2. 1 .2. 3 : 加.冉2 日 八, 同 几月 一一l尸 一尸 州l一r esl llll! 叭 . 七 护门尸2刃 日 ,巧 , 曰曰 日曰 日 卜 ,“, 图2 . 1 2 3全局时间 轴的 描述例子 (2 ) 基于虚拟时间 轴的描述 在该方法中,用户可以根据需要自己来定义的测量单位,从而形成相应的时间 轴, 这些自 定义的测量单位已经不仅仅局限于时间单位如秒,也可以是其他的物理 单位如节拍等, 甚至可以是逻辑计时单位如次序号,同步描述就是按照这些坐标轴 来进行的。 另外也可以使用几个虚拟时间轴来生成一个虚拟坐标空间。该方法的优 点是继承了 基于全局时间轴的描述方法描述简单、同步媒体数据维护容易, 该方法 缺点在于要将虚拟时间轴映射为真实时间轴, 这一工作既复杂又费时,使得实际应 用的时候比较繁琐。 本系统中的时间计时精确到毫秒级, 在计量毫秒级时间的时候 并不是以一个毫秒为一个计量单位, 而是以62.5毫秒为一个计量单位, 在毫秒计时 的 时 候是 逢16进 l( l0 o 0/62. 5 =l6) , 在实时 播放的时 候就需 要把这 个虚拟的 时间 轴 转化为真实的时间轴。 户o八 几月 ai同 口 衫 ll esll ee一l 甲沁国 曰 护 .日摊月洲玛 r 卜 门 曰 曰门翎 切门 劫翎 , r. 图2. 1 . 2. 4虚拟时间轴的描述例 3 .基于控制流的描述 这种控制流的基本思想是:需要同时播放的各个媒体流应该在预先定义的播放 点上同步。 ( 1)基本等级描述 该方法是建立在两种主要的同步操作:串行同步动作和并行同步动作基础上。 在基本等级的描述中, 每个媒体对象都被看成一个由节点组成的树,由 节点可以引 发出 子树, 子树可以 是串 行同 步或者是并行同 步。 该方法的优点在于易于集成交互 对象, 缺点是 不 直接 支持q os ( q 明 】 ityof c e) 描 述, 很多时 候需要切割媒体 对象, 因为该方法只能在每个动作的开始和结束处同步。 硕士论文多媒体通信中的音视频同步问 题研究 (2 ) 参考点 描述 在 该 方 法 把 每 个 媒 体 对 象 看 作 是 一 个l d u序 列 145 网, 该 方 法 描 述了 媒 体 对象 间的时间关系却没有明确的时间参考, 连续媒体对象各媒体单元的开始时刻以及一 个媒体对象播映的开始和结束时 刻都被看作是一个参考点, 一组连接在一起的参考 点叫 做一个同 步点, 共享同 一个同 步点的媒体单元的播映必须在同步点到达时开始 或结束。使用该方法,我们可以在媒体播放的任意一个时刻进行同步,而且该方法 可以 集成对q o 5 的描述。 但是由 于该方法对媒体对象之间的关系进行了直接描述, 维护起来比较困难。 万同 匡 扁月 人 曰门 厂七: : : 忿 : :l: 护.竹 。! p. 。 p6 图2. 1 2 .5参考点描述例子 (3 ) 时 化p 面 网描述 该方法易于集成非连续媒体对象和交互式对象,易于集成对偏移 qos的描述 阅。 由 于媒体对象必须被分成了 许多子对象, 则该方法的主要缺点是对媒体对象的 内容的抽象不够且描述复杂。 4 .基于事件的描述 在这种方法中,播映动作是由同步事件发起的。典型的播映动作包括:开始播 映、 结束播映。 同步事件可能是外部的( 例如由 一个定时 器产生 ) , 也可能是内部的 ( 当 一个连续媒体对象到达某个特定的l d u而产生的同步事件) 。 该方法易于扩展新的 同步类型,较为灵活。但是它需要额外的定时器来描述连续媒体对象,描述复杂不 易处理, 此外该方法不能直接描述偏移q os。 上述各种描述方法的能力和用户的友好性各不相同,总的来说是从各个方面完 善了对媒体数据的定义。 对各种不同的描述方法,并没有特定的指标可评定其孰优 孰劣。 对于采用何种描述方法则主要是依据目 标应用程序的需要和所应用的软硬件 环境。 近年来, 对媒体同步描述的研究有很大进展,从多个方面提出了同步描述的 方 法 , 如d a y 等 人 161 提出 的 利 用 图 的 概 念 来 描 述 时 间 场 景 的 同 步 要 求; 参 考 文 献 7 中提出的以 p e 幼 网这种形式化的数学工具为基础的各种同步描述方法,如对象合 成p e tri 网 ( ocp n)、 扩 展的 对象 合 成p etri 网 区o c pn) 等 步, 提 供了 一 个一 般 性的 框 架, 允许 复杂同 步, 支持 对q o 5 的 控制, 是对现有各 种同 步 方式的 集成。 还有一 种 描 述方 法叫 分层同 步法143 , 它 是 把多 媒体对象 看成一 个树型 结 构, 由串 并行 演示子 树组成。 硕士论文多媒体通信中的音视频同步问题研究 2. 1 3 多媒体同步的控 制 同步 控制同 步控制机制主要是 依据同 步关系的 描述, 进 行数据传输的同步控制, 在发 现有同 步问 题时执行相应的 动作以 维持媒 体同 步。 目 前流行的同步 控制技术有 时 间 戳同 步 法 、 同 步 标 记 法 1401、 多 路复 用同 步 技 术 和 源 同 步 法 等 。 本 文 的 后 续 章 节 将将详细从信源、 信宿、 网 络传输三个角 度出 发来讨论如何更好的实 现媒体间以 及 媒体内的同步。 1 .信源同 步 控制 信源端同 步涉及 媒体数 据的 采集、压 缩和发送等环节, 采集步骤的首要目 的是 能够实时的获取语音及图像数据,数据量非常庞大,而实际上不是每一张视频采集 卡都可以实 现如此巨 量的实时数据采集。 当不能实时 采集时可以 采取两 种措施以 保 持音视频采集同 步, 其一是 丢帧, 其二是降 低采集分辨率或帧率。 一 般情况下, 音 频采集的数据量相对要少得多。 由于实时应用产生巨量数据,所以无论是存储还是通讯都必须对其进行压缩。 相对于视频压缩比 , 音频压缩的运算次数及复 杂度大的 多, 这必然会导致已 采集的 音视频经编码后发生音频先于视频的现象。而实际上,采集编码所产生的音视频延 迟差别是相对固定的, 其解决办法是在音频编码器和发送器之间插入一个延迟调节 装置,以求音 视频经编码后保持媒 体间的同步 输出。 此外,发送端还可以比较 根据 主从媒体流反馈信息中的一些数据例如相对时间标签来检测音视频之间的失步, 并 通过跳过/ 暂停发送视频帧来恢复音视频流媒体间同步。 发送端还可以根据反馈信息 估计将要发送的媒体单元在接收端最早和最迟的播放时间以及该媒体单元在发送 端最早和最迟的发送时间。 2 . 网络传输同步控制 网 络传输对同 步的控制有非常大的影响,多 媒体流 对网络传输要求较高, 在网 络传输过程中 ,多媒体数据可能 受到的 损伤包括四: ( 1)延迟 媒体数据 包从发 送端到接收 端所消耗的时间,延迟 越大, 接收端 越难 以同步。 (2) 丢 包 媒 体 数 据 包 在网 络 传 输 过 程中 丢 失 。 (3) 抖动 媒 体数据包延迟时间差别, 造 成语音或图 像不连续, 易引 起媒体内 失 去同步。 (4 ) 失 序 媒体数据包不按发 送顺 序到达 接收端,即先发后到或后发先到现象。 (5 ) 网 络条件变化 网 络条件的 变化是指网 络连接性质的 变化, 例如网络平均时延的改 变、时 延抖动的 变化和媒体单元丢失率的 增大等.因 此在播放起始时己经同步的 媒体 l 1 硕士论文 多媒体通信中的音视频同步问题研究 流,经过一段时 间后可能因网 络条件的 变化而失去媒体同 步。 对于音频流和视 频流,在发送端它们各自 的l d t j 之间是等时间间隔的,两个 流的 相关l d u 之 间 在时间 上也是对应的, 然而由 于各个l d u经历的网络延迟不同, 丢包率的差 异以及抖动的产生和失序的影响,再加上网络条件是不断变化的,则音频流和 视频流内 部l d u的 时间 关系出 现了 不连续, 两者之间的 对应关系也被破坏, 所 以 时延抖动会破坏媒体内 和媒体间的同步。时延抖 动通常是通过在接收端设置 播放缓冲区来补偿。 在有限 的传输带宽条件下,视频、音频的压缩编码、 传输 信 道和网络协议的选择、 以 及基于win d o w s 操作平台的软件实现成为了 基于网 络的流媒体数据流传输应用中的关键技术.其中,传输信道和网络协议的选择 至关重要,它将影响到多媒体数据流传输的实时 性能和通过网 络传输以 后客户 端接收的多媒体数据同步的效果。本文的算法针 对网络条件的变 化而引 起的 媒 体不同步进行了 一点的 研究。 3 .信宿同步控制 (1 ) 参考流的选择 一般的多媒体系统客户端的解码时,与数据采集端的压缩编码类 似,在一定时 间 段内 视频流需要解码的数据远 远多 于音频流解码的数据, 所以 音频解码所需要的 c pu 时间比 起视频 解码而言要少的多, 这样, 在解码的过程中 也会发生音视频失去 同 步的 情况, 鉴于此, 当 媒体间失 去同 步的时候, 我们要选定其中之一作为参考流, 以保证顺利的调整达到同步的状态. (2 ) 缓冲区的设定12 刀 通常实时多媒体数据传输都采用 u d p 方式收发。 重传手段不适合不可靠的数据 报服务, 如果发生 媒体数据包丢失,则 可以 采取填充上一单元数据或填零的方式来 维持同步。此外,延迟时间抖动是影响媒体同步的重要因素,目前常用的方法是在 接收 端设置缓冲区 来消除网络抖 动对同 步的 影响。 如何设计有效的缓冲区是实时多 媒体流同步的重要问题, 缓冲区 过小则不能抵消延 迟抖动, 甚至造成溢出而丢失数 据: 缓冲区过大则系统延迟增大, 且加重了 系统开销。 (3 ) 解码时延的引入四 网 络中的 时延是随机变化的, 那么解码器中的数 据就必须通过经过缓冲,以平 滑掉这种变化, 也就引入了 和解码器的 输入缓冲成比 例的时延。 (4 ) 在 接 收 端 排 队 等 待 进 入 显 示 图 像 线 程 和 播 放 音 频 线 程 的 时 延 的 引 入 四 在接受端, 排队 等待进入显示图像线程的时 延包括两个部分, 分别为与显示 线 程同 步的时延和在显示线程入口 排队的时 延, 进入播放声音线程的时延也包括两 个 部分, 分别为与播 放线 程同 步的 时延和在播放线 程入口 排队的时延。 其中, 前者都 是不受用户控制, 后者是受用户 控制的, 用于 缓冲媒体流, 实现同步播映产生的. 硕士论文多媒体通信中的音视频同步问题研究 同 步时延用来保证图 像和声音在一定的时间内 完成显示和播放 工作, 排队时 延是可 控的 用来弥补网络时 延的 变化, 也可以 使得时 延抖动 在可接受的 范围内。 (5 ) 重播、填 零与 丢帧 仅仅靠提高 p c性能并不能从根本上解决同步的问题,因为如果电脑同时在处 理其它事务 其性能 会降低, 从而影响 各个媒体数 据的同步。 播放网络多媒体流一般 存在三个方面的媒体间同步问题:其一,丢包或延迟情况特别严重, 从而导致数据 严重 不足, 可以 采用重复播放前一 单元数据或填零的方式 解决; 其二,网 络传输过 来的 超过缓冲区的门限,可以 采用 从丢 帧并 且重复播放前一单 元数据的方式解决: 其三,系 统其 它进程消耗大量资 源, 导致 视频解码难以 持续进行, 可以 采用从序列 中丢帧的方式解决。 2. 2 e d l播放器相关技术 2 .2 . i mci 技术 m ci媒体控制接口是m 流r o s 。 丘 提供的一组多媒体设备和文件的标准接口, 它 的好处是可以方便地控制绝大多数多媒体设备包括音频、视频、影碟、录像等多媒 体设备,而不需要知道它们的内部工作状况。 媒体控制 接口 伽edia c o 咖 i ln t e ri 触 c e , 下文中 均简 称 m c d 的目 的主要就是提供 一个高阶 层、一 般化的接口, 用来控制各种媒体周边装置。 m ci 及其 m ci 驱动程 序( d e vi ce蹦v er)v 万 n d o w s 中的角 色与地位如图2. 2 . 1 . 1 5: 图2. 2. 1 . i m ci与m c i 驱动程序间的 关系 在m ci 的 使用过程中, 使用者通过m m s y s tem中的m cl 函 数控制多媒体周 边设备, m m s y s t e m 会判断该由 哪个 mci 驱动 程序接受与执 行 m ci 命令。 而 m cl 驱动程序在收到 m m s y s t e m 的信息后,再负责直接控制硬件,或使用 硕 士 论 文 多媒体通信中的音视频同步问题研究 m m s y s tem所提供的 低阶api(a 即licationp ro gr an l m l n g lnte ri 触 c e ) , 并由 此ap i 去 调用驱动程 序完成控制的 动作。 m cl 的最大优点是应用系统与设备无关1 301, 对于标准多媒体设备安装相应的 m c idri ver , windo ws 即 可对该设备进行操作访问; 对于 非标准的多 媒体设 备,只 要有厂家提供所配的 mc idri v er也可以一样操作。由于 mcl 的设备无关性,程序 员在多媒体应用系统的开发中, 无需 了解每种产品细节,就能开发出通用的多媒体 应用系统。 应用程序 通过指 定一个 m cl 设备的类型来区 分不同的多媒体设备,设 备类型指明了设备的物理类型 mcl 的函数总共只有六个【 翔,利用这些函数就可以 传送信息或者命令字串 给 m cl装置( 实际 上就是驱动 程序)o m ci s e n d c olnmand o/ 传 送一 个命令信息给m cl d wo r dmc i s e n d c o n ” r 旧 口 d (uintw d e v i eeld , u intw me s , ig e , dwori )d wp a n u nl , d wo r dd w p ar 助应, ) 对于 m ci s e n d c o inln an d , 第一个参数指定了设 备标识, 这个 标识会在程序员打 开 m cl 设备时由系统 提供. 第二 个参数指定将如 何控制设备, 第三个参数为访问 标识, 第四个 参数一 般是一个 数据结 构,标识程序在访问m cl 时要的一些 信息。 m ci s en g d s n g o传送 一个命令字串 给mcl m ci g et d e 讨 ce ido获得一 个装置的id,此m 为目 前开 启中的m cl装置 mci g e t e rr o rs tr in g ( )由 一 个m cl错误 id值来得到 此m a错误的描述字串 mcis et 砚el dproco设定一个c ailb 3 c k 函数, 当m cl装置 执行一个w a i t 标志的 命 令在结束时候会调用此函数 mci g e t 肠 el d p r oc o获得一 个mci装置中目 前的c allb 朗 k 函 数位址 m c i 命令总共分为4 大类: ( 1)系统命令( s y st e mc o n u n and s ) 直接由m cl解释此类命令,然后去执行。 (2) 请求命令扭e q u i 代 dc onunands ) 此类命令可 取得多媒体设备的相关信息 或 令其设备开 启, 关闭等。 (3 ) 基本 命令仍as ic c 。 胡 d s ) 多媒体设备除开 启关闭外的 媒体 控制功能。 (4 ) 扩展 命 令 邝 x t el 记 edc o mmand s ) 扩 展 包含 两 个方 面, 一 是 特 殊多 媒 体 设 备 类 型的 扩展, 如a v 】 , 叭d eo disk等;二是请求命令 和基本命令的 扩展。 硕 士 论 文多媒体通信中的音视频同步问题研究 2. 2. 2 d i 作c tsh ow 技术 作为m cl 的 “ 接班人” , 微软又适时推出了建立在d ir e c t x之上的dir e c t s bow 技术,已 是 在 d ir e c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论