




已阅读5页,还剩74页未读, 继续免费阅读
(信号与信息处理专业论文)基于dsp的说话人定位跟踪系统的设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕七学何论文 摘要 随着科学技术的快速发展,基于d s p 技术的音视频信号处理成为了学术研 究巾的一个重要课题。其中,音频或视频技术对目标说话人的检测、定位和跟踪 日趋成为研究的一个重点。它在视频监控、视频会议,多媒体系统中都有着越来 越广泛的应用。但由于单模态视频在进行工作时,可能会因为光线不足导致视频 的定位跟踪不准确,或是失效;同样地,单一的音频技术对于目标说话人的定位 与跟踪,也可能因为较大的噪声或混响而产生性能的降低。针对出现的这一问题, 音视频融合技术应运而生。本文主要研究的是利用一种鲁棒的方法由音视频融合 信息对目标说话人进行定位与跟踪,并通过硬件平台进行实现。 论文首先对硬件平台及选取进行了介绍,并搭建了带有d m 6 4 3 7 处理芯片 并基于达芬奇( d a v i n c i ) 技术的d s p 硬件实验平台,为之后语音和视频信息的处 理及融合提供了良好的硬件环境的支持;其次,对音频信号时延估计方法所用模 型及算法做了深入的介绍,最终采用一种基于坐标系变换的空间声源定位方法对 目标进行音频定位。通过建立一个特定坐标系,将原有坐标系中的任意4 个麦克 风阵列坐标转换为新坐标中的3 个特定点和一个任意点的坐标,并进行声源坐标 的计算。此方法与传统的延时估计算法相比,有效的提高了定位的准确度,并且 在坐标转换之后使得运算量得到很大程度的简化。 之后,介绍卡尔曼滤波器及均值漂移( m e a ns h i f t ) 算法在视频信息中的应用。 实验验证各自方法的优缺点,并提出了使用卡尔曼滤波器结合均值漂移算法对目 标进行视频跟踪的方法,且通过实际操作证明该方法的鲁棒性。通过对硬件视频 子系统( v - a s s ) 中3 个主要寄存器( c c d c 、o s d 和v e n c ) 及t v p 5 1 4 6 寄存器的设 置,实现经过芯片d m 6 4 3 7 处理并在硬件平台上进行的视频采集与显示的功能。 最后,本文利用卡尔曼滤波器融合音频及视频信息,并将程序刻写入硬件开 发板,使之能独立运用音视频融合方法完成对目标说话人进行定位与跟踪。其优 点在于综合了视觉与听觉信息,降低单模态信息固有存在的不足在目标定位跟踪 时产生的误差,使两个模态信息能够彼此互补,从而更加准确、稳定的确定目标 说话人在空间的所在位置。 关键词:达芬奇技术;d s p ;v p s s ;跟踪;定位;信息融合 基于d s p 的说话人定位跟踪系统的设计 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fs c i e n c et e c h n o l o g y , t h es i g n a l sp r o c e s s i n go f a u d i oa n dv i d e ob a s e do nd s ph a sb e c o m eo n eo fi m p o r t a n ts u b j e c t si nt e c h n o l o g y r e s e a r c h i tb e c o m e so n ep o i n ti n c r e a s i n g l yt oa u d i oa n dv i d e ot e c h n o l o g yf o rs p e a k e r d e t e c t i o n 1 0 c a t i o n a n dt r a c k i n g a n di t sw i d e l yu s e di nt h ef i e l do fv i d e om o n i t o r i n g , v i d e om e e t i n ga n dm u l t is y s t e m h o w e v e r , v i d e o ,a ss i n g l em o d e ,c o u l dl e a dt os e v e r e e r r o ro fl o c a t i o na n dt r a c k i n gd u et ow e a kl i g h t e v e nd i s a b l e ;t h es a m et h i n gw o u l d h a p p e nt o a u d i oa sas i n g l em o d e ,w h i c hc o u l db eab i gc h a l l e n g ef o ra u d i o p e r f o r m a n c ed u ot oh i g l ln o i s ea n ds e v e r er e v e r b e r a t i o n f o rs o l v i n gt h i sp r o b l e m , a u d i oa n dv i d e of u s i o nt e c h n o l o g yc o m e su p t l l i sp a p e rs t u d i e sm a i n l yo nt a r g e t s p e a k e r sl o c a t i o na n dt r a c k i n gw i t ht h ew a y o fa u d i oa n dv i d e of u s i o nt e c h n o l o g y , a n dt h e np e r f o r m a n c eo nt h eh a r d w a r ep l a t f o m l f i r s t l y , w ei n t r o d u c et h eh a r d w a r ep l a t f o n n sa n dc h o o s eo n et y p e f o rt h e o p e r a t i o n t h e nt h ed s ph a r d w a r ep l a t f o mw i t ht h ec h i pd m 6 4 3 7b a s e do nd a v i n c i t e c h n o l o 盈yi se s t a b l i s h e da st h es u p p o r to fa u d i oa n dv i d e oi n f o r m a t i o np r o c e s s i n g a n df u s i o n ;s e c o n d l y , w ei n t r o d u c ed e e p l yt h em o d ea n da l g o r i t h mo ft i m ed e l a yo f a r r i v a l ( t d o a ) ,a n dp r e s e n tan e ww a yt h a tt h r e ed i m e n s i o n a la c o u s t i cl o c a t i o n a l g o r i t h mb a s e do nc o o r d i n a t ec o n v e r s i o ni su s e d i tc a l c u l a t et h es o u n ds o u r c e s c o o r d i n a t ei nan e wc o o r d i n a t ew h i c hi sc o n v e r t e df r o mo r i g i n a lc o o r d i n a t et h a tt h e f o u rm i c r o p h o n e sa r er a n d o m i nt h en e wc o o r d i n a t e t h r e em i c r o p h o n e sh a v et h e i r o w nf i x e dp o s i t i o na n dt h ef o u r t ho n e sp o s i t i o ni sr a n d o m t h e nt h es o u n ds o u r c e s c o o r d i n a t ei sc a l c u l a t e d c o m p a r e dw i t hr o u t i n et d o aa l g o r i t h m s ,t h i sm e t h o d i n c r e a s e sl o c a t i o np r e c i s i o ne f f e c t i v e l y , a n ds i m p l i f yt h ec o m p u t a t i o n a lc o m p l e x i t y a f t e rc o o r d i n a t ec o n v e r s i o n a n dt h e nk a l m a nf i l t e ra n dm e a ns h i l f ia l g o r i t h ma r e i n t r o d u c e di na p p l i c a t i o no fv i d e e a c c o r d i n gt ot h ee x p e r i m e n t , t h e i ra d v a n t a g e sa n d d i s a d v a n t a g e sa r ep r o v e d t h e r e f o r e ,t h em e t h o do ff u s i o no f k a l m a nf i l t e ra n dm e a n s h i f ta l g o r i t h mi sp r e s e n t , a n di sp r o v e di t sr o b u s t n e s sb ye x p e r i m e n t t h r o u g h c o n f i g u r i n gt h er e g i s t e r so fc c d c o s da n dv e n ci nv p s sa n ds e a i n gt v p 5 14 6 r e g i s t e r , i tw o r k st oc o l l e c t a n dd i s p l a yv i d e oo nh a r d w a r ep l a t f o r mb yc h i p d m 6 4 3 7 sp r o c e s s i n g f i n a l l y , w ef u s ea u d i oa n dv i d e os i g n a l sb yk a l m a nf i l t e r , a n d b u mt h ep r o g r a mt ot h eh a r d w a r ep a n e li no r d e rt om a k et h ep a n e ll o c a t ea n dt r a c k s p e a k e rt a r g e ti n d e p e n d e n t l y b yc o m b i n a t i o nb e t ha u d i oa n dv i d e o ,i t sa d v a n t a g ei s r e d u c et h ee r r o r sw h e ns i n g l em o d ei su s e dt ol o c a t ea n dt r a c k ,a n dm a k et w om o d e w o r kt o g e t h e ra n dg e tm o r ep r e c i s ea n dm o r es t a b l ep e r f o r m a n c eo fs p e a k e rt a r g e t l o c a t i o na n dt r a c k i n g k e yw o r d s :d a v i n c it e c h n o l o g y ;d s p ;v p s s ;t r a c k i n g ;l o c a t i o n ;i n f o r m a t i o n f u s i o n i i 硕十学位论文 插图索引 图2 1 达芬奇芯片d m 6 4 3 7 外观。l l 图2 2 达芬奇处理器发展图1 2 图2 3d m 6 4 3 7 媒体片系统功能框图1 3 图2 4 音频采集播放原理框图1 4 图2 5t l v 3 2 0 a i c 3 3 和t m s 3 2 0 d m 6 4 3 7 接u l5 图2 61 2 c 总线数据传输图【2 6 j 1 6 图2 7 音频采集播放流程图1 7 图2 8 视频采集模块硬件框图1 9 图2 9 视频数据驱动软件流程图2 0 图2 1 0 视频显示模块硬件框图2 1 图2 1 1 视频显示驱动流程图。2 2 图2 1 2c c s 调试管理器2 7 图2 1 3c c s 调试软件主界面2 8 图3 1 信号产生模型3 0 图3 2 广义互相关法求时延3 2 图3 3 互功率谱相位法求时延3 3 图3 4 自适应横向滤波器结构框图3 4 图3 5 自适应时延估计原理框图3 5 图4 1 离散k a l m a n 滤波器循环更新图4 3 图4 2 卡尔曼滤波器工作原理图4 4 图4 3m e a ns h i f t 示意图4 6 图4 4 ( a ) 单位均匀核函数;( b ) 单位高斯核函数4 7 图4 5 ( a ) 石;( b ) u j 石。4 7 图4 6k a l m a n 估计与m e a ns h i f t 搜索融合跟踪运动目标流程较图5 l 图4 7a ,b 视频序列跟踪比较5 2 图5 1 硬件平台设计图5 5 图5 2 开发板图5 6 图5 3e ld m 6 4 3 7 e v m 结构框图5 6 图5 4t d s 5 1 0u s b p i u s 仿真器5 7 图5 5e ld m 6 4 3 7 e v m 属性设置5 8 图5 6 子路径s u b p a t h0 端u 设置5 8 图5 7 图像坐标系5 9 图5 8 世界坐标系与摄像机坐标系6 l 图5 9k a l m a n 滤波器处理框图。6 3 图5 1 0 时间配准示意图6 5 图5 1l 三利,定位跟踪方法比较一6 7 图5 12 三种定位跟踪方法比较6 7 图5 13 三种定位跟踪方法比较6 8 硕十学何论文 第1 章绪论 1 1 课题的研究背景及意义 随着计算机技术的快速发展,目标说话人的定位与跟踪已成为人机交互领域 中的重要组成部分。在视频会议、安保防卫、普适计算等领域中都有着广泛的应 用。通过声音对一个目标进行定位或跟踪,是计算机语音信号处理技术领域中的 一个重要课题。与此同时,实现可视目标的定位或跟踪,则是计算机视频信号处 理技术中的核心问题之一。基于计算机技术进行的目标定位和跟踪,融合了现今 多个学科领域的专业理论知识、先进技术及科研成果,主要包括诸如数字信号处 理、现代信号处理、语音信号处理、模式识别等相关学科知识。 在基于智能环境的会议室中,我们希望能通过视频对目标说话人进行跟踪, 让其保持在有效的视角范围之内,并能过对目标说话人音频信号进行采集和处 理,通过获得高质量的语音信号,对其进行有效性更高的定位【i 】。智能环境中的 会议系统,可以通过摄像机和麦克风阵列对目标说话人进行视频信息和音频信号 的采集。本文将主要讨论,如何运用采集到的音频与视频信息并融合,来实现对 于目标说话人的定位与跟踪。 运用麦克风阵列对声源进行定位和运用视频对目标说话人进行跟踪的方法, 都是通过对其音频与视频信息的估计从而得到该说话人空间位置的【2 】。这种方法 已经成为目标说话人定位与跟踪问题的基本解决方法。但我们知道,利用单一的 音频或视频信息,得到的只是说话人的局部特征,且只有在环境条件相对较好、 较为稳定的情况下,才能达到较为理想的定位跟踪效果【3 】。倘若,遇到诸如光线 较暗、目标人物姿态变化及遮挡等因素的影响,视频的定位跟踪效果会受到很大 影响,难以适应复杂的动态环境。而基于麦克风阵列的定位方法,运算量低、具 有全方向定位能力,且在构建实时系统中容易实现。此外,即使在目标被物体遮 挡,说话人位于镜头以外的区域,只要有麦克风矩阵在其所处位置,就能对其位 置作出定位跟踪。但是,在遇到受背景噪声及室内混响等影响时,基于音频的定 位跟踪方法会因为音频信号质量下降,从而导致对目标定位与跟踪准确性的下 降。因此,鉴于智能会议场景的复杂性,如何提高对目标说话人定位跟踪的准确 性与鲁棒性,就成为了当下迫切需要解决的问题【4 】。 作为一个跨学科、有挑战性的研究课题,音视频融合信号处理涉及了许多学 科领域的知识,包括计算机视觉、数字图像处理、语音信号识别以及信息融合等 学科领。在日常生活中,人体的感知机能通过大脑把我们所看到的视觉信息和所 听到的音频信息进行整合,即使在嘈杂的环境中,我们也能以此对特定说话进行 基于d s p 的说话人定位跟踪系统的设计 准确的识别定位和跟踪。近些年,随着计算机技术的蓬勃发展,人们希望通过运 用计算机技术来代替自然人来完成这样的任务。于是,音视频融合技术应运而生, 并且在这个领域取得了丰硕的成果。人们充分得利用音频与视频在语音与图像上 的互补性与相关性,来完成智能环境中对目标说话人的定位与跟踪任务,且精度 不断提高,鲁棒性愈发优良。 1 2 国内外研究现状及发展综述 通过摄像头对人物进行跟踪图像的捕捉,主要运用计算机视觉的方法来实 现,如通过颜色、目标的轮廓等特征对目标进行跟踪。方法主要有卡尔曼滤波、 粒子滤波及基于内核的跟踪等一系列方法。采用这些方法得到的基于视频的跟踪 效果较之前有了很大的提高。虽然说这些方法能够提高视频跟踪的效果,但不可 避免的有它难以克服的缺点【5 h 丌。比如,由摄像机得到的图像信息很容易受到光 线变化的影响。当光线发生变化时,图像的亮度信息往往会受到不可避免的影响, 从而导致跟踪效果的下降,甚至是误跟。与此同时,在跟踪目标物的过程中,有 时还会遇到遮挡情况的出现,这给持续跟踪目标还来了很大难度。当被跟踪物体 被另一物体遮挡住时,会发生跟踪丢失的情况,而且当被跟踪物体移动出遮挡区 时,跟踪也不容易恢复【引。当然,我们也可以运用立体视觉的方法来解决上面叙 述中出现的问题,但又会出现另一个问题,那就是算法计算量变大,复杂性也随 之增高。 为了解决视觉单模态方法对人物跟踪方面的不足,近年来,人们开始探索其 他的方法来进行目标的跟踪。通过研究,我们得到这样的结果,对于一个人的定 位和跟踪,不仅依赖于视觉信息,在很大程度上还依赖音频信息,即目标所发出 的声音。通过音频信息与视频信息的融合,能在很大程度上使目标人物定位和跟 踪的准确性和鲁棒性得到提高,且效果明显【9 】。鉴于此,人们开始探索将声音纳 入对人物定位和跟踪的研究中来,并思考如何更好的将音频信息与视频信息融合 起来,对目标进行定位与跟踪【i o h l l 】。 通过声源信息定位的方法,是模仿人耳的原理实现的。在此基础上,人们研 究出利用麦克风阵列来对声源进行定位。通过麦克风接收到有差异的声音信号可 以估计到声源的方向。也可以对特定方向的声音定向采集。 在音视频信息融合的研究上,一些国外研究机构的研究起步较早,对说话人 的定位和跟踪有着深入的研究与探索。微软剑桥研究院采用了粒子滤波( p a r t i c l e f i l t e r s ) 的方法,将得到的音视频信息进行融合。实验表明,此方法适用于使用 单模态视频信息跟踪目标的情形。因为当日标移动过快时,单纯的视频跟踪有可 能跟不上目标,从而导致目标丢失【1 2 】。此时,若有音频信息的加入,能在若干 帧后恢复对原有目标的定位跟踪。德国e r l a n g e n n u r e m b e r g 大学远程通讯实验 室,运用卡尔曼滤波对一模拟铁道列车进行跟踪实验,结果表明音视频信息融合 2 硕士学何论文 后的效果优于单模态信息的效果【”】。瑞士d a l l em o l l e 感知人工智能研究所, d a n i e l 等人提出进步考虑音视频信息差异的融合方案,也就是在目标不规则、 不连续运动的情况下,提供相应目标音频信息。采用改进i m p o r t a n c ep a r t i c l ef i l t e r 方法对音视频信息进行融合;美国微软研究院的m a t t h e w 等人,利用隐变量和图 的方式来描述由麦克风阵列获取的音频信息,以及用摄像头获取的视频信息。 通过上述介绍的实验,我们知道,要将音频信息与视频信息融合,首先要选 择相应的融合工具。目前,普遍运用的方法有粒子滤波( p a r t i c l ef i l t e r ) 和卡尔曼 滤波( k a l m a nf i l t e r ) 。这两种方法主要包括采样点先验概率模型和得到后验概率 观察模型这两个部分,因此,要想在其中将音视频信息融合,可在先验概率模型 和观察模型这两部分进行融合【1 4 】。 一些国外的高校或研究机构在音视频信息融合方面起步较早,有瑞士的 c h i l ( c o m p u t e ri nt h eh u m a ni n t e r a c t i o nl o o p ) u 引、欧洲的a m i ( a u g m e n t e d m u l t i p a r t yi n t e r a c t i o n ) b 6 ,以及瑞士的i m 2 ( i n t e r a c t i v em u l t i m o d a li n f o r m a t i o n m a n a g e m e n t ) i t 7 】等等,一批具有很高科研水平的团队。在国内,一些大学和科研 机构经过这些年的不断努力与发展,在信息融合领域也取得了一些成果,如清华 大学徐光佑教授领导并建立的s m a r tc l a s s r o o m 系统【1 8 】、大连理工大学的金乃 高博士提出的一种基于动态贝叶斯网络的音视频联合说话人跟踪方法等等。 总的来说,国外关于音视频技术的研究因为时间长、经验足、投入大,所以 取得了丰富的成果。尤其是美国和欧洲的一些相关实验室和机构,他们专门从事 这方面的研究,所以在此领域里,产生了大量的技术理论,掌握了相当数目的核 心技术,获得了突破性的实践成果;在国内,由于对音视频技术关注度低,起步 较晚,投入不足,使得我国在此领域的研究不能与国外同行水平相提并论。不过, 在最近几年,相关单位机构开始重视并投入资金,使得一些高校及其实验室陆续 取得了突破性的进展,奠定了我国在此域的研究地位。为了能够达到国际先进水 平,还需要我们的研究人员做更多的理论分析和实践探索。 1 2 1 音频定位跟踪研究现状及方法 上世纪8 0 年代中期之前的语音处理信号研究中,主要运用的是单麦克风进 行语音信号的处理。但不久之后,出现了运用麦克风阵列处理语音信号的新方法。 提出这一新方法的,是来自美国新泽西罗格斯大学的f l a n a g a n 教授和来自美国 罗得岛州的s i l v e r r n a n 教授。他们开创了使用麦克风阵列对语音信号进行处理的 新局面。从此,有关这一新技术的研究和探索就成为了这一领域的热点,并出现 了很多相关的学术研究性论文及实际运用。它的运用非常广泛,可通过多路语音 信号对目标说话人的空间位置进行确定;同时,在智能会议室中、智能机器人、 语音识别等领域也有着广泛的应该用。与之前的单麦克风信号处理方法相比,这 种方法在运用多个麦克风接收语音信号时,具有更好的互补性能,这样对背景噪 3 基于d s p 的说话人定位跟踪系统的设计 声消除的性能能有明显的提升;此外,麦克风阵列的方法还能使语音得到增强, 对语音识别的效果也更好。此外,麦克风阵列可以对空间任意一个方向或一特定 方向进行语音信号的采集及处理,而单麦克风无法完成这样的工作【1 9 h 2 4 1 。 归纳起来,由麦克风阵列对声源进行定位的方法主要有三种:基于最大输出 功率可控波束形成技术,它是对传声器麦克风阵列接收的信号进行滤波和加权求 和,再控制麦克风阵列波束,使其指向是有最大输出功率的方向;基于声波到达 时间差技术( t d o a ) 2 5 】,它运用的原理是,通过说话人声源到达麦克风阵列不同 传声器的时间和时延差,对声源的位置做出确定;基于高分辨率窄间谱估计的定 位技术,能过计算麦克风阵列中各麦克风间的相关矩阵来对声源进行确定。 基于到达时间差( t d o a ) 声源定位方法,相较与上述另外两种定位方法,准 确度更高,而且在实际运用中,可以做到实时定位,且计算量适中,可以将其加 载在硬件平台上使用。它还有一个不同于其它两种方法的地方,就是它由两个步 骤来完成。第一步,在麦克风阵列中,对一个麦克风对里的两个麦克风间的延时 进行估计;第二步,搜索空间位置中的声源,满足之前构造的一个定位优化准则。 该定位方法的关键是第一步,即估计延时。一般来说,在受客观条件影响比较小 的情况下,如噪声、混响等,我们可运用简单广义互相关的方法( g c c ) 对延时进 行估计。倘若噪声和混响产生的影响很明显,那么,简单广义互相关方法,或者 加权广义互相关的方法就显得不太那么胜任延时估计的任务了。于是,需要对这 些方法进行改进,以期适应在复杂环境下还能正常工作的情况。改进后的相位互 相关方法,在对互相关函数峰值的处理上,发挥了进一步锐化的作用,从而在一 定程度上起到了抗混响的作用,且提高了估计延时的准确性。在麦克风阵列接收 信号互补性的基础上,b e n e s t y 提出多信道互相关系数( m c c c ) 的方法估计某两 个麦克风间的延时情况。此方法在一定程度上能够缓解噪声和混响在对抗中对延 时估计的影响,且提高了延时估计的性能,但在噪声与混响比较多变的情况下, 就显得不甚理想;与此同时,此方法对于麦克风的摆放位置有一定的要求。若这 种几何比较简单,效果良好;反之,则效果上有明显不足,最终影响延时估计的 准确性。h u a n g 等人提出一种基于自适应特征值分解的延时估计法,即a e d a 。 此种方法在消除混响影响方面表现很好。而m o o n e n 等人在此基础上,对基于 a e d a 的延时估计方法做了改进,使得抵抗混响的性能更强。但在另一个方面, 它对抗噪声的能力让人不甚满意,这也是此方法的不足之处。一些麦克风阵列被 放置成一个圆形,而l a t h o u d 在此基础上将其进行了扇区的划分。通过估计一个 语音信息帧的活跃度,再在相应扇区对应的立体空间中使用优化算法估计声源位 置。这个方法的优点在于,不需要采用复杂的算法消除噪声和混响的影响就能有 效的估计出声源的位置;而缺点是对反射后的声源,即伪声源不能有效处理。 4 硕十学付论文 1 2 2 视频定位跟踪研究现状及方法 基于视频对目标说话人进行定位和跟踪的方法主要有下列分类:1 ,基于核 的跟踪;2 ,基于偏微分方程的跟踪;3 ,基于统计学的跟踪;4 ,基于机器学习 的跟踪。本文采用了k a l m a n 预测与m e a ns h i f t 跟踪算法的方法完成视频目标定 位和跟踪的任务。以下对于两者作简要的简介。 1 9 6 0 年,卡尔曼发表了著名的运用递归方法,旨在解决离散数据线性滤波 问题之论文。之后,借助计算机技术的迅猛发展,卡尔曼滤波器成为了众多高校 和科研机构研究的重要方向。 在卡尔曼滤波器发展的过程中,斯坦利施密特( s t a n l e ys c h m i d t ) 首先实现 了卡尔曼滤波器。之后卡尔曼在美国宇航局埃姆斯研究中心访问时发现,他的方 法有助于解决阿波罗计划的轨道预测问题,并在后来的阿波罗飞船导航系统中运 用了这种滤波器。 对于一个需要跟踪的目标来说,无论在什么时候,它的位置、速度等值一般 都是有噪声的。而卡尔曼滤波器的作用就是,通过目标物体的运动信息,设法去 除这些噪声的影响,得到一个较好的目标位置估计。这个估计不仅可以为对当前 目标位置的估计,即滤波;也可以是对未来位置的一种估计,即预测。目前,卡 尔曼滤波器有多种不同的实现,最初提出的是我们现在称为简单卡尔曼滤波器的 设计。此外,还有施密特扩展滤波器、信息滤波器及其不同的变种。最常见的卡 尔曼滤波器是锁相环。它的优点在于,克服了维纳滤波理论的局限性,在工程中, 尤其是控制、导航、通信等现代工程方面都发挥着重要的作用。在定位跟踪方面, 它的优点在于,对线性运动的目标的跟踪具有良好的性能。准确性较强,精度较 高;但缺点在于若物体做不规则运动,非匀速运动时,它的性能将会大打折扣, 有时甚至会跟丢目标。为了解决这个问题,本文又引入了另一个算法,即m e a n s h i f t 算法。 作为基于核的跟踪的一种方法,均值漂移( m e a ns h i f t ) 受到了相关研究者的关 注。最早提出m e a ns h i f t 这一概念的是f u k u n a g 等人。经过几年的发展,c o m a n i e i u 等人将此算法运用到了视频目标跟踪这一领域,并提出了用b h a t t a c h a y a 系数来 计算目标与候选目标之间的匹配程度。实验证明,这一算法在视频跟踪方面,具 有较好的鲁棒性和实时性。此外,l e i c h t o r 等人在m e a ns h i f t 算法加入了图像边 缘信息的内容,z i v k o v i e 等人则提出了基于e m 算法的m e a ns h i f t 算法。传统 m e a ns h i f t 算法在目标模型与模板模型匹配中,用b h a t t a c h y a 系数对其度量。y a n g 利用拟牛顿方法避免h e s s i a n 的计算过程;f a s h i n g 证明m e a ns h i f t 是一二次有界 最优化的问题。m e a ns h i f t 算法还应用到了医学领域,实现了多目标的跟踪,以 及人体关节的跟踪。 基t - d s p 的说话人定位跟踪系统的设计 1 2 3 音视频联合定位跟踪研究现状及发展趋势 近年来,音视频信息融合技术被广泛的应用在目标的定位与跟踪上。两种单 模态信息都有着各自的优点,把它们联合起来,使得它们能够做到技术上的互补, 从而在目标定位跟踪的精度与鲁棒性较之先前的单模态技术有一个很大的进步。 音视频信息融合技术已经成当今研究的热门课题。上述两种方法都利用了两种模 态对目标进行定位和跟踪,但都是一种模态对另外一种模态进行引导,并没有完 全的发挥出双模态应有的性能。哈佛大学研究者w a n g ,以及瑞士的人工智能研 究所( i d i a p ) 开展的研究项目则是运用麦克风阵列确定观测目标的方向,然后再 利用视频信息对该目标做精确的定位。这样,双模态的性能就得到了更大的发挥, 且目标的定位跟踪会更加准确,鲁棒性也更好。同时,这种方法也能够适应在复 杂环境中对目标定位跟踪的工作要求。 德国纽伦堡大学的s p o r s 等人利用音视频信息对声源进行定位,再用卡尔曼 滤波器进行音视频信息的融合,从而得到最后的定位跟踪结果。国内相对于国外, 起步晚,资金不足,经验不丰富。但随着一批研究学者的努力研究,近几年也取 得了一些很有价值的成果。大连理工大学的金乃高博士以基于音视频信息融合 技术的人物跟踪及其应用为题,做了一系列的研究。清华大学成立了普适计算 机实验室,对信息融合技术进行研究。 1 3 研究内容及章节安排 单独采用视频信息对目标进行定位时,若遇到客观条件限制,如光线变化, 或有遮挡物体时,视频跟踪目标的方法的效果就会受到影响,有时甚至导致跟踪 的失败;而使用音频麦克风阵列来定位跟踪目标,就可以避免这些问题,看起来 音频麦克风阵列的方法能够解决视频跟踪中的问题,但它自身也有不足之处,是 不可避免的,如会受到噪声的影响等等。本文能过对两种单模态方式优缺点的分 析,采用音视频信息融合的方法来研究,对智能环境下目标说话人进行定位和跟 踪的研究。希望通过这种整合的方法,尽可能的减少单模态方式给工作带来的 不足。之后通过在硬件平台上的实际操作完成对音视频的实现。以下是本文章节 内容的安排: 第一章:简要介绍了对目标定位和跟踪的发展,对其意义做了简要的阐述。 通过对两种单模态方式的分析,引出去了音视频信息融合技术当下的发展与趋 势,并做了介绍。 第二章:介绍硬件平台的发展现状介绍并对硬件平台进行选定。分别对硬件 开发板音频部分和视频部分从原理、程序和配置进行详细说明,这后续实验做准 备。 6 硕十。何论文 第三章:就目前发展过程遇到的噪声,混响问题,对时延估计的方法分别从 模型、算法等方面做了介绍。接着介绍了基于坐标系变换的空间声源定位方法并 在硬件开发板上进行实际操作。 第四章:介绍关于卡尔曼滤波器的相关知识和m e a ns h i f t 算法在视频跟踪 上的应用。对其基本思想、滤波器原理,以及算法等做了详细介绍和分析。并通 过实验说明它在视频跟踪方面的优势与不足。 第五章:介绍基于音视频信息融合技术在智能环境下,对目标说话人的定位 跟踪。即使用音频对目标进行定位,而用视频对目标进行跟踪,最后将二者融合。 通过在实际硬件开发板上的操作,证明融合技术的优势与稳定。 7 基于d s p 的说话人定何跟踪系统的设计 第2 章系统硬件平台设计 对于语音通信来说,语音的采集与播放是前提,编码则是为了提高语音通信 的效率。语音定位系统主要应用于需要对音频信号进行分析处理的实际场合。于 是,为了能够在实际环境中处理并完成语音采集和播放的功能,就需要搭建一个 合理的硬件平台来实现:同样,对于视频通信,也需要进行与音频信息采集相似 的步骤,由摄像头采集视频信号,再对视频信号进行预处理、模数转换、编解码 等一系列操作。在此,我们主要围绕基于达芬奇d v e v m 开发板进行对程序的 设计和开发研究工作。 本章首先从系统硬件平台的搭建、信号的采集和开发环境做介绍,之后对基 于达芬奇d v e v m 开发板进行音频采集的芯片a i c 3 3 、播放、多通道缓冲口 ( m c b s p ) 通信接口、模式控制,以及视频处理系统模块中的视频处理前端( v p f e ) 与视频处理后端( v p b e ) 模块在预处理、模数变换、编码等方面进行阐述。结合 软件c c s ( c o d ec o m p o s e rs t u d i o ) 对程序的设计与调试,实现音频、视频信号在 硬件平台上的采集与播放,并为之后的信息融合做准备。 2 1 硬件处理平台的要求 硬件平台的主要作用是对音频信息和视频信息进行采集、处理和传输。这些 功能的实现势必会对计算资源有很大的需求。由于程序复杂,计算量大,功能单 一的处理器很难对上述工作很好的完成,必须采用处理数据能力更强的嵌入式处 理器,这样才能较好的解决音视频数据及系统控制等问题。 根据实际实验对硬件平台的需求,我们应当选取具有以下特点的开发板进行 实验操作: 1 多接口、多扩展 本实验需要对音频、视频信息进行处理,所以需要采用具有音频处理模块以 及视频处理模块的模块化开发板,具有为实验提供丰富接口及扩展的能力。 2 高集成化 实验所需的开发板应具有小而精的结构,并减少外围元器件的数量,使整个 系统的体积和重量都控制在一个合理的范围之内,此外,也便于运输及携带。 3 高效的处理能力 要完成声源定位、视频预处理、模式转换和语音增强等功能,需要一个具有 高效运算能力和多媒体处理能力芯片的开发板,以满足多模态带来的复杂数据处 理的要求。 4 低功耗 由于实验尽可能的采用体积较小,运算能力较高的开发板,为了能够适应在 8 硕十学何论文 不同环境条件下正常工作的需求,我们需要对系统的功耗进行一定的限定,尤其 是对核心处理器的耗能控制;同时,也能够延长器件的工作寿命。 2 2 硬件处理平台的现状 随着电子产品技术的飞速发展,基于音视频的嵌入式多媒体解决方案也呈现 快速发展的态势,不同类型的嵌入式处理平台不断出品。目前,主流的多媒体解 决方案有下列三种: 1 基于x 8 6 架构嵌入式平台 基于x 8 6 架构的平台有着友好的开发环境、运用范围广、匹配软件众多且 具有小型化、能耗等特点。在此平台上的嵌入式应用已成为可能。 2 基于m i p s 架构处理器 此类处理器以中科院计算所研制的“中国芯为代表。此处理器有三个系列: 龙芯l 号,主要面向嵌入式应用;龙芯2 号,其口系列以及超标题处理器以桌 面应用为主要面向对象;龙芯3 号,多核处理器,主要面向服务器以及高性能机 的应用。 3 基于a r m 的p m p 处理器的代表性芯片可分为如下三类: ( 1 ) ,单处理器解决方案。如t i 公司的c 6 0 0 0 系列,英特尔公司的p x a 2 5 x , 以及三星公司的$ 3 c 2 4 1 0 芯片。这类芯片能够完成图像处理,及音频编解码等 任务,但其中有些产品会对系统运行速度和其性能有所影响。 ( 2 ) ,f p g a 和处理器相结合方案。这类产品包括p h i l i p s 公司生产的 p n x l 5 0 0 1 7 0 0 产品系列。它作为媒体处理器,性能表现优秀。 ( 3 ) ,双处理器( d s p 和a r m ) 解决方案。这类产品有o m a p 3 4 3 0 ,a d i 公司生 产的b f 5 3 3 5 6 1 ,以及我国深圳海丝半导体公司出产的h i 3 5 1 0 等。它们由d s p 对音视频进行编解码,用别一个c p u 对系统进行控制。 通过下表,可对这三类芯片的优缺点进行对比,如表2 1 所示。 表2 1 芯片表 方案芯片名称主要优势缺点公司名称 主频可达 6 2 4 m h z ,软件成本高且需要外部英特尔 p x a 2 5 x 升级后可支持d s p 控制 ( i n t e l ) 更多编码 a m b a 总线, a r m 9 2 0 t 内 主频仅为 单处理器核,h a r v a r d 2 0 0 m h z 2 6 6 m h z , c a c h e ,m m u :三星 s 3 c 2 4 1 0 通过a r m 进行解 节省成本,配有 码,处理图像时连续 ( s a r n s u n g ) c t o s 及开发 性差,不流畅 扩展接口 a m i 1 2 0 c 6 0 0 0主频最高可达仅基于d s p ,单一处德州仪器 9 基y - d s p 的说话人定位跟踪系统的设计 1 g h z ,浮点运理器,不能录制电视 ( t i ) 算,具有超长指 令字( v l i w ) 结 构,支持d 1 解 析度的h 2 6 4 视频编码,具有 最新视频处理 子系统( v p s s ) 可运行完整音 视频并具联网 功能,成本较前 代产品降低 5 0 ,信价比高 芯片技术成熟, 处理器和 p n x l 5 0 0 视频处理单位 功耗过大,不适于携飞利浦 丰昌,共伺 f p g ap n x l 7 0 0带及小型化设计 ( p h i l i p s ) h 2 6 4 视频编 解码优化技术 h 2 6 4 视频编处理器只可处理 海丝半导 h i 3 5 1 0 解码,音频编解h 2 6 4 ,不能进行其 码,硬件加速他类型运算 体 b f 5 3 3 动态电源管理,控制功能与信号处 a d i 双处理器 b f 5 6 l功耗低理集成复杂 ( d s p + a r m )支持多种媒体 d m 6 4 4 6 类型,编解码性需要大量相关软件 德州仪器 能出色,可录制编程工作,操作复杂 o m a p 3 4 3 0 ( t i ) 视频,d v d 编不易上手 码,功耗低 2 3 信息采集处理平台的选定 上一了介绍了三种主流的多媒体解决方案,它们各有优缺点,运用的范围和 领域也因着性能有所差别。通过对以上几种实现方案的分析,并结合本文所要实 现的工作,在此选择了上表中所介绍的单处理器中的一款作为本文工程的解决方 案,即选取德州仪器c 6 0 0 0 系列中的加载了d m 6 4 3 7 芯片的开发板,进行研究 分析。下面详细介绍达芬奇系列中这款芯片的特点,并进一步论证这款产品在本 实验中有很好的适用性。下图为达芬奇芯片d m 6 4 3 7 外观。 1 0 硕十学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 分公司股权合同标准文本
- 办公维修合同标准文本
- 自动柜员机(ATM机)企业ESG实践与创新战略研究报告
- 电子显微镜企业ESG实践与创新战略研究报告
- 有线通信测量仪器企业县域市场拓展与下沉战略研究报告
- 再生粗铜企业数字化转型与智慧升级战略研究报告
- 电离风速计企业县域市场拓展与下沉战略研究报告
- 网围栏企业县域市场拓展与下沉战略研究报告
- 发刷企业数字化转型与智慧升级战略研究报告
- 剃齿刀企业ESG实践与创新战略研究报告
- 年度广告物料制作安装 投标方案(技术方案)
- 中国糖尿病血酮监测专家共识
- 2024年辽宁高考地理真题试题(原卷版+含解析)
- 第16课 经济危机与资本主义国家的应对(课件)-【中职专用】《世界历史》(同课异构)(高教版2023基础模块)
- 广州市白云区金广实验学校2022-2023学年七年级下学期期中考试英语试题
- HJ 997-2018 土壤和沉积物 醛、酮类化合物的测定 高效液相色谱法(正式版)
- 俄罗斯介绍模板
- 50以内加减法练习题
- 全民国家安全教育日培训课件模板(可编辑)
- 江苏省盐城市建湖县2023-2024学年七年级下学期期中语文试题
- 印刷厂常用生产工艺、设备作业指导书一整套
评论
0/150
提交评论