版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-word-word资料•人机交互基础教程实验报告卖验題目:多通遒用户界面设计技术综述专学生姓班级学教指导单业 计算机科学与技术名 师 住 计算机软件学院期
菽评番敬师签名:年 月 町成评备6L一、 宾缺目的1) 了鮮常见的多通道用户界面2) 查找资料,熟悉一种多通道用户界面并写出综述二、 预备知枳为适应目前和未来的计算机糸统要求,人机界而应能支持时麦媒体,实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径。80年代后期以来,多通道用户界面成为人机交互技术研允的崭新领域,在国内外受到需度重视。综合采用视线、语音、手势等新的交互通道、设备和交互技术,使用户利用多个通道以旨然、并行、协作的方式进行人机对话,通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提壽人机交互的自然性和壽效性。多通道用户界面主要关注人机界面中用户向计算机输入传息以及计算机对用户意图的理鮮,所要达到的目栋可归纳为如下方面:1)交互的自然性使用户尽可能多地利用己有的目常技能与计算机交互,阵低认识负持。2)交互的壽效性使人机通讯传息交换乐吐量臾大、形式灵丰當,发挥人机彼此不同的认知潜力。3)与传统的用户界面特别是广泛流行的WIMP/GUI兼彖。(1) 多通道用户界面的基本将点1) 使用多个威觉和效应通道2) 允许非精确的交互3) 三维和直接襟纵4) 交互的玖向性5) 交互的隐含性(2) 莎及的圭要技术1) 多媒体使用多种表示媒体,如丈本、图形、图像和步咅,使人机交互技术最终要向着臾接近于人的自然方式发畏,使计算机具有听觉和视觉,以更自然的方式与人交互。多媒体技术引入了动色、咅频、视频等动态媒体,大大丰富了计算机表现估息的形式,拓宽了计算机输出的带宽,提需了用户接受传息的赦率,使人们可以得到灵直观的传息,从而简化了用户的捺作,犷畏了应用范围。2) 虚拟现实又称虚拟环境,虚拟现卖糸统向用户提供沉浸和多威觉通道体验。往虚拟现实中,人是主动参与者,复杂糸统中可能有许多参与者共同亦以计算机网络糸统为基础的虚拟环境中协同工作。虚拟现卖糸统具有三个重要特点:沉浸感、交互性、枸想性。3) 眼动跟踪与视觉有关的人机交互自始至终都富不开视线的控制。如果能通过用户的视线灯着感兴趣的目栋,计算机便“自动”將光栋置于其上,人机交互将更为直棲,也省去了上述交互过程中的大部分步骤。4) 手势识别一个简单的手势蕴涵着丰富的传息,人与人可以通过手势传达丸量的传息,实现爲速的通估。将■手势运用于计算机能够很好地改善人机交互的数率。亦多数情况下我们笼统地认为手势是人的上肢(包括手脣、手和手指)的运动状态。5) 三维输入许多应用(如虚拟现卖糸统)需要三维空间定住技术,三维空间控制彖的共同特点是具有六个自由度,分别描述三维对象的宽度、深度、壽度、俯仰角、转动角、偏转角。通过投制这六个参数,用户可以在屛幕上平移三维对象或光标,也可沿三个坐标轴转动三维对象。在三维用户交互中必•须便于用户在三维空问中观矗、比较、操作、改雯三维空间的状态。6) 语咅识别语咅识别是计算机通过枳别和理鮮过程把语音侑号转变为相应的丈本文件或命令的技术。语音识别又是一门交又学科,它与步学、语音学、语言学、数字估号处理理论、估息论、计算机科学等众多学科紧密相连。7) 表情枳别面部表情是人体语t•的一部分。人的面部表情不是孤立的,它£情绪之间存在着千丝万缕的朕糸。人的各种情绪变化以及对冷热的感就都是非常复杂的需级神经活动,如何感知、记录、识别这些麦化过程是表情识别的关键。8) 手写识别发展手写识别技术并嵌:入到各种设备中,将•是手写识别技术未来发展的重要方向之一。朕机手写识别技术的优点是不需专门学习与训练、不必、记忆编码规则、妄就后用可手写输入汉字,是最简单方便的输入方式。同肘符合人的书写习惯,可以一面思考、一面书写,不会打断思维的连续性,是最自然的输入方式。9) 数字墨水数字墨水是一种新的人机界面技术,它倍鉴手写识别技术的同肘,克服了它的许多局限性。教字墨水在数学上是通过三阶贝瘪余曲线来描述笔输入的笔迹,它的记录格式与图像和文本格式都不同。这种存储方式使得数字墨水文件的大小很小,从而可以更有数地进行存储。宾脸内束与步霖(1)卖验内彖要求上网查找资料,熟悉一种多通道用户界面并写出综述,可以是眼动跟琼、手势识别、三维输入、语音识别、恙情识别、手写识别等。⑵卖验步骤1) 倍助图书馆的中英丈参考文执资料以及网络,确定出一种多通道用户界面;2) 完成对该多通道用户界面的综述(包括定义、发展%史、当前的应用、主要的硏兗方法分类、以及发展侖曇以及中英•文参考文故(至少各5篇丿)囁音环死下的语咅识别1.引*随舟祝会的不浙进步和科枝的飞遠发喪,计算机对人们的帮切越来越丸,成为了人们不可缺少的好助手,但是-直以来人们都是通过键盘.魚标寻和它遗行通信,这限制了人与计算机之间的交流,灵限制了请费人埒。为了能让多欽人甚至是戎疾人都能使用计算机.让计算机能听懂人的语言,理瞬人们的意图,人们开好了对语咅识别的研克.语音识别是语音学与数字传号处理枝术相结合的一门交又学科,它和认知学.心理学.语y计算机科学.楼式识别和人工智能*学科都有密切关糸。2•语咅识别的发役历史和研丸现秋2.1国外语音帜别的发展状况国外的语咅识别是从1952年贝金卖脸宝的Davis等人研制的特主说话人於立数字谅别糸统开始的。20世纪60年代.日本的很多研丸者开发了相关的特球硬件来进行语音识别RCA卖睑左的Martin寻人为鮮决语音传号时间尺度不统一的问题,开发了一糸刃的肘问归正方出,朋显地改鸟了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方比解决鬲个语音的时闻对准问幾,这是动态时间杏折算法DTW(dymmictimewarping)的墓础,也是其连续词识别算比的初级扳。20世纪70年代,人工智能技术走入语音帜别的研丸中来.人们对语音识别的研克也取得了突破性遗展.线性预测编码技术也彼犷展应用刊语音识别中,D7W也晟本成熟。20世纪80年代,语咅识别研丸的一个重要进畏,就是识别算比从旅丸龙配技术转向駅于疣计楼型的技术,JL多地追求从整体统计的角度来建立呆佳的语音识别糸统。隐马金可夫核世(hiddenMarkovmodeL刪)枝术就是其中一个典空技术。刪的研丸後丸词汇量连续语咅识别糸统的开发成为可能。20世纪90年代,人工神经阿络(artificialneuralnetwork,ANN)也彼应用到语音钗别的研克中,并使相应的研克工作疫按空的细化.多数的提取和优化以及糸统的<1迨应技术等方而取得了一些关键性的进喪,此对.语咅识别枝术进一步成就,并走窗实用。许多发达国家,如英国.日本.韩国,已经IBM、Microsoft.Apple、AT&T.Nrr寻箸名公司都为语咅识别糸统的宾用化开发研丸投以巨济。生今,晟于HMM和ANN相结仝的方法得到了广泛的重视。而一些栈丸识别.机森学习方面的新技术也彼应用到语咅识别过程中,如支特向量机(supportvectormachine,SVM)技术.进化算出(evolutionarycomputation)技术等。2.2国内语音帜别的发展状况20世纪50年代我国就有人去洪用电子管电珞遗行元咅识别,到70年代才由中科紀定学所开始进行计算机语音识别的研克.80年代开始,很多学者和单住洪与列语咅谅别的研克中来.也开展了从浚初的特定人.小词汇量於立词识别,刊非特支人、大词汇量连续语咅钗别的研克工作.80年代未,以汉语全音节识别作为主攻方向的研丸己经取得了相生大的进展,一些汉语语音綸入糸统己綾衙卖用化iii£o90年代j凹达技术开发中心和哈金址工业大•李金作推出了具有自然语言理解能力的新2、淮_国家“863”计划的支持下.请华大学和中科晓<1动化所等单住"语听写机虑理眸机的研制方面开展了卓冇成效的研丸.经过60多年的发展,语音识别技术己经得到了很大发展,对于语咅识别的研克也达刊了相务爲的水平.并在实睑蚩环境下能达刊很好的识别政果。但是,在实际应用中,噪步以及冬种因素的彩响,使语音识别糸统的性能大恪度下降,很难达到让人満克的效果。因此,对噪步环境下的语咅识别的研丸有舟异常重要的理论价值和现实意义.为鮮决嗓步环疣下•识别语咅的特征参数和楼瓶库中的特征不必紀的问題我们必须想办法荫除嗓步对语音苗征多数的彩响,根据语音识别过程可知,冇以下三种方比:假定语音核板和背景噪步无关,即无论是淸晰语音还是带噪语咅,都用同一套核板来识别.在这科情况下,重点疫帜别阶段.从帯嗓语咅中提取出抗噪的持征参数或者釆取抗噪宗的失真测度.心语咅的谅别阶段,语咅识别糸妮加一个術端处理,从带噪语音中灵取出純净语音,畝后再提取语咅的特征多数.这种方法钱称为语音增强。在语音识别阶段,根据识别现场的环境嗓定对语音核板进行变换,使之接近根握现场带噪语音训练而成的语咅核板.这种方出称为语音核板的嗓步补褛.无论使用哪种方出谄徐噪步,我们首丸要了解噪步。根据噪步对语咅频藩的干扰方无不同可以把嗓声分为加性嗓声和乘性噪宗両类.2.3语音增强方法由于嗥宗的种类很多,特性并不兜全相同,因此针对各类嗓步必须釆取不同的语音增強方比。一直以来,人们都疫加性噪步的糅世上进行研克,灵出了冬种语音增强算比,总的来说可分为三类:笫一类赴对城方出,例如晟于奏数和橈型的方比[3〜4].孑空间的方法[5〜6]寻;弟二类是频城方比,例如减谱出[7〜9].fl适应遠波比[11],以及塞于马余可夫楼型追波方出[12]等;笫三类是其它方出,例如小波支换出、听觉掩狡比等。2.4肘城方法1.墓于洪数和橈型的方比。塞于茨数和糅型的方比通常冇両大类[10]:分析合成法和利用谊波森进行遮波处理的方比。祈者是把步道核型看作一个全极点遮波余,采用线性预測分析得列追波容的茨数。通过从帯嗓语音中准确估计橈童的参数来合成干净的语音,这科方出关键在于如何从帯噪语咅中准确地仕计语音楼型的参散(色据激励奏数和声道多数)。后者則是考虑到激励参散难以准确估计,釆用只利用步道洪數构度遮波森进行遮波处理。而疫低信嗓比下,很难对楼童洪救进行准确仕计,并且此类方比往往因需要迭代而增加算比的复杂夂。A卖际应用中冇肘也令把両“并蛊一起扣互补芫。具体来说主要冇以下几科方比。(1)呆大后验規半牯计出呆大后验概率仕计比是杷语咅看作一个全奴点的栈空,祈丸依据呆丸后验概率准刪仕计LPC线性帝测参数,然后根据LPC参数的功率谱来构逡一个非因采的维纳遠波森对带嗓语音信号进行谊波,通过多次迭代直刊满足预先设沱的园值为止。此种算法适用于壽斯令嗓定。它在一岌程度上能谄除嗥步,提為传噤比。但是由于维纳谊波森只能农平稳条件下才能保证呆小均方谖差意义下的呆优仕计,而语咅和背景嗓咅的非平緩性,会导欢呆优仕计的谖差。而且采用维纳谑、波也没冇兜全利用语音的生成栈空,增强后的语咅冷冇不悦耳的宗咅。⑵卡金曼德波比[1,3]卡金曼址波A—岌程度上可以歸补维纳追波引起的谖差。因为它是晟于语咅生成椽型的,且A非平後条件下也可以保证呆小均为谋差慧义下的亲优,it用于非平務噪步干犹下的语音增强。卡金曼遮波通过引入卡余曼传息,将要鮮决的遮波与预测的混合问題转化为純诲波和純预测而个独立的问題来考虑迸.行语音增强。卡金曼追波的优点是噪宗淮.平施和非平稳倩况下都能使用,能在不同稅皮上谄徐嗥步,提壽信噪比,其缺点赴计算量大,常要假设LPC生成核世的激励源为自噪宗源并且只在请音段才成立,主观试听发现该方出对语音凌成了一岌的航伤。(3)杭状追波乐比[1]语音传号迪音段右朗显周期性的苗点,可釆用杭状遮波森来提取语音分量,加制噪声。杭状遮波森的输出传号是输入传号的延肘加权和的平均值,生延对与传号的駅音周期一致时,这个平均过程使周期性分量加强,而非周期分量戎周期不同于传号的其他周期分量彼抑制戎请除。这科方出的关键是要:隹确仕计出语音传号的基音周期。在基咅变化的过减段和强嗓声背景干扰下无比精确估计时,方法的应用受到限制。这种方法一般也只it用于平後的非自噪步。2.5孑■•空间的方法疫孑空间出中,大量实睑表刖,语音矣量的协方差阵有很多零特枉值,这说朗干净语音传号矣量的能量只分布在它对应空间的总个子集中。而噪步的方差通常都假设已知且严格正岌,这说刈噪步矣量存A于整个带嗓语音传号张成的空间中。因此,带噪语咅信号的矢量咗间可以认为由一个信号与加嗓步的孑空间和一个純噪步子空间构成。孑空间出就是将帯嗓步语音传号分鮮为正交的信号加嗓步子空间和噪步子空间,对纯净语音传号的仕计可以将嗓步孑空间中的信号舍齐,只保紆传号子空间中的传号,来预测干净的语咅以达列ff噪的目的。子杳间比的优6是有效地去除带嗓语咅中的背景噪步,使语咅的施量和可懂度都冇轶丸的提离,但是计算量较丸,因此心快速计算中该方由谢要进一步研丸。2.6频城方也语音传号的短肘藩具冇轶强的相关性,而嗓声的询后相关性很弱,因此可以利用短时藩仕计的方法从带嗓语咅中估计虑始语音。同对人耳对语音相住感受不牧感,可将仕计的对象放在怨对谱的懾度上。典型的方法冇藩减法[7].维纳遠波法[8].短时诫幅度的MMSE仕计[9].勺迨应遮波出等。仁诫减床藩减出是疫假岌加性噪步与短对平緩的语音信号相互独立的条件下,从带噪语咅的功半藩中减去噪步功率诫,从而得到较为“純净”的语音频常。它的优点是运算量小,彖易卖肘卖现,增强敗果也较好。但是也存淮.一岌的缺陷,诫减出是一种呆犬後魅仕计,没冇对语音频潘的分布进行假设,而语音频谱分量的悟度对人耳的听觉是呆重要的。因此谱减出进行增强处理后,会带来咅乐噪步,不仅使听者疫听觉效果上产生一岌的干扰彩响,还影响后续处理,如语音编码等。诫减出通常包据冇线性潘减比.非线性常减比和概率藩减法。2•维纳遮波出维纳追波空旻在呆小均方准则下卖现对语音传号仕计的一科追波赛。对于带噪语音传号,确岌谊波爰的冲击响应,使得帯嗓语音信号经过该谊波赛后得刊呆接近于“纯净”的语音信号。采用维纳垃波的好处是增强后的戎需嗓步类似于自噪步,而不是冇节奏起伏的音乐噪宗。维纳遮波是平稳条件下对域波形的呆小均方快差:隹則仕计。由于没有考虑列语音频藩分量的恪度对人的听免呆重要,因此采用维纳址波来增强语咅存亦一灾的抉陷。3•短时潘槪皮的呆小均方谖差(MMSE)仕计法针对特岌的失真准刪和后睑規率不欽感的特性,利用已知的噪步功率藩信息,从借噪语音怨肘谱中仕计出“純净”语音短肘诫,达到语音增强的目的。对于语音短肘锚幅度的分布,通常通过两科涂後解决:一是假设一个合理的概率分布侯世;另一个则是通过实际统计的方出去荻得。为此,假设语音频诫分布为壽斯分布,并在此假设下推导MMSE袪计公丸,然后讨论卖际分布情况。另外,可以利用扣邻帧间频率点传息的相关性,对生诉輪频半点的频毎幅度值进行估计,这就是蔓于帧间频诫分布约束的MMSE仕计方法。又因为人耳对步音强度的威受是与诫幅度的对数成正比的,因此疫戍理语音诺悟度时,采用对数失真准则灵为迨合一些,将上述AAMSE仕计式进行推广,得到频域分布约束下的短对对数藩的MMSE仕计。短时谱槪夂的MMSE仕计噪和灵爲语咅可懂度方而进行了折衷,迨用信嗓比的范谢较广,但是计算量较丸,而且语咅频谱的先验分布荻得疫很大程度上要取决于统计结果的代表性.重现性等。4.fl迨应遠波比以均方谖差戎方差浚小为准刪,对嗓宗传号进行黃优仕计,皱后从带噪语咅中减去噪步达列阵噪,提為传噤比,增强语音的目的。生输入传号的统计特性未知,或者榆入信号的统计苗性变化时丄迨应遮波森能够勺动地迭代调节<1身的追波容参数,以满足茎种准則的要求,从而卖现聂优谊波。因此用追应追波森具冇“自我调节”和“跟踪”能力。此方比的关键是如何得列带噪语咅中的噪步。疫多步道釆集糸统中,两个话简间要冇一沱的距窗,因而实肘采集的两瘩传号的噪步不同,而且还受刊凹步及其他可变曩减特性的影响。疫用单步道糸统来采集带噪语音肘,必须疫语音间欧期间利用釆集到的噪定进行估值,如果噪步是非平轅的,会严重影响语咅的增强效果,另一个缺点是增強后的语音中含有期显的“音乐噪声”。5•隐马金可夫棋型出可以采用駅于状态杳间的支换方法,对不同类别的语音和噪步传号建立不同的楼型。HMM的冬个状态可以对帯嗓传号、噪步信号所有不同的区域进行充分的朮誤,将带嗓传号中的噪步信号部分去除就可得刊语音的增强,每至于豈只有带噪传号的倩况下,利用HMM对状态转移概率进行建爆,将可能为嗓声的传号部分追除就可以做刊语音增强。但是这科方比,在只有帯噪传号的侑况下要正确分类,准确袪计嗓步会冇~走的朕盖02.7其它方出随舟传号处理的理论和技术不新发喪兜季,涌现出许多的新方出,如小波支换[13〜14].神经阿络[15]•听觉掩抜[16].分形理论[17]等。多考丈故:[1]杨行峻,迟患生样.语音传号数字处理[M]•北京:削子工业出版込1995.[2]赳力.语咅信号丈理[M]・北京:机械工业出版技,2003.[3]GannotS,BurshteinD,V/einsteinE・Iterativeandse2quentialKalmanfilter2basedspeechenhancementalgo2rithms[J]・IEEETransSpeechandAudioProcess,1998,6(4):3732385.[4]KinJB,LeeKY,LeeCW.Ontheapplicationsoftheinteractingmultiplemodelalgorithmforenhancingnoisyspeech[J]・IEEETransSpeechandAudioProcess,2000,8(3):3492352.[5]YEphraim,HLVTrees・Asignalsubspaceapproachforspeechenhancement[J].IEEETrans.SpeechandAudioProcessing,1995,3(7):2512266.[6]FJabloun,BChampagne・Amulti-microphonesignalsubspaceapproachforspeechenhancement[A].InProc.IEEEICASSP01[C].2001.2052208.[7]BollS・Suppressionofacousticnoiseinspeechusingspec2tralsubtraction[J].IEEETransonAcousticSpeechandSignalProcessing,1979,27(2):1132120. [8]NingpingFan・Lowdistortionspeechdenoisingusingana2daptiveparametricV/ienerfilter[A]・IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP)[C].2004,1:122309・[9]Ephra
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度专业演出场地租赁及活动策划服务协议3篇
- 2025年度码头货物短途运输及环保处理服务合同4篇
- 2024-2025学年高中历史第五单元近现代中国的先进思想第20课西学东渐课后习题含解析岳麓版必修3
- 二零二五版生态修复工程承揽合同模板-施工与生态保护2篇
- 2025年度门卫人员安全教育与聘用合同
- 2024版派遣员工合同样本2篇
- 2025版高端商务办公空间租赁合同4篇
- 2024码头场地租赁合同
- 2024版天然气安全运输合同
- 2024铁路旅客运输服务质量监督合同3篇
- 运输供应商年度评价表
- 机械点检员职业技能知识考试题库与答案(900题)
- 成熙高级英语听力脚本
- 北京语言大学保卫处管理岗位工作人员招考聘用【共500题附答案解析】模拟试卷
- 肺癌的诊治指南课件
- 人教版七年级下册数学全册完整版课件
- 商场装修改造施工组织设计
- (中职)Dreamweaver-CC网页设计与制作(3版)电子课件(完整版)
- 统编版一年级语文上册 第5单元教材解读 PPT
- 加减乘除混合运算600题直接打印
- ASCO7000系列GROUP5控制盘使用手册
评论
0/150
提交评论