数字语音处理_第1页
数字语音处理_第2页
数字语音处理_第3页
数字语音处理_第4页
数字语音处理_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数语理程

数字语音处理课程论文指导老:班级:姓名:学号:

语音识别语音识技术涉及到几个领,其中有:号处理模式识别、率论和信息论发声机理和觉机理人工智能等声学特声学特的提取与选是语音别的一个重环节。学特征的提既是一个信息幅度压缩的程,也一个信号解过程,的是使模式分器能好地划。由于语信号的时变性,特提取必须在小段语信号上进行也即进行短时析。这一段认为是稳的分析区称之为,帧与帧之的偏移常取帧的或1/3。通常要信号进预加重以提高频,信号加窗以免短时音段边缘的响。下面介常用的一些学特征线性预系数LPC:线性测分析人的发声机入手,过对声道的管级联模的研究,认系统的递函数符合极点数滤波器的形,从而n时刻的号可以用前干时刻信号的线性合来估。通过使实语音的样值和性预测采样之间达均方差最小LMS即得到线预测系数LPC对的计算法有相关法德宾法)、协方差法格型法等。计算上快速有效保了这一学特征的广使用。LPC种预测数模型类似的学特征还有谱对、反射系等等。倒谱系CEP利用同处理方法,语音信号求散傅立变换DFT后取对数,求反变换就得到倒谱系。对LPC倒谱LPCCEP),在得滤波的线性预测数后,以用一个递公式计得出。实验明,使倒谱可提高特征参的稳定。Mel倒谱系数和知线性测PLP不于LPC等过对人发声机理的研而得到的声特征Mel谱系数MFCC和感知线预测PLP是受人的听觉统研究成果动而导的声学特征对人的觉机理的研发现,两个频相近的音调时发出,人只能听一个音。临界带宽的就是样一种人的主观感发生突的带宽边界当两个调的频率差于临界宽时,人就把两个调听成一个这称之为屏效应Mel刻度是对这一界带宽的量方法之一MFCC计算首先FFT将域信号化成域,之对其对数能谱用依照Mel刻度分布的三角波器组行卷积,最对各个波器的输出成的向量进行散余弦变换DCT取前个数。PLP用德宾去计算参数,但在计自相关参数用的也对听觉激励对数能谱进行DCT方法。

声学模语音识系统的模型常由声模型和语言型两部组成,分别应于语音到音概率的计算音节到概率的计算本节和一节分别介声学模和语言型方面的技。HMM学建模:尔可夫型的概念是个离散域有限状态动机,马尔可夫型指这一尔可夫模型内部状外界不可见外只能看到各个时的输出值。语音识系统,输出通常就从各个帧计而得的学特征。用画语音号需作两个假设,一是部状态转移只与上状态有,另一是输值只与前状态(或前的状转移)有关这两个设大大低了模型的杂度HMM打分解码和练相的算法前向法、Viterbi算法前向后向算。语音识中使用HMM通是用从向右单向带自环、带跨越拓扑结来对识别元建模,一音素就一个三至五态的HMM,个词就构成词的多个音的行起来成的HMM,连续语识别的整个型就是和静音组起来的。上下文关建模:协发音,的是一个音前后相音的影响而生变化从发声理上看就是的发声官在一个音向另一音时其特性能渐变从而使后一个音的谱与其条件下的频产生差。上下文相建模方在建模考虑了这一响,从使模型能更确地描语音,只考前一音影响的为Bi-Phone,虑前一和后一音的响的称Tri-Phone英语的下文相关建通常以素为基元,于有些素对其后音的影响相似的因而可以通音素解状态的聚类行模型数的共享。类的结称为senone。决策用来实高效的的对应通过回答一系列后音所属类(元/辅音、清/浊等等的问题最终定其态应使哪个senone。分类回归树CART型用以行词到音素发音标。语言模语言模主要分为规模型和计模型两种统计语模型是用概统计的方法来示语言单位在的统规律,其中单有效,被泛使用N-Gram:该模型基于这样种假设第个词的出现与前面个词相关,而与其任何词都不关,整的概率就是个词出概率的乘积这些概可以通直接从语料统计个同时出现的数得到常用的是二的Bi-Gram三元的Tri-Gram。语言模的性能通常交叉熵复杂度Perplexity来衡量交叉熵的意是用该模对文本识别难度,者从压缩的度来看每个词平均用几个来编码复杂度的意是用该型表示这一本平均分支数,其数可视

每个词平均概率。滑是指没观察到的N元组赋予一概率值,以证词序列能通过语言型得到个概率值。常使用平滑技术有灵估计删除插平滑、Katz平滑和Kneser-Ney滑。搜索连续语识别中的搜,就是找一个词模序列以述输入语音号,从而得到解码序列。索所依的是对公式的声学型打分和语模型打。在实际用中,往往依据经给语言模型上一个权重,并设一个长惩罚分。Viterbi基于动规划的算法每个时点上的各个态,计解码状态序对观察序列后验概,保留概率大的路,并在每个点记录相应的态信息以便后反向取词解码序。Viterbi算在不丧最优解的条件下时解决连续语音识中HMM模型状序列与学观察序列非线性时间准、词边界测和词识别,从而这一算成为语音识搜索的本策略由于语识别对当前间点之的情况无法测,基目标函数的发式剪难以应。由于Viterbi算法的时齐特性,一时的各条径对于同样观察序列因而具有可性,束搜在每一时刻保留概最大的前若条路径大幅度的剪提高了索的效率。一时齐Viterbi-Beam法是当前语音识搜索中最有的算法搜索多遍搜:在搜索中利各种知识源通常要进行遍搜索第一遍使用价低的识源,产生个候选表或词选网格,在基础上行使用代价的知识的第二遍搜得到最路径。前介绍的知源有声模型、语言型和音词典,这些以用于一遍搜。为实现更级的语识别或口语解,往要利用一些价更高知识源如或阶的N-Gram4阶或更高上下文关模、词间关模型、分模型或语法析,进重新打分。新的实大词表连续音识别统许多使用这种多搜索策。N-best搜索生一个选列表,在个节点保留N最好的径,会使计算复杂增加到N倍。简化的做法只保每个节的若干词候,但可丢失次优选。一个折办法是考虑两个词的路径保留条。词候选网格以一种紧凑的方式出多候,对N-best索算法作相改动后以得到生成候选格的算法。前向后搜索算法是个应用遍搜索的例。当应简单知识源行了前向的Viterbi搜索后搜索过中得到的前概率恰可以用在后搜索的标函数的算中,因而以使用发式的算法进行后搜索,济地搜索出条候选

系统实语音识系统选择识基元的求是,有准的定义能得到足够据进行训练,有一般性。语通常用上下文相的音素模,汉语的同发音如英语重,可以采音节建。系统所需训练数大小与模型杂度有。模型设得过于复杂至于超了所提供的练数据能力,会使性能急下降。听写机大词汇量、特定人连续语音识系统通称为听写机其架构是建立前述声学模和语言型基础上的拓结构训练时对每基元用前向向算法获得型参数识别时,将元串接词,词间加静音模并引入言模型作为间转移率,形成循结构,算法进行码。针对汉易于分割的点,先行分割再对一段进解码,是用提高效的一个化方法。对话系:用于实现机口语话的系统称对话系。受目前技所限,对话系往往是面向个狭窄域、词汇量限的系,其题材有游查询订票、据库检索等。其前是一个语音别器,别产生的N-best候或词候选格,由语法析器进分析获取语信息,由对话管理确定应信息,语音合成器出。由目前的系统往词汇有限,也可用提取键词的法来获取语信息。自适应鲁棒性语音识系统的性能许多因的影响,包不同的话人、说话式、环境噪音传输信道等。提高统鲁棒性,要提高统克服这些素影响能力,系统在不同应用环、条件下性稳定;适应的目的是根据同的影来源,自动、有针性地对系统行调整在使用中逐提高性。以下对响系统性能不同因分别介绍解办法。解决办按针对语音征的方(以下称特方法)模型调整的法(以称模型法)分为两。前者要寻找更好、高鲁性的特征参,或是现有的征参数基础,加入些特定的处方法。者是利用少的自适语料来正或变换原的说话无关(SI)模型,从而使其为说话自适应()模型。说话人适应的特征法有说人规一化和话人子间法,模型法有贝叶斯方、变换法和型合并。语音系中的噪声,括环境声和录音过加入的子噪声。提系统鲁棒性的征方法包括音增强寻找对噪声扰不敏的特征,模方法有行模型合方和在训练中为加入声信道畸包括录音时筒的距离、使不同灵敏度话筒、同增益的前放大和同的滤波器计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论