版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音识别实验报告篇一:语音识别报告“启动”的时域波形一、语音预加重:由于语音信号在高频部份衰减,在进行频谱分析时,频 率越高,所占的成份越小,进行语音预加重,能够提升语音 高频部份,使频谱变得平坦,以方便进行频谱的分析和处置。 通常的方法是采纳数字滤波器进行预加重,传递函数是: H(z)?1?z?1,其中?一样去0.92-0.98之间,因此在计算的 时候取09375。预加重后的波形二、分帧加窗语音信号具有较强的时变特性,其特性是随时刻转变的, 可是语音的形成进程与发音器官的运动有关,这种物理运动 比起声音振动的速度十分缓慢,在较短的时刻内,语音信号 的特点能够被以为是维持不变的,通常对语音处置
2、是通过截 取语音中的一段进行处置的,而且短段之间彼此常常有一些 叠加,这一段语音成为一帧语音,语音段的长度称为帧长, 对每一帧处置的结果可用一组数来表示。一样取帧长为10 30ms。采样频率是8000Hz,因此取的帧长是256,帧移是 178。分帧以后加汉明窗。3、端点检测端点检测从背景噪声中找出语音的开始和终止点。短时能量确实是每帧语音信号振幅的平方和。En?s(m);m?0N?1短时能量曲线短时过零率是每帧内信号通过零点的次数,是信号采样 点符号的转变次数。1N?1Zn?sgnx(m)?sgnx(m?1);2m?0“启动”的过零率曲线在实验室的安静的环境下,依托短时能量和短时过零率 就可进
3、行语音信号的起止点判定。当背景噪声较小时,没有 语音信号的噪声能量很小,而语音信号的短时能量增大到了 必然数值,能够区分语音信号的开始点和终止点。当背景噪 声较大时,能够用短时平均过零率和短时能量结合来判定。基于能量一过零率的端点检测一样利用两级裁决法, 在开始进行端点检测之前,第一为短时能量和过零率别离确 信两个门限。整个语音信号的端点检测能够分为四段:静音、 过渡音、语音段、终止时的静音段,若是能量或过零率超越了低门限,就应该开始标 记起点,进入过渡段。在过渡段中,由于参数的数值比较小, 不能确信是不是处于真正的语音段,因此只要两个参数的数 值都回落到低门限以下,就将当前状态恢复到静音状态
4、。而 若是在过渡段中两个参数中的任一个超过了高门限,就能够 够确信进入语音段了,并标记起始点。若是当前状态之前处于语音段,而现在两个参数 的数值降低到底门限以下,而且持续时刻大于设定的最长时 刻门限,那么就以为语音终止了,返回到参数值降低到底门 限以下的时刻,标记终止点。端点检测波形4、特点提取检测到语音的起点后就能够够开始对检测出来的语音 信号段中抽取语音识别所需的信号特点,语音特点参数是分 帧提取的,每帧特点参数一样组成一个矢量,因此语音特点 量是一个矢量序列。语音信号中提掏出来的矢量序列通过数 据紧缩后便成为语音的模板。目前,有效的特点参数有线形预测编码(LPC)系数,线 形预测编码倒谱
5、(LPCC)系数和Mel频率倒谱系数(MFCC),其 中比较经常使用的是MFCC。MFCC参数:人耳对不同频率的声波有不同的听觉灵敏度,因此从低 频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器。对输入信号进行滤波,将每一个带通滤波器 输出的信号的量作为信号的大体特点,对此特点进行进一步 处置后就能够够作为语音识别系统的输入特点。MFCC参数也是按帧计算的,计算通常米纳如下的流程:第一初始化Mel三角滤波器组,取滤波器的个数是24 个,其中心频率依次为 28Hz、89Hz、154Hz、224Hz、300Hz、 383Hz、472Hz、569Hz、674Hz、787Hz、910Hz
6、、1043Hz、1187Hz、 1343Hz、1512Hz、1694Hz、1892Hz、2106Hz、2338Hz、2589Hz、 3154Hz、 3472Hz、 3817Hz。第一对每一帧序列进行离散FFT变换,取模的平方 取得离散功率谱。计算功率谱通过24个滤波器后所得的功率值,取得 24个参数Pm,对Pm去取对数取得Lm。对Lm进行离散余弦变换,Cn?Lm?124mcos(?(m?0.5)n/24)取得MFCC参数,通常取前13个系数作为该语音的特点 参数。对每一帧进行MFCC的计算,就取得了一个行数是语音 的帧数,列数是13的表征语音特点的矩阵。五、矢量量化在特点提取以后,对矢量序列要
7、进行矢量量化,确实是 用假设干离散的数字值(或称为标号)来表示各帧的13维 参数矢量。矢量量化进程:将语音信号的第一对矢量序列进行聚类,依照语音信号的特点 矢量聚类取得另一组量化矢量作为码书,每一个矢量成为码字,这组量化矢量长度选择32。计算特点矢量与每一个码字的失真度,用失真度 最小的特点矢量的标号代替该特点矢量,如此将一个矩阵转换为一个矢量。六、训练和识别语音识别进程是依照模式匹配原那么,计算未知语音模 式与语音模板库中的每一个模板的距离测度,从而取得最正 确的匹配模式。语音识别所应用的模型匹配方式要紧有动态 时刻弯折、隐式马尔可夫模型和人工神经网络。隐马尔科夫模型是用于描述随机进程统计特
8、性的概率 模型,在实际问题中,观看者只能看到观看值,而观看值并 非与状态一一对应,因此,不能直接看到状态,而只能是通 过一个随机进程去感知状态的存在及其特点。因此称之为隐 马尔科夫模型(HMM)。在HMM中有5个参数。N:模型中状态数量。记N个状态为?1,?,?N,记t 时刻所处状态为qt。M:每一个状态对应的可能的观看值数量。记M个观 看值为?1,?,?M,记t时刻观看到的观看值为ot。?:初始状态概率矢量,?(?1,?,?N), 中?i?P(q1?i),1?i?N。A :状态转移概率矩阵,A?(aij)N?N,其中 aij?P(qt?1?j|qt?t)。B :观看值概率矩阵,B?(bij)
9、N?M,其中 bij?P(ot?vj|qt?j)。如此,能够记一个HMM为?? (N,虬?,A,B)。语音信号本身是一个可观看序列,但它是由大脑中的(不可察序列)、依照言语需要和语法知识(状态选择)所发出 的音素(词、句)参数流,因此,能够用HMM模型来描述语音 信号。语音识别中的孤立词识别,对每一个孤立词成立一个 HMM模型,当输入一个孤立词时,先对它进行特点值的提取, 利用矢量量化将矢量序列转换为一组符号,然后计算这组符 号和每一个HMM上的输出概率,概率最值所对应的孤立词确 实是识别结果。孤立词的语音识别中要紧解决三个问题:给定观看值序列O?o1,o2,?,oT,(T是语音信号帧 的长度
10、)和模型?的情形下,计算给定模型参数时观看值序 列的概率P(O|?)。给定观看值序列O?o1,o2,?,oT和模型?,选择对 应的最优状态序列q?q1,q2,?,qT。该问题将揭露模型的隐含 部份,即估量出模型产生观看值序列时可能经历的途径,并 选择出概率最大得一条路经。如何调整模型参数?元(AB),使P最大,这是一个 训练进程来训练HMM,它能够使模型参数最为理想地适应所 观看到的训练数据。因此在模板训练中要紧解决第三个问题,对每一个词 别离进行训练,取得模型参数,然后对要识别的词在每一个 模板下进行问题一的计算,取得最大的概率,将其对应的模 板作为结果。篇二:语音识别系统的开题报告天津理工
11、大学本科毕业设计开题报告届:XX届 学院:自动化学院 专业:测控技术与仪 器XX 年 3月11日篇三:DSP课程设计语音识别报告DSP课程设计语音识别课题报告姓名高鹏于是阳学号 1221XX12212025学院电子信息工程学院班级自动化1202指导教师钱满义一、设计任务书1.1实验目的把握利用DSP进行语音信号搜集的方式,利用DSP对 语音信号进行特点提取,从而实现语音信号的识别。学会A/D、 D/A的工作原理和利用,学会A/D、D/A转换器的编程方式。 以语音信号处置为依托,深切明白得信号的抽样和重建的大 体方式,提高学生系统地试探问题和解决实际问题的能力。通过挪用DSP CSL库对McBS
12、P接口的编程,学会DSP片上 外设的利用方式。1.2技术指标及设计要求(1)对DMA进行初始化;(2)对A/D、D/A进行初始化;(3)编写DMA中断效劳程序,实现语音信号的实时识 别;(4)依照识别系统的类型选择一种识别方式,采纳语 音分析方式分析出这种识别方式所要求的语音特点参数, 作为标准模式由机械存储起来,形成标准模式库。(5)对语音进行特点参数的分析,语音信号通过相同 的通道取得语音参数,生成测试模板;(6)将测试模板与参考模板进行匹配,将匹配分数最 高的参考模板作为识别结果,从而实现语音的识别。1.3设计思路第一利用DSP对语音信号进行分析,提取语音的特点参 数,形成“模板”。语音
13、识别系统对特点参量的提取可采纳 FFT算法。语音识别和说话人识别中的LPC倒谱和MEL倒谱, 都与语音的频谱包络紧密相关,不同的参数表示不同的频谱 包络。识别时,对其进行特点参数的分析,识别参数能够选 择平均能量、过零数或平均过零数、频谱、倒谱、线性预测 系数,音长,音调,声调等超音段信息函数。最后将语音参 数和模板进行比较,从而实现语音的识别。1二、实验原理2.1语音识别概述语音技术,包括语音识别、语音合成、关键词检出、说 话人识别与确认、口语对话系统等,是现代人机交互的重要 方式之一,具有普遍的应用前景。其中语音识别技术,尤其 是持续语音识别技术,是最基础、最重要的部份,而且已经 慢慢走向
14、成熟与有效。语音识别(Speech Recognition)是指让机械听懂人说 的话,即在各类情形下,准确的识别语音的内容,从而依照 其信息,执行人的各类用意或执行特定的任务,其最终目标 是实现人与机械进行自然语言通信。利用DSP能够对语音信 号进行实时搜集、提取语音特点向量、进行语音识别。语音 识别系统对语音特点参量的提取能够采纳FFT等算法,不同 的参数表示不同的频谱包络。利用DSP技术来实现语音识别其实确实是要利用DSP处 置器壮大的数据处置功能对表征语音的各类形式的信息进 行处置和分析,以对语音进行描述、识别、分类和说明。不 管是初期的孤立词识别系统仍是今世的持续语音和非特定 人识别系
15、统,它们的系统大体结构框图都能够用以下图来进 行简单描述。其要紧进程包括语音信号的预处置(端点检测 等)、特点提取、成立参考模板库、相似性气宇和识别决策 等几个功能模块。从图中能够看出语音识别系统的本质确实是一种模式 识别系统,它也包括特点提取、模式匹配、参考模式库等大 体单元。由于语音信号是一种典型的非平稳信号,加上呼吸 气流、外部噪音、电流干扰等使得语音信号不能直接用于提 取特点,而要进行前期的预处置。预处置进程包括预滤波、 采样和量化、分帧、加窗、预加重、端点检测等。通过预处 置的语音数据就能够够进行特点参数提取。在训练时期,将 特点参数进行必然的处置以后,为每一个词条取得一个模型, 保
16、留为模板库。在识别时期,语音信号通过相同的通道取得 语音参数,生成测试模板,与参考模板进行匹配,将匹配分 数最高的参考模板作为识别结果。后续的处置进程还1可能包括更高层次的词法、句法和文法处置等,从而最 终将输入的语音信号转变成文本或命令。语音信号的预处置模块一样包括预滤波、采样和量化、 分帧、加窗、预加重、端点检测等。在不同的系统中对各子 模块会有不同的要求,如在嵌入式语音识别系统中一样要求 有防混叠滤波电路、A/D转换电路和采样滤波电路等,而在 运算机上实验时那么可由音频搜集卡完成,无需实验者亲自 动手。2.2硬件组成在本次实验中,咱们用到的是BJTU-DSP5502实验系统, 实验箱内包
17、括BJTU-DSP5502实验板和SEED-XDS510PLUS仿 真器和相关配件。它采纳的语音处置模块是TI公司的TMS320VC5502,其要紧特点包括:采纳改良的哈佛结构,内 部独立总线:12组;程序地址总线(PAB): 1组,24位;程 序数据总线(PB): 1组,32位;数据读地址总线(BAB、CAB、 DAB): 3 组,24 位;数据读总线(BB、CB、DB): 3 组,16 位;数据写地址总线(EAB、FAB): 2组,24位;数据写总 线(EB、FB): 2 组,16 位。BJTU-DSP5502实验板要紧包括:DSP 芯片 1 枚(U1) : TMS320VC5502300
18、MHzSDRAM 1 枚(U5): 2MX32bit(8Mbytes) HY57V643220CTFLASH 1 枚(U4) : 256K X 16bit(512Kbytes) SST39VF400A-70CPLD 1 枚(U2): CY37064VP100通信接口 3个:仿真器JTAG接口(J1)、连接到PC机USB 接口(J4)和UART接口(J2)信号搜集和输出端口:立体音输 入接口 line-in(J5,直接接电脑的语音输出端口)/麦克风输 入接口(J7)/耳机音频输出接口 (J6)扩展板接口(J9, J10)通信接口 3个:仿真器JTAG接口 (J1)、连接到 PC 机 USB 接口
19、(J4)和 UART 接 口(J2)信号搜集和输出端口:立体音输入接口 line-in(J5,直 接接电脑的语音输出端口)/麦克风输入接口(J7)/耳机音频 输出接口(J6)扩展板接口(J9, J10)信号搜集和输出端口:立体音输入接口 line-in(J5,直接接电脑的语音输出端 口) /麦克风输入接口(J7)/耳机音频输出接口(J6)。2通过AIC23B(A/D、D/A转换器)来提供立体音输入/麦克 风输入/耳机音频输出。AIC23B与DSP的McBSP1相连接。(McBSP0:经电平转换后直接给外设扩展总线的XMcBSP0, 保留给用户作外部扩展用。McBSP2:在BJTU-5502 DSP板上 有3种用途。即接口 DSP板的COM1(缺省)、ESAM(嵌入式加 密模块)和接口外设扩展总线的XMcBSP1。)存储空间的具体配置:flash存储器:最大512KX16bit,需占VC5502的半个 CEx空间(本板x=1)SDRAM最大2MX32bit,需占VC5502的2个持续的CEx 空间(本板x=2).状态/操纵寄放器5X8bit,需占VC5502 某一 CEx的5个存储单元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论