《AI硬件与Pyhthon编程实践》15语音识别与Python编程实践写字字帖_第1页
《AI硬件与Pyhthon编程实践》15语音识别与Python编程实践写字字帖_第2页
《AI硬件与Pyhthon编程实践》15语音识别与Python编程实践写字字帖_第3页
《AI硬件与Pyhthon编程实践》15语音识别与Python编程实践写字字帖_第4页
《AI硬件与Pyhthon编程实践》15语音识别与Python编程实践写字字帖_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别与Python编程实践人工智能开源硬件与python编程实践情境导入语音识别发展到现在,从语音打字机、数据库检索到特定的环境所需的语音命令,给人们的生活带来了很多方便。语音识别人机交互技术是典型的人工智能方法,在智能家居、智能驾驶、智能手机中都有成熟的应用。智能玩具开始大量应用人工智能技术,市场上出现了大批可以讲故事、唱歌曲、说英语的益智玩具,通过语音识别人机交互技术,大幅提升了玩具的互动性、教育性、智能性和娱乐性,满足了知识学习、娱乐、科学探究、智力开发等多重需求。任务与目标了解语音识别的基本原理、相关算法和应用框架;了解运用人工智能开源硬件设计语音识别应用系统的方法;运用人工智能开源硬件和Python编程库,编写和调试初步的语音识别应用Python程序;掌握利用OpenAIEIDE编程工具编写、上传、运行、完善Python语音识别程序的方法。知识拓展:语音识别的概念语音识别技术可以比做为“机器的听觉系统”,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的方法。语音识别技术主要包括语音特征提取、模式识别及声学模型训练技术三个方面。知识拓展:语音识别技术的发展历史50年代,AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统-Audry系统。60年代,动态规划(DP)和线性预测分析技术(LP)等技术的提出和运用,对语音识别的发展产生了深远影响。70年代,动态时间归整正技术(DTW)开始成熟,特别是矢量量化(VQ)和隐马尔可夫模型(HMM)得到运用,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代,随着HMM模型和人工神经元网络(ANN)等技术在语音识别中的成功应用,人们突破了大词汇量、连续语音和非特定人这三大语音识别障碍。知识拓展:隐马尔科夫模型的应用CMU的李开复实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx,它是第一个高性能的非特定人、大词汇量连续语音识别系统;在声学识别层面,以多个说话人发音的大规模语音数据为基础,通过对连续语音中上下文发音变体的HMM建模,语音音素识别率有了长足的进步。知识拓展:语音信号的短时特性语音信号的特征是随时间变化的,具有短时性,在5-50ms的一段时间间隔中,保持相对稳定一致的特性。语音信号的分析和处理都是建立在“短时”的基础上,按5-50ms分成语音帧进行处理,重要的计算参数有短时能量、短时过零率、短时自相关函数、短时频谱等。设计与实践人工智能开源硬件语音识别处理模块OpenAIEIDE的使用编写第一个嵌入式Python程序调试、验证及完善人工智能开源硬件语音识别处理模块

AIE控制板上固化除了有计算机视觉CV库、板上器件及接口pyb库外,还有连续非特定人语音识别ASR库。该ASR库基于板上集成的语音识别处理器的特性进行设计,提供一个与语音识别相关的asr对象给外部Python程序调用。拾音器ASR处理器按键语音识别处理器

语音识别处理器基于ASR技术,具有降噪、端点检测、语音识别等功能。语音识别处理器内置有高精度的A/D和D/A通道,设计时直接把拾音器连接在处理器芯片的AD引脚上,不需要外接AD芯片,不需要外接辅助的Flash和RAM,就能完成说话语音的实时采集。语音识别处理器内含有事先训练好的声学模型参数库,由大批量非特定人普通话连续语音语料训练而成,支持ASR连续语音识别,应用时不需要再进行任何录音训练。定义语音识别工作场景语音识别处理器允许用户定义一张识别关键词语列表,应用中还可以动态编辑和维护这张识别关键词语列表。只需要把关键词语以字符串的形式传送给芯片,即可以在下次识别过程中生效。每个关键词语可以是单字、词组、短句或者任何的中文发音的组合。板上语音识别处理器目前支持用户自由编辑50条关键词词条,即在同一时刻,最多在50条关键词语中进行识别。编程设计时可以根据工作场景的需要,动态编辑和更新这50条关键词语的内容。语音识别Python类的设计语音识别ASRPython库基于板上集成的语音识别处理器的特性进行设计,采用Python语言进行编写,主要设计和封装了一个asr类给外部Python程序引用。该asr类主要提供设置工作场景命令词add_cmd()、启动识别过程run()、获取识别结果get_res()等方法供应用程序使用。ASR语音识别类的Python调用方法导入asr类模块创建语音识别对象实例初始化语音识别对象设置工作场景,添加关键词识别列表启动语音识别等待语音识别结果提取语音识别结果ASR语音识别类初始化编程

fromopenaieimportasr #创建语音识别实例ASR=asr() #导入语音识别类模块ASR.asr_init() #初始化语音识别对象time.sleep(50) #延时等待50ms;设置工作场景添加关键词识别列表:asr.add_cmd("hong",1) #添加关键词“红”,编号为“1”。asr.add_cmd("lv",2) #添加关键词“绿”,编号为“2”。asr.add_cmd("lan",3) #添加关键词“蓝”,编号为“3”。asr.add_cmd("kaideng",4)#添加关键词“开灯”,编号为“4”。asr.add_cmd("guandeng",5)#添加关键词“关灯”,编号为“5”。调测与验证调式程序时,同样可以将识别结果输出到串口监视器中,观察输出的值是否与说出的语音关键词的编码一致。调试语音识别模块过程中,也要注意工作环境中是否存在比较大的噪声。噪声的存在会影响识别结果的准确性,严重时会导致没有识别结果出现。调试过程方在安静的环境中进行,以排除干扰。分析与思考结合本次编程实践,重点体会自定义函数在Python应用系统中的作用,进一步了解和体验Python语言中函数定义程序模块的结构设计方法。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论