《AI硬件与Pyhthon编程实践》16语音交互控制智能相机设计综合实践写字字帖_第1页
《AI硬件与Pyhthon编程实践》16语音交互控制智能相机设计综合实践写字字帖_第2页
《AI硬件与Pyhthon编程实践》16语音交互控制智能相机设计综合实践写字字帖_第3页
《AI硬件与Pyhthon编程实践》16语音交互控制智能相机设计综合实践写字字帖_第4页
《AI硬件与Pyhthon编程实践》16语音交互控制智能相机设计综合实践写字字帖_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音交互控制智能相机

设计综合实践人工智能开源硬件与python编程实践情境导入人们喜欢用手机自拍,留下纪念。市场上有专供自拍用的补光灯,给阴暗场景中的脸部补光。有些补光灯固定装在手机上,也有补光灯发光亮度强,手持独立使用。自拍过程中既要注意表情取景,又要用手作触摸实现拍照,指操起来不便,照片的质量也难以保证。应用语音识别技术有助于解决这一问题,通过语音交互控制拍照过程,通过光线检测、人脸检测、笑脸检测等技术有助于捕捉最美瞬间,拍出高质量的照片。任务与目标综合应用语音识别、图像处理、计算机视觉技术的原理和方法解决生活中的实际问题,设计语音交互的智能相机控制系统;应用人工智能开源硬件设计综合语音识别与计算机视觉技术的智能系统;提升Python编程能力,利用人工智能开源硬件和相关Python库算法设计语音识别、计算机视觉功能;巩固深化利用Python语言编程实现语音识别、计算机视觉应用程序以及OpenAIEIDE编程工具编写、上传、运行、调试的方法;针对生活应用场景,进一步开展创意设计,设计具有实用价值的人机交互智能相机应用系统。知识拓展:HMM语音识别系统框架

语音信号预处理与特征提取。梅尔刻度式倒频谱参数考虑了人类发声与接收声音的特性,具有更好的鲁棒性。声学模型与模式匹配。声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。语言模型与语言处理。语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。知识拓展:音识别应用的分类

特定人语音识别芯片是针对指定人的语音识别,其他人的话不识别,须先把使用者的语音参考样本存入当成比对的资料库,即特定人语音识别在使用前必须要进行语音训练,一般按照机器提示训练几遍语音词条即可使用;非特定人语音识别是不用针对指定的人的识别技术,不分年龄、性别,只要说相同语言就可以,应用模式是在产品定型前按照确定的十几个语音交互词条,采集200人左右的声音样本,经过PC算法处理得到交互词条的语音模型和特征数据库,然后烧录到芯片上。知识拓展:嵌入式语音识别

嵌入式语音识别系统中,录入的语音信号首先经过预处理,包括语音信号的采样、反混叠滤波、语音增强,接下来是特征提取,用以从语音信号波形中提取出能够描述语音信号特征的参数。特征提取之后的处理分为两个步骤:第一步是训练阶段,构建模型参数库,词表中每个词重复发音多遍进行采样,再经特征提取和某种训练中得到。第二步是识别阶段,按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。2023/1/30知识拓展:DNN进行语音数据训练

基于DNN方法去训练深度学习神经网络语音识别系统架构的过程分为以下2步:从底往上的非监督学习,就是用无标签数据进行每一层的预训练(pre-training),而每一层的训练结果作为其高一层的输入,这是与传统神经网络相比最大的区别,这个过程可看做是特征学习(featurelearning)的过程。从顶向下的监督学习,就是用有标签的数据调整所有层的权值和阈值,按照误差反向传播算法(backpropagation,BP)自顶向下传输,对网络进行微调(tune-fining)。知识拓展:利用DNN进行语音特征提取深度自动编码器是一种深度学习神经网络,其输入和输出具有相同的维度。由于它以在输出层重构出原始输入作为目标,不需要额外的监督信息,因而可以直接从海量未标注原始数据中自动学习数据特征。知识拓展:利用DNN进行声学建模实际工作中,使用5层DNN模型替换GMM-HMM系统中的混合高斯模型(GMM),并以单音素状态作为建模单元,取得了成功。与现有建模分类器相比,DNN最主要的优势是加强了语音帧与帧之间的联系。设计与实践创意与总体设计语音识别库的编程应用语音识别、人脸检测综合程实践自拍系统编程实现创意与总体设计

综合应用语音识别、图像处理、计算机视觉技术的原理和方法,利用人工智能开源硬件设计一套基于语音交互与智能控制的自拍相机原型系统:编写语音识别程序模块,实现对说话指令的识别;编写人脸检测程序模块,实现人脸检测功能,决定是否拍照;编写板上LED控制程序,实现拍照补光功能;编写提取和保存图像帧程序,将当前图像帧保存成照片;语音交互与智能控制的自拍相机流程图

启动视觉模块启动语音识别模块语音命令词识别“拍照”指令人脸检测笑脸检测亮度检测补光保存当前图像帧无线网络发送图像帧文件提示提示无无暗有有是亮有否语音识别库编程方法ASR库提供与语音识别相关的asr对象,pyb库包括led、button、serial等对象,分别与板上集成的LED彩灯、按键、串口对应。serial对象提供初始化set()、发送send()、接收receive()等方法。asr对象主要提供设置工作场景命令词add_cmd()、启动识别过程run()、获取识别结果get_res()等方法。语音识别过程

实现语音识别功能的流程是:初始化-->添加关键词识别列表-->开始识别-->等待识别结果。实现ASR类导入及初始化、工作场景设置以及启动语音识别过程的Python程序代码示例如下:#语音工作场景设置asr.add_cmd("qiezi",1) #添加关键词“茄子”,作为拍照操作命令词;asr.add_cmd("paizhao",1) #添加关键词“拍照”,作为拍照操作命令词;asr.run() #启动语音识别过程人脸检测过程利用项目8中介绍的人脸检测应用方法,可以编写相关的人脸检测Python代码,供参考:#加载人脸检测模型face_cascade=image.HaarCascade("frontalface",stages=25)#进行人脸检测objects=img.find_features(face_cascade,threshold=0.75,scale=1.35)a=0forrinobjects:

img.draw_rectangle(r)a=1 #检测到人脸后进行标记补光功能设计设计语音交互的智能相机控制系统可以增加一个创意,利用板上的LED灯对人脸进行补光。点亮LED灯,使之发出白色光的代码如下:

led.red.on() #进行补光

led.green.on()led.blue.on()拍照功能设计将摄像头拍摄到的视频图像流,提取出其中一帧,保存图像到板上Flash存储中,存为一个文件,就完成了拍照功能的设计。利用snapshot().save方法可以实现这一概念,具体编程可以参考项目2里的程序设计。系统编程与实现不断进行人脸检测,一旦检测到人脸,先绿灯提示,然后提取语音识别结果。如果发现拍照指令,就补光并保存当前帧作为照片。如果当前图像帧中没有人脸,就会显示无人,提取语音识别的结果。如果发现当前的图像帧没有保存成功,先去检查板上存储空间是否满了,删除以前存储的图像文件,再运行程序。分析与思考OpenAIEIDE工具中不能直接动态调试嵌入式Python程序,复杂些的Python程序有无调试方法?利用串口打印出的不同变量或状

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论