1Python人工智能技术与应用 课件 8.【课件】6-2 认知和处理音频数据_第1页
1Python人工智能技术与应用 课件 8.【课件】6-2 认知和处理音频数据_第2页
1Python人工智能技术与应用 课件 8.【课件】6-2 认知和处理音频数据_第3页
1Python人工智能技术与应用 课件 8.【课件】6-2 认知和处理音频数据_第4页
1Python人工智能技术与应用 课件 8.【课件】6-2 认知和处理音频数据_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Python人工智能技术与应用》能力模块六掌握基于深度学习的语音处理技术应用任务二认知和处理音频数据TaskImport任务导入第一个设计理念要求是便捷。你作为公司的语音识别工程师,岗位职责是协助语音识别、合成及对话系统的搭建及测试;现需要你搭建一个能够能够通过语音控制网页的系统、实现能够通过语音控制网页的移动,使得驾驶员在驾驶或操作车辆的便捷地使用车内网络服务,而不必转移注意力。素养目标引导问题的过程中,培养学生形成勤于思考的能力获得分析解决问题以及多元化思考解决问题的方法,形成创新意识。TaskObject任务目标知识目标了解音频数据的定义。了解音频数据的关键概念。了解影响语音信号数据的因素。了解语音信号预处理的常用方法。技能目标了解常用语音数据特征提取技术。能够使用pyaudio库和pymouse库实现语音控制网页的移动,在实践中培养工程应用、解决问题等职业能力。新

授Python实现语音控制网页04CONTENTS目录音频数据的定义与关键概念01语音数据预处理02常用语音数据特征提取技术0301音频数据的定义与关键概念(一)音频数据的定义音频的种类多种多样,音频分类研究中一般将音频分为语音、音乐、噪音、静音、环境音等类别。音频分类音频数据是指以数字格式表示的声音信号,它可以是从麦克风捕捉到的声音,也可以是从数字音频文件解码的声音。音频数据音乐

01音频数据的定义与关键概念(一)音频数据的定义噪音又可以分为环境噪音、系统噪音等,环境音包括动物发声、机械声、自然现象发声等。嗓音和环境音其中语音又可以分为男声、女声、高音、低音等,音乐可以细分为不同的音乐流派、不同乐器演奏的音乐等。语音和音乐噪声

01音频数据的定义与关键概念(二)音频关键概念

常见的音频格式WMV、WMA、WAV等音频格式:想要将录制的音频文件转移在计算机内进行播放,必然需要将音频文件保存为一定的格式,可能还会需要在不同文件格式之间进行格式转换,不同文件格式对原始音频的保存和压缩方式也不尽相同。CD格式WMAFLACWAVMP31.音频格式01音频数据的定义与关键概念(二)音频关键概念时域和频域时域:指的是信号的变化随时间的变化,也就是信号的时间特性;频域:指的是信号的变化随频率的变化,也就是信号的频率特性。

时域和频域图示01音频数据的定义与关键概念(二)音频关键概念

采样率是指在一段时间内采集或记录信号的次数,通常用赫兹(Hz)作为单位,表示每秒采样的次数。在音频领域中,通常使用44.1kHz的采样率,这是因为人耳的最高可听频率为20kHz左右,因此采样率要大于它的两倍。同时,这也是CD音频的标准采样率。在数字信号处理、图像处理和视频处理等领域中,采样率的选取则需要根据具体应用场景和要求进行决策。采样率音调是指声音的高低,而声音的频率是指声音每秒钟可以完成的周期数,单位是赫兹(Hz)。音调和声音的频率01音频数据的定义与关键概念(二)音频关键概念在数学和信号处理领域,采样点是指在某个时间点或时刻对信号进行采样(即取样)所得到的值。这个时间点通常是均匀分布的,即每个采样点之间的时间间隔相等。采样点01音频数据的定义与关键概念(二)音频关键概念声道是指声音传输的通道或路径。在音频系统中,声道通常是指从声源到听者的声音传输路径,包括从麦克风或录音设备捕捉声音、通过各种信号处理和调音台进行调整和处理,最终通过扬声器或耳机播放出来的过程。声道数量可以根据需要而变化,常见的有单声道、立体声、5.1声道、7.1声道等。在电影院中,声道还包括从电影放映机到扬声器的声音传输路径。声道

不同声道的扬声器设备01音频数据的定义与关键概念(二)音频关键概念采样宽度是数字音频处理中的一个重要参数,也称为量化位数。它指定了一个样本的编码位数,也就是用多少位来表示一个采样值。常见的采样宽度有8位、16位、24位和32位等。采样宽度采样宽度的值越大,表示每个采样值被编码的精度越高,音频的动态范围也越大,声音质量也越好,但相应的占用的存储空间也会更大。例如,使用16位采样宽度可以表示2的16次方(65536)个不同的采样值,而使用8位采样宽度只能表示2的8次方(256)个采样值。01音频数据的定义与关键概念(二)音频关键概念由于我们常用的信号处理方法都要求信号是连续的,也就说必须是信号开始到结束,中间不能有断开。然而我们进行采样或者分帧后数据都断开了,所以要在帧与顿之间保留重叠部分数据,以满足连续的要求,这部分重叠数据就是帧移。帧移02语音数据预处理(一)语音信号的影响因素语音信号质量的影响因素主要在于人类发声器官本身和由于采集语音信号的设备所带来的。

02语音数据预处理(一)语音信号的影响因素

例如年龄、健康状况、情绪状态、饮食和环境因素等,这些因素都可能会对语音信号的质量产生影响。人类发声器官02语音数据预处理(一)语音信号的影响因素

常见的语音采集设备包括话筒、麦克风和录音机等,它们的质量和类型都会影响采集到的语音信号的质量。例如,高质量的话筒或麦克风可以提供更清晰、更准确的语音信号,而低质量的话筒或麦克风则可能会产生噪声、失真和其他干扰信号,降低语音信号的质量。采集语音信号的设备不同采集语音信号设备采集到的信号质量不一致02语音数据预处理(二)语音信号的预处理为保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量,需要进行语音信号数据预处理流程。213预加重加窗分帧02语音数据预处理(二)语音信号的预处理预加重音频预加重是一种音频信号处理技术,通过对音频信号进行加权,以提高信号中低频部分的相对强度,并减少高频部分的干扰。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。

预加重02语音数据预处理(二)语音信号的预处理分帧

音频分帧是音频信号处理的一种常见技术。它通过将音频信号的连续时间划分为多个短的时间段,每个时间段称为一帧,以便对音频信号进行进一步的处理和分析。分帧可以帮助提高特征提取的精度,消除语音信号中的干扰,并有助于识别说话人的语言。通常,音频分帧的长度设定为几十毫秒到一秒,具体长度取决于应用领域和处理目标。帧长过长会导致信号失真,帧长过短则会增加处理难度和计算复杂度。分帧02语音数据预处理(二)语音信号的预处理加窗

加窗是指通过对音频信号的一段连续时间应用一个数学函数,以减少信号的频率分量的干扰。这个数学函数称为窗函数。

加窗可以改善音频信号的频谱分析结果,消除信号周期性导致的边缘效应,提高特征提取的精度,从而提高识别的准确率。

处理信号的方法要求信号是连续条件,但是分帧处理环节信号被中间断开。为了满足连续条件,将分好的帧数据乘一段同长度的数据,这段数据就是窗函数整个周期内的数据,从最小变化到最大,然后最小。02语音数据预处理(二)语音信号的预处理加窗

加窗常用语音数据特征提取技术03

MFCC(Mel-FrequencyCepstralCoefficients)特征是语音识别领域中广泛使用的一种音频特征表示方法。MFCC通过将音频信号转换为人类耳朵对声音的感知形式,然后提取这些信息的数学表示,从而使得语音识别系统能够有效地识别语音。(一)MFCC特征提取举个例子,如果你听到一个说话的声音,你的大脑会对声音的频率和音调进行分析,并将其转换为语言信息。MFCC正是通过模拟这个过程,将音频信号转换为可识别的特征,从而帮助语音识别系统识别说话的人的语言。

通过MFCC特征提取过后的音频波形图常用语音数据特征提取技术03(二)声学模型和语言模型声学模型(AcousticModel)是一种数学模型,用于从音频信号中提取语音特征,并将其映射到语音单元(如音素)。通常,声学模型是基于深度学习技术训练出来的,具有良好的特征提取和语音单元识别能力。语言模型(LanguageModel)是一种数学模型,用于评估语音单元(如音素)组成的语言序列的合理性。语言模型可以被训练得到,以学习语言的语法和词汇特征,语言模型可以用于解码,以选择最可能的语音单元序列。在语音识别系统中,声学模型和语言模型结合起来,以提高语音识别的准确性。例如,声学模型可以生成一组语音单元的候选列表,而语言模型则可以用于评估这些候选语音单元的合理性,并选择最可能的语音单元序列作为最终的语音识别结果。Python实现语音控制网页04作用在车辆内部实现语音控制网页,方便驾驶员进行车载娱乐、导航和通信等功能。

使用语音控制网页可以通过语音来控制网页的内容,进行操作。通过语音命令,驾驶员可以实现车载音乐的播放、导航系统的操作、手机的接听和发送短信等功能,从而更加方便和安全的驾驶。04(一)实现思路Python实现语音控制网页使用语音识别技术和麦克风设备将用户的语音转换为文本,然后再将文本转换为指令,从而控制网页的内容和操作。语音识别技术和麦克风设备将用户语音转换为文本指令控制网页的内容和操作文本转换成指令04(二)常用工具Python实现语音控制网页

Python实现语音控制网页需要用到的工具有Pyaudio库、wave库、pymouse库。工具描述Pyaudio是Python语言中的一个音频处理库,它允许开发者以Python的方式访问音频设备和流,并且可以进行音频录制、播放、流处理、信号处理等操作。Pyaudio库基于PortAudio音频I/O库,并提供了简单易用的API,可以让开发者轻松地完成音频处理任务。同时,Pyaudio库也支持多平台,在Windows、Linux、macOS等系统中都可以使用。wavePython标准库中的一部分,用于读取和写入WAV文件(一种常见的音频文件格式)。wave库提供了一个Wave_read类和一个Wave_write类,它们分别用于从WAV文件中读取音频数据和向WAV文件中写入音频数据。pymousePython的一个第三方库,它提供了模拟鼠标和键盘输入的功能。使用pymouse库,可以在Python程序中模拟鼠标和键盘的操作,比如点击、移动、滚动鼠标,以及按下、释放、组合键等。这对于自动化测试、图形界面自动化和游戏开发等场景都非常有用。04(三)语音控制网页的实现流程Python实现语音控制网页步骤描述实现代码1导入PyAudio模块importpyaudio2创建PyAudio对象p=pyaudio.PyAudio()3配置音频输入流,其中input_device_index为输入设备索引,input_channels为通道数,input_format为采样格式,input_rate为采样率,input_frames_per_buffer为缓冲区大小input_device_index=0<br>input_channels=1<br>input_format=pyaudio.paInt16<br>input_rate=44100<br>input_frames_per_buffer=1024<br>input_stream=p.open(input_device_index,input_channels,input_format,input_rate,input_frames_per_buffer,input=True)4开始录制音频数据input_stream.start_stream()5不断从输入流中读取音频数据,可以在其中对音频数据进行处理whileTrue:<br>data=input_stream.read(input_frames_per_buffer)<br>#处理音频数据6停止音频输入流,关闭音频输入流,终止PyAudio对象input_stream.stop_stream()<br>input_stream.close()<br>p.terminate()pyaudio获取音频输入流程获取音频输入04(三)语音控制网页的实现流程Python实现语音控制网页wave保存音频流程保存所录入的音频序号描述实现代码1打开一个WAV文件并返回一个Wave_read对象。file是文件名或文件对象,mode是打开模式,常见的模式有'rb'(只读)和'wb'(写入)。wave.open()2设置音频数据中的通道数,通常为1(单声道)或2(立体声)。Wave_write.setnchannels()3设置音频数据中每个样本的位数,通常为1(8位)、2(16位)或3(24位)。Wave_write.setsampwidth()4设置音频数据的采样率,通常为44100Hz、22050Hz或16000Hz。Wave_write.setframerate()5设置音频数据中的帧数,一帧包含多个样本。Wave_write.setnframes()04(三)语音控制网页的实现流程Python实现语音控制网页百度语音识别API的注册和使用通过百度语音识别API将语音转换成文本序号描述实现方法/代码1注册百度开发者账号,并在百度开发者中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论