声音分类的迁移学习_第1页
声音分类的迁移学习_第2页
声音分类的迁移学习_第3页
声音分类的迁移学习_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、识别我们周围环境中的声音是我们人类每天很轻松就能做到的事情,但是对于 计算机相当困难。如果计算机可以准确识别声音,它将会在机器人,平安和许多 其他领域得到广泛应用。最近有许多与计算机视觉有关的开展,通过深入学习 和建立大型数据集如ImageNet来训练深入学习模型。然而,听觉感知领域 还没有完全赶上计算机视觉。谷歌三月份发布了 AudioSet,这是一种大型的 带注释的声音数据集。希望我们能看到声音分类和类似领域的主要改进。在这 篇文章中,我们将会研究如何利用图像分类方面的最新进展来改善声音分类。在城市环境中分类声音我们的目标是使用机器学习对环境中的不同声音进行分类。对于这个任务,我 们将使用

2、一个名为UrbanSound8K的数据集。此数据集包含8732个音频文 件。有10种不同类型的声音:冷气机 汽车喇叭儿童玩耍狗吠声钻孔发 动机空转枪射击手持式凿岩机警笛街头音乐每个录音长度约为4s0数据 集被组织成10个折叠。我们训练这些数据集,因为我们使用的脚本会自动生 成验证集。这个数据集是一个很好的开始试验的规模,但最终我希望在 AudioSet上训练一个模型。特性有许多不同的特性可以训练我们的模型。在相关的语音识别领域中,通常使用 mell -频率感知系数(MFC。MFCC的优点是它们是原始音频的一个非常稀疏 的表示形式,通常在16khz的大多数研究数据集中取样。然而,最近有一种直接针

3、对原始数据的培训模式的转变。例如,DeepMind设计了一个名为WaveNet的卷积架构来生成音频。这些Wave Nets是基于原始音频进行培训 的,它们不仅可以用于生成音频,还可以用于语音识别和其他分类任务。能够 在比MFCC功能更多的信息上对模型进行培训是件好事,但是Wave Nets可 以在计算上花费很高的本钱,同时也可以运行。如果有一个特性保存了原始信 号的大量信息,而且计算起来也很廉价,那该怎么办呢?这是就是频谱图有用 的地方。在听觉研究中,频谱图是在垂直轴表示频率,在水平轴表示时间的音 频的图示,而第三维颜色表示每个时间点x频率位置处的声音的强度。例如, 这里是小提琴演奏的频谱图:

4、链接:CC BY-SA 3.0,=202335 在这个频谱 图中,我们可以看到许多频率,是音符的基本频率的数倍。这些在音乐里被称 为和音。频谱图中的垂直线是弓在拉小提琴拉时的短暂停顿。所以看起来谱图 包含了很多有关不同声音的性质的信息。使用频谱图的另一个好处就是我们现 在把问题变成了一个图像分类,图像分类最近有了很多的突破。这是有一个可以将每个wav文件转换成频谱图的脚本。每个频谱图存储在与其类别相对应的 文件夹中。使用卷积神经网络现在声音被表示为图像,我们可以使用神经网络对它们进行分类。大多数图像 处理任务选择的神经网络是卷积神经网络(CNN )。使用UrbanSound8K数 据集的问题是

5、,它对于深度学习应用程序来说非常小。如果我们从头开始训练 一个CNN ,它可能会过度拟合数据,例如,它会记住在UrbanSound8K中狗 吠声的所有声音,但无法概括出现实世界中其他狗狗的叫声。这里.有Aaqib Saeed博客上使用CNN的例子。然而,我们将采取不同的方法使用迁移学 习。迁移学习是我们在一个神经网络上接受过类似的数据集的训练,并重新训 练了网络的最后几层来进行新的分类。这个想法是,网络的开始层正在解决诸 如边缘检测和基本形状检测的问题,这将推广到其他类别。具体来说,Google 已经发布了一个名为Inception的预培训模型,该模型已经接受了 ImageNet数据集中分类图

6、像的训练。事实上,Tensorflow已经有一个例如脚 本,用于在新类别上重新训练Inception。开始,我们将调整来自Tanticflow for Poet Google Codelab的例如。首先,运行此命令下载再培训脚本。curl -0 . githubusercontent. com/tensorflow/tensorflow/rl. 1/tensorflow /examples/image retraining/retrain, py现在我们可以运行脚本来重新训练我们的频谱图python retrain, py一一bottleneck_dir=bottlenecks一how_man

7、y_training_steps=8000一model_dir=inception一summaries_dir=training_summaries/basic一output_graph=retrained_graph. pb-output_labels=retrained_labels. txt一image_dirz:spectrograms在另一个终端选项卡中,您可以运行tensorboard 一一logdir training summaries开始一个tensorboard ,在浏览器中观察培训进度和准确性。在大约16k次迭 代之后,验证集的精度达大约到达86%0对于一个相当初步的分类方法来说还是不错的。accuracydefault/train default/validatlon long/train long/validation longest/train longest/validation分类来自麦克风的声音 现在我们有一个分类声音的模型,可以将其应用于分类麦克风声音。Tensorflow再训练例如有用于标记图像的脚本。我修改了这个脚本来标记麦 克风的声音。首先,脚本使用pyaudio从麦克风播放音频,并使用webr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论