多模态深度学习

上传人：w*** IP属地：江苏上传时间：2024-01-31 格式：DOCX 页数：8 大小：2.22MB 积分：15 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

MultimodalDeepLearning（多模态深度学习）未完待续原创

2016年06月22日08:53:40摘要：

本文提出一种在深度网络上的新应用，用深度网络学习多模态。特别的是，我们证明了跨模态特征学习——如果在特征学习过程中多模态出现了，对于一个模态而言，更好的特征可以被学习（多模态上学习，单模态上测试）。此外，我们展示了如何在多模态间学习一个共享的特征，并在一个特别的任务上评估它——分类器用只有音频的数据训练但是在只有视频的数据上测试（反之亦然）。我们的模型在CUAVE和AVLetters数据集上进行视-听语音分类，证明了它在视觉语音分类（在AVLetters数据集上）和有效的共享特征学习上是已发表中论文中最佳的。1.介绍

在语音识别中，人类通过合并语音-视觉信息来理解语音。视觉模态提供了发音地方和肌肉运动的信息，这些可以帮助消除相似语音（如不发音的辅音）的歧义。

多模态学习包括来自多源的相关信息。语音和视觉数据在语音识别时在某个“中间层”是相关的，例如音位和视位；未加工的像素是很难与语音波形或声谱图产生相关性的。

在本文中，我们对“中间层”的关系感兴趣，因此我们选择使用语音-视觉分类来验证我们的模型。特别的是，我们关注用于语音识别的学习特征，这个学习特征是和视觉中的唇形联系在一起的。

全部任务可分为三部分-特征学习、有监督训练和测试。用一个简单的线性分类器进行有监督训练和测试，以检查使用多模态数据的不同的特征学习模型（eg：多模态融合、跨模态学习和共享特征学习...）的有效性。我们考虑三个学习布置——多模态融合、跨模态学习和共享特征学习。

（如图1所示）多模态融合：数据来自所有模态，用于所有模态。跨模态学习：数据来自所有模态，但只在某模态可用。共享特征学习：训练和测试用的不同模态的数据。如果特征可以在跨不同模态下捕获相关性，这会允许我们进行评价。特别的是，学习这些布置可以使我们评估学到的特征是否具有模态不变性。

接下来，我们描述模型的构造块。然后，我们实现了不同的使用深度学习的多模态学习模型，这些模型可以实现不同的多模态任务。最后，我们展示实验结果和总结。2.背景

我们在布置中使用图3a模型。另一方面，当多模态适合任务时，并不清楚如何使用模型针对每个模态进行深度自编码训练。一个直接的方法是训练解码权重tied（这个我也不知道怎么理解）的网络。但是，这样的方法扩展性不是很好——如果在测试时我们允许任意模态相结合形成特征，我们将需要训练指数级数量的模型。

受到降噪自编码模型的启发，我们提出训练二模态深度自编码模型（3b），它使用了一个扩充（对单模态输入的扩充）但是有噪声的数据集。实际上，我们扩充时一个模态用全零作为输入，另一个模态用原始值作为输入，但是依旧要求模型重建这两个模态。因此，三分之一的训练数据只有视频作为输入，三分之一的训练数据只有语音作为输入，最后三分之一既有视频又有语音。

由于使用了稀疏RBMs进行的初始化，我们发现就算深度自编码训练之后，隐藏层单元还是有低期望激活函数。因此，当一个输入模态全设为零，第一层特征也接近于零。所以，我们本质上训练了一个模态特别的深度自编码网络（3a）。当某个模态输入缺失时，这个模型仍是鲁棒的。4.实验和结果

我们用分离字母和数字的语音-视频分类来评估我们的模型。稀疏参数采用交叉核实来选择，即其它所有参数都保持固定（包括隐藏层大小和权重调整）。4.1数据预处理

我们用时间导数的谱来表现语音信号，采用PCA白化（就是归一化）将483维减少到100维。

对于视频，我们预处理它以便于只提取嘴部的ROI（感兴趣区域）。每个嘴部ROI都缩放到60*80，进一步使用PCA白化减少到32维。我们用4帧连续视频作为输入，这近似于10帧连续的语音。对每个模态，我们都在时间上进行特征均值归一化，类似于去除直流分量。我们也注意到在特征里增加时间导数，这种用法在文献里有很多，它有助于模拟不断变化的语音信息。时间导数用归一化线性斜率计算，所以导数特征的动态范围可以和原始信号媲美。4.2数据集和任务

我们保证没有测试集数据用于无监督特征学习。所有的深度自编码模型都用全部无标签的语音和视频数据来训练。

我们注意到在所有的数据集中，就唇的外表、定位和大小是多样性的。对每个语音-视频剪切块，我们从其帧的重叠序列中提取出特征。由于每个样本都有不同的持续时间，我们将每个样本分割成S个相等的块，用平均值表示每块。来自所有块的特征随后连接在一

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多模态深度学习

文档简介

温馨提示

最新文档

评论

多模态深度学习

文档简介

温馨提示

最新文档

评论

相关文档