1与图像或视频数据由人类标记的方法不同传感器注释是耗时_第1页
1与图像或视频数据由人类标记的方法不同传感器注释是耗时_第2页
1与图像或视频数据由人类标记的方法不同传感器注释是耗时_第3页
1与图像或视频数据由人类标记的方法不同传感器注释是耗时_第4页
1与图像或视频数据由人类标记的方法不同传感器注释是耗时_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘要:与图像或数据由人类标记的方法不同,传感器数据的注释是耗时的。而且传统的人类活动识别方法需要大量严格的类别标记数据来训练模型。在本文中,提出了一个基于注意力的卷积神经网络用于弱数据的行为识别注意力模型可以把注意力集中在一段长序列传感器数据中的特定活动上,以及过滤掉大量的背景噪声信号。在弱标记数能定位到在据集上进行实验,显示的注意力模型优于经典的深度学习方法。另外,长序列传感器数据中标记活动的位置,通过这种方法,可以自动给数据加上边界注释,大大促进了传感器数据注释的过程,相比于收集强数据,弱数据的收集更容易一些。:人类活动识别,注意力,卷积神经网络,弱标记,可穿戴传感器数据,中值滤波,突发检

2、测引言:本文的在于是否可以利用弱标记的传感器数据准确活动并确定标记活动的位置。不仅可以定位序列中的单次动作,还可以定位到序列中的多次动作。以及定位到不同持续时间的动作。以前用于人类活动识别的传统方法属于监督学习的范围。需要提取手工制作的特征作为分类器的输入,包括SVM(支持向量机),随机森林。还有 KNN 等。后来,随着深度学习的发展,特别是卷积神经网络的出现,用于 HAR 识别。虽然深度学习模型已经在行为识别中取得了一定的进展,但是仍有一些需要去解决,主要就是精确注释的数据集收集问题。 最近用于卷积的端到到可训练的注意力模块为图像分类而构建的神经网络架构已经被提出,受到启发,提出了一种基于弱

3、监督的人类活动识别方法。利用注意力机制训练弱的传感器数据并确定标记活动的位置。在本文中,利用基于注意力的卷积神经网络模型识别弱标记的传感器行动的数据集仅关心传感器数据序列中发生了什么活动,而不需要知道标记活动持续的具体时间。相关工作:本文的其余部分结构如下:部分 II 总结了人类活动识别的相关工作。在第三节,提出了对于结论。活动识别的注意力模型。部分 IV 呈现并检验实验结果。在部分五,得出本文的重点是从弱标记数据中学习检测器 ,数据只显示中存在的行为事件,没有额外的实例细节,以及它们在长序列中的位置。这种传感器数据容易收集。比如支持向量机还有KNN。加速度传感器可以持续捕获的加速度,当对象在

4、执行不同的活动时,活动的开始和结束都是未知的。本文使用的是经典的具有固定窗口大小的分段技巧。把分割成一个个长度为 2048 的序列。M:的每条数据是在卷积神经网络的基础上加入注意力机制的架构。在网络中,relu 激活函数被用在每一层卷积之后的线性输出在最后一层池化层的输出特征向量作为 attention 网络的输入,得到特征向量的概率分布,把概率分布与特征向量点乘之后,送入到一个密集连接的层然后加入到分类层以汇总到所有输出。(构建一个损失函数来训练网络中的参数)相关工作:传统的人类行为识别包括识别站立,坐下,躺下,走路等基本活动。考虑单传感器数据,加速度传感器在 x 轴,y 轴,z 轴上的运动

5、。可以将原始传感器数据通过卷积过滤器以捕获更高级的特征。将最后一个过滤器的输出平铺后,以产生传感器特征向量。得到传感器特征向量。进行分类任务,(损失函数是交叉熵函数)可以很好的识别出数据的简单模式,然后使用这些简单模式在更高级的层中生成更复杂的模式,当希望从数据集中的的固定长度片段中获得感特征在数据片段的位置不具有高度相关性时,以维卷积是非常有效的。高度相关性(用于手动提取特征的方法,Bao 和ille 12证实了加速度计传感器数据适用于活动识别。他们提取手工制作的特征(平均,能量,频率和域熵)来自加速度计数据,然后喂这些功能分为不同的分类器:决策表13,K-最近邻居(KNN)14,决策树15

6、和 Nave Bayes 13。Kwapisz 等人16也手动提取特征(即平均值和加速计传感器的标准偏差)智能,并认可六种不同的活动使用决策树(J48),多层感知等分类器(MLP)和逻辑回归。然而,基于特征工程17的这些方法的性能较低区分类似的活动,如走楼上和走到楼下18。此外,两者都难以选择适合的特征和从传感器数据中提取特征手动。因此,越来越多基于可穿戴传感器的活动识别旨在避免手工制作的功能设计,比如需要人工的操作和专业知识19,随着深度学习的快速发展,尤其是卷积学习神经网络(ConvNet),可以学习特征的同时进行分类。例如,Chen 和Xue 21将原始信号输入精密的 ConvNet,其

7、中有一个由三个卷积层和三个卷积组成的体系结构最大池数。此外,22改变了利用原始传感器信号转换成 2D 信号图像特定置换算法和离散算法,余弦变换(DCT),然后将 2D 信号图像输入两层 2D ConvNet 对此信号图像进行分类达到理想的活动认可。 Ordez等人23提出了一个由卷积和LSTM 重复组成的体系结构DeepConvLSTM),优于。然而,这些方法都属于监督学习24,为了训练。所有采用的方法都需要大量数据和准确的标注。一维卷积可以很好的应用在传感器数据的时间序列分析。比如分析具有固定长度的信号数据。关键在于输入数据的维度以及特征检测器(或者滤波器)如何在数据之间滑动。用来用户进行的

8、活动类型。N基本的模型:输入数据的处理:数据经过预处理(归一化后)后,每条传感器中包含有 2048 个时间点(数据以 50HZ 的采样频率进行的,因此每个时间间隔就有 2048/50 的加速度计数据。在每个时间间隔内,的输入矩阵。会加速度的 x 轴,y 轴,z 轴的三个数据,这样就得到了 2048x3第一个卷积层,第一层定义了高度为 3(也叫卷积核大小)(过滤器也叫特征检测器),只有定义了一个滤波器,网络才能在第一层中学到一个单一的特征,但是这可能还不够,因此我们定义了 32 个滤波器,这样可以在网络中训练得到 32 个不同的特性,输出是 204832 的矩阵。输出矩阵的每一列包含一个滤波器的

9、权值,在定义内核大小以及输入矩阵长度的情况下,每个过滤器都包含 2048 个权重值第二个卷积层,池化后的特征向量到第二个层中,将在这个网络层之上定义 64 个过滤器进行训练,按照第一层相同的逻辑。输出矩阵的大小为 51264池化层:为了减少输出的复杂度和防止数据的过拟合,在层之后会使用池化层,选择了大小为 4 的池化层。这意味着这个层的输出矩阵的大小只有输入矩阵的四分之一,为了学习更高级的特征,然后继续叠加卷积层,然后添加池化层,以进一步避免过拟合的发生。第二个卷积层,池化后的特征向量到第二个层中,将在这个网络层之上定义 64 个过滤器进行训练,按照第一层相同的逻辑。输出矩阵的大小为 5126

10、4dropout 层,会随机的为网络中的神经元赋值零权重,选择了 0.5 的比率,则百分之 50 的神经元会是零权重的,通过这种操作,网络对数据的微小变化的响应就不那么敏感了。能提高对不可见数据处理的准确性。最后会把 64128 向量降为长度为 4 的向量,因为有四个动作类别要,这里的维度下降是通过一个矩阵乘法来完成的,softmax 函数被用作激活函数,使神经网络的所有四个输出值的和为 1.输出值将表示这四个类别中的每个类别出现的概率大小。注意力模块:注意力模块结构是由三层全连接网络组成的,输出序列对应的概率分布。(然后对卷积特征进行)这里需要注意的是隐藏层权重初始化的设置,还有激活函数的使

11、用。把基础提取到的特征向量作为注意力网络的输入。Softention 机制介绍一下tention 是参数化的,因为可导,可以被嵌入到网络模型中去,直接训练,梯度可以经Sof过 attenton 机制模块,反向到其他部分。注意力机制在序列学习上有巨大的作用。对源数据进行变换,可以有效提高序列的表现。Attention 网络输出的向量分布是软分布的,直接影响对于上下文信息的选择作用。tention 相当于给输入的向量打分,提示输入的哪些部分内容是重要的,哪些内容Sof是次要的。对应了输入应该注意的位置和相对的权小。soft 的意思是通过 softmax 函数进行归一化的,权重总和为 1。这里通过概

12、率的大小表示注意的程度深浅。加入 attention 会对输入进行一次权重筛选。通过的方式,让网络学到时序上的结构关系。attention 让系统更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。需要注意的是:Attention 的优势不需要强监督信号。对于认知先验极少,显得极为有效。加入 attention 网络是为了学习权重分布:因为输入数据或特征图上的不同部分对应的专注度不同,得到概率分布会在特征图上每个元素(所有分量)进行。中值滤波:利用三层神经网络得到的注意力概率分布,标记动作的概率分布相对而言比较大,而其他背景动作则被抑制掉了接近于 0,设定一个固定的阈值使

13、得标记动作的区间变为突发信号 1,而背景动作的区间部分则是对应信号 0。但是学得的概率分布存在一个问题,由于最后一层的激活函数使用的是 tanh 激活函数(tanh 激活函数讲解),就会产生了一些异常点,影响阈值设置的方法。中值滤波器是一种统计排序滤波器,用统计排序结果决定的值代替中心像素的值。中值是一个将概率分布的高半部分和低半部分分开的值,中值滤波就是将邻域内像素(包括中心像素值)灰度的中值代替中心像素的值中值滤波提供了一种优秀的去噪能力。因为噪声的出现,某值比周围的值暗许多,若与周围的值一起排序,噪声点位于序列的前端或者末端,序列中值没有受到噪声的影响,可以利用 中值取代原值来达到去噪声

14、的效果。在每个像素位置上都要对一个矩形的所有像素点进行排序。中值滤波?中值滤波,是对一个滑动窗口内的值进行排序,用其中值代替窗口中心值的的原来灰度值,是一种非线性的平滑方法。在抑制噪声的同时,还能有效保护边缘。中值滤波可以过滤尖峰脉冲,目的在于对于滤波后的数据更感。过滤后的数据不仅保留了原序列的变化趋势,同时去除了尖峰脉冲的影响。举例:以一维信号的中值滤波,比如对灰度序列,80,120,90,200,100,110,70 。如果按大小顺序排列, 其结果为 70,80,90,100,110,120,200.其间位置上的灰度值为 100 ,则灰度序列的中值为100.一维信号中值滤波实际上就是用中值

15、代替规定位置。(一般指原始信号序列中心位置的 信号值)。中值滤波的结果是用中值替代序列中的信号序列中心位置值 200.得到得滤波序列就是 80,120,90,100,100,110,70.如果 200 在此序列中是一个噪声点,用此方法可以去除这个噪声点。一维序列的滤波 :把滤波区间的数据从小到大进行排序,然后取中值。注意滤波器窗口的长度中值滤波方法可以有效消除异常波动点,可以使概率分布变的更平滑,不管是对于特定动作部分,还是背景动作部分。经过中值滤波之后,这样可以列举动作的发生区间,不仅能够检测到标记动作的单个发生区间。也能够检测标记动作的多个发生区间。怎么对应到原来长度的序列中:因为现在的序

16、列长度为 64,要对应到原始序列长度为 2048 的传感器序列长度上,把 64序列长度的每一个采样点得到的值对应到原始序列 32 长度对应的值上,这样就完成了在一段原始传感器序列对于弱特定动作的分类和定位。权重的初始化部分是一个比较值得注意的部分总结:通过本模型的提出可以给弱数据自动加上边框注释,省去了许多人力物力。几个模块包括卷积模块、注意力模块、中值滤波模块、定位模块实验部分注意力模型在弱标记的传感器数据集的表现。(是否能识别传统的人类活动识别)弱监督人类活动识别的表现。实验使用简单的模型和 DeepConvLSTM23中模型作为基线模型。其中的层具有 128 个基线模型由四个卷积组成,具

17、个卷积滤波器和两个完全连接的图层,然后输出分类由 Softmax 层得出的结果。使用默认参数根据23设置 DeepConvLSTM。第三,注意模型的位置性能。实验在带有 CPU 的工作站上进行 AMD Ryzen 5,8 GB 内存和 NVIDIA GPU 1050 配 5GB 内存。所有算法都在中实现通过使用机器学习框架 TensorFlow。在里面实验中,时代的数量设定为 100 和 adam 优化方法用于训练速率设置为 0.001,输入批量大小为 64.数据集部分:这里差一个图的模型。学习图 3.弱标记数据 ,比如标记的活动是“上楼”,并且背景活动是走路。弱数据集包含五种活动:走路,慢跑

18、,跳跃,上楼和下楼。需要注意的是背景活动是走路对于其他动作来说。该数据集是从苹果里 3 轴加速度计中收集的,智能加速度计的采样率为 50HZ,也就是一秒采 50 个点数据。通过区分不同的参与者来划分原始数据,然后使用 40.96 秒的固定宽度滑动窗口(窗口长度为 2048)对数据进行采样。最后,这个收集的弱标记数据集由四万多个序列组成,其中,百分之 70 用于培训,百分十用于验证,百分之 20 用于测试注意力模型产生明显的性能提高 4.21和 3.79。具体来说,Net3-pc-tanh 型号达到了 3.65,比基本注意到注意机制有利于实现模型专注于应该标记的活动领域在忽略背景活动的同时提取重

19、要的特征信息。方法可以进行定位实验,关注弱标记数据,可以对序列进行手动标记 bounding box,明确确定标记活动的位置。研究了基于注意力的卷积神经网络用易穿戴的传感器识别弱标记的人类活动。模型可以实现若标记的数据集。通常,数据器很难保持固定的活动,并且在数据收集过程中,弱标记的传感器的数据不可避免的发生、基于注意力机智的卷积神经网络可以大大促进数据收集过程,弱标记数据避免了传统数据注释的耗时过程,并不会增加过多的计算成本。通过模型,可以确定在长数据序列中弱标记活动的具置。将来,利用该位置完善模型的功能,以提取的特定细分。从弱标记的数据集作为人类活动的数据集进行识别,然后评估性能。Tanh

20、 激活函数为什么在训练深度网络时,合适的权重初始化是如此的重要。如何使用不同的方法初始化神经网络中的每层权重?权重初始化的目的是防止在深度神经网络的正向过程中层激活函数的输出梯度出现或者。如果损失梯度太大或者太小,就无法有效向后矩阵乘法是神经网络的基本数算,在多层神经网络中,一个正向需要在每层对该层的输入和权重矩阵执行连续的矩阵乘法,这样每层的乘积成为后续层的输入。输入向量包含网络输入,确保是被归一化的,把层权重值用标准正态分布进行初始化不是好的。权重太大或者太小都无法很好的进行学习。矩阵乘法 定义:将输入向量的每个元素和矩阵的每一列所得的成绩相加,每个 512 乘积的均值为 0,标准差都为

21、1.每层输出具有大约 1.5 的标准差,这样可以使在可能多的网络蹭上重复矩阵乘法,而不会发生梯度或者。Tanh 激活函数是基于定点对称的,并且该函数曲线在一定数值的范围内,tanh 双曲正切函数就是这样的一个函数。假设在网络的每一层之后加双曲正切函数,然后看看当使用权重初始化会发生什么?权重缩放是什么意思?使用标准权重初始化方法运行 100 层 tanh 函数会导致激活梯度变得无限小,就像样正则化初始化?Xavier 初始化 将每层权重设置在有界的随机均匀分布中选择值了一Xavier 初始化能将激活函数和反向梯度的方差,一直向上或向下到神经网络的每一层。若不使用 xavier 初始化,直接使用

22、标准初始化会导致网络较低层的权值梯度与最上层的权值梯度的差异更大。从概念上讲,当使用关于零对称且在【-1,1】内有输出的激活函数,希望输出的每层激活值的平均值为 0,平均标准偏差大约为 1 是有道理的,为什么呢?保持层激活的标准偏差大约为 1 允许在深度神经网络中堆叠。层而不出现梯度或者卷积:对于输入的每一张特征图,使用和图像一样的核卷积进行点积运算,整幅图变成一个数。如果是 20 个卷积,那就是 20 个核卷积完了进行求和,序列就浓缩成了一个数。层与层之间是全连接的,每一层任意一个神经元是与前一层所有的神经元相连接。这种连接代表了一种权重加和。除了输入节点,每个节点都是一个带有非线性激活函数的神经元。激活函数是用来加入非线性的,因为线性模型的表达能力不够。激活函数:就是作用在神经网络的神经元上函数,负责将求和的后的输入到输出端Tanh 双曲正切函数,将输入到一个-1 到 1 的值。(导数是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论