无线传感器海量数据处理.doc

上传人：油*** IP属地：浙江上传时间：2020-11-14 格式：DOC 页数：10 大小：118.51KB 积分：20 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、WSN海量数据处理读书报告杨立摘要：目前对无线传感器网络中的海量数据处理的研究大致分为基于海量数据的研究、基于数据处理的研究以及最终的分类识别。在数据处理层面，人们主要的研究方向是对数据的特征提取与选择，数据的融合技术。最终的分类识别着重关注对特征进行分类识别或对特征进行组合建模后分类识别以达到最终的判定。而在对无线传感器网络所产生的海量数据的研究中，人们主要对数据流与海量数据的存储做了深入细致的研究。本文通过对近年来WSN数据处理相关文献的研读对其海量数据处理的整个过程进行了一个系统的概述。关键词：特征提取与选择数据融合 WSN 流数据模式识别0 引言传感器网络中不论是传感器的数量

2、还是类型都是多种多样的，它包括目标的探测、数据关联、跟踪识别、情况评估与预测几个层面。目前对无线传感器网络中的海量数据处理的研究大致分为基于海量数据的研究、基于数据处理的研究以及最终的分类识别。在数据处理层面，人们主要的研究方向是对数据的特征提取与选择，数据的融合技术。最终的分类识别着重关注对特征进行分类识别或对特征进行组合建模后分类识别以达到最终的判定。而在对无线传感器网络所产生的海量数据的研究中，人们主要对数据流与海量数据的存储做了深入细致的研究。1 数据处理在数据处理层面上主要分为两部分，首先是对数据进行特征的提取与选择。这里的特征是对于不同信号来说的。在无线传感器网络中，其各类传感器所

3、产生的信号类型也是多种多样的。因此对不同类型的信号分别进行特征的提取与选择就显得尤为重要了。其分析了各种特征的有效性并选出最有代表性的特征。这些特征有效地降低了特征空间的维度。其次是对数据的融合，无线传感器网络信息采集的过程中，会产生大量的冗余信息。为了使大量的通信带宽和宝贵的能量资源得以节省，数据融合技术就显得尤为重要了。1.1 特征的提取与选择特征的提取与选择直接面向目标信号本身，是信息感知的第一步也是至关重要的一部。特征选择的适当与否直接影响到整个信息处理系统的设计复杂度，并决定了系统的准确性。1.1.1特征提取特征提取，即在原始特征中挑出一些有代表性分类性能最好的特征。特征提取的方法有

4、很多,总结起来可以归为四大类：基于基本统计方法的特征提取,基于模型的特征提取,基于变换的特征提取基于分形、维数的特征提取。通过这些特征提取后的特征矢量能够达到较好的分类效果。文献1中介绍了一种基于小波包分析的拉索损伤声发射信号特征提取方法，采用ANSYSKSDYNA模拟得到拉索损伤声发射信号的仿真信号，从小波包分解层次、特征频带数量的选择及特征参数的噪声鲁棒性三个方面开展了讨论分析。小波包能量谱的特征参数具有较强的损伤类型敏感性及噪声鲁棒性，当选取合适的小波包分解层次时，可以在强噪声影响下实现对拉索不同损伤类型的判别。对于非平稳性、非线性过程的信号处理，文献2中提出一种基于经验模态分解的目标

5、特征提取与选择方法，可以自适应地将信号的局部特征逐级分解出来。将本征模态函数IMF分量及其瞬时频率作为特征,并选择其判别熵作为特征向量的可分性度量。与小波变换相比IMF不需要预先设定基函数，可根据信号自身的特征进行分解，具有自适应性，所得的本征模态分量突出了数据的局部特征，非常适用于非平稳性G非线性过程的信号处理中。文献3中提出了使用功率谱二次处理对地震信号进行特征提取的方法。将经典的语音特征处理算法根据地震信号的特点进行有针对性的改进，通过对信号的功率谱进行二次处理, 实现了对信号功率谱及频率的同时检测。文献4提出了利用最大熵ARBurg功率谱估计法对进入无线传感器网络区域中的车辆信号进行谱

6、特征提取，具有很强的可操操作性、可重复性和参考性。文献5 针对探地雷达的回波信号具有非平稳特征为实现非平稳信号的检测和分类采用了二进小波变换主分量分析与Fisher 线性判别分析和前馈多层感知器分类器分别对探地雷达回波信号进行小波分解去相关与特征选择和分类，其克服了基于Fourier 变换的分析方法对非平稳信号进行特征提取时会平滑了非平稳信号的局部特征从而导致其分类效果不佳的缺点，取得了一定的效果。文献6在研究地面目标声震信号识别过程中提出基于局域判别(Local Discriminant Bases，LDB)算法的特征提取方法。并且，针对现有的基于时频能量图的可分性测度的缺点，提出新的基于

7、概率密度估计的相对微分熵的可分性测度在一定程度上提高了目标的正确识别率，降低了特征维数。文献7在研究应用最优小波包变换的特征提取方法的过程中提出了应用三种可分性准则，即距离准则，散度准则和熵准则选择最优基。三种可分性准则比较而言，距离准则简单直观，散度准则更适用于正态分布模式，当模式类别具有同样的均值时可使用熵准则，并且使用这些准则只需根据训练样本集计算模式的两个重要统计量，即均值和方差.但为获得较稳定的特征，需较大的训练样本集。1.1.2特征选择特征选择就是通过消除冗余、不相关及被噪声污染的特征，从而达到降低特征空间维数的目的。它实际上就是从一个原始的特征集合中选取一个特征子集的过程。有时是

8、采用某种变换技术，得出数目比原来少的综合性特征用于分类，这称为特征维数压缩。特征选择的过程如图1所示，首先从原始特征集合中选出一个特征子集，然后通过评价函数对其进行评价，若满足特征子集停止迭代的要求即停止，否则产生新的特征子集继续迭代。特征的选择主要分为两个方面，一是特征选择的标准，二是特征子集的选择算法。发图1 特征选择的过程特征选择标准的作用实际上是对特征子向量好坏做一个界定。可分为滤波器型（Filter）、封装型（Wrapper）、和混合型（Hybrid）。滤波器型一般用特征子集的内在特性来评估特征的好坏，如距离测度、相关性测度及一致性测度等。封装型实质上是一个分类器，封装器用选取的特征

9、子集对样本集进行分类，分类的精度作为衡量特征子集好坏的标准。而混合型算法则是滤波器型和封装型的叠加。按照搜索方式的不同，特征选择算法可分为完全搜索、序列搜索以及随机搜索三类。基于完全搜索的特征选择算法能保证找到最有的特征子集，但其计算十分复杂，很少应用于实际工程中。基于序列搜索的特征选择算法拥有最小的计算复杂度，对于搜索空间中只有单一极值的最优问题效果理想，而对多极值问题容易陷入局部最优点。随机搜索的复杂度介于前两者之间，且随机搜索有助于摆脱局部最优点，目前应用最广泛。1.2 数据融合技术由于大多数无线传感器网络应用都是由大量传感器节点构成的，共同完成信息收集、目标监视和感知环境的任务。因此，

10、在信息采集的过程中，采用各个节点单独传输数据到汇聚节点的方法显然是不合适的。因为网络存在大量冗余信息，这样会浪费大量的通信带宽和宝贵的能量资源。此外，还会降低信息的收集效率，影响信息采集的及时性。为避免上述问题，人们采用了一种称为数据融合（或称为数据汇聚）的技术。所谓数据融合是指将多份数据或信息进行处理，组合出更高效、更符合用户需求的数据的过程。在大多数无线传感器网络应用当中，许多时候只关心监测结果，并不需要收到大量原始数据，数据融合是处理该类问题的有效手段。数据融合技术涉及到检测技术、模式识别、决策论、不确定性理论、估计理论、最优化理论等众多学科领域。1.2.1 WSNs数据融合结构目前对

11、于无线传感器网络信息融合结构的分类还没有一个明确的标准。文献8中给出了一个基于信息表征层次的划分，将其分为数据级融合、特征级融合、以及决策级融合。数据级融合，就是直接到采集的原始数据层上进行融合。如图2，这种融合的主要优点是原始信息丰富。但其所要处理的传感器数据量巨大，处理代价高。数据级融合的主要方法有：HIS变换、PCA变换、小波变换等。特征级融合属于中间层次，它首先对来自传感器的原始信息进行特征提取，然后对特征信息进行综合分析和处理。如图3所示，其实现了可观的信息压缩，有利于实时处理，能最大限度地给出决策分析所需要的特征信息。目前大多数C3I系统的数据融合研究都是在该层次上展开的。特征级融

12、合的方法有：DempsterSharer推理法(DS方法)、表决法、神经网络法等。决策级融合是一种高层次的融合，其结果可为指挥控制与决策提供依据。如图4所示，决策级融合是三级融合的最终结果，是直针对具体决策目标的融合结果直接影响决策水平。目前，决策级数据融合方法主要有：贝叶斯估计法、专家系统、神经网络法、模糊集理论、可靠性理论以及逻辑模板法等。图2 数据级融合图3 特征级融合图4 决策级融合文献7中将数据融合层次结构分为网络层的数据融合、应用层的数据融合、独立的数据融合层。其中网络层的数据融合，WSN网络层的数据融合主要采用以数据为中心的路由协议。优点是：数据融合在路由过程中实现，可以有效减少

13、传输能耗和时延；问题是：跨协议层理解应用层数据的语义，会增大网络层的数据融合计算量。应用层的数据融合，基于查询模式的数据融合算法是应用层数据融合的研究方向，其算法思想是将WSN看作是一个分布式的数据库，采用分布式数据库技术来收集数据，应用层接口与SQL相似。独立的数据融合层，对多个数据包进行合并，减少数据封装头部开销和MAC层的数据发送冲突来节省能耗。独立的数据融合不能最大化网络的生存时间，只是利用了数据融合减小MAC层的拥塞冲突。因此，独立的数据融合技术应用还不是很广泛。1.2.2数据融合方法分类及研究现状根据不同的融合规则，可分为不同的类型，例如有损融合、无损融合、依赖于应用的数据融合、独

14、立于应用的数据融合、基于分布式数据库的数据融合3、基于中心的数据融合等。下面从如何有效降低数据传输量和能量方面对WSN中现有的数据融合方法进行分类，介绍其研究进展情况。（1）、基于生成树的数据融合在WSN中，汇聚节点在收集数据时，是通过反向组播树的形式从分散的传感器节点逐步将监测数据汇集起来的。从而达到减少网络拥塞，降低能耗，减轻监测延时，增加数据包传送速率的目的。现有的基于生成树的数据融合算法采用的主要是近源汇集(center at nearest source，CNS)、最短路径树(shortestpaths tree，SPT)、贪婪增量树(greedy incremental tree，

15、GIT)，以及对它们进行的改进算法。基于生成树的数据融合方法虽然能够实现对传输的数据进行融合的功能，但是有些问题仍需关注。首先是生成树的构建和融合时机的确定问Steiner树比较适合事件驱动的应用。另外，基于WSN的特点，有效的数据融合生成树的构造算法应该具有时间复杂度低以及分布式的特点。其次，应该考虑数据融合生成树的维护问题。当节点失效时，需要对生成树进行维护。生成树的维护可采用周期性更新和事件触发两种方式。其实，这个问题就是如何平衡网络能量消耗。而且，维护这些数据融合结构的能耗开销应尽可能小。（2）、基于时空相关性的WSN数据融合在WSN中，同一地点布置了许多传感器，这些传感器之间的相对

16、距离较近，其观察值在时间和空间上存在相关性，导致数据冗余现象。因此，如何消除多传感器间的时空相关性。以降低网络传输数据及节省网络能量和开销，值得研究。时间和空间上的这种相关性也是设计数据融合方法的主要依据。目前现有的文献对时空相关性的WSN数据融合的研究大致分为两类，一种是时间或空间融合模型，另一种是时间和空间相结合的融合模型。典型的时间融合模型是TiNA(temporal coherency-aware in-network aggregation)7，它利用传感器节点采集数据的时间一致性进行网内融合。其基本思想是，只有当前采集的数据与上一次采集的数据的差值大于某个用户指定的容忍限度时，节点

17、才进行数据发送。这种方法对于监测数据波动较小的应用十分有效，能够显著地减少网络中的数据传输量。然而，当监测数据波动较大时，TiNA的作用就不是非常明显了；而且TiNA对于节点存储空间的要求比较高，尤其当网络规模较大时，转发节点需要保存大量的额外信息。空间融合模型8应用于WSN事件监测。该模型完全用节点间距离远近来衡量节点观测值间的相关程度，而实际上离事件源距离相同的节点的观测值间的相关性更高。时空融合模型是消除时空相关性的数据融合研究的发展趋势，此类模型主要是对时间融合和空间融合进行组合排序，融合性能不但取决于进行时间与空间融合的先后次序，而且还与具体采用何种融合方法有关，这些都需要做进一步的

18、定量分析。目前的研究主要有D-S证据理论进行空间融合，没有达到很好的节能与减少时延的效果，从而限制了其广泛应用。（3）、基于路由的WSN数据融合基于路由的WSN数据融合有两个主要的目的，即寻找最佳路径和对数据进行融合、传输。目前WSN的主要路由协议有四种：数据为中心的路由协议、基于集群(Clustering)结构的路由协议、基于地理信息(Geographic)的路由协议和基于服务质量(QoS，Quality of Service)的路由协议。路由驱动型数据融合算法主要基于两类路由协议：以数据为中心的定向扩散路由协议和关于集群结构的分层聚簇路由协议。A、定向扩散路由型数据融合定向扩散协议(dir

19、ected diffusion，DD)是一个以数据为中心的路由和融合协议，为WSN提供有效的能量通信。在定向扩散协议中，数据融合包括路径建立阶段的兴趣(interest)融合和数据传输阶段的数据融合。然而，毕竟DD主要解决的是WSN中的路由问题，其中涉及的数据融合技术相对较为简单。同时，DD中的数据融合是基于其提出的属性值对而设计的，与具体应用关系非常紧密，是以数据为中心的一种数据融合技术。另外，在DD中，数据传输路由的确定还取决于节点到sink的时延，时延小的路径将被确定为数据传输路由。但这种方法并不利于邻近节点的数据融合，因此可采用改进的GIT算法。B、分层聚簇路由型数据融合低能耗自适应聚

20、类分层(low-energy adaptive clustering hierarchy，LEACH)12协议是典型的WSN路由协议，通过定期选举一些簇头节点，形成基于层次结构的路由机制。该路由协议可以支持簇头节点中的数据融合，能够体现出尽早进行数据融合的原则和优势。不过，LEACH仅强调了数据融合的重要性，并未给出具体的融合方法。而且，仅仅在簇头实施数据融合，簇内节点直接将原始数据送到簇头的策略也没有充分利用相邻节点间的数据相关性来减少簇内节点传输的能耗。因此在文献无线传感器网络数据传输及融合技术14中，将其与PEGASIS算法分类为集中式数据融合的算法。并介绍了分布式数据融合算法，将一个规

21、则传感器网络拓扑图等效于一幅图像，获得一种将小波变换应用到无线传感器网络中的分布式数据融合技术。总的来说，路由驱动型数据融合算法与具体路由的建立关系密切，还涉及到融合节点的选择、融合时机的选择及如何进行数据融合处理等问题。在路由驱动型数据融合算法中仍然有很多关键问题未解决，如融合增益与能量和通信服务质量的平衡、支持拓扑频繁改变的数据融合算法、安全数据融合等同题。（4）基于时域预测的WSN数据融合基于时域预测的WSN数据融合是利用节点采集数据在时间上有固定的采样周期的特点，对已经采集的数据在时间上排序并分析数据幅值变化情况，建立能够反映数据在时间上动态变化的数学模型，预测将来的数据值。当实际采集

22、的数据值与预测值之差超过给定的阈值时，对新采集的数据进行无线传输。通过预测，减少不必要的数据传输，从而降低网络能耗，延长网络的生命周期。基于时域预测的数据融合算法与TiNA有相似之处。二者都属于时域数据融合。它们的主要区别在于TiNA是一种被动的数据融合算法，节点比较的是当前采样数据与前一个周期的采样数据。而基于时域预测的数据融合算法是根据历史数据进行数据的预测，若预测数据与当前采集数据之差小于阈值，则不发送当前数据。服务器使用其预测数据从而达到减少通信量的目的。现有文献采用的预测融合方法主要包括：自回归(AR)模型、移动平均(MA)模型以及自回归移动平均(ARMA)模型等。文献无线传感器网络

23、中基于预测的时域数据融合技术13中介绍了对自回归预测算法、移动平均预测算法、以及指数平滑预测算法进行了以温度为测量数据进行仿真得出一阶自回归预测算法与其它预测算法相比。具有更好的适用性，当误差闲值为O.05-0.50时，预测成功率为21-83；当误差阈值为O.05时节能收益达到68。（5）、基于数据包合并的数据融合数据包合并是WSN中一种有效的数据融合算法。数据包合并的主要思想是当某个节点收到多个子节点发来的数据包时，将它们合并成一个大的数据包，然后将合并后的数据包发送到父节点。在WSN中，数据字段相对较短，而控制字段相对较长。数据包合并能够有效地降低包头的开销。典型的数据包合并算法包括数据漏

24、斗(data funneling)以及AIDA(application-independent data aggregation)15等。数据漏斗实质上是一种基于簇的数据融合，簇头节点负责合并簇内节点的数据包。然而，数据漏斗要求节点具有自身的位置信息，并且有可能产生漏斗效应(funnelingeffect)。AIDA是一种与应用无关的数据融合算法，实质上是在MAC层与网络层之间加入了一个数据融合层进行数。据包合并的操作。通过数据包合并，AIDA能够有效地减少网络中的数据传输量，降低无线信道中发生冲突的可能性。然而，AIDA与应用相互独立，无法利用高层次的语义信息对数据作进一步的压缩，因此其融合

25、度相对比较低。综上数据融合技术是为适应WSN以数据为中心的应用而产生的，主要关注如何对采集到的或接收到的其它传感器节点发送的多个数据进行融合理，消除冗余信息，然后再传输处理后续数据，其重点在于减少需要传输的数据。关于数据融合的研究虽然已经取得了很大进展，但是研究工作尚处于起步阶段，大量问题还没有涉及到。因此，对于WSN数据融合算法的设计与分析既具有很高的研究价值和创新性，又存在一定的挑战性。2 分类识别在无线传感器网络模式识别与分类中，分类器的作用是对特征向量惊醒某种变换和映射，将特征向量从特征空间映射到目标类别空间，从而得到识别结果，其实质是分类器对特征空间进行适当的划分，从而形成决策区域。

26、基本做法是在样本训练集基础上确定某个判决规则，使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。桥梁结构是陆地交通运输网络中的关键部位，为确保桥梁结构在整个服役期间的安全性和服务功能，对重要桥梁结构实施健康监测和安全性评估是十分必要的。作为健康监测和安全性评估系统的核心技术的桥梁结构损伤识别更是成为国际上研究的热点本章就基于无线传感器网络的桥梁结构损伤识别进行一个总结，对近年来基于振动分析和结构动力学参数的结构损伤识别理论进行了比较系统地总结和评述。近年来基于振动测试的桥梁结构损伤识别的研究主要可分为三个方面，(1)基于模型修正理论的损伤识别，(2)结构损伤指数法，

27、(3)人工神经网络法。2.1基于模型修正理论的损伤识别基于模型修正理论的结构损伤识别的方法就是利用试验模态分析结果修改理论有限元模型的刚度矩阵、质量矩阵等模型参数，在保证模态参数自身精度的前提下，使修正后有限元模型的振动参数与试验值相同。集中经典的方法有：矩阵优化修正方法，矩阵优化修正法试图通过寻求某种优化目标并满足一定约束条件的矩阵或矩阵参数修正来修正模型。子矩阵修正法，子矩阵修正法对待修正的子矩阵或单元定义修正系数，通过对子矩阵修正系数的调整来修改结构刚度矩阵。以及敏感性分析法和特征结构分配法。文献16 基于静载试验进行桥梁结构损伤识别，以桥梁结构有限元为工具，把当前结构模型中各单元的等效

28、面积、惯性矩以及板壳单元的厚度作为识别参数p，建立识别参数对于各种量测的灵敏度矩阵 Sp。通过优化方法不断调整当前计算模型的参数，使结构响应与相应的试验值最大程度地吻合，从而得到结构参数变化的信息。并通过换杆的形式模拟结构局部构件的退化，得到不错的效果。2.2基于损伤指数的损伤识别损伤指数法是利用结构振动测试直接得到的振动响应的时程(位移、速度、加速度时程)或经过变换分析得到的结构的动力学参数作为损伤指示信息来识别结构损伤位置和程度。基本方法有：利用模态参数(频率、振型)的损伤识别，主要通过对两个不同阶频率变化比或结构损伤前后振型来实现损伤定位。利用振动响应时程或其变换，其中包括基于波形的识别

29、指标、用小波分析技术处理振动响应信号的损伤识别方法以及利用结构振动响应的时域变换方法等。文献17小波变换在桥梁结构损伤识别中的应用，通过小波变换极大值点同信号突变点及其李氏指数之间的关系，采用小波变换极大值在多尺度上的变化规律来表征信号突变点的性质，从而确定信号有无奇异点并确定其位置，进而对桥梁进行损伤识别。并进行单裂缝悬臂梁的静力试验，达到精确定位裂缝位置的目的。2.3基于人工神经网络的损伤识别人工神经网络法神经网络损伤识别法实际上就是用一些已知损伤的响应或理论上构建的样本集来训练神经网络，使网络达到一种相对平衡的状态，利用网络训练后的映射关系和网络的泛化能力，根据输入的结构实测响应，得到损

30、伤的位置及损伤程度。目前采用的网络主要是BP网络、径向基函数(RBF)网络和hopfield网络。对于神经网络方法，除神经网络的构建外，最关键的就是损伤识别指标的选取，一般的都取振型和频率的组合或在二者的基础上加工出新的更能反映损伤前后变化特征。文献17基于CS和神经网络的传感器网络模式识别研究将压缩感知技术与BP神经网络相结合应用于传感器网络，对传感器网络中传输的数据进行压缩，降低传输数据量，然后在接收端重构数据，将该数据样本作为BP网络的输入进行识别。提高网络数据存储能力和带宽利用率。文献16基于RBF神经网络设计的桥梁结构损伤识别方法研究，从径向基函数（RBF）神经网络结构、网络设计和网

31、络训练算法等方面论述了神经网络理论。并以一座装配式预应力钢筋混凝土系杆拱桥为工程实例，通过改变构件的弹性模量降低单元刚度来模拟结构损伤程度，并以任意三组向量对网络进行测试，说明了基于频率参数和RBF网络方法的结构损伤识别的可行性和准确性。3 流数据及海量数据存储对于科学发展的今天，人们得到的信息量是成倍的增长，数据的来源也是越来越多样化，因此需要处理那些庞大的数据集，这些数据都是以很快的速度无限不停的产生，并且是随着时间的变化而变化，这就是一种新式数型流数据。流数据的特点是数据持续到达，且速度快、规模大。其研究核心是设计高效的单遍数据集扫描算法，在一个远小于数据规模的内存空间里不断更新一个代表

32、数据集的结构概要数据结构，使得在任何时候都能够根据这个结构迅速获得查询结果。在无线传感器网络中，系统有成千上万个传感器在同时工作，每个传感器每秒钟获取一个测量值，每个传感器就会产生一个随时更新变化的时间序列数据流，整个系统形成一个多数据流并行的数据环境。因此，对数据流的分析与信息存储在无线传感器网络的研究中起着至关重要的作用。3.1 数据流挖掘的基本技术目前大部分数据流流挖掘方法都基共同的基本技术，如概要数据结构、抽样、滑动窗口、衰减函数、倾斜时间构架等。(1) 概要数据结构。是通过应用概要技术，生成的比当前数据流小得多的数据结构，它是当前数据流的概要描述。新的流数据处理技术并不保存整个数据集

33、，仅维护一个远小于其规模的概要数据结构18，从而能够常驻内存。对于不同数据流算法，其概要数据结构相差很大。目前已经提出了多种概要技术包括有：频率矩、直方图和小波分析等等。(2) 抽样。通过一定的概率来决定一个数据元素是否被处理。这样可以避免处理整个数据流。但在数据流模型中，抽样技术的问题是不可能预先知道流的长度。一种方法19采用水库抽样技术较好的解决这个问题；在抽样技术中另一问题是数据流其流动率是不是稳定的。故对那些需要监测不规则且浮动上下的流数据是个较好的选择。(3) 滑动窗口。滑动窗口模型基于这样一个事实：“用户对于最近的数据更感兴趣”。从而使人们只对少量的近期数据做细节分析，而对大量的历

34、史数据，只给出一个概要结构20。而达到只需存储小的数据窗口，减少对内存的需求。滑动窗口一个缺陷是要求用户预先指定窗口的尺寸，有些应用中，不太可能知道窗口的大小。(4) 衰减函数。也是一种强调近期数据的重要性、消减历史数据对计算结果影响的方法，主要利用衰减函数和衰减因子，数据元素在参与计算前，先经过衰减函数的作用22。从而使每个数据元素随着时间的推移逐渐减少对最终结果的影响。常用的衰减函数形式是Cao 等人提出的Den-Stream算法25采用的衰减函数形式： f (t) = 2-lt，l 0。3.2数据流管理系统传感器网络本质上是一个以数据为中心的网络，它处理的数据为传感器采集的连续不断的数据

35、流。因此，现有的数据管理技术把无线传感器网络看作为来自物理世界的连续数据流组成的分布式数据库。3.2.1 感器网络数据库系统体系结构典型的传感器网络的系统结构包括资源受限的传感器节点群组成的多跳自组织网络、资源丰富的Sink节点、互联网和用户界面等24。映射到传感器网络的分布式数据库系统也采用两层体系结构，如图1所示，它是由运行在传感器节点上本地数据库和运行在sink节点上与局部数据库进行交互的分布式数据库管理层组成。位于Sink节点上的分布式数据管理层通常亦称为代理数据库，它包括两个关键组件：一个为数据缓存(cache)，用于保存低层节点监测到的数据汇总及从传感器节点查询得到的结果；另一个为

36、查询处理引擎，决定如何处理查询。图5 无线传感器网络数据库系统体系结构3.2.2 传感器节点的数据存储与索引技术出于抗震性、节点大小以及能量消耗等方面考虑，硬盘不适用于作为传感器节点的永久性存储器，flash是目前的最佳选择。传感器节点的数据存储与索引技术要考虑flash特性、节点的能量消耗等因素。根据WSN的数据流以及flash存储器的特征，目前传感器节点上的数据存储方式主要有两种方式：一种为不带索引基于日志结构的文件存储方式，另一种为基于索引结构的存储方式。文献29是针对传感器节点设计的基于flash存储器的日志结构文件系统(Efficient Log Structured Flash F

37、ile systern，ELF)。ELF考虑到传感器节点的资源限制，仅为系统的通用任务提供了一些基本的文件管理操作，如open，create，modify，append，read，seek，delete，rename，truncation等。与传统的基于flash的文件系统的不同之处主要在于对文件的写操作(包括append和modify)。对于append操作，ELF并不为每个append操作创建一个日志数据项，而是对每个文件，利用一个写缓冲区缓存追加到同一页的13志项，当缓冲区满时再写入到flash页上。这样可以减少对flash写的次数，以延长flash的使用寿命和降低能量消耗。Mieroh

38、ash32提出一种基于hash索引结构的数据存储方式。它把flash的数据存储区组织成堆(heap)，监测数据按时间顺序以循环数组方式存储在flash的数据存储区上，这种方式直接解决了删除、写以及磨损平衡问题。Microhash在把监测数据存储到flash时，同时建立索引。索引采用两层索引结构，即index层和directory层。Index的每个索引记录格式为idx，offset，其中idx为数据存储的flash页的地址，offset为存储在该页相对起始地址的偏移值。directory的每个记录项包括index层的某个flash页的地址以及索引数据项值的上、下界。值得进一步研究的是，在传感器

39、节点数据库构建和维护索引时，必须考虑能量消耗问题。建立索引可以提高访问数据的速度，减少读取flash页的次数。但建立和维护索引除了增加额外的存储空间外，其读写也需要消耗能量，尤其是对索引的写操作。这些能量消耗要在查询处理中得到补偿，索引才有意义。因此，使用索引结构只有在数据访问操作非常频繁时才有效，否则通过顺序扫描来执行查询更节约能量。3.2.3 以数据为中心的存储与分布式索引技术在WSN中，传感器监测数据可以存储在本地节点，也可以根据数据的属性通过某种映射技术存储到网络中的一些指定节点上，即以数据为中心的存储技术。以数据为中心的存储技术根据数据的属性把相关联的数据存储到指定的节点，可通过数据

40、融合技术对数据进行处理，避免把大量的测量数据传输到网外，以达到降低数据传输能耗的目的。在数据查询中，为了能快速地定位到数据的存储节点，避免在全网泛洪广播查询请求，需要对网络中的数据建立分布式索引技术。如GHT技术可以直接根据数据的属性，利用Hash函数，定位到数据的存储节点。文献34提出了一种分布式索引方法(Distributed Indexfor Features in Sensor Networks，DIFS)，该方法综合了GHT技术和空间分解技术，利用GHT技术实现了以数据为中心的存储，利用空间分解技术实现对分布式数据的索引。区别于文献19所采用的空间分解技术，其构造的层次结构的每个非根

41、节点具有多个父节点，以解决能量消耗和通信瓶颈问题。每个节点都存储特定地理范围内和特定监测数据值范围内的数据。上层节点存储的数据覆盖的地理范围大，但覆盖的监测数据值的范围小。相反，下层节点的数据覆盖的地理范围小，但数据值的范围大。在查询数据时，首先选择最高父节点的集合，这些节点覆盖所有查询要求的数据名的范围。然后根据查询要求的空间范围逐层进行遍历，最后得到查询结果。DIFS适用于指定空间范围以及指定数据值范围的单属性的查询要求。3.2.4 数据模式现有的WSN数据库系统对传感器监测的数据流建模大多为对传统的数据模式进行扩展，主要有基于工作流模式、基于关系模式、基于对象模式。针对WSN的一些特殊应

42、用，也可以建立特殊的数据模式。Aurora系统是一种面向时间工作流模式建模的系统，其查询建立在Aurora查询代数基础上，包括3个与顺序无关的操作(Filter，Map和Union)和4个对顺序敏感的操作(BSort，Aggregate，Join和Resample)。TinyDB24采用基于关系的数据模式，并对传统的关系模式进行了扩展。它把传感器节点的测量数据定义为一个单一的、无限长的、有两类属性的虚拟关系表：一类用来定义测量数据，如节点标识符、测量时间、测量数据类型、单位等；另一类用来描述测量数据本身，如温度、位置等。COUGAR是一个基于抽象数据类型(Abstract Data Type)

43、的数据流系统，它采用两种模式对数据进行建模：用对象关系模式来组织建模存储数据；引入一种时间序列模式建模组织传感器监测数据，并定义了相应的关系代数操作、时间序列操作以及关系及时间序列之间的操作。3.2.5 数据查询处理与优化WSN的数据查询应用可以分为两大类：查询动态数据和查询历史数据。在查询动态数据中，数据在传感器监测到的一个小的时间窗内有效，例如事件检测查询或一些特定查询(当前的温度是多少?)。而查询历史数据是指对检测到的历史数据进行数据挖掘，用于发现事件特殊模式，分析数据走趋，形成特定事件的理想模型等。对这一类应用来说，每一个数据都是重要的，不能被抛弃。WSN数据库系统可理解为一个两层结构

44、的分布式数据库系统：运行在Sink节点上的代理数据库服务器和运行在传感器节点上的局部数据库。数据查询的处理过程一般为：首先用户使用命令式查询接口把查询请求发送到网络，通过路由技术传送到运行在Sink节点的代理服务器。其次，代理服务器根据接收到的用户请求生成相应查询计划。然后，代理服务器把查询计划通过路由技术发送到相应的传感器节点。节点接收到查询后，执行查询，并把结果传送到代理服务器。最后，代理服务器对节点返回的结果进行处理，并把最终结果返回给相应的用户。WSN中的查询优化策略大致可分为运行在sink节点上的多查询优化策略和运行在网内节点上的单查询优化策略。这两种技术结合起来构造WSN的查询优化

45、系统。优化的目标要在保证网络服务质量的前提下，尽可能降低能量消耗，以延长网络的寿命。查询优化问题是传感器网络领域的研究难题之一。它必须设计一些高效的分布式处理和数据重用技术，既要降低全网络的能量消耗，又要避免少量节点因负担过重，能量消耗过快而失效，从而影响到整个网络的使用寿命。无线传感器网络是一个以数据为中心的网络，它管理的传感器监测数据和传统数据库中的数据有很大的差别，再加上传感器节点自身的特性，给数据管理技术带来了巨大的挑战与机遇。目前，在WSN的数据管理技术方面已经取得了一些研究成果，但离实际应用还很远，仍具有很大的研究空间。本章主要从数据库的体系结构、数据在传感器节点上的存储与索引技术

46、、以数据为中心的存储与分布式索引技术、数据模式、数据查询与优化等方面介绍了无线传感器网络数据管理技术的研究进展。结束语无线传感器网络本就是一个以数据为中心的网络。与我们以前所用到的关系型数据库存储的数据不同，它所产生的数据是以数据流的形式所呈现出来的。这就意味着我们对无线传感器网络所产生的海量数据的处理过程也是一个系统的工程。它包括了特征的选择与提取（以去除冗余，降噪以及降低特征空间维度为目的）、数据传输过程中的融合（所要考虑最重要的问题是能耗的问题，所以很多数据融合的算法也是基于降低数据传输量与能耗来考虑的）、模式的分类识别（在本文中主要以对大型桥梁的损伤作为识别的对象）、以及无线传感器网络

47、中海量数据的存储与查询（数据管理技术将物理世界WSN的连续数据流看作是一个分布式数据库。）的问题。本文所做的主要工作就是对WSN数据处理的整个过程进行了一个系统的概述，这是一个从采集到传输再到识别存储的一个过程。当然，整个过程是一个大的系统。它内容非常的多，以至于每一块的内容单独拿出来都是一个独立的研究方向。所以本文肯定会有许多没有涉及到的地方，我将会在未来的学习中进一步去探索。参考文献(References)1、邓扬，丁幼亮，李爱群基于小波包分析的拉索损伤声发射信号特征提取J振动与冲击，2010，(29)62、张小蓟，张歆，孙进才基于经验模态分解的目标特征提取与选择J. 西北工业大学学报, 2006,(24)43、祁浩王福豹邓宏基于无线传感器网络的地震信号特征提取方法研究J. 物理学报,

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

无线传感器海量数据处理.doc

文档简介

温馨提示

最新文档

评论

无线传感器海量数据处理.doc

文档简介

温馨提示

最新文档

评论

相关文档