无线传感器海量数据处理解析_第1页
无线传感器海量数据处理解析_第2页
无线传感器海量数据处理解析_第3页
无线传感器海量数据处理解析_第4页
无线传感器海量数据处理解析_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、WSN海量数据处理读书报告杨立摘要:目前对无线传感器网络中的海量数据处理的研究大致分为基于海量数据的研究、基于数据处理的研究以及最终的分类识别。在数据处理层面,人们主要的研究方向是对数据的特征提取与选择,数 据的融合技术。最终的分类识别着重关注对特征进行分类识别或对特征进行组合建模后分类识别以达到 最终的判定。而在对无线传感器网络所产生的海量数据的研究中,人们主要对数据流与海量数据的存储 做了深入细致的研究。本文通过对近年来 WSN数据处理相关文献的研读对其海量数据处理的整个过程 进行了一个系统的概述。关键词:特征提取与选择数据融合WSN流数据模式识别0引言传感器网络中不论是传感器的数量还是类

2、型 都是多种多样的,它包括目标的探测、数据关联、 跟踪识别、情况评估与预测几个层面。目前对无 线传感器网络中的海量数据处理的研究大致分为 基于海量数据的研究、基于数据处理的研究以及 最终的分类识别。在数据处理层面,人们主要的 研究方向是对数据的特征提取与选择,数据的融 合技术。最终的分类识别着重关注对特征进行分 类识别或对特征进行组合建模后分类识别以达到 最终的判定。而在对无线传感器网络所产生的海 量数据的研究中,人们主要对数据流与海量数据 的存储做了深入细致的研究。1数据处理在数据处理层面上主要分为两部分,首先是 对数据进行特征的提取与选择。这里的特征是对 于不同信号来说的。在无线传感器网络

3、中,其各 类传感器所产生的信号类型也是多种多样的。因 此对不同类型的信号分别进行特征的提取与选择 就显得尤为重要了。其分析了各种特征的有效性 并选出最有代表性的特征。这些特征有效地降低 了特征空间的维度。其次是对数据的融合,无线 传感器网络信息采集的过程中,会产生大量的冗 余信息。为了使大量的通信带宽和宝贵的能量资 源得以节省,数据融合技术就显得尤为重要了。1.1特征的提取与选择特征的提取与选择直接面向目标信号本身, 是信息感知的第一步也是至关重要的一部。特征 选择的适当与否直接影响到整个信息处理系统的 设计复杂度,并决定了系统的准确性。1.1.1特征提取特征提取,即在原始特征中挑出一些有代表

4、 性分类性能最好的特征。特征提取的方法有很多, 总结起来可以归为四大类:基于基本统计方法的特征提取,基于模型的特征提取,基于变换的特征 提取基于分形、维数的特征提取。通过这些特征 提取后的特征矢量能够达到较好的分类效果。文 献1中介绍了一种基于小波包分析的拉索损伤 声发射信号特征提取方法,采用ANSYV KS-DYNA莫拟得到拉索损伤声发射信号的仿真信号, 从小波包分解层次、特征频带数量的选择及特征 参数的噪声鲁棒性三个方面开展了讨论分析。小 波包能量谱的特征参数具有较强的损伤类型敏感 性及噪声鲁棒性,当选取合适的小波包分解层次 时,可以在强噪声影响下实现对拉索不同损伤类 型的判别。对于非平稳

5、性、非线性过程的信号处 理,文献2中提出一种基于经验模态分解的目标 特征提取与选择方法,可以自适应地将信号的局 部特征逐级分解出来。将本征模态函数IMF分量及其瞬时频率作为特征,并选择其判别熵作为特 征向量的可分性度量。与小波变换相比IMF不需要预先设定基函数,可根据信号自身的特征进行 分解,具有自适应性,所得的本征模态分量突出 了数据的局部特征,非常适用于非平稳性G非线性过程的信号处理中。文献3中提出了使用功率 谱二次处理对地震信号进行特征提取的方法。将 经典的语音特征处理算法根据地震信号的特点进行 有针对性的改进,通过对信号的功率谱进行二次处 理 , 实现了对信号功率谱及频率的同时检测。文

6、献4 提出了利用最大熵 ARBurg 功率谱估计法对进 入无线传感器网络区域中的车辆信号进行谱特征提 取,具有很强的可操操作性、可重复性和参考性。 文献 5 针对探地雷达的回波信号具有非平稳特征 为实现非平稳信号的检测和分类采用了二进小波变 换主分量分析与 Fisher 线性判别分析和前馈多层 感知器分类器分别对探地雷达回波信号进行小波分 解去相关与特征选择和分类, 其克服了基于 Fourier 变换的分析方法对非平稳信号进行特征提取时会平 滑了非平稳信号的局部特征从而导致其分类效果不 佳的缺点, 取得了一定的效果。 文献 6 在研究地面 目标声震信号识别过程中提出基于局域判别 (Local

7、Discriminant Bases , LDB)算法的特征提取方法。 并且,针对现有的基于时频能量图的可分性测度的 缺点,提出新的基于概率密度估计的相对微分熵的 可分性测度在一定程度上提高了目标的正确识别 率, 降低了特征维数。 文献 7 在研究应用最优小波 包变换的特征提取方法的过程中提出了应用三种可 分性准则,即距离准则,散度准则和熵准则选择最 优基。三种可分性准则比较而言,距离准则简单直 观,散度准则更适用于正态分布模式,当模式类别 具有同样的均值时可使用熵准则,并且使用这些准 则只需根据训练样本集计算模式的两个重要统计 量, 即均值和方差 . 但为获得较稳定的特征, 需较大 的训练样

8、本集。1.1.2 特征选择 特征选择就是通过消除冗余、不相关及被噪声 污染的特征,从而达到降低特征空间维数的目的。 它实际上就是从一个原始的特征集合中选取一个特 征子集的过程。有时是采用某种变换技术,得出数 目比原来少的综合性特征用于分类,这称为特征维 数压缩。特征选择的过程如图 1 所示,首先从原始 特征集合中选出一个特征子集,然后通过评价函数 对其进行评价,若满足特征子集停止迭代的要求即 停止,否则产生新的特征子集继续迭代。特征的选 择主要分为两个方面,一是特征选择的标准,二是 特征子集的选择算法。发图1 特征选择的过程特征选择标准的作用实际上是对特征子向量好坏做一个界定。可分为滤波器型(

9、 Filter )、封装型(Wrapper )、和混合型(Hybrid )。滤波器型一般用 特征子集的内在特性来评估特征的好坏,如距离测 度、相关性测度及一致性测度等。封装型实质上是 一个分类器,封装器用选取的特征子集对样本集进 行分类, 分类的精度作为衡量特征子集好坏的标准。 而混合型算法则是滤波器型和封装型的叠加。按照搜索方式的不同,特征选择算法可分为完 全搜索、序列搜索以及随机搜索三类。基于完全搜 索的特征选择算法能保证找到最有的特征子集,但 其计算十分复杂,很少应用于实际工程中。基于序 列搜索的特征选择算法拥有最小的计算复杂度,对 于搜索空间中只有单一极值的最优问题效果理想, 而对多极

10、值问题容易陷入局部最优点。随机搜索的 复杂度介于前两者之间,且随机搜索有助于摆脱局 部最优点,目前应用最广泛。1.2 数据融合技术由于大多数无线传感器网络应用都是由大量传 感器节点构成的,共同完成信息收集、目标监视和 感知环境的任务。因此,在信息采集的过程中,采 用各个节点单独传输数据到汇聚节点的方法显然是 不合适的。因为网络存在大量冗余信息,这样会浪 费大量的通信带宽和宝贵的能量资源。此外,还会 降低信息的收集效率,影响信息采集的及时性。为避免上述问题,人们采用了一种称为数据融 合(或称为数据汇聚)的技术。所谓数据融合是指 将多份数据或信息进行处理,组合出更高效、更符 合用户需求的数据的过程

11、。在大多数无线传感器网 络应用当中,许多时候只关心监测结果,并不需要 收到大量原始数据,数据融合是处理该类问题的有 效手段。 数据融合技术涉及到检测技术、 模式识别、 决策论、不确定性理论、估计理论、最优化理论等 众多学科领域。1.2.1 WSN数据融合结构目前对于无线传感器网络信息融合结构的分类 还没有一个明确的标准。文献 8 中给出了一个基于信息表征层次的划 分,将其分为数据级融合、特征级融合、以及决策 级融合。数据级融合,就是直接到采集的原始数据 层上进行融合。如图 2,这种融合的主要优点是原 始信息丰富。但其所要处理的传感器数据量巨大, 处理代价高。数据级融合的主要方法有: HIS 变

12、换、 PCA变换、小波变换等。特征级融合属于中间层次, 它首先对来自传感器的原始信息进行特征提取,然 后对特征信息进行综合分析和处理。如图 3 所示, 其实现了可观的信息压缩,有利于实时处理,能最大限度地给出决策分析所需要的特征信息。目前大 多数C3I系统的数据融合研究都是在该层次上展开的。特征级融合的方法有:Dempster Sharer推理法(D S方法)、表决法、神经网络法等。决策级融 合是一种高层次的融合,其结果可为指挥控制与决 策提供依据。如图 4所示,决策级融合是三级融合 的最终结果,是直针对具体决策目标的融合结果 直接影响决策水平。目前,决策级数据融合方法主 要有:贝叶斯估计法、

13、专家系统、神经网络法、模 糊集理论、可靠性理论以及逻辑模板法等。带审器2|档M3图2数据级融合特征AM图3特征级融合結果图4决策级融合文献7中将数据融合层次结构分为网络层的 数据融合、应用层的数据融合、独立的数据融合层。 其中网络层的数据融合, WS网络层的数据融合主要 采用以数据为中心的路由协议。优点是:数据融合 在路由过程中实现,可以有效减少传输能耗和时延; 问题是:跨协议层理解应用层数据的语义,会增大 网络层的数据融合计算量。应用层的数据融合,基 于查询模式的数据融合算法是应用层数据融合的研 究方向,其算法思想是将WS看作是一个分布式的数 据库,采用分布式数据库技术来收集数据,应用层 接

14、口与SQ相目似。独立的数据融合层, 对多个数据包 进行合并,减少数据封装头部开销和 MA(层的数据发 送冲突来节省能耗。独立的数据融合不能最大化网 络的生存时间,只是利用了数据融合减小 MA层的拥 塞冲突。因此,独立的数据融合技术应用还不是很广泛。1.2.2数据融合方法分类及研究现状根据不同的融合规则,可分为不同的类型,例 如有损融合、无损融合、依赖于应用的数据融合、 独立于应用的数据融合、基于分布式数据库的数据 融合3、基于中心的数据融合等。下面从如何有效降低数据传输量和能量方面对WSI中现有的数据融合方法进行分类,介绍其研究进展情况。(1 )、基于生成树的数据融合在WSI中,汇聚节点在收集

15、数据时,是通过反向组播树的形式从分散的传感器节点逐步将监测数据 汇集起来的。从而达到减少网络拥塞,降低能耗, 减轻监测延时,增加数据包传送速率的目的。现有的基于生成树的数据融合算法采用的主要是近源汇集(center at nearest source, CNS、最短路径树(shortestpaths tree , SPT)、贪婪增量树 (greedy in creme ntal tree, GIT),以及对它们进行的改进算法。基于生成树的数据融合方法虽然能够实现对传 输的数据进行融合的功能,但是有些问题仍需关注。首先是生成树的构建和融合时机的确定问Stei ner树比较适合事件驱动的应用。另外

16、,基于WSI的特点, 有效的数据融合生成树的构造算法应该具有时间复 杂度低以及分布式的特点。其次,应该考虑数据融 合生成树的维护问题。当节点失效时,需要对生成 树进行维护。生成树的维护可采用周期性更新和事 件触发两种方式。其实,这个问题就是如何平衡网 络能量消耗。而且,维护这些数据融合结构的能耗 开销应尽可能小。(2) 、基于时空相关性的 WSN数据融合在WSI中,同一地点布置了许多传感器,这些传感器之间的相对距离较近,其观察值在时间和空间 上存在相关性,导致数据冗余现象。因此,如何消 除多传感器间的时空相关性。以降低网络传输数据 及节省网络能量和开销,值得研究。时间和空间上 的这种相关性也是

17、设计数据融合方法的主要依据。目前现有的文献对时空相关性的WSN数据融合的研究大致分为两类,一种是时间或空间融合模型, 另一种是时间和空间相结合的融合模型。典型的时间融合模型是 TiNA(temporal cohere n cy-a ware in-n etwork aggregati on) 7,它禾 U用传感器节点采集数据的时间一致性进行网内融 合。其基本思想是,只有当前采集的数据与上一次采集的数据的差值大于某个用户指定的容忍限度 时,节点才进行数据发送。这种方法对于监测数据 波动较小的应用十分有效,能够显著地减少网络中 的数据传输量。然而,当监测数据波动较大时, Ti NA的作用就不是非常

18、明显了;而且TiNA对于节点存储空间的要求比较高,尤其当网络规模较大时,转 发节点需要保存大量的额外信息。空间融合模型8应用于WS事件监测。该模型 完全用节点间距离远近来衡量节点观测值间的相关 程度,而实际上离事件源距离相同的节点的观测值 间的相关性更高。时空融合模型是消除时空相关性的数据融合研 究的发展趋势,此类模型主要是对时间融合和空间 融合进行组合排序,融合性能不但取决于进行时间 与空间融合的先后次序,而且还与具体采用何种融 合方法有关,这些都需要做进一步的定量分析。目 前的研究主要有D-S证据理论进行空间融合,没有达到很好的节能与减少时延的效果,从而限制了其广 泛应用。(3) 、基于路

19、由的 WS数据融合基于路由的WS数据融合有两个主要的目的,即寻找最佳路径和对数据进行融合、传输。目前 WSN 的主要路由协议有四种:数据为中心的路由协议、 基于集群 (Clustering) 结构的路由协议、基于地理 信 息 (Geographic) 的 路 由 协 议 和 基 于 服 务 质 量 (QoS, Quality of Service) 的路由协议。路由驱动 型数据融合算法主要基于两类路由协议:以数据为 中心的定向扩散路由协议和关于集群结构的分层聚 簇路由协议。A、定向扩散路由型数据融合定向扩散协议(directed diffusion ,DD是一 个以数据为中心的路由和融合协议,

20、为WS提供有效的能量通信。在定向扩散协议中,数据融合包括路 径建立阶段的兴趣 (interest) 融合和数据传输阶段 的数据融合。然而,毕竟DDfe要解决的是 WS中的路 由问题,其中涉及的数据融合技术相对较为简单。 同时,DC中的数据融合是基于其提出的属性值对而 设计的,与具体应用关系非常紧密,是以数据为中 心的一种数据融合技术。另外,在DD中,数据传输路由的确定还取决于节点到 sink 的时延,时延小的 路径将被确定为数据传输路由。但这种方法并不利 于邻近节点的数据融合,因此可采用改进的GIT算法。B、分层聚簇路由型数据融合低能耗自适应聚类分层 (low-energy adaptive

21、clustering hierarchy , LEACH)12 协议是典型的 WS路由协议,通过定期选举一些簇头节点,形成基于层次结构的路由机制。该路由协议可以支持簇头 节点中的数据融合,能够体现出尽早进行数据融合 的原则和优势。不过,LEAC仅强调了数据融合的重 要性,并未给出具体的融合方法。而且,仅仅在簇 头实施数据融合,簇内节点直接将原始数据送到簇 头的策略也没有充分利用相邻节点间的数据相关性 来减少簇内节点传输的能耗。因此在文献无线传感 器网络数据传输及融合技术 14 中,将其与 PEGASIS 算法分类为集中式数据融合的算法。并介绍了分布 式数据融合算法,将一个规则传感器网络拓扑图等

22、 效于一幅图像,获得一种将小波变换应用到无线传 感器网络中的分布式数据融合技术。总的来说,路由驱动型数据融合算法与具体路 由的建立关系密切,还涉及到融合节点的选择、融 合时机的选择及如何进行数据融合处理等问题。在 路由驱动型数据融合算法中仍然有很多关键问题未 解决,如融合增益与能量和通信服务质量的平衡、 支持拓扑频繁改变的数据融合算法、安全数据融合 等同题。(4 )基于时域预测的WS数据融合基于时域预测的 WS数据融合是利用节点采集 数据在时间上有固定的采样周期的特点,对已经采 集的数据在时间上排序并分析数据幅值变化情况, 建立能够反映数据在时间上动态变化的数学模型, 预测将来的数据值。当实际

23、采集的数据值与预测值 之差超过给定的阈值时,对新采集的数据进行无线 传输。通过预测,减少不必要的数据传输,从而降 低网络能耗,延长网络的生命周期。基于时域预测的数据融合算法与TiNA有相似之处。二者都属于时域数据融合。它们的主要区别在 于TiNA是一种被动的数据融合算法,节点比较的是 当前采样数据与前一个周期的采样数据。而基于时 域预测的数据融合算法是根据历史数据进行数据的 预测,若预测数据与当前采集数据之差小于阈值, 则不发送当前数据。服务器使用其预测数据从而达 到减少通信量的目的。现有文献采用的预测融合方法主要包括:自回 归(AR)模型、移动平均(MA)模型以及自回归移动平 均(ARMA)

24、模型等。文献无线传感器网络中基于预测 的时域数据融合技术 13 中介绍了对自回归预测算 法、移动平均预测算法、以及指数平滑预测算法进 行了以温度为测量数据进行仿真得出一阶自回归预 测算法与其它预测算法相比。具有更好的适用性, 当误差闲值为0.05 C -0.50 C时,预测成功率为21% -83 %;当误差阈值为0.05C时.节能收益达到68%。( 5)、基于数据包合并的数据融合数据包合并是WS中一种有效的数据融合算法。 数据包合并的主要思想是当某个节点收到多个子节 点发来的数据包时, 将它们合并成一个大的数据包, 然后将合并后的数据包发送到父节点。在WS中,数据字段相对较短,而控制字段相对较

25、长。数据包合 并能够有效地降低包头的开销。典型的数据包合并算法包括数据漏斗 (data fu nneling) 以及 AIDA(application-independent dat a aggrega tion)15 等。数据漏斗实质上是一种 基于簇的数据融合,簇头节点负责合并簇内节点的 数据包。然而,数据漏斗要求节点具有自身的位置 信息,并且有可能产生漏斗效应 (funnelingeffec t)。AIDA是一种与应用无关的数据融合算法,实质 上是在MAC层与网络层之间加入了一个数据融合层 进行数。据包合并的操作。通过数据包合并, AIDA 能够有效地减少网络中的数据传输量,降低无线信 道

26、中发生冲突的可能性。然而,AIDA与应用相互独立,无法利用高层次的语义信息对数据作进一步的 压缩,因此其融合度相对比较低。综上数据融合技术是为适应WS以数据为中心的应用而产生的,主要关注如何对采集到的或接收 到的其它传感器节点发送的多个数据进行融合理, 消除冗余信息,然后再传输处理后续数据,其重点 在于减少需要传输的数据。关于数据融合的研究虽 然已经取得了很大进展,但是研究工作尚处于起步 阶段,大量问题还没有涉及到。因此,对于WS数据融合算法的设计与分析既具有很高的研究价值和创 新性,又存在一定的挑战性。2 分类识别在无线传感器网络模式识别与分类中,分类器 的作用是对特征向量惊醒某种变换和映射

27、,将特征 向量从特征空间映射到目标类别空间,从而得到识 别结果,其实质是分类器对特征空间进行适当的划 分,从而形成决策区域。基本做法是在样本训练集 基础上确定某个判决规则,使按这种判决规则对被 识别对象进行分类所造成的错误识别率最小或引起 的损失最小。桥梁结构是陆地交通运输网络中的关键部位, 为确保桥梁结构在整个服役期间的安全性和服务功 能,对重要桥梁结构实施健康监测和安全性评估是 十分必要的。作为健康监测和安全性评估系统的核 心技术的桥梁结构损伤识别更是成为国际上研究的 热点本章就基于无线传感器网络的桥梁结构损伤识 别进行一个总结,对近年来基于振动分析和结构动 力学参数的结构损伤识别理论进行

28、了比较系统地总 结和评述。近年来基于振动测试的桥梁结构损伤识别的研 究主要可分为三个方面, (1) 基于模型修正理论的损 伤识别, (2) 结构损伤指数法, (3) 人工神经网络法。2.1 基于模型修正理论的损伤识别基于模型修正理论的结构损伤识别的方法就是 利用试验模态分析结果修改理论有限元模型的刚度 矩阵、质量矩阵等模型参数,在保证模态参数自身 精度的前提下,使修正后有限元模型的振动参数与 试验值相同。集中经典的方法有:矩阵优化修正方 法,矩阵优化修正法试图通过寻求某种优化目标并 满足一定约束条件的矩阵或矩阵参数修正来修正模 型。子矩阵修正法,子矩阵修正法对待修正的子矩 阵或单元定义修正系数

29、,通过对子矩阵修正系数的 调整来修改结构刚度矩阵。以及敏感性分析法和特 征结构分配法。文献 16 基于静载试验进行桥梁结构损伤识 别,以桥梁结构有限元为工具,把当前结构模型中 各单元的等效面积、惯性矩以及板壳单元的厚度作 为识别参数 p,建立识别参数对于各种量测的灵 敏度矩阵S p。通过优化方法不断调整当前 计算模型的参数,使结构响应与相应的试验值最大 程度地吻合,从而得到结构参数变化的信息。并通 过换杆的形式模拟结构局部构件的退化,得到不错 的效果。2.2 基于损伤指数的损伤识别损伤指数法是利用结构振动测试直接得到的振 动响应的时程 (位移、速度、加速度时程 )或经过变 换分析得到的结构的动

30、力学参数作为损伤指示信息 来识别结构损伤位置和程度。基本方法有:利用模 态参数 (频率、振型 )的损伤识别,主要通过对两个 不同阶频率变化比或结构损伤前后振型来实现损伤 定位。利用振动响应时程或其变换,其中包括基于 波形的识别指标、用小波分析技术处理振动响应信 号的损伤识别方法以及利用结构振动响应的时域变 换方法等。文献 17 小波变换在桥梁结构损伤识别中的应 用,通过小波变换极大值点同信号突变点及其李氏 指数之间的关系,采用小波变换极大值在多尺度上 的变化规律来表征信号突变点的性质,从而确定信 号有无奇异点并确定其位置,进而对桥梁进行损伤 识别。并进行单裂缝悬臂梁的静力试验,达到精确 定位裂

31、缝位置的目的。2.3 基于人工神经网络的损伤识别人工神经网络法神经网络损伤识别法实际上就 是用一些已知损伤的响应或理论上构建的样本集来 训练神经网络,使网络达到一种相对平衡的状态, 利用网络训练后的映射关系和网络的泛化能力,根 据输入的结构实测响应,得到损伤的位置及损伤程 度。目前采用的网络主要是 BP网络、径向基函数(RBF) 网络和 hopfield 网络。对于神经网络方法,除神经 网络的构建外, 最关键的就是损伤识别指标的选取, 一般的都取振型和频率的组合或在二者的基础上加 工出新的更能反映损伤前后变化特征。文献17基于CS和神经网络的传感器网络模式 识别研究将压缩感知技术与 BP神经网

32、络相结合应用 于传感器网络,对传感器网络中传输的数据进行压 缩,降低传输数据量,然后在接收端重构数据,将 该数据样本作为BP网络的输入进行识别。提高网络 数据存储能力和带宽利用率。 文献16基于RBF神经 网络设计的桥梁结构损伤识别方法研究,从径向基 函数(RBF神经网络结构、网络设计和网络训练算 法等方面论述了神经网络理论。并以一座装配式预 应力钢筋混凝土系杆拱桥为工程实例,通过改变构 件的弹性模量降低单元刚度来模拟结构损伤程度, 并以任意三组向量对网络进行测试,说明了基于频 率参数和RBF网络方法的结构损伤识别的可行性和 准确性。3 流数据及海量数据存储对于科学发展的今天,人们得到的信息量

33、是成 倍的增长,数据的来源也是越来越多样化,因此需 要处理那些庞大的数据集,这些数据都是以很快的 速度无限不停的产生,并且是随着时间的变化而变 化,这就是一种新式数型一一流数据。流数据的特 点是数据持续到达,且速度快、规模大。其研究核 心是设计高效的单遍数据集扫描算法,在一个远小 于数据规模的内存空间里不断更新一个代表数据集 的结构概要数据结构,使得在任何时候都能够 根据这个结构迅速获得查询结果。在无线传感器网络中,系统有成千上万个传感 器在同时工作, 每个传感器每秒钟获取一个测量值, 每个传感器就会产生一个随时更新变化的时间序列 数据流,整个系统形成一个多数据流并行的数据环 境。因此,对数据

34、流的分析与信息存储在无线传感 器网络的研究中起着至关重要的作用。3.1 数据流挖掘的基本技术目前大部分数据流流挖掘方法都基共同的基本 技术,如概要数据结构、抽样、滑动窗口、衰减函 数、倾斜时间构架等。(1) 概要数据结构。是通过应用概要技术,生 成的比当前数据流小得多的数据结构,它是当前数 据流的概要描述。新的流数据处理技术并不保存整 个数据集,仅维护一个远小于其规模的概要数据结 构18 ,从而能够常驻内存。 对于不同数据流算法, 其概要数据结构相差很大。目前已经提出了多种概要技术包括有:频率矩、直 方图和小波分析等等。(2) 抽样。通过一定的概率来决定一个数据元 素是否被处理。这样可以避免处

35、理整个数据流。但 在数据流模型中,抽样技术的问题是不可能预先知 道流的长度。一种方法 19 采用水库抽样技术较好 的解决这个问题;在抽样技术中另一问题是数据流 其流动率是不是稳定的。故对那些需要监测不规则 且浮动上下的流数据是个较好的选择。(3) 滑动窗口。滑动窗口模型基于这样一个事 实:“用户对于最近的数据更感兴趣”。从而使人 们只对少量的近期数据做细节分析,而对大量的历 史数据,只给出一个概要结构 20 。而达到只需存 储小的数据窗口,减少对内存的需求。滑动窗口一 个缺陷是要求用户预先指定窗口的尺寸,有些应用 中,不太可能知道窗口的大小。(4) 衰减函数。也是一种强调近期数据的重要 性、消

36、减历史数据对计算结果影响的方法,主要利 用衰减函数和衰减因子,数据元素在参与计算前, 先经过衰减函数的作用 22 。从而使每个数据元素 随着时间的推移逐渐减少对最终结果的影响。常用 的衰减函数形式是 Cao 等人提出的 Den-Stream 算法25采用的衰减函数形式:f (t) =2卫,I 0.3.2数据流管理系统传感器网络本质上是一个以数据为中心的网 络,它处理的数据为传感器采集的连续不断的数据 流。因此,现有的数据管理技术把无线传感器网络 看作为来自物理世界的连续数据流组成的分布式数 据库。3.2.1感器网络数据库系统体系结构典型的传感器网络的系统结构包括资源受限的 传感器节点群组成的多

37、跳自组织网络、资源丰富的 Sink节点、互联网和用户界面等24。映射到传感器网络的分布式数据库系统也采用两层体系结构, 如图1所示,它是由运行在传感器节点上本地数据库 和运行在sink节点上与局部数据库进行交互的分布 式数据库管理层组成。位于Sink节点上的分布式数据管理层通常亦称为代理数据库,它包括两个关键 组件:一个为数据缓存(cache),用于保存低层节点 监测到的数据汇总及从传感器节点查询得到的结 果;另一个为查询处理引擎,决定如何处理查询。Db爼 Prpcej抨g Medud and 半呼盹人史巴 Mgriiad andIl护I * 二Uiufd VjprPhmgv DaCabtsc

38、图5无线传感器网络数据库系统体系结构3.2.2传感器节点的数据存储与索引技术出于抗震性、节点大小以及能量消耗等方面考 虑,硬盘不适用于作为传感器节点的永久性存储器, flash是目前的最佳选择。传感器节点的数据存储与 索引技术要考虑flash特性、节点的能量消耗等因 素。根据WSI的数据流以及flash存储器的特征,目 前传感器节点上的数据存储方式主要有两种方式: 一种为不带索引基于日志结构的文件存储方式,另 一种为基于索引结构的存储方式。文献29是针对传感器节点设计的基于flash存储器的日志结构文件系统(Efficient Log Structured Flash File systern

39、,ELF)。 ELF考虑到传感器节点的资源限制,仅为系统的通用任务提 供了一些基本的文件管理操作,如open, create ,modify , append,read, seek, delete , rename, truncation 等。与传统的基于flash的文件系统的不 同之处主要在于对文件的写操作(包括append和modify)。对于 append操作,ELF并不为每个 append 操作创建一个日志数据项,而是对每个文件,利用 一个写缓冲区缓存追加到同一页的13志项,当缓冲区满时再写入到flash页上。这样可以减少对 flash 写的次数,以延长 flash的使用寿命和降低能量

40、消 耗。Mierohash32提出一种基于 hash索引结构的 数据存储方式。它把flash的数据存储区组织成堆(heap),监测数据按时间顺序以循环数组方式存储 在flash的数据存储区上,这种方式直接解决了删 除、写以及磨损平衡问题。Microhash在把监测数据 存储到flash时,同时建立索引。索引采用两层索 引结构,即index层和directory 层。Index的每个索 引记录格式为idx , offset,其中idx为数据存储 的flash页的地址,offset为存储在该页相对起始地 址的偏移值。directory 的每个记录项包括index层 的某个flash页的地址以及索引

41、数据项值的上、下 界。值得进一步研究的是,在传感器节点数据库构 建和维护索引时,必须考虑能量消耗问题。建立索 引可以提高访问数据的速度,减少读取flash页的次 数。但建立和维护索引除了增加额外的存储空间外, 其读写也需要消耗能量,尤其是对索引的写操作。 这些能量消耗要在查询处理中得到补偿,索引才有 意义。因此,使用索引结构只有在数据访问操作非 常频繁时才有效,否则通过顺序扫描来执行查询更 节约能量。3.2.3以数据为中心的存储与分布式索引技术在WSI中,传感器监测数据可以存储在本地节 点,也可以根据数据的属性通过某种映射技术存储 到网络中的一些指定节点上,即以数据为中心的存 储技术。以数据为

42、中心的存储技术根据数据的属性把相 关联的数据存储到指定的节点,可通过数据融合技 术对数据进行处理,避免把大量的测量数据传输到 网外,以达到降低数据传输能耗的目的。在数据查 询中,为了能快速地定位到数据的存储节点,避免 在全网泛洪广播查询请求,需要对网络中的数据建 立分布式索引技术。如GH技术可以直接根据数据的 属性,利用Hash函数,定位到数据的存储节点。文献 34 提出了一种分布式索引方法 (Distrib uted Indexfor Features in Sensor Networks, DIFS),该方法综合了 GH技术和空间分解技术,利用GH技术实现了以数据为中心的存储,利用空间分解

43、技术实现对分布式数据的索引。区别于文献 19 所 采用的空间分解技术,其构造的层次结构的每个非 根节点具有多个父节点,以解决能量消耗和通信瓶 颈问题。每个节点都存储特定地理范围内和特定监 测数据值范围内的数据。上层节点存储的数据覆盖 的地理范围大,但覆盖的监测数据值的范围小。相 反,下层节点的数据覆盖的地理范围小,但数据值 的范围大。在查询数据时,首先选择最高父节点的 集合,这些节点覆盖所有查询要求的数据名的范围。 然后根据查询要求的空间范围逐层进行遍历,最后 得到查询结果。DIFS适用于指定空间范围以及指定 数据值范围的单属性的查询要求。3.2.4 数据模式现有的WS数据库系统对传感器监测的

44、数据流 建模大多为对传统的数据模式进行扩展,主要有基 于工作流模式、基于关系模式、基于对象模式。针 对WSI的一些特殊应用,也可以建立特殊的数据模 式。Aurora 系统是一种面向时间工作流模式建模的 系统, 其查询建立在 Aurora 查询代数基础上, 包括 3 个与顺序无关的操作(Filter ,Map和Union)和4个对 顺 序敏感 的 操作 (BSort , Aggregate , Join 和 Resample)。 TinyDB24 采用基于关系的数据模式, 并对传统的关系模式进行了扩展。它把传感器节点 的测量数据定义为一个单一的、无限长的、有两类 属性的虚拟关系表:一类用来定义测

45、量数据,如节 点标识符、测量时间、测量数据类型、单位等;另 一类用来描述测量数据本身,如温度、位置等。COUGA是 一个基于抽象数据类型(Abstract DataType)的数据流系统,它采用两种模式对数据进行建 模:用对象关系模式来组织建模存储数据;引入一 种时间序列模式建模组织传感器监测数据,并定义 了相应的关系代数操作、时间序列操作以及关系及 时间序列之间的操作。3.2.5 数据查询处理与优化WS的数据查询应用可以分为两大类:查询动态数据和查询历史数据。在查询动态数据中,数据在 传感器监测到的一个小的时间窗内有效,例如事件 检测查询或一些特定查询 (当前的温度是多少 ?)。而 查询历史

46、数据是指对检测到的历史数据进行数据挖 掘,用于发现事件特殊模式,分析数据走趋,形成 特定事件的理想模型等。对这一类应用来说,每一 个数据都是重要的,不能被抛弃。wsNk据库系统可理解为一个两层结构的分布 式数据库系统:运行在 Sink 节点上的代理数据库服 务器和运行在传感器节点上的局部数据库。数据查 询的处理过程一般为:首先用户使用命令式查询接 口把查询请求发送到网络,通过路由技术传送到运 行在Sink节点的代理服务器。其次,代理服务器根 据接收到的用户请求生成相应查询计划。然后,代 理服务器把查询计划通过路由技术发送到相应的传 感器节点。节点接收到查询后,执行查询,并把结 果传送到代理服务

47、器。最后,代理服务器对节点返 回的结果进行处理,并把最终结果返回给相应的用 户。WSI中的查询优化策略大致可分为运行在sink节点上的多查询优化策略和运行在网内节点上的单 查询优化策略。这两种技术结合起来构造 WS的查询 优化系统。优化的目标要在保证网络服务质量的前 提下,尽可能降低能量消耗,以延长网络的寿命。 查询优化问题是传感器网络领域的研究难题之一。 它必须设计一些高效的分布式处理和数据重用技 术,既要降低全网络的能量消耗,又要避免少量节 点因负担过重,能量消耗过快而失效,从而影响到 整个网络的使用寿命。无线传感器网络是一个以数据为中心的网络, 它管理的传感器监测数据和传统数据库中的数据

48、有 很大的差别,再加上传感器节点自身的特性,给数 据管理技术带来了巨大的挑战与机遇。目前,在WSN的数据管理技术方面已经取得了一些研究成果,但 离实际应用还很远,仍具有很大的研究空间。本章 主要从数据库的体系结构、数据在传感器节点上的 存储与索引技术、以数据为中心的存储与分布式索 引技术、数据模式、数据查询与优化等方面介绍了 无线传感器网络数据管理技术的研究进展。结束语无线传感器网络本就是一个以数据为中心的网 络。与我们以前所用到的关系型数据库存储的数据 不同,它所产生的数据是以数据流的形式所呈现出 来的。这就意味着我们对无线传感器网络所产生的 海量数据的处理过程也是一个系统的工程。它包括 了

49、特征的选择与提取(以去除冗余,降噪以及降低 特征空间维度为目的) 、数据传输过程中的融合 (所 要考虑最重要的问题是能耗的问题,所以很多数据 融合的算法也是基于降低数据传输量与能耗来考虑 的)、模式的分类识别 (在本文中主要以对大型桥梁 的损伤作为识别的对象) 、以及无线传感器网络中海 量数据的存储与查询 (数据管理技术将物理世界 WSN 的连续数据流看作是一个分布式数据库。 )的问题。 本文所做的主要工作就是对 WSN 数据处理的整个 过程进行了一个系统的概述,这是一个从采集到传 输再到识别存储的一个过程。当然,整个过程是一 个大的系统。它内容非常的多,以至于每一块的内 容单独拿出来都是一个独立的研究方向。所以本文 肯定会有许多没有涉及到的地方,我将会在未来的 学习中进一步去探索。参考文献 (References)1、 邓扬,丁幼亮,李爱群基于小波包分析的拉索损伤声发射信号特征提取J 振动与冲击,2010, (29)62、张小蓟,张歆,孙进才 标特征提取与选择 J.基于经验模态分解的目 西北工业大学学报 ,2006,(24)43、祁浩 王福豹 邓宏 基于无线传感器网络的地震信号特征提取方法研究 J. 物理学报 , 2013,(28)104、张保梅 数据级与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论