版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于感知数据时间相关性的缺失值估计算法
1感知数据的缺失无线通信技术、微电子技术和嵌入式控制技术的快速发展使无线传感器网络普及,无线传感器网络技术也成为研究的热点。传感器网络由分布在特定区域的多个传感器节点组成。每个节点都具有一定的计算、存储和通信能力。为了满足不同应用的不同需求,人们发布了许多基于无线传感器网络的研究和处理方法。然而,这些方法不能解决传感器数据缺失的问题。由于无线传感器网络的固有特性,在搜索和处理无线传感器网络时,由于检测和处理之间的感知数据不足,我们无法解决这一点。例如,传感器节点的通信能力有限,网络中的通信链路经常因为自然环境的影响而频繁断接,因此感知数据会在传输过程中被丢失,从而使得用户的查询结果集会经常出现缺失值.又如,传感器节点的能量有限.当节点的能量较低时,节点经常处于不稳定的工作状态,此时节点采集到的感知数据经常为不可用的异常值.由于这些异常值不可用,因此这些异常值也通常被认为是缺失数据.当节点能量耗尽时,节点不但无法采集所需的感知数据,而且存储在节点中尚未回传的感知数据也可能全部丢失,从而使用户的查询结果集出现缺失值.此外,由于节点体积较小,其构成器件较脆弱,因此节点容易受到动物踩踏、吞食或日晒、雨淋等周围环境的影响而损坏和丢失,从而导致存储在节点中的感知数据丢失.由于以上原因,无论人们提出怎样高效,健壮的查询处理算法,在无线传感器网络中感知数据的缺失问题都是不可避免的.感知数据的缺失问题给无线传感器网络的各种应用带来了巨大困难.例如在数据采集应用中,感知数据的缺失会降低感知数据集合的可用性,不但使感知数据集合的利用率急剧下降,还间接地降低了无线传感器网络的工作效率.例如,在森林环境研究中,生态学家需要根据部署在森林中的一组传感器网络采集到的温度、湿度、光照、气压等环境数据来研究区域范围内小气候的形成、植物的动态呼吸作用与生长模型.为此,生物学家需要传感器网络返回大量的监测数据.而这些大量的未处理的原始数据本身并不能直接应用到研究当中,生物学家必需应用一些分析工具来对这些数据进行处理才能得到可用信息.而目前被广泛应用于该领域的分析工具如机器学习方法中的支持向量机、人工神经网络;多元统计分析方法中的主成分分析,奇异值分解等都无法处理含有缺失值的数据集.因此,如何有效处理这些缺失值,从而使得采集到的感知数据集能够被应用于研究中,是极度困扰生物学家的挑战性问题.在实际的应用中,感知数据集合中存在着大量的缺失值和异常值.如果不对这些缺失值进行填补,则现有的分析工具无法被应用;如果将存在缺失值的数据元组删除,则会丢失大量的原始数据信息.这样做不但会降低分析结果的准确性与可靠性,更可能导致错误的分析结果.此外,丢弃对含有缺失值的数据元组的使用,还会间接地造成网络能源的极大浪费.这是因为在这些数据元组中除了缺失值以外的其它数据仍然是真实、可靠、可用的.采集和传输这些可用的感知数据需要耗费大量的网络能源.因此,从感知数据集合中删除含有缺失值的数据元组等同于网络能源的浪费.再次,从时间维度上考虑,反映监测对象某一时刻状况的感知数据只能被记录一次.所以,从时间维度上讲,缺失的感知数据是无法被重新再采集的,其只能被尽量准确地估计.综上,由于感知数据的缺失问题不可避免且极大地限制了无线传感器网络的广泛应用,因此如何对缺失的感知数据进行有效估计是我们亟待解决的问题.本文首先考虑了感知数据在时间维度上连续变化的特点,给出了基于感知数据时间相关性的LIN算法.该算法采用线性插值模型,能够对较短时间间隔内平稳变化的感知数据缺失值取得较好的估计效果.其次,对于非平稳变化的感知数据,本文充分考虑了相邻传感器节点的感知数据的空间相关性,给出了基于感知数据空间相关性的MR算法.该算法采用多元线性回归模型,通过对多个相邻传感器节点的感知数据的综合考察来给出缺失数据的估计值.此外,该算法对于用户给定的置信度,还能够给出缺失值的置信区间.最后,本文综合考虑了LIN算法和MR算法的特点,并基于这两种算法给出了一种基于感知数据时-空相关性的LM算法.该算法能够根据感知数据的变化特点自适应地调整缺失值估计方程中的相应参数,从而无论对于平稳变化还是非平稳变化的感知数据缺失值均能取得较好的估计效果.本文第2节讨论相关工作;第3节给出问题定义及LIN算法;第4节介绍MR算法;第5节介绍LM算法;第6节给出实验结果及分析;结论在第7节中给出.2对于感知数据的缺失值估计的在文献中应用时还没有任何能目前,无线传感器网络的研究工作涉及传感器网络的查询处理、安全、路由协议、数据融合等许多方面,但是还很少有对感知数据缺失值进行准确估计的研究.虽然在其它的研究领域,诸如人工智能、生物信息学和数据挖掘等领域,开展了一些相关的研究工作,但是这些研究工作由于没有考虑无线传感器网络的数据特点,因此不能很好地应用于无线传感器网络.目前,在无线传感器网络的查询处理技术研究中,主要工作集中在连续查询和近似查询两方面.在连续查询方面,人们主要研究如何结合具体的网络拓扑结构或其它系统特征生成优化的查询计划,能源有效地将满足查询的感知数据回传到sink节点.近似查询处理方面,人们主要研究如何利用传感器网络中感知数据的时-空相关性建立恰当的数学模型来近似回答查询,避免大量感知数据的回传.据我们所知,目前这些研究工作中还没有人讨论如何解决感知数据的缺失问题.需要说明的是,在感知数据的近似查询处理方面,尽管文献看起来与本文较相似,但是文献与本文解决的是不同的问题.本文解决的是如何准确地估计缺失数据,而文献解决的是如何用最少数据建立数据估计模型,从而在执行连续查询时最大化地节省能量.由于文献是以牺牲对缺失值的估计精度为代价节省能量,因此文献中的方法不适用于本文要解决的问题.文献将传感器网络映射成一个图,然后采用图方法考虑如何用最少的传感器节点观测值估计出监测区域内任意位置的监测值.由于文献关心的是如何最小化需要访问的传感器节点数量,而非感知数据的估计误差,因此文献也不适用于本文要解决的问题.此外,文献假定监测区域内感知数据满足某种数学模型,并且已知该模型.然而,在实际应用中,由于传感器网络多是对未知区域的监测,因此准确描述某一监测区域数据变化规律的数学模型是不容易得到的,因此文献难以在实际应用中被广泛采用.文献采用数据挖掘技术,研究了感知数据流上的缺失值估计问题,提出了WARM算法.当某一数据源节点a产生的流数据出现缺失值时,该算法首先找到与a相关联的另一数据源节点b,然后用b的相应数据作为缺失值的估计值.文献对WARM算法进行了改进,提出了CARM算法.该算法通过对流数据进行关联规则计算,找到多个数据源节点的频繁模式,并利用该频繁模式来估计缺失值.然而,文献中的WARM算法和CARM算法具有极大的局限性,无法被广泛应用.首先,这两个算法只能处理离散数据,无法处理连续变化的数据.而在许多应用中,无线传感器网络监测的环境变量如温度、湿度、大气压等都是连续变化的物理量.其次,这两个算法对缺失值的计算能力和估计准确性依赖于关联规则中用户指定的支持度阈值和置信度阈值.而实际上,由于用户面对大量生疏的感知数据无法知道数据之间的关联程度及数据变化规律,因此很难给出恰当的阈值,从而导致在实际的应用中算法的可用性急剧下降.再次,这两个算法对缺失值的估计依赖于频繁模式的计算,如果缺失值所对应的数据元组不出现在频繁模式中,则这两个算法无法对缺失值进行估计计算.本文算法能够有效解决上述不足,不但可以自适应地给出缺失值的估计值,而且能够对于用户给定的置信度给出缺失值的置信区间.3基于感知数据空间相关性的缺失值估计算法本文解决的问题是如何对感知数据集合中的缺失值进行准确估计.在介绍具体算法前,我们先给出问题定义.通常,由某一传感器节点ni采集到的感知数据集合在时间维度上可以看作是一个时间序列Si=(〈yi1,T1〉,…,〈yin,Tn〉),其中yik是该节点在Tk时刻的观测值.对于任意的时刻Tk,k∈{1,2,…,n},若该时刻的观测值yik缺失,则求其估计值ˆyik且使|ˆyik-yik|最小的问题称为缺失值估计问题.在许多应用中,无线传感器网络监测的环境变量如温度、湿度、光强、大气压等都是连续变化的物理量,因此其监测值通常具有一定的时间相关性.例如,图1给出了Intel-Berkeley实验室的两个Mica2节点在两天内采集到的温度值随时间变化的曲线图.从图中我们可以看到,在很多情况下,节点感知到的温度值按照某种变化趋势呈现出平稳的连续变化的特点(例如在0~500min,1500~2000min时间段内的温度值).因此,当某一时刻的感知数据缺失时,我们可以根据感知数据的这种时间相关性,用相邻时刻的数据来对其进行估计.考虑到线性函数能够较好地近似一个较短时间周期内的感知数据变化曲线且易于计算,因此本文通过在已知数据点上进行线性插值、构建分段线性函数来刻画感知数据的变化,并据此来估计缺失的感知数据.对于某一传感器节点ni,由其任意的两个时刻Tu,Tv的感知数据yiu和yiv构建的线性插值函数可以表示为L(t)=yiu+yiu-yivΤiu-Τiv(t-Τiu)(1)当某一时刻t的感知数据缺失时,算法LIN首先找到距离时刻t最近的两个时刻Tu和Tv(Tu<t<Tv),然后用这两个时刻的感知数据yiu和yiv根据式(1)来估计t时刻的缺失值,即ˆyit=L(t).从图1中,我们可以看到LIN算法对较短时间间隔内平稳变化的感知数据缺失值会取得较好的估计效果,但是对非平稳变化的感知数据的缺失值的估计效果却较差.例如在多风天气下露天环境中的风速时大时小,时有时无,此时风速传感器的读数呈现出无规则的剧烈变化,LIN算法无法对这种情况下的感知数据进行有效估计.因此,为了对非平稳变化的感知数据的缺失值进行较准确的估计,下面我们介绍一种基于感知数据空间相关性的缺失值估计算法——MR算法.该算法通过联合考察相邻传感器节点的观测值,能够有效解决感知数据在平稳及非平稳变化情况下的缺失值估计问题.4节点nk1.2感知变量t+t2众所周知,在一个特定的监测区域通常会布置很多传感器节点.这些节点的感知数据具有空间相关性,即物理位置上相邻的传感器节点采集到的监测数据往往比较相似或存在某种函数关系.例如,图1中节点1和节点25的监测值呈现出相似的变化规律.因此,当某一节点的感知数据缺失时,我们可以通过其邻居节点的感知数据来对其缺失值进行估计.为便于算法描述,不失一般性,我们假设只有节点ni的感知数据存在缺失值,并且ni总共有m个邻居节点,分别记作n1,…,nm.我们称由ni的所有邻居节点构成的节点集合为ni的邻居节点集,记作Nb(i)={n1,…,nm}.由于地理位置上的临近,不仅ni与其每一个邻居节点nj,nj∈Nb(i)存在感知数据空间相关性,而且ni的邻居节点之间也存在相关性,即∀nj,nk∈Nb(i),nj与nk的感知数据存在空间相关性.因此,为了能够准确估计节点ni的缺失值,降低由单个邻居节点对其缺失值进行估计而引入的随机误差,算法MR将节点ni与其邻居节点看作一个整体,用其所有邻居节点的感知数据来联合地估计缺失值.算法MR采用多元回归模型来刻画节点ni与其邻居节点的相关性,即对于任意的时刻t,有yit=β0+β1y1t+β2y2t+…+βmymt+μt(2)其中,yit是节点ni在t时刻的感知数据;ykt,k={1,2,…,m}是节点nk,nk∈Nb(i)在t时刻的感知数据;βk是对应于ykt的偏相关系数;μt为随机误差项.引理1.随机误差项μt服从均值为0,方差为σ2的正态分布,即μt~N(0,σ2).在式(2)中,yit可以看作是被解释变量;y1t,…,ymt可以看作是m个解释变量;偏相关系数βk反映了ykt对yit的影响程度,k={1,2,…,m}.显然,对于节点ni的缺失值,我们可以通过式(2)来进行估计.由多元回归模型计算理论可知,在应用式(2)之前,我们首先需要选取h(h-m≥2)组已知数据〈yij,y1j,…,ymj〉,j≠t作为样本数据对偏相关系数βk进行回归,得到其估计量ˆβk.然后用ˆβk替换式(2)中的βk,得到式(3)ˆyit=ˆβ0+ˆβ1y1t+ˆβ2y2t+⋯+ˆβmymt(3)其中,ˆyit是yit的估计值,ykt是节点nk在t时刻的实际观测值,k={1,2,…,m}.显然,对于节点ni在任意时刻t的缺失值yit,我们可以用式(3)对其进行估计.我们称式(3)为节点ni的缺失值估计方程,估计值ˆyit与真实值yit之间的偏差称为残差et,即et=ˆyit-yit.在求解偏相关系数βk的估计量时,不妨设h组样本数据中对应于节点ni的感知数据构成Y=(yi1,…,yih)T,对应于m个邻居节点的感知数据构成X,则偏相关系数的估计量可以表示为ˆβ=(ˆβ0,ˆβ1,ˆβ2,⋯,ˆβm)Τ=(XΤX)-1(XΤY)(4)引理2.ˆβ是β的线性、具有最小方差的无偏估计,即E(ˆβ)=E(β).引理3.ˆyit是yit的无偏估计,即E(ˆyit)=E(yit).引理4.残差et服从均值为0的正态分布,即et~N(0,σ2(1+Xt(XTX)-1XΤt)).其中,σ2是随机误差μt服从的正态分布的方差.引理5.假设e1,e2,…,eh分别是对应于h组样本数据的残差,则随机误差μt服从的正态分布的方差σ2的无偏估计量为ˆσ2=h∑k=1e2k/(h-m-1).定理1.假设对于任意时刻的缺失值yit,其由式(3)给出的估计值为ˆyit,则对于给定的置信水平1-α,yit的置信区间为[ˆyit-Bα‚ˆyit+Bα].其中,Bα=tα/2(h-m-1)√ˆσ2(1+Xt(XΤX)-1XΤt)(5)上述引理给出了MR算法的性质,并且定理1表明MR算法不但能够给出缺失值的无偏估计,而且对于用户给定的置信水平能够给出缺失值的置信区间.在实际的应用中,MR算法的这一特点能够给与用户极大帮助.例如,生物学家可以根据定理1来判断哪些估计值具有更高的可信程度,从而选择更可信的数据用于生物学研究.上述引理及定理的证明可以由多元回归模型理论推导得出,由于文章篇幅限制,这里我们省略了这些证明.尽管MR算法用所有邻居节点的感知数据来联合地估计缺失值,可以有效降低由单个邻居节点对缺失值进行估计而引入的随机误差,但是该方法在有些时候也会降低估计值的准确性.这是因为邻居节点的物理位置、相对距离等多种因素使得不同的邻居节点与节点ni的相关程度不同,甚至某些节点与ni的相关性较低.如果用与节点ni相关性不高的邻居节点的感知数据估计缺失值,则会降低对缺失数据的估计准确性.因此,在依式(3)构造缺失值估计方程时,我们需要审慎地选择参加估计值计算的邻居节点.此外,由于无线传感器网络所监测的物理环境是动态变化的,因此传感器节点之间的感知数据空间相关性实际上也是随时间动态变化的.MR算法通过自适应地选择参加估计值计算的邻居节点和样本数据来刻画感知数据的这种动态相关性,从而提高对缺失数据的估计准确性.4.1基于mr算法的估计方程优化假设yit是节点ni在t时刻的缺失数据,ˆyit是其估计值,则在MR算法中选择优化的邻居节点问题可以形式化地描述为:求ni的邻居节点集合Nb(i)的一个子集F,使得由F中所有传感器节点构造的缺失值估计方程(式(3))满足min|ˆyit-yit|.然而,由于yit是缺失数据,目标函数|ˆyit-yit|的值是无法计算得到的,因此实际上MR算法无法根据|ˆyit-yit|选择节点集F.由感知数据时间相关性可知,在一个较短的时间周期内,感知数据之间的空间相关性变化不大,可以被近似地认为保持相对稳定.因此MR算法调整目标函数为∑|v-t|≤ε(ˆyiv-yiv)2,其中yiv是邻近缺失数据采样时刻t的已知数据,ˆyiv是假定yiv为缺失值后,由估计方程计算得到的yiv的估计值,v≠t.显然,对于上述优化问题,我们可以通过枚举Nb(i)的所有子集来寻找满足优化目标的传感器节点作为估计方程的解释变量.然而,当节点ni的邻居节点数目较多时,该方法需要较高的计算开销O(2|Nb(i)|),因此当|Nb(i)|较大时,我们通过一个启发式算法来给出F的近似优化解.该启发式算法的直观思想是,对于节点ni的邻居节点nj,如果nj与ni的感知数据相关性越强,则用nj的感知数据来估计ni的缺失值的准确性越高.因此,该算法在选择缺失值估计方程的解释变量时,首先将ni的所有邻居节点nj,nj∈Nb(i),按照其与节点ni的相关性由强到弱的顺序排成一列,然后依次将其加入到F中并用F构造缺失值估计方程,求解目标函数值.当目标函数值不再减小时,算法停止,此时的F即为近似优化解.由于MR算法采用的是线性回归模型,并且考虑到皮尔森-相关系数能够较好刻画两个感知数据序列的线性相关性,因此,在这里我们将节点ni与节点nj的感知数据相关性定义为其感知数据序列Si和Sj的皮尔森-相关系数的平方.显然,该启发式算法的时间复杂性为O(|Nb(i)|).4.2节点nk的信号-认知-缺失值估计的算法对于节点ni在t时刻的缺失值,算法MR总是选择采样时刻邻近t的h组已知数据作为样本数据.这是因为由感知数据的时间相关性可知,在一个较短的时间周期内,感知数据的空间相关性变化不大,因此,采样时刻距离t越近的数据越能够更好地反映传感器节点在t时刻的感知数据的相关状况.此外,样本容量h也会影响估计方程的准确性.算法MR基于感知数据的时-空相关性,通过对邻居节点的经验学习,自适应地选取优化的样本容量h.对于节点ni在t时刻的缺失值,算法MR首先假定其邻居节点nk,nk∈Nb(i)在t时刻的感知数据缺失,然后用Nb(i)中的其余m-1个传感器节点构建nk的缺失值估计方程.通过考察不同的样本容量,算法MR可以得到使目标函数|ˆykt-ykt|达到最小的关于节点nk的样本容量hk.通过对Nb(i)中的节点进行逐一考察,算法MR总共可以得到m个这样的样本容量h1,…,hm.最后,算法MR取节点ni的样本容量h为所有hk,k={1,2,…,m}的算术平均值.5确定节点确定的权值由上述分析可知,当感知数据平稳变化时,对于较短时间间隔内的缺失数据,我们可以采用LIN算法对其进行估计;而当感知数据变化较剧烈,连续缺失的感知数据较多时,我们可以采用MR算法估计缺失值.然而,在实际的应用中由于感知数据的缺失,我们无法知道在缺失值所对应的时间段内,实际的感知数据究竟是平稳变化还是非平稳变化.因此,在许多情况下我们并不知道采用哪种算法能够更准确地估计缺失数据.本小节介绍的LM算法综合考虑了感知数据的时-空相关性,将LIN算法和MR算法有机结合,对于缺失的感知数据无论是平稳变化还是非平稳变化,均能给出较准确的估计值.算法LM的主要思想是,对于节点ni在t时刻的缺失值yit,先分别调用LIN算法和MR算法对其进行估计,然后对两种算法计算出的估计值进行加权求平均.假设对于节点ni在t时刻的缺失值yit,由LIN算法计算出的估计值为ˆyL,由MR算法计算出的估计值为ˆyΜ,则由LM算法计算出的该时刻的估计值为ˆyit=(1-w)ˆyL+(w)ˆyΜ(6)其中w是对应的权值系数,0≤w≤1.在式(6)中,由于ˆyL和ˆyΜ分别是LIN算法和MR算法对于同一缺失数据给出的两个不同的估计值,因此我们需要考察哪一种算法给出的估计值更准确、更可信.直观地,我们对于较准确的估计值应该分配较高的权值.下面,我们以图2为例来解释说明如何确定式(6)中的权值w.在图2中,ˆyL和ˆyΜ分别是LIN算法和MR算法对节点ni在t时刻的缺失数据yit给出的估计值,M是ˆyL和ˆyΜ的平均值.从图中我们可以看到,如果实际的缺失数据yit大于M,则用ˆyΜ作为其估计值更准确;如果实际的yit小于M,则用ˆyL作为其估计值更准确.由引理4及引理5,我们容易得到缺失数据yit大于M的概率为w,即用ˆyΜ作为缺失数据的估计值更准确的概率为w.因此,我们用w作为ˆyΜ对应的权值.同理,用ˆyL作为缺失数据的估计值更准确的概率显然为1-w.LA算法综合考虑了感知数据的时-空相关性,将LIN算法和MR算法有机地结合在一起,它能够根据实际的感知数据变化情况自适应地调整LIN算法和MR算法所给出估计值的对应权值,从而更加准确地估计缺失数据.当感知数据平稳变化时,由LIN算法给出的估计值和MR算法给出的估计值相差不大,LA算法对LIN算法和MR算法给出的估计值分配相似的权值系数,如图2(a)所示.当感知数据变化较剧烈时,LIN算法不能准确估计缺失数据,此时LIN算法给出的估计值和MR算法给出的估计值往往相差较大.由于MR算法是基于感知数据的空间相关性,通过邻居节点的感知数据来联合地估计缺失值,因此在这种情况下MR算法给出的估计值更准确、可信.此时,LA算法会自适应地对MR算法给出的估计值分配更大的权值,如图2(b)所示.6结果与分析6.1算法性能测试我们用Java实现了本文提出的算法,并在真实的监测数据集合上对本文算法进行了测试.测试所用的数据集是由部署在英特尔-伯克利实验室的54个mica2传感器节点在36天内产生的监测数据1.这些监测数据分别是对温度、湿度、亮度和节点电压每隔30s进行一次采样所得的监测值.为了评价算法性能,我们对感知数据集合中的非缺失数据进行估计,并用估计值与其对应的真实值进行比较.由于原始的感知数据集合中含有缺失值,因此在实验过程中我们首先从原始的数据集合中挑选含有较少缺失值的一段数据,并将其中的缺失值替换为邻近时刻感知数据的平均值,形成一个不含缺失值的完整测试数据集.然后,按照实验需要随机地将测试数据集中的已知数据标记成缺失值.最后我们通过对这些标记为缺失值的数据进行估计来评价我们的算法性能.此外,为了充分考察本文算法在各种情况下的性能,我们将测试数据集进一步地划分为平稳变化和非平稳变化两类,并分别在这两类数据上对本文算法进行测试.考虑到本文所要解决的问题是如何最大限度地准确估计缺失数据,因此我们用算法对缺失值估计的准确性来评价算法的性能.本文采用估计值与原始值的根均方误差RMSE作为评判度量.RΜSE=√mean[(ˆyit-yit)2],其中yit是真实的非缺失数据值,ˆyit为假定yit缺失后由算法计算得到的估计值,mean表示对所有标记为缺失值的数据进行估计并对其残差求平均.我们分别在两个数据集合的温度和湿度监测属性上对本文算法进行了测试,并与下面的算法进行了比较.WNA算法.该算法是基于感知数据空间相关性的缺失值估计算法.对于缺失值yit,该算法用其邻居节点感知数据的加权平均值作为估计值,即ˆyit=∑wk·ykt,nk∈Nb(i),其中wk是经过标准化后的权值系数,表示节点nk和ni的感知数据序列的相似性.DESM算法.该算法是基于感知数据时-空相关性的数据估计算法.对于缺失值yit,由算法DESM给出的估计值为ˆyit=(1-α)ˆyi(t-1)+(α)ˆyΖit,其中y^i(t-1)是对节点ni在t-1时刻的感知数据的估计值,y^itΖ是由节点nz对节点ni在t时刻的感知数据的估计值,α是权值系数.由于感知数据的采样频率,邻居节点的数目和感知数据的连续缺失数是影响算法性能的主要因素,因此在下面的实验中,我们主要考察这些因素对算法性能的影响.在无线传感器网络的应用中,为了使感知数据及时记录和反应被监测对象的实际变化,通常传感器节点的采样时间间隔不会很长.因此,本文考察的感知数据的采样时间间隔在1~30min之间,默认值为15min.由于本文提出的算法需要通过邻居节点的感知数据来估计缺失值,因此邻居传感器节点的数目会影响算法性能.由于物理空间上的限制,某一传感器节点的邻居节点通常不会非常多.因此,本文考察的邻居节点数目在4~12之间,默认值为8.此外我们还发现,在实际的应用中,一段时间内的感知数据可能由于某种客观因素的干扰而全部丢失,因此在最后得到的监测数据集中会出现连续的多个缺失数据.本文考察的连续缺失数据在1~30个之间,默认值为10个.在下面的实验中,当考察某特定参数变化时,其它参数均设置为默认值.6.2实验结果分析图3给出了算法在非平稳变化的温度数据上的实验结果.从图3(a)中我们可以看到,当感知数据的采样时间间隔为1min时,LIN算法的估计效果最好;随着采样时间间隔的增加,所有的算法对缺失值的估计误差均逐渐增大.这是因为在估计缺失数据时,这些算法或多或少地依赖于缺失值邻近时刻的感知数据.当感知数据的采样时间间隔增大时,感知数据之间的时间相关性降低,从而导致算法的估计误差增大.由于LIN算法完全地依赖于单一节点的感知数据的时间相关性对缺失值进行估计,因此当感知数据的采样时间间隔增加时,LIN算法对缺失值的估计误差迅速增大.然而,由于MR算法在估计缺失数据时,更多地是依赖于感知数据的空间相关性,因此当采样的时间间隔增加时,MR算法对缺失值的估计误差变化较小.此外,由于MR算法在估计缺失数据时,不但用多个邻居节点的感知数据联合地估计缺失值,而且还通过选择优化的邻居节点和样本数据来刻画感知数据之间的动态相关性,因此,相对于同样是基于感知数据空间相关性的WNA算法,MR算法具有更加稳定、准确的估计性能.由于LM算法可以通过自适应地调整估计方程中的权值系数来自动地选择较准确的算法估计值,因此当MR算法给出的估计值更准确时,LM算法对缺失数据的估计准确性近似于MR算法.从图3(b)中我们可以看到,随着邻居节点个数的增加,WNA算法的估计误差也逐渐增大.这是因为室内的温度数据变化较平稳,物理距离越近的传感器节点,其感知数据空间相关性越强.由于本文实验采用的是真实网络采集的感知数据,因此当邻居节点个数增加时,WNA算法会用到物理距离较远的传感器节点的感知数据对缺失值进行估计,从而导致算法的估计误差有所增大.然而,由于MR算法通过邻居节点选择算法,可以自适应地选择参加缺失值估计的传感器节点,因此邻居节点个数的变化对MR算法的估计性能影响不大.图3(c)显示随着连续缺失数据个数的增加,所有算法的估计误差均随之增大.这是因为所有这些算法在估计缺失值时,均需要缺失值邻近时刻的非缺失感知数据信息.当连续的缺失值个数增加时,缺失值与其邻近的非缺失感知数据的时间间隔增大,这使得缺失值与其邻近的非缺失感知数据之间的时间相关性降低,从而导致算法的估计误差增大.类似
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 直剃刀细分市场深度研究报告
- 台式烹饪炉产品供应链分析
- 农用化学品研究服务行业经营分析报告
- 螺纹磨床产品供应链分析
- 为航运破冰行业相关项目经营管理报告
- 乐器修复行业营销策略方案
- 动物剥皮用器具和工具产业链招商引资的调研报告
- 婴儿摇床产业链招商引资的调研报告
- 建防护堤行业相关项目经营管理报告
- 行李箱用成套收纳袋项目营销计划书
- 深圳高层次人才事项申请表
- 科学坐月子课件(PPT 31页)
- 电瓶车风险管控措施告知牌
- 莴苣种植管理ppt课件(PPT 21页)
- 英文文献阅读ppt课件(PPT 24页)
- 医院患者诊疗信息安全风险评估和应急工作机制制定应急预案XX医院患者诊疗信息安全风险应急预案
- 《国际经济法》课件国际货物贸易法笫一讲 国际货物买卖合同
- 负荷计算表(完美版)
- 行政法及公务员法专题与参考答案及解析
- 12.4 n次方根
- 生产计划作业流程图
评论
0/150
提交评论