06 第6章 物联网数据处理_第1页
06 第6章 物联网数据处理_第2页
06 第6章 物联网数据处理_第3页
06 第6章 物联网数据处理_第4页
06 第6章 物联网数据处理_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、8/16/2022 8:07 PM石家庄经济学院信息工程学院1第五讲内容安排后台数据库技术数据库概述关系型数据库SQL查询语言资源受限网络的分级数据融合节点的分簇控制簇内数据融合分布式数据存储与处理数据挖掘与海计算数据仓库与数据挖掘技术云计算概述海计算的概念与未来8/16/2022 8:07 PM石家庄经济学院信息工程学院2第五讲内容安排后台数据库技术数据库概述关系型数据库SQL查询语言资源受限网络的分级数据融合节点的分簇控制簇内数据融合分布式数据存储与处理数据挖掘与海计算数据仓库与数据挖掘技术云计算概述海计算的概念与未来8/16/2022 8:07 PM石家庄经济学院信息工程学院3物联网数据

2、处理物联网中的个体通过感应器来感知信息,然后通过中间传输网来传送信息,最后在数据处理中心进行智能处理和控制。随着物联网技术的广泛应用,我们将面对大量异构的、混杂的、不完整的物联网数据。在物联网的万千终端收集到这些数据后,如何对它们进行处理、分析和使用成为物联网应用的关键。本讲对物联网中的后台数据库技术、数据挖掘技术和云计算与海计算技术逐一介绍。 8/16/2022 8:07 PM石家庄经济学院信息工程学院4后台数据库技术数据库是一项专门研究如何科学地组织和存储数据、如何高效地获取和处理数据的技术。主要内容:数据库的基本概念关系型数据库SQL查询语言 8/16/2022 8:07 PM石家庄经济

3、学院信息工程学院5数据库概述 1.数据库相关的基本概念 数据(Data)是描述事物的符号记录,数字、文本、声音和图像等都是数据。数据有多种表现形式,它们都能数字化后存入计算机,数据是数据库中存储的基本对象。 (1)数据库 数据库(DataBase, DB)从字面上来看,就是存放数据的仓库,只不过这个仓库是在计算机存储设备上,而且数据是按一定格式存放的。数据库是指长期存储在计算机内、有组织的、可共享的大量数据的集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度(redundancy)、较高的数据独立性(independency)和易扩展性(expandability),并可为

4、各种用户共享。 8/16/2022 8:07 PM石家庄经济学院信息工程学院6数据库概述 (2)数据库管理系统 数据库管理系统(DataBase Management System, DBMS)是位于用户与操作系统之间的一层数据管理软件,它允许用户对数据库中的数据进行操作,并将操作结果以某种格式返回给用户。数据库管理系统和操作系统一样是计算机的基础软件,也是一个大型复杂的软件系统。 数据库管理系统的主要功能如下:数据定义功能数据组织、存储和管理数据操纵功能数据库的事务管理和运行管理数据库的建立和维护功能其他功能:通信功能、数据转换功能、异构数据库之间的互访和互操作的功能等。8/16/2022

5、8:07 PM石家庄经济学院信息工程学院7数据库概述 (3)数据库系统 数据库系统(DataBase System,DBS)是指一个采用数据库技术的计算机存储系统。广义地讲,数据库系统是由计算机硬件、操作系统、数据库管理系统以及在它支持下建立起来的数据库、应用程序、用户和维护人员组成的一个整体。狭义地讲,数据库系统由数据库、数据库管理系统和用户组成。需要指出的是,数据库的建立、使用和维护等工作只靠一个DBMS远远不够,还需要专门的人员来完成,这些人员被称为数据库管理员(DataBase Administrator, DBA)。 8/16/2022 8:07 PM石家庄经济学院信息工程学院8数据

6、库概述 数据库系统 :数据库在计算机系统中的层次结构: 8/16/2022 8:07 PM石家庄经济学院信息工程学院9数据库概述 2. 数据管理技术的产生与发展 数据库技术是应数据管理任务的需要而产生的,数据管理则是对数据进行分类、组织、编码、存储、检索和维护,它是数据处理的中心问题。数据处理是指对各种数据进行收集、存储、加工和传播的一系列活动的总和。在应用需求的推动下和计算机硬件、软件发展的基础上,数据管理技术经历了三个阶段:人工管理文件系统数据库系统8/16/2022 8:07 PM石家庄经济学院信息工程学院10数据库概述 数据库技术从20世纪60年代中期产生到现在仅仅50余年的历史,但其

7、发展速度之快、使用范围之广是其他技术所不及的。60年代末出现了最早的数据库层次数据库,随后在70年代出现了网状数据库,在此阶段层次数据库和网状数据库占据了商用市场主流。在70年代同时出现了处于实验阶段的关系数据库,后来,随着计算机硬件性能的改善,关系系统的使用简便,关系数据库系统已逐渐替代了网状数据库和层次数据库,成为当今最流行的商用数据库系统。20世纪90年代,由于计算机应用的需求,数据库技术与面向对象、网络技术相互渗透,对象数据库技术和网络数据库技术得到了深入研究。 8/16/2022 8:07 PM石家庄经济学院信息工程学院11数据库概述 数据库系统中的数据管理结构:8/16/2022

8、8:07 PM石家庄经济学院信息工程学院12数据库概述 3. 数据库系统的特点 数据库是在计算机内按照数据结构来组织、存储和管理大量共享数据的仓库,它可以让各种用户共享,并具有最小冗余度和较高的数据独立性。DBMS在数据库建立、运用和维护时对数据库进行统一控制,以保证数据的完整性、安全性,并会在多用户同时使用数据库时进行并发控制,在发生故障时对数据库进行恢复。与人工管理和文件系统相比,数据库系统的特点主要有以下几个方面:(1)数据结构化8/16/2022 8:07 PM石家庄经济学院信息工程学院13数据库概述 (2)数据的共享性高、冗余度低、易扩充(3)数据独立性高(4)数据由DBMS统一管理

9、和控制8/16/2022 8:07 PM石家庄经济学院信息工程学院14关系型数据库 关系数据库(Relational DataBase, RDB)是基于关系数据模型的数据库系统。 1. 关系数据库的研究与发展历程 1970年,IBM公司圣何塞研究中心的研究员E.F.Codd(关系数据库之父)发表了著名的论文A Relational Model of Data for Large Shared Data Banks(大型共享数据库的关系数据模型),开创了数据库系统的新局面。Codd提出了关系数据模型的概念,即数据库管理系统应该将数据组织成二维表(也称为关系)的形式呈现给用户。开发人员使用关系数据

10、模型,而不必关心数据的存储结构,并可以使用高级语言来描述其查询。这样,可以大大提高数据库应用系统开发人员的工作效率。 8/16/2022 8:07 PM石家庄经济学院信息工程学院15关系型数据库 关系数据库模型的主要特点如下:(1) 关系模型的概念单一,实体以及实体之间的联系都用关系来表示;(2) 以关系代数为基础,易于形式化表示;(3) 数据独立性强,数据的物理存储和存取路径对用户隐藏;(4) 关系数据库语言是非过程化的,这样可以将用户从通过编程一步一步引导查询操作执行的过程中解脱出来,大大降低了用户编程的难度。8/16/2022 8:07 PM石家庄经济学院信息工程学院16关系型数据库 关

11、系数据库的发展历程可以分为三个阶段 :第一阶段从20世纪70年代初期E.F.Codd提出关系模型开始。这一阶段奠定了关系模型的理论基础,人们研究了关系数据库语言,并开发出了关系数据库管理系统的一些原型。其中,IBM公司的System R和加州大学伯克利分校的Ingres等为这一时期的代表。 第二阶段从20世纪70年代后期开始,是关系数据库的应用阶段。这一时期从理论上解决了诸如查询优化、并发控制、完整性机制和故障恢复等一系列重大技术问题,从而使得关系数据库走向实用化和商业化。在这期间,出现了比较典型的商业关系数据库管理系统如Oracle、DB2和Informix等。 8/16/2022 8:07

12、 PM石家庄经济学院信息工程学院17关系型数据库 第三阶段从20世纪80年代开始,自那时以来,分布式关系数据库系统成为数据库研究的重点,并且日趋成熟。目前,几乎所有主流的DBMS产品都支持分布式。这个时期的代表产品有Oracle、Informix、DB2和SQL Server等。 2. 关系数据库的基本概念(1)关系数据结构关系模型的数据结构非常简单,只包含单一的数据结构:关系(relation)。它为人们提供了一种二维表的方法来描述数据,关系模型的中心概念为关系,一个关系由模式和模式的实例两部分构成。8/16/2022 8:07 PM石家庄经济学院信息工程学院18关系型数据库 关系实例关系实

13、例就是指由行和列组成的表,一般人们就用“关系”来代表关系实例。属性关系表中的列称为属性,其中表的第一行是属性名,其余各行是相应的属性值。域域是一组具有相同数据类型的值的集合。关系表中属性的取值范围就称为域。例如,属性“性别”的域为“男”和“女”两个值。元组关系表中的行称为元组或记录。一般地,任意两个元组不能完全相同。所有元组的集合就是关系表本身。分量元组中的每一个属性的值称为元组的一个分量。例如,元组(001,张三,男,18,IS)有5个分量,对应“所在系”的分量是“IS”。对于同一属性,分量应该是同一类型的数据,即来自同一个域,且每一个分量都必须是不可再分的数据项。8/16/2022 8:0

14、7 PM石家庄经济学院信息工程学院19关系型数据库 候选码如果关系中的某一属性组的值能唯一地标识一个元组,则称该属性为候选码。一个关系可以有多个候选码。在最简单的情况下,候选码只包含一个属性。而在极端情况下,所有属性都是候选码,此时称为全码。主码当一个关系中有多个候选码时,则从中选择一个候选码作为主码。对于一个关系,只能有一个主码。主码是能辨识记录的最小属性组。例如,对于关系“学生”中学生ID可以作为主码。主属性和非主属性包含在候选码中的属性称为主属性,其它的为非主属性。8/16/2022 8:07 PM石家庄经济学院信息工程学院20关系型数据库 关系模式关系名和其属性集合的组合称为关系模式。

15、设关系名为R,其属性分别为a1、a2和a3,则关系模式可以表示为R(a1,a2,a3)。学生的关系模式可表示为:学生(学生ID,姓名,性别,年龄,所在系)。关系模式只是对数据特性的描述,因此,可以将关系模式理解为一个数据类型。这样,关系实例就是一个具体的值。8/16/2022 8:07 PM石家庄经济学院信息工程学院21关系型数据库 (2)关系操作关系模型给出了关系操作能力的说明,但不对RDBMS语言给出具体的语法要求,也就是说不同的RDBMS可以定义和开发不同的语言来实现这些操作。关系模型中常用的关系操作有查询(Query)操作和插入(Insert)、删除(Delete)及修改(Update

16、)操作两大类。关系的查询表达能力很强,是关系操作中最主要的部分。查询操作又可以分为并(Union)、差(Except)、交(Intersection)、笛卡尔积(Cartesian Product)、投影(Project)、选择(Select)、连接(Join)和除(Divide)等。关系操作的特点是集合操作方式,即操作的对象和结果都是集合,这种操作方式也称为一次一集合(set-at-time)方式。8/16/2022 8:07 PM石家庄经济学院信息工程学院22关系型数据库 并(Union)关系R与关系S各有n个属性,且相应的属性值取自同一个域(以下均为此条件),则关系R与关系S的并记作R

17、U S = t|tRtS,其结果仍为n个属性,由属于R或属于S 的元组组成。8/16/2022 8:07 PM石家庄经济学院信息工程学院23SQL查询语言 结构化查询语言(Structured Query Language, SQL)是关系数据库的标准语言,它具有通用、功能性强等优点,而且它的功能不仅仅局限于查询。目前,几乎所有的关系数据库管理系统软件都支持SQL,有许多厂商对SQL基本命令进行了不同程度的改善与扩充。8/16/2022 8:07 PM石家庄经济学院信息工程学院24关系型数据库 1. SQL语言的发展历史 在20世纪70年代初,E.F.Codd首先提出了关系模型。到了70年代中

18、期,IBM公司在研制SYSTEM R关系数据管理系统时,研究设计了SQL语言。最早的SQL语言公布在1976年11月的IBM Journal of R&D上。1979年,Oracle公司首先提供商用的SQL语言,同时,IBM公司在DB2和SQL/DS数据库系统中也实现了SQL。1986年10月,美国ANSI组织采用SQL作为关系数据库管理系统的标准语言,后被国际标准化组织(ISO)采纳为国际标准。在1999年发布的SQL 99标准中,增加了面向对象的功能,随后,SQL标准不断改进,比如,SQL 2003版支持XML、Window函数和Merge语句等,SQL 2006版增强了XML对数据处理的

19、能力,SQL 2008增加了数据集成功能、改进了分析服务、集成了Office等。SQL语言简单易学、功能丰富,深受用户及业界的欢迎与推崇。当前主流的数据库管理系统,如Oracle、MySQL、SQL server等,都是基于SQL语言的。 8/16/2022 8:07 PM石家庄经济学院信息工程学院25关系型数据库 2. SQL语言的主要特点 SQL是一个关系数据库语言,它的操作对象是以表的形式存放在关系数据库系统中的数据。SQL语言虽然名为“语言”,但其本身并不是一个完整的编程语言,比如,它不支持程序的流程控制等,SQL语言需要和其他编程语言结合起来用。SQL语言主要特点如下。综合统一高度非

20、过程化当面向过程化语言需要进行某项操作(例如,查询)时,必须指定存取路径。而对于SQL语言,用户只需提出“做什么”,而不必指明“怎么做”,也就是说,用户无需了解存取路径,SQL语句的执行过程由系统自动完成。这种操作方式不仅大大减轻了用户负担,而且有利于提高数据的独立性。面向集合的操作方式SQL采用集合操作方式,不仅操作对象和查询结果都是记录的集合,而且插入、删除及更新操作的对象也可以是记录的集合。以同一种语法结构提供两种使用方式SQL既是独立的语言,又是嵌入式语言。在两种不同的使用方式下,SQL的语法结构基本上是一致的。语言简洁,易学易用8/16/2022 8:07 PM石家庄经济学院信息工程

21、学院26关系型数据库 3. SQL的基本概念支持SQL的关系数据库管理系统都支持数据库的三级模式(Schema)结构,该结构如下所示:8/16/2022 8:07 PM石家庄经济学院信息工程学院27关系型数据库 4. SQL的操作关系数据库系统支持模式、外模式和内模式的三级模式结构,它们操作的基本对象包括表(TABLE)、视图(VIEW)和索引(INDEX)。因此,SQL的数据定义功能包括模式定义、表定义、视图和索引定义。与表和视图相关的一些SQL操作如下。 (1)建立表SQL中使用CREATE TABLE语句来定义表。一种简化的定义格式如下:CREATE TABLE (,);8/16/202

22、2 8:07 PM石家庄经济学院信息工程学院28关系型数据库 【例6.7】利用SQL语言建立学生表Student(Sno, Sname, Ssex, Sage, Sdept)完成上述要求的SQL语句如下:CREATE TABLE Student (Sno CHAR(8), Sname CHAR(20), Ssex CHAR(2), Sage INT, Sdept CHAR(20) );8/16/2022 8:07 PM石家庄经济学院信息工程学院29关系型数据库 (2)建立视图(3)数据查询SQL的查询功能是SQL数据库的核心操作,它提供了SELECT语句进行数据库查询,该语句使用方式灵活、功能

23、丰富。SELECT语句的格式如下:SELECT ALL|DISTINCT FROM WHERE GRROUP BY HAVINGORDER BY ASC | DESC;【例6.10】查询所有计算机系(CS)和数学系(MA)学生的姓名和性别。SELECT Sname,SsexFROM StudentWHERE Sdept IN (CS,MA);8/16/2022 8:07 PM石家庄经济学院信息工程学院30第五讲内容安排后台数据库技术数据库概述关系型数据库SQL查询语言资源受限网络的分级数据融合节点的分簇控制簇内数据融合分布式数据存储与处理数据挖掘与海计算数据仓库与数据挖掘技术云计算概述海计算的

24、概念与未来8/16/2022 8:07 PM石家庄经济学院信息工程学院31资源受限网络的分级数据融合 无线传感器网络是一种资源受限的网络,节点仅提供有限的计算能力、通信能力和供电能力,而且,在这种网络中节点过多、分布较广。传感器网络可以根据节点间距离的远近划分成簇(Clustering),而基于簇的分层结构具有天然的分布式处理能力,这样可以提高受限网络的资源利用率和数据处理的效率。下面主要介绍WSN中的节点分簇控制、簇内数据融合及分布式数据存储与处理。 8/16/2022 8:07 PM石家庄经济学院信息工程学院32节点的分簇控制 1. 分簇的网络结构 随着无线传感器网络自组网规模的扩大,节点

25、链路处理开销不断加大,网络对事件的响应速度变慢,可以通过传感器网络的节点分簇控制机制来解决这些问题。 分簇是指将传感器网络中一定区域内的节点组成称为簇(cluster)的控制单元,每个簇成员(cluster member)都把自己感知的数据传输给簇头(cluster head)。簇头是一个分布式处理中心,即无线传感器网络中的一个汇聚节点(sink node),簇头作为小规模范围内的节点控制者,它负责收集和协调簇内节点监测到的数据,再传输给基站(base-station)。8/16/2022 8:07 PM石家庄经济学院信息工程学院33节点的分簇控制 传感器网络典型的两级分簇结构:8/16/20

26、22 8:07 PM石家庄经济学院信息工程学院34节点的分簇控制 传感器网络是由多个簇构成,每个簇包括簇头和成员两种类型的节点。处在同一簇内的簇头和成员节点共同维护所在簇的路由信息,簇头节点负责所管辖簇内数据信息的压缩和融合处理,并与基站交换信息。这种两级分簇结构适用于小规模传感器网络,如果网络规模较大,需要在多个簇头节点之间转发(forward)消息,最终把数据传输到基站,这时涉及到传感器网络的路由(routing)问题,即按照什么规则寻找下一跳节点 。8/16/2022 8:07 PM石家庄经济学院信息工程学院35节点的分簇控制 2. 节点分簇控制的优点 采用层次结构后,簇内成员节点只需要

27、与所属簇的簇头通信,而簇头只需要和其它簇头交换路由信息,因此,可以降低传感器网络路由协议的复杂度,减少节点路由表项的数目,同时,路由维护开销也随之降低且具有较好的可扩展性,更加适合于大规模WSN的应用场景。 在满足一定约束条件下,例如,覆盖范围与采样精度要求等,簇内成员节点可以在某些时间段内关闭无线通信模块,从而大幅度减少节点空闲等待时的能量消耗。 在一个簇内部,簇内成员节点采集到的数据通常具有较大的相关性,因此,在簇头节点上可以采用数据融合算法,在保证一定信息质量的情况下减少数据通信量,可以降低数据转发的能量开销。8/16/2022 8:07 PM石家庄经济学院信息工程学院36节点的分簇控制

28、 3. 典型分簇控制算法根据不同的分类标准,分簇控制算法可以有多种分类方法。以簇形成是否存在集中控制,可划分为集中式、分布式算法。以是否需要预先获得节点位置信息,可划分为基于地理位置、不基于地理位置的算法。以每次分簇是否存在一个确定的结果,可划分为确定性和随机性分簇算法等。在这些算法中,LEACH是分布式、无需地理位置的随机分簇控制算法。 8/16/2022 8:07 PM石家庄经济学院信息工程学院37节点的分簇控制 典型分簇控制算法LEACHLEACH(Low-Energy Adaptive Clustering Hierarchy)是无线传感器网络中最早提出的且具有代表性的分簇算法,它使用

29、随机轮转在传感器节点间平均分配能量负载。该算法工作的假设条件是传感器网络中的节点发射功率足够大,任何节点都可以一跳到达基站,所有节点在网内的地位是一样的。8/16/2022 8:07 PM石家庄经济学院信息工程学院38节点的分簇控制 LEACH算法把时间分成很多轮(round),轮的周期固定,每轮从簇建立阶段开始,这个阶段形成簇,其后是稳定工作阶段,这个阶段传输数据到基站。一定时间后进入下一轮重新开始前面分簇、数据传输的工作。LEACH算法的工作过程:8/16/2022 8:07 PM石家庄经济学院信息工程学院39节点的分簇控制 LEACH算法在一轮中的工作大致分为两步:成簇阶段和数据传输阶段

30、。(1)成簇阶段当需要建立簇时,每个节点自组织地决定在当前轮中自己是否成为簇头,这个决定基于传感器网络预设的簇头比例(该值预先确定)和当前轮数。节点n通过产生一个在0和1之间的随机数来做决定,如果这个数小于阀值T(n),该节点成为这一轮的其中一个簇头,阀值T(n)如下所示:8/16/2022 8:07 PM石家庄经济学院信息工程学院40节点的分簇控制 其中,P:预先确定的簇头占总节点数的比值,比如,可取值0.05; r:当前轮数;G:在过去的r-1轮中尚未当选簇头的节点集合。每个自我选举成为当前轮的簇头的节点广播公告信息给其余节点,在广播“簇头公告信息”时,簇头使用CSMA MAC协议,并且所

31、有簇头节点用同样的发射能量发送它们各自的公告信息。在这段时间,非簇头节点必须打开接收设备,收听所有簇头节点的公告,这段时间过后,每个非簇头节点根据收到的公告的信号强弱,决定这一轮加入哪个簇。在通信链路对称的情况下,普通节点以收到的簇头公告的信号最强的簇头为自己所加入簇的簇头,此时,仅需最少的发送能量就能与该簇头通信。 8/16/2022 8:07 PM石家庄经济学院信息工程学院41节点的分簇控制 在每个节点决定加入选定的簇后,它必须通知对应的簇头节点将其设置为簇内成员,每个节点同样用CSMA MAC协议把这个信息发回给簇头,在这段时间,所有簇头节点必须打开接收设备。簇头节点接收到所有想加入该簇

32、的节点消息后,簇头节点基于簇内节点的数量建立TDMA调度方案,告诉每个簇内节点什么时候可以发送消息,这个调度信息被广播给簇内节点。至此,成簇阶段结束。8/16/2022 8:07 PM石家庄经济学院信息工程学院42节点的分簇控制 LEACH协议某两轮成簇的网络结构。 8/16/2022 8:07 PM石家庄经济学院信息工程学院43节点的分簇控制 (2)数据传输阶段在数据传输阶段,簇内成员节点根据分配给自己的TDMA时间片向簇头发送自己的感知数据,而在其他时刻可以进入休眠状态,从而节省能量。为了避免相邻簇内节点的通信干扰,各个簇之间都采用不同的CDMA码片。当簇头节点接收到数据后,进行簇内数据融

33、合等处理,再把数据以CSMA/CA方式传输给基站。8/16/2022 8:07 PM石家庄经济学院信息工程学院44节点的分簇控制 4.基于分簇的无线传感器网络应用系统 8/16/2022 8:07 PM石家庄经济学院信息工程学院45簇内数据融合 数据融合的概念始于20世纪70年代初期,在80年代得到了长足发展。近几年来,数据融合技术已经引起世界范围内的普遍关注,且在一些重大研究项目上取得了突破性进展,不少数据融合技术的研究成果和实用系统已在1991年的海湾战争中得到实战验证,取得了理想效果。 8/16/2022 8:07 PM石家庄经济学院信息工程学院461. 数据融合的原理与方法 多传感器数

34、据融合的工作原理就像人脑综合处理信息一样,充分利用多个传感器资源,通过对多传感器及其观测信息的合理支配和使用,把多传感器在空间或时间上冗余或互补信息依据某种准则来进行组合,从而获得被测对象的一致性解释或描述。多传感器数据融合工作过程如下: n个不同的传感器收集观测目标的数据; 对传感器的输出数据进行特征提取和变换,得到相应的特征矢量;簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院47 对特征矢量进行模式识别和处理,完成各传感器关于目标的说明,用到的识别方法可以是聚类算法、自适应神经网络方法,或者其他能将特征矢量变换成目标属性判决的统计模式识别法等; 将各传感器关于目

35、标的说明数据按同一目标进行分组; 利用融合算法将每一目标的各传感器数据进行合成,得到该目标的一致性解释与描述。簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院48利用多个传感器获取关于对象和环境全面完整的信息的关键主要在于融合算法,因此,多传感器融合系统的核心问题是如何选择合适的融合算法。 目前,在不少应用领域根据各自的具体应用背景,已经提出了许多成熟并且有效的融合方法,这些多传感器数据融合的方法可以概括为随机和人工智能两大类。随机方法有加权平均法、卡尔曼滤波法、多贝叶斯估计法、Dempster-Shafer(D-S)证据推理、产生式规则等。人工智能方法包括模糊逻辑理

36、论、神经网络、粗糙集理论、专家系统等。 信息融合方法的基本要求是要具有鲁棒性和并行处理能力、融合方法的运算速度和精度、与前期预处理系统和后续信息识别系统的接口性能以及对信息样本的要求等。 簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院492.数据融合分类 按照不同的分类标准,数据融合可以有多种不同的分类方法。 根据数据进行融合操作前后的信息量来分:无损融合(lossless aggregation)和有损融合 (lossy aggregation);根据数据融合与应用层数据语义之间的关系来划分:依赖于应用的数据融合和独立于应用的数据融合;根据融合操作的级别划分:数据

37、级融合、特征级融合和决策级融合三类。 簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院50(1)无损融合和有损融合 在无损数据融合中,所有的细节信息均被保留,此类融合的常见方法是剔除信息中的冗余部分。根据信息理论,无损融合中,信息量整体缩减的大小受到其熵值的限制。 例如,将多个数据分组打包成一个“大的”数据分组,而不改变各个分组所携带的数据内容的方法就属于无损融合。 时间戳融合是无损融合的另一个例子。 簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院51(1)无损融合和有损融合 有损融合通常会省略一些细节信息或降低数据的质量,从而减少需要存储

38、或传输的数据量,以达到节省存储资源或能量的目的。在有损融合中,信息损失的上限是要保留应用所需要的全部信息量。很多有损融合都是针对数据收集的需求而进行网内处理的必然结果。比如,温/湿度监测应用中,需要查询某一区域内的平均温/湿度或最低、最高温/湿度时,网内将对各个传感器节点所报告的数据进行计算,并只将结果数据报告给查询者。 簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院52(2)应用相关/无关的数据融合 数据融合都是针对应用层数据进行的,即数据融合需要了解应用数据的语义。从实现角度看,数据融合如果在网络分层结构的应用层实现,则与应用数据之间没有语义鸿沟,可以直接对应用

39、数据进行融合;如果在网络层实现数据融合,则需要跨协议层理解应用层数据的含义,即在网络层理解应用层数据,这称为应用相关的数据融合(Application Dependent Data Aggregation, ADDA)技术。簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院53(2)应用相关/无关的数据融合 独立于应用的数据融合(Application Independent Data Aggregation, AIDA)技术可以避免ADDA的语义相关性问题,该技术把数据融合作为独立的一层来实现,简化了各层之间的关系。 簇内数据融合 8/16/2022 8:07 PM石

40、家庄经济学院信息工程学院54(3)根据融合操作的级别划分1) 数据级融合数据级融合是最底层的融合,操作对象是传感器通过采集得到的数据,因此是面向数据的融合。这类融合大多数情况下仅仅依赖于传感器类型,而不依赖于用户需求。2) 特征级融合特征级融合通过一些特征提取手段将传感器数据表示为一系列的特征向量,以反映事物的属性,是面向监测对象特征的融合。比如,在温度监测应用中,特征级融合可以对温度传感器数据进行综合,表示成(地区范围,最高温度,最低温度,平均温度)的形式。3) 决策级融合决策级融合根据应用需求进行较高级的决策,是最高级融合。决策级融合的操作可以依据特征级融合提取的数据特征,对监测对象进行判

41、别、分类,并通过简单的逻辑运算,执行满足应用需求的决策。因此,决策级融合是面向应用的融合。比如,在灾难监测应用中,决策级融合可能需要综合多种类型的传感器信息,包括温/湿度、震动和毒性气体等,进而对是否发生了灾难性事故进行判断。簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院553. WSN中的数据融合 传感器网络应用往往以数据为中心,人们关心的是某个区域的某个观测指标的值,而不是具体某个节点观测到的值。因此,在传感器网络节点采集、处理信息的过程中,各个节点单独传输数据到基站的方法显然是不合适的。因为节点采集到的数据存在大量冗余信息,这样会浪费大量的通信带宽和宝贵的能量

42、资源。为避免上述问题,传感器网络采用了数据融合(数据汇聚)技术来减少网内数据传输量。所谓传感器数据融合是指将多个节点数据进行处理,组合出更准确高效、更符合用户需求的数据的操作。 簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院56(1)基于卡尔曼滤波的传感器节点数据融合 (2)基于簇内加权数据融合 传感器网络采用分簇层次结构后,在簇内通常要进行簇内数据融合。簇内数据融合是把一个簇内各个簇成员节点感知到的数据按照某一规则结合为一个最佳估计值。由于传感器节点是随机放置的,而且各个传感器有各自的测量误差,因此,每个传感器感知到的数据的权重因子也就各不相同,误差小的节点的权重

43、应该较大,而误差大的节点的权重应该较小。 簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院57簇内加权数据融合:簇内数据融合 8/16/2022 8:07 PM石家庄经济学院信息工程学院58图灵奖获得者Jim Gray指出,随着计算机处理能力的提高、网络技术的不断进步和存储容量的飞速发展,数据处理、存储、传输越来越廉价,数据和数据组织才是真正最有价值的东西。数据的存储和处理经历了由集中式向分布式发展的历程。 1.集中式数据处理 集中式计算机网络是一个大型的中央计算系统,其终端是客户机。数据全部存储在中央系统内,由数据库管理系统进行管理,而且所有的处理都由该大型计算系统

44、来完成,终端只是用来输入和输出。在这种计算模式里,终端自己不作任何数据处理,所有任务都在中央主机上进行处理。 集中式数据存储、处理的主要特点是把所有数据保存在一个地方,各个远程终端通过电缆同中央计算机(主机)相连,保证了每个终端使用的都是同一信息。 分布式数据存储与处理 8/16/2022 8:07 PM石家庄经济学院信息工程学院59银行的ATM机采用的就是集中式计算机网络,所有的事务都在银行网络系统的主机上进行处理,终端只提供简单的信息输入、查询处理。这种集中式处理结构总体费用比较低,主机因拥有大量存储空间和强大的计算能力而价格昂贵,但众多的终端因功能简单,其价格非常便宜。 集中式处理不利的

45、一面是来自所有终端的计算需求都是由中央主机完成的,使得系统的性能瓶颈存在于中央主机,当用户数量较大时,网络处理速度可能有些慢。另外,如果各用户有不同的服务需求时,在集中式计算机网络上满足这些需求可能十分困难。 分布式数据存储与处理 8/16/2022 8:07 PM石家庄经济学院信息工程学院602.分布式数据处理 个人计算机的性能不断提高及其使用的普及使得处理能力分布到网络上的所有计算机成为可能,分布式计算就是利用互联网上计算机CPU的闲置处理能力来合力解决大型计算问题的一种计算科学。 例如,通过Internet上闲置主机的计算能力来寻找最大的梅森素数、寻求最为安全的密码系统和寻找对抗癌症的有

46、效药物等。这些复杂的项目都需要惊人的计算量,仅仅由单个计算机或个人在一个能让人接受的时间内计算完成是决不可能的。 分布式数据存储与处理 8/16/2022 8:07 PM石家庄经济学院信息工程学院61在分布式网络中,数据的计算和处理都是在本地工作站上进行的。数据的输出可以打印,也可以保存在本地存储设备中,通过分布式网络主要是能得到更快、更便捷的数据访问。 分布式计算的优点是可以快速访问,实现多用户共享使用资源,每台计算机都可以访问网络系统内部其他计算机的信息。在系统设计上,分布式计算结构具有更大的灵活性,既可以为独立计算机用户的特殊需求服务,也可以为联网企业的需求提供服务,实现系统内部不同计算

47、机之间的通信。 分布式计算的缺点是对病毒比较敏感,任何用户都可能引入被病毒感染的文件,并将病毒扩散到整个网络。另外,分布式系统中数据分布在多个地方,难以制定一项有效的备份计划。 分布式数据存储与处理 8/16/2022 8:07 PM石家庄经济学院信息工程学院623.分布式数据存储 分布式数据存储与处理技术是将数据分散存储在多个终端节点上,采用可扩展的系统结构,利用多台存储服务器分担存储和处理数据的负荷,利用位置服务器定位存储信息。这种存储方式不但解决了传统集中式存储系统中单存储服务器的性能瓶颈问题,而且提高了系统的可靠性、可用性和扩展性。 目前,在互联网上可访问的信息数量达秭(百万亿亿)级。

48、毫无疑问,各个大型网站也都存储着海量的数据,这些海量数据如何有效存储是每个大型网站的架构师必须要解决的问题。分布式存储就是为解决这个问题而发展起来的技术。 分布式数据存储与处理 8/16/2022 8:07 PM石家庄经济学院信息工程学院63分布式数据存储子系统架构 :分布式数据存储与处理 8/16/2022 8:07 PM石家庄经济学院信息工程学院64这种分布式存储技术并不是将数据存储在某个或多个特定的节点上,而是通过网络使用每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散地、结构化地存储在网内的各个地方。 结构化数据是一种用户定义的数据类型,它包含了一系列的属性

49、,每一个属性都有一个数据类型。结构化数据存储在关系数据库中时,可以用二维表结构来表达这些数据。大多数系统都有大量的结构化数据,一般存储在Oracle或MySQL等关系型数据库中,当系统规模大到单一节点的数据库无法支撑时,可采用垂直扩展与水平扩展来分散数据的存储。 分布式数据存储与处理 8/16/2022 8:07 PM石家庄经济学院信息工程学院65第五讲内容安排后台数据库技术数据库概述关系型数据库SQL查询语言资源受限网络的分级数据融合节点的分簇控制簇内数据融合分布式数据存储与处理数据挖掘与海计算数据仓库与数据挖掘技术云计算概述海计算的概念与未来8/16/2022 8:07 PM石家庄经济学院

50、信息工程学院66数据挖掘与海计算 在物联网的应用中,感知的数据从大量终端收集到后台数据库,由于环境状况、数据质量等的影响,使得对这些数据的管理、分析和使用面临巨大的挑战。与传统数据挖掘领域的数据特征相比,物联网数据的主要特性包括时空性、关联性、质量不高、海量和非结构性。本节主要介绍在处理物联网数据时用到的数据仓库与数据挖掘技术、云计算以及海计算的基本概念。 8/16/2022 8:07 PM石家庄经济学院信息工程学院67随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据量急剧增加,人们面临“如何有效存储这些数据的问题“。同时,面对物联网中的海量数据,我们如何提取出有用信息已

51、引起广泛关注。针对这些问题,数据仓库和数据挖掘技术应运而生。 1.数据仓库 为了满足决策支持和联机分析应用的需求,在20世纪90年代初,一个叫做数据仓库(data warehouse)的概念被提出,它是现今流行的一种数据存储库的系统结构。数据仓库指的是面向主题的(subject-oriented)、集成的(integrated)、时变的(time-variant)和非易失(nonvolatile)的数据集合,用以支持管理中的决策制定过程。 数据仓库与数据挖掘技术 8/16/2022 8:07 PM石家庄经济学院信息工程学院68数据仓库系统体系结构 :数据仓库与数据挖掘技术 8/16/2022

52、8:07 PM石家庄经济学院信息工程学院69数据处理通常分为两大类:联机事务处理和联机分析处理。联机事务处理(On-Line Transaction Processing, OLTP)系统也称为面向交易的处理系统,其基本特征是用户的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。联机分析处理(On-Line Analytical Processing, OLAP)系统是数据仓库系统的主要应用,可以用不同的格式组织和提供数据,以满足不同用户的各种需求,支持复杂的分析系统,侧重决策支持,并且提供直观易懂的查询结果。 数据仓库与数据挖掘技术 8/16/2022 8:07 PM石

53、家庄经济学院信息工程学院702.数据挖掘技术 (1)数据挖掘概述 数据挖掘(data mining)的概念在1995年的美国计算机年会(ACM)上被真正提出,它是指从大量数据中提取或“挖掘”知识,通俗地讲,就是从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式和知识的过程。 数据挖掘技术从一开始就是面向应用的,目前,数据挖掘的应用范围极其广泛,涉及到银行、电信、保险、交通、零售等商业领域,能够解决市场分析、客户流失分析和客户信用评分等许多典型的商业问题。 数据仓库与数据挖掘技术 8/16/2022 8:07 PM石家庄经济学院信息工程学院71(2)数据挖掘的过程 作

54、为知识发现的过程,数据挖掘工作的基本步骤如下: 了解相关的知识和应用的目标; 创建目标数据集,也就是选择数据; 数据清理和预处理,一般来讲,此过程的工作量占到整个数据挖掘过程的60%; 数据缩减与变换,即找到有用的特征,进行维数增减、变量增减、不变量的表示等; 选择数据挖掘的功能,如数据特征描述、分类模型数据挖掘、回归分析、关联规则挖掘、聚类分析等; 选择具体的数据挖掘算法; 进行数据挖掘,寻找感兴趣的、有用的模式; 进行模式评估和知识表示,包括可视化、转换和消除冗余等; 运用发现的知识。数据仓库与数据挖掘技术 8/16/2022 8:07 PM石家庄经济学院信息工程学院72(3)几种常见数据

55、挖掘功能 关联规则 分类和预测 聚类分析 离群点分析 数据仓库与数据挖掘技术 8/16/2022 8:07 PM石家庄经济学院信息工程学院73近几年,云计算、物联网和智慧地球等颇具前瞻性的概念不断出现,在某种程度上打破了我们原来对信息技术及应用的固有看法。 1.云计算的发展 2007年之前几乎还没有人知道云计算(Cloud Computing)这个词,似乎在一夜之间,这个概念突然风靡全球,如今,在IT业基本上没有人没听说过云计算。有人将2008年称为云计算的应用元年。从这一年开始,很多主流IT厂商都开始涉及云计算领域,主要有微软、Oracle、VMware等软件开发商,IBM、英特尔、惠普、S

56、UN等硬件厂商,Google、亚马逊、Salesforce等互联网服务提供商和像中国移动、AT&T等电信运营商。 云计算概述 8/16/2022 8:07 PM石家庄经济学院信息工程学院74云计算是多种技术混合演进的结果,这些技术成熟度相对较高,又有大公司的推动,所以发展极为迅速。Google、亚马逊、IBM和微软等大公司是云计算的先行者。亚马逊研发了弹性计算云EC2(Elastic Computing Cloud)和简单存储服务S3(Simple Storage Service),为企业提供计算和存储服务。Google公司是最大的云计算技术使用者,它的技术三大法宝为GFS(Google Fi

57、le System)、MapReduce和Bigtable。IBM公司推出的改变游戏规则的“蓝云”计算平台,为客户带来即买即用的云计算平台。2008年10月,微软公司推出了Windows Azure操作系统,它是通过在互联网架构上打造新的云计算平台,让Windows真正由PC延伸到“蓝天”上。 云计算概述 8/16/2022 8:07 PM石家庄经济学院信息工程学院75我国也紧跟云计算的步伐。中国移动研究院已经建立起1024个CPU的云计算试验中心。世纪互联推出了CloudEx产品线,提供互联网主机服务、在线存储虚拟化服务等。解放军理工大学研制了云存储系统MassCloud,并以它支撑基于3G的大规模视频监控应用和数字地球系统。 云计算概述 8/16/2022 8:07 PM石家庄经济学院信息工程学院762.云计算的定义 云计算是一种商业计算模型,它将计算任务分布在大量网络化计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。云计算把IT资源、数据和应用作为服务,通过网络提供给用户,云计算结构如下所示。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论