支撑物联网的计算机技术数据库仓库与数据挖掘_第1页
支撑物联网的计算机技术数据库仓库与数据挖掘_第2页
支撑物联网的计算机技术数据库仓库与数据挖掘_第3页
支撑物联网的计算机技术数据库仓库与数据挖掘_第4页
支撑物联网的计算机技术数据库仓库与数据挖掘_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机技术:物联网的计算工具高性能计算、普适计算与云计算数据库与数据仓库技术人工智能技术多媒体技术虚拟现实技术嵌入式技术可穿戴计算技术物联网的技术体系2/85数据库与数据仓库技术数据库技术的发展数据库技术产生于20世纪60年代末期,短短30年间已从第一代层次、网状数据库,第二代关系数据库系统发展到第三代以面向对象模型为主要特征的数据库系统。随着数据库技术不断应用到新的领域,传统数据库技术面临着以下新的挑战:

(1)信息爆炸导致数据量剧增。随着社会信息化进程的加快,信息量急剧增长。如构成人类基因组的DNA排列图谱,每个基因组DNA排列长达几十亿个元素,每个元素又是一个复杂的数据单元,据估计人类的基因组约5~6万种,如何表示、访问和处理这样的图谱结构数据,是数据库面临的难题。

(2)数据类型的多样化和一体化要求。传统的数据库技术基本上是面向记录的,以字符表示的格式化数据为主,这远远不能满足多种多样信息类型的需求。新的数据库系统应能支持各种静态和动态的数据,如图形、图像、语音、文本、视频、动画、音乐等。(3)当前的数据库技术还不能处理不确定或不精确的模糊信息。目前,一般数据库的数据,除空值外都是确定的。但是实际生活中要求数据库能表示、处理不确定或不精确的数据。数据库技术的发展(4)数据安全性。数据库系统的发展方向是在大范围内集成,向广大用户提供方便的服务。随着移动主机(便携式计算机)的大量涌现,因特网的扩展延伸,用户可以随时随地访问数据库。此外,移动主机遗失、失窃等现象时有发生,这就带来严重的数据库安全和保密问题。现有的数据库安全措施还不能满足这个要求。在数据库安全模型、访问控制、授权、审计跟踪、数据加密、密钥管理、并发控制等方面都还没有形成明确的主流技术策略。(5)对数据库理解和知识获取的要求。目前,一方面正在被信息所淹没,另一方面由于缺乏知识而感到饥饿。人们对数据库的使用已不限于传统的查询,而希望把它作为知识源,从中提取一些知识,希望数据库具有推理、类比、联想、预测能力,甚至能从中得到意想不到的发现,希望数据库能主动而不是被动地提供服务。数据库与数据仓库技术20世纪80年代中期以来,尤其是进入90年代,数数据库出现了许多新分支。数据库与其他相关技术相结合出现的新分支有:与面向对象技术结合出现的面向对象数据库,与分布技术相结合出现的分布式数据库,与并行处理技术相结合出现的并行数据库,与多媒体技术相结合出现的多媒体数据库,与人工智能技术相结合出现的主动数据库、知识库和演绎数据库、与模糊技术相结合出现的模糊数据库等。数据库面向不同的应用领域出现的新分支有:面向决策支持出现的数据仓库,面向工程设计出现的工程数据库,面向地理信息系统(GIS)出现的空间数据库,面向移动计算环境出现的移动数据库,以及实时数据库、统计数据库等。以上这些数据库都是将要在后面各节中分别加以介绍的。数据库与数据仓库技术模糊技术新技术内容关系模型面向对象模型分布技术并行技术多媒体技术人工智能应用领域图13.1数据库家族的新成员分布式数据库并行数据库多媒体数据库主动数据库模糊数据库数据仓库工程数据库空间数据库移动数据库决策支持移动计算工程设计地理信息系统层次网状模型数据库与数据仓库技术面向对象数据库

面向对象数据库采用面向对象数据模型,完整描述现实世界的数据结构,具有丰富的表达能力分布式数据库

一个分布式数据库是物理上分散在计算机网络各结点上,但在逻辑上属于同一系统的数据集合。它具有局部自治与全局共享性、数据的冗余性、数据的独立性、系统的透明性等特点。分布式数据库管理系统(DDBMS)支持分布式数据库的建立、使用和维护,负责实现局部数据管理、数据通信、分布式数据管理以及数据字典管理功能。数据库与数据仓库技术数据库与数据仓库技术1、并行数据库系统并行数据库系统(ParallelDatabaseSystem,简称PDBS)是以并行计算机为基础,以高性能和可扩展性为目标,利用多处理器结构提供比大型机系统高得多的性能价格比和可用性的数据库系统。人们普遍认为,并行数据库系统将是未来的高性能数据库系统。并行数据库的研究主要包括以下几个方面:一是实现并行数据库操作的并行算法的研究,它要解决如何对数据库进行并行操作的问题;二是并行数据库物理存储结构的研究,它要考虑如何划分多处理机、如何划分或共享磁盘及内存等,以保证能实现对数据库的并行操作;三是并行查询优化的研究,查询优化是数据库领域的一个传统课题,但并行查询优化更加复杂,实现起来困难得多。目前,对并行数据库系统的研究已取得很大成效,出现了一些并行数据库的原型系统,如ARBRE、BUBBA、GAMMA、GRACE、ERADAT、XPRS等,一些运行在大规模并行处理系统上的大型商品化数据库管理系统如Oracle、Sybase等,也增加了并行处理能力。多媒体数据库概念:媒体是指信息表示或传播的载体。多媒体是指多种媒体形式,如数字、字符、文本、图形、图像、声音、视频的有机集成。其中数字、字符等称为格式化数据,文本、图形、图像、声音、视频等称为非格式化数据,非格式化数据具有数据量大、处理复杂等特点。多媒体数据库系统(MultimediaDatabaseSystem,简称MDBS)是结合数据库技术和多媒体技术,能够有效实现对格式化和非格式化的多媒体数据进行存储、管理和操纵等功能的数据库系统。多媒体数据库多媒体数据特点:(1)数据量大。格式化的数据数据量较小,最长的字符型为254字节。多媒体数据的数据量一般很大,1分钟的视频和音频数据往往需要几十兆的数据空间,大小相当于一个小型数据库。(2)结构复杂。传统的数据以记录为单位,一条记录由多个字段组成,结构简单。多媒体数据种类繁多结构复杂,大多是非格式化数据,来源于不同的媒体且具有不同的形式和格式。(3)时序性。由文字、声音、图象组成的复杂对象需有一定的同步机制,如画面的配音或文字需要与画面同步。传统数据则无此要求。(4)数据传输的连续性。声音、视频等多媒体数据的传输必须是连续的、稳定的,否则会影响效果和失真。多媒体数据的这些特点使得其需要有特殊的数据结构、存储技术、查询和处理方式,如支持大对象、基于相似性的检索、连续介质数据的检索等。多媒体体数据库的特征(1)与传统数据库的差异性。虽然在理论和技术上对传统数据库有很多继承,但在其处理数据对象、数据类型、数据结构、应用对象、处理方式都与传统数据库有较大差异,因此不能认为多媒体数据库只是对传统数据库的一种简单扩充或者试图用传统技术来做简单的处理。(2)处理对象的复杂性。多媒体数据库存储和处理的是现实世界中的复杂对象,不仅要处理包括数字、字符等格式化数据,还要处理图像、音频、视频等非格式化数据。(3)媒体间的独立性。多媒体数据库面临的数据有单一媒体数据和复合媒体数据(多种单一媒体数据的结合)。多媒体数据库从实用性的要求出发,强调多媒体数据库的用户应可最大限度地忽略各媒体间的差异,从而实现对多媒体数据的管理和操作。媒体数据库管理系统应具备的基本功能

(1)有效地表示各种媒体数据。对多媒体数据根据应用的不同采用不同的表示方法。(2)有效地处理各种媒体数据。系统应能正确识别和表现各种媒体数据的特征、各种媒体间的空间或时间的关联(如正确表达空间数据的相关特性和配音、文字和视频等复合信息的同步)(3)有效地操作各种媒体信息。系统应能象对格式化数据一样对各种媒体数据进行搜索、浏览等操作,且对不同的媒体可提供不同的操纵,如声音的合成、图形的缩放等。(4)具备开放性。系统应能提供多媒体数据库的API(应用程序接口)、提供不同于传统数据库的特种事务处理和版本管理功能。主动数据库系统

主动数据库(ActiveDataBase,简称ADB)是相对于传统数据库的被动性而言的。传统的数据库系统只能根据用户或应用程序的服务请求对数据库进行存储、检索等操作,而不能根据发生的事件或数据库的状态主动作出反应。主动数据库系统(ADBMS)是指具有各种主动提供服务功能,并且以一种统一的机制实现各种主动服务的数据库系统。主动数据库系统一个主动数据库系统在某一事件发生时,引发数据库管理系统去检测数据库当前状态,若满足指定条件,则触发规定执行的动作,我们称之为ECA规则。一个主动数据库系统可表示为:ADBS=DBS+EB+EM其中DBS代表传统数据库系统,用来存储、操作、维护和管理数据;EB代表ECA规则库,用来存储ECA规则,每条规则指明在何种事件发生时,根据给定条件,应主动执行什么动作;EM代表事件监测器,一旦检测到某事件发生就主动触发系统,按照EB中指定的规则执行相应的动作。

数据仓库以及数据挖掘是目前数据库领域最为活跃的一个方面,受到学术界与产业界的广泛关注。典型应用环境如DSS,EIS,ERP。大型数据库的数据仓库解决方案有:

InformixMetaCubeOracleExpressSybaseQuickStart

DataMart

对各类海量数据需要自动分析、分类、汇总、发现和描述数据蕴涵的趋势、标记异常等。数据库与数据仓库技术数据仓库引入

各类管理人员需要从大量复杂的的业务数据中获取各自权限内的决策信息,及时把握市场变化脉搏,作出正确有效的判断与抉择;随着数据库系统的逐日运行,数据将堆积越来越庞大;数据处理的重点需要从传统业务扩展到业务数据的联机分析处理,并得到面向各种管理主题的统计信息和决策支持信息;数据仓库是基于大规模数据库的DSS环境的核心。数据库与数据仓库技术数据仓库引入数据仓库的基本概念多维数据模型数据仓库的系统结构数据仓库的实现基于数据仓库的数据挖掘数据库与数据仓库技术数据仓库研究内容数据挖掘通常称为数据库中的知识发现(KDD),是自动的或方便的模式提取,这些模式代表隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。涉及的学科有:数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化。数据库与数据仓库技术数据挖掘引入数据挖掘的概念数据挖掘的功能数据挖掘的分类与主要问题数据挖掘系统的结构挖掘大型数据库中的关联规则分类与预测聚类分析复杂类型的数据挖掘数据仓库与数据挖掘的应用与发展趋势数据库与数据仓库技术数据挖掘研究内容1、什么是数据仓库2、什么是数据挖掘3、数据挖掘的功能4、数据挖掘的分类5、数据挖掘的主要问题数据仓库与数据挖掘概述什么是数据仓库1、数据仓库的产生当前的数据处理与数据分为两类:操作型处理与数据分析型或信息型处理与数据什么是数据仓库1、数据仓库的产生操作型处理:又称事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要为企业的特定应用服务,所关心的是响应时间,数据的安全性和完整性。操作型环境是以单一数据库为中心的数据环境。什么是数据仓库1、数据仓库的产生操作型数据(原始数据)分析型数据(导出数据)细节的综合的,或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求什么是数据仓库1、数据仓库的产生操作型数据和分析型数据的不同而导致的数据分离的自然扩展过程:操作型原子/数据仓库部门/数据集市个体什么是数据仓库2、数据仓库的定义数据仓库之父W.H.Inmon给出了定义:数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。什么是数据仓库2、数据仓库的定义面向主题主题:是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,即对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式就是对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。什么是数据仓库2、数据仓库的定义面向主题每个主题在数据仓库中都是由一组关系表实现的;主题的实现基于关系数据库;在具体实现中,一个主题可以划分成多个表,主题只是一个逻辑的概念;基于一个主题的所有表都含有一个称为公共键码的属性作为其主码的一部分。什么是数据仓库2、数据仓库的定义面向主题CustomerIDFromdateTodateNameAddressPhoneSex…CustomerIDFromdateTodateNameAddressCreditratingemployerSex…CustomerIDActivitydateAmountLocationForitem…什么是数据仓库2、数据仓库的定义数据仓库的数据是集成的要统一源数据中所有矛盾之处,如同名异义、字长不一致等等;进行数据综合和计算。数据综合可以从原有数据库抽取数据生成,但许多是在数据仓库内部生成。什么是数据仓库2、数据仓库的定义数据仓库数据是不可更新数据仓库的数据主要供企业决策分析使用,所涉及的数据操作主要是数据查询,一般不进行修改操作;数据库中进行联机处理的数据经过集成输入到数据仓库中,数据仓库中的数据超过存储期限,这些数据将从当前数据仓库中删去;

DWMS比DBMS简单,但查询要求高。什么是数据仓库2、数据仓库的定义数据仓库数据随时间不断变化数据仓库随时间变化不断增加新的内容;数据仓库随时间变化不断删除旧的内容;数据仓库中包含有大量的综合数据,这些数据随时间变化不断地进行重新综合;数据仓库数据的码键包含时间项,标明历史时期。什么是数据仓库3、数据仓库的数据组织3.1组织结构元数据高度综合级轻度综合级当前细节级早期细节级2002~2003年每月销售表2002~2003年每周销售表2002~2003年销售情况表2002~2003年销售明细表什么是数据仓库3、数据仓库的数据组织3.1组织结构数据仓库中的不同综合级别,称为“粒度”。粒度越大,表示细节程度越低,综合程度越高。

元数据(metadata):关于数据的数据。操作型环境向数据仓库环境转换而建立的元数据;数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,也为DSS元数据。什么是数据仓库3、数据仓库的数据组织3.2粒度与分割粒度是数据仓库的重要概念。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;细化程度越低粒度级就越大。一般采用多重粒度级:高细节级、低细节级。什么是数据仓库3、数据仓库的数据组织3.2粒度与分割分割是数据仓库的重要概念。分割是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。数据分割后的数据单元称为分片。数据分割标准依据实际情况确定,一般应包括日期项。分割使数据更易重构、索引、重组、恢复、监控。什么是数据仓库3、数据仓库的数据组织3.2粒度与分割简单分割实例,分片以时间标准来组织:健康保险生命保险事故保险2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9什么是数据仓库3、数据仓库的数据组织3.3数据组织形式简单堆积文件:数据逐天积累轮转综合文件:按日、周、月、年组织数据集简化直

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论