支撑物联网的计算机技术数据库仓库与数据挖掘ppt课件_第1页
支撑物联网的计算机技术数据库仓库与数据挖掘ppt课件_第2页
支撑物联网的计算机技术数据库仓库与数据挖掘ppt课件_第3页
支撑物联网的计算机技术数据库仓库与数据挖掘ppt课件_第4页
支撑物联网的计算机技术数据库仓库与数据挖掘ppt课件_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机技术:物联网的计算工具,高性能计算、普适计算与云计算 数据库与数据仓库技术 人工智能技术 多媒体技术 虚拟现实技术 嵌入式技术 可穿戴计算技术,物联网的技术体系,2/85,数据库与数据仓库技术,数据库技术的发展,数据库技术产生于20世纪60年代末期,短短30年间已从第一代层次、网状数据库,第二代关系数据库系统发展到第三代以面向对象模型为主要特征的数据库系统。随着数据库技术不断应用到新的领域,传统数据库技术面临着以下新的挑战: (1)信息爆炸导致数据量剧增。随着社会信息化进程的加快,信息量急剧增长。如构成人类基因组的DNA排列图谱,每个基因组DNA排列长达几十亿个元素,每个元素又是一个复杂的数据单元,据估计人类的基因组约56万种,如何表示、访问和处理这样的图谱结构数据,是数据库面临的难题。 (2)数据类型的多样化和一体化要求。传统的数据库技术基本上是面向记录的,以字符表示的格式化数据为主,这远远不能满足多种多样信息类型的需求。新的数据库系统应能支持各种静态和动态的数据,如图形、图像、语音、文本、视频、动画、音乐等。 (3)当前的数据库技术还不能处理不确定或不精确的模糊信息。目前,一般数据库的数据,除空值外都是确定的。但是实际生活中要求数据库能表示、处理不确定或不精确的数据。,数据库技术的发展 (4)数据安全性。数据库系统的发展方向是在大范围内集成,向广大用户提供方便的服务。随着移动主机(便携式计算机)的大量涌现,因特网的扩展延伸,用户可以随时随地访问数据库。此外,移动主机遗失、失窃等现象时有发生,这就带来严重的数据库安全和保密问题。现有的数据库安全措施还不能满足这个要求。在数据库安全模型、访问控制、授权、审计跟踪、数据加密、密钥管理、并发控制等方面都还没有形成明确的主流技术策略。 (5)对数据库理解和知识获取的要求。目前,一方面正在被信息所淹没,另一方面由于缺乏知识而感到饥饿。人们对数据库的使用已不限于传统的查询,而希望把它作为知识源,从中提取一些知识,希望数据库具有推理、类比、联想、预测能力,甚至能从中得到意想不到的发现,希望数据库能主动而不是被动地提供服务。,数据库与数据仓库技术,20世纪80年代中期以来,尤其是进入90年代,数数据库出现了许多新分支。数据库与其他相关技术相结合出现的新分支有:与面向对象技术结合出现的面向对象数据库,与分布技术相结合出现的分布式数据库,与并行处理技术相结合出现的并行数据库,与多媒体技术相结合出现的多媒体数据库,与人工智能技术相结合出现的主动数据库、知识库和演绎数据库、与模糊技术相结合出现的模糊数据库等。数据库面向不同的应用领域出现的新分支有:面向决策支持出现的数据仓库,面向工程设计出现的工程数据库,面向地理信息系统(GIS)出现的空间数据库,面向移动计算环境出现的移动数据库,以及实时数据库、统计数据库等。以上这些数据库都是将要在后面各节中分别加以介绍的。,数据库与数据仓库技术,数据库与数据仓库技术,1、并行数据库系统,并行数据库系统(Parallel Database System,简称PDBS)是以并行计算机为基础,以高性能和可扩展性为目标,利用多处理器结构提供比大型机系统高得多的性能价格比和可用性的数据库系统。人们普遍认为,并行数据库系统将是未来的高性能数据库系统。 并行数据库的研究主要包括以下几个方面:一是实现并行数据库操作的并行算法的研究,它要解决如何对数据库进行并行操作的问题;二是并行数据库物理存储结构的研究,它要考虑如何划分多处理机、如何划分或共享磁盘及内存等,以保证能实现对数据库的并行操作;三是并行查询优化的研究,查询优化是数据库领域的一个传统课题,但并行查询优化更加复杂,实现起来困难得多。 目前,对并行数据库系统的研究已取得很大成效,出现了一些并行数据库的原型系统,如ARBRE、BUBBA、GAMMA、GRACE、ERADAT、XPRS等,一些运行在大规模并行处理系统上的大型商品化数据库管理系统如Oracle、Sybase等,也增加了并行处理能力。,多媒体数据库,概念: 媒体是指信息表示或传播的载体。多媒体是指多种媒体形式,如数字、字符、文本、图形、图像、声音、视频的有机集成。其中数字、字符等称为格式化数据,文本、图形、图像、声音、视频等称为非格式化数据,非格式化数据具有数据量大、处理复杂等特点。 多媒体数据库系统(Multimedia Database System,简称MDBS)是结合数据库技术和多媒体技术,能够有效实现对格式化和非格式化的多媒体数据进行存储、管理和操纵等功能的数据库系统。,多媒体数据库,多媒体数据特点: (1)数据量大。格式化的数据数据量较小,最长的字符型为254字节。多媒体数据的数据量一般很大,1分钟的视频和音频数据往往需要几十兆的数据空间,大小相当于一个小型数据库。 (2)结构复杂。传统的数据以记录为单位,一条记录由多个字段组成,结构简单。多媒体数据种类繁多结构复杂,大多是非格式化数据,来源于不同的媒体且具有不同的形式和格式。 (3)时序性。由文字、声音、图象组成的复杂对象需有一定的同步机制,如画面的配音或文字需要与画面同步。传统数据则无此要求。 (4)数据传输的连续性。声音、视频等多媒体数据的传输必须是连续的、稳定的,否则会影响效果和失真。 多媒体数据的这些特点使得其需要有特殊的数据结构、存储技术、查询和处理方式,如支持大对象、基于相似性的检索、连续介质数据的检索等。,多媒体体数据库的特征,(1)与传统数据库的差异性。虽然在理论和技术上对传统数据库有很多继承,但在其处理数据对象、数据类型、数据结构、应用对象、处理方式都与传统数据库有较大差异,因此不能认为多媒体数据库只是对传统数据库的一种简单扩充或者试图用传统技术来做简单的处理。 (2)处理对象的复杂性。多媒体数据库存储和处理的是现实世界中的复杂对象,不仅要处理包括数字、字符等格式化数据,还要处理图像、音频、视频等非格式化数据。 (3)媒体间的独立性。多媒体数据库面临的数据有单一媒体数据和复合媒体数据(多种单一媒体数据的结合)。多媒体数据库从实用性的要求出发,强调多媒体数据库的用户应可最大限度地忽略各媒体间的差异,从而实现对多媒体数据的管理和操作。,媒体数据库管理系统应具备的基本功能,(1)有效地表示各种媒体数据。对多媒体数据根据应用的不同采用不同的表示方法。 (2)有效地处理各种媒体数据。系统应能正确识别和表现各种媒体数据的特征、各种媒体间的空间或时间的关联(如正确表达空间数据的相关特性和配音、文字和视频等复合信息的同步) (3)有效地操作各种媒体信息。系统应能象对格式化数据一样对各种媒体数据进行搜索、浏览等操作,且对不同的媒体可提供不同的操纵,如声音的合成、图形的缩放等。 (4)具备开放性。系统应能提供多媒体数据库的API(应用程序接口)、提供不同于传统数据库的特种事务处理和版本管理功能。,主动数据库系统,主动数据库(Active DataBase,简称ADB)是相对于传统数据库的被动性而言的。传统的数据库系统只能根据用户或应用程序的服务请求对数据库进行存储、检索等操作,而不能根据发生的事件或数据库的状态主动作出反应。 主动数据库系统(ADBMS)是指具有各种主动提供服务功能,并且以一种统一的机制实现各种主动服务的数据库系统。,主动数据库系统,一个主动数据库系统在某一事件发生时,引发数据库管理系统去检测数据库当前状态,若满足指定条件,则触发规定执行的动作,我们称之为ECA规则。 一个主动数据库系统可表示为: ADBS=DBS + EB + EM 其中DBS代表传统数据库系统,用来存储、操作、维护和管理数据;EB代表ECA规则库,用来存储ECA规则,每条规则指明在何种事件发生时,根据给定条件,应主动执行什么动作;EM代表事件监测器,一旦检测到某事件发生就主动触发系统,按照EB中指定的规则执行相应的动作。,数据仓库以及数据挖掘是目前数据库领域最 为活跃的一个方面,受到学术界与产业界的广泛 关注。典型应用环境如DSS,EIS,ERP。 大型数据库的数据仓库解决方案有: Informix MetaCube Oracle Express Sybase QuickStart DataMart 对各类海量数据需要自动分析、分类、汇总、 发现和描述数据蕴涵的趋势、标记异常等。,数据库与数据仓库技术,数据仓库引入,各类管理人员需要从大量复杂的的业务数据中获取各自权限内的决策信息,及时把握市场变化脉搏,作出正确有效的判断与抉择; 随着数据库系统的逐日运行,数据将堆积越来越庞大; 数据处理的重点需要从传统业务扩展到业务数据的联机分析处理,并得到面向各种管理主题的统计信息和决策支持信息; 数据仓库是基于大规模数据库的DSS环境的核心。,数据库与数据仓库技术,数据仓库引入,数据仓库的基本概念 多维数据模型 数据仓库的系统结构 数据仓库的实现 基于数据仓库的数据挖掘,数据库与数据仓库技术,数据仓库研究内容,数据挖掘通常称为数据库中的知识发现 (KDD),是自动的或方便的模式提取,这些模 式代表隐藏在大型数据库、数据仓库或其他大量信 息存储中的知识。 涉及的学科有:数据库技术、人工智能、机器 学习、神经网络、统计学、模式识别、知识库系统、 知识获取、信息检索、高性能计算和数据可视化。,数据库与数据仓库技术,数据挖掘引入,数据挖掘的概念 数据挖掘的功能 数据挖掘的分类与主要问题 数据挖掘系统的结构 挖掘大型数据库中的关联规则 分类与预测 聚类分析 复杂类型的数据挖掘 数据仓库与数据挖掘的应用与发展趋势,数据库与数据仓库技术,数据挖掘研究内容,1、什么是数据仓库 2、什么是数据挖掘 3、数据挖掘的功能 4、数据挖掘的分类 5、数据挖掘的主要问题,数据仓库与数据挖掘概述,什么是数据仓库,1、 数据仓库的产生 当前的数据处理与数据分为两类: 操作型处理与数据 分析型或信息型处理与数据,什么是数据仓库,1、 数据仓库的产生 操作型处理:又称事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要为企业的特定应用服务,所关心的是响应时间,数据的安全性和完整性。 操作型环境是以单一数据库为中心的数据环境。,什么是数据仓库,1、 数据仓库的产生,什么是数据仓库,1、 数据仓库的产生 操作型数据和分析型数据的不同而导致的数据分离的自然扩展过程:,什么是数据仓库,2、 数据仓库的定义 数据仓库之父W.H.Inmon给出了定义:数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。,什么是数据仓库,2、 数据仓库的定义 面向主题 主题:是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,即对应企业中某一宏观分析领域所涉及的分析对象。 面向主题的数据组织方式就是对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。,什么是数据仓库,2、 数据仓库的定义 面向主题 每个主题在数据仓库中都是由一组关系表实现的; 主题的实现基于关系数据库; 在具体实现中,一个主题可以划分成多个表, 主题只是一个逻辑的概念; 基于一个主题的所有表都含有一个称为公共键码 的属性作为其主码的一部分。,什么是数据仓库,2、 数据仓库的定义 面向主题,什么是数据仓库,2、 数据仓库的定义 数据仓库的数据是集成的 要统一源数据中所有矛盾之处,如同名异义、 字长不一致等等; 进行数据综合和计算。数据综合可以从原有数 据库抽取数据生成,但许多是在数据仓库内部 生成。,什么是数据仓库,2、 数据仓库的定义 数据仓库数据是不可更新 数据仓库的数据主要供企业决策分析使用, 所涉及的数据操作主要是数据查询,一般不进 行修改操作; 数据库中进行联机处理的数据经过集成输入 到数据仓库中,数据仓库中的数据超过存储期 限,这些数据将从当前数据仓库中删去; DWMS比DBMS简单,但查询要求高。,什么是数据仓库,2、 数据仓库的定义 数据仓库数据随时间不断变化 数据仓库随时间变化不断增加新的内容; 数据仓库随时间变化不断删除旧的内容; 数据仓库中包含有大量的综合数据,这些数据 随时间变化不断地进行重新综合; 数据仓库数据的码键包含时间项,标明历史时期。,什么是数据仓库,3、 数据仓库的数据组织 3.1 组织结构,什么是数据仓库,3、 数据仓库的数据组织 3.1 组织结构 数据仓库中的不同综合级别,称为“粒度”。粒度越大,表示细节程度越低,综合程度越高。 元数据(metadata):关于数据的数据。 操作型环境向数据仓库环境转换而建立的元数据; 数据仓库中用来与终端用户的多维商业模型/前端工 具之间建立映射,也为DSS元数据。,什么是数据仓库,3、 数据仓库的数据组织 3.2 粒度与分割 粒度是数据仓库的重要概念。 粒度是指数据仓库的数据单位中保存数据的细 化或综合程度的级别。 细化程度越高,粒度级就越小;细化程度越低 粒度级就越大。 一般采用多重粒度级:高细节级、低细节级。,什么是数据仓库,3、 数据仓库的数据组织 3.2 粒度与分割 分割是数据仓库的重要概念。 分割是指将数据分散到各自的物理单元中去以 便能分别独立处理,以提高数据处理效率。 数据分割后的数据单元称为分片。 数据分割标准依据实际情况确定,一般应包括 日期项。 分割使数据更易重构、索引、重组、恢复、监控。,什么是数据仓库,3、 数据仓库的数据组织 3.2 粒度与分割 简单分割实例,分片以时间标准来组织:,什么是数据仓库,3、 数据仓库的数据组织 3.3 数据组织形式 简单堆积文件:数据逐天积累 轮转综合文件:按日、周、月、年组织数据集 简化直接文件:每隔一定时间的数据库快照 连续文件:通过比较两个简单直接文件不同而 生成,什么是数据挖掘,1、 数据挖掘的提出 数据挖掘是信息技术自然演化的结果。 数据收集、数据库创建 数据管理:数据存储和检索,数据库事务处理 数据分析与理解:涉及数据仓库和数据挖掘,什么是数据挖掘,1、 数据挖掘的提出 数据库技术的发展历史 20世纪60年代,功能强大的数据库系统 70年代,从网状和层次到关系数据库系统、建 模工具、索引和数据组织技术,联机事务处理 OLTP 80年代,使用先进的数据模型,如面向对象模 型、对象关系模型、演绎模型,什么是数据挖掘,1、 数据挖掘的提出 数据仓库技术 数据清理:文件之间转换、存储介质转移、清 除过期数据、层次转换(操作型到分析型)。 数据集成:从操作型环境到分析型环境。 联机分析处理OLAP:是一种分析技术,具有汇总、合并和聚集功能,以及从不同角度观察信息的能力。,什么是数据挖掘,1、 数据挖掘的提出 数据的丰富增强了对功能更强的数据分析工具 的需求; 对海量数据的理解,远远超出人的能力,产生 “数据坟墓”; 决策者缺乏从海量数据中提取有价值知识的工 具,许多专家系统技术还是依赖经验; 数据挖掘工具进行数据分析,可以发现重要的 数据模式,破除数据与信息的鸿沟。,什么是数据挖掘,2、 数据挖掘的定义 数据挖掘是指从大量数据中提取或“挖掘”知识。通常也可理解为数据库中的知识发现KDD,也可以理解为KDD的一个基本步骤。还有提法: 数据库中知识挖掘 知识提取 数据/模式分析 数据考古 数据捕捞,什么是数据挖掘,2、 数据挖掘的定义 知识发现过程7个步骤如下: 1)数据清理:消除噪声或不一致。 2)数据集成:多种数据源组合在一起。 3)数据选择:从数据库中检索与分析任务相关 的数据。 4)数据变换:数据变换或统一成适合挖掘的形 式,如汇总或聚集操作。,什么是数据挖掘,2、 数据挖掘的定义 知识发现过程7个步骤如下: 5)数据挖掘:使用智能方法提取数据模式。 6)模式评估:根据某种兴趣度量,识别表示知识 的真正有趣的模式。 7)知识表示:使用可视化和知识表示技术,向用 户提供挖掘的知识。,什么是数据挖掘,2、 数据挖掘的定义 知识发现过程7个步骤如下:,什么是数据挖掘,2、 数据挖掘的定义 数据挖掘的广义定义:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。,什么是数据挖掘,3、 数据挖掘系统的主要成分 数据库、数据仓库或其他信息库 数据库或数据仓库服务器 知识库 数据挖掘引擎 模式评估模块 图形用户界面,什么是数据挖掘,3、 数据挖掘的应用环境 关系数据库 数据仓库 事务数据库 高级数据库系统和高级数据库,什么是数据挖掘,3、 数据挖掘的应用环境 高级数据库系统和高级数据库: 面向对象数据库 对象-关系数据库 空间数据库 时间数据库和时间序列数据库 文本数据库和多媒体数据库 异种数据库和遗产数据库 WWW,数据挖掘功能,1、数据挖掘功能 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。 数据挖掘任务一般分为两类:描述和预测。 描述性挖掘任务刻划数据库中数据的一般特性 预测性挖掘任务在当前数据上进行推断,以进 行预测。,数据挖掘功能,2、概念/类描述:特征化和区分 数据可以与类或概念相关联。用汇总的、简洁的、精确的方式描述每个类和概念称为类/概念描述。 这种描述可以通过以下方法得到: 数据特征化:目标类数据的一般特征或特性的汇总; 数据区分:将目标类对象的一般特性与一个或多个对 比类对象的一般特性进行比较; 数据特征化和比较。,数据挖掘功能,3、关联分析 关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析适用于事务数据分析。 关联规则形式化描述为 ,解释为“满足X中条件的数据库元组也满足Y中的条件”。 多维关联规则:一个以上属性或谓词之间的 关联规则。 单维关联规则:包含单个谓词的关联规则。,数据挖掘功能,4、分类与预测 分类就是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。 预测是构造和使用模型评估无标号

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论