空间数据仓库与数据挖掘演示文稿_第1页
空间数据仓库与数据挖掘演示文稿_第2页
空间数据仓库与数据挖掘演示文稿_第3页
空间数据仓库与数据挖掘演示文稿_第4页
空间数据仓库与数据挖掘演示文稿_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

空间数据仓库与数据挖掘演示文稿目前一页\总数八十一页\编于十七点(优选)空间数据仓库与数据挖掘目前二页\总数八十一页\编于十七点数据仓库和空间数据仓库空间信息基础设施数据挖掘和空间数据挖掘主要内容:目前三页\总数八十一页\编于十七点§10.1数据仓库与空间数据仓库数据仓库空间数据仓库目前四页\总数八十一页\编于十七点§10.1数据仓库与空间数据仓库随着市场竞争的加剧和信息社会需求的发展,出现了数据集中化、业务综合化、决策科学化的趋势。伴随这种数据信息化的趋势,从大量数据中提取(检索、查询等)制定市场策略的信息就显得越来越重要了。这种需求既要求联机服务,又涉及大量用于决策的数据,而传统的数据库系统已无法满足这种需求。一、数据仓库目前五页\总数八十一页\编于十七点历史数据量很大;辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成;由于访问数据的能力不足,它对大量数据的访问性能明显下降。§10.1数据仓库与空间数据仓库一、数据仓库无法满足的需求具体体现在三个方面:目前六页\总数八十一页\编于十七点随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势是从大量的事务数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库(DataWarehouse,DW)。

数据仓库产生趋势§10.1数据仓库与空间数据仓库目前七页\总数八十一页\编于十七点数据仓库(DataWarehouse,简称DW)是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。主题是数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库内的数据时限为5至10年,主要用于进行时间趋势分析。数据仓库定义§10.1数据仓库与空间数据仓库目前八页\总数八十一页\编于十七点数据仓库的数据量很大,一般为10GB左右。它是一般数据库(100MB)数据量的100倍,大型数据仓库达到TB级。

数据仓库定义§10.1数据仓库与空间数据仓库数据仓库是一种分析型环境,它与一般的DBMS的操作型环境是不同的,两者的比较有利于对数据仓库的理解。目前九页\总数八十一页\编于十七点§10.1数据仓库与空间数据仓库数据仓库(DW)数据库(DB)分析型数据环境操作型数据环境面向分析(主题),支持DSS面向业务,日常事务处理集成的综合数据非集成或者集成程度很低,主要是明细数据历史数据(5-10年)主要关心当前数据(60-90天)定期加载,加载后极少更新实时更新数据驱动的开发周期(CLDS)需求驱动的开发周期(SDLC)目前十页\总数八十一页\编于十七点数据仓库主要应用在两个方面:使用浏览分析工具在DW中寻找有用的信息。数据仓库系统支持在DW上的应用,形成决策支持系统(DSS)。数据仓库应用§10.1数据仓库与空间数据仓库目前十一页\总数八十一页\编于十七点地球是一个复杂多变的系统,传统地学的各个学科由于自身的局限,其研究范围已无法适应全球变化和区域可持续发展的要求。如在交通规划中,往往需要使用大量历史的、现实的空间数据以及各应用领域的复杂数据进行数据分析,涉及多维数据视图的概念,仅靠关系数据库就将难以解决。同时,传统的GIS应用系统是面向应用、事务驱动的,其中分析所需要的主题相当分散,不同的操作平台和数据标准使得决策支持系统几乎无法实现数据共享。为此,必须通过大型的、多维化的数据库系统进行统一的组织、管理。二、空间数据仓库§10.1数据仓库与空间数据仓库空间数据仓库的产生趋势目前十二页\总数八十一页\编于十七点数据仓库正是这样一种数据的存储系统,它提供了来自异地、异构、种类不同的应用系统的集成化和历史化的数据。对其加工后,在数据仓库中存储、提取和维护,灵活地重组数据,呈现出多维数据视图,并且面向复杂的数据分析及高层的决策支持,从而为有关部门或企业进行全局范围的多维分析、战略决策和长期趋势分析提供了有效的支持。由于空间数据的特殊性,空间数据仓库在数据仓库的基础上需引入空间维数据,根据主题从不同的GIS应用系统中截取从瞬态到区段直至全球系统上的信息,从而提供最好的信息服务。空间数据仓库的产生趋势§10.1数据仓库与空间数据仓库目前十三页\总数八十一页\编于十七点空间数据仓库(SpatialDataWarehouse,简称SDW)是集成的、面向主题的、相对稳定的、反映时间变化和地理空间变化的空间数据存储,以支持各级管理人员基于空间数据的分析和决策。空间数据仓库的概念和内涵§10.1数据仓库与空间数据仓库目前十四页\总数八十一页\编于十七点

空间数据仓库是GIS、空间数据库与数据仓库技术相结合的产物,它在普通数据仓库基础上,引入空间数据,增加对空间数据的存贮、管理和分析能力,根据主题从不同的空间数据源中截取不同规模的时空尺度上的信息,从而为地学研究以及有关资源环境政策的制定等空间决策支持过程提供最好的信息服务。空间数据仓库是数据仓库与空间处理分析的综合,具有空间,时间和主题的高度集成。从信息科学的角度来说,它是对数据仓库加进了非结构化信息处理。

空间数据仓库的概念和内涵§10.1数据仓库与空间数据仓库目前十五页\总数八十一页\编于十七点SDW支持多种数据源:数据库、数据文件、应用程序等;SDW中存放的不仅是供使用的数据,还有在一定激发条件下能主动其作用的处理规则、算法,甚至是过程等;SDW中数据并不完全是原始数据的简单归并和搬家,而是增值和统一,因此,“汇总并统一”是一种可取的描述;空间数据仓库的概念和内涵§10.1数据仓库与空间数据仓库目前十六页\总数八十一页\编于十七点数据的集成化表明数据在结构上具有综合性,并且在语言上是异构的,在进入SDW之前,必须经过加工和集成,这是SDW建设中最关键,最复杂的一步;历史化表明它可以截取不同时间尺度上的信息,从瞬态到区段直到全体。SDW以时间为基准管理(积累,使用并处理)数据,即使依赖与时间维的数据结构;SDW保存和管理的是“对象”—数据以及与之相关的处理规则,算法和过程等的统一体,它们在SDW中以打包及有序存放的形式被保存和维护,且需要即可使用。空间数据仓库的概念和内涵§10.1数据仓库与空间数据仓库目前十七页\总数八十一页\编于十七点空间数据仓库的体系结构§10.1数据仓库与空间数据仓库空间数据仓库应用(空间决策支持系统等)分析结果联机分析处理数据挖掘数据仓库中信息多级存储策略数据库空间数据库系统(数据管理部分)SDBSDBSDB数据采集与输入系统(数据源部分)核心GIS数据政府统计数据市场经济数据土地利用数据分析工具数据转换数据输入决策运算MBKB空间数据仓库目前十八页\总数八十一页\编于十七点空间数据仓库机制的研究围绕空间数据仓库的实际应用需求,探索空间数据仓库的关键技术。(1)支持空间信息的空间数据仓库模型:空间数据仓库的数据模型是普通数据仓库的数据模型的有效扩充,必须针对空间信息的特点,对星型模型和雪花模型进行扩展。(2)支持空间数据导航的元数据机制:空间数据仓库的元数据是人们定义空间数据仓库模型、理解空间数据意义的重要窗口,空间数据仓库的元数据必须支持对空间数据分析的导航。空间数据仓库的关键技术§10.1数据仓库与空间数据仓库目前十九页\总数八十一页\编于十七点(3)面向海量空间信息的数据存储策略:空间数据仓库包含海量的空间信息。支持对海量空间信息的高效的存储和检索是空间数据仓库的重要需求,也是空间数据仓库的重要特征。因此需要研究面向海量空间信息的数据存储策略。(4)面向海量空间信息高效检索的空间索引机制:数据索引是提高数据检索效率的有效途径。由于空间数据仓库中涉及海量的空间信息,因此需要研究面向空间数据仓库的索引机制。空间数据仓库的关键技术§10.1数据仓库与空间数据仓库目前二十页\总数八十一页\编于十七点(5)大规模空间数据处理:由于空间数据所包含的数据量比较大,当空间数据仓库中地理数据、元数据以及历史数据的数据量急速增长时数据的存储和管理机制的调整策略等问题需要更加深入的研究。(6)查询的建立和数据导航技术:空间数据的查询通常比较复杂,而目前的用户界面形式很难满足。必须为空间数据仓库数据查询的输入以及数据查询的建立提供一套合适的机制。(7)快速计算、高速网络、空间数据库的无缝连接、数据挖掘、空间数据联机分析和处理及服务的互操作等关键技术。

空间数据仓库的关键技术§10.1数据仓库与空间数据仓库目前二十一页\总数八十一页\编于十七点目前国外数据仓库以及空间数据仓库方面的主要工作基础有很多。Stanford大学的数据仓库WHIPS(WareHouseInformationProjectatStanford);美国正在启动一个空间信息处理项目EOS(EarthOverviewSystem),到2003年,对全球地面监测的精度将达到1米的分辨率,该项目对巩固美国在全球的竞争优势具有重要的作用。该项目的主要组成部分之一就是空间数据的联机分析与挖掘技术的研究;IBM的Almenden实验室、北美和德国的一些公司、和科研机构的实验室在这个领域的研究中处于领先位置。国内外研究现状§10.1数据仓库与空间数据仓库目前二十二页\总数八十一页\编于十七点目前的空间数据仓库原型系统主要有:AMicrosoftTerraServer(由JimGray主持),GeoMiner(由加拿大SimonFraser大学开发)等。在国内,国家“九五”科技重点攻关项目“空间信息共享和处理技术研究”专题项目已取得阶段成果,提出了空间信息共享系统设计方案。视觉与听觉信息处理国家重点实验室开放课题基金项目“空间数据联机分析与空间数据挖掘研究”,该项目重点对空间数据联机分析与空间数据挖掘及底层的空间数据仓库技术作基础理论研究。国内外研究现状§10.1数据仓库与空间数据仓库目前二十三页\总数八十一页\编于十七点(1)空间数据仓库模型的研究:空间数据面向主题的集成的一个关键步骤是空间数据仓库的建模。空间数据仓库的逻辑模型与普通数据仓库模型一样,通常采用类似的多维模型。普通数据仓库模型通常采用星型模型或雪花模型。与普通数据仓库模型相比,空间数据仓库要管理复杂的空间数据类型,其维和度量中不仅可以包含简单数据类型的数据,同时也可以包含空间对象。由于空间对象占用的存储空间较大,其操作也比较复杂,这就需要扩充维和度量的定义,以便更有效地处理这样的维和度量。目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库目前二十四页\总数八十一页\编于十七点(2)海量空间数据的存储:空间数据仓库通常以空间数据库为基础,由于空间数据仓库涉及海量的空间信息,同时空间信息计算耗费的资源较多,确定空间信息的合理存储策略(如数据分片等),以便计算和显示,也是当前许多专家关注的焦点。

目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库目前二十五页\总数八十一页\编于十七点(3)异构空间数据源的有效集成:空间数据仓库所要集成的数据分布于各个企业或各个政府部门,这些数据源通常具有不同的数据格式;此外,空间数据的表示、存储和访问方式目前还没有统一的标准,空间数据的语义也往往比较复杂。这就给空间数据的集成和共享带来了极大的困难,如何实现空间数据的有效集成是国内外空间数据仓库工程的一个重点和难点。

目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库目前二十六页\总数八十一页\编于十七点(4)空间数据仓库的索引机制:空间数据库的索引方法主要包括:z-序索引、四叉树索引、kd-树索引、R树索引、R+树索引等。由于空间数据仓库中的数据具有海量的、极少更新的、随时间变化的特点,其主要的操作是数据的追加和查询,因此要求针对空间数据仓库的特点设计更加合适的空间数据仓库索引机制是空间数据仓库机制的重要组成部分,也是目前许多专家关注的焦点。目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库目前二十七页\总数八十一页\编于十七点(5)空间数据仓库元数据机制:空间数据仓库的元数据是确定空间数据仓库的逻辑结构、存储策略的重要组成部分。从数据仓库建设者的角度来看,空间数据仓库元数据是数据仓库的描述,是关于数据加载方法和数据加载频率、数据存储和应用的描述信息。从用户的角度来看,它是用户理解和使用数据仓库的向导。空间数据仓库元数据的主要内容包括:数据仓库的描述信息、数据仓库的信息源描述、数据转换方法描述信息、数据加载方法的描述信息、业务术语的定义、业务处理的规则的描述信息。因此要求建立合理的空间数据仓库元数据的机制,确保空间数据仓库的合理性和高可用性。目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库目前二十八页\总数八十一页\编于十七点按照关系数据库之父E.F.Codd的定义,OLAP是大量多维数据的动态综合(synthesis)、分析(analysis)与合并(consolidation),它是能够快速交互地,方便地获取它们所需信息的一些技术(多维数据分析,神经网络等)的综合,它通过快速、一致、交互地访问各种可能的信息,试图帮助数据分析人员、管理人员、决策者洞察数据显示,掌握隐藏其中地规律。

OLAP(联机处理分析)

OLAP(OnlineAnalysisProcessing)的概念§10.1数据仓库与空间数据仓库目前二十九页\总数八十一页\编于十七点关于OLAP地详细定义,Codd曾给出了十二条准则,其后,还对其进行了扩充。根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了一种对OLAP更简单明确的定义,即共享多维信息的快速分析(FastAnalysisofSharedMultidimensionalInformation,简称FASMI)。目前,常见的OLAP有基于多维数据库的MOLAP(Multi-dementionOLAP)、基于关系数据库ROLAP(RelationOLAP)以及混合的HOLAP(HybridOLAP)。

OLAP(联机处理分析)

OLAP的概念§10.1数据仓库与空间数据仓库目前三十页\总数八十一页\编于十七点

OLTP和OLAP有很大的差别,在传统的OLTP技术中,所依赖的是实体、联系、功能分解、状态转换分析和事务处理等概念和方法;而在OLAP技术中,主要使用的是事实表、维表、层次(hierarchies)、稀疏性(sparsity)、指标聚集等概念和方法。

OLAP与OLTP的区别

OLAP(联机处理分析)§10.1数据仓库与空间数据仓库目前三十一页\总数八十一页\编于十七点

OLAP与OLTP的区别

OLAP(联机处理分析)§10.1数据仓库与空间数据仓库OLTPOLAP时间短时间框架长时间框架状态迅速变化的静态的数据类型细节的、操作性数据综合的、提炼的分析性数据查询标准的事务随机的、动态的查询稳定性实时更新周期性刷新功能支持日常操作支持管理要求设计事件驱动面向应用数据驱动面向分析目前三十二页\总数八十一页\编于十七点多维空间数据模型空间数据Cube的构造和维护空间Cube数据的多维显示

OLAP目前主要研究内容

OLAP(联机处理分析)§10.1数据仓库与空间数据仓库目前三十三页\总数八十一页\编于十七点支持cube构造的多维数据存储模型;空间数据cube实例化视图选择方法研究;空间数据cube的构造算法;在二级存储中高效构造高维的cube和空间数据cube;

OLAP关键技术

OLAP(联机处理分析)§10.1数据仓库与空间数据仓库目前三十四页\总数八十一页\编于十七点空间数据仓库系统是引入数据仓库后的计算机系统。其目标是支持用户利用存储地信息进行分析、处理和决策。空间数据仓库由四部分组成:数据、计算机硬件、软件、用户。空间数据仓库系统§10.1数据仓库与空间数据仓库目前三十五页\总数八十一页\编于十七点在操作上,GIS源数据由异构变为同构,消除了数据模型及语法、语义的差异,数据库可直接被DBMS访问,加快了查询和分析处理的速度。访问仓库的数据不需要占用信息源的系统资源,不会像直接访问信息源那样增加开销。在功能上,除了便于管理、维护外,GIS空间数据仓库为其数据挖掘准备了条件。如果数据挖掘技术利用得当,还可扩充GIS的功能,当然,数据仓库及其技术并未抛弃关系型数据库和DBMS的一系列功能。使用空间数据仓库的优势§10.1数据仓库与空间数据仓库目前三十六页\总数八十一页\编于十七点有望解决OPENGIS在数据上不一致的问题。具有明显的社会意义,有利于加强商业、资源、环境等的宏观决策。可以说,数据仓库是伴随着C/S技术和并行数据库的发展孕育而生的,大型GIS要处理多源的、多变量的、异构的、海量的地理数据,就要采用能解决这些问题的技术。数据仓库技术可以解决其中的一些问题。

GIS中使用空间数据仓库的优势§10.1数据仓库与空间数据仓库目前三十七页\总数八十一页\编于十七点空间数据粒度的划分;空间数据的分割(面向图幅、面向图层、面向专题要素);空间元数据的设计、管理及其标准化。开发数据仓库应注意的问题§10.1数据仓库与空间数据仓库目前三十八页\总数八十一页\编于十七点§10.2空间数据基础设施空间信息基础设施的定义

空间信息基础设施的目标

空间信息基础设施组成

空间信息基础设施体系结构

NII&NSIISDW&NSII

目前三十九页\总数八十一页\编于十七点美国于1994年颁布了总统行政令,实施国家空间数据基础设施NSDI计划。国家空间信息基础设施(NationalSpatialInformationInfrastructure,简称NSII)的定义为:“一个国家内描述地球上地理要素和现象的分布及其属性的所有地理信息的组合,以及对这些信息的获取、处理、存储、分发和提高使用所需的技术、政策、标准和人力资源”。NSII是为使用、生产和管理与地理空间信息有关的社会各部门以及个人提供基础信息环境和支持,是国家信息基础设施的子集。一、国家空间信息基础设施定义§10.2空间数据基础设施目前四十页\总数八十一页\编于十七点在今天的信息社会和网络环境下,它是一个分布式异构的地理空间信息资源网络。空间信息基础设施的体系结构是实施地理空间信息基础设施概念的逻辑模型。空间信息基础设施在区域层次上分为全球空间信息基础设施(GSII)、区域空间信息基础设施(RSII)和国家空间信息基础设施(NSII)。一、国家空间信息基础设施定义§10.2空间数据基础设施目前四十一页\总数八十一页\编于十七点空间信息具有区域性、综合性和共享性,NSII旨在建立作为各部门共同使用的基础信息,避免部门重复建设问题,提高信息标准化程度,为信息共享和网络上的协作扫除障碍。空间信息基础设施的目标是建立、维护和使用一个空间信息框架。空间信息框架包括两方面的内容:一是空间信息内容,即框架的基础空间数据和专题数据;二是空间信息服务,即提供对空间信息的共享、集成和互操作的功能和接口。二、NSII的目标§10.2空间数据基础设施目前四十二页\总数八十一页\编于十七点空间信息基础设施提供两种服务:一是为广大社会群众提供普通服务,回答普通群众关心的环境、交通、旅游、新闻、房地产、商业、公共设施建设以及其它社会问题,用户通过简单的个人计算机浏览界面,查询空间信息;二是为各个专用部门的特殊应用服务,包括资源开发、环境管理、生态监测、区域规划等制图和空间分析,并为可持续发展提供信息和决策支持。二、NSII的目标§10.2空间数据基础设施目前四十三页\总数八十一页\编于十七点信息网络:主要包括由国内外各种空间数据与信息的生产者、经营者和用户所构成的网络及其相应的管理系统、软硬件设备等内容。数据获取:主要包括各专业部门和地方的第一手数据的获取系统及其产品(包括各种类型的数字空间信息和有空间参考的信息)信息服务:主要包括持续地对地理空间数据产品进行各种增值加工处理,即信息提取;完成客户提出的各种信息分析应用任务;为各级政府提供规划、管理和决策支持方面的服务内容。三、NSII的组成§10.2空间数据基础设施目前四十四页\总数八十一页\编于十七点技术工具:主要包括能够高效、持续地对来自数据获取部分的地理空间数据产品(也包括遥感数据产品)进行信息提取、分析应用与咨询服务的各种软、硬件技术、方法与工具。政策、规划、标准

伙伴关系:包括从事空间数据、信息及其服务的各种机构、人员及其之间的关系。三、NSII的组成§10.2空间数据基础设施目前四十五页\总数八十一页\编于十七点四、NSII体系结构

政策、规划、标准数据获取信息网络信息服务技术工具伙伴关系地理空间数据获取系统地理空间信息共享应用网络§10.2空间数据基础设施目前四十六页\总数八十一页\编于十七点五、NII和NSII§10.2空间数据基础设施国家发展、社会进步、生活改善地理空间信息服务(资源调查、生态检测、环境保护、防灾减灾、卫生健康以及城市/区域规划、管理和决策等)…国家空间基础设施(NSII)国家信息基础设施(NII,数字通讯网络)电子商务数字图书馆数字通讯目前四十七页\总数八十一页\编于十七点一方面,SDW是NSII中的重要组成部分,它负责NSII能够提供的空间信息的存储和管理。另一方面,SDW的作用的最大发挥,离不开NSII的其他部分,例如通讯网络为SDW提供了基本的通讯条件。六、SDW和NSII§10.2空间数据基础设施目前四十八页\总数八十一页\编于十七点§10.3数据挖掘与空间数据挖掘(空间)数据挖掘的出现趋势(空间)数据挖掘的概念(空间)数据挖掘的分类(空间)数掘挖掘的体系结构空间数据挖掘的可挖掘的知识类型空间数据挖掘的功能空间数据挖掘的方法空间数据挖掘系统的结构空间数据挖掘近年主要研究进展空间数据挖掘的发展方向目前四十九页\总数八十一页\编于十七点因为需要一、(空间)数据挖掘的出现趋势§10.3数据挖掘与空间数据挖掘目前五十页\总数八十一页\编于十七点由于近年来空间信息技术领域内观测技术、网络技术的飞速发展以及台站建设的普及和不断完善,包括资源、环境、灾害的各种空间数据呈指数级数增长;一、(空间)数据挖掘的出现趋势§10.3数据挖掘与空间数据挖掘目前五十一页\总数八十一页\编于十七点专职处理空间数据的GIS在近十几年来虽得到了广泛的应用,并在空间数据的存储、查询以及显示等方面有了较快的发展,但面对数据量日益增长和种类繁多的空间数据,因其空间分析多以图形操作为主(如缓冲区操作,空间叠加,邻近分析以及空间连接等等),故而在空间信息的深入提取和知识发现等方面的功能仍相对薄弱。一、(空间)数据挖掘的出现趋势§10.3数据挖掘与空间数据挖掘目前五十二页\总数八十一页\编于十七点二、(空间)数据挖掘的概念数据挖掘:在你的数据中搜索知识§10.3数据挖掘与空间数据挖掘目前五十三页\总数八十一页\编于十七点

数据挖掘(DataMining,简称DM)是从数据集中识别出有效的、新颖的、潜在有用的、并最终可理解的模式非平凡过程。在上述的定义中,过程通常指多阶段的一个过程,涉及数据准备、模式搜索、知识评价,以及反复的修改求精;该过程要求是非平凡的,即要有一定程度的智能性、自动性(例如:仅仅给出所有数据的总和就不能算作是一个发现过程);数据挖掘的定义§10.3数据挖掘与空间数据挖掘目前五十四页\总数八十一页\编于十七点有效性是指发现的模式对于新的数据仍保持有一定的可信度;新颖性要求发现的模式应该是从前未知的;潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益;最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。上述的有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性(Interestingness)。数据挖掘的定义§10.3数据挖掘与空间数据挖掘目前五十五页\总数八十一页\编于十七点有时,人们常常把DM和KDD(KnowledgeDiscoveryinDatabases)等同起来。一般说来,KDD侧重于目的和结果,多用于人工智能领域;而DM侧重于处理过程和方法,多用于数据库领域。也有人将两者结合起来使用,称为数据挖掘和知识发现(DataMiningandKnowledgeDiscovery,简称DMKD)技术。1995年在加拿大召开的第一届知识发现和数据开采(也称数据挖掘)国际学术会议上,KDD被认为从数据中发现有用知识的整个过程,知识即意味着数据元素之间的关系和模式。数据开采被认为是KDD过程中的一个特定步骤,它是应用具体算法从数据中提取模式和知识。数据挖掘与知识发现的关系§10.3数据挖掘与空间数据挖掘目前五十六页\总数八十一页\编于十七点DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation数据挖掘与知识发现的关系§10.3数据挖掘与空间数据挖掘目前五十七页\总数八十一页\编于十七点一种观点,认为OLAP和数据挖掘是不交的。OLAP是数据汇总/聚集工具,它帮助简化数据分析;而数据挖掘自动发现隐藏在大量数据中的隐含模式和有趣知识。OLAP工具的目标是简化和支持交互数据分析,而数据挖掘的目标是尽可能自动处理,尽管允许用户指导这一过程。数据挖掘与OLAP的关系§10.3数据挖掘与空间数据挖掘目前五十八页\总数八十一页\编于十七点另一种更广泛的观点可能被接受:数据挖掘包含数据描述和数据建模。由于OLAP系统可以提供数据仓库中数据的一般描述,OLAP的功能基本上是用户指挥的汇总和比较。这些尽管有限,但都是数据挖掘功能。同样根据这种观点,数据挖掘要比简单的OLAP操作宽得多,因为它不仅执行数据汇总和比较,而且执行关联,分类,预测,聚类,时间序列分析和其他数据分析任务。而且,数据挖掘不限于分析数据仓库中得数据。它可以分析现存得,比数据仓库提供得汇总数据粒度更细得数据。它也可以分析事务、文本的、空间的和多媒体数据,这些数据很难用现有的多维数据库技术建模。在这种意义下,数据挖掘涵盖的数据挖掘功能和处理的数据复杂性要比OLAP大得多。数据挖掘与OLAP的关系§10.3数据挖掘与空间数据挖掘目前五十九页\总数八十一页\编于十七点根据挖掘的数据库类型分类:由于数据库本身可以根据不同的标准(如数据模型,或数据,或所涉及的应用类型)分类,每一类可能需要自己的数据挖掘技术。这样,数据挖掘系统可以有相应分类。如根据数据模型,有关系,事务,面向对象的,对象-关系的或者数据仓库的数据挖掘系统。如果根据所处理的数据的特定的类型分类,有空间的,时间序列的,文本的或多媒体的挖掘系统,或WWW数据挖掘系统。三、(空间)数据挖掘的分类§10.3数据挖掘与空间数据挖掘目前六十页\总数八十一页\编于十七点根据数据挖掘系统可以根据所挖掘的知识类型分类:即根据数据挖掘的功能,如特征化,区分,关联,分类聚类,孤立点分析和演变分析,偏差分析,类似性分析等分类。一个全面的数据挖掘系统当提供多种和/或集成的数据挖掘功能。按照所挖掘的知识的粒度或抽象层分类:包括概化知识(在高抽象层),原始层知识(在原始数据层),或多层知识(考虑若干抽象层)。一个高级数据挖掘应当支持度抽象层的知识发现。三、(空间)数据挖掘的分类§10.3数据挖掘与空间数据挖掘目前六十一页\总数八十一页\编于十七点根据数据是否规则:还可以分类为挖掘数据规则性(通常出现的模式)和数据不规则性(如异常或孤立点)。一般,概念描述,关联分析,分类,预测和聚类挖掘数据规律,将孤立点作为噪音排除。这些方法也能帮助检测孤立点。根据应用分类:数据挖掘系统可以根据应用分类。例如,金融,电信,DNA,股票市场,E-MAIL等等。三、(空间)数据挖掘的分类§10.3数据挖掘与空间数据挖掘目前六十二页\总数八十一页\编于十七点根据所用的技术分类:可以根据用户交互程度(例如自动系统,交互探查系统,查询驱动系统),或所用的数据分析方法(例如面向数据库或数据仓库的技术,机器学习,统计学,可视化,模式识别,神经网络等)描述。复杂的数据挖掘系统通常采用多种数据挖掘技术,或采用有效的,集成的技术,结合一些方法的优点。三、(空间)数据挖掘的分类§10.3数据挖掘与空间数据挖掘目前六十三页\总数八十一页\编于十七点四、(空间)数据挖掘的体系结构§10.3数据挖掘与空间数据挖掘控制器DB接口空间数据结构查询优化聚焦对象和属性抽取模式抽取统计学,机器学习和数据挖掘方法计算几何学评估有趣程度统计重要性知识库概念层元数据数据库统计数据发现领域知识DBMS用户查询目前六十四页\总数八十一页\编于十七点普遍的几何知识:指某类目标的数量、大小、形态特征等的普遍的几何特征。空间分布规律:指目标在地理空间的分布规律,分成在垂直向、水平向以及垂直向和水平向的联合分布规律。空间关联规则:指空间目标间相邻、相连、共生、包含等空间关联规则。五、(空间)数据挖掘的可挖掘的知识类型§10.3数据挖掘与空间数据挖掘目前六十五页\总数八十一页\编于十七点空间聚类规则:空间聚类规则,或空间分类规则,是指特征相近的空间目标聚类成上一级类的规则,可用于GIS的空间概括和综合。空间特征规则:指某类或几类空间目标的几何的和属性的普遍特征,即对共性的描述。空间区分规则:指区分不同类目标的特征。空间演变规则:指空间目标依时间的变化规则。§10.3数据挖掘与空间数据挖掘五、(空间)数据挖掘的可挖掘的知识类型目前六十六页\总数八十一页\编于十七点分类模式它是一分类函数,能够把数据集中的数据相项影射到某个给定的类上。分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿数据满足的分支往上走。走到树叶就能确定类别。回归模式回归模式与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。时间序列模式根据数据随时间变化的趋势预测将来的值。六、空间数据挖掘的功能§10.3数据挖掘与空间数据挖掘目前六十七页\总数八十一页\编于十七点聚类模式把数据分到不同的组中,组间差别尽可能大,组内差别尽可能小。关联模式关联模式是数据之间的关联规则。序列模式序列模式和回归模式相仿,而把数据之间的关系与时间联系起来。在解决实际问题时,经常要使用各种模式。分类模式与回归模式是最普遍的模式。六、空间数据挖掘的功能§10.3数据挖掘与空间数据挖掘目前六十八页\总数八十一页\编于十七点1.空间分析方法2.统计分析方法3.归纳学习方法4.聚类与分类方法5.可视化方法6.粗集方法7.云理论8.空间特征和趋势探测方法9.数字地图图像分析和模式识别方法10.探测性的数据分析方法11.遗传算法12.模糊逻辑13.最近邻技术七、空间数据挖掘的方法§10.3数据挖掘与空间数据挖掘目前六十九页\总数八十一页\编于十七点八、空间数据挖掘的系统结构§10.3数据挖掘与空间数据挖掘知识库数据仓库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面数据清理数据集成过滤目前七十页\总数八十一页\编于十七点空间知识发现的系统结构§10.3数据挖掘与空间数据挖掘用户界面感兴趣的数据发现的知识空间数据库领域知识数据挖掘与知识发现模块空间数据管理模块目前七十一页\总数八十一页\编于十七点1.针对海量数据的算法研究改变算法运行的策略:采用并行运算环境;提高数据库查询语言的效率;对原有算法的结构进行改进,从而减小运算的复杂度。九、空间数据挖掘近年主要研究进展§10.3数据挖掘与空间数据挖掘目前七十二页\总数八十一页\编于十七点2.以神经网络为代表的智能方法成为解决空间非线性关系的主要工具

神经网络学习算法的发展统计学习领域的研究热点——支撑向量机机器学习中熵标准的应用九、空间数据挖掘近年主要研究进展§10.3数据挖掘与空间数据挖掘目前七十三页\总数八十一页\编于十七点3.尺度空间概念的应用4.模糊集和粗集理论的应用5.高维数据的挖掘算法6.空间数据的缺值研究九、空间数据挖掘近年主要研究进展§10.3数据挖掘与空间数据挖掘目前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论