7空间数据挖掘与可视化(完)_第1页
7空间数据挖掘与可视化(完)_第2页
7空间数据挖掘与可视化(完)_第3页
7空间数据挖掘与可视化(完)_第4页
7空间数据挖掘与可视化(完)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

空间数据挖掘与可视化信息工程大学地理空间信息学院李宏伟2空间数据挖掘研究1背景3实例:空间关联规则挖掘5空间知识可视化6几点思考4数据挖掘软件1背景By李德仁数据(Data)信息(Information)知识(Knowledge)智能(Wisdom)DIKW大数据数量价值多样性速度海量数据数量2.1空间分类挖掘分类和预测是两种数据分析形式,用于提取描述重要数据类的数据类型或预测未来的趋势。空间分类挖掘解决大量数据分类问题。2空间数据挖掘研究空间分类挖掘方法决策树方法:经典算法-Quinlan的ID3方法贝叶斯分类方法:朴素贝叶斯方法和贝叶

斯网络方法神经网络方法:前向型、反馈型、随机型、

自组织型支持向量机方法:基于统计学习理论,适于

数据预处理、样本化应用空间分类挖掘方法(续)K-最邻近分类法基于案例的推理分类法遗传算法和进化计算粗糙集分类法2.2空间聚类挖掘统计学方法机器学习方法数据库方法模式识别方法基于模型的方法基于密度的方法基于划分的方法基于层次的方法基于网格的方法混合方法方法分类具体方法聚类与分类不同,待划分的类是未知的。聚类将数据对象分组为多个类或簇,使同一个簇中的对象之间相似度最高,不同簇中的对象相似度最低。2.3空间关联规则挖掘聚类挖掘基本研究内容确定性关联规则挖掘量化关联规则挖掘增量式关联规则挖掘模糊关联规则挖掘广义关联规则挖掘经典算法:Apriori算法Apriori算法改进利用hash表的DHP方法基于采样的方法并行关联规则挖掘的方法分布式关联规则挖掘的方法多层次关联规则挖掘的方法数值扩展的关联规则挖掘的方法形象规则的发现方法关联规则快速学习方法基于兴趣度进行数值型关联规则合并的方法采样trie树进行关联规则挖掘利用概念格的关联规则挖掘的方法……2.4Internet和Web空间数据挖掘Web挖掘内容挖掘结构挖掘用法挖掘基于机器学习技术的文本搜索引擎基于协同的方法基于内容的方法2.5空间数据挖掘智能方法神经计算、进化计算、免疫克隆计算、模糊计算与模糊推理……3实例:空间关联规则挖掘发展阶段萌芽阶段19932000200620111993年,Agrawal等人提出频繁项集挖掘的Apriori算法。

1995年,KoperskiandHan引入空间谓词构造空间事务

表,给出空间关联规则的定义及挖掘过程。2000年,Clementini等考虑空间不确定性并对多层次空间关联进行挖掘2001年,Shekhar等给出空间同位模式的一般挖掘算法2004-2005年,Yoo等通过减少连接计算以提升同位模式挖掘的效率2006年,陈江平等提出了一种面向主题的基于多层次空间概念的关联规则挖掘算法2008年,张雪伍、苏奋振等提出面向时空过程的关联规则挖掘算法2009年,沙宗尧等人提出局部的空间关联模式挖掘2011年,Mohan等基于事件时序关系提出级联模式的概念及挖掘算法2014年,邓敏、石岩等基于聚类分割方法研究了太平洋气候指数与我国极端降水事件的遥相关模式3.1空间关联规则挖掘研究的发展3.2空间关联规则分类不同地理实体间空间依存、相互作用、因果或共生的模式邻近地理空间内频繁出现的布尔型要素(或事件)子集地理事件间远距离的相互关联模式空间关联规则

基于空间谓词规则的关联模式空间同位模式遥相关模式城市分布交通发展降水海温3.3当前研究重点着眼于研究挖掘算法本身着眼于研究空间关联规则的不确定性信息着眼于研究关联挖掘的可视化着眼于研究弱空间关联规则3.4空间关联规则挖掘方法将各个空间或非空间属性作为一个图层,对每个图层上的数据点进行聚类,然后对聚类产生的空间紧凑区进行关联规则挖掘。利用空间叠加、缓冲区分析等方法发现挖掘目标之间的空间谓词,将其组成空间事务数据库,进行单层布尔型关联规则挖掘。通过用户指定的邻域,遍历所有可能的邻域窗口,进而通过邻域窗口代替空间事务,然后进行空间关联规则的挖掘。基于聚类的图层覆盖法基于空间事务的挖掘方法无空间事务挖掘法3.5空间关联规则挖掘过程以基于事务的空间关联规则挖掘过程为例web3.6空间关联规则挖掘算法挖掘算法:AprioriFP-GrowthEclat3.7存在问题空间数据的特性在当今“数据爆炸”的大环境下,开发出效率高,负载数据量大的新算法是趋势所在。大多数空间关联规则挖掘工具都是基于事先定义好的参数进行黑箱式挖掘,挖掘过程中的交互性较差。频繁项的过滤环节,没有充分地运用空间数据的独特性质,即没有将“地理学思想应和空间数据有效结合”。海量数据的挖掘算法效率可视化挖掘4、数据挖掘软件代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预言模型系统集成

多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合

多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型4.1第一代数据挖掘软件特点支持一个或少数几个数据挖掘算法

挖掘向量数据(vector-valueddata)

数据一般一次性调进内存进行处理

典型的系统如SalfordSystems公司早期的CART系统()

缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。举例:CBA

新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测4.2第二代数据挖掘软件特点与数据库管理系统(DBMS)集成

支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性

能够挖掘大数据集、以及更复杂的数据集

通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言增加系统的灵活性

典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发举例1:DBMiner举例2:SASEnterpriseMiner4.3第三代数据挖掘软件特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中

由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能

能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成

缺陷不能支持移动环境举例:SPSSClementine以PMML的格式提供与预言模型系统的接口4.4第四代数据挖掘软件特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。

第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(UniversityofMarylandBaltimoreCounty)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。

第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷

第三、四代系统强调预测模型的使用和操作型环境的部署

第二代系统提供数据管理系统和数据挖掘系统之间的有效接口

第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口

目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如IBMIntelligentScoreService。第四代数据挖掘原型或商业系统尚未见报导

5.1可视化分类5空间知识可视化数据可视化信息可视化知识可视化数据可视化:运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论和方法。散点矩阵法投影矩阵法平行坐标法层次显示技术动态显示技术图标表示技术直方图法……

信息可视化:利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知。信息可视化将非空间数据的信息对象的特征值抽取、转换、映射、高度抽象与整合,用图形、图像、动画等方式表示信息对象内容特征和语义的过程。信息对象包括文本、图像、视频和语音等类型。一维信息可视化二维信息可视化三维信息可视化多维信息可视化层次信息可视化文档信息可视化网络信息可视化

知识可视化:是数据可视化和信息可视化基础上,将人类的知识,包括见解、经验、态度、价值观、意见、预测等加以表达,并帮助他人正确地重构、记忆和应用这些知识的过程。三种可视化方式的比较方法类型数据可视化信息可视化知识可视化可视化对象空间数值型数据非空间非数值型数据人类知识可视化目的将抽象数据以直观的方式表示出来从大量抽象数据中发现一些新信息促进群体知识传播和创新可视化技术很多方法,如散点图、平行坐标图非常多,如轮廓图、锥形树等知识图表、视觉隐喻交互类型人机交互人机交互人机交互5.2知识分类按世界经合组织分类按地理实体时空特性分类分类描述表达方式知道是什么:叙述地理事实空间结构知识描述地理事实,解译地理知识。表示普遍几何知识、空间分布、空间分类规则、空间聚类规则、空间关联规则点、线、面知识要素知道为什么:知道事物现象的原理和规律知道怎么做:地理空间事物技能类知识逻辑结构知识反映地理概念、面向对象的知识、空间区分规则、语义关联规则示意性拓扑图知道是何物:因果演化,推理地学规律时空演变知识反映空间演变规律、语义演变规律等趋势虚拟技术结合地图动画重点讲空间知识可视化5.3挖掘可发现知识类型普遍的几何知识和面向对象的知识空间特征规则和区分规则空间分类规则和回归规则空间聚类规则和关联规则空间依赖规则和预测规则空间序列规则和空间例外1)

通用性知识可视化ConceptmapMindmap5.4知识可视化ThinkingmapCognitivemapSemanticnetwork2)可视化的三种情形知识结果可视化知识状态可视化知识过程可视化动态标量场f:(x,y,t)R3)三种空间知识的可视化Knowingwhat可视化Knowingwhy可视化Knowinghow可视化4)挖掘的知识可视化不同地区人们眼中的空间特征的地图可视化表达空间关联规则的地图可视化表达空间关联规则可视化表达空间关联规则可视化表达时空演变规律的地图可视化表达5)泛在空间知识可视化VGI志愿者信息可视化赛伯空间可视化泛在空间中的POI点分布特征知识可视化5.5可视化系列著作推荐

FastCoLabs邀请了几位赫赫有名的可视化博客、博主来回答他们眼中最具标志性的可视化作品以及原因,受邀的三位分别是EagerEyes的RobertKosara,VisualisingData的AndyKirk,以及NationalPublicRadio的数据编辑MattStiles。5.6十大标志性可视化作品1)WindMap是一个交互式实时风场可视化作品,数据每小时更新一次,用户可以通过双击放大到更精细的分辨率,看到非常美妙的风场。化不可见为可见一直都是数据可视化的目标。2)GapMinder是另一个耳熟能详的可视化作品,GapMinder用简简单单的动态散点图就回答了世界发展的历史、现状和趋势。3)TheEbbandFlowStreamgraph是纽约时报在2008年发布的交互式电影票房可视化作品,作品以非常优美的流的形式展现了1986年到2008年所有电影从上映到下档的票房。4)PathstotheWhiteHouse是又一个交互式可视化,下图展现了2012年美国大选的其它可能性。5)DeathandTaxes是一张展现美国联邦超过500个部门、项目财政预算的信息图,信息量涵盖之广让人叹为观止。从04年至今,每年设计师Bachman都会发布最新的财政预算信息图,2014年的信息图由TimePlots发布。6)同性恋权益在美国这样的联邦国家各州各不相同,为了清晰表达到底哪个州是同性恋的天堂或是地狱,卫报做了GayRights,StatebyState的交互式可视化作品,该作品赢得了今年数据新闻大奖的数据驱动的叙述奖。作品以不同颜色代表不同权利如结婚、教育、就业等,单这一张图其实已经足够说明很多情况,东北部地区大多是同性恋天堂而东南部地区同性恋者生活艰难。7)

BikiniChart其实只是一个条形图,由奥巴马团队发布于2012年,用于对比就业率在奥巴马上台后和布什政府时期的改善情况。之所以被民间戏称为比基尼图,自然是因为它的形状,这也是这张图流行的重要原因,谁不喜欢吐槽呢?因为表达的是公民失去工作的情况(记为负数),所以条形更多地被设计在基准坐标以下。从布什政府上台造成越来越多的失业,到奥巴马政府上台失业率有所改善,这个形势使得整个条形图形成了一个类似于比基尼的形状。

8)APeekIntoNetflixQueues也是来自于纽约时报的可视化作品(大品牌值得信赖),列出了NetFlex在2009年最受欢迎的电影电视剧,以及在各个城市的观影情况。一些电影电视在不同城市的接受度大相径庭。但是对于为什么有些电影在一些城市更受欢迎,作品中并没有给出进一步的分析解释,还有待用户自己发现。9)WhyIsHerPayCheckSmaller?这个作品表达了相同工作,男女薪水待遇不同。作品非常简单,只是在职业的散点图上增加了一些标准线,不同颜色代表不同行业。但是这些标准线对于用户阅读可视化,吸收作品真正想传达的意义起到了巨大的作用,让用户在视觉上不由自主地把对标准线一边和另一边的进行对比。首先男女收入相当的标准线无疑是最重要的,看来果然还是男人待遇比较高啊。再下来别是女人薪水少10%,20%,30%的标准线,看来金融领域的女人分外受到歧视啊……

10)HowCommonisYourBirthday?是一个简单的用热度表达美国最普遍的生日日期的信息图,七八九十月出生是最普遍的,往回推的话就是圣诞前后一两个月怀孕,非常合理。不知道我国是不是也会形成小长假、春节的类似于pattern呢?序号工具名称描述1iChartsiCharts是一个在线的数据可视化工具,被广泛应用于商业、经济、体育等领域的报告中。iCharts免费版本提供了一些基本的交互式图表样式,如果使用更高级的样式,则需要购买高级版本。2FusionChartsSuitXT

FusionChartsSuitXT是一个专业的JavaScript图表库,可以用来创建90多种类型的图表,包括2D和3D版本的图表。3ModestMaps这是一个小型的、免费、用于创建交互式地图的库4PizzaPieCharts这是一个基于AdobeSnapSVG框架的响应式的饼图,主要使用HTML和CSS来生成图表,但你也可以使用JavaScript对象。5RawRaw是一个开源的数据可视化工具,基于流行的D3.js,支持多种图表类型。5.7一些可视化软件序号工具名称描述6LeafletLeaflet是一个开源的JavaScript库,用于创建对移动设备友好的交互式地图。7Chartkick

Chartkick是一个Rubygem,可非常方便、快速地创建漂亮的图标。Chartkick还有一个JavaScriptAPI,不依赖于Ruby。8EmberCharts这是一个基于Ember.js和d3.js框架的图表库,包括时间序列、条形图、饼图、线型图、散点图等多种类型,且易于扩展和修改。9SpringySpringy是一个使用JavaScirpt实现的有向图布局算法,使用了真实世界中的一些物理原理,你可以随意拖动图表中的元素。10BonsaiBonsai是一个开源的JavaScript库,用于创建图形和动画,并配备了一个直观,功能丰富的API。序号工具名称描述11GoogleCharts一个封装googleapi的Jgcharts插件,利用它很轻松地可以通过简单的数据生成多样的图表.12jsDraw2DX一个标准的JavaScript库,用来创建任意类型的SVG交互式图形,可生成包括线、举行、多边形、椭圆、弧线等图形13Cube美国Citilabs公司开发的一套卓越的交通模拟与规划软件系统,同时也是交通规划领域使用最广泛的软件。拥有一套完整的用于交通规划的软件模块。使用Cube,用户能统计、对比和输出高质量的图形和各种类型的报告方法,快速生成决策信息。14GanttiGantti是一个开源的PHP类,帮助用户即时生成Gantti图表。使用Gantti创建图表无需使用JavaScript,纯HTML-CSS3实现。15SmoothieCharts是一个十分小的动态流数据图表路。通过推送一个webSocket来显示实时数据流。SmoothieCharts只支持Chorme和Safari浏览器,并且不支持刻印文字或饼图,它很擅长显示流媒体数据。序号工具名称描述16Envision.js是快速创建动态交互式的可视化HTML5图表库。17BirdEye它属于一个群体专案,为了要提升设计和广泛的开源资料视觉化发展,并且为了AdobeFlex建视觉分析图库,这个动作以叙述性的资料库为主,让使用者能够建立多元资料视觉化界面来分析以及呈现资讯18Arbor.js一个利用WebWorks和

jQuery

创建的可视化图形库,它为图形组织和屏幕刷新处理提供了一个高效的、力导向的布局算法19Gephi不需要任何地图提供者像GoogleMaps,用来建立互动式地图,由两个libraries组成,从空间数据开放格式,利用向量投影的Pythonlibrary以及postGIS,并将两者结合到SVG和JavaScriptlibrary,并把这些SVG资料转变成互动性地图20HighChartjs是单纯由JavaScript所写的图表资料库,提供简单的方法来增加互动性图表来表达你的网站或网站应用程式。目前它能支援线图、样条函数图。序号工具名称描述21JavascriptInfoVISTool

是一个在Web上创建可交互式的数据图表的JavaScript库22Axiis是一个数据可视化框架,于五月份使用MIT许可证发布。“数据可视化”这个词经常用来描述应用数据的图形化视图,如图表和图形。23Protviss是一个使用JavaScriptCanvas元素实现的可视化组件。开发者可以利用简单的标记如线条和圆点+数据来绘制自定义图表。24HumbleFinance是一个与Flash工具相似的HMTL5数据可视化工具。该工具完全由JavaScript开发,使用Prototype与Flotr库。此工具很适合用来显示经融财务数据,也适合显示任何共享轴线的两个2D数据集。25D3.js是最流行的可视化库之一,它被很多其他的表格插件所使用。它允许绑定任意数据到DOM,然后将数据驱动转换应用到Document中。你可以使用它用一个数组创建基本的HTML表格,或是利用它的流体过度和交互,用相似的数据创建惊人的SVG条形图序号工具名称描述26Dipity一款基于Timeline的Web应用软件,用户可以将自己在网络上的各种社会性行为(Flickr、Twitter、Youtube、Blog/RSS等)聚合并全部导入到自己的Dipity时间轴上。27Kartograph不需要任何地图提供者像GoogleMaps,用来建立互动式地图,由两个libraries组成,从空间数据开放格式,利用向量投影的Pythonlibrary以及postGIS,并将两者结合到SVG和JavaScriptlibrary,并把这些SVG

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论