Hdoop与空间大数据挖掘分析_第1页
Hdoop与空间大数据挖掘分析_第2页
Hdoop与空间大数据挖掘分析_第3页
Hdoop与空间大数据挖掘分析_第4页
Hdoop与空间大数据挖掘分析_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop与空间大数据挖掘分析

数据统治的世界大数据与空间大数据Hadoop与ArcGIS的碰撞数据的掘金之旅我们的大数据梦内容提要数据统治的世界天然文字印刷电子数字化文明载体的演化数字化生存的时代它决定我们的生存计算不止和计算机有关名称:亚历山大图书馆时间:始建于托勒密一世

(约公元前367-前283年)说明:

是世界上最古老的图书馆之一。馆内收藏了贯穿公元前400-前300年时期的手稿,拥有最丰富的古籍收藏,有据可考的图书超过50000卷。号称“收集全世界的书”,实现“世界知识总汇”的梦想。数字化带来的信息爆炸名称:谷歌数字化图书计划时间:2004年说明: 2004年,谷歌携手哈佛大学、斯坦福大学、密歇根大学、牛津大学和纽约公共图书馆,共推图书数字化,到2010年,已经完成了2000万册数字化图书,几乎相当于人类书写文明的15%。谷歌数字化图书计划数字统治着我们的世界大数据与空间大数据

最早是由天文学和基因学创造出了“大数据”这一概念。 ——《自然》2008年《大数据专刊》大数据的起源一张哈勃望远镜捕捉下来的高清相片,高达数十个G字节

早期,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量。早期的大数据大数据数量价值多样性速度海量数据数量大数据与海量数据Volume数据量Velocity多样性Variety速度Value价值4V特性数据量Volume1,128,24268MBX(32bit)Y(32bit)多样性VarietyParcelFabricFeaturedatasetFeatureclassMultipatchRelationshipclassTopologyGeometricnetworkNetworkdatasetTerrainTableViewRastercatalogRasterdatasetSchematicdatasetMosaicdatasetLASdatasetToolboxToolModeltoolsetSpatialETLScriptPythonToolboxAddressLocator缺省属性值

属性值取值域分割/合并方针连通性规则

关联规则拓扑规则多维的数据视角速度Velocity并行处理因子Google每天需要处理超过24PB的数据——等于美国国家图书馆书籍总量的上千倍互联网公司的数据洪流Facebook每天更新的相片超过1000万张,每天人们发送的“赞”或者书写的评论超过三十亿次。Twitter每天发布的微博超过4亿条。

价值Value“今天,地理空间信息被越来越多的企业认为是企业的战略资产。地理空间信息的处理、存储和分析已成为商务智慧的重要组成部分。”

---JackDangermondHadoop与ArcGIS的碰撞

古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们想的并不是培育更大更壮的牛。同样,我们也不需要动辄使用超级计算机,而应试着结合使用更多计算机系统。

格蕾丝·莫里·霍珀 (GraceMurrayHopper) (1906--1992)更多或者更大 Google通过他天才的软件架构设计,把成千上万台普通的PC机做成了一个廉价大型的集群,用以处理他面向“星球”级别的搜索服务。谷歌的廉价PC集群名称:UtahDataCenter(犹他数据中心)全称:IntelligenceCommunityComprehensiveNationalCybersecurityInitiativeDataCenter(情报体系综合性国家计算机安全计划数据中心)所属机构:NAS(美国国家安全局)UtahDataCenter hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。不得不说的hadoopHadoop生态系统示意图Zookeeper(coordination)Avro(Serialization)HDFS(HadoopDistributedFileSystem)Hbase(ColumnDB)MapReduce(JobScheduling/ExecutionSystem)Pig(DataFlow)Hive(SQL)SqoopETLToolsBIReportingRDBMSHDFSNameNodeDataNodeDataNodeDataNodeMetadata数据1数据2用户假设系统每秒处理4000个文件Hadoop处理原理处理4千万个文件=10000秒约为2.7小时处理4千万个文件处理400万个文件处理400万个文件处理400万个文件……切分成十台机器处理约为17分钟=约为17分钟=约为17分钟=结果合并输出大数据技术厂商图谱空间信息大数据存储IBMNetezza7.0NetezzaSpatialEsriPackageTeradataWindowsAzureSQLDatabaseHadoopforGeoEvent空间大数据挖掘分析GIStoolsforHadoopEsri大数据解决方案IBMNetezza6.0/7.0NetezzaSpatialEsriPackageTeradata14.0WindowsAzureSQLDatabaseEsri空间大数据存储HadoopforGeoEvent应用场景数据存储信息分析HadoopforGeoEvent GISToolsforHadoop不仅在GIS与hadoop之间搭建起了一个桥梁,还定义和构建了一整套大空间数据分析的环境。——MarwaMabrouk

productmanageratEsriGISToolsforHadoopAPI框架工具GISToolsforHadoop的组成数据的掘金之旅几千年前科学以实验为主,描述自然现象过去数百年出现了理论研究分支,利用模型和归纳最近数十年出现了计算分支,对复杂现象进行仿真今天:数据爆炸将理论、实验和计算仿真统一起来由仪器收集、由软件处理、由计算机存储科学家通过数据管理和分析的方式来研究科学。数据密集型科学技术分类预测:用历史预测未来描述:了解数据中潜在的规律常用数据挖掘技术关联分析序列模式分类聚集异常检测数据挖掘技术量变会导致质变一万七千年前法国拉斯科洞穴壁画上的马24帧每秒播放的马样本总体全体数据模式大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。在传统算法时代,我们需要用各种复杂的算法来保证数据的可靠性,因为我们能够获取的数据非常有限。算法已死在大数据的时代,我们可能仅仅需要最简单的算法,就可以得到我们所需要的结果了。空间大数据与反恐战争空间大数据与犯罪分析出租车轨迹热点挖掘分析精度点数数据量计算量单机计算时间100米一百万61MB43^2*10^629小时10米一亿6108MB(6G)430^2*10^8≈29*10^4小时≈12083天≈33年1米一百亿600G43*10^4*10^10≈33*

10^4年≈33万年超大规模的数据和计算量以丽江机场为例:以机场为中心,50公里

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论