版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
扫题答题ArcGIS平台下的大数据挖掘Esri(中国)卢萌概念的进化从数据挖掘说起数据分析传奇故事:“啤酒与尿布”——这仅仅是一个都市传说,一个数据分析界的心灵鸡汤进阶为大数据分析交通广播电视电力气象公共设施农业城市管理货单市场消费者运营……空间数据挖掘空间数据挖掘空间大数据大数据IOEInternetofEverything智慧、历程、足迹……onesmallstepforaman,
onegiantleapformankind历史记录方式时间:1880年姓名:詹姆斯.加菲尔德事件:美国第20任总统
直到现在,历史学家还是以一种总体的形式来研究一个国家,他们只能给我们讲述帝王将相以及战争的历史,但关于人民本身—我们庞大社会中每个生命的成长、各种力量、细节及其规律,历史学家说不出太多的东西……而普查把我们的观察放大到民房、家庭、工厂、煤矿、田野、监狱、医院等集中展示人性之强大及脆弱的所有地方,这让新的历史记录成为可能。数据记录历史,平台讲述故事空间数据挖掘数据挖掘十大经典算法分类C4.5支持向量机AdaBoost朴素贝叶斯模型CART:分类与回归树聚类K最近邻K-Means关联分析Apriori相似搜索及评价最大期望(EM)算法PageRank数据挖掘十大经典算法 Theactualcompanyvalues,asopposedtothenice-soundingvalues,areshownbywhogetsrewarded,promoted,orletgo
公司真正的价值观和那些动听的表态完全相反,它们具体通过那些人被奖励、被提升和被解雇来体现。
——Netflix数据挖掘——直指核心以人为本诚信第一重视人才正直善良与时俱进尊重个性空间数据挖掘能解决的问题空驶率:34.7%>300,000,000 Areductionofjustonemileadayperdriverwouldsavethecompanyasmuchas$50million.
——每人每天少开1英里,公司每年省下5000万($)。
5.5万条道路
1万条已经完成优化
150万加仑汽油
1.4万立方吨二氧化碳UPS的成功——截止到2015年因果抽三分样本,人生无常似概率验七分总体,世事归宗皆统计回归本源:地理分析在什么地方,发生了什么事情?任何技术都是存在于人和计算机之间,人和计算机都发挥着重要的作用人机每个过程都将留下独特的足迹,我们将解释这些足迹的意义。足迹上至无穷的太空,下至最深的地底,人类已知的所有位置范围关于世界的一个独特的视角视角地理分析核心:空间统计学空间概率概率密度不确定性统计推断经典统计学VS空间统计学样本独立性属性A发生变化,属性B被影响空间异质性空间位置发生变化,分析结果也会发生变化多变量影响被邻居影响,引发结果偏差空间自相关空间异质性插值分析:NoMapReduceArcGIS+Hadoop实现海量数据
热度图GIStoolsforhadoopjsonHadoopTools.pytGISToolsforHadoopSpatialFrameworkforHadoopGeoprocessingToolsforHadoopGeometryAPIJavahivespatial-sdk-hive.jarspatial-sdk-json.jaresri-geometry-api.jarsamplestoolsEsrionGitHub整个包中包括了所有的工具和示例,都是开源的。空间框架中包含了hive的UDF和JSON相关的SDK。Hadoop的一些GP工具,包括了数据上传下载,工作流的调用等。Javageometrylibrary,用于JAVA开发空间分析功能。EsriJavaGeometryAPIequalsdisjointtouchescrosseswithincontainsoverlapsbuffercutclipconvexHullintersectuniondifference使用hadoop进行分析的流程HadoopCluster.jar把空间数据加入到Hadoop中空间数据在hadoop中可以表现为多种不同的方式。点模式是空间大数据的主要分析模式ONTARIO,34.0544,-117.6058RANCHOCUCAMONGA,34.1238,-117.5702REDLANDS,34.0579,-117.1709RIALTO,34.1136,-117.387RUNNINGSPRINGS,34.2097,-117.1135ONTARIO POINT(34.0544,-117.6058)RANCHOCUCAMONGA POINT(34.1238,-117.5702)REDLANDS
POINT(34.0579,-117.1709)RIALTO
POINT(34.1136,-117.387)RUNNINGSPRINGS POINT(34.2097,-117.1135)由指定符号分隔数据由制表符分隔的数据{{‘attr’:{‘name’=‘ONTARIO’},’geometry’:{‘x’:34.05,’y’:-117.60}}{{‘attr’:{‘name’=‘RANCHO…’},’geometry’:{‘x’:34.12,’y’:-117.57}}{{‘attr’:{‘name’=‘REDLANDS’},’geometry’:{‘x’:34.05,’y’:-117.17}}{{‘attr’:{‘name’=‘RIALTO’},’geometry’:{‘x’:34.11,’y’:-117.38}}{{‘attr’:{‘name’=‘RUNNING…’},’geometry’:{‘x’:34.20,’y’:-117.11}}JSON…类似于well-knowntext(WKT)的定义方式Esri’sJSON定义的方式用多个位置来定义多个字段编程顺序条件定义阶段加载分析条件Setup方法分析数据加载阶段从集群中分解待分析的数据K-V格式映射Map方法初步处理阶段初步排序和组合聚合分析阶段最终聚合结果前提条件:待分析的数据已经存储到HDFS中。MR模式下的分析示例MR模式下的分析示例定义条件:在可视化情况下定义分析条件转化为hadoop可以识别的数据流EsriJsonWKTTextHadoopToolsCopytoHDFSCopyfromHDFSExecuteWorkflowFeaturestoJSONJSONtoFeaturesMR模式下的分析示例在运算集群上加载查询条件HadoopClusterJSONJSONJSONJSONMR模式下的分析示例按照格式读取数据,进行格式化解析MR模式下的分析示例利用Geometry模型进行空间计算将结果处理为K-V模式MR模式下的分析示例进行最终聚合计算MR模式下的分析示例计算完成,将结果转换为可识别的空间数据MR模式下的分析示例利用聚合完成的空间数据,进行空间密度分析回顾总体过程自定义聚合:K值设定最重要2567325673Count3Min2Max6Count2Min3Max7256Count3Min2Max673Count2Min3Max725673Count5Min2Max71.使用Map/Reduce对点进行分区聚合2.使用Map/Reduce进行全局数据聚合3.在桌面软件中进行空间分析,并且渲染成图走向SparkHadoop生态系统示意图(2.0)HDFS(HadoopDistributedFileSystem)YARNResourceSchedulingandNegotiationHbaseNonrelationalDatabaseMapReduceDestributedProcessingOtherYARNframeworkHcatalogMetadataServicesPIGScriptOtherProjectsAmbari,Avro,Oozie,Zookeeper,etcHiveQuerySpark传统调度模式用户JobTrackerTaskTrackerTaskTaskTaskTrackerTaskTask1.0HDFS用户ResourceManager
NodeManagerNodeManagerApplicationMaster
ContainerApplicationMaster
Container2.0NodeManagerContainerContainerYARN是干嘛的?HDFSSparkSpark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是ScalaSpark核心调度技术用户ResourceManager
NodeManagerNodeManagerApplicationMaster
ContainerApplicationMaster
ContainerSpark+YarnNodeManag
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年统一损失赔偿合同范本一
- 2024年咖啡饮品加盟连锁经营合同范本3篇
- 温度温度显示器课程设计
- 浙大生物制药课程设计
- 油梁式抽油机课程设计
- (标准员)基础知识样卷(共六卷)
- 安全月活动总结试题
- 2024年美术教案课件
- 财务风险管理概述
- 运动器材店服务员工作总结
- 2024年北京石景山初三九年级上学期期末数学试题和答案
- 智慧管网建设整体解决方案
- Siemens WinCC:WinCC趋势图与历史数据技术教程.Tex.header
- 【长安的荔枝中李善德的人物形象分析7800字(论文)】
- CJT 288-2017 预制双层不锈钢烟道及烟囱
- 生物安全风险评估报告
- 戈19商务方案第十九届玄奘之路戈壁挑战赛商务合作方案
- 广西河池市宜州区2023-2024学年七年级上学期期末考试数学试卷(含解析)
- 2024高考政治真题-哲学-汇集(解析版)
- 对承租方有利的商铺租赁合同
- 2024云南大学滇池学院教师招聘考试笔试试题
评论
0/150
提交评论