基于大数据hadoop平台的出租车载客热点区域挖掘研究_第1页
基于大数据hadoop平台的出租车载客热点区域挖掘研究_第2页
基于大数据hadoop平台的出租车载客热点区域挖掘研究_第3页
基于大数据hadoop平台的出租车载客热点区域挖掘研究_第4页
基于大数据hadoop平台的出租车载客热点区域挖掘研究_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于大数据Hadoop平台的出租车载客热点区域挖掘研究北京交通大学 硕士论文 2016 数据挖掘的过程及主要功能数据挖掘的过程及主要功能关联分析自动预测趋势和行为聚类分析概念描述偏差检测分类时间序列分析关键词:关键词:出租车;大数据;Hadoop;载客热点;并行K-Means聚类主要工作:主要工作:搭建Hadoop实验平台出租车数据预处理基于Hadoop平台的K-Means聚类算法并行化实现利用ArcGIS实现载客热点的可视化出租车大数据的预处理出租车大数据的预处理采集时长:1年采集地点:北京市数据源格式:.txt数据大小:500G出租车数量:1.4万采集间隔:1min出租车原始数据清洗过程出

2、租车原始数据清洗过程 将数据上传到HDFS中存储后,就可以设计基于Hadoop集群的MapReduce程序完成数据的清洗工作。1)重复数据利用MapReduce默认的Map端key值整合功能达到去重的目的。2)出租车无关属性出租车原始数据清洗过程出租车原始数据清洗过程去除触发事件、速度、方向角以及运营状态为0的对挖掘结果没有影响的属性。3)GPS状态异常及错误出租车原始数据清洗过程出租车原始数据清洗过程GPS状态:0(异常);1(正常)4)出租车坐标处于非北京的记录出租车原始数据清洗过程出租车原始数据清洗过程整个北京市的经纬度坐标范围为东经115.25117.30,北纬39.2641.03。4

3、)记录中重要属性项缺失出租车原始数据清洗过程出租车原始数据清洗过程该条记录中所有重要属性项均为0;有车牌号、时间等次要的属性项;重要属性经纬度值坐标为零。总结:出租车原始数据清洗过程出租车原始数据清洗过程 MapReduce框架进行清洗时主要集中在Map端,首先将出租车记录作为Map阶段的输出的key值,然后利用判断语句选择出这些异常出租车数据记录或者记录中不相关的属性进行删除,最后在Reduce端将Map阶段处理后的数据原样输出到HDFS即可得到所需清洗的结果。出租车数据二次排序处理出租车数据二次排序处理二次排序处理框图出租车数据二次排序处理出租车数据二次排序处理车辆编号标志位时间经度纬度0

4、01140020120101002929116.455085839.8942146001140120120101002947116.455032339.8925667001140120120101003042116.447883639.8921928001141020120102025026116.291534439.9258461001141020120101025121116.291549739.9258461001141120120101025215116.291549739.9258385聚类算法聚类算法聚类聚类是将数据分类到不同的类或者簇这样的一个过程,同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。K-Means聚类算法基本思想聚类算法基本思想 算法首先随机选择K个对象,每个对象初始代表一个簇的平均值或者中心。对于剩余的每个对象,根据其到各个簇中心的距离,把他们分给距离最小的簇中心,然后重新计算每个簇的平均值即簇的中心值。重复这个过程,直到簇的中心收敛为止。基于基于Hadoop平台的热点区域挖掘平台的热点区域挖掘并行化的K-Means聚类算法颜色热度热度状态0.02000-0.02741高热度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论