Map-Reduce 分布式聚类 分布式数据预处理 join操作_第1页
Map-Reduce 分布式聚类 分布式数据预处理 join操作_第2页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Map-Reduce论文:基于Map-Reduce分布式日志信息处理研究与实现【中文摘要】随着互联网的高速发展,电子商务网站每天需要处理的日志信息多达几terabyte。如何廉价并且高效地去除日志中的暂时无用信息、提取日志中有用信息是目前我们面临的一个困难。论文基于Map-Reduce并行处理平台详细介绍了如何处理海量日志信息,经过日志信息预处理、用户聚类等处理过程,最终根据用户的访问商品类情况对用户进行了聚类。通过使用hadoop云计算平台有效地避免了传统单机处理大规模web日志数据运行时间过长或者运行不出结果的问题,低廉并且高效实现了大规模原始数据的预处理及聚类。本文以web用户访问商品的

2、日志信息为数据源。它使用了Map-Reduce思想,该思想共分为两个阶段Map阶段信息提取;reduce阶段进行数据求和。详细介绍了并实现了基于Map-Reduce超大文件数据间的join操作及改进型join操作。然后对上面的处理结果建立向量空间模型,形成了用户访问类向量空间模型。在聚类研究过程中将SOM的自适应思想与模糊聚类思想结合在一起在Map-Reduce平台上实现。由于传统模糊聚类具有运行时间长、运算复杂等特征所以当数据量大的时候往往无法得出结果。论文将自适应的思想应.【英文摘要】WiththehighdevelopmentofInternet,e-commercewebsitesno

3、wroutinelyhavetoworkwithlogdatasetswhichareuptoafewterabytesinsize.Howtoremovemessydatatimelywithlowcostandfindoutusefulinformationisaproblemwehavetoface.ThisPaperisbasedonMap-Reduceparallelprocessingplatform.Itintroducestheprocessingofloginformationfromrawdatatofinalmodelandimplementdataextraction,

4、clusteringalgorithmforahugeamountofdata.Finally,wecanclustertheuserswh.【关键词】Map-Reduce分布式聚类分布式数据预处理join操作【英文关键词】map-reducedistributeddataminingdatapre-processingjoinoperation【索购全文】联系園Qi:138113721EJQ2:139938848【目录】基于Map-Reduce分布式日志信息处理研究与实现摘要4-5ABSTRACT5第一章绪论8-141.1课题来源及意义8-91.2与本课题有关的国内外研究状况9-131.2.

5、1数据挖掘研究现状9-101.2.2分布式计算研究现状10-111.2.3云计算平台介绍11-131.3本文研究的内容和安排13-14第二章hadoop技术介绍14-202.1hadoop整体架构14-172.1.1HDFS14-152.1.2MapReduce15-172.2hadoop应用17-192.2.1hbase17-182.2.2hive182.2.3mahout18-192.3本章总结19-20第三章基于hadoop的日志信息处理20-313.1web日志的内容20-243.1.1基本概念21-223.1.2web日志信息预处理过程22-243.1.2.1数据清洗223.1.2.

6、2用户识别22- 233.1.2.3会话识别233.1.2.4补充路径23- 243.2hadoop处理数据操作24-313.2.1数据抽取与求和统计操作24-263.2.1.1数据抽取24- 253.2.1.2求和统计功能25-263.2.2基于map-reduce的join操作26-313.2.2.1默认join方式26-283.2.2.2mapjoin方式283.2.2.3改进后join方式28-31第四章基于map-reduce的聚类31-454.1聚类介绍314.2聚类方法分类31-354.2.1划分聚类324.2.2层次聚类32-334.2.3基于密度的聚类33-344.2.4其他

7、聚类算法34-354.3模糊理论35-364.3.1模糊集合354.3.2模糊关系35- 364.4模糊聚类36-404.4.1模糊C均值聚类36- 384.4.2模糊自组织映射神经网络聚类算法38-404.4.2.1自组织特征映射神经网络38-394.4.2.2模糊自组织特征映射网络39-404.5分布式聚类40-444.5.1基于map-reduce模糊C均值聚类41-434.5.2基于map-reduce模糊自组织特征映射网络聚类43-444.6本章总结44-45第五章基于map-reduce的web日志数据处理系统实现45-495.1系统环境455.2系统实现流程45-486.2.1日志信息收集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论