分布式计算方法统计模型的mr实现_第1页
分布式计算方法统计模型的mr实现_第2页
分布式计算方法统计模型的mr实现_第3页
分布式计算方法统计模型的mr实现_第4页
分布式计算方法统计模型的mr实现_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计模型的MapReduce实现目录1.

MapReduce入门

矩阵相乘

线性回归

逻辑回归2.非迭代的MapReduceKNN3.迭代的MapReduceK-means聚类一点讨论为什么要进行分布式计算?分布式计算的要点是什么?理想的情况,糟糕的情况1.入门-矩阵相乘1.入门-线性回归

1.入门-逻辑回归2.非迭代的MR–MapReduce过程2.非迭代的MR-KNN思想对一个测试样本点,找出训练样本集中与它距离最近的K个点,把这K个点的标签的众数作为预测标签步骤Mapper:

计算每个测试样本点与各训练样本点的距离,找到前K小的Reducer:以测试样本点汇总距离,找出前K小的,把这K个训练样本点的标签作为预测标签2.非迭代的MR-KNNMapper(每个mapper中包含部分训练集和所有测试集样本)输入:key–样本标号;value

-样本的标签和属性计算:每个测试样本点和训练样本点的距离,找到前K个

输出:key

-测试样本的标号;value

-训练样本的标签和距离Reduce输入:key

-测试样本的标号;value

-训练样本的标签和距离计算:对同一个Key对应的标签和距离,对距离升序排列,取前K个标签的众数输出:key

-测试样本的标号;value

–测试样本的预测标签3.迭代的MR:K-means步骤:初始化类中心Mapper将每条数据划入最近的类Reducer归并计算新的类中心对比新的类中心与上一次的类中心,若收敛则停止迭代,否则循环2-33.迭代的MR:K-means额外的输入中心点文件:用以存储中心点的类别标签和特征,需要初始化。该文件会在后序每一轮MapReducer中进行更新,直到收敛迭代终止判断文件:以中心点文件、Reducer计算得到的新中心点、终止条件为输入,返回是否终止迭代的判断Mapper输入:key

–样本标号;value

-样本特征;计算:每个样本点与k个中心点的距离,取距离最小的中心点的类别作为预测类别输出:key–类别标签

;value

–样本特征Reducer输入:key–类别标签

;value

–样本特征;计算:同一个key的样本特征的均值,作为新的中心点特征;判断该中心点与上一步的中心点的距离;若满足终止条件,输出当前(key,value);否则更新中心点文件,并进入下一轮MapReduce优化mapper只输出类别标签、样本个数、样本特征均值一点讨论随机森林并行?分布式?

一个worker中的数据是否能认为是随机抽样?kmeans马氏距离中特征的协方差矩阵如何估计?----->解决1:存储时,数据随机分区----->解决2:取平均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论