大数据存储与处理-大规模机器学习

上传人：2*** IP属地：湖北上传时间：2022-02-10 格式：PPTX 页数：83 大小：2.61MB 积分：30 举报 版权申诉

已阅读5页，还剩78页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、大数据存储与应用大数据存储与应用大规模机器学习大规模机器学习课程主页：http:/ 机器学习定义 Perceptron （感知机） SVM（ support-vector machines）支持向量机最近邻（ nearest neighbor）决策树机器学习训练集（X, y） X：feature vector y: label 目的：找到一个函数：y = f(X) 发现规律，预测未来 y类型实数：Regression 布尔值：二元分类有限取值：多元分类无限取值：句子狗狗分类奇瓦瓦狗（体小，毛平滑）小猎兔狗腊肠犬X: 高度，重量y: 狗的种类文本分类根据email的内容，判断

2、是否垃圾邮件根据新闻内容，判断新闻类型 Sport Politics Feature vector 单词向量（1，0）常用方法无监督学习聚类有监督学习决策树感知机：Perceptrons SVM 支持向量机神经元网络无循环感知机网络基于事例的学习 Instance-based learning KNN模型元素训练集测试集分类器问题：Overfit工作方式 Batch learning Online learning 象Stream 来一个处理一个，更新分类器能够处理大训练集应用快递获单预测 X：出价，起点，终点 y：接受/拒绝 Online算法持续收集新数据，

3、不断更新模型感知机感知机神经元刺激是输入的加权和感知机输入：实数向量输出：1/-1 例：垃圾邮件检测Instance 空间类型输入：X输出：y模型目标：找到合适的使0几何描述 W和X向量的点积（余弦距离）wx 0wx 0求W 初始化为全0 来一个x，算如果y=y，W保持不变如果y!=y，往yx的方向旋转一点旋转的效果 y(x1) = 1 却被判为了-1 W往x1方向转一点 W + cyx1 判断平面逆时针旋转一点试图把x1包进来收敛性只要是线性可分割的，就会收敛如果不是，最后会震荡，无限循环震荡时的停止算法震荡时，如何停止算法？逐渐减小调整幅度观察训练集上的误差

4、观察一个小测试集上的误差限制最大迭代次数非零判决平移多类感知超过两类分别训练三个分类器谁的wx值最大，算谁Winnow算法总会收敛 x取值：0，1 初始化 w 全1，为x的长度预测预测对，w不动预测错： y真值是1，可，说明w太小，看x中哪些值为1，把对应的w加倍 y真值是-1，可，说明w太大，看x中哪些值为1，把对应的w减半的调整把它加到w里，一起变允许对应的x为 -1，但调整方法反过来：预测错：y真值是1，，说明太大，减半y真值是-1，，说明太小，加倍扩展平衡Winnow （Balanced Winnow） Thick Separator 界限（Ma

5、rgin）放松非线性边界变换到线性上Map-Reduce的实现每个机器处理部分x Map：如果出错，生成键值对（i, cyxi) 表示要对wi进行调整 c为调整速度 Reduce 累积，实现对w的调整重复，直到收敛，或到达停止的条件感知机总结感知机加法更新w 适合x少，互相有相关性Winnonw 乘法更新w 适合x多，互相无相关性感知机总结是一种Online算法新(x,y)到达，更新w局限线性分割线性不可分的话，不收敛 Feature多时，效果一般问题过拟合哪个最优？问题一旦找到边界，就停止，不是最优SVM问题寻找最佳的线性分割最大化MarginMargin 到分割平面

6、的距离，越宽越好最优分割平面SVM 改进Perceptron的问题：最大化MarginMargin的数学描述A在B上的投影点积MarginAM在w上的投影M在在L上上最大化Margin即：即：SVM求最佳分割平面最佳分割平面由支持向量决定d维X，一般有d+1个支持向量其他点可以忽略归一化最佳分割平面 w，b加倍，margin也加倍，不好找Max 加约束 |W| = 1 给b也加一个约束，支持向量xi在上面等于1/-1归一化结果最小化最小化|W|优化问题转化优化最小化最小化|W|SVM with “hard” 约束即：优化训练集最优解:不能线性分割引入惩罚：离边界的距离优化问题转化为惩罚

7、因子C C大：Care，惩罚大 C = 0: 无所谓也叫惩罚函数Z离边界的距离优化 Matlab求解 Big Data时，求解困难最小化 Convex函数 Gradient Descent （梯度下降）递归惩罚函数的导数如果y = 1 如果y = -1 总结小结：梯度下降法目标：求w，最小化梯度下降，调整w 梯度SVM例 C= 0.1， b作为一个W，参与优化，初始 W = 0,1, b = -2 b对应的样本值为1 训练集获得惩罚函数导数表代入代入训练集训练集计算梯度代入初始w=u,v,b = 0,1,-2，过一遍表，得到第二行不满足获得梯度更新w 重复扫描惩罚函数表，

8、计算梯度调整权重 MapReduc Map管不同的惩罚函数行 Reduce加起来，获得梯度问题调整一次W，对所有样本都过一遍Stochastic Gradient Descent 翻过来:对每个样本（共n个），把各维更新一遍性能评估 Leon Bottou 文本分类 Reuters RCV1文档 Train set： n = 781,000 （文档） Test set: 23,000 d = 50,000 features （单词）移走禁用词 stop-words 移走低频词结果速度大大提高准确度合理的质量情况下，时间大大缩短扩展Batch Conjugate Gradient 收敛

9、更快SGD 更简单多次SGD，比一次BCG好。实际需要选择和 Leon建议选，使期望的初始更新和期望的权重可比选：挑少量样本尝试10, 1, 0.1, 0.01, 选效果最好的实际当x稀疏时近似为两步因为x稀疏，所以，第一步中更新的Wi少两种方案：1. W = SV，S为标量，V为向量2. 第二步频率低一些，大一些停止在测试集上检验在训练集上检验多类方法1：类似感知机训练三个分类器选多类方法2：同时学习三类权重优化问题类似地解最近邻K-Nearest Neighbor (KNN) Instance based learning 保存整个训练集 (x,y

10、) 新查询q 寻找最近的样例根据样例，预测q的y 回归/分类例：Collaborative filtering 寻找K个最相似的用户根据他们的评分，预测用户的评分四要素距离Metric：最近 Euclidean K的选择加权函数预测平均K=1K=9Kernel回归 K：所有已知样本加权函数K=9最近邻寻找算法线性扫描基于树的高维Index结构 Multidimensional index structures主存 Quadtree kd-tree第二存储 R-trees高维的挑战curse of dimensionality 维数诅咒两种方法 VA Files 两级降维（SV

11、D）到低维处理非欧式距离Manhattan distanceJaccard distance 用LSH 近似相似决策树Decision Tree决策树回归分类构造树1) FindBestSplit 分类最大化信息增益1）FindBestSplit 回归最大化对数值：Sort，然后依次检查对类型：按子集2) StoppingCriteria 很多启发式方法方差足够小元素足够少3) FindPrediction 回归返回叶子中元素均值返回叶子中元素线性回归分类返回叶子中元素类型MapReduce实现 Parallel Learner for Assembling Numerous Ensemble Trees Panda et al., VLDB 09 一级一个Map-Reduce Mapper考虑大量可能的Split Reduce综合，决定最优Split装袋 Bagging 采样训练集学习多个树组合其预测结果，得到更好的结果很实用的方法SVM vs. DT 比较Refer B. Panda, J. S. Herbach, S. Basu, and R. J. Bayardo. PLANET: Massively parallel learning of tree ensembles with MapReduce. VLDB 2009. J.

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据存储与处理-大规模机器学习

文档简介

温馨提示

最新文档

评论

大数据存储与处理-大规模机器学习

文档简介

温馨提示

最新文档

评论

相关文档